CN113158577A - 基于层次化耦合关系的离散数据表征学习方法及系统 - Google Patents

基于层次化耦合关系的离散数据表征学习方法及系统 Download PDF

Info

Publication number
CN113158577A
CN113158577A CN202110483315.6A CN202110483315A CN113158577A CN 113158577 A CN113158577 A CN 113158577A CN 202110483315 A CN202110483315 A CN 202110483315A CN 113158577 A CN113158577 A CN 113158577A
Authority
CN
China
Prior art keywords
eigenvalue
characteristic value
matrix
discrete data
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110483315.6A
Other languages
English (en)
Inventor
蹇松雷
黄辰林
谭郁松
李宝
董攀
丁滟
任怡
王晓川
张建锋
谭霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110483315.6A priority Critical patent/CN113158577A/zh
Publication of CN113158577A publication Critical patent/CN113158577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于层次化耦合关系的离散数据表征学习方法及系统,本发明包括对输入的离散数据集合X,计算基于出现/共现频率的特征值影响力矩阵Mo和Mc以完成特征值耦合关系学习,进行聚类特征类学习得到特征值类的类别隶属关系矩阵C以完成特征值类学习,输入预先完成训练的自动编码器进行降维得到特征值表征矩阵V以完成特征值类耦合关系学习,将特征值表征矩阵V中取出每个特征值的连续表征拼接得到连续化数据表征R以完成离散数据表征学习。本发明能够有效提高提高离散型数据的使用效率和离散数据表征学习的信息量,能够在不利用数据标注的情况下,捕获到离散数据中的层次化耦合关系,从而为后续应用提供一个离散数据表征学习接口。

Description

基于层次化耦合关系的离散数据表征学习方法及系统
技术领域
本发明涉及人工智能领域,具体涉及一种基于层次化耦合关系的离散数据表征学习方法及系统,用于捕获离散数据中的层次化耦合关系,从而为后续的机器学习方法或者数据挖掘算法提供数据表征的支撑。
背景技术
具有有限离散值的数据在现实应用中非常常见,如统计数据中的性别、学历,交易数据中的类型、项目等,并且在数据表征和学习领域已经收到了充分的关注。和连续性数据不同,离散型数据不能直接进行代数操作,所以很多经典的离散型学习方法不能直接应用到离散型数据中。所以,学习离散型数据的连续型表征很重要。通常来说,一个好的表征应该有效抓住数据的内在特点。复杂离散型数据的一个重要数据特点就是特征值之间具有如下层次化的耦合关系(即依赖性或者相关性):(1)对于数据底层,属性值之间存在强烈的数据耦合关系,表现为属性值的自然聚类。(2)从更高层面来说,不同的属性值类相互也具有耦合关系。这种耦合关系不仅在同一个粒度的属性值类之间存在,也在不同粒度之间的属性值类存在。
对于以上离散型数据的层次属性耦合特点,现有的基于嵌入和相似度的表征方法都只能捕获或者不能捕获这些耦合关系。在离散数据表征中,编码(encoding)是最普遍的一种表征方式。其中最流行的方法是独热编码,即将每一列离散特征编码为一个二值矩阵(通常是0和1)。特征fi被编码为|Vi|(fi的特征值个数)个向量,其中每个向量只有一位为“1”对应一个特征值,其他全为“0”。尽管通过独热编码可以反编码原始数据,但是它隐含的假设是所有特征值都是独立和等价的,而事实上并非如此。同时,独热编码会导致表征的维度非常高,引起维度灾难。我们可以通过一些降维方法,如主成分分析(PCA),来降低独热表征矩阵的维度。另一个比较有名的编码方式是IDF编码,即通过每个特征值频率倒数的log值来表征这个特征值。IDF能从特征值出现频率的角度捕获一些数据特点。尽管这些编码方法实现简单效率很高,但是他们都无法捕获数据中复杂的特征值耦合关系典型的基于嵌入的表征方法通过编码规则将离散型数据转换成连续型,比如0-1编码和倒文本序(IDF)编码。这些方法虽然很容易实现,但是却没有考虑数据之间的耦合关系,因为他们总是将数据属性当作相互独立的。最近一些基于相似度的表征方法,比如在文献中提出的方法将属性关系考虑倒相似度或者核矩阵中。但是,他们并不能捕获从数据属性值到属性类的层次化耦合关系,也使得他们不能很好地处理这种带有层次化耦合关系特征的数据。
通过数据对象的两两相似度矩阵来表征离散数据也是一种常见的离散数据表征方法。在学习相似度的时候可以融入数据中的耦合关系:如ALGO使用特征值之间的条件概率来表述特征值耦合关系;DILCA和DM用特征选择和特征权重来衡量特征之间的耦合关系;COS考虑了特征之间和特征内部的耦合关系,CMS在COS的基础上提出了数据对象之间的距离度量。除此之外,还有一些基于嵌入的方法,例如在相似度矩阵的基础上优化了数据嵌入。其他的嵌入方法,如需要引入类标签来学习对象之间的距离,并不符合无监督任务的条件。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于层次化耦合关系的离散数据表征学习方法及系统,本发明提出了一个耦合的无监督离散数据表征学习CDRL(Categorical Data Representation Learning)的方法,在不利用数据标注的情况下捕获到离散数据中的层次化耦合关系,能够提高离散型数据的使用效率和离散数据表征学习的信息量,从而为机器学习方法或者数据挖掘算法提供数据表征的支撑。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于层次化耦合关系的离散数据表征学习方法,包括:
1)对输入的离散数据集合X,分别通过预设的频率影响力耦合关系函数
Figure BDA0003049286290000021
计算基于出现频率的特征值影响力矩阵Mo,通过预设的共现影响力耦合关系函数
Figure BDA0003049286290000022
计算基于共现概率的特征值影响力矩阵Mc
2)针对基于出现频率的特征值影响力矩Mo、基于共现概率的特征值影响力矩Mc进行聚类特征类学习得到特征值类的类别隶属关系矩阵C;
3)将特征值类的类别隶属关系矩阵C输入预先完成训练的自动编码器进行降维,得到降维后的大小为|V|×r的特征值表征矩阵V,其中|V|表示特征值表征矩阵V的大小,r表示特征值表征矩阵V的行数,×表示矩阵乘法;
4)将特征值表征矩阵V中取出每个特征值的连续表征拼接得到离散数据集合X对应的大小为N×(r*D)的连续化数据表征R,其中N表示离散数据集合X包含的数据对象数量,*表示乘法,D表示离散数据集合X包含的离散特征数量。
可选地,步骤1)中频率影响力耦合关系函数
Figure BDA0003049286290000023
的函数表达式为:
Figure BDA0003049286290000024
上式中,
Figure BDA0003049286290000025
表示特征值vj来自于特征值vi的频率影响力,ω(fi,fj)表示特征值vj和特征值vi之间的互信息,fi表示特征值vi对应的特征,fj表示特征值vj对应的特征,p(vi)表示特征值vi的出现概率,p(vj)表示特征值vj的出现概率。
可选地,步骤1)中计算基于出现频率的特征值影响力矩阵Mo的函数表达式为:
Figure BDA0003049286290000031
上式中,
Figure BDA0003049286290000032
表示特征值v1来自于特征值v1的频率影响力,
Figure BDA0003049286290000033
表示特征值vL来自于特征值v1的频率影响力,
Figure BDA0003049286290000034
表示特征值v1来自于特征值vL的频率影响力,
Figure BDA0003049286290000035
分别表示表示特征值vL来自于特征值vL的频率影响力,L为离散数据集合X中包含的特征值数量。
可选地,步骤1)中共现影响力耦合关系函数
Figure BDA0003049286290000036
的函数表达式为:
Figure BDA0003049286290000037
上式中,
Figure BDA0003049286290000038
表示特征值vj来自于特征值vi的共现影响力,p(vi,vj)表示特征值vj和特征值vi的共现概率,p(vi)表示特征值vi的出现概率。
可选地,步骤1)中计算基于共现概率的特征值影响力矩阵Mc的函数表达式为:
Figure BDA0003049286290000039
上式中,
Figure BDA00030492862900000310
表示特征值v1来自于特征值v1的共现影响力,
Figure BDA00030492862900000311
表示特征值vL来自于特征值v1的共现影响力,
Figure BDA00030492862900000312
表示特征值v1来自于特征值vL的共现影响力,
Figure BDA00030492862900000313
分别表示表示特征值vL来自于特征值vL的共现影响力,L为离散数据集合X中包含的特征值数量。
可选地,步骤2)包括:
2.1)初始化特征值类的类别隶属关系矩阵C为空;
2.2)判断基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc是否都已经遍历完毕,若都已经遍历完毕,则将最终得到的特征值类的类别隶属关系矩阵C输出,跳转执行步骤3);否则,跳转执行下一步;
2.3)初始化聚类的总类别数量k;
2.4)判断集合大小|CS|与总类别数量k的比值是否超过预设比例参数α是否成立,若成立则跳转执行下一步,否则跳转执行步骤2.2);
2.5)初始化集合CS为空,集合CS用于记录只包含一个特征值的特征值类;
2.6)将特征值类的类别隶属关系矩阵C和上一次的聚类结果拼接后作为新的特征值类的类别隶属关系矩阵C;
2.7)将总类别数量k加1;
2.8)将只包含一个特征值的特征值类从特征值类的类别隶属关系矩阵C中删除,然后迁移到集合CS中;
2.9)计算集合CS的集合大小|CS|,跳转执行步骤2.4)。
可选地,步骤3)中的自动编码器包括两层结构的编码器和解码器,编码器和解码器两者结构对称且均为两层结构,编码器的第一层的函数表达式为σ(W1 TC),编码器的第二层的函数表达式为V=W2 T(σ(W1 TC)),其中σ为激活函数,W1为第一层的权重矩阵,C表示特征值类的类别隶属关系矩阵,V表示降维后的大小为|V|×r的特征值表征矩阵V,W2为第二层的权重矩阵,第一层的激活函数为sigmoid函数,第二层的激活函数为线性函数,自动编码器的训练过程是不断的减小损失函数Loss[x,g(f(x))],x表示编码器的输入,g(f(x))表示解码器的输出结果。
可选地,步骤4)中将特征值表征矩阵V中取出每个特征值的连续表征拼接得到离散数据集合X对应的大小为N×(r*D)的连续化数据表征R时,针对连续化数据表征R中的每一行r的生成方式如下述函数表达式所示:
r=σ(v1,v2,…,vD),
上式中,σ为拼接函数,v1~vD为特征值表征矩阵V中对应行的元素。
此外,本发明还提供一种基于层次化耦合关系的离散数据表征学习系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行前述基于层次化耦合关系的离散数据表征学习方法的步骤。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有被编程或配置以执行前述基于层次化耦合关系的离散数据表征学习方法的计算机程序。
和现有技术相比,本发明主要具有下述优点:
1、本发明方法包括对输入的离散数据集合X,分别通过预设的频率影响力耦合关系函数
Figure BDA0003049286290000041
计算基于出现频率的特征值影响力矩阵Mo,通过预设的共现影响力耦合关系函数
Figure BDA0003049286290000042
计算基于共现概率的特征值影响力矩阵Mc以完成特征值耦合关系学习,进行聚类特征类学习得到特征值类的类别隶属关系矩阵C以完成特征值类学习,将特征值类的类别隶属关系矩阵C输入预先完成训练的自动编码器进行降维,得到降维后的大小为|V|×r的特征值表征矩阵V以完成特征值类耦合关系学习,将特征值表征矩阵V中取出每个特征值的连续表征拼接得到离散数据集合X对应的大小为N×(r*D)的连续化数据表征R以完成离散数据表征学习,通过上述依次递进的特征值耦合关系学习、特征值类学习、特征值类耦合关系学习、离散数据表征学习,能够有效提高提高离散型数据的使用效率和离散数据表征学习的信息量,能够在不利用数据标注的情况下,捕获到离散数据中的层次化耦合关系,从而为后续应用提供一个离散数据表征学习接口。
2、本发明可应用于入侵检测系统中基于网络行为数据的离散数据进行入侵检测前的数据预处理,网络行为数据的离散数据进行入侵检测前的数据预处理需要将离散数据的特征连续化处理,传统简单的离散数据方式直接将其转换为独热表征,即若该数据对象包含某个特征值,则所属位设置为1,其余为0,这种方式会忽略离散特征之间的隐式相关关系。相对传统简单的离散数据方式而言,本发明应用于网络行为数据包含离散数据的特征连续化处理,由于能够提高提高离散型数据的使用效率和离散数据表征学习的信息量,因此能够有效提高入侵检测系统中基于网络行为数据的离散数据进行入侵检测的准确度。
附图说明
图1为本发明实施例方法的基本原理框架的总体结构图。
图2是本发明实施例方法的详细流程图。
图3是本发明实施例采用的自动编码器Autoencoder的结构图。
具体实施方式
常见的网络行为数据包含离散数据和连续数据,在输入入侵检测系统之前需要对特征进行连续化处理。而传统入侵检测系统对于离散数据的处理非常简单,直接将其转换为独热表征,即若该数据对象包含某个特征值,则所属位设置为1,其余为0,这种方式会忽略离散特征之间的隐式相关关系。下文将以入侵检测系统中基于网络行为数据的离散数据进行入侵检测前的数据预处理为例为例,对本发明基于层次化耦合关系的离散数据表征学习方法及系统进行进一步的详细说明。
如图1所示,本实施例基于层次化耦合关系的离散数据表征学习方法包括:
1)对输入的离散数据集合X,分别通过预设的频率影响力耦合关系函数
Figure BDA0003049286290000051
计算基于出现频率的特征值影响力矩阵Mo,通过预设的共现影响力耦合关系函数
Figure BDA0003049286290000052
计算基于共现概率的特征值影响力矩阵Mc
2)针对基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc进行聚类特征类学习得到特征值类的类别隶属关系矩阵C;
3)将特征值类的类别隶属关系矩阵C输入预先完成训练的自动编码器进行降维,得到降维后的大小为|V|×r的特征值表征矩阵V,其中|V|表示特征值表征矩阵V的大小,r表示特征值表征矩阵V的行数,×表示矩阵乘法;
4)将特征值表征矩阵V中取出每个特征值的连续表征拼接得到离散数据集合X对应的大小为N×(r*D)的连续化数据表征R,其中N表示离散数据集合X包含的数据对象数量,*表示乘法,D表示离散数据集合X包含的离散特征数量。
D表示离散数据集合X包含的数据对象数量,即X={x1,,…,xN},其中包含了D个离散特征F={f1,…,fD},在具体的实施步骤之前,可通过一个具体例子来说明后续内容中用到的符号。特别地,以人口普查数据为例,即一张数据表(离散数据集合X),包含N个数据对象,即X={x1,,…,xN},其中包含了D个离散特征F={f1,…,fD},例如人的性别、工作、学历等。每个特征f有一个特征值域Vf={v1,v2,…}其中包含了有限个特征值(至少两个),例如特征学历包含了高中、本科、研究生等。所有的特征值集合是各个特征值域的并集,并表示为大小为L的集合V。本专利的目的可以描述成如下:给定一个数据对象集合X,我们的目标是学习数据对象集合X的连续化数据表征R。步骤1)即为特征值耦合关系学习的步骤,特征值耦合关系学习是离散数据表征学习的基础,主要负责提取离散数据中的耦合关系。为了学习特征值耦合关系,本发明构造了两个特征值影响力矩阵从两个最基本的角度捕获特征值耦合关系:出现频率和共现概率,这两个角度构建的耦合关系能够相互补充。首先介绍一些前提符号设置。数据对象x来自于特征f的特征值表示为
Figure BDA0003049286290000064
而特征值vi表示它隶属于特征fi。假设特征值出现的概率p(v)可以通过它的频率计算。两个特征值vi和vj的联合概率p(vi,vj)为:
Figure BDA0003049286290000061
上式中,
Figure BDA0003049286290000065
表示数据对象x来自于特征fi的特征值,N表示离散数据集合X包含的数据对象数量。
基于以上联合概率,我们可以计算两个特征之间的互信息(mutualinformation),用ω(fi,fj)来表示。
本实施例中,步骤1)中频率影响力耦合关系函数
Figure BDA0003049286290000066
的函数表达式为:
Figure BDA0003049286290000062
上式中,
Figure BDA0003049286290000067
表示特征值vj来自于特征值vi的频率影响力,ω(fi,fj)表示特征值vj和特征值vi之间的互信息,fi表示特征值vi对应的特征,fj表示特征值vj对应的特征,p(vi)表示特征值vi的出现概率,p(vj)表示特征值vj的出现概率。频率概率(即边缘概率)是特征值最基本的性质,它能够用于区分特征值。本发明中采用非对称的边缘概率比例来量化两个特征值之间的影响力,而非对称的边缘概率相似度,所以Mo能捕获更多信息。进一步的,本章将互信息作为特征影响力的权值,因为特征值的边缘概率并不能够区分不同的特征。
本实施例中,步骤1)中计算基于出现频率的特征值影响力矩阵Mo的函数表达式为:
Figure BDA0003049286290000063
上式中,
Figure BDA0003049286290000068
表示特征值v1来自于特征值v1的频率影响力,
Figure BDA0003049286290000069
表示特征值vL来自于特征值v1的频率影响力,
Figure BDA00030492862900000610
表示特征值v1来自于特征值vL的频率影响力,
Figure BDA0003049286290000073
分别表示表示特征值vL来自于特征值vL的频率影响力,L为离散数据集合X中包含的特征值数量。
本实施例中,步骤1)中共现影响力耦合关系函数
Figure BDA0003049286290000074
的函数表达式为:
Figure BDA0003049286290000071
上式中,
Figure BDA0003049286290000075
表示特征值vj来自于特征值vi的共现影响力,p(vi,vj)表示特征值vj和特征值vi的共现概率,p(vi)表示特征值vi的出现概率。共现概率(即联合概率)反应了两个特征值之间的二元耦合关系。因为两个特征值的联合概率可能会相似,但是对彼此的影响力可能却不一样,所以本章利用非对称的条件概率来衡量一个特征值对另一个特征值的影响力。因为两个来自同一个特征的特征值不可能同时出现在一个数据对象中,所以它们的
Figure BDA0003049286290000076
为0。
本实施例中,步骤1)中计算基于共现概率的特征值影响力矩阵Mc的函数表达式为:
Figure BDA0003049286290000072
上式中,
Figure BDA0003049286290000077
表示特征值v1来自于特征值v1的共现影响力,
Figure BDA0003049286290000078
表示特征值vL来自于特征值v1的共现影响力,
Figure BDA0003049286290000079
表示特征值v1来自于特征值vL的共现影响力,
Figure BDA00030492862900000710
分别表示表示特征值vL来自于特征值vL的共现影响力,L为离散数据集合X中包含的特征值数量。
步骤2)即为特征值类学习的步骤,用于通过对基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc进行不同粒度的聚类,即通过控制聚类类别个数实得到若干个不同大小的特征值类,通过这些特征值类可以得到特征值表征的初始表征。
如图2所示,本实施例步骤2)包括:
2.1)初始化特征值类的类别隶属关系矩阵C为空;
2.2)判断基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc是否都已经遍历完毕,若都已经遍历完毕,则将最终得到的特征值类的类别隶属关系矩阵C输出,跳转执行步骤3);否则,跳转执行下一步;
2.3)初始化聚类的总类别数量k;
2.4)判断集合大小|CS|与总类别数量k的比值是否超过预设比例参数α是否成立,若成立则跳转执行下一步,否则跳转执行步骤2.2);
2.5)初始化集合CS为空,集合CS用于记录只包含一个特征值的特征值类;
2.6)将特征值类的类别隶属关系矩阵C和上一次的聚类结果拼接后作为新的特征值类的类别隶属关系矩阵C;
2.7)将总类别数量k加1;
2.8)将只包含一个特征值的特征值类从特征值类的类别隶属关系矩阵C中删除,然后迁移到集合CS中;
2.9)计算集合CS的集合大小|CS|,跳转执行步骤2.4)。
针对基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc,我们可以学习不同粒度的特征值类,这些特征值类反应了数据的不同特点。本实施例中通过在特征值矩阵上进行聚类来学习不同大小的特征值类。通过在基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc运行k-means聚类,同时采用不同的总类别数量k,即{k1,k2,…,kn1}和{k1,k2,…,kn2}。图2中聚类结果表示为kmeans[M,k],其中M表示基于出现频率的特征值影响力矩阵Mo或者基于共现概率的特征值影响力矩阵Mc,k表示总类别数量。聚类结果通过类别隶属关系矩阵来表示,定义如下:
Figure BDA0003049286290000081
其中,C(i,j)为类别隶属关系矩阵的第i行、j列元素。
对于大多数特征值来说,拥有少量特征值的特征值类的区分能力更弱一些,因为CDRL的目标是产生那些能够区分更多特征值的特征值类。因此,我们删除掉那些只有一个特征值的小特征值类。通过拼接在两个特征值影响力矩阵上产生的指示矩阵,我们得到一个大的指示矩阵,其中每一行用来代表一个特征值。
步骤3)即为特征值类耦合关系学习的步骤,目的是为了消除特征值类之间的冗余关系和学习特征值类之间的相关关系。本实施例中通过输入自动编码器(Autoencoder)实现维度的降低,得到离散数据特征值的低维连续性表征。经过构造包含全面的特征值类的类别隶属关系矩阵C之后,我们需要捕获特征值类之间的耦合关系。同时,经过学习特征值类的耦合关系,我们需要建立一个简洁且蕴含信息的特征值表征。一种非常直观的方法就是利用深度神经网络来进行特征值类的耦合关系学习,我们在这里利用自动编码器(Autoencoder)来学习不同粒度的特征值类之间的非线性关系。自动编码机包含两部分,编码器和解码器,它们的函数表达是可以简写如下:
编码器(Encoder):code=f(x),
解码器(Decoder):x′=g(code)=g(f(x))
编码器的作用是学习一个低维空间的表征code,在编码器中的每一层网络都学习x的特征以及特征的耦合关系,因此获得的表征code充分包含了x的信息。解码器将得到的低维表征code还原为初始的输入x。自动编码器的训练过程是不断的减小损失函数Loss[x,g(f(x))]。经过训练,低维表征code在携带与输入x相似的信息量的同时,可以捕获x中隐藏的耦合关系。参见图3,本实施例中步骤3)中的自动编码器包括两层结构的编码器(encoder)和解码器(decoder),编码器和解码器两者结构对称且均为两层结构,编码器的第一层的函数表达式为σ(W1 TC),编码器的第二层的函数表达式为V=W2 T(σ(W1 TC)),其中σ为激活函数,W1为第一层的权重矩阵,C表示特征值类的类别隶属关系矩阵,V表示降维后的大小为|V|×r的特征值表征矩阵V,W2为第二层的权重矩阵,第一层的激活函数为sigmoid函数,第二层的激活函数为线性函数,自动编码器的训练过程是不断的减小损失函数Loss[x,g(f(x))],x表示编码器的输入,g(f(x))表示解码器的输出结果。本实施例中,编码器的输入x即为特征值类的类别隶属关系矩阵C,因此输入的维度即为特征值类的类别隶属关系矩阵C的维度。第一层的激活函数为sigmoid函数,定义为:
σ(x)=1/(1+e-x),
参见图3,本实施例中第一层的目标维度为100,第二层的目标维度为20,可将维度从100个维度降低为20个维度。为了获取多样的特征值类之间的耦合关系,并且得到一个相对低维度的特征值表征,我们采用自动编码器来进行学习。也就是说,我们将之前聚类获得的类别隶属关系矩阵C(C=[CO,CC]),即为从两个耦合关系矩阵聚类而来的矩阵拼接,作为输入训练自动编码器。进而我们利用编码器来生成新的特征值表征矩阵V,其大小为|V|×r,其中每一行代表一个特征值的表征。
步骤4)即为离散数据表征学习的步骤,离散数据表征学习是在降维之后的特征值表征基础上学习离散数据对象的连续性表征,具体可以通过将数据对象不同特征值进行拼接或求均值操作得到,我们这里通过拼接得到每个数据对象的连续表征。本实施例中,步骤4)中将特征值表征矩阵V中取出每个特征值的连续表征拼接得到离散数据集合X对应的大小为N×(r*D)的连续化数据表征R时,针对连续化数据表征R中的每一行r的生成方式如下述函数表达式所示:
r=σ(v1,v2,…,vD),
上式中,σ为拼接函数,v1~vD为特征值表征矩阵V中对应行的元素,通过选取拼接函数,将每个特征值的表征拼接之后形成数据表征。由新的离散数据特征值表征V可以生成离散数据的数据对象的连续化数据表征R。数据对象x的表征r,即为连续化数据表征R的某一行,可以通过上述针对特征值表征v的数据对象表征函数建模。
本实施例基于层次化耦合关系的离散数据表征学习方法(Categorical DataRepresentation Learning,简称CDRL)在具体应用时,针对前文的步骤1)~步骤4),分别采用不同的程序单元来实现,其实现得到的离散数据表征学习框架包含4个学习模块,分别是特征值耦合关系学习模块、特征值类学习模块、特征类耦合关系学习模块和离散数据表征学习模块,分别一一对应前文的步骤1)~步骤4),该离散数据表征学习框架具有层次化的学习结构,并实例化为一个离散数据表征学习算法,为后续的机器学习算法或其他方法提供了调用接口。
综上所述,本实施例基于层次化耦合关系的离散数据表征学习方法能够有效提高提高离散型数据的使用效率和离散数据表征学习的信息量,能够在不利用数据标注的情况下,捕获到离散数据中的层次化耦合关系,从而为后续应用提供一个离散数据表征学习接口。本实施例方法可应用于入侵检测系统中基于网络行为数据的离散数据进行入侵检测前的数据预处理,网络行为数据的离散数据进行入侵检测前的数据预处理需要将离散数据的特征连续化处理,传统简单的离散数据方式直接将其转换为独热表征,即若该数据对象包含某个特征值,则所属位设置为1,其余为0,这种方式会忽略离散特征之间的隐式相关关系。相对传统简单的离散数据方式而言,本发明应用于网络行为数据包含离散数据的特征连续化处理,由于能够提高提高离散型数据的使用效率和离散数据表征学习的信息量,因此能够有效提高入侵检测系统中基于网络行为数据的离散数据进行入侵检测的准确度。
此外,本实施例还提供一种基于层次化耦合关系的离散数据表征学习系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行前述基于层次化耦合关系的离散数据表征学习方法的步骤。
此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有被编程或配置以执行前述基于层次化耦合关系的离散数据表征学习方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于层次化耦合关系的离散数据表征学习方法,其特征在于,包括:
1)对输入的离散数据集合X,分别通过预设的频率影响力耦合关系函数
Figure FDA0003049286280000011
计算基于出现频率的特征值影响力矩阵Mo,通过预设的共现影响力耦合关系函数
Figure FDA0003049286280000012
计算基于共现概率的特征值影响力矩阵Mc
2)针对基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc进行聚类特征类学习得到特征值类的类别隶属关系矩阵C;
3)将特征值类的类别隶属关系矩阵C输入预先完成训练的自动编码器进行降维,得到降维后的大小为|V|×r的特征值表征矩阵V,其中|V|表示特征值表征矩阵V的大小,r表示特征值表征矩阵V的行数,×表示矩阵乘法;
4)将特征值表征矩阵V中取出每个特征值的连续表征拼接得到离散数据集合X对应的大小为N×(r*D)的连续化数据表征R,其中N表示离散数据集合X包含的数据对象数量,*表示乘法,D表示离散数据集合X包含的离散特征数量。
2.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中频率影响力耦合关系函数
Figure FDA0003049286280000013
的函数表达式为:
Figure FDA0003049286280000014
上式中,
Figure FDA0003049286280000015
表示特征值vj来自于特征值vi的频率影响力,ω(fi,fj)表示特征值vj和特征值vi之间的互信息,fi表示特征值vi对应的特征,fj表示特征值vj对应的特征,p(vi)表示特征值vi的出现概率,p(vj)表示特征值vj的出现概率。
3.根据权利要求2所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中计算基于出现频率的特征值影响力矩阵Mo的函数表达式为:
Figure FDA0003049286280000016
上式中,
Figure FDA0003049286280000017
表示特征值v1来自于特征值v1的频率影响力,
Figure FDA0003049286280000018
表示特征值vL来自于特征值v1的频率影响力,
Figure FDA0003049286280000019
表示特征值v1来自于特征值vL的频率影响力,
Figure FDA00030492862800000110
分别表示表示特征值vL来自于特征值vL的频率影响力,L为离散数据集合X中包含的特征值数量。
4.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中共现影响力耦合关系函数
Figure FDA00030492862800000111
的函数表达式为:
Figure FDA00030492862800000112
上式中,
Figure FDA00030492862800000113
表示特征值vj来自于特征值vi的共现影响力,p(vi,vj)表示特征值vj和特征值vi的共现概率,p(vi)表示特征值vi的出现概率。
5.根据权利要求4所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中计算基于共现概率的特征值影响力矩阵Mc的函数表达式为:
Figure FDA0003049286280000021
上式中,
Figure FDA0003049286280000022
表示特征值v1来自于特征值v1的共现影响力,
Figure FDA0003049286280000023
表示特征值vL来自于特征值v1的共现影响力,
Figure FDA0003049286280000024
表示特征值v1来自于特征值vL的共现影响力,
Figure FDA0003049286280000025
分别表示表示特征值vL来自于特征值vL的共现影响力,L为离散数据集合X中包含的特征值数量。
6.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤2)包括:
2.1)初始化特征值类的类别隶属关系矩阵C为空;
2.2)判断基于出现频率的特征值影响力矩阵Mo、基于共现概率的特征值影响力矩阵Mc是否都已经遍历完毕,若都已经遍历完毕,则将最终得到的特征值类的类别隶属关系矩阵C输出,跳转执行步骤3);否则,跳转执行下一步;
2.3)初始化聚类的总类别数量k;
2.4)判断集合大小|CS|与总类别数量k的比值是否超过预设比例参数α是否成立,若成立则跳转执行下一步,否则跳转执行步骤2.2);
2.5)初始化集合CS为空,集合CS用于记录只包含一个特征值的特征值类;
2.6)将特征值类的类别隶属关系矩阵C和上一次的聚类结果拼接后作为新的特征值类的类别隶属关系矩阵C;
2.7)将总类别数量k加1;
2.8)将只包含一个特征值的特征值类从特征值类的类别隶属关系矩阵C中删除,然后迁移到集合CS中;
2.9)计算集合CS的集合大小|CS|,跳转执行步骤2.4)。
7.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤3)中的自动编码器包括两层结构的编码器和解码器,编码器和解码器两者结构对称且均为两层结构,编码器的第一层的函数表达式为σ(W1 TC),编码器的第二层的函数表达式为V=W2 T(σ(W1 TC)),其中σ为激活函数,W1为第一层的权重矩阵,C表示特征值类的类别隶属关系矩阵,V表示降维后的大小为|V|×r的特征值表征矩阵V,W2为第二层的权重矩阵,第一层的激活函数为sigmoid函数,第二层的激活函数为线性函数,自动编码器的训练过程是不断的减小损失函数Loss[x,g(f(x))],x表示编码器的输入,g(f(x))表示解码器的输出结果。
8.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤4)中将特征值表征矩阵V中取出每个特征值的连续表征拼接得到离散数据集合X对应的大小为N×(r*D)的连续化数据表征R时,针对连续化数据表征R中的每一行r的生成方式如下述函数表达式所示:
r=σ(v1,v2,…,vD),
上式中,σ为拼接函数,v1~vD为特征值表征矩阵V中对应行的元素。
9.一种基于层次化耦合关系的离散数据表征学习系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于层次化耦合关系的离散数据表征学习方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有被编程或配置以执行权利要求1~8中任意一项所述基于层次化耦合关系的离散数据表征学习方法的计算机程序。
CN202110483315.6A 2021-04-30 2021-04-30 基于层次化耦合关系的离散数据表征学习方法及系统 Pending CN113158577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110483315.6A CN113158577A (zh) 2021-04-30 2021-04-30 基于层次化耦合关系的离散数据表征学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110483315.6A CN113158577A (zh) 2021-04-30 2021-04-30 基于层次化耦合关系的离散数据表征学习方法及系统

Publications (1)

Publication Number Publication Date
CN113158577A true CN113158577A (zh) 2021-07-23

Family

ID=76872888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110483315.6A Pending CN113158577A (zh) 2021-04-30 2021-04-30 基于层次化耦合关系的离散数据表征学习方法及系统

Country Status (1)

Country Link
CN (1) CN113158577A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139629A (zh) * 2021-12-02 2022-03-04 中国人民解放军国防科技大学 基于度量学习的自引导式混合数据表征学习方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139629A (zh) * 2021-12-02 2022-03-04 中国人民解放军国防科技大学 基于度量学习的自引导式混合数据表征学习方法及系统

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
Benchaji et al. Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN111538761A (zh) 基于注意力机制的点击率预测方法
CN113535953B (zh) 一种基于元学习的少样本分类方法
CN111352965A (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN112819523B (zh) 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
CN115731498B (zh) 一种联合强化学习和对比学习的视频摘要生成方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN113179276B (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
Zeng et al. Pyramid hybrid pooling quantization for efficient fine-grained image retrieval
CN113158577A (zh) 基于层次化耦合关系的离散数据表征学习方法及系统
Chow et al. A new feature selection scheme using a data distribution factor for unsupervised nominal data
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN111709442A (zh) 一种面向图像分类任务的多层字典学习方法
CN114780725A (zh) 一种基于深度聚类的文本分类算法
CN113486180A (zh) 一种基于关系层级交互的远程监督关系抽取方法及系统
CN117236409B (zh) 基于大模型的小模型训练方法、装置、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723

RJ01 Rejection of invention patent application after publication