CN109818971A - 一种基于高阶关联挖掘的网络数据异常检测方法与系统 - Google Patents

一种基于高阶关联挖掘的网络数据异常检测方法与系统 Download PDF

Info

Publication number
CN109818971A
CN109818971A CN201910183446.5A CN201910183446A CN109818971A CN 109818971 A CN109818971 A CN 109818971A CN 201910183446 A CN201910183446 A CN 201910183446A CN 109818971 A CN109818971 A CN 109818971A
Authority
CN
China
Prior art keywords
network data
weight
network
value
discrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910183446.5A
Other languages
English (en)
Other versions
CN109818971B (zh
Inventor
高跃
王楠
赵曦滨
万海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qidian Innovation Technology Co.,Ltd.
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910183446.5A priority Critical patent/CN109818971B/zh
Publication of CN109818971A publication Critical patent/CN109818971A/zh
Application granted granted Critical
Publication of CN109818971B publication Critical patent/CN109818971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于高阶关联挖掘的网络数据异常检测方法与系统,其中,该方法包括:步骤1,根据获取到的网络数据集合,生成离散森林,并计算网络数据集合中网络数据的离散值;步骤2,根据聚类算法和异常网络数据,生成聚类中心点,并计算网络数据与聚类中心点的相似值;步骤3,根据离散值和相似值,计算网络数据集合中网络数据的权值;步骤4,根据网络数据的权值和超图模型,计算网络数据集合中未标记网络数据的标签矩阵;步骤5,根据标签矩阵,确定未标记网络数据的安全类型。通过本申请中的技术方案,实现了对工业网络环境中大量未标记网络数据的有效识别,提高了未标记网络数据识别的准确性以及已标记网络数据的利用率。

Description

一种基于高阶关联挖掘的网络数据异常检测方法与系统
技术领域
本申请涉及工业网络数据检测的技术领域,具体而言,涉及一种基 于高阶关联挖掘的网络数据异常检测方法以及一种基于高阶关联挖掘的 网络数据异常检测系统。
背景技术
随着网络技术的快速发展,网络攻击事件也频频发生,面对日益增 大的网络数据,如何高效快速的检测出网络数据中的异常数据、并将正 常数据和异常数据进行标记,变得越发重要。由于工业网络的特性,导 致工业网络中存在大量的未标记网络数据,不利于工业网络的安全运行。 由于工业网络中的网络数据遵循的协议类型众多,为了能够高效检测网 络数据存在的潜在威胁,并权衡检测质量与检测效率之间的关系,控制 异常网络数据对于工业网络的影响,及时、准确的对网络数据的检测十 分重要。
而现有技术中,针对异常网络数据的检测方式主要分为三种:监督 学习检测、半监督学习检测以及无监督学习检测,首先,由于监督学习 检测需要充足的已标记网络数据进行训练,而工业环境中存在标签的已 标记网络数据较少,导致监督学习检测的准确性较低;其次,虽然无监 督学习方式不需要标记数据,但是其不能充分利用已标记网络数据,不仅数据计算量较大、导致系统硬件性能要求较高,而且还造成了已标记 网络数据的浪费;最后,半监督学习方式虽然可以同时利用已标记网络 数据以及未标记网络数据,但是其必须具有所有类别异常网络数据的标 记,对于未标记类别的异常网络数据无法检测,导致异常网络数据检测 的全面识别性能较差。
发明内容
本申请的目的在于:实现对工业网络环境中大量未标记网络数据的 有效识别,提高了未标记网络数据识别的准确性以及已标记网络数据的 利用率。
本申请第一方面的技术方案是:提供了一种基于高阶关联挖掘的网 络数据异常检测方法,该方法包括:步骤1,根据获取到的网络数据集合, 生成离散森林,并计算网络数据集合中网络数据的离散值,其中,网络 数据可以为正常网络数据、异常网络数据和未标记网络数据中的一种; 步骤2,根据聚类算法和异常网络数据,生成聚类中心点,并计算网络数 据与聚类中心点的相似值;步骤3,根据离散值和相似值,计算网络数据 集合中网络数据的权值;步骤4,根据网络数据的权值和超图模型,计算 网络数据集合中未标记网络数据的标签矩阵;步骤5,根据标签矩阵,确 定未标记网络数据的安全类型,其中,安全类型包括正常型数据和异常 型数据。
上述任一项技术方案中,进一步地,步骤4,具体包括:步骤41, 根据网络数据的权值和超图模型,构建网络数据集合对应的第一检测模 型;步骤42,根据拉普拉斯正则化函数和代价敏感的经验损失函数,修 正第一检测模型,生成第二检测模型;步骤43,采用迭代算法,计算第 二检测模型的类型矩阵,当判定第二检测模型收敛时,将类型矩阵记作 标签矩阵。
上述任一项技术方案中,进一步地,步骤3,具体包括:步骤31, 根据离散值和相似值,计算网络数据的得分;步骤32,根据得分和得分 阈值,计算网络数据的权值,权值的计算公式为:
式中,U(Oi)为网络数据Oi对应的权值,TS(Oi)为得分,β为得分阈值。
本申请第二方面的技术方案是:提供了一种基于高阶关联挖掘的网 络数据异常检测系统,该系统包括:离散值计算单元,相似值计算单元, 权值计算单元,标签矩阵计算单元以及类型确定单元;离散值计算单元 用于根据获取到的网络数据集合,生成离散森林,并计算网络数据集合 中网络数据的离散值,其中,网络数据可以为正常网络数据、异常网络 数据和未标记网络数据中的一种;相似值计算单元用于根据聚类算法和 异常网络数据,生成聚类中心点,并计算网络数据与聚类中心点的相似 值;权值计算单元用于根据离散值和相似值,计算网络数据集合中网络 数据的权值;标签矩阵计算单元用于根据网络数据的权值和超图模型, 计算网络数据集合中未标记网络数据的标签矩阵;类型确定单元用于根 据标签矩阵,确定未标记网络数据的安全类型,其中,安全类型包括正 常型数据和异常型数据。
上述任一项技术方案中,进一步地,标签矩阵计算单元,具体包括: 第一模型构建单元,第二模型构建单元以及判定单元;第一模型构建单 元用于根据网络数据的权值和超图模型,构建网络数据集合对应的第一 检测模型;第二模型构建单元用于根据拉普拉斯正则化函数和代价敏感 的经验损失函数,修正第一检测模型,生成第二检测模型;判定单元用 于采用迭代算法,计算第二检测模型的类型矩阵,当判定第二检测模型 收敛时,将类型矩阵记作标签矩阵。
上述任一项技术方案中,进一步地,权值计算单元,具体包括:得 分计算模块和权值计算模块;得分计算模块用于根据离散值和相似值, 计算网络数据的得分;权值计算模块用于根据得分和得分阈值,计算网 络数据的权值,权值的计算公式为:
式中,U(Oi)为网络数据Oi对应的权值,TS(Oi)为得分,β为得分阈值。
本申请的有益效果是:通过计算网络数据的离散值和网络数据与异 常网络数据的聚类中心点的相似值,得到网络数据的权值,并将权值引 入由网络数据构建的超图模型中,得到未标记网络数据的标签矩阵,进 而得到未标记网络数据的安全类型,实现了对工业网络环境中大量未标 记网络数据的有效识别,提高了未标记网络数据识别的准确性以及已标 记网络数据的利用率。通过将网络数据的权值引入超图模型,优化了网 络数据之间的关联性,提高了超图模型中标签传递的准确性,进而提高 了未标记网络数据识别的准确性,有利于工业网络的安全运行。
本申请通过离散值和相似值,计算网络数据对应的得分,再根据得 分的大小,采用不同的计算公式计算对应的权值,提高了计算网络数据 权值的准确性,通过在超图模型中依次引入权值、拉普拉斯正则化函数 和代价敏感的经验损失函数,采用迭代算法,计算标签矩阵,实现了超 图模型根据已标记网络数据,对未标记网络数据的识别,有利于提高标 签矩阵的可靠性。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述 中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的基于高阶关联挖掘的网络数据异 常检测方法的流程图;
图2是根据本申请一个实施例的离散树的示意图;
图3是根据本申请一个实施例的超图结构示意图;
图4是根据本申请的一个实施例的基于高阶关联挖掘的网络数据异 常检测系统的示意框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合 附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是, 在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但 是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此, 本申请的保护范围并不受下面公开的具体实施例的限制。
实施例一:
结合图1至图3对本申请的实施例一进行说明。
如图1所示,本实施例提供了一种基于高阶关联挖掘的网络数据异 常检测方法,该方法包括:
步骤1,根据获取到的网络数据集合,生成离散森林,并计算网络数 据集合中网络数据的离散值,其中,网络数据可以为正常网络数据、异 常网络数据和未标记网络数据中的一种;
具体地,在工业网络中,获取到的网络数据集合
O={O1,...,On1,...,On2,...,On}中,其中,包括正常网络数据 {O1,O2,...,On1}、异常网络数据{On1+1,On1+2,...,On2}和未标记网络数据 {On2+1,On2+2,…,On},式中,n1、n2和n为大于或等于1的整数。根据 网络数据的离散性,引入离散森林模型,计算任一个网络数据对应的离 散值,其中,离散森林模型包括多棵离散树。
更具体的,在网络数据集合O中每次随机选取s个,共随机选取L 份,共构建Q1,.....QL个子集合,针对每一份选取的网络数据构建出一棵 离散树。以一棵离散树的构建过程为例,对于任一网络数据Oi,式中,1≤i≤n, 可以用属性集{A1,…,Aj,…,Ad}表示,式中,d≥j≥1。构建任一棵离散树 的任一层分节点时,随机选择上一层分节点(或根节点)中所包含的网 络数据的属性集中的任一个属性Aj作为划分准则,并从这个属性Aj的取 值范围内选取一个数值作为划分点S,根据划分点和各个网络数据中属性 Aj的取值,构建该层分节点。当所有的网络数据均被标记为叶子节点时, 表明该棵离散树构建完成。当所有选取的L份网络数据均构建成离散树 之后,则表明离散森林构建完成。
图2为网络数据的一棵离散树的示意图,选定的网络数据为 {O1,O2,O3,O4},每个网络数据均包括2个属性{A1,A2},每个属性的取值 范围为[0,1],在构建离散树时,网络数据{O1,O2,O3,O4}作为根节点,逐 层对网络数据进行划分,如划分第一层时,选定属性A1为划分准则、对 应的划分点S1=0.5,依次比较网络数据{O1,O2,O3,O4}中属性A1的取值与 划分点S1之间的大小关系,当网络数据的属性A1的取值大于或等于划分 点S1的取值时,将对应的网络数据置于右子树,否则将对应的网络数据 置于左子树,通过比较,将O1,O2,O3置于左子树、O4置于右子树,此时, 将O1,O2,O3作为下一层离散树的分节点,O4则被标记为一个叶子节点, 在进一步分离O1,O2,O3时,选取A2属性,利用同样的方式进行划分,选 取划分点S2,当网络数据的属性A2大于或等于划分点S2,放在右子树, 小于划分点S2时放在左子树。当O1,O2,O3,O4均被标记为叶子节点时,表 明属性Q1对应的离散树构建完成,再采用相同的方法,构建属性Q2…QL对 应的离散树,形成对应的离散森林。
当离散森林构建完成时,计算任一个网络数据Oi在离散森林中的第 一平均长度E(h(Oi)ρ),式中,ρ为离散森林中离散树的棵数,h(Oi)为该 网络数据Oi在当前离散树中对应的叶子节点到根节点的距离。如图2所 示,网络数据O1对应的距离h(O1)为2,网络数据O2对应的距离h(O2)为3。 进而根据第一平均长度E(h(Oi)ρ)和离散森林不可搜索的第二平均长度 c(n),计算该网络数据Oi对应的离散值IS(Oi),对应的计算公式为:
c(n)=2H(n)-(2(n-1)/n),
H(n)=ln(n)+0.5772156649,
式中,n为网络数据的个数。
步骤2,根据聚类算法和异常网络数据,生成聚类中心点,并计算网 络数据与聚类中心点的相似值;
具体地,考虑到网络数据中的异常网络数据数量较少、分布较为分 散,而正常数据数量较多、分布较为集中,而对于未标记网络数据,如 果其与异常数据越接近,则表明其为异常数据的可能性越大。因此,采 用聚类算法将异常网络数据进行聚类操作,并生成聚类中心点θk,针对 网络数据集合O,计算任一个网络数据Oi与聚类中心点θk的欧式距离来计算其对应的相似值SS(Oi),对应的计算公式为:
式中,k=1,2,...,γ,γ为聚类中心点的个数。
步骤3,根据离散值和相似值,计算网络数据集合中网络数据的权值;
在该步骤3中,具体包括:
步骤31,根据离散值和相似值,计算网络数据的得分;
具体地,设定权重比例系数α,以表示离散值IS(Oi)和相似值SS(Oi) 的重要程度,权重比例系数α的取值为(0,1),在本实施例中,可以设定权 重比例系数α=0.5,表明离散值IS(Oi)和相似值SS(Oi)同样重要。进而 计算网络数据Oi的得分TS(Oi),对应的计算公式为:
TS(Oi)=αIS(Oi)+(1-α)SS(Oi)。
步骤32,根据得分和得分阈值,计算网络数据的权值,权值的计算 公式为:
式中,U(Oi)为网络数据Oi对应的权值,TS(Oi)为得分,β为得分阈值。
具体地,根据设定的得分阈值β和得分TS(Oi),计算该网络数据Oi对 应的权值U(Oi),权值U(Oi)的计算公式为:
式中,得分阈值为网络数据得分的平均值。
步骤4,根据网络数据的权值和超图模型,计算网络数据集合中未标 记网络数据的标签矩阵;
在该步骤4中,具体包括:
步骤41,根据网络数据的权值和超图模型,构建网络数据集合对应 的第一检测模型;
具体地,现有的超图构建方法通常是利用星拓展方法,由于网络数 据集合O中的正常网络数据的数量远大于异常网络数据的数量,导致现 有的超图模型更加偏向于对正常网络数据的信息获取,而忽略异常网络 数据,在本申请的实施例中将网络数据集合O对应的每个权值U(Oi)引入 超图模型,以增强超图模型对异常网络数据的重视程度。
如图3所示,将任一个网络数据Oi作为超点,生成对应的一个超边, 当网络数据集合O中的所有的网络数据均生成对应的超边后,就构成了 一个含有n条超边的超图,将超图模型用矩阵的方式进行表示,可以表 示为如下的矩阵H:
式中,Ocentral为在网络数据集合O中选取的中心点,L(Oi,Ocentral)为 任一网络数据Oi与中心点Ocentral之间的欧式距离,为两个超点之间距离 的平均值,ep为超边集合E中第p个超边,a为调节系数。
步骤42,根据拉普拉斯正则化函数和代价敏感的经验损失函数,修 正第一检测模型,生成第二检测模型;
具体地,在将数据权重融入到超图结构中之后,超图的正则化函数 和代价函数都进行了调整,从而生成新的目标函数。基于超图模型中标 签传递的运算算法修正拉普拉斯正则化函数Ω(F,O,U,E,W)和代价敏感 的经验损失函数其中,拉普拉斯正则化函数Ω(F,O,U,E,W)对 应的计算公式为:
式中,类型矩阵F(O,m)是一个n*M维的矩阵,n为网络数据的个数, M为网络数据的标签类别数,任一行F(Oi,m)是一个1×M的向量, F(Oi,m)=1表明网络数据Oi的标签为第m个类别,而F(Oi,m)=0则表 明网络数据Oi的标签不是第m个类别。因此,对于正常网络数据和异常 网络数据对应的F(Oi,m)=1,未标记网络数据对应的F(Oi,m)=1/2, 也就是说,类型矩阵F(Oi,m)对应的类别值的大小,可以作为判定任一网 络数据Oi数据类别(正常型数据和异常型数据)的依据,DO是以d(Oi)为 对角线值的对角矩阵,d(Oi)表示超点的度,其计算公式如下:
De是以δ(ep)为对角线值的对角矩阵,δ(ep)表示超边的度,计算公 式如下:
代价敏感的经验损失函数对应的计算公式为:
其中,代价敏感的经验损失函数是惩罚函数,惩罚生成的 类型矩阵F中与Y矩阵中不同的部分。Y矩阵是所有网络数据的标签矩 阵,根据网络数据是否有标签来设定的,是一个n*M维的矩阵,在Y矩 阵中,针对每一个网络数据,如果为已标记数据,则在其对应类别位置 标1,其他位置标0,如果是未标记数据则在所有位置标1/2。
根据引入的拉普拉斯正则化函数Ω(F,O,U,E,W)和代价敏感的经验 损失函数Remp(F,U),通过构建的第一检测模型G′以及正则化函数和代价 敏感的经验损失函数,构建第二检测模型QU(F,U),对应的计算公式为:
QU(F,U)=Ω(F,O,U,E,W)+λRemp(F,U)+μtr(U),
式中,λ和μ为预设参数。
步骤43,采用迭代算法,计算第二检测模型的类型矩阵,当判定第 二检测模型收敛时,将类型矩阵记作标签矩阵。
具体地,通过迭代运算,使得重新定义后的第二检测模型QU(F,U)的 取值逐步减少,进而得到对应的类型矩阵F(O,m),将该类型矩阵记作标 签矩阵。
步骤5,根据标签矩阵,确定未标记网络数据的安全类型,其中,安 全类型包括正常型数据和异常型数据。
具体地,对于获取的任一未标记网络数据,通过计算标签矩阵 F(O,m),能够得出在对应的1×M的矩阵中,第m个类别对应的标签矩 阵的类别值,根据类别值的大小,进而判断出网络数据Oi对应的类别。
实施例二:
如图4所示,本实施例提供了一种基于高阶关联挖掘的网络数据异 常检测系统30,该系统包括:离散值计算单元31,相似值计算单元32, 权值计算单元33,标签矩阵计算单元34以及类型确定单元35;离散值 计算单元31用于根据获取到的网络数据集合,生成离散森林,并计算网 络数据集合中网络数据的离散值,其中,网络数据可以为正常网络数据、异常网络数据和未标记网络数据中的一种;
具体地,在工业网络中,获取到的网络数据集合 O={O1,...,On1,...,On2,...,On}中,其中,包括正常网络数据 {O1,O2,...,On1}、异常网络数据{On1+1,On1+2,...,On2}和未标记网络数据 {On2+1,On2+2,…,On},式中,n1、n2和n为大于或等于1的整数。根据 网络数据的离散性,引入离散森林模型,计算任一个网络数据对应的离 散值,其中,离散森林模型包括多棵离散树。
更具体的,在网络数据集合O中每次随机选取s个,共随机选取L 份,共随机选取L份,共构建Q1......QL个子集合,针对每一份选取的网 络数据构建出一棵离散树。以一棵离散树的构建过程为例,对于任一网 络数据Oi,式中,1≤i≤n,可以用属性集{A1,…,Aj,…,Ad}表示,式中,d ≥j≥1。构建任一棵离散树的任一层分节点时,随机选择上一层分节点(或 根节点)中所包含的网络数据的属性集中的任一个属性Aj作为划分准则, 并从这个属性Aj的取值范围内选取一个数值作为划分点S,根据划分点和 各个网络数据中属性Aj的取值,构建该层分节点。当所有的网络数据均 被标记为叶子节点时,表明该棵离散树构建完成。当所有选取的L份网 络数据均构建成离散树之后,则表明离散森林构建完成。
选定的网络数据为{O1,O2,O3,04},每个网络数据均包括2个属性 {A1,A2},每个属性的取值范围为[0,1],在构建离散树时,网络数据 {O1,O2,O3,O4}作为根节点,逐层对网络数据进行划分,如划分第一层时, 选定属性A1为划分准则、对应的划分点S1=0.5,依次比较网络数据 {O1,O2,O3,O4}中属性A1的取值与划分点S1之间的大小关系,当网络数据 的属性A1的取值大于或等于划分点S1的取值时,将对应的网络数据置于 右子树,否则将对应的网络数据置于左子树,通过比较,将O1,O2,O3置 于左子树、O4置于右子树,此时,将O1,O2,O3作为下一层离散树的分节 点,O4则被标记为一个叶子节点,在进一步分离O1,O2,O3时,选取A2属 性,利用同样的方式进行划分,选取划分点S2,当网络数据的属性A2大 于或等于划分点S2,放在右子树,小于划分点S2时放在左子树。当 O1,O2,O3,O4均被标记为叶子节点时,表明属性Q1对应的离散树构建完成, 再采用相同的方法,构建属性Q2…QL对应的离散树,形成对应的离散森 林。
当离散森林构建完成时,计算任一个网络数据Oi在离散森林中的第 一平均长度E(h(Oi)ρ),式中,ρ为离散森林中离散树的棵数,h(Oi)为该 网络数据Oi在当前离散树中对应的叶子节点到根节点的距离。如图2所 示,网络数据O1对应的距离h(O1)为2,网络数据O2对应的距离h(O2)为3。 进而根据第一平均长度E(h(Oi)ρ)和离散森林不可搜索的第二平均长度 c(n),计算该网络数据Oi对应的离散值IS(Oi),对应的计算公式为:
c(n)=2H(n)-(2(n-1)/n),
H(n)=ln(n)+0.5772156649,
式中,n为网络数据的个数。
在本实施例中,相似值计算单元32用于根据聚类算法和异常网络数 据,生成聚类中心点,并计算网络数据与聚类中心点的相似值;
具体地,考虑到网络数据中的异常网络数据数量较少、分布较为分 散,而正常数据数量较多、分布较为集中,而对于未标记网络数据,如 果其与异常数据越接近,则表明其为异常数据的可能性越大。因此,采 用聚类算法将异常网络数据进行聚类操作,并生成聚类中心点θk,针对 网络数据集合O,计算任一个网络数据Oi与聚类中心点θk的欧式距离来计算其对应的相似值SS(Oi),对应的计算公式为:
式中,k=1,2,...,γ,γ为聚类中心点的个数。
在本实施例中,权值计算单元33用于根据离散值和相似值,计算网 络数据集合中网络数据的权值;
进一步地,权值计算单元33,具体包括:得分计算模块331和权值 计算模块332;得分计算模块331用于根据离散值和相似值,计算网络数 据的得分;
具体地,设定权重比例系数α,以表示离散值IS(Oi)和相似值SS(Oi) 的重要程度,权重比例系数α的取值为(0,1),在本实施例中,可以设定权 重比例系数α=0.5,表明离散值IS(Oi)和相似值SS(Oi)同样重要。进而 计算网络数据Oi的得分TS(Oi),对应的计算公式为:
TS(Oi)=αIS(Oi)+(1-α)SS(Oi)。
权值计算模块332用于根据得分和得分阈值,计算网络数据的权值, 其中,权值的计算公式为:
式中,U(Oi)为网络数据Oi对应的权值,TS(Oi)为得分,β为得分阈值。
具体地,根据设定的得分阈值β和得分TS(Oi),计算该网络数据Oi对 应的权值U(Oi),权值U(Oi)的计算公式为:
式中,得分阈值为网络数据得分的平均值。
在本实施例中,标签矩阵计算单元34用于根据网络数据的权值和超 图模型,计算网络数据集合中未标记网络数据的标签矩阵;
进一步地,标签矩阵计算单元34,具体包括:第一模型构建单元341, 第二模型构建单元342以及判定单元343;第一模型构建单元341用于根 据网络数据的权值和超图模型,构建网络数据集合对应的第一检测模型;
具体地,现有的超图构建方法通常是利用星拓展方法,由于网络数 据集合O中的正常网络数据的数量远大于异常网络数据的数量,导致现 有的超图模型更加偏向于对正常网络数据的信息获取,而忽略异常网络 数据,在本申请的实施例中将网络数据集合O对应的每个权值U(Oi)引入 超图模型,以增强超图模型对异常网络数据的重视程度。
将任一个网络数据Oi作为超点,生成对应的一个超边,当网络数据 集合O中的所有的网络数据均生成对应的超边后,就构成了一个含有n 条超边的超图,将超图模型用矩阵的方式进行表示,可以表示为如下的 矩阵H:
式中,Ocentral为在网络数据集合O中选取的中心点,L(Oi,Ocentral)为 任一网络数据Oi与中心点Ocentral之间的欧式距离,为两个超点之间距离 的平均值,ep为超边集合E中第p个超边,a为调节系数。
第二模型构建单元342用于根据拉普拉斯正则化函数和代价敏感的 经验损失函数,修正第一检测模型,生成第二检测模型;
具体地,在将数据权重融入到超图结构中之后,超图的正则化函数 和代价函数都进行了调整,从而生成新的目标函数。基于超图模型中标 签传递的运算算法,修正拉普拉斯正则化函数Ω(F,O,U,E,W)和代价敏感 的经验损失函数其中,拉普拉斯正则化函数Ω(F,O,U,E,W)对 应的计算公式为:
式中,类型矩阵F(O,m)是一个n*M维的矩阵,n为网络数据的个数, M为网络数据的标签类别数,任一行F(Oi,m)是一个1×M的向量, F(Oi,m)=1表明网络数据Oi的标签为第m个类别,而F(Oi,m)=0则表 明网络数据Oi的标签不是第m个类别。因此,对于正常网络数据和异常 网络数据对应的F(Oi,m)=1,未标记网络数据对应的F(Oi,m)=1/2, 也就是说,类型矩阵F(Oi,m)对应的类别值的大小,可以作为判定任一网 络数据Oi数据类别(正常型数据和异常型数据)的依据,DO是以d(Oi)为 对角线值的对角矩阵,d(Oi)表示超点的度,其计算公式如下:
De是以δ(ep)为对角线值的对角矩阵,δ(ep)表示超边的度,计算公 式如下:
代价敏感的经验损失函数对应的计算公式为:
其中,代价敏感的经验损失函数是惩罚函数,惩罚生成的 类型矩阵F中与Y矩阵中不同的部分。Y矩阵是所有数据的标签矩阵, 根据网络数据是否有标签来设定的,是一个n*M维的矩阵,在Y矩阵中, 针对每一个网络数据,如果为已标记数据,则在其对应类别位置标1,其 他位置标0,如果是未标记数据则在所有位置标1/2。
根据引入的拉普拉斯正则化函数Ω(F,O,U,E,W)和代价敏感的经验 损失函数Remp(F,U),通过构建的第一检测模型G′以及正则化函数和代价 敏感的经验损失函数,构建第二检测模型QU(F,U),对应的计算公式为:
QU(F,U)=Ω(F,O,U,E,W)+λRemp(F,U)+μtr(U),
式中,λ和μ为预设参数。
判定单元343用于采用迭代算法,计算第二检测模型的类型矩阵, 当判定第二检测模型收敛时,将类型矩阵记作标签矩阵。
具体地,通过迭代运算,使得重新定义后的第二检测模型QU(F,U)的 取值逐步减少,进而得到对应的类型矩阵F(O,m),将该类型矩阵记作标 签矩阵。
在本实施例中,类型确定单元35用于根据标签矩阵,确定未标记网 络数据的安全类型,其中,安全类型包括正常型数据和异常型数据。
具体地,对于获取的任一未标记网络数据,通过计算标签矩阵 F(O,m),能够得出在对应的1×M的矩阵中,第m个类别对应的标签矩 阵的类别值,根据类别值的大小,进而判断出网络数据Oi对应的类别。
以上结合附图详细说明了本申请的技术方案,本申请提出了一种基 于高阶关联挖掘的网络数据异常检测方法与系统,其中,该方法包括: 步骤1,根据获取到的网络数据集合,生成离散森林,并计算任一网络数 据的离散值,其中,网络数据集合包括正常网络数据、异常网络数据和 未标记网络数据;步骤2,根据聚类算法和异常网络数据,生成聚类中心 点,并计算任一网络数据与任一聚类中心点的相似值;步骤3,根据离散 值和相似值,计算网络数据集合中任一网络数据的权值;步骤4,根据任 一网络数据的权值和超图模型,计算未标记网络数据的标签矩阵;步骤5, 根据标签矩阵,确定未标记网络数据的安全类型,其中,安全类型包括 正常型数据和异常型数据。通过本申请中的技术方案,实现了对工业网 络环境中大量未标记网络数据的有效识别,提高了未标记网络数据识别 的准确性以及已标记网络数据的利用率。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是 示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利 要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明 所作的各种变型、改型及等效方案。

Claims (6)

1.一种基于高阶关联挖掘的网络数据异常检测方法,其特征在于,该方法包括:
步骤1,根据获取到的网络数据集合,生成离散森林,并计算所述网络数据集合中网络数据的离散值,其中,所述网络数据可以为正常网络数据、异常网络数据和未标记网络数据中的一种;
步骤2,根据聚类算法和所述异常网络数据,生成聚类中心点,并计算所述网络数据与所述聚类中心点的相似值;
步骤3,根据所述离散值和所述相似值,计算所述网络数据集合中所述网络数据的权值;
步骤4,根据所述网络数据的所述权值和超图模型,计算所述网络数据集合中所述未标记网络数据的标签矩阵;
步骤5,根据所述标签矩阵,确定所述未标记网络数据的安全类型,其中,所述安全类型包括正常型数据和异常型数据。
2.如权利要求1所述的基于高阶关联挖掘的网络数据异常检测方法,其特征在于,所述步骤4,具体包括:
步骤41,根据所述网络数据的所述权值和所述超图模型,构建所述网络数据集合对应的第一检测模型;
步骤42,根据拉普拉斯正则化函数和代价敏感的经验损失函数,修正所述第一检测模型,生成第二检测模型;
步骤43,采用迭代算法,计算所述第二检测模型的类型矩阵,当判定所述第二检测模型收敛时,将所述类型矩阵记作所述标签矩阵。
3.如权利要求1所述的基于高阶关联挖掘的网络数据异常检测方法,其特征在于,所述步骤3,具体包括:
步骤31,根据所述离散值和所述相似值,计算所述网络数据的得分;
步骤32,根据所述得分和得分阈值,计算所述网络数据的所述权值,所述权值的计算公式为:
式中,U(Oi)为所述网络数据Oi对应的所述权值,TS(Oi)为所述得分,β为所述得分阈值。
4.一种基于高阶关联挖掘的网络数据异常检测系统,其特征在于,该系统包括:离散值计算单元,相似值计算单元,权值计算单元,标签矩阵计算单元以及类型确定单元;
所述离散值计算单元用于根据获取到的网络数据集合,生成离散森林,并计算所述网络数据集合中网络数据的离散值,其中,所述网络数据可以为正常网络数据、异常网络数据和未标记网络数据中的一种;
所述相似值计算单元用于根据聚类算法和所述异常网络数据,生成聚类中心点,并计算所述网络数据与所述聚类中心点的相似值;
所述权值计算单元用于根据所述离散值和所述相似值,计算所述网络数据集合中所述网络数据的权值;
所述标签矩阵计算单元用于根据所述网络数据的所述权值和超图模型,计算所述网络数据集合中所述未标记网络数据的标签矩阵;
所述类型确定单元用于根据所述标签矩阵,确定所述未标记网络数据的安全类型,其中,所述安全类型包括正常型数据和异常型数据。
5.如权利要求4所述的基于高阶关联挖掘的网络数据异常检测系统,其特征在于,所述标签矩阵计算单元,具体包括:第一模型构建单元,第二模型构建单元以及判定单元;
所述第一模型构建单元用于根据所述网络数据的所述权值和所述超图模型,构建所述网络数据集合对应的第一检测模型;
所述第二模型构建单元用于根据拉普拉斯正则化函数和代价敏感的经验损失函数,修正所述第一检测模型,生成第二检测模型;
所述判定单元用于采用迭代算法,计算所述第二检测模型的类型矩阵,当判定所述第二检测模型收敛时,将所述类型矩阵记作所述标签矩阵。
6.如权利要求4所述的基于高阶关联挖掘的网络数据异常检测系统,其特征在于,所述权值计算单元,具体包括:得分计算模块和权值计算模块;
所述得分计算模块用于根据所述离散值和所述相似值,计算所述网络数据的得分;
所述权值计算模块用于根据所述得分和得分阈值,计算所述网络数据的所述权值,其中,所述权值的计算公式为:
式中,U(Oi)为所述网络数据Oi对应的所述权值,TS(Oi)为所述得分,β为所述得分阈值。
CN201910183446.5A 2019-03-12 2019-03-12 一种基于高阶关联挖掘的网络数据异常检测方法与系统 Active CN109818971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910183446.5A CN109818971B (zh) 2019-03-12 2019-03-12 一种基于高阶关联挖掘的网络数据异常检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910183446.5A CN109818971B (zh) 2019-03-12 2019-03-12 一种基于高阶关联挖掘的网络数据异常检测方法与系统

Publications (2)

Publication Number Publication Date
CN109818971A true CN109818971A (zh) 2019-05-28
CN109818971B CN109818971B (zh) 2020-07-03

Family

ID=66608816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910183446.5A Active CN109818971B (zh) 2019-03-12 2019-03-12 一种基于高阶关联挖掘的网络数据异常检测方法与系统

Country Status (1)

Country Link
CN (1) CN109818971B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753049A (zh) * 2019-10-21 2020-02-04 清华大学 一种基于工控网络流量的安全态势感知系统
CN111586051A (zh) * 2020-05-08 2020-08-25 清华大学 一种基于超图结构质量优化的网络异常检测方法
CN113723550A (zh) * 2021-09-06 2021-11-30 珠海横琴跨境说网络科技有限公司 基于超图的同时优化代价与误检率的异常检测方法及系统
US11979421B2 (en) 2021-12-31 2024-05-07 International Business Machines Corporation Cluster-based outlier scoring of network traffic

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224508A (zh) * 2015-10-14 2016-01-06 盐城工学院 基于特征归纳的高维数据超图模型构造方法
CN105959270A (zh) * 2016-04-25 2016-09-21 盐城工学院 一种基于谱聚类算法的网络攻击检测方法
CN106844947A (zh) * 2017-01-18 2017-06-13 清华大学 一种基于高阶相关学习的机车节能优化自动驾驶方法
US9787640B1 (en) * 2014-02-11 2017-10-10 DataVisor Inc. Using hypergraphs to determine suspicious user activities
US10009358B1 (en) * 2014-02-11 2018-06-26 DataVisor Inc. Graph based framework for detecting malicious or compromised accounts
CN108334455A (zh) * 2018-03-05 2018-07-27 清华大学 基于搜索的代价敏感超图学习的软件缺陷预测方法及系统
CN108632279A (zh) * 2018-05-08 2018-10-09 北京理工大学 一种基于网络流量的多层异常检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9787640B1 (en) * 2014-02-11 2017-10-10 DataVisor Inc. Using hypergraphs to determine suspicious user activities
US10009358B1 (en) * 2014-02-11 2018-06-26 DataVisor Inc. Graph based framework for detecting malicious or compromised accounts
US10135788B1 (en) * 2014-02-11 2018-11-20 Data Visor Inc. Using hypergraphs to determine suspicious user activities
CN105224508A (zh) * 2015-10-14 2016-01-06 盐城工学院 基于特征归纳的高维数据超图模型构造方法
CN105959270A (zh) * 2016-04-25 2016-09-21 盐城工学院 一种基于谱聚类算法的网络攻击检测方法
CN106844947A (zh) * 2017-01-18 2017-06-13 清华大学 一种基于高阶相关学习的机车节能优化自动驾驶方法
CN108334455A (zh) * 2018-03-05 2018-07-27 清华大学 基于搜索的代价敏感超图学习的软件缺陷预测方法及系统
CN108632279A (zh) * 2018-05-08 2018-10-09 北京理工大学 一种基于网络流量的多层异常检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAN LIU,YUHU CHENG: "Low Rank Subspace Clustering via Discrete Constraint and Hypergraph Regularization for Tumor Molecular Pattern Discovery", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
YUE GAO,QIONGHAI DAI: "Efficient view-based 3-D object retrieval via hypergraph learning", 《清华大学学报(英文版)》 *
陈建斌,宋翰涛: "基于属性分布相似度的超图高维聚类算法研究", 《计算机工程与应用》 *
霍娜,温娟娟,李青云: "基于超边相似性的超图聚类改进算法", 《科技创新与生产力》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753049A (zh) * 2019-10-21 2020-02-04 清华大学 一种基于工控网络流量的安全态势感知系统
CN110753049B (zh) * 2019-10-21 2021-04-13 清华大学 一种基于工控网络流量的安全态势感知系统
CN111586051A (zh) * 2020-05-08 2020-08-25 清华大学 一种基于超图结构质量优化的网络异常检测方法
CN111586051B (zh) * 2020-05-08 2021-06-01 清华大学 一种基于超图结构质量优化的网络异常检测方法
CN113723550A (zh) * 2021-09-06 2021-11-30 珠海横琴跨境说网络科技有限公司 基于超图的同时优化代价与误检率的异常检测方法及系统
CN113723550B (zh) * 2021-09-06 2023-12-05 珠海横琴跨境说网络科技有限公司 基于超图的同时优化代价与误检率的异常检测方法及系统
US11979421B2 (en) 2021-12-31 2024-05-07 International Business Machines Corporation Cluster-based outlier scoring of network traffic

Also Published As

Publication number Publication date
CN109818971B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN109818971A (zh) 一种基于高阶关联挖掘的网络数据异常检测方法与系统
WO2019238109A1 (zh) 一种故障根因分析的方法及装置
Candelieri et al. A graph based analysis of leak localization in urban water networks
CN110225055B (zh) 一种基于knn半监督学习模型的网络流量异常检测方法与系统
CN111598179B (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN102098306A (zh) 基于关联矩阵的网络攻击路径分析方法
CN107507028A (zh) 用户偏好确定方法、装置、设备及存储介质
CN106067034B (zh) 一种基于高维矩阵特征根的配电网负荷曲线聚类方法
CN104268629A (zh) 一种基于先验信息和网络固有信息的复杂网络社区检测方法
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
Chang et al. A general probabilistic framework for detecting community structure in networks
CN111507385A (zh) 一种可扩展的网络攻击行为分类方法
CN105119876A (zh) 一种自动生成的域名的检测方法及系统
CN105046275A (zh) 基于角度方差的大规模高维离群数据检测方法
CN103514284B (zh) 数据显示系统和数据显示方法
CN105590167A (zh) 电场多元运行数据分析方法及装置
CN107564045A (zh) 基于梯度域引导滤波的立体匹配算法
CN116545733A (zh) 一种电网入侵检测方法及系统
CN116010831A (zh) 一种基于潜在决策结果的组合聚类场景缩减方法及系统
CN115905992A (zh) 一种电力数据预处理方法、系统、存储介质及计算设备
Li et al. A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection
CN116167004A (zh) 电力数据的无监督最优异常检测模型选择方法及系统
Tong Research on multiple classification detection for network traffic anomaly based on deep learning
CN114580534A (zh) 一种工业数据异常检测方法、装置、电子设备和存储介质
Zhang et al. GAN-based Abnormal Transaction Detection in Bitcoin

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240327

Address after: 3723A, 3rd Floor, Building 4, No. 49 Badachu Road, Shijingshan District, Beijing, 100144

Patentee after: Beijing Qidian Innovation Technology Co.,Ltd.

Country or region after: China

Address before: 100084 No. 1 Tsinghua Yuan, Beijing, Haidian District

Patentee before: TSINGHUA University

Country or region before: China

TR01 Transfer of patent right