CN112468498B

CN112468498B - 配电终端多源异构安全监测数据的跨模态聚合方法

Info

Publication number: CN112468498B
Application number: CN202011351642.8A
Authority: CN
Inventors: 王昕平; 官国飞; 张腾飞; 李春鹏; 蔡子贇; 蒋峰; 宋庆武; 栾奇麒; 于洋
Original assignee: Nanjing University of Posts and Telecommunications; Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Nanjing University of Posts and Telecommunications; Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-06-14
Anticipated expiration: 2040-11-26
Also published as: CN112468498A

Abstract

本发明提供一种配电终端多源异构安全监测数据的跨模态聚合方法，通过分解和子空间学习，对原始数据中的安全告警数据和网络日志数据，探索模态不变的子空间，并获得强健的视图不变的子空间；对多源异构数据进行跨模态聚合；解决源域和目标域之间的欠适配和不平等的问题。该方法具有对参数的选择不敏感、可收敛且识别准确率高的优点，本发明方法揭示了海量多源数据隐藏的逻辑关联，能够发现攻击者的真正意图，从而对网络攻击进行预防和响应，实现对整个网络安全态势的有效监控。

Description

配电终端多源异构安全监测数据的跨模态聚合方法

技术领域

本发明涉及一种配电终端多源异构安全监测数据的跨模态聚合方法，属于配电终端的数据监测领域。

背景技术

为了规避网络数据安全问题，国家电网环境中部署了防火墙、入侵检测系统和防病毒软件检测系统等一系列的安全设备，为检测网络环境中出现的攻击和威胁提供了全方位的检测能力，并对多源数据进行聚合，主要有基于感知语义的窄带物联网多源异构数据聚合方法、核典型关联分析方法和最大均值差异算法等等。

安全设备的简单堆积并没有彻底解决复杂的网络环境中出现的各种各样的问题，甚至大量的冗余告警信息反而扰乱了管理员对系统中发生的重要攻击的及时应对，传统的安全数据聚合方法无法解决源域和目标域之间的欠适配和不平等、对参数的选择敏感、收敛度不高、聚合精度不够准确等问题，更重要的是传统的跨模态安全数据聚合理论方法很难在真实世界的场景中使用。

传统的安全数据理论方法主要用于解决单模态源域(只包含单一数据)和单模态目标域(只包含单一数据)的情况，在此基础上，一些多模态源域(包含多种辅助数据，例如，电力系统的频率、节点电压水平、主变和线路负载率)的安全数据聚合理论方法被提出，然而由于在真实世界的场景中，源域中的物体类别总是要大于目标域中的物体类别，使得传统的跨模态安全数据聚合理论方法很难在真实世界的场景中使用，且存在源域和目标域之间的欠适配和不平等、对参数的选择敏感、收敛度不高、聚合精度不够准确等问题。

针对上面问题，从海量安全数据中分析、明确发生的攻击与威胁，应当对这些安全数据进行有效管理和分析。尤其是，如何对多源数据进行聚合，来减少冗余信息、挖掘各个设备之间信息的联系，解决源域和目标域之间的欠适配和不平等问题，解决对参数的选择敏感、收敛度不高、聚合精度不够准确等问题在配电终端多源异构安全监测数据的跨模态聚合方法的设计与使用过程中应当予以考虑并解决的问题。

发明内容

本发明的目的是提供一种配电终端多源异构安全监测数据的跨模态聚合方法，解决现有技术中存在的如何解决源域和目标域之间的欠适配和不平等、对参数的选择敏感、收敛度不高、聚合精度不够准确等问题。

本发明的技术解决方案是：

一种配电终端多源异构安全监测数据的跨模态聚合方法，包括以下步骤，

S1、通过分解和子空间学习，对原始数据中的安全告警数据和网络日志数据，探索模态不变的子空间，并获得强健的视图不变的子空间，通过共同学习把各类型安全监测数据连接到一个模型，得到变换的源域s_new1和目标域s_new2；

S2、对多源异构数据进行跨模态聚合，具体为：使用得到源域s_new1和目标域s_new2利用非负矩阵分解探索各类型安全监测数据之间的共享成分，然后通过奇异值分解得到奇异矩阵，同时利用概率分布的方法保护安全监测数据的重要结构，使用杰森-香农散度缩小源域s_new1和目标域s_new2之间的概率分布；

S3、在进行跨模态聚合的同时，解决源域和目标域之间的欠适配和不平等的问题，具体为：针对欠适配的问题，在共享的潜在子空间和映射所得到目标域之间同时匹配特征值和调整样本权重，在再生核希尔伯特空间对变换的源域s_new1和目标域s_new2进行特征匹配；针对不平等的问题，采用具有更强鲁棒性的条件分布的估计，利用类先验估计构建权重矩阵；最终获得目标函数，实现配电终端多源异构安全监测数据的跨模态聚合。

进一步地，步骤S1中，在获取原始数据、子空间变换和共同学习阶段，为多源异构数据探索不随模态变化的子空间，直接应用多源异构数据的融合所得到的子空间，往往无法突出条件分布和边缘分布的重要性，使得目标域中的样本被错误地估计；同时对多源异构数据进行融合并自适应分布嵌入是获得强健的视图不变的子空间的保证，通过共同学习把各类型安全监测数据连接到一个模型，得到变换的源域s_new1和目标域s_new2。

进一步地，步骤S1中，获得强健的视图不变的子空间，具体为，

S11、获取原始数据作为源域s，s＝{s₁,s₂,…,s_n}，源域s中包含安全告警数据s₁和网络日志数据s₂，源域s中带有标签的集合表示为Y_s，标签集合Y_t的未知网络为目标域t；

S12、通过子空间变换，寻找视图不变强健的子空间，并通过共同学习获得转换过的源域s_new1和转换过的目标域s_new2。

进一步地，步骤S2中，对多源异构数据进行跨模态聚合，具体为，

S21、利用非负矩阵分解探索各种类型安全监测数据之间共享的成分，目标函数为：

式中，U为基矩阵，X为系数共享矩阵，s_i为源域s中的一种，U_i为s_i对应的基矩阵，λ_i为平衡各种类型数据重要性的参数；

S22、利用概率分布发现数据空间本质上具有辨别能力的结构，尽可能多地保护安全监测数据的重要结构，通过Jensen-Shannon(杰森-香农)散度缩小各种安全监测数据的概率分布：

式中，

分别为{s₁,s₂,…,s_n}的概率分布，KL(·||·)为用来估计联合概率分布的KL(库尔贝克-莱布勒)散度；

S23、通过正交投影迁移深度数据信息的知识到目标数据库去对齐共享的潜在特征空间和目标域中的数据：

式中，Π为目标域的正定投影；

获得最优解，即当前目标函数所能得到的最优的值，获得正定投影Π后，目标域t被投影到隐空间：s_new2＝Πt；奇异值分解被用于分解矩阵：s^TX＝QφS^T，其中，

分别为{s₁,s₂,…,s_n}的概率分布，s为源域，S为右奇异矩阵，φ为奇异值矩阵。然后计算Π＝SΛQ^T，其中，Λ为连接矩阵Λ＝[I,0]∈R，0为全零矩阵；最终，来自相同类别的数据点距离更近，而在相同模态中的不同类别的数据点距离更远。

进一步地，步骤S3中，解决转换过的源域s_new1和转换过的目标域s_new2之间的欠适配和不平等问题并获得目标函数，具体为，

S31、在自适应分布嵌入阶段，为了特征匹配，在再生核希尔伯特空间中缩小非参数的最大均值差异：

式中，N_s和N_t分别是s_new和s_new2中样本的个数，

H表示希尔伯特空间；

为了调整样本权重，算法进一步对共享的潜在空间样本缩小结构稀疏2,1范数，在共享的潜在空间和映射所得到目标域之间同时匹配特征值和调整样本权重，从而得到一个自适应的分类器；在自适应分布嵌入阶段缩小结构稀疏2,1范数，使得到的分类器具有更强鲁棒性；

S32、采用具有更强鲁棒性的条件分布的估计，解决不平等的问题：

式中，s_new1和s_new2的类先验用来估计

和

对条件分布的散度需要估计边缘分布

和

最后对每一个类构建出所需要的权重矩阵；在S31自适应分布嵌入阶段的基础上，进一步的解决了源域类别和目标域类别不平等的问题，最终实现配电终端多源异构安全监测数据的跨模态聚合方法；

结合公式(1)到公式(5)，得到最终的目标函数：

式中，η为控制新表达的平滑度；

通过配电终端多源异构安全监测数据的跨模态聚合方法，选用不需要调整交叉验证参数的最近邻分类器为基础分类器，分类器将通过整合多源异构安全监测数据，对是否产生网络威胁做出判断。

本发明的有益效果是：

一、该种配电终端多源异构安全监测数据的跨模态聚合方法，针对当前海量安全数据监测的需求，对海量数据进行综合分析和处理，提出一种基于跨模态的多源异构安全监测数据聚合方法，解决了源域和目标域之间的欠适配和不平等问题，使得对参数的选择敏感度降低，而收敛度更高聚合精度更加准确，本发明方法能够建立在更加真实的场景上，揭示海量数据隐藏的逻辑关联，发现攻击者的真正意图，从而对网络攻击进行预防和响应，实现对整个网络安全态势的有效监控。

二、该种配电终端多源异构安全监测数据的跨模态聚合方法，首先通过在自适应分布嵌入阶段多源异构数据的跨模态，解决源域和目标域之间的欠适配和不平等问题，对目标域的数据是否产生网络威胁，与现有的经典分类方法相比，能够做出更准确的判断。

三、本发明方法，通过构建各类型安全监测数据域的自适应方法来对网络威胁做出更加全面的描述，有利于并进一步挖掘出潜在的未知网络威胁。

四、该种配电终端多源异构安全监测数据的跨模态聚合方法，针对配电终端安全监测数据具有多源、高度异构的特征，以及配电物联网管理平台安全信息受网络攻击与威胁安全数据聚合的需求，提出的跨模态聚合方法，具有对参数的选择不敏感、可收敛且识别准确率高的优点，本发明方法揭示了海量多源数据隐藏的逻辑关联，能够发现攻击者的真正意图，从而对网络攻击进行预防和响应，实现对整个网络安全态势的有效监控。

附图说明

图1是实施例配电终端多源异构安全监测数据的跨模态聚合方法的流程示意图；

图2是实施例配电终端多源异构安全监测数据的跨模态聚合方法的说明示意图；

图3是实施例中安全数据在不同类别与模态下的距离的说明示意图；

图4是实施例配电终端多源异构安全监测数据的跨模态聚合方法在不同特征值下参数敏感度的说明示意图；

图5是实施例配电终端多源异构安全监测数据的跨模态聚合方法在不同特征值下收敛情况的说明示意图；

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例

一种配电终端多源异构安全监测数据的跨模态聚合方法，如图1和图2，

包括以下步骤，

S1、通过分解和子空间学习对原始数据中的安全告警数据和网络日志数据探索模态不变的子空间，如图1。在多源异构数据的融合阶段，为多源异构数据探索不随模态变化的子空间；此步骤获得了强健的视图不变的子空间，并通过共同学习获得变换的源域s_new1和目标域s_new2，为步骤2多源数据的跨模态提供了基础。

步骤S1中，获得强健的视图不变的子空间，具体为，

S12、通过寻找视图不变的子空间，获得转换过的源域s_new1和转换过的目标域s_new2；

步骤S2中，对多源异构数据进行跨模态聚合，具体为：使用得到源域s_new1和目标域s_new2利用非负矩阵分解探索各类型安全监测数据之间的共享成分，然后通过奇异值分解得到奇异矩阵，同时利用概率分布的方法保护安全监测数据的重要结构，使用杰森-香农散度缩小源域s_new1和目标域s_new2之间的概率分布；具体为，

式中，

式中，Π为目标域的正定投影；

分别为{s₁,s₂,…,s_n}的概率分布，s为源域，S为右奇异矩阵，φ为奇异值矩阵。然后计算Π＝SΛQ^T，其中，Λ为连接矩阵Λ＝[I,0]∈R，0为全零矩阵；最终，来自相同类别的数据点距离更近，而在相同模态中的不同类别的数据点距离更远，如图3。

步骤S3中，在进行跨模态聚合的同时，解决源域和目标域之间的欠适配和不平等的问题，具体为：针对欠适配的问题，在共享的潜在子空间和映射所得到目标域之间同时匹配特征值和调整样本权重，在再生核希尔伯特空间对变换的源域s_new1和目标域s_new2进行特征匹配；针对不平等的问题，采用具有更强鲁棒性的条件分布的估计，利用类先验估计构建权重矩阵；最终获得目标函数，实现配电终端多源异构安全监测数据的跨模态聚合。具体为，

式中，N_s和N_t分别是s_new和s_new2中样本的个数，

H表示希尔伯特空间；

为了调整样本权重，算法进一步对共享的潜在空间样本缩小结构稀疏2,1范数，在共享的潜在空间和映射所得到目标域之间同时匹配特征值和调整样本权重，从而得到一个自适应的分类器；在自适应分布嵌入阶段缩小结构稀疏2,1范数，可以使得到的分类器具有更强鲁棒性。

式中，s_new1和s_new2的类先验用来估计

和

对条件分布的散度需要估计边缘分布

和

最后对每一个类构建出所需要的权重矩阵；在S31自适应分布嵌入阶段的基础上，我们进一步的解决了源域类别和目标域类别不平等的问题，最终实现配电终端多源异构安全监测数据的跨模态聚合方法。

结合公式(1)到公式(5)，得到最终的目标函数：

式中，η为控制新表达的平滑度；

该种配电终端多源异构安全监测数据的跨模态聚合方法，通过构建各类型安全监测数据域的自适应方法来对网络威胁做出更加全面的描述，并进一步挖掘出潜在的未知网络威胁，能够应对复杂的网络环境中出现的各种攻击与威胁问题。针对不同类别的安全检测数据包含着大量的不同的有辨别能力的信息，该方法能够帮助配电物联网终端对网络威胁有更好的认知。同时，针对在真实世界中源域和目标域有着不同的数据分布，并且存在不相等的类别数目的问题，本发明方法能够建立在更加真实的场景上，并通过缩小源域和目标域之间的最大均值差异来解决源域和目标域的欠适配问题，同时在源域中添加多种安全检测数据信息、并且考虑源域和目标域中的类别不平等的情况，最后借助非负矩阵分解获得强健的视图不变的子空间。该种配电终端多源异构安全监测数据的跨模态聚合方法，使得通过源域中已知的类别为目标域中未知的类别勾画一个准确的边界。

实验验证

对实施例方法有效性的验证说明如下：在配电物联网配电终端收集了10种类别不同的安全检测数据，包括电力系统的频率、节点电压水平、主变和线路负载率等，10个标注的安全监测数据被选取为源域数据，并随机挑选不含有标签集合的4到8个安全监测数据作为目标域。

通过以下三种不同类型的方法进行比较：

a)多视角学习：SVM2K，这种经典的方法在源域的训练中使用了多源数据。

b)非监督域的自适应：样本迁移网络(ETN)和迁移成分分析(TCA)，使用源域和目标域视觉特征值训练分类器，然后预测目标数据标签集合的方法。

c)特权信息和非监督域的自适应：DA-M2S和鸡尾酒网络(DCTN)，使用源域中的多源数据作为特权信息，同时减少源域和目标域数据分布之间的不匹配。

考虑从各类型安全监测数据中提取的不同特征值对于结果的影响，利用浅层特征和深度模型特征被用来评估提出的方法。对于浅层特征，安全监测数据提取梯度核描述子(KDES)特征值和LBP梯度核描述子；对于深度特征值，选择从预训练的Caffe模型中提取安全监测数据的卷积神经网络(CNN)特征值，特征值的维度为4096。为便于分析，对各方法的参数敏感度、收敛情况。

根据实验结果，各类型安全监测数据的不同特征值在现有5种方法以及本发明提出的多源异构安全监测数据的聚合方法下，分别得到的识别准确度(％)如表1所示。

表1各算法在安全监测数据不同特征值上的识别准确度

从表1的实验结果可以看出，通过整合各类型安全监测数据，实施例方法对目标域中的数据是否产生网络威胁较之前的方法做出了更准确的判断，与现有方法SVM2K、DA-M2S、ETN、TCA和DCTN在准确率上提高了多个百分点。SVM2K是经典的分类算法，但是由于没有考虑域的自适应问题，并没有展现出好的结果。DA-M2S虽然解决了域的自适应问题，但并没有考虑源域中可以有多种模态的情况，导致效果远不如实施例方法。ETN和TCA是经典的域自适应方法，但由于做了源域和目标域之间类别数目相等的非真实世界的假设，导致结果并不理想。DCTN虽然能够解决源域中存在的多模态和域的自适应等问题，但由于其超参数过多，导致目标函数收敛困难，使得DCTN比实施例方法结果要差。

对实施例方法的参数敏感度、收敛情况进一步进行分析如下：

(1)对实施例方法中参数η和λ_i的敏感度进行分析：从图4中可以看出，无论特征值是KDES还是CNN，当η＝10且λ_i＝0.1的时候，实施例方法都可以取得最大值。这个结果揭示了实施例方法具有较高的鲁棒性，对于参数的选择不敏感，可以在η＝10且λ_i＝0.1取得最优的结果。

(2)对实施例方法收敛情况进行分析：从图5中可以看出，实施例方法随着循环次数的增加逐渐稳定，且在1000次循环以后收敛到最低错误率，从而揭示了实施例方法是可收敛的，并且具有较快的收敛速度。现有的5种方法虽然同样可以较快地收敛，但有着较高错误率。

Claims

1.一种配电终端多源异构安全监测数据的跨模态聚合方法，其特征在于：包括以下步骤，

S2、对多源异构数据进行跨模态聚合，具体为：使用得到的源域s_new1和目标域s_new2利用非负矩阵分解探索各类型安全监测数据之间的共享成分，然后通过奇异值分解得到奇异矩阵，同时利用概率分布的方法保护安全监测数据的重要结构，使用杰森-香农散度缩小源域s_new1和目标域s_new2之间的概率分布；

2.如权利要求1所述的配电终端多源异构安全监测数据的跨模态聚合方法，其特征在于：步骤S1中，对多源异构数据进行融合及自适应分布嵌入。

3.如权利要求1所述的配电终端多源异构安全监测数据的跨模态聚合方法，其特征在于：步骤S1中，获得强健的视图不变的子空间，具体为，