CN113595987A

CN113595987A - 一种基于基线行为刻画的通联异常发现方法及装置

Info

Publication number: CN113595987A
Application number: CN202110750021.5A
Authority: CN
Inventors: 刘俊荣; 潘海琪; 卢志刚; 崔泽林; 崔苏苏; 姜波
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-11-02
Anticipated expiration: 2041-07-02
Also published as: CN113595987B

Abstract

本发明公开一种基于基线行为刻画的通联异常发现方法及装置，包括对待测流量数据进行数据清洗及预处理，得到流量矩阵y；利用CapsNet模型构建自编码器，并基于所述自编码器，获取流量矩阵y的重构流量矩阵

根据流量矩阵y与重构流量矩阵

得到通联异常发现结果。本发明可以从输入数据中自动提取特征，可将流量特征之间的特定位置以及数据之间的排列顺序作为学习的特征，且向量的方向可以表示特征值的大小、相对位置等属性，既能识别正常行为并且对已知的异常行为进行检测，又能发现新型未知的网络攻击。

Description

一种基于基线行为刻画的通联异常发现方法及装置

技术领域

本发明属于网络安全与计算机科学的交叉技术领域，尤其涉及一种基于基线行为刻画的通联异常发现方法及装置，其提出一种异常通联行为发现模型，它基于胶囊自编码器建立正常行为基线，为发现没有明显特征或未知的网络异常行为提供线索。本发明涵盖网络流量数据预处理、基于胶囊自编码器的模型训练、通联关系异常检测。

背景技术

随着网络在社会生活中地位越来越高，人们对网络的依赖也越来越强。然而，互联网的普及在给人们生活带来便利的同时，网络安全问题也日益严峻。在各种网络攻击中，非法入侵、DDoS攻击等恶意网络通信行为严重及其引发的数据泄露等事件影响用户对互联网的使用，并且随着技术的发展和进步，网络恶意攻击的流量特性变的日益复杂和隐蔽。这些攻击事件严重危害了用户的信息安全，并可能造成巨大的经济损失。因此如何在网络空间中检测网络中的恶意攻击源头和保障用户的信息安全是一个值得深入研究的课题。

网络攻击行为发生时往往会在网络流量中留下行为痕迹，因此基于流量的异常行为检测是一种常见的网络安全检测方法。目前异常流量检测领域主要有基于统计的方法、基于机器学习和深度学习模型的方法。基于统计的异常流量检测的效果取决于规则的编写，基于机器学习和深度学习模型的异常流量检测的效果取决于流量特征的选取和模型的设计。

在实际应用中，由于目前的防御技术不足或者为了保证业务系统运行放宽安全策略等原因，导致少部分没有明显特征或未知的异常难以识别，未知威胁流量一旦被识别为正常流量进入内网，造成的安全后果更为严重。目前安全分析人员往往需要在海量的数据中分析可能存在的极少数的未被拦截的攻击行为。基于分析人员的先验知识分析对人员水平要求极高。

通联关系指的是由物理或网络实体间的通信行为映射的连接和通信关系，在社交网络中，对社会组织的某种通信行为进行关联，将社会实体作为网络节点，实体间通联关系作为网络连接，形成的网络称为通联网络。在计算机网络中，通联关系指的是主机之间的通信行为，因此通联关系异常指网络中主机之间的通信行为异常。

计算机网络中的通联关系异常分析可分为基于统计的方法和基于机器学习和深度学习模型的方法两大类。基于统计的方法对网络中主机间的通信产生的流量的字段进行统计分析和关联分析，或对寻找符合一些已知攻击行为的特征，至今仍被各大厂商广泛使用。近年来随着人工智能技术的发展，基于机器学习和深度学习模型的方法被研究人员引入流量和通联关系异常发现中，目前许多研究者将流量异常检测问题看作样本分布不平衡的二分类问题。然而，在真实应用场景下，数据通常没有标签，且攻击方式日新月异，难以总结所有攻击行为的特征和收集覆盖所有异常行为的数据，因此上述方法异常检测方法在现实应用中不具有普遍性。

近年来企业和研究人员在积极探索基于基线行为刻画的异常检测方法，该类方法对正常行为建立基线模型，通过检测的数据与正常基线的偏差来进行异常检测。例如最大熵和高斯分布等概率与机器学习方法、生成式对抗网络和自编码器等深度学习方法均被用于流量基线行为建模，用以检测异常流量和行为。

然而上述几类方法可以从数据中学习特征，却不考虑特征之间的位置信息。因此，上述方法直接用于通联关系基线行为建模会改变数据中的某些有效特征。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于基线行为刻画的通联异常发现方法及装置，使用胶囊自编码器模型学习正常流量数据的分布，刻画正常通联行为基线模型，通过测试数据在胶囊自编码器模型中的重构误差判断该样本属于正常通联行为产生的流量还是异常通联行为产生的流量。本发明既能对已知的异常流量进行识别，也解决了基于统计规则和基于二分类方法无法识别新型未知网络攻击的问题。本发明通过分析网络中主机之间的通联关系异常，为发现尝试或者已经突破网络边界的入侵行为提供线索，同时可以降低分析人员在海量数据中寻找攻击痕迹的压力，以及对分析人员的技术要求。

为达到上述目的，本发明采用具体技术方案是：

一种基于基线行为刻画的通联异常发现方法，其步骤包括：

1)对待测流量数据进行数据清洗及预处理，得到一流量矩阵y；

2)利用CapsNet模型构建自编码器，并基于所述自编码器，获取流量矩阵y的重构流量矩阵

3)根据流量矩阵y与重构流量矩阵

得到通联异常发现结果。

进一步地，数据清洗包括：字段归一化、无意义数据剔除和非主要字段的缺失字段填充。

进一步地，通过以下策略进行预处理：

1)利用one-hot编码方法，将清洗后网络流量数据中的符号特征数据转换成数值数据；

2)基于Min-Max归一化方法，将数值数据归一化；

3)根据会话对待测流量数据进行切分，且依据设定的流量矩阵y大小，得到流量矩阵y。

进一步地，通过以下步骤对待测流量数据进行切分：

1)设定待测流量数据为包含不同数据包p^k的集合，且数据包p^k＝(a^k,len^k,t^k)，其中k＝1,2,…,|P|，|P|表示数据包个数，a^k是第k个数据包的五元组，所述五元组包括：源IP、源端口、目的IP、目的端口和传输层协议，len^k是第k个数据包的字节长度，len^k∈(0,∞)，t^k是第k个数据包的开始时间，t^k∈(0,∞)；

2)依据五元组，对各数据包p^k进行分组，得到待测流量数据切分结果。

进一步地，所述自编码器的结构包括：由两个卷积层及一个DigitCaps层组成的编码器和与所述编码器结构对称的解码器。

进一步地，当流量矩阵y的大小为28*28时，通过以下步骤进行编码：

1)第一个卷积层使用256个大小为9*9的卷积核对每一流量矩阵y执行步长为1的卷积操作，生成大小为20*20的256个特征矩阵；

2)第二个卷积层使用32个大小为9*9的卷积核执行8次步数为2的卷积操作，且每次使用不同的权重，最终生成6*6*32个8维活动向量；

3)DigitCaps层基于仿射变换及动态路由，生成16维流量矩阵。

进一步地，通过以下步骤通过以下步骤得到通联异常发现结果：

1)计算重构流量矩阵

与流量矩阵y之间的均方误差，得到重构误差；

2)将重构误差与一阈值对比，得到通联异常发现结果。

进一步地，通过以下步骤计算所述阈值：

1)对若干个正常流量数据进行数据清洗及预处理，得到相应的正常流量矩阵；

2)基于所述自编码器，获取各正常流量矩阵的正常重构流量矩阵；

3)计算各正常流量矩阵与相应正常重构流量矩阵的均方误差，得到每个正常流量数据重构误差；

4)计算所有正常流量数据重构误差的平均值，得到所述阈值。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的积极效果：

1.本发明提出了一种基于CapsNet和自编码器的网络通联行为异常发现模型，它可以将流量特征之间的特定位置以及数据之间的排列顺序作为学习的特征之一；

2.本发明既能识别正常行为并且对已知的异常行为进行检测，又能发现新型未知的网络攻击；

3.与传统的基于规则和机器学习方法相比，胶囊自编码器模型不需要人工进行特征选择和提取，它可以从输入数据中自动提取特征；

4.胶囊自编码器源于胶囊神经网络(Capsule Networks,CapsNet)，不同于卷积神经网络(Convolutional Neural Network,CNN)，它的输入和输出使用向量而不是传统神经网络的标量，向量的方向可以表示特征值的大小、相对位置等属性。

附图说明

图1是本发明的整体流程图。

图2是本发明基于CapsNet的自编码器模型架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明中，设计了一种有效的网络通联关系异常方法。该方法的总体思路是使用预处理工具集对真实环境下收集的网络流量数据进行切分、清洗、规范，进而基于胶囊自编码器建立模型学习正常网络通联行为的空间特征，刻画基线行为，最终可实现有效的通联行为异常发现。

本发明的整体流程图如图1所示，所述方法的具体步骤细节描述为：

(1)数据清洗、数据预处理。

◆数据清洗：使用不同设备采集的网络流量数据可能有不同的规范模式，例如相同字段可能有不同字段名表示方式，因此要进行字段归一化；无意义数据剔除，对于主要字段有缺失的流，将该条数据直接删除，如果缺失的是其他字段则使用特殊值填充。具体地：

本发明所收集的流量数据采集自几十台功能服务器，数据包经过初步整合和结构化解析，所有字段和值均被处理成键值对格式，以JSON格式推送到Kafka消息队列通道，本发明作为消费者从消息队列中获取流量数据，然后从JSON中提取字段和值。

然而，使用不同工具采集的流量数据有不同的规范模式，相同字段可能有不同的表示方式，因此需要进行字段归一化。例如表示目的IP的字段名称可能有：dst_ip、dst_ip_addr、end_ip等，本发明采用词典结合正则匹配的方式完成字段归一化，首先通过正则匹配到含有“_ip$”的字符串，然后判断其前缀是否在字典中，匹配成功将其统一为某个标准字段(此处为dstIP)。

为了减少噪音，本发明对字段缺失的数据进行特殊处理，如果丢失的是主要字段，会导致模型无法从数据中学习有效的特征，则将该条数据直接删除，如果缺失的是其他字段则使用特殊值填充。

◆数据预处理：该步骤包含符号特征数值化、数值数据归一化和流量数据切分三部分。首先是符号特征数值化，流量数据中包含符号特征数据，而神经网络难以直接对符号数据进行处理，因此本发明需要将符合数据转换成数值数据；第二是数值数据归一化，不同特征数据之间维度相差较大会影响神经网络的收敛，数据归一化可以解决不同特征数据之间维度相差较大的问题。第三是流量数据划分，使用深度学习模型来训练数据需要给神经网络输入固定大小的数据，因此对于上述步骤处理后的流量，本发明根据会话进行流量数据划分，规定输入大小为28*28的矩阵，若流量矩阵大于该大小，则删除后面的数据，反之用0补充直到矩阵大小为28*28。具体地：

对于数据中的字符数据，由于深度模型难以直接对符号数据进行处理，本发明使用one-hot编码方式将字符数据转换为数值数据。以表示协议类型的HTTP、ICMP、SSH等为例，通过one-hot编码，将这些字符映射成若干个二进制向量[1,0,0]，[0,1,0]，[0,0,1]。其他字符数据按照类似的方式进行转换。

此外，数据归一化可以解决不同特征数据之间维度相差较大的问题，因此被广泛用于数据预处理步骤中。归一化是指将所有特征数据缩小到[0,1]范围内。本发明采用Min-Max归一化方法来处理流量数据，具体步骤由以下公式表示：

其中x代表某一种特征的属性值，x_max代表这种特征属性的最大值，x_min代表这种特征属性的最小值，x′代表对x进行归一化处理后的结果。

使用深度学习模型训练网络流量数据需要将连续的流量以某种特定的粒度划分为离散单元。本发明按照会话粒度将待处理的流量数据切分为多个会话流量，然后对各会话流量按照数据包粒度进行切分，将每一会话流量切分为多个流量组，每一流量组中的JSON对象个数不超过设定的最大值。最后将各流量组的大小进行统一后从JSON中提取字段和值，将每一流量组转换为一流量矩阵。具体步骤如下：

1)将流量数据以某种特定的粒度切分为离散单元。本发明将流量定义为包含不同数据包的集合，此处表示为P＝{p¹,…,p^|P|}，|P|表示数据包个数，p^k表示P中的第k个数据包，数据包p^k用下式定义：

p^k＝(a^k，len^k，t^k) (2)

其中k＝1,2,…,|P|，len^k∈(0,∞)，t^k∈(0，∞)，a^k是第k个数据包的五元组(源IP，源端口，目的IP，目的端口，传输层协议)，len^k是第k个数据包的字节长度，t^k是第k个数据包的开始时间。本发明将流量根据会话粒度进行切分。一个会话Gⁱ是含有相同五元组的双向流的集合，它被定义为：

Gⁱ＝{p¹＝(a¹,len¹,t¹),…,pⁿ＝(aⁿ,lenⁿ，tⁿ)} (3)

其中，a¹＝…＝aⁿ，t¹＜…＜tⁿ，n是Gⁱ中的数据包数量。

2)统一输入大小和格式：使用神经网络需要固定大小的输入，因此本发明将流量矩阵尺寸统一为28*28，若上述步骤划分的流量矩阵大于该大小，则仅保留最开始的数据；如果流量尺寸小于该大小，则用0填充。

(2)基于胶囊自编码器的模型训练

本发明基于胶囊自编码器模型，以由IDX封装的正常流量矩阵及标签为数据集，建立网络通联异常发现模型，通过重构输入学习正常数据的特征表示，最后将重构误差平均值设为阈值，测试时将重构误差大于某个阈值的数据判断为异常数据。

自编码器是一种包含了输入层、隐藏层(编码层)和解码层的三层神经网络，是一种由编码器和解码器组成的无监督学习结构。传统的自编码器一般使用的是全连接层，通常适用于一维数据，而对二维数据，全连接层会导致空间信息损失。

一种解决方案是使用CNN代替传统自编码器使用的全连接层。在这种卷积自编码器结构中，编码器进行卷积操作从输入层得到隐藏层，解码器进行反卷积操作将隐藏层重建，以获得与输入层相同维度的输出层。假设有k个卷积核，每个卷积核由卷积矩阵w^k和偏置矩阵b^k组成，此处用h^k表示卷积层，用*表示卷积，w^k表示卷积矩阵，

表示反卷积矩阵，c^k表示反卷积中的偏置矩阵，σ表示编码运算，则编码操作可用下式表示：

h^k＝σ(x*w^k+b^k) (4)

解码操作可用下式表示，其中

表示解码运算：

最后使用均方误差来表示估计值与真实值之间的重构误差，此处用

表示模型计算出的估计值，y_i表示表示输入模型的真实值，则重构误差计算过程如下式所示：

其中E为重构误差，m表示矩阵大小。

然而，CNN要求特征与位置无关，并且在学习过程中只考虑特征的有无而不考虑特征的位置及其他属性。但本发明认为流量中特定特征的位置以及数据包的排列顺序同样也是需要考虑的特征之一。因此，本发明采用CapsNet来搭建自编码器。与CNN相比，CapsNet不再使用池化操作，池化操作在减少连接参数的同时会丢弃了一些数据中的必要信息。

CapsNet主要包含两个卷积层和动态路由三部分。在编码阶段，模型读取经过以上预处理的28*28的流量矩阵，然后第一个Relu卷积层使用256个大小为9*9的卷积核对每一流量矩阵执行步长为1的卷积操作，第二个卷积层PrimaryCaps在上一步生成的大小为20*20的256个特征矩阵中使用32个大小为9*9的卷积核执行步数为2的卷积操作，共执行8次，每次使用不同的权重，最终生成6*6*32个8维活动向量。

CapsNet的第三层DigitCaps包括仿射变换和动态路由两部分，仿射变换可用下式表示：

其中u_i表示PrimaryCaps输出的活动向量，每一活动向量对应一个权重矩阵W_ij，W_ij由正态随机数构成，通过损失函数进行更新。

为前两者相乘所得预测向量，s_j为高层胶囊的输入，由

加权求和所得。权值c_ij是由迭代的动态路由确定的耦合系数，其更新公式如下：

c_ij＝softmax(b_ij) (8)

其中，b_ij是胶囊i耦合到胶囊j的对数先验概率。

经过三层编码后生成的16维流量矩阵再分别经过相同的DigitCaps、PrimaryCaps和CapsNet的第一个卷积层进行反卷积操作，输出与输入相同的大小为28*28的流量矩阵，完成解码和重构。随后按式(6)计算每个训练样本的重构误差，并取平均值作为正常数据的重构误差。

(3)异常通联行为检测

本发明测试时利用经过步骤(2)训练的胶囊自编码器模型完成异常通联行为检测，即对于待检测的流量，首先将其划分并转换为流量矩阵，然后将流量矩阵输入上述训练好的模型，通过分析测试样本的重构误差与训练数据的重构误差的差异，将重构误差大于某个阈值的数据判断为异常数据，该阈值可根据应用场景动态调节。本发明提出的基于基线行为刻画的通联异常发现方法可检测多种异常通联行为，例如DDos攻击、蠕虫病毒攻击等，也可发现与正常行为差异较大的连接行为，为分析人员分析是否存在攻击行为提供线索。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应当以所附权利要求为准。

Claims

1.一种基于基线行为刻画的通联异常发现方法，其步骤包括：

3)根据流量矩阵y与重构流量矩阵

得到通联异常发现结果。

2.如权利要求1所述的方法，其特征在于，数据清洗包括：字段归一化、无意义数据剔除和非主要字段的缺失字段填充。

3.如权利要求1所述的方法，其特征在于，通过以下策略进行预处理：

2)基于Min-Max归一化方法，将数值数据归一化；

4.如权利要求3所述的方法，其特征在于，通过以下步骤对待测流量数据进行切分：

1)设定待测流量数据为包含不同数据包p^k的集合，且数据包p^k＝(a^k，len^k，t^k)，其中k＝1，2，...，|P|，|P|表示数据包个数，a^k是第k个数据包的五元组，所述五元组包括：源IP、源端口、目的IP、目的端口和传输层协议，len^k是第k个数据包的字节长度，len^k∈(0，∞)，t^k是第k个数据包的开始时间，t^k∈(0，∞)；

5.如权利要求1所述的方法，其特征在于，所述自编码器的结构包括：由两个卷积层及一个DigitCaps层组成的编码器和与所述编码器结构对称的解码器。

6.如权利要求5所述的方法，其特征在于，当流量矩阵y的大小为28*28时，通过以下步骤进行编码：

3)DigitCaps层基于仿射变换及动态路由，生成16维流量矩阵。

7.如权利要求1所述的方法，其特征在于，通过以下步骤通过以下步骤得到通联异常发现结果：

1)计算重构流量矩阵

与流量矩阵y之间的均方误差，得到重构误差；

2)将重构误差与一阈值对比，得到通联异常发现结果。

8.如权利要求7所述的方法，其特征在于，通过以下步骤计算所述阈值：

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。