CN113780447B

CN113780447B - 基于流量分析的敏感数据发现识别方法及系统

Info

Publication number: CN113780447B
Application number: CN202111086694.1A
Authority: CN
Inventors: 冯金龙; 王宇; 许大辰
Original assignee: Zhengzhou Yunzhi Xin'an Security Technology Co ltd
Current assignee: Zhengzhou Yunzhi Xin'an Security Technology Co ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-07-11
Anticipated expiration: 2041-09-16
Also published as: CN113780447A

Abstract

本发明涉及网络安全技术领域，具体涉及一种基于流量分析的敏感数据发现识别方法及系统。该方法包括：获取网络流量中数据包的字符流序列的波峰点和波谷点作为预设分割点；根据预设分割点进行自适应序列分段得到多个周期波段；获取每个周期波段的平均值和极差以及组合波段的组合信息熵，根据每个字符流序列的残差序列获取平均波动值；以平均值、极差、组合信息熵以及平均波动值构建特征向量，将字符流序列的特征向量输入孪生网络获取隐空间特征向量，根据孪生网络训练过程中的第一特征向量与隐空间特征向量的最小距离识别出敏感数据类别。利用本发明实施例能够有效对敏感数据进行判断，精准识别出需要保护的敏感数据。

Description

基于流量分析的敏感数据发现识别方法及系统

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于流量分析的敏感数据发现识别方法及系统。

背景技术

敏感数据是指与个人生活或者工作密切相关的数据，泄露后很有可能给个人或者社会造成危害的数据。包括个人隐私数据和企业不适合公布的数据，个人隐私包括账户密码、信用卡号、医疗信息等，企业不适合公布的数据包括企业的经营情况，企业的内部网络结构等。

随着技术的快速发展，业务系统的逐渐复杂，数据量也急剧爆发，网络服务和应用程序的动态增长带来了新的风险和安全漏洞，而这些漏洞和风险可能被各种攻击所利用，从而对整个网络系统进行破坏甚至使整个网络系统瘫痪，在网络遭到用户到根(U2R)攻击或者远程到本地(R2L)攻击的类别时，因为恶意攻击流量与正常数据流量高度相似，所以此类攻击不易检测，网络流量中的敏感数据很有可能被泄露。

面对数据量较大的业务系统，目前常用的网络异常检测系统可以对恶意数据流量进行检测和分类，但是由于现有技术是通过字典数据库匹配关键字的方法识别敏感数据的，也就是说敏感数据的识别依赖于字典数据库，在字典数据库不完整或者有误时，其在网络流量中发现和识别需要保护的敏感数据的准确度较低。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于流量分析的敏感数据发现识别方法及系统，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种基于流量分析的敏感数据发现识别方法，该方法包括以下步骤：

获取网络流量中数据包的字符流序列；

获取每个所述字符流序列的波峰点和波谷点，以每个所述波峰点或波谷点作为预设分割点；

根据每个所述预设分割点对每个所述字符流序列进行自适应序列分段得到多个周期波段；

获取每个所述周期波段的平均值以及极差；将所述周期波段与其相邻两个周期波段作为组合波段，根据所述组合波段获取组合信息熵；

计算所述字符流序列的累加序列，对所述累加序列进行拟合获取拟合曲线，根据所述累加序列和所述拟合曲线获取所述残差序列，根据所述残差序列获取所述周期波段的平均波动值；

以所述平均值、极差、组合信息熵以及平均波动值构建特征向量，将所述字符流序列的所述特征向量输入孪生网络获取隐空间特征向量，根据第一特征向量与隐空间特征向量的最小距离识别出所述隐空间特征向量的敏感数据类别，所述第一特征向量是在训练所述孪生网络的过程中输出的向量。

优选的，所述根据所述组合波段获取组合信息熵的步骤，包括：

获取所述组合波段中字符为字母和数字的概率，根据所述概率获取所述组合信息熵。

优选的，所述计算所述周期波段的累加序列的步骤，包括：

在所述周期波段为q＝[q₁,q₂,q₃,…,q_n]时，所述累加序列为Q＝[q₁,q₁+q₂,q₁+q₂+q₃,…,q₁+q₂+q₃+…+q_n]，其中，q_n表示所述周期波段中的第n个值。

优选的，所述根据所述累加序列和所述拟合曲线获取所述残差序列，的步骤，还包括：

获取所述累加序列与所述拟合曲线的差值序列，将所述差值序列作为所述残差序列。

优选的，所述根据所述残差序列获取所述周期波段的平均波动值的步骤，包括：

计算所述周期波段对应的残差序列中所有残差值的和与所述残差序列的长度的比值，将所述比值作为所述残差序列的平均波动值。

优选的，所述训练所述孪生网络的步骤，包括：

所述孪生网络训练过程中的输入为存在敏感数据的字符流序列和不存在敏感数据的字符流序列，损失函数采用对比损失，输出所述第一特征向量。

优选的，所述根据第一特征向量与隐空间特征向量的最小距离识别出所述隐空间特征向量的敏感数据类别的步骤，包括：

将所述最小距离对应的第一特征向量的类别作为所述隐空间特征向量的类别。

第二方面，本发明另一个实施例提供了一种基于流量分析的敏感数据发现识别系统，该系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明实施例的有益效果在于：通过获取数据包的字符流序列，对字符流序列按照其波峰点或波谷点划分为周期波段，获取周期波段的平均值、极差以及平均波动值，获取周期波段的组合波段，根据组合波段获取组合信息熵，根据平均值、极差、组合信息熵以及平均波动值构成特征向量，将特征向量输入孪生网络中获取隐空间特征向量，以及在孪生训练过程中产生的第一特征向量，根据第一特征向量与隐空间特征向量之间的最小距离识别出隐空间特征向量的敏感数据的类别，通过提取字符流序列的特征向量，使孪生网络有针对性的对该特征向量进行识别并分类，达到了精准、高效对敏感数据进行判断的目的，有效识别出需要保护的敏感数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于流量分析的敏感数据发现识别的方法示意图；

图2为本发明一个实施例所提供的一种字符流序列的字符编码示意图；

图3为本发明一个实施例所提供的字符流序列中波峰点与波谷点的位置示意图；

图4为与图3对应的字符流序列累加序列和拟合曲线的示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于流量分析的敏感数据发现识别方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明实施例应用于数据量庞大的业务系统中，为了解决敏感数据不容易识别的问题，通过获取数据包的字符流序列，对字符流序列按照其波峰点或波谷点划分为周期波段，进一步获取周期波段的平均值、极差以及周期波段组成的组合波段的组合信息熵，获取周期波段的残差序列并进一步获取平均波动值根据平均值、极差、组合信息熵以及平均波动值构成特征向量，将特征向量输入孪生网络中获取隐空间特征向量，以及在孪生训练过程中产生的第一特征向量，根据第一特征向量与隐空间特征向量之间的最小距离识别出隐空间特征向量的敏感数据的类别，达到了精准、高效对敏感数据进行判断的目的，有效识别出需要保护的敏感数据。

下面结合附图具体的说明本发明所提供的一种基于流量分析的敏感数据发现识别方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于流量分析的敏感数据发现识别的方法流程图，该方法具体包括以下步骤：

步骤S100，获取网络流量中数据包的字符流序列。

对网络流量进行采集，获取其原始数据，该原始数据为字节流形式。

具体的，数据包主要由“目的IP地址”、“源IP地址”、“净载数据”等部分构成，包括包头和包体，包头的长度固定，而包体的长度不定，各个字段长度固定，双方的请求数据包和应答数据包的包头结构是一致的，不同的是包体的定义。数据包的结构类似于发送邮件，其中，“目的IP地址”是用来说明这个数据包要发送给谁，相当于收件人地址；“源IP地址”是用来说明这个数据包来自哪里，相当于发件人地址；“净载数据”即为数据包的内容，相当于邮件的内容。

由于不同数据包的大小不同，所以设置一个固定的阈值N，在删除潜在的偏移字节信息之后，将每个传入的数据包修剪为前N个字节，数据包不足N个字节时，用零进行填充。所有的数据包都被修剪为N个字节，可以减少后续的计算量，提高计算效率。

作为优选，本发明实施例中将阈值N设置为经验值1024。

需要说明的是，数据包内容通常是以十六进制形式表示，用于显示数据包在物理层上传输时的最终形式。

请参阅图2，作为优选实施例，本发明实施例中对每个数据包字节流中的每个字节进行Unicode编码十进制转换，好处在于该进制下的值域范围相对较小，且全为数字表示。对得到的数字进行归一化，最终得到数据包归一化十进制的字符流序列。从图2中可知，汉字的Unicode编码十进制编码数字较大，例如“刘”的Unicode十进制编码数字为“21016”、“先”的Unicode十进制编码数字为“20808”；而字母和数字的Unicode十进制编码数字较小，例如字母“G”、“K”的Unicode十进制编码分别为“71”和“75”，数字“2”、“4”的Unicode十进制编码分别为“50”和“52”。根据先验知识可知：数字0-9的十进制编码为48-57、小写字母a-z的十进制编码为97-122、大写字母A-Z的十进制编码为65-90。由此可知将数字和字母的Unicode十进制编码数字远小于汉字的Unicode十进制编码数字。因此对于采用纯字母、纯数字或者是字母和数字混合的密码形式，根据字符流序列中编码数字的大小能够区分出汉字和敏感数据。

步骤S200，获取每个字符流序列的波峰点和波谷点，以每个波峰点或波谷点作为预设分割点。

由步骤S100中获取每个数据包的字符流序列，基于数据包的字节流进行时间序列的分析，获取每个字符流序列的波峰点和波谷点。

具体的，获取波峰点和波谷点的具体方法如下：

1)将字符流序列表示为V＝[v₁,v₂,…v_i…,v_n]，其中，n表示字节流的位置，每个位置都存在一个十进制的字节表示。v_i表示第i个位置的字节。

2)计算字符流序列V的一阶差分向量DiffV，具体为：

DiffV(i)＝V(i+1)-V(i)

其中，i∈{1,2,…,N-1}。

3)由于具体的差分幅值不会产生影响，所以对差分向量进行取符号函数运算，将所有的数据归为-1,0,1，具体为：

其中，Trend(i)＝sign(DiffV(i))表示对一阶差分向量DiffV(i)取符号函数运算。

4)差分值为零的点即为相同点，如果使用比较法，则峰值检测可能失效，所以在检测时需要附加更多的条件，本发明实施例中将相同点零置为前一个非零值来规避这个问题，从尾部开始遍历Trend，具体的：

5)对Trend(i)向量再次进行一阶差分运算，得到R＝Diff(Trend)

若R(i)＝-2，则i+1为字符流序列V的一个波峰点，对应的波峰值为V(i+1)；若R(i)＝2，则i+1为字符流序列V的一个波谷点，对应的波谷值为V(i+1)。

综上所述，可以识别出每个字符流序列的波峰点和波谷点，以波峰点或者波谷点作为预设分割点进行后续处理。

步骤S300，根据每个预设分割点对每个字符流序列进行自适应序列分段得到周期波段。

在本发明实施例中，数据包根据是否存在敏感数据可以分为两个类别，一类为存在敏感数据的数据包，一类为不存在敏感数据的数据包；为了降低时间序列的数据量，采用分段的方法来表示字符流序列，同时能使后续的网络更加容易收敛，更容易得到敏感数据的特征表示。

相比较传统的采用PAA算法对字符流序列进行均匀分段，但均匀分段方式容易造成信息的丢失，因此本发明实施例采用的自适应分段方法基于波峰或者波谷进行，有利于学习语言的规律。

请参阅图3，本发明实施例中采用自适应分段的方式，基于步骤S200中得到的预设分割点对每个字符流序列进行自适应序列分段得到周期波段。如图3所示，该图是以字符流序列的顺序作为横坐标、以归一化的十进制编码为纵坐标得到曲线图，由于在“刘先生的账户密码是GKLWI”的字符流序列中的起始点为“刘”所对应的字符编码坐标点S1、终点为“I”所对应的字符编码坐标点E1、波峰点为“账”所对应的字符编码坐标点H1和“码”所对应的字符编码H2、波谷点为“先”所对应的字符编码坐标点L1和“密”所对应的字符编码L2。假设以波谷点作为预设分割点，则将该字符流序列自适应划分周期波段可以得到由起始点S1、波谷点L1和波峰点H1组成的第一周期波段，由波峰点H1、波谷点L2和波峰点H2组成的第二周期波段，由波峰点H2和终点E1组成的第三周期波段。

步骤S400，获取每个周期波段的平均值以及极差；将周期波段与其相邻两个周期波段作为组合波段，根据组合波段获取组合信息熵。

由步骤S300获取预设分割点所分割的周期波段，计算每个周期波段的平均值，根据每个周期波段的平均值对汉字、字母或数字进行区分，具体为：

其中，A表示每个周期波段的平均值；v_i表示周期波段中第i个值；n表示周期波段的长度。

由于利用预设分割点进行分段，在周期波段中可能包含汉字、数字与字母中的一种或者多种，而数字和字母的编码数字与汉字的编码数字之间的存在较大的差异，所以根据每个周期波段的极差来反映这种差异。

极差是指每个周期波段中总体各单位的两个极端标志值之差，即最大标志值与最小标志值的差异，具体计算为：

r＝B_max-B_min

其中，r表示每个周期波段的极差；B_max表示当前周期波段的最大标志值；B_min表示当前周期波段的最小标志值。

对于单个周期波段而言，其中可能只包含字母或者数字，利用均值和极差并不能很好的对其进行区分，因此将该周期波段相邻的前一周期波段和后一周期波段进行组合，获得一个组合波段，对组合波段进行分析获取信息熵。

具体的，由于字母以及数字的Unicode十进制编码已知，根据编码的数值获取组合波段内字符属于字母以及数字的概率，根据字符属于每一类别的概率计算组合信息熵：

其中，H表示组合信息熵；n表示字符的类别；P_i表示第i类字符的概率；M为底数。

作为优选，本发明实施例中默认敏感数据为字母和数字的组合形式，n取值为2，M经验取值为2。

当该组合分段中只存在数字或者是只存在字母时，组合信息熵的值为0，组合分段中为字母和数字组合时，组合信息熵越大，说明此处越有可能为敏感数据。

利用相同的方法，获取每个周期波段的组合信息熵。

步骤S500，计算字符流序列的累加序列，对累加序列进行拟合获取拟合曲线，根据累加序列和拟合曲线获取残差序列，根据残差序列获取周期波段的平均波动值。

具体的，计算字符流序列的累加序列的方法：在字符流序列为q＝[q₁,q₂,q₃,…,q_n]时，该累加序列为Q＝[q₁,q₁+q₂,q₁+q₂+q₃,…,q₁+q₂+q₃+…+q_n]，其中，q_n表示字符流序列中的第n个值。

请参阅图4，图中的实线曲线表示累加序列趋势，虚线直线表示拟和曲线。由于对每个字符的Unicode十进制编码进行了归一化，归一化之后的汉字编码数字较大，数字和字母构成的敏感数据远小于汉字编码，所以对于由归一化后的数字或者字母的编码数字构成的累加序列呈现为接近不变的一段序列。对累加序列的数据利用最小二乘法进行拟合，得到拟合曲线用于表示对应的趋势。图中展示出了对汉字字符对应的累加序列进行拟合之后所得到的曲线；以及在存在敏感数据之后，对整个字符流序列中的所有字符，包括汉字字符及敏感数据字符进行拟合之后得到的曲线。

对累加序列进行对应趋势的消除获得残差序列，通过获取累加序列与拟合曲线的差值序列，将差值序列作为残差序列，具体的：

S₁＝|ST1-ST2|

其中，S₁表示残差序列；ST1表示累加序列；ST2表示拟合曲线。

对于累加序列而言，不存在敏感数据时，其累加序列的数值在一定的波动范围内逐渐增大，得到的残差序列波动较小；在存在敏感数据时，由于敏感数据对应的数值较小，敏感数据的累加序列在整体的累加序列中表现为一段接近直线的序列，因此对累加序列拟合之后得出对应的残差序列，数据的波动越大，反映出该数据包的字符流序列中越可能存在敏感数据。

进一步计算周期波段中对应的残差序列中所有残差值的和与整体周期波段长度的比值，将比值作为周期波段的平均波动值，具体的：

其中，C表示周期波段的平均波动值；S_i表示周期波段中的第i个残差值；n表示周期波段的长度。

步骤S600，以平均值、极差、组合信息熵以及平均波动值构建特征向量，将字符流序列的特征向量输入孪生网络获取隐空间特征向量，根据第一特征向量与隐空间特征向量的最小距离识别出隐空间特征向量的敏感数据类别，第一特征向量是在训练孪生网络的过程中输出的向量。

通过步骤S400与步骤S500获取到平均值、极差、组合信息熵以及平均波动值，以此构成每个字符流序列的特征向量。

本发明实施例中采用孪生网络实现最终的敏感数据发现与识别，孪生网络的具体形态为序列编码器结合全连接网络，由于孪生网络的特性，存在两个分支网络，分支的形态都为序列编码器结合全连接网络。其中，序列编码器用来对每个字符流序列的特征向量进行特征提取，全连接网络是将序列编码器提取的特征映射到隐空间，训练过程中两个输入进行对比计算损失，通过孪生网络可以有效扩大类间的差异，缩小类内的差异。

需要说明的是，序列编码器采用时间卷积网络，由于本发明实施例中基于预设分割点进行分段时，对于每一个字符流序列都存在不同数量的预设分割点，因此字符流序列的分段长度不一定相同，而时间卷积网络可以解决输入数据的不定长问题。

孪生网络的网络训练过程如下：

1)网络的训练集为：存在敏感数据的数据包的每个字符流序列的特征向量以及不存在敏感数据的数据包的每个字符流序列的特征向量。

2)时间卷积网络的输入为每个字符流序列的特征向量，具体形状为[b,t,4]，其中，b为batchsize，表示孪生网络训练批次的样本数量；t表示所有字符流序列的数量，4表示[A,r,H,C]，A为平均值、r为极差、H为组合信息熵、C为平均波动值。时间卷积网络的输出为特征向量，该特征向量的维数取经验值64，通过时间卷积网络提取特征向量中数据之间的关系，增强网络的拟合效果。

3)将维数64的特征向量在经过全连接网络进行特征拟合，输出第一特征向量，维数为128。

4)损失函数采用孪生网络常用的对比损失函数。

通过上述孪生网络的训练获取一个128维的第一特征向量，并传输到数据库中进行储存。

进一步的，通过网络流量的监控获取数据流信息，该数据流信息是由许多字符流序列组成的，将数据流信息输入孪生网络的训练过程中，最终得到两种类别的多个第一特征向量，一类为敏感数据的第一特征向量，一类为不敏感数据的第一特征向量。

将实际场景中的每个字符流序列的特征向量输入孪生网络中获取隐空间特征向量，计算隐空间特征向量与所有第一特征向量之间的欧式距离，选取所有欧式距离中的最小距离，将最小距离对应的第一特征向量的类别作为隐空间特征向量的类别，从而实现敏感数据的发现与识别。

综上所述，本发明实施例中通过获取数据包的字符流序列，对字符流序列按照其波峰点或波谷点划分为周期波段，进一步获取周期波段的平均值和极差，根据周期波段中每个字符类别所占的概率获取组合信息熵，根据周期波段的残差序列获取该波段的平均波动值，根据平均值、极差、组合信息熵以及平均波动值构成特征向量，将特征向量输入孪生网络中获取隐空间特征向量，以及在孪生训练过程中产生的第一特征向量，根据第一特征向量与隐空间特征向量之间的最小距离识别出隐空间特征向量的敏感数据的类别，可以精准、高效的对敏感数据进行判断，识别出需要保护的敏感数据。

基于与上述方法实施例相同的发明构思，本发明实施例还提供了一种基于流量分析的敏感数据发现识别系统，该系统包括：处理器、存储器以及存储在所述存储器中并可在处理器上运行的计算机程序。处理器执行所述计算机程序时实现上述一种基于流量分析的敏感数据发现识别方法实施例中的步骤，例如图1所示的步骤。该一种基于流量分析的敏感数据发现识别方法在上述实施例中已经详细说明，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。