CN109714343A

CN109714343A - 一种网络流量异常的判断方法及装置

Info

Publication number: CN109714343A
Application number: CN201811621999.6A
Authority: CN
Inventors: 张新; 张旭
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-03
Anticipated expiration: 2038-12-28
Also published as: CN109714343B

Abstract

本发明公开了一种网络流量异常的判断方法及装置，该方法包括：获取待测数据，并从所述待测数据中过滤出基于第一通信协议的目标数据，进而获取所述目标数据中的预设字段数据；基于所述预设字段数据生成相应的具有特定数据结构的特征参数；将所述特征参数作为输入，利用训练过的第一模型，得到相应的输出数据；根据所述第一模型的输出数据与预设阈值的比较结果，判断所述待测数据是否为异常数据。本方法能够对待测数据中的基于第一通信协议的目标数据进行解析，并结合训练好的第一模型，进而能够在无需使用预先设定特征库的情况下完成对异常数据的判断，并且有效提高判断精度。

Description

一种网络流量异常的判断方法及装置

技术领域

本发明涉及基于网络的数据处理领域，特别涉及一种网络流量异常的判断方法及装置。

背景技术

网络流量异常检测是网络安全领域的重要研究内容，网络流量异常是指对网络正常使用造成不良影响的网络流量模式，引起网络流量异常的原因很多，主要包括：1)网络攻击，如DDoS攻击、Dos攻击、端口查看等；2)导致数据量模式改变的网络病毒，如蠕虫病毒等；3)网络的使用问题，如大量的P2P的应用模式对网络流量造成影响；4)网络误配置及网络存储耗尽等。

传统的网络流量异常检测是基于流量特征的，主要通过寻找能与已知异常特征相匹配的模式来检测异常，需要预先设定特征库或者规则库。这种方法的缺点是不能检测未知异常，同时随着异常种类的增多，特征库有限，检测效率及准确性下降。此外，目前很多网络流量是加密的，如使用TLS(安全传输层协议)进行加密，但目前的异常检测方法没有考虑如TLS流量的特征，因此对TLS加密等加密的异常流量检测准确率低。

发明内容

本发明实施例的目的在于提供一种网络流量异常的判断方法及装置。

本申请的实施例采用了如下技术方案：一种网络流量异常的判断方法，包括：

获取待测数据，并从所述待测数据中过滤出基于第一通信协议的目标数据，进而获取所述目标数据中的预设字段数据；

基于所述预设字段数据生成相应的具有特定数据结构的特征参数；

将所述特征参数作为输入，利用训练过的第一模型，得到相应的输出数据；

根据所述第一模型的输出数据与预设阈值的比较结果，判断所述待测数据是否为异常数据。

作为优选，所述第一通信协议为安全传输层协议，所述的获取待测数据，并从所述待测数据中过滤出基于第一通信协议的目标数据，进而获取所述目标数据中的预设字段数据包括：

确定所述目标数据中的数据流；

获取所有的所述数据流的传输层协议，以及所述数据流中数据包对应的时间参数；

获取所述目标数据中以明文显示的预设字段。

作为优选，所述预设字段包括所述目标数据中的client hello数据的CipherSuites字段和Extensions字段，其中所述client hello数据为所述网络中的客户端向服务器发送的数据；

所述预设字段还包括所述目标数据中的server hello数据的Cipher Suites字段和Extensions字段，其中所述server hello数据为所述网络中的服务器向客户端发送的数据。

作为优选，所述第一模型为孤立森林模型，所述方法还包括：

基于训练数据对所述孤立森林模型进行训练，以生成多个孤立树结构数据；

基于所述孤立树结构数据计算所述待测数据的异常概率，以形成所述输出数据。

作为优选，所述预设阈值在0至1的范围内选定，所述的根据所述第一模型的输出数据与预设阈值的比较结果，判断所述待测数据是否为异常数据包括：当所述输出数据大于所述预设阈值时，确认所述待测数据为异常数据。

本发明实施例还提供了一种网络流量异常的判断装置，包括：

获取模块，其配置为：获取待测数据，并从所述待测数据中过滤出基于第一通信协议的目标数据，进而获取所述目标数据中的预设字段数据；

处理模块，其配置为：基于所述预设字段数据生成相应的具有特定数据结构的特征参数；

作为优选，所述第一通信协议为安全传输层协议，所述获取模块进一步配置为：

确定所述目标数据中的数据流；

获取所述目标数据中以明文显示的预设字段。

作为优选，所述第一模型为孤立森林模型，所述装置还包括训练模块，所述训练模块配置为基于训练数据对所述孤立森林模型进行训练，以生成多个孤立树结构数据，以使所述处理模块基于所述孤立树结构数据计算所述待测数据的异常概率，以形成所述输出数据。

作为优选，所述预设阈值在0至1的范围内选定，所述处理模块进一步配置为：当所述输出数据大于所述预设阈值时，确认所述待测数据为异常数据。

本发明实施例的有益效果在于：本方法能够对待测数据中的基于第一通信协议的目标数据进行解析，并结合训练好的第一模型，进而能够在无需使用预先设定特征库的情况下完成对异常数据的判断，并且有效提高判断精度。

附图说明

图1为本发明实施例的网络流量异常的判断方法的流程图；

图2为本发明实施例的图1中步骤S1的流程图；

图3为本发明实施例的网络流量异常的判断方法的一个实施例的流程图；

图4为本发明实施例的网络流量异常的判断装置的结构示意图。

具体实施方式

此处参考附图描述本发明的各种方案以及特征。

应理解的是，可以对此处发明的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本发明的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且与上面给出的对本发明的大致描述以及下面给出的对实施例的详细描述一起用于解释本发明的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本发明的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本发明的具体实施例；然而，应当理解，所发明的实施例仅仅是本发明的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本发明模糊不清。因此，本文所发明的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本发明。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本发明的相同或不同实施例中的一个或多个。

本发明实施例的一种网络流量异常的判断方法，在网络中客户端可以与服务器进行数据交互，虽然异常可以有多种表现形式，如超时接收、接收不完整、无法接收等现象，而产生原因也多种多样(如上所述自此不再赘述)，但是本实施例中结合了训练模型而进一步提高了异常数据的判别能力，如图1所示，该方法包括以下步骤：

S1，获取待测数据，并从待测数据中过滤出基于第一通信协议的目标数据，进而获取目标数据中的预设字段数据。待测数据可以是用户监测的数据，如所有的发送到网络中的服务器的数据，或者是根据需要监测的其他数据。此外该待测数据可以是经过加密的数据，其部分内容是加密内容，但还有其他部分的内容可以以明文形式出现，使得从待测数据中过滤出基于第一通信协议的目标数据中也包含有以明文形式出现的数据。待测数据中包含有多种类型并能够分别用于不同目的的数据，目标数据为待测数据将其他类型数据过滤后形成的基于第一通信协议的数据，例如目标数据可以为基于TLS协议(安全传输层协议)的数据，用于在两个通信应用程序之间提供保密性和数据完整性。目标数据中具有预设字段数据以及其他相关联数据，在一个实施例中，如果目标数据为基于第一通信协议(如上述的TLS协议)进行加密的数据，则该预设字段数据可以包括以明文形式出现数据。当然该预设字段数据可以根据第一通信协议来预先设定。

S2，基于预设字段数据生成相应的具有特定数据结构的特征参数。特征参数可以为具有特定数据结构或者数据形式的参数，该特征参数可以用来表征预设字段数据的在传输过程中的具体表现，该特征参数中包括多个具体参数，但可以作为一个整体数据进行使用。

S3，将特征参数作为输入，利用训练过的第一模型，得到相应的输出数据。第一模型是根据具体需要来选择，并预先对该第一模型进行训练，当然训练的过程可以使用训练数据来进行，以使该第一模型更加适用于本实施中的所述方法对异常数据(异常流量)的判断。在一个实施例中，第一模型可以是孤立森林模型(iForest，Isolation Forest)，孤立森林模型是一种异常检测算法，它的设计利用了异常数据的两个特点：极少特点和与众不同特点。即异常数据的个数占数据集总体规模的比重较小，其次异常数据的属性值与正常的属性值相比存在明显差异。iForest通过对数据对象进行递归的划分，直到每个对象都成为一个孤立的叶子节点来检测异常数据，由于异常数据的特点，异常数据会更接近树的根节点，即路径长度较短，这样iForest仅需少量条件就可以将异常数据区分出来。本实施例中，将特征参数作为已经训练好的第一模型的输入数据，从而得到相应的输出数据。

S4，根据第一模型的输出数据与预设阈值的比较结果，判断待测数据是否为异常数据。预设阈值可以根据实际需要预先设定，并将得到的输出数据与预设阈值进行比较，根据比较结果来判断该待测数据是否为异常数据，例如输出数据的具体数值大于预设阈值则认定待测数据为异常数据；或者小于预设阈值则认定待测数据为异常数据。

在本发明的一个实施例中，第一通信协议为安全传输层协议，如图2所示，所述的获取待测数据，并从待测数据中过滤出基于第一通信协议的目标数据，进而获取目标数据中的预设字段数据的步骤包括以下步骤：

S11，确定目标数据中的数据流；

S12，获取所有的数据流的传输层协议，以及数据流中数据包对应的时间参数；

S13，获取目标数据中以明文显示的预设字段。

举例来说，目标数据为基于TLS协议的数据时，在对目标数据进行解析后，获取了目标数据中每条数据流的传输层协议，以及数据流中每个数据包的包长和数据包到达时间。在一个实施例中，预设字段可以包括目标数据中的client hello数据的Cipher Suites字段和Extensions字段，其中client hello数据为网络中的客户端向服务器发送的数据；预设字段还包括目标数据中的server hello数据的Cipher Suites字段和Extensions字段，其中server hello数据为网络中的服务器向客户端发送的数据。进一步来说，由于基于TLS协议的数据在完成客户端与服务器之间的三次握手后出现，客户端发送的clienthello和服务端发送的server hello是明文的，正常数据和异常数据client hello和server hello中的Cipher Suites字段和Extensions字段区别较大。正常数据的CipherSuites中的加密算法一般选用加密强度大和最新的加密算法，而异常数据选用的加密算法会选用简单和较为老旧的加密算法，正常数据会有多个Extensions字段，而异常数据一般只有1个Extensions字段，因此基于上述现象，在使用iForest等第一模型进行基于TLS协议的加密流量的异常检测可以提高检测的准确率。

进一步来说，预设字段数据包括上述的数据流中数据包对应的时间参数，以及预设字段，然后再基于预设字段数据生成相应的特征参数。特征参数可以为具有特定数据结构或者一定数据形式的参数，该特征参数可以用来表征预设字段数据的在传输过程中的具体表现，该特征参数中包括多个具体参数，但可以作为一个整体数据进行使用。具体来说，当目标数据为基于TLS协议的数据时，特征参数可以包括下表中所示内容。

传输层协议
	连接持续时间
流每秒的字节数
	流每秒的包数
client->server包长的最小值、平均值、最大值、标准差
	server->client包长的最小值、平均值、最大值、标准差
client->server包到达间隔时间的最小值、平均值、最大值、标准差
	server->client包到达间隔时间的最小值、平均值、最大值、标准差
client->server包数
	client->server字节数
client->server标志位为PSH的包的个数
	server->client包数
server->client字节数
	server->client标志位为PSH的包的个数
将前50个包的包长序列离散化后生成马尔可夫链
	将前50个包的包到达间隔时间序列离散化后生成马儿可夫链
TLS协议client hello中的Cipher Suites字段值
	TLS协议client hello中的Extensions字段值
TLS协议server hello中的Cipher Suites字段值
	TLS协议server hello中的Extensions字段值

在本发明的一个实施例中，第一模型为孤立森林模型，如图3所示，该方法还包括：

S5，基于训练数据对孤立森林模型进行训练，以生成多个孤立树结构数据；

S6，基于孤立树结构数据计算待测数据的异常概率，以形成输出数据。

具体来说，由于实时抓取的流量数据没有标记为正常类型或者异常类型，在缺乏足够先验知识的情况下，在训练该孤立森林模型时可以选择无监督学习算法，基于已有的训练数据对孤立森林模型进行训练。在一个实施例中，从训练数据中随机选择若干个样本点作为下采样，放入树的根节点，随机选择一个特征作为新节点，在当前特征数据中随机产生一个切割点p，以此切割点生成一个超平面，然后将当前节点数据空间划分为两个子空间，如果子节点只有一条数据或已达到树的限定高度则可以输出t个iTree，即孤立树结构数据，其中孤立树结构数据(iTree)为二叉树结构。

在孤立森林模型被训练后满足条件时，将特征参数作为孤立森林模型的输入，命令用特征参数(x)遍历每棵iTree，然后计算x最终落在每棵树的第几层(x在树的高度)，最后我们可以得出x在每棵树的高度平均值h(x)。此时我们用下面的公式计算样本点x的异常概率：

s(x,m)＝2^(-(h(x))/(c(m)))

其中，m为样本个数。c(m)表达式为：

c(m)＝2ln(m-1)+ε-2(m-1)/m，ε为欧拉常数，

s(x,m)的取值范围是[0,1]，取值越接近于1，则是异常的概率越大。

在本发明的一个实施例中，预设阈值在0至1的范围内选定，所述的根据第一模型的输出数据与预设阈值的比较结果，判断待测数据是否为异常数据包括：当输出数据大于预设阈值时，确认待测数据为异常数据。具体来说，预设阈值在0至1的范围内选定，则通过上述公式得到的异常概率s(x,m)即为本实施例中的第一模型的输出数据，将s(x,m)的数值与预设阈值进行比较，如果大于该预设阈值则可以认为相应的待测数据为异常数据。

本发明实施例还提供了一种网络流量异常的判断装置，在网络中客户端可以与服务器进行数据交互，该装置能够对网络中的异常数据进行判断，虽然异常可以有多种表现形式，如超时接收、接收不完整、无法接收等现象，而产生原因也多种多样(如上所述自此不再赘述)，但是本实施例中结合了训练模型而进一步提高了异常数据的判别能力，如图4所示，该装置包括：

获取模块，其配置为：获取待测数据，并从待测数据中过滤出基于第一通信协议的目标数据，进而获取目标数据中的预设字段数据。待测数据可以是用户监测的数据，如所有的发送到网络中的服务器的数据，或者是根据需要监测的其他数据。此外该待测数据可以是经过加密的数据，其部分内容是加密内容，但还有其他部分的内容可以以明文形式出现，使得从待测数据中过滤出基于第一通信协议的目标数据中也包含有以明文形式出现的数据。待测数据中包含有多种类型并能够分别用于不同目的的数据，目标数据为待测数据将其他类型数据过滤后形成的基于第一通信协议的数据，例如目标数据可以为基于TLS协议(安全传输层协议)的数据，用于在两个通信应用程序之间提供保密性和数据完整性。目标数据中具有预设字段数据以及其他相关联数据，在一个实施例中，如果目标数据为基于第一通信协议(如上述的TLS协议)进行加密的数据，则该预设字段数据可以包括以明文形式出现数据。当然该预设字段数据可以根据第一通信协议来预先设定。

处理模块，其配置为：基于预设字段数据生成相应的具有特定数据结构的特征参数；将特征参数作为输入，利用训练过的第一模型，得到相应的输出数据；根据第一模型的输出数据与预设阈值的比较结果，判断待测数据是否为异常数据。

特征参数可以为具有特定数据结构或者数据形式的参数，该特征参数可以用来表征预设字段数据的在传输过程中的具体表现，该特征参数中包括多个具体参数，但可以作为一个整体数据进行使用。

第一模型是根据具体需要来选择，并预先对该第一模型进行训练，当然训练的过程可以使用训练数据来进行，以使该第一模型更加适用于本实施中的所述方法对异常数据(异常流量)的判断。在一个实施例中，第一模型可以是孤立森林模型(iForest，IsolationForest)，孤立森林模型是一种异常检测算法，它的设计利用了异常数据的两个特点：极少特点和与众不同特点。即异常数据的个数占数据集总体规模的比重较小，其次异常数据的属性值与正常的属性值相比存在明显差异。iForest通过对数据对象进行递归的划分，直到每个对象都成为一个孤立的叶子节点来检测异常数据，由于异常数据的特点，异常数据会更接近树的根节点，即路径长度较短，这样iForest仅需少量条件就可以将异常数据区分出来。本实施例中，将特征参数作为已经训练好的第一模型的输入数据，从而得到相应的输出数据。

预设阈值可以根据实际需要预先设定，并将得到的输出数据与预设阈值进行比较，根据比较结果来判断该待测数据是否为异常数据，例如输出数据的具体数值大于预设阈值则认定待测数据为异常数据；或者小于预设阈值则认定待测数据为异常数据。

在本发明的一个实施例中，第一通信协议为安全传输层协议，获取模块进一步配置为：确定目标数据中的数据流；获取所有的数据流的传输层协议，以及数据流中数据包对应的时间参数；获取目标数据中以明文显示的预设字段。

在本发明的一个实施例中，第一模型为孤立森林模型，所述装置还包括训练模块，训练模块配置为基于训练数据对孤立森林模型进行训练，以生成多个孤立树结构数据，以使处理模块基于孤立树结构数据计算待测数据的异常概率，以形成输出数据。

具体来说，由于实时抓取的流量数据没有标记为正常类型或者异常类型，在缺乏足够先验知识的情况下，训练模块在训练该孤立森林模型时可以选择无监督学习算法，基于已有的训练数据对孤立森林模型进行训练。在一个实施例中，从训练数据中随机选择若干个样本点作为下采样，放入树的根节点，随机选择一个特征作为新节点，在当前特征数据中随机产生一个切割点p，以此切割点生成一个超平面，然后将当前节点数据空间划分为两个子空间，如果子节点只有一条数据或已达到树的限定高度则可以输出t个iTree，即孤立树结构数据，其中孤立树结构数据(iTree)为二叉树结构。

s(x,m)＝2^(-(h(x))/(c(m)))

其中，m为样本个数。c(m)表达式为：

c(m)＝2ln(m-1)+ε-2(m-1)/m，ε为欧拉常数，

在本发明的一个实施例中，预设阈值在0至1的范围内选定，处理模块进一步配置为：当输出数据大于所述预设阈值时，确认待测数据为异常数据。具体来说，预设阈值在0至1的范围内选定，则通过上述公式得到的异常概率s(x,m)即为本实施例中的第一模型的输出数据，处理模块将s(x,m)的数值与预设阈值进行比较，如果大于该预设阈值则可以认为相应的待测数据为异常数据。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种网络流量异常的判断方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一通信协议为安全传输层协议，所述的获取待测数据，并从所述待测数据中过滤出基于第一通信协议的目标数据，进而获取所述目标数据中的预设字段数据包括：

确定所述目标数据中的数据流；

获取所述目标数据中以明文显示的预设字段。

3.根据权利要求1所述的方法，其特征在于，所述预设字段包括所述目标数据中的client hello数据的Cipher Suites字段和Extensions字段，其中所述client hello数据为所述网络中的客户端向服务器发送的数据；

4.根据权利要求1所述的方法，其特征在于，所述第一模型为孤立森林模型，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述预设阈值在0至1的范围内选定，所述的根据所述第一模型的输出数据与预设阈值的比较结果，判断所述待测数据是否为异常数据包括：当所述输出数据大于所述预设阈值时，确认所述待测数据为异常数据。

6.一种网络流量异常的判断装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一通信协议为安全传输层协议，所述获取模块进一步配置为：

确定所述目标数据中的数据流；

获取所述目标数据中以明文显示的预设字段。

8.根据权利要求6所述的装置，其特征在于，所述预设字段包括所述目标数据中的client hello数据的Cipher Suites字段和Extensions字段，其中所述client hello数据为所述网络中的客户端向服务器发送的数据；

9.根据权利要求6所述的装置，其特征在于，所述第一模型为孤立森林模型，所述装置还包括训练模块，所述训练模块配置为基于训练数据对所述孤立森林模型进行训练，以生成多个孤立树结构数据，以使所述处理模块基于所述孤立树结构数据计算所述待测数据的异常概率，以形成所述输出数据。

10.根据权利要求6所述的装置，其特征在于，所述预设阈值在0至1的范围内选定，所述处理模块进一步配置为：当所述输出数据大于所述预设阈值时，确认所述待测数据为异常数据。