CN114401112B

CN114401112B - 旁路部署针对tls加密的恶意流量实时深度包检测方法

Info

Publication number: CN114401112B
Application number: CN202111543768.XA
Authority: CN
Inventors: 李美安; 仉晓东; 薛利霞; 孙艾霞; 高田
Original assignee: Inner Mongolia Agricultural University
Current assignee: Inner Mongolia Agricultural University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2023-11-03
Anticipated expiration: 2041-12-16
Also published as: CN114401112A

Abstract

本发明提供一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，包括：通过在线旁路镜像实时采集待测流量；对待测流量进行自动解密，得到解密后的报文包；对解密后的单帧报文进行规范化，然后提取特征，并输入预设的SVM分类器进行检测，对判断为恶意流量的数据添加标记后存储在相应位置，并发送检测到恶意流量的通知；在预设的时间间隔结束后，计算该时间间隔内检测的准确性与实时性，如果准确性与实时性达到要求，则继续检测，否则更换用于检测的SVM模型。本发明所提供的方法，对恶意加密流量的检测具有更高的准确性与实时反馈能力，且泛化能力较强，既能检测加密流量，又能检测非加密流量，且能实现数据的单帧检测，对未知样本的检测准确度F1值在99.44％以上。

Description

旁路部署针对TLS加密的恶意流量实时深度包检测方法

技术领域

本发明属于网络通信安全技术领域，具体涉及一种旁路部署针对TLS 加密的恶意流量实时深度包检测方法。

背景技术

2017年，思科发布的《加密流量分析》白皮书中说明了对流量进行加密的网站数量已从2015年的21％上升到2016年的超过40％。据Gartner预测，到2019年，80％的网站流量都会被加密，到2020年，超过60％的企业将无法有效解密HTTPS流量。说明了数据流量的加密趋势的必然性。加密可为封装的流量提供机密性传输，但会削弱企业的纵深防御效率， Jeremy D'Hoinne等人早在2013年便指出越来越多的安全威胁受到加密技术的保护而变的隐蔽，使入侵检测技术失效。

在实际网络环境中一个入侵检测系统检测响应的速度快慢和检测准确度是网络入侵检测系统要克服的重要技术难题。对加密流量在不解密的情况下进行整体特征分析，虽然处理速度较快但对恶意流量出现后的响应速度较慢，而且准确度与待分析数据量的大小成正比，少量的流量检测准确性较低，对单帧恶意报文没有检测能力。针对加密流量非解密的监督学习检测方法，只能满足加密流量的检测，对未加密的流量检测反而不适用。恶意流量不只有恶意软件产生的家族化特征的恶意流量，还有个人恶意攻击产生的单帧恶意流量威胁也不容小觑。深度包检测技术是一种基于应用层的流量检测技术。早期深度包检测采用特征库匹配方式，但为了提高检测准确性，特征库变的越来越大而影响了检测速度，跟不上恶意攻击的发展。深度包检测方案虽然在处理过程中速度较慢，但是响应速度快于整体分析的方案，原因是面对单个网络数据帧时也能判断出是否包含恶意信息，且较其他检测方法中，深度包检测准确性最高。

综上所述，如何对加密流量进行快速甚至实时判断响应，如何解决恶意流量检测技术检测准确性与实时性之间的矛盾，是目前有待解决的问题。

发明内容

本发明所要解决的技术问题在于针对上述现有技术的不足，提供了一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，该检测方法在不影响网络正常传输性能的前提下，解决面对多种恶意攻击产生的加密的恶意流量检测的高准确性和高效率检测之间、准确性与实时性之间的矛盾问题。

为解决上述技术问题，本发明采用的技术方案是：一种旁路部署针对 TLS加密的恶意流量实时深度包检测方法，其特征在于，包括以下步骤：

S1、在线旁路镜像采集待测流量，得到加密流量；

S2、对S1中得到的加密流量进行自动解密，得到解密后的报文包，所述解密后的报文包包含多个解密后的单帧报文；

S3、对S2中的解密后的单帧报文进行规范化，然后提取特征，并输入预设的SVM分类器进行检测，对判断为恶意流量的数据添加标记后存储在相应位置，并发送检测到恶意流量的通知。

可选地，还包括：

S4、在预设的时间间隔结束后，计算该时间间隔内检测的恶意流量的准确性与实时性，如果准确性与实时性达到要求，则继续检测，否则更换预设的SVM分类器后再次检测解密后的报文包。

可选地，S3中提取的特征包括规范化后解密后的单帧报文的URL总字节数、是否嵌套URL、非正常符号个数、非字母数字下划线符号数、预设恶意关键字个数、含有函数个数、是否特殊结尾、是否伪装文件名、连续数字最长长度和符号单词比率。

可选地，，S2中加密流量进行自动解密的具体过程为：通过旁路提取并解析报文帧中TLS握手信息和加密数据，通过解析握手信息对报文进行自动解密，得到解密后的报文包。

进一步地，通过解析握手信息对报文进行自动解密包括以下步骤：

步骤301：在线旁路提取参与解密相关的参数有“客户端随机数”、“服务端随机数”、“主密钥”和对称加密算法加解密用到的“块密钥”；“主密钥” 是通过先提取握手信息中非对称算法加密的预主密钥，再经过服务器私钥解密和PRF伪随机数算法处理后得出；“块密钥”是根据“主密钥”与两个“随机数”通过PRF伪随机数算法处理后得出；

步骤302：当通讯中的加密数据需要进行解密时，使用所述对应的“块密钥”进行分割得到对应的对称加密算法的解密密钥进行解密操作。

可选地，S3中预设的SVM分类器是通过以下方法取得：通过事先搜集的大量含有所述多种攻击类型的恶意流量报文和正常流量报文直接提取生成特征向量，对SVM分类器进行训练；根据所述SVM分类器输出的分类结果，采用网格搜索法调整所述SVM分类器的模型参数，找到所述 SVM分类器的准确度的最大值，得到最终目标SVM分类器模型；分析 SVM分类器模型准确性与实时性同所选特征的关系，获得多种准确性与实时性要求下的SVM分类器。

进一步地，事先搜集的大量含有所述多种攻击类型的恶意流量报文和正常流量报文至少包括HTTP CSIC 2010数据集。

本发明与现有技术相比具有以下优点：

1、本发明事先搜集的大量含有所述多种攻击类型的恶意流量报文和正常流量报文至少包括HTTP CSIC 2010数据集，由于机器学习特点，收集了更多恶意流量报文供监督式学习使用，使得SVM分类器的识别能力更准确，目前分类器模型的迁移泛化判断准确度最低为99.4％。

2、本发明采用在线旁路镜像流量采集方式，在不干扰正常的流量通信的前提下对流量进行采集，避免因为采集流量增加报文转发的时延，降低数据传输速度和通信的实时性。

3、本发明提取TLS握手信息不是为了通过握手信息作为特征对恶意流量进行判定，而是为了对报文进行自动解密，获得解密报文。

4、本发明提取解密后的单帧报文特征并判定恶意与否，而不是对加密后报文或流量进行特征提取与入侵判定，显然直接对解密后单帧报文内容进行判定的准确性更高。但解密过程需要消耗一定时间，会影响判定的实时性。

下面通过附图和实施例对本发明的技术方案作进一步的详细说明。

附图说明

图1为本发明所提供的一种加密流量进行自动解密的具体实施例流程图；

图2为本发明所提供的TLS加密恶意流量实时检测方法的具体实施例的流程图；

图3为本发明所提供的一种SVM分类器的预设方法的具体实施例的流程图。

具体实施方式

本发明的核心是提供一种旁路部署的TLS加密恶意流量实时深度包检测方法，通过一种监督学习形成的SVM分类器对加密恶意流量的解密报文包进行检测，形成的方法可以高效精确地对实时传输的恶意流量进行检测。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例公开了旁路部署针对TLS加密的恶意流量实时深度包检测方法，包括以下步骤：

S1、在线旁路镜像采集待测流量，得到加密流量；

本发明实施例中，S2中加密流量进行自动解密的具体过程为：通过旁路提取并解析报文帧中TLS握手信息和加密数据，通过解析握手信息对报文进行自动解密，得到解密后的报文包。

进一步，如图1所示，具体步骤如下：

步骤S201：对实时流经的网络流量的每一帧数据进行解析检测应用层协议头第一个字节，区分是否为TLS协议中的一种子协议类型，主要提取数据头为“22”、“23”对应的握手协议和加密应用数据，还有头为“20” 的加密标记协议数据。

表1应用层头部信息与协议类型对应表

数值	TLS协议
		20	TLSChangeCipherSpec
21	TLSAlert
		22	TLSHandshake
23	TLSAppData

步骤S202：对于应用层协议头为“22”的TLS握手协议，其包含11 个子协议，而对解密数据仅需要提取解析其中3个子协议数据： ClientHello、ServerHello、ClientKeyExchange。并对其构造相应的解析程序分别提取有用信息。

表2 TLS握手协议子协议信息头

序号	信息头	协议类型	程序对象	主要监测对象
					1	0	'HelloRequest'	TLSHelloRequest
2	1	'ClientHello'	TLSClientHello	是
					3	2	'ServerHello'	TLSServerHello	是
4	4	'NewSessionTicket'	TLSNewSessionTicket
					5	11	'Certificate'	TLSCertificate
6	12	'ServerKeyExchange'	TLSServerKeyExchange
					7	13	'CertificateRequest'	TLSCertificateRequest
8	14	'ServerHelloDone'	TLSServerHelloDone
					9	15	'CertificateVerify'	TLSCertificateVerify
10	16	'ClientKeyExchange'	TLSClientKeyExchange	是
					11	20	'Finished'	TLSFinished

其中，ClientHello协议数据是由客户端发送的第一个握手请求信息，提取并记录客户端随机数，命名为ClientRandom。ServerHello协议数据，是服务端用来响应客户端的ClientHello，里面同样包含一个32字节的随机数，以及服务端选择的加密套件和压缩算法。程序监测提取并记录服务端随机数ServerRandom。同时ServerHello协议数据中还包含服务器选择的加密套件即完整加密模式，本实施例以TLS_RSA_WITH_AES_128_CBC_SHA256加密套件为例进行说明，所有套件结构构成均包含非对称加密算法名称、对称加密算法名称和哈希散列算法名称，对应于整个加密通讯过程所使用的算法。

客户端接收到服务端的ServerHello信息后，会发送“Client Key Exchange”、“Change Cipher Spec”和加密后的“Finished”信息这三个子协议数据段。Client KeyExchange数据段包含一个使用服务器公钥加密的密码，通常被称为预主密码(“PreMasterSecret”)，它是握手交换的第一个加密密码，长256字节。发现此数据后，可使用预先掌握的私钥对此预主密码进行解密，解密成功后的数据总数以TLS协议版本号开头，如TLS1.2的16进制版本号是“0x0303”、TLS1.0的版本号是“0x0301”,长48字节。握手过程中服务端可解此RSA密文，也是服务端判断握手成功的第一步。程序使用私钥解密后需要将其记录，因为它与之两端分别产生的随机数组成三个重要的参数可以用来在接下来的信息判断后生成对称加密密钥的参数。Change Cipher Spec是一个标记位信息，只有1字节表明单方面握手协议已经完成，因为此时已经掌握了三个重要参数。

步骤S203：在握手过程中，当服务端收到ChangeCipherSpec信号后，服务端验证握手是否成功，同时也是本实施例计算对称加密算法解密密钥的时机。这时就用到了伪随机函数(PRF)，将解密的PreMasterSecret、 “master secret”标签和两个随机数(上述服务器和客户端各一个)作为输入参数，输出为一个48字节的主密钥MasterSecret。第二次调用PRF 函数，将MasterSecret、“key expansion”标签和两个随机数作为输入参数，输出为一个Key_block，输出长度为双方确定的密码算法套件决定。Key_block包含多种信息，本实施例套件生成的Key_block为128字节，前64字节密钥，从解密角度没有用处，从64字节开始的16个字节为客户端写密钥Client Write key，接下来16个字节为服务端写密钥Server Write key，这两个就是接下来双方通信使用的对称密钥，而本实施例的对称加密算法AES算法使用的两个偏移向量是最后32字节的数据。

每个网络连接在结束通讯的时候都由客户端发送一个“结束、确认帧”，因此此端口连接过程中缓存的用于AES加密使用的块密钥、握手随机数等不再使用。但保留主密钥(不再进行RSA身份验证)所以程序发现对应端口结束通讯后清理对应的数据不影响后续的解密过程。实时流量中未检测到结束、确认帧时则一直保存本步骤计算得到的对称加密密钥用于后续数据的解密。因此本实施例具备内存优化处理功能。

步骤S204：对于应用层协议头为“23”的“加密应用数据”，使用上述步骤生成的对称加密密钥，执行解密操作，还原加密应用数据的明文报文形式数据。

其中深度包解析程序判断如果是由客户端生成的加密数据，则由对称加密密钥的客户端写密钥进行解密；反之使用服务端写密钥进行解密。

由于网络访问是多用户多会话同时进行的，流量数据也具备此特征，因此当遇到新客户端或新会话时，重复步骤S202、S203、S204，建立索引保存相应会话的参数和密钥已解密多用户和多会话数据。

进一步，如图2所示，本发明实施例对S2中的解密后的单帧报文进行规范化，然后提取特征，并输入预设的SVM分类器进行检测，对判断为恶意流量的数据添加标记后存储在相应位置，并发送检测到恶意流量的通知，具体操作步骤如下：

步骤S301：采集网络中原始以太网流量，对网络流量协议类型没有限制，利用内存队列缓冲网络流量，保障完整流量帧被捕获；可设置过滤规则进行更有针对性的流量采集。本实施例主要针对应用软件、应用系统和服务产生的TCP/IP四层网络协议模型中的应用层数据进行恶意信息检测，其中包括TLS加密流量；

步骤S302：逐帧解析流量数据，判断是否是TLS协议相关数据帧；此步骤与步骤S301并行执行，以内存队列作为共同操作对象。

步骤S303：提取TLS协议数据帧中的握手信息和加密报文。对握手信息提取关键参数用于加密信息的解密；将加密报文解密后，再提取明文数据中的有效应用数据。

步骤S304：提取明文应用数据或解密后的应用数据中的数据特征，对特征值进行数值规范化处理，生成特征向量；

步骤S305：将所述特征向量数据输入至预设的SVM分类器，检测所述待检测加密流量或非加密流量是否为恶意流量。

步骤S306：对判断为恶意流量的数据添加标记后存储于存储介质。

本实施例所提供的方法，可对加密或者未加密的流量同时进行检测，不必分别对加密流量和非加密流量独立部署检测装置，对恶意流量检测具有广泛的适用性，节省资源。利用监督式算法学习网络环境中的正常背景流量的特征和行为，可使分类器越来越精准；检测每一网络帧和报文，可以精准、高效、智能地对实时发生的恶意流量行为进行检测。

进一步如图3所示，本发明实施例中具体预设的SVM分类器的训练步骤如下：

步骤S3051：将事先收集整理的含有恶意明文流量的报文作为恶意报文样本数据集，将正常访问的明文流量的报文作为正常报文样本数据集。

在本发明实施例中，预先收集的流量报文至少包括HTTP CSIC 2010数据集，该数据包含已知各类网络攻击的报文。并搜集了其他攻击流量并转为报文形式保存，所述报文与按照流量中单数据帧为单位转换为字符的应用层报文的形式相同，见下表3为常见HTTP访问流量的单帧应用层报文样例。样本集具备流量中应用层报文的全部特征。

表3常见HTTP访问报文样例

步骤S3052：利用所述各个样本的预设特征与预设特征标签，生成所述各个样本的带标签的特征向量。其中，恶意样本特征添加标签1，对正常样本特征添加标签0；

在本实施例中，所述预设特征具体包括以下特征：所述样本信息的URL 总字节数、是否嵌套URL、非正常符号个数、非字母数字下划线符号数、预设恶意关键字个数、含有函数个数、是否特殊结尾、是否伪装文件名、连续数字最长长度、符号单词比率等。

针对某一样本特征向量Vi，所包含的特征内容以及预设标签表示为： Vi＝{T1，T2，T3，...，Tj-1，Tj，1/0}。当所述流量特征库的最后一列为1时，说明所述流量特征库中的流量特征均为恶意样本的特征；当所述流量特征库的最后一列为0时，说明所述特征库中的特征均为正常样本的特征。

步骤S3053：提取N个样本的带标签的特征向量组合生成训练矩阵，采用线性变换对训练矩阵进行归一化处理，形成目标训练矩阵；

提取N个样本的带标签的特征向量组合生成训练矩阵D：

其中，所述训练矩阵中的每一个横向量表示一个流量样本的多个特征；

由于所述训练矩阵D中各类特征值的单位不一致，本实施例中采用线性变换，对所述训练矩阵D进行[0，1]数值范围规范化,以防止某一特征值出现强代表性，生成适用于SVM分类器使用的矩阵Normal_D。

步骤S3054：利用所述目标训练矩阵Normal_D对SVM分类器进行训练，根据所述SVM分类器输出的分类结果调整所述SVM分类器的算法参数，并通过网格搜索算法对参数进行优化，直到通过交叉验证法找到分类准确度最高的分类器。

在本实施例中，选取径向基函数RBF作为SVM的核函数。由于惩罚函数C与RBF函数的参数g的选取将影响SVM分类器的性能，因此采用网格搜索算法对参数进行优化，得到分类准确率最高的一组(C,g)的值，搜索范围为：惩罚参数C初始空间设为[2-10,28]搜索步长为2,RBF核函数参数g的初始空间设为[0.1,0.5,1,10,100]；目的是找到参数最优情况下的模型，在实际环境中应用。

表1寻找准确率最高的参数对组合

序号	准确度	组合数	序号	准确度	组合数
						1	0.953359245	3	7	0.994447529	1
2	0.978900611	6	8	0.99611327	1
						3	0.979455858	1	9	0.996668517	1
4	0.980566352	2	10	0.997223765	22
						5	0.983897835	1	11	0.997779012	1
6	0.993892282	4	12	0.998889506	7

表2模型判断准确度与参数对关系表

序号	交叉准确度	TP准确度	F1值	参数对(C,g)
					1	99.88895％	100％	99.90706％	(16,10)
2	99.88895％	100％	99.90706％	(64,10)
					3	99.88895％	100％	99.90706％	(256,10)
4	99.88895％	100％	99.90706％	(1,100)
					5	99.88895％	100％	99.90706％	(4,100)
6	99.88895％	100％	99.90706％	(16,100)
					7	99.88895％	100％	99.90706％	(64,100)

步骤S3055：利用所述最优参数对生成的目标SVM分类器分别对每一条待检测流量数据报文进行分类并标记出含有恶意信息的网络数据报文。

在本实施例中，所述待检测流量数据报文，是通过在线旁路镜像流量方式取得流量数据后通过深度包解析方法分离TCP/IP四层网络协议模型中的链路层数据、网络层数据、传输层数据，提取出应用层数据报文并还原为应用数据报文的文本形式。TLS加密流量是对应用层报文数据的加密，因此当遇到加密协议报文时，采用实施例一所述方法对其解密还原为明文应用层报文后再提交给所述SVM分类器进行检测判断，因此本发明实施例的检测方法可以对非加密的流量报文进行检测，同样可以对加密的流量报文进行检测。

在本实施例中，所述多种攻击类型包括：响应折断、服务端注入、信息泄露、SQL注入、跨站脚本攻击、远程命令执行、后门木马上传等已知的多种攻击产生的流量。由于是采用监督式机器学习方式生成的SVM分类器，因此也可检测未知的、包含恶意信息的流量。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的TLS加密恶意流量实时检测方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，其特征在于，包括以下步骤：

S1、在线旁路镜像采集待测流量，得到加密流量；

S2中加密流量进行自动解密的具体过程为：通过旁路提取并解析报文帧中TLS握手信息和加密数据，通过解析握手信息对报文进行自动解密，得到解密后的报文包；

2.根据权利要求1所述的一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，其特征在于，还包括：

3.根据权利要求1所述的一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，其特征在于，S3中提取的特征包括规范化后解密后的单帧报文的URL总字节数、是否嵌套URL、非正常符号个数、非字母数字下划线符号数、预设恶意关键字个数、含有函数个数、是否特殊结尾、是否伪装文件名、连续数字最长长度和符号单词比率。

4.根据权利要求1所述的一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，其特征在于，通过解析握手信息对报文进行自动解密包括以下步骤：

步骤301：在线旁路提取参与解密相关的参数有“客户端随机数”、“服务端随机数”、“主密钥”和对称加密算法加解密用到的“块密钥”；“主密钥”是通过先提取握手信息中非对称算法加密的预主密钥，再经过服务器私钥解密和PRF伪随机数算法处理后得出；“块密钥”是根据“主密钥”与两个“随机数”通过PRF伪随机数算法处理后得出；

步骤302：当通讯中的加密数据需要进行解密时，使用所述“块密钥”进行分割得到对应的对称加密算法的解密密钥进行解密操作。

5.根据权利要求2所述的一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，其特征在于，S3中预设的SVM分类器是通过以下方法取得：通过事先搜集的大量含有多种攻击类型的恶意流量报文和正常流量报文直接提取生成特征向量，对SVM分类器进行训练；根据所述SVM分类器输出的分类结果，采用网格搜索法调整所述SVM分类器的模型参数，找到所述SVM分类器的准确度的最大值，得到最终目标SVM分类器模型；分析SVM分类器模型准确性与实时性同所选特征的关系，获得多种准确性与实时性要求下的SVM分类器。

6.根据权利要求5所述的一种旁路部署针对TLS加密的恶意流量实时深度包检测方法，其特征在于，事先搜集的大量含有所述多种攻击类型的恶意流量报文和正常流量报文至少包括HTTP CSIC 2010数据集。