CN112367292A

CN112367292A - 一种基于深度字典学习的加密流量异常检测方法

Info

Publication number: CN112367292A
Application number: CN202011079829.7A
Authority: CN
Inventors: 吴春明; 陈双喜; 邢骏驰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-02-12
Anticipated expiration: 2040-10-10
Also published as: CN112367292B

Abstract

本发明公开了一种基于深度字典学习的加密流量异常检测方法，该方法可以在不同业务场景下，对加密流量中的异常有相对良好的实时检测效果。在本发明设计了流量特征提取模块、正常流量模式构建模块以及异常比对模块。流量特征提取模块用于将原始流量以流量会话为粒度进行聚合，并提取出会话的多个特征数据传入后续的正常流量模式构建模块；正常流量模式构建模块基于深度字典学习技术构建出可表示正常流量模式的稀疏字典，该字典会随着当新流量会话到来时相应地更新；异常比对模块用于在新流量会话到来时，计算该会话和当前字典之间的相关程度，如果相关度较大，则认为其是正常流量，反之则认为其是异常流量。

Description

一种基于深度字典学习的加密流量异常检测方法

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于深度字典学习的加密流量异常检测方法。

背景技术

计算机网络中的异常情况可能由多种原因引起，如恶意用户的攻击行为、普通用户的操作失误、硬件配置错误以及软件运行错误等。此类异常情况如不得到及时的发现和排查，会对网络系统的正常运作和其他合法用户的服务质量造成不良影响。所以，对网络中的异常进行检测是一项重要的工作。现阶段，网络中的流量可以作为检测此类异常的重要数据源，因此对流量异常检测技术研究具有重要的价值。流量异常检测技术的主要思路为在流量中挖掘出与正常流量的通信模式的有偏差的异常部分，因此可以用于检测传统基于规则匹配的方法所无法检测到的未知攻击或系统错误。

现今，流量加密协议如SSL、TLS等为流量通信提供了隐私保护、身份验证和完整性校验方面的能力，因此得到了广泛应用，然而却给流量异常检测带来了不便和挑战。因为流量加密协议会将流量的数据包载荷进行散列，因此数据包中的载荷已无法作为流量异常检测的对象，导致基于数据包载荷的语义或统计检测等深度包检测方法无法进行使用。现阶段已有众多恶意软件或木马以加密流量的方式进行网络攻击，以对现有防御措施进行绕过，带来了严重的威胁。因此，对加密流量进行异常检测成了一项重要的研究课题。

发明内容

本发明目的在于针对现有技术的不足，提供一种基于深度字典学习的加密流量异常检测方法。本发明的重点是利用深度字典的深度特征表示能力，将高维度的流量特征信息转化为较低维度的稀疏字典，并可以随着流量的不断到来对该字典的元素，以及字典元素和流量特征信息之间的相关系数进行更新，最后通过比对流量特征信息与稀疏字典之间的相关性决定该流量异常与否。

本发明的目的是通过以下技术方案来实现的：一种基于深度字典学习的加密流量异常检测方法，该方法包括以下步骤：

(1)流量特征提取模块首先对从访问用户端传入的加密流量进行处理，具体为：

(1.1)使用TCP/IP五元组为依据对流量进行聚合，得到流量会话集合S；

(1.2)对于S中每一个会话，其特征向量为F＝{f_i|i＝1,2,…,M}，其中f_i为第i个特征向量，M为特征向量的长度；

(2)正常流量模式构建模块基于流量会话特征向量构建并更新深度稀疏字典，具体为：

(2.1)稀疏字典由D＝{d_j|j＝1,2,…,N}表示，其中d_j为第j个字典元素，N为字典的长度；

(2.2)对于新到来的每个流量会话特征向量F，以

为目标函数使用梯度下降训练法对稀疏字典D以及字典元素和特征向量F之间的相关系数Γ＝{Γ_k|k＝1,2,…,K}集进行更新。其中K为字典所在的层数，Γ_k为第k层的相关系数矩阵，φ为ReLU非线性激活函数，

为第二范数；

(3)异常比对模块计算更新完成的D与特征向量F的相关度，从而判断F是否为异常，具体为：

(3.1)使用步骤(2.2)更新后的Γ_k，基于公式

计算字典元素d_j的活跃度a_j，A＝{a_j|j＝1,2,…,N}为D的活跃度集合，其中

表示第k层相关系数矩阵中第i个列向量的累加和，|Γ_k|表示第k层相关系数矩阵Γ_k中所有列向量的累加和。

(3.2)基于信息熵增益公式，计算出A的的熵增益集合G＝{g_j|j＝1,2,…,N}；

(3.3)基于公式ξ＝|G×Γ_k|，计算出特征向量F与步骤(2.2)更新后的D的相关度ξ；其中，×表示外积，|·|表示向量的模。

(3.4)将异常阈值设为T，若ξ大于T，则判定F为异常；反之若ξ小于等于T，则判定F为正常。

进一步地，所述步骤(1.1)中，使用dpkt库对聚合后的流量进行处理得到流量会话集合S。

进一步地，所述步骤(1.2)中，所述特征向量的内容包括TLS握手信息、所有数据包长度的平均值与标准差以及所有数据包到达时间间隔的平均值与标准差。

与现有技术相比，本发明具有如下的有益效果：本发明的技术方案基于深度字典学习对加密流量的中的异常进行检测，具有以下特点：

(1)采用无监督的训练方法，不依赖于往往在真实环境中难以获取且经常存在噪声的标签化数据；

(2)对不同的业务场景具有普适性，内置了深度稀疏字典可以对各个场景的流量正常模式进行建模，从而辨别异常；

(3)实时地对流量进行检测，将每一个流量会话输入模型后随即便可获得对其异常情况的判断。

附图说明

图1是基于深度字典学习的加密流量异常检测方法的流程图。

具体实施方式

本发明基于深度字典学习的加密流量异常检测方法可以在不同业务场景下，可以对加密流量中的异常进行无监督地、普适地、实时地检测。本发明设计了流量特征提取模块、正常流量模式构建模块以及异常比对模块。流量特征提取模块用于将原始流量以流量会话为粒度进行聚合，并提取出会话的多个特征数据传入后续的正常流量模式构建模块；正常流量模式构建模块基于深度字典学习技术构建出可表示正常流量模式的稀疏字典，该字典会随着当新流量会话到来时相应地更新；异常比对模块用于在新流量会话到来时，计算该会话和当前字典之间的相关程度，如果相关度较大，则认为其是正常流量，反之则认为其是异常流量；如图1所示，具体包括以下步骤：

1.流量特征提取模块首先对从访问用户端传入的加密流量进行处理，具体为：

(1.1)使用TCP/IP五元组为依据对输入的原始流量进行聚合，使用dpkt库对流量处理得到流量会话集合S。

(1.2)对于流量会话集合S中每一个会话s，其特征向量为F＝{f_i|i＝1,2,…,M}，其中f_i为第i个特征向量，M为特征向量F的长度。选取的具体特征为TLS握手信息、所有数据包长度的平均值与标准差以及所有数据包到达时间间隔的平均值与标准差。

2.正常流量模式构建模块基于流量会话特征向量F构建并更新深度稀疏字典，具体为：

(2.1)稀疏字典由D＝{d_j|j＝1,2,…,N}表示，其中d_j为第j个字典元素，N为字典D的长度。

(2.2)对于新到来的每个流量会话的特征向量F，以

为目标函数，使用梯度下降训练法对稀疏字典D以及字典元素和特征向量F之间的相关系数矩阵集Γ＝{Γ_k|k＝1,2,…,K}进行更新。其中K为字典所在的层数，Γ_k为第k层的相关系数矩阵，φ为ReLU非线性激活函数，

为第二范数。

3.异常比对模块计算更新完成的稀疏字典D与特征向量F的相关度ξ，从而判断特征向量F是否为异常，具体为：

(3.1)使用步骤(2.2)更新后的历史的相关系数矩阵Γ_k，基于公式

表示第k层相关系数矩阵Γ_k中第j个列向量的累加和，|Γ_k|表示第k层相关系数矩阵Γ_k中所有列向量的累加和。

(3.2)基于信息熵增益公式(https://www.cnblogs.com/dengdan890730/p/6139605.html)，计算出活跃度集合A的熵增益集合G＝{g_j|j＝1,2,…,N}；

(3.3)基于公式ξ＝|G×Γ_k|，计算出特征向量F与步骤(2.2)更新后的稀疏字典D的相关度ξ，同时也为其异常度；其中，×表示外积，|·|表示向量的模。

(3.4)将异常阈值设为T，若相关度ξ大于T，则判定F为异常；反之，若相关度ξ小于等于T，则判定F为正常。

本发明基于深度字典学习的技术对加密流量进行异常检测，对加密流量进行会话特征提取，进而构建正常流量的模式，最后将利用字典与会话特征的相关度比对以确定流量的异常情况，这样便可以在不同业务场景下对加密流量中的异常有相对良好的实时检测效果。