CN112367292A - 一种基于深度字典学习的加密流量异常检测方法 - Google Patents

一种基于深度字典学习的加密流量异常检测方法 Download PDF

Info

Publication number
CN112367292A
CN112367292A CN202011079829.7A CN202011079829A CN112367292A CN 112367292 A CN112367292 A CN 112367292A CN 202011079829 A CN202011079829 A CN 202011079829A CN 112367292 A CN112367292 A CN 112367292A
Authority
CN
China
Prior art keywords
dictionary
flow
session
feature vector
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011079829.7A
Other languages
English (en)
Other versions
CN112367292B (zh
Inventor
吴春明
陈双喜
邢骏驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011079829.7A priority Critical patent/CN112367292B/zh
Publication of CN112367292A publication Critical patent/CN112367292A/zh
Application granted granted Critical
Publication of CN112367292B publication Critical patent/CN112367292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度字典学习的加密流量异常检测方法,该方法可以在不同业务场景下,对加密流量中的异常有相对良好的实时检测效果。在本发明设计了流量特征提取模块、正常流量模式构建模块以及异常比对模块。流量特征提取模块用于将原始流量以流量会话为粒度进行聚合,并提取出会话的多个特征数据传入后续的正常流量模式构建模块;正常流量模式构建模块基于深度字典学习技术构建出可表示正常流量模式的稀疏字典,该字典会随着当新流量会话到来时相应地更新;异常比对模块用于在新流量会话到来时,计算该会话和当前字典之间的相关程度,如果相关度较大,则认为其是正常流量,反之则认为其是异常流量。

Description

一种基于深度字典学习的加密流量异常检测方法
技术领域
本发明属于网络安全技术领域,尤其涉及一种基于深度字典学习的加密流量异常检测方法。
背景技术
计算机网络中的异常情况可能由多种原因引起,如恶意用户的攻击行为、普通用户的操作失误、硬件配置错误以及软件运行错误等。此类异常情况如不得到及时的发现和排查,会对网络系统的正常运作和其他合法用户的服务质量造成不良影响。所以,对网络中的异常进行检测是一项重要的工作。现阶段,网络中的流量可以作为检测此类异常的重要数据源,因此对流量异常检测技术研究具有重要的价值。流量异常检测技术的主要思路为在流量中挖掘出与正常流量的通信模式的有偏差的异常部分,因此可以用于检测传统基于规则匹配的方法所无法检测到的未知攻击或系统错误。
现今,流量加密协议如SSL、TLS等为流量通信提供了隐私保护、身份验证和完整性校验方面的能力,因此得到了广泛应用,然而却给流量异常检测带来了不便和挑战。因为流量加密协议会将流量的数据包载荷进行散列,因此数据包中的载荷已无法作为流量异常检测的对象,导致基于数据包载荷的语义或统计检测等深度包检测方法无法进行使用。现阶段已有众多恶意软件或木马以加密流量的方式进行网络攻击,以对现有防御措施进行绕过,带来了严重的威胁。因此,对加密流量进行异常检测成了一项重要的研究课题。
发明内容
本发明目的在于针对现有技术的不足,提供一种基于深度字典学习的加密流量异常检测方法。本发明的重点是利用深度字典的深度特征表示能力,将高维度的流量特征信息转化为较低维度的稀疏字典,并可以随着流量的不断到来对该字典的元素,以及字典元素和流量特征信息之间的相关系数进行更新,最后通过比对流量特征信息与稀疏字典之间的相关性决定该流量异常与否。
本发明的目的是通过以下技术方案来实现的:一种基于深度字典学习的加密流量异常检测方法,该方法包括以下步骤:
(1)流量特征提取模块首先对从访问用户端传入的加密流量进行处理,具体为:
(1.1)使用TCP/IP五元组为依据对流量进行聚合,得到流量会话集合S;
(1.2)对于S中每一个会话,其特征向量为F={fi|i=1,2,…,M},其中fi为第i个特征向量,M为特征向量的长度;
(2)正常流量模式构建模块基于流量会话特征向量构建并更新深度稀疏字典,具体为:
(2.1)稀疏字典由D={dj|j=1,2,…,N}表示,其中dj为第j个字典元素,N为字典的长度;
(2.2)对于新到来的每个流量会话特征向量F,以
Figure BDA0002718146550000021
为目标函数使用梯度下降训练法对稀疏字典D以及字典元素和特征向量F之间的相关系数Γ={Γk|k=1,2,…,K}集进行更新。其中K为字典所在的层数,Γk为第k层的相关系数矩阵,φ为ReLU非线性激活函数,
Figure BDA0002718146550000022
为第二范数;
(3)异常比对模块计算更新完成的D与特征向量F的相关度,从而判断F是否为异常,具体为:
(3.1)使用步骤(2.2)更新后的Γk,基于公式
Figure BDA0002718146550000023
计算字典元素dj的活跃度aj,A={aj|j=1,2,…,N}为D的活跃度集合,其中
Figure BDA0002718146550000024
表示第k层相关系数矩阵中第i个列向量的累加和,|Γk|表示第k层相关系数矩阵Γk中所有列向量的累加和。
(3.2)基于信息熵增益公式,计算出A的的熵增益集合G={gj|j=1,2,…,N};
(3.3)基于公式ξ=|G×Γk|,计算出特征向量F与步骤(2.2)更新后的D的相关度ξ;其中,×表示外积,|·|表示向量的模。
(3.4)将异常阈值设为T,若ξ大于T,则判定F为异常;反之若ξ小于等于T,则判定F为正常。
进一步地,所述步骤(1.1)中,使用dpkt库对聚合后的流量进行处理得到流量会话集合S。
进一步地,所述步骤(1.2)中,所述特征向量的内容包括TLS握手信息、所有数据包长度的平均值与标准差以及所有数据包到达时间间隔的平均值与标准差。
与现有技术相比,本发明具有如下的有益效果:本发明的技术方案基于深度字典学习对加密流量的中的异常进行检测,具有以下特点:
(1)采用无监督的训练方法,不依赖于往往在真实环境中难以获取且经常存在噪声的标签化数据;
(2)对不同的业务场景具有普适性,内置了深度稀疏字典可以对各个场景的流量正常模式进行建模,从而辨别异常;
(3)实时地对流量进行检测,将每一个流量会话输入模型后随即便可获得对其异常情况的判断。
附图说明
图1是基于深度字典学习的加密流量异常检测方法的流程图。
具体实施方式
本发明基于深度字典学习的加密流量异常检测方法可以在不同业务场景下,可以对加密流量中的异常进行无监督地、普适地、实时地检测。本发明设计了流量特征提取模块、正常流量模式构建模块以及异常比对模块。流量特征提取模块用于将原始流量以流量会话为粒度进行聚合,并提取出会话的多个特征数据传入后续的正常流量模式构建模块;正常流量模式构建模块基于深度字典学习技术构建出可表示正常流量模式的稀疏字典,该字典会随着当新流量会话到来时相应地更新;异常比对模块用于在新流量会话到来时,计算该会话和当前字典之间的相关程度,如果相关度较大,则认为其是正常流量,反之则认为其是异常流量;如图1所示,具体包括以下步骤:
1.流量特征提取模块首先对从访问用户端传入的加密流量进行处理,具体为:
(1.1)使用TCP/IP五元组为依据对输入的原始流量进行聚合,使用dpkt库对流量处理得到流量会话集合S。
(1.2)对于流量会话集合S中每一个会话s,其特征向量为F={fi|i=1,2,…,M},其中fi为第i个特征向量,M为特征向量F的长度。选取的具体特征为TLS握手信息、所有数据包长度的平均值与标准差以及所有数据包到达时间间隔的平均值与标准差。
2.正常流量模式构建模块基于流量会话特征向量F构建并更新深度稀疏字典,具体为:
(2.1)稀疏字典由D={dj|j=1,2,…,N}表示,其中dj为第j个字典元素,N为字典D的长度。
(2.2)对于新到来的每个流量会话的特征向量F,以
Figure BDA0002718146550000031
为目标函数,使用梯度下降训练法对稀疏字典D以及字典元素和特征向量F之间的相关系数矩阵集Γ={Γk|k=1,2,…,K}进行更新。其中K为字典所在的层数,Γk为第k层的相关系数矩阵,φ为ReLU非线性激活函数,
Figure BDA0002718146550000032
为第二范数。
3.异常比对模块计算更新完成的稀疏字典D与特征向量F的相关度ξ,从而判断特征向量F是否为异常,具体为:
(3.1)使用步骤(2.2)更新后的历史的相关系数矩阵Γk,基于公式
Figure BDA0002718146550000041
计算字典元素dj的活跃度aj,A={aj|j=1,2,…,N}为D的活跃度集合,其中
Figure BDA0002718146550000042
表示第k层相关系数矩阵Γk中第j个列向量的累加和,|Γk|表示第k层相关系数矩阵Γk中所有列向量的累加和。
(3.2)基于信息熵增益公式(https://www.cnblogs.com/dengdan890730/p/6139605.html),计算出活跃度集合A的熵增益集合G={gj|j=1,2,…,N};
(3.3)基于公式ξ=|G×Γk|,计算出特征向量F与步骤(2.2)更新后的稀疏字典D的相关度ξ,同时也为其异常度;其中,×表示外积,|·|表示向量的模。
(3.4)将异常阈值设为T,若相关度ξ大于T,则判定F为异常;反之,若相关度ξ小于等于T,则判定F为正常。
本发明基于深度字典学习的技术对加密流量进行异常检测,对加密流量进行会话特征提取,进而构建正常流量的模式,最后将利用字典与会话特征的相关度比对以确定流量的异常情况,这样便可以在不同业务场景下对加密流量中的异常有相对良好的实时检测效果。

Claims (6)

1.一种基于深度字典学习的加密流量异常检测方法,其特征在于,该方法包括以下步骤:
(1)对从访问用户端传入的加密流量进行处理可以得到流量会话特征向量。
(2)基于流量会话特征向量可以构建并更新深度稀疏字典。
(3)计算更新完成的深度稀疏字典与特征向量的相关度,可以根据相关度判断特征向量是否为异常。
2.如权利要求1所述基于深度字典学习的加密流量异常检测方法,其特征在于,所述步骤(1)包括以下子步骤:
(1.1)使用TCP/IP五元组为依据对流量进行聚合,得到流量会话集合S。
(1.2)对于S中每一个会话,其特征向量为F={fi|i=1,2,…,M},其中fi为第i个特征向量,M为特征向量的长度。
3.如权利要求2所述基于深度字典学习的加密流量异常检测方法,其特征在于,所述步骤(2)包括以下子步骤:
(2.1)稀疏字典由D={dj|j=1,2,…,N}表示,其中dj为第j个字典元素,N为字典的长度。
(2.2)对于新到来的每个流量会话特征向量F,以
Figure FDA0002718146540000011
为目标函数使用梯度下降训练法对稀疏字典D以及字典元素和特征向量F之间的相关系数Γ={Γk|k=1,2,…,K}集进行更新。其中K为字典所在的层数,Γk为第k层的相关系数矩阵,φ为ReLU非线性激活函数,
Figure FDA0002718146540000012
为第二范数。
4.如权利要求3所述基于深度字典学习的加密流量异常检测方法,其特征在于,所述步骤(3)包括以下子步骤:
(3.1)使用步骤(2.2)更新后的Γk,基于公式
Figure FDA0002718146540000013
计算字典元素dj的活跃度aj,A={aj|j=1,2,…,N}为D的活跃度集合,其中
Figure FDA0002718146540000014
表示第k层相关系数矩阵中第i个列向量的累加和;
(3.2)基于信息熵增益公式,计算出A的的熵增益集合G={gj|j=1,2,…,N};
(3.3)基于公式ξ=|G×Γk|,计算出特征向量F与步骤(2.2)更新后的D的相关度ξ;
(3.4)将异常阈值设为T,若ξ大于T,则判定F为异常;反之若ξ小于等于T,则判定F为正常。
5.如权利要求2所述基于深度字典学习的加密流量异常检测方法,其特征在于,所述步骤(1.1)中,使用dpkt库对聚合后的流量进行处理得到流量会话集合S。
6.如权利要求2所述基于深度字典学习的加密流量异常检测方法,其特征在于,所述步骤(1.2)中,所述特征向量的内容包括TLS握手信息、所有数据包长度的平均值与标准差以及所有数据包到达时间间隔的平均值与标准差。
CN202011079829.7A 2020-10-10 2020-10-10 一种基于深度字典学习的加密流量异常检测方法 Active CN112367292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011079829.7A CN112367292B (zh) 2020-10-10 2020-10-10 一种基于深度字典学习的加密流量异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011079829.7A CN112367292B (zh) 2020-10-10 2020-10-10 一种基于深度字典学习的加密流量异常检测方法

Publications (2)

Publication Number Publication Date
CN112367292A true CN112367292A (zh) 2021-02-12
CN112367292B CN112367292B (zh) 2021-09-03

Family

ID=74507627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011079829.7A Active CN112367292B (zh) 2020-10-10 2020-10-10 一种基于深度字典学习的加密流量异常检测方法

Country Status (1)

Country Link
CN (1) CN112367292B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949527A (zh) * 2021-09-07 2022-01-18 中云网安科技有限公司 异常访问的检测方法、装置、电子设备及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130227045A1 (en) * 2010-04-08 2013-08-29 At&T Intellectual Property I, L.P. Bot-Network Detection Based on Simple Mail Transfer Protocol (SMTP) Characteristics of E-Mail Senders Within IP Address Aggregates
US20160321510A1 (en) * 2015-04-29 2016-11-03 Mando Corporation Apparatus and method for detecting bar-type traffic sign in traffic sign recognition system
CN106228524A (zh) * 2016-08-01 2016-12-14 广东工业大学 一种图像去噪方法及装置
CN106991435A (zh) * 2017-03-09 2017-07-28 南京邮电大学 基于改进的字典学习的入侵检测方法
CN107360159A (zh) * 2017-07-11 2017-11-17 中国科学院信息工程研究所 一种识别异常加密流量的方法及装置
CN108650218A (zh) * 2018-03-22 2018-10-12 平安科技(深圳)有限公司 网络流量监测方法、装置、计算机设备及存储介质
CN108805002A (zh) * 2018-04-11 2018-11-13 杭州电子科技大学 基于深度学习和动态聚类的监控视频异常事件检测方法
CN108833360A (zh) * 2018-05-23 2018-11-16 四川大学 一种基于机器学习的恶意加密流量识别技术
CN109685830A (zh) * 2018-12-20 2019-04-26 浙江大华技术股份有限公司 目标跟踪方法、装置和设备及计算机存储介质
CN110830515A (zh) * 2019-12-13 2020-02-21 支付宝(杭州)信息技术有限公司 流量检测方法、装置、电子设备
CN110912888A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种基于深度学习的恶意http流量检测系统和方法
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130227045A1 (en) * 2010-04-08 2013-08-29 At&T Intellectual Property I, L.P. Bot-Network Detection Based on Simple Mail Transfer Protocol (SMTP) Characteristics of E-Mail Senders Within IP Address Aggregates
US20160321510A1 (en) * 2015-04-29 2016-11-03 Mando Corporation Apparatus and method for detecting bar-type traffic sign in traffic sign recognition system
CN106228524A (zh) * 2016-08-01 2016-12-14 广东工业大学 一种图像去噪方法及装置
CN106991435A (zh) * 2017-03-09 2017-07-28 南京邮电大学 基于改进的字典学习的入侵检测方法
CN107360159A (zh) * 2017-07-11 2017-11-17 中国科学院信息工程研究所 一种识别异常加密流量的方法及装置
CN108650218A (zh) * 2018-03-22 2018-10-12 平安科技(深圳)有限公司 网络流量监测方法、装置、计算机设备及存储介质
CN108805002A (zh) * 2018-04-11 2018-11-13 杭州电子科技大学 基于深度学习和动态聚类的监控视频异常事件检测方法
CN108833360A (zh) * 2018-05-23 2018-11-16 四川大学 一种基于机器学习的恶意加密流量识别技术
CN109685830A (zh) * 2018-12-20 2019-04-26 浙江大华技术股份有限公司 目标跟踪方法、装置和设备及计算机存储介质
CN110912888A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种基于深度学习的恶意http流量检测系统和方法
CN110830515A (zh) * 2019-12-13 2020-02-21 支付宝(杭州)信息技术有限公司 流量检测方法、装置、电子设备
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNCHI XING, CHUNMING WU: "Detecting Anomalies in Encrypted Traffic via Deep Dictionary Learning", 《IEEE CONFERENCE ON COMPUTER COMMUNICATIONS WORKSHOPS 》 *
周伯阳,郭志民,王延桦,阮伟,吴春明,周宁,张伟,程国振: "基于多尺度低秩模型的电力无线接入网异常流量检测方法", 《电子学报》 *
王军,夏利民: "基于深度学习特征的异常行为检测", 《湖南大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949527A (zh) * 2021-09-07 2022-01-18 中云网安科技有限公司 异常访问的检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112367292B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
Ashraf et al. Novel deep learning-enabled LSTM autoencoder architecture for discovering anomalous events from intelligent transportation systems
CN112398779B (zh) 一种网络流量数据分析方法及系统
Idhammad et al. Detection system of HTTP DDoS attacks in a cloud environment based on information theoretic entropy and random forest
US10063581B1 (en) Measure based anomaly detection
US11316878B2 (en) System and method for malware detection
Davis et al. Data preprocessing for anomaly based network intrusion detection: A review
TWI729320B (zh) 可疑封包偵測裝置及其可疑封包偵測方法
Tartakovsky et al. Detection of intrusions in information systems by sequential change-point methods
CN113364752B (zh) 一种流量异常检测方法、检测设备及计算机可读存储介质
US20140165198A1 (en) System and method for malware detection using multidimensional feature clustering
CN110460458B (zh) 基于多阶马尔科夫链的流量异常检测方法
CN113094707B (zh) 一种基于异质图网络的横向移动攻击检测方法及系统
CN108255996A (zh) 基于Apriori算法的安全日志分析方法
US11949701B2 (en) Network access anomaly detection via graph embedding
Sudharsan et al. Edge2guard: Botnet attacks detecting offline models for resource-constrained iot devices
Buragohain et al. Anomaly based DDoS attack detection
Yamada et al. Intrusion detection for encrypted web accesses
Jia et al. A novel real‐time ddos attack detection mechanism based on MDRA algorithm in big data
CN112367292B (zh) 一种基于深度字典学习的加密流量异常检测方法
KR100950079B1 (ko) 은닉마코프 모델을 이용한 확률적인 네트워크 이상징후탐지 장치 및 그 방법
Al-Fawa'reh et al. Detecting stealth-based attacks in large campus networks
CN109257384B (zh) 基于访问节奏矩阵的应用层DDoS攻击识别方法
Yin et al. Optimal remote access Trojans detection based on network behavior.
Dixit et al. Naive Bayes and SVM based NIDS
Gurumurthy et al. Hybrid pigeon inspired optimizer-gray wolf optimization for network intrusion detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant