CN109672687B - 基于可疑度评估的http混淆流量检测方法 - Google Patents
基于可疑度评估的http混淆流量检测方法 Download PDFInfo
- Publication number
- CN109672687B CN109672687B CN201811650319.3A CN201811650319A CN109672687B CN 109672687 B CN109672687 B CN 109672687B CN 201811650319 A CN201811650319 A CN 201811650319A CN 109672687 B CN109672687 B CN 109672687B
- Authority
- CN
- China
- Prior art keywords
- matching
- load
- http
- setting
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种基于可疑度评估的HTTP混淆流量检测方法,首先过滤网络流量,提取出HTTP协议形式的数据流,分析HTTP数据流的协议头部信息的完整性、内容类型标识以及负载的数据类型三个特征,使用可疑度函数计算各特征的可疑度,将可疑度的加权数作为判决器的输入,由判决器判别数据流属于正常HTTP还是混淆HTTP,可疑度加权值超过判决阈值则判断为混淆,否则就判断为正常。本发明不依赖数据流易变的指纹特征,具有很好的适应性,能够适应不同网络环境的复杂情况。
Description
技术领域
本发明涉及网络与信息安全技术,具体涉及一种基于可疑度评估的HTTP混淆流量检测方法。
背景技术
流量混淆技术利用特定手段将任意协议格式的数据转换成特定协议的数据,它既可以作为网络流量数据传输过程中的一种隐私保护手段,也可以用于对抗网络安全机制,泄露数据或用作C&C通道,威胁公众安全。尤其是HTTP混淆技术,因为HTTP被互联网广泛使用,对应的80端口承载着大量必要应用,所以几乎没有防火墙会对该端口进行封堵,这使HTTP混淆十分泛滥。因此,检测HTTP混淆流量的存在,防止危害发生,是至关重要的环节。HTTP混淆流量检测技术作为网络安全防护领域内的一项非常重要的技术,引起了研究者的广泛关注,而且目前为止已经取得了很多的研究成果。
根据文献检索,发现现有的检测技术大部分都是基于机器学习分类算法,这种研究方法相比较传统的基于规则和模式的方式而言,有了很大的进一步,但是研究对象大多设定为某个特定混淆软件产生的混淆流量,并且有指定的监测环境,不具备通用性。同时这类检测方案的机器学习训练大都基于有限的实验数据,在较为封闭的数据集上的效果甚至接近100%,但真实网络环境中流量的形态更加丰富,这些基于较为封闭的实验数据得到的分类器,在真实的网络环境中会产生大量的虚警。
发明内容
本发明的目的在于提供一种基于可疑度评估的HTTP混淆流量检测方法。
本发明的目的在于提供一种基于可疑度评估的HTTP混淆流量检测方法,包括以下流程:
步骤1:捕获网络流量数据,筛选出其中的HTTP流量;
步骤2:提取HTTP流中每个数据包的TCP有效负载,重组成完整报文;
步骤3:对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配;
步骤4、根据匹配结果,计算每个特征的可疑度数值;
步骤5、进行可疑度加权,与可疑度阈值比较,确定混淆HTTP。
作为一种优选实施方式,步骤1中,采用Wireshark软件和Hyperscan正则匹配库捕获网络流量数据。
作为一种优选实施方式,步骤2中,采用Matlab软件提取HTTP流中每个数据包的TCP有效负载。
作为一种优选实施方式,步骤3中,在协议头部完整性匹配过程中,设置一个长度为N的一维向量,代表所考察的N个首部字段的匹配结果,匹配对象中未出现的首部字段,一维向量中对应的位置设1;匹配对象中出现的首部字段,一维向量中对应的位置设0。
作为一种优选实施方式,步骤3中,内容类型标识与负载实际类型匹配包括负载的压缩格式匹配和负载MIME类型匹配,具体为:
根据内容类型标识“Content-Encoding”字段匹配负载的压缩格式,若符合“Content-Encoding”字段,匹配结果设0,并解压负载数据;若不符合,匹配结果设1;
根据内容类型标识“Content-Type”字段匹配负载的MIME类型,若负载类型为文本文件,则计算负载内容的负载信息熵,设负载信息X共有M个字符,当中的每个字符x出现的次数为N(x),则每个字符出现的概率为N(x)/M,由公式(1)计算负载熵:
若负载信息熵高于明文负载熵阈值,匹配结果设1,否则匹配结果设0;若负载类型为非文本文件,则根据“Content-Type”字段所标识的MIME类型匹配负载数据的文件头,若符合“Content-Type”字段,匹配结果设0,否则匹配结果设1。
作为一种优选实施方式,步骤4中,由公式(2)计算每个特征的可疑度数值:
其中是流量x的第i个特征,该特征包含m个子特征, 是第i个特征的可疑权重向量;对于“协议头部信息”特征而言,为所考察的m个首部字段的可疑权重向量,各字段权重数值的设置方法为:根据已统计的正常HTTP报文各首部字段出现的频次比例为所有m个首部字段设置权重值,出现频次越高的字段权重值越高,且满足对于“负载数据类型”特征而言,匹配结果只有成功和失败两种,
作为一种优选实施方式,步骤5中,由公式(3)计算可疑度加权值:
作为一种优选实施方式,步骤5中,根据可疑度加权值与可疑度阈值确定分类结果的判决函数如公式(4):
其中Se(x)是数据流x的可疑度数值,thres是可疑度阈值,可疑度阈值可以根据实际网络情况和检测需求进行动态调整,若可疑度加权值大于等于可疑度阈值,输出结果为混淆HTTP,否则输出结果为正常HTTP。
有益效果:本发明在分析数据多种维度信息的基础上,根据匹配程度使用可疑度函数进行可疑度计算,并通过判决器进行混淆流量判定,可有效克服依赖流量特征带来的虚警率高的问题,具有良好的适应性,能够适应不同网络环境的复杂情况。
附图说明
图1为本发明的流程示意图;
图2为明文和密文负载的负载信息熵分布散点图。
具体实施方式
下面结合附图和具体实施例,进一步说明本发明方案。
本发明通过分析HTTP数据流的协议头部信息的完整性、内容类型标识以及负载的数据类型三个特征,使用可疑度函数计算各特征的可疑度,将计算结果输入判决器,由判决器判别数据流是否是HTTP混淆流量,如图1所示,基于可疑度评估的HTTP混淆流量检测方法,具体包括以下流程:
步骤1:设置数据捕获器,利用数据捕获器捕获网络流量数据,并筛选出其中的HTTP流量;作为一种实施方式,数据捕获器可以采用Wireshark软件和Hyperscan正则匹配库。
步骤2:设置数据处理器,利用数据处理器提取HTTP流中每个数据包的TCP有效负载,重组成完整报文;作为一种具体实施方式,数据处理器可以采用Matlab。
步骤3:设置特征匹配器,利用特征匹配器分别对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配。
在协议头部完整性匹配过程中,设置一个长度为N的一维向量,代表所考察的N个首部字段的匹配结果。匹配对象中未出现的首部字段,一维向量中对应的位置设1;匹配对象中出现的首部字段,一维向量中对应的位置设0;
内容类型标识与负载实际类型的一致性匹配中,根据内容类型标识“Content-Encoding”字段匹配负载的压缩格式,若符合“Content-Encoding”字段,匹配结果设0,并解压负载数据;若不符合,匹配结果设1;
根据内容类型标识“Content-Type”字段匹配负载的MIME类型,若负载类型为文本文件,则计算负载内容的负载信息熵。设负载信息X共有M个字符,当中的每个字符x出现的次数为N(x),则每个字符出现的概率为N(x)/M。负载熵可由公式(1)计算:
若负载信息熵高于明文负载熵阈值,匹配结果设1,否则匹配结果设0。若负载类型为非文本文件,则根据“Content-Type”字段所标识的MIME类型匹配负载数据的文件头,若符合“Content-Type”字段,匹配结果设0,否则匹配结果设。
步骤4:设置可疑度评估器,可疑度评估器根据步骤3的特征匹配器输出的匹配结果计算每个特征的可疑度数值,可疑度数值可由公式(2)计算:
对于“协议头部信息”特征而言,为所考察的m个首部字段的可疑权重向量,各字段权重数值的设置方法为:根据已统计的正常HTTP报文各首部字段出现的频次比例为所有m个首部字段设置权重值,出现频次越高的字段权重值越高,且满足
步骤5:设置判决器,判决器根据可疑度加权值输出判决结果,可疑度加权值可由公式(3)计算:
判决器根据可疑度加权值与可疑度阈值的比较结果输出分类结果。判决函数如公式(4):
其中Se(x)是数据流x的可疑度数值,thres是可疑度阈值。可疑度阈值可以根据实际网络情况和检测需求进行动态调整。若可疑度加权值大于等于可疑度阈值,输出结果为混淆HTTP,否则输出结果为正常HTTP。
实施例
为了验证本发明方案的有效性,以某某某大学校园网为检测环境,进行如下仿真实验。
首先过滤网络流量,提取出HTTP协议形式的数据流,分析HTTP数据流的协议头部信息的完整性、内容类型标识以及负载的数据类型三个特征,使用可疑度函数计算各特征的可疑度,将可疑度的加权数作为判决器的输入,由判决器判别数据流属于正常HTTP还是混淆HTTP。具体流程如下:
步骤1:设置数据捕获器,利用数据捕获器捕获网络流量数据,并筛选出其中的HTTP流量,筛选规则适用正则表达式“[a-zA-Z]{3,7}.*HTTP\/1.[0,1]”和“HTTP\/1.[0,1][0-9]{0,3}”。
步骤2:设置数据处理器,利用数据处理器提取HTTP流中每个数据包的TCP有效负载,重组成完整报文。
步骤3:设置特征匹配器,利用特征匹配器分别对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配。
在协议头部完整性匹配过程中,设置一个长度为12的一维向量,代表所考察的12个首部字段的匹配结果。匹配对象中未出现的首部字段,一维向量中对应的位置设1;匹配对象中出现的首部字段,一维向量中对应的位置设0。所考察的首部字段见表1。
表1为校园网中HTTP报文首部字段信息的比例分布和对应的权重值;
根据内容类型标识“Content-Encoding”字段匹配负载的压缩格式,若符合“Content-Encoding”字段,匹配结果设0,并解压负载数据;若不符合,匹配结果设1。
根据内容类型标识“Content-Type”字段匹配负载的MIME类型,若负载类型为文本文件,则计算负载内容的负载信息熵。设负载信息X共有M个字符,当中的每个字符x出现的次数为N(x),则每个字符出现的概率为N(x)/M。负载熵可由公式(1)计算:
若负载信息熵高于明文负载熵阈值5.5,匹配结果设1,否则匹配结果设0。若负载类型为非文本文件,则根据“Content-Type”字段所标识的MIME类型匹配负载数据的文件头,若符合“Content-Type”字段,匹配结果设0,否则匹配结果设1。
步骤4:设置可疑度评估器,可疑度评估器根据步骤3的特征匹配器输出的匹配结果计算每个特征的可疑度数值,可疑度数值可由公式(2)计算:
对于“协议头部信息”特征而言,为所考察的m个首部字段的可疑权重向量,各字段权重数值的设置方法为:根据已统计的正常HTTP报文各首部字段出现的频次比例为所有m个首部字段设置权重值,出现频次越高的字段权重值越高,且满足
步骤5:设置判决器,判决器根据可疑度加权值输出判决结果,可疑度加权值可由公式(3)计算:
判决器根据可疑度加权值与可疑度阈值的比较结果输出分类结果。判决函数如公式(4):
其中Se(x)是数据流x的可疑度数值,thres是可疑度阈值。可疑度阈值可以根据实际网络情况和检测需求进行动态调整。若可疑度加权值大于等于可疑度阈值输出结果为混淆HTTP,否则输出结果为正常HTTP。
本实例中设定{η1,η2,η3,η4}={0.2,0.5,0.5,0.5},采集到的正常HTTP与混淆HTTP的可疑度计算结果如表2所示。
表2为本发明流量数据可疑度评估实验结果
正常HTTP中有5条的可疑度在0.5到0.7之间,经过分析发现这5条是Web服务器发回的压缩编码的响应报文,头部字段“Content-Encoding”却被隐藏,导致负载类型匹配失败。混淆流量的可疑度数值大多落在0.5到0.7之间,当请求报文为POST时,该条流的可疑度超过了1.0。可见本发明在检测HTTP混淆流量通信中具有良好的效果。
Claims (3)
1.一种基于可疑度评估的HTTP混淆流量检测方法,其特征在于,包括以下流程:
步骤1:捕获网络流量数据,筛选出其中的HTTP流量;
步骤2:提取HTTP流中每个数据包的TCP有效负载,重组成完整报文;
步骤3:对每条流的首个请求报文和首个响应报文进行特征匹配,匹配内容为协议头部信息的完整性匹配、内容类型标识与负载实际类型的一致性匹配;
步骤4、根据匹配结果,计算每个特征的可疑度数值;
步骤5、进行可疑度加权,与可疑度阈值比较,确定混淆HTTP;
步骤3中,在协议头部完整性匹配过程中,设置一个长度为N的一维向量,代表所考察的N个首部字段的匹配结果,匹配对象中未出现的首部字段,一维向量中对应的位置设1;匹配对象中出现的首部字段,一维向量中对应的位置设0;
步骤3中,内容类型标识与负载实际类型匹配包括负载的压缩格式匹配和负载MIME类型匹配,具体为:
根据内容类型标识“Content-Encoding”字段匹配负载的压缩格式,若符合“Content-Encoding”字段,匹配结果设0,并解压负载数据;若不符合,匹配结果设1;
根据内容类型标识“Content-Type”字段匹配负载的MIME类型,若负载类型为文本文件,则计算负载内容的负载信息熵,设负载信息X共有M个字符,当中的每个字符x出现的次数为N(x),则每个字符出现的概率为N(x)/M,由公式(1)计算负载熵:
若负载信息熵高于明文负载熵阈值,匹配结果设1,否则匹配结果设0;若负载类型为非文本文件,则根据“Content-Type”字段所标识的MIME类型匹配负载数据的文件头,若符合“Content-Type”字段,匹配结果设0,否则匹配结果设1;
步骤4中,由公式(2)计算每个特征的可疑度数值:
其中是流量x的第i个特征,该特征包含m个子特征, 是第i个特征的可疑权重向量;对于“协议头部信息”特征而言,为所考察的m个首部字段的可疑权重向量,各字段权重数值的设置方法为:根据已统计的正常HTTP报文各首部字段出现的频次比例为所有m个首部字段设置权重值,出现频次越高的字段权重值越高,且满足对于“负载数据类型”特征而言,匹配结果只有成功和失败两种;
步骤5中,由公式(3)计算可疑度加权值:
步骤5中,根据可疑度加权值与可疑度阈值确定分类结果的判决函数如公式(4):
其中Se(x)是数据流x的可疑度数值,thres是可疑度阈值,可疑度阈值可以根据实际网络情况和检测需求进行动态调整,若可疑度加权值大于等于可疑度阈值,输出结果为混淆HTTP,否则输出结果为正常HTTP。
2.根据权利要求1所述的基于可疑度评估的HTTP混淆流量检测方法,其特征在于,步骤1中,采用Wireshark软件和Hyperscan正则匹配库捕获网络流量数据。
3.根据权利要求1所述的基于可疑度评估的HTTP混淆流量检测方法,其特征在于,步骤2中,采用Matlab软件提取HTTP流中每个数据包的TCP有效负载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811650319.3A CN109672687B (zh) | 2018-12-31 | 2018-12-31 | 基于可疑度评估的http混淆流量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811650319.3A CN109672687B (zh) | 2018-12-31 | 2018-12-31 | 基于可疑度评估的http混淆流量检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109672687A CN109672687A (zh) | 2019-04-23 |
CN109672687B true CN109672687B (zh) | 2021-04-13 |
Family
ID=66147437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811650319.3A Active CN109672687B (zh) | 2018-12-31 | 2018-12-31 | 基于可疑度评估的http混淆流量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109672687B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110213286B (zh) * | 2019-06-12 | 2021-06-29 | 四川长虹电器股份有限公司 | 一种基于双引擎的高效waf设计方法 |
CN110891030B (zh) * | 2019-12-26 | 2021-03-16 | 南京烽火星空通信发展有限公司 | 一种基于机器学习的http流量特征识别与提取方法 |
CN111464525B (zh) * | 2020-03-30 | 2022-06-07 | 绿盟科技集团股份有限公司 | 一种会话识别方法、装置、控制设备及存储介质 |
CN114531381A (zh) * | 2020-11-04 | 2022-05-24 | 南京理工大学 | 一种针对混淆kcp协议加密流量的检测方法 |
CN115955521B (zh) * | 2022-09-13 | 2023-08-11 | 武汉麦丰创新网络科技有限公司 | 一种私有报文的识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102195977A (zh) * | 2011-04-13 | 2011-09-21 | 北京恒光创新科技股份有限公司 | 一种网络协议识别方法及装置 |
CN103841096A (zh) * | 2013-09-05 | 2014-06-04 | 北京科能腾达信息技术股份有限公司 | 自动调整匹配算法的入侵检测方法 |
CN103873320A (zh) * | 2013-12-27 | 2014-06-18 | 北京天融信科技有限公司 | 加密流量识别方法及装置 |
CN107070812A (zh) * | 2017-05-02 | 2017-08-18 | 武汉绿色网络信息服务有限责任公司 | 一种https协议分析方法及其系统 |
CN107360159A (zh) * | 2017-07-11 | 2017-11-17 | 中国科学院信息工程研究所 | 一种识别异常加密流量的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10686831B2 (en) * | 2016-11-16 | 2020-06-16 | Cisco Technology, Inc. | Malware classification and attribution through server fingerprinting using server certificate data |
-
2018
- 2018-12-31 CN CN201811650319.3A patent/CN109672687B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102195977A (zh) * | 2011-04-13 | 2011-09-21 | 北京恒光创新科技股份有限公司 | 一种网络协议识别方法及装置 |
CN103841096A (zh) * | 2013-09-05 | 2014-06-04 | 北京科能腾达信息技术股份有限公司 | 自动调整匹配算法的入侵检测方法 |
CN103873320A (zh) * | 2013-12-27 | 2014-06-18 | 北京天融信科技有限公司 | 加密流量识别方法及装置 |
CN107070812A (zh) * | 2017-05-02 | 2017-08-18 | 武汉绿色网络信息服务有限责任公司 | 一种https协议分析方法及其系统 |
CN107360159A (zh) * | 2017-07-11 | 2017-11-17 | 中国科学院信息工程研究所 | 一种识别异常加密流量的方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于规则拟合的TCP数据包流量混淆系统;张琪鑫;《计算机应用于软件》;20180228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109672687A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109672687B (zh) | 基于可疑度评估的http混淆流量检测方法 | |
CN105721242B (zh) | 一种基于信息熵的加密流量识别方法 | |
CN111181901B (zh) | 异常流量检测装置及其异常流量检测方法 | |
Bouzida et al. | Efficient intrusion detection using principal component analysis | |
Robinson et al. | Ranking of machine learning algorithms based on the performance in classifying DDoS attacks | |
Abdullah et al. | Performance evaluation of a genetic algorithm based approach to network intrusion detection system | |
Jeske et al. | Statistical methods for network surveillance | |
Kato et al. | An intelligent ddos attack detection system using packet analysis and support vector machine | |
Atli | Anomaly-based intrusion detection by modeling probability distributions of flow characteristics | |
CN111464510B (zh) | 基于快速梯度提升树分类模型的网络实时入侵检测方法 | |
CN105827611B (zh) | 一种基于模糊推理的分布式拒绝服务网络攻击检测方法和系统 | |
Hu et al. | Network data analysis and anomaly detection using CNN technique for industrial control systems security | |
Raza et al. | Intrusion detection using decision tree classifier with feature reduction technique | |
Škrjanc et al. | Evolving cauchy possibilistic clustering and its application to large-scale cyberattack monitoring | |
Zhao et al. | A Multi-threading Solution to Multimedia Traffic in NIDS Based on Hybrid Genetic Algorithm. | |
Patil et al. | A comparative performance evaluation of machine learning-based NIDS on benchmark datasets | |
Tran et al. | DeepInsight-convolutional neural network for intrusion detection systems | |
Zhou et al. | Android malware classification approach based on host-level encrypted traffic shaping | |
Jamdagni et al. | Intrusion detection using geometrical structure | |
Sarhan et al. | Doc-nad: A hybrid deep one-class classifier for network anomaly detection | |
CN108768774A (zh) | 一种定量化的网络安全评估方法及评估系统 | |
Rai et al. | Packet-based Anomaly Detection using n-gram Approach | |
Zhou et al. | A Cooperative Detection of DDoS attacks based on CNN-BiLSTM in SDN | |
Beulah et al. | Detection of DDoS attack using ensemble machine learning techniques | |
Belej et al. | Development of a network attack detection system based on hybrid neuro-fuzzy algorithms. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |