CN109474598A - 一种基于数据包时序的恶意加密流量分析特征提取方法 - Google Patents
一种基于数据包时序的恶意加密流量分析特征提取方法 Download PDFInfo
- Publication number
- CN109474598A CN109474598A CN201811377517.7A CN201811377517A CN109474598A CN 109474598 A CN109474598 A CN 109474598A CN 201811377517 A CN201811377517 A CN 201811377517A CN 109474598 A CN109474598 A CN 109474598A
- Authority
- CN
- China
- Prior art keywords
- data packet
- sequence
- time sequence
- package
- extracting method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本文发明提出了一种基于数据包序列的时序和顺序特性的恶意加密流量分析特征提取方法。本发明能够在给定任意一个数据包序列的前提下,有效的提取刻画数据包序列时序特性的所有特征,组成一个可以直接用作训练分类模型的特征组的重要部分。有利于提高网站指纹识别技术的识别准确率,并且节省分类模型构建过程中消耗的时间和空间成本,能够更加高效的监控用户的非法上网行为。
Description
技术领域
本发明属于网络安全与用户隐私领域,特别涉及一种基于数据包时序的恶意加密流量分析特征提取方法。
背景技术
近年来,随着互联网的高速发展,网络已经紧密地融入我们的生产与生活,网络安全也成为一个不可忽视的问题。在日常生活中,人们的网络安全意识也逐渐提高,越来越多的用户和企业开始重视信息的保护和安全传输。基于恶意加密流量的网络行为识别技术,可以用来实现网络的安全监管,特别是非法业务和不良信息的监管,如人口贩卖,卖淫赌博,军火交易等等。恶意加密流量分析可以分析出用户的非法行为,目前,恶意加密流量的分析主要是基于网站指纹识别技术。网站指纹识别就是一种基于机器学习算法识别通过加密方式访问的网站,通过对网络流量的特征提取并结合有监督的分类技术对网站进行分类的技术。其中,这种技术的关键就在于通过提取的特征对能够对网站分类的分类模型的构建过程,所以提取的特征就显得尤为重要。
本发明旨在设计一种能够对数据包时序进行准确刻画的恶意加密流量分析特征提取方法,以期组成一个特征明显的特征组,能够构建一个更加有效的分类模型,提高网站指纹识别技术对于恶意网站识别的准确性。选择一种有效的特征提取方法,构成一个有效的特征组,是一个非常重要的问题,理由包括:(1)恶意加密流量分析的关键技术—网站指纹识别技术的本质就是使用机器学习中的分类算法构建能够对网站进行分类的分类器,所以提取的特征的有效性将会影响分类准确率等。(2)恶意加密流量分析过程中构建的分类器是以提取出的数值特征训练的。因此,提取出的特征必须能准确刻画一个非法网站的特点。
国内外关于恶意加密流量分析特征提取方法目前并没有一个确切的定论,也没有一个确定的可以分类别刻画恶意加密流量特征的特征提取方法。由此可见,关于恶意加密流量分析的特征选择及提取问题尚未被广泛深入研究,相关技术也尚未被广泛应用。
发明内容
本发明的目的在于提供一种基于数据包时序的恶意加密流量分析特征提取方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种基于数据包时序的恶意加密流量分析特征提取方法,包括以下步骤:
步骤1,给定从任意加密网络抓取的经过预处理的加密流量,具体为数据包序列;
步骤2,在得到上述的数据包序列后,根据数据包序列中的数据包顺序以及数据包时序两个重要特性分析出能够代表一个数据包序列时序特征的多维特征;
步骤3,整合步骤2中的多维时序特征,设计基于数据包时序的特征提取算法,将得到的数据包序列作为此特征提取算法的输入,输出步骤2中设计的所有特征;
步骤4,经过步骤2与步骤3之后,能够得到一组直接用于训练分类器模型的有效特征,直接用于网站指纹识别分类器模型的训练及分类;
步骤5,经过被监视的某些恶意网站以及根据所构建的分类模型的分类结果分析某些用户的恶意上网行为。
进一步的,步骤2中的数据包顺序特性和数据包时序特性的定义如下:
数据包顺序特性:关注客户端与服务端之间流量的请求与响应的交互顺序,从不同流量的方向变化及其分布来观察它们的差异性;
数据包时序特性:描述流量中的数据包传输的时间间隔差异。
进一步的,步骤1中数据包序列格式为:域名,IP:[时间戳,数据包大小]。
进一步的,以“+”表示发送的数据包方向,“-”表示接收数据包方向。
进一步的,步骤3中,基于数据包时序的特征提取算法包含以下计算步骤:
1)计算数据包在接收方向的个数和发送方向的个数比值,计算方法为;
2)统计接收方向上每个数据包到达之前接收到的所有数据包的平均大小,即所有数据包的总大小与数据包总个数的比值,对这个序列求均值和标准差;
统计发送方向上每个数据包发送之前发送的所有数据包的平均大小,即所有数据包的总大小与数据包总个数的比值,对这个序列求均值和标准差;
3)确定单位时间,然后统计每单位时间内的数据包个数,并对该序列求均值、标准差、最大值、最小值和中值;
4)统计整体数据包序列中每3个连续数据包之间的时间间隔(若数据包个数不能被 3整除,则可以舍弃最后剩余数据包),并对这个时间间隔序列求取均值、最大值、最小值、标准差。
与现有技术相比,本发明有以下技术效果:
本发明在基于数据包时序和数据包顺序特性上,全面且创新的提出了能够刻画数据包时序的多维数值特征。在对数据包序列的刻画上能够更加准确,可以用于训练分类精度更高的分类模型,并且这些特征可以用于任何分类器。
本发明提取出的特征集可以适用于所有的分类模型的训练及构建;并且因为特征集中特征的全面及精简,会节省分类模型构建的时间和空间成本,同时也能提高分类的准确率。
附图说明
图1为本发明基于数据包时序特征提取流程图;
具体实施方式
以下结合附图对本发明进一步说明:
请参阅图1,一种基于数据包时序的恶意加密流量分析特征提取方法,包括以下步骤:
步骤1,给定从任意加密网络抓取的经过预处理的加密流量,具体为数据包序列;
现在得到访问一个网站的数据包序列如下:
('gorgon.youdao.com','202.117.43.76'):[[[1512460671.746477,+62],[1512460671.74654, -62],[1512460671.827178,+296],[1512460672.111997,-1506],[1512460672.201402,-1124], [1512460672.276805,+180],[1512460672.367518,-296],[1512460672.455021,+778]]]
其中前面的域名和IP表示被访问的地址,后面的内容为数据包的时间和大小序列,形式为:[时间戳,数据包大小]。其中以“+”表示发送的数据包方向,“-”表示接收数据包方向。
步骤2,在得到上述的数据包序列后,根据数据包序列中的数据包顺序以及数据包时序两个重要特性分析出能够代表一个数据包序列时序特征的多维特征;
步骤3,整合步骤2中的多维时序特征,设计基于数据包时序的特征提取算法,将得到的数据包序列作为此特征提取算法的输入,输出步骤2中设计的所有特征;
步骤4,经过步骤2与步骤3之后,能够得到一组直接用于训练分类器模型的有效特征,直接用于网站指纹识别分类器模型的训练及分类;
步骤5,经过被监视的某些恶意网站以及根据所构建的分类模型的分类结果分析某些用户的恶意上网行为。
步骤2中的数据包顺序特性和数据包时序特性的定义如下:
数据包顺序特性:关注客户端与服务端之间流量的请求与响应的交互顺序,从不同流量的方向变化及其分布来观察它们的差异性;
数据包时序特性:描述流量中的数据包传输的时间间隔差异。
步骤1中数据包序列格式为:域名,IP:[时间戳,数据包大小]。
以“+”表示发送的数据包方向,“-”表示接收数据包方向。
步骤3中,基于数据包时序的特征提取算法包含以下计算步骤:
1)计算数据包在接收方向的个数和发送方向的个数比值,计算方法为
2)统计接收方向上每个数据包到达之前接收到的所有数据包的平均大小,即所有数据包的总大小与数据包总个数的比值,对这个序列求均值和标准差;
统计发送方向上每个数据包发送之前发送的所有数据包的平均大小,即所有数据包的总大小与数据包总个数的比值,对这个序列求均值和标准差;
3)确定单位时间Δt,然后统计每单位时间内的数据包个数,并对该序列求均值、标准差、最大值、最小值和中值;
4)统计整体数据包序列中每3个连续数据包之间的时间间隔(若数据包个数不能被 3整除,则可以舍弃最后剩余数据包),并对这个时间间隔序列求取均值、最大值、最小值、标准差。
对于上述的数据包序列提取以上特征,如:
1)数据包在接收方向的个数为4,发送方向的个数为4,故最后的比值:2;
2)接收方向中每个数据包到达之前的数据包个数序列[1,3,4,6],数据包总大小序列为 [62,296,-1210,-2154],所以最后的数据包平均大小序列为[62,98.7,-302.5,-359]其中均值为 -125.2,标准差为721.14;
发送方向中每个数据包到达之前的数据包个数序列[0,2,5,7],数据包总大小序列为 [0,0,-2334,-2450],所以最后的数据包平均大小序列为[0,0,-466.8,-350]其中均值为-204.2,标准差为245.2;
3)为了方便计算,本次暂定单位时间Δt=1s,其中根据时间戳的时间转化规律可以得到每秒内数据包的个数序列为[3,5],所以该序列的均值、标准差、最大值、最小值和中值分别为:4,1.414,5,3,4。
4)统计数据包序列中的每3个连续数据包之间的时间间隔,得到的序列为[0.080701,0.164808],这个序列的均值、最大值、最小值、标准差分别为:0.1227545,0.164808,0.080701,0.0680248。
Claims (5)
1.一种基于数据包时序的恶意加密流量分析特征提取方法,其特征在于,包括以下步骤:
步骤1,给定从任意加密网络抓取的经过预处理的加密流量,具体为数据包序列;
步骤2,在得到上述的数据包序列后,根据数据包序列中的数据包顺序以及数据包时序两个重要特性分析出能够代表一个数据包序列时序特征的多维特征;
步骤3,根据步骤2中的多维时序特征,设计基于数据包时序的特征提取算法,将得到的数据包序列作为此特征提取算法的输入,输出步骤2中设计的所有特征;
步骤4,经过步骤2与步骤3之后,能够得到一组直接用于训练分类器模型的有效特征,直接用于网站指纹识别分类器模型的训练及分类;
步骤5,经过被监视的某些恶意网站以及根据所构建的分类模型的分类结果分析某些用户的恶意上网行为。
2.根据权利要求1所述的一种基于数据包时序的恶意加密流量分析特征提取方法,其特征在于,步骤2中的数据包顺序特性和数据包时序特性的定义如下:
数据包顺序特性:关注客户端与服务端之间流量的请求与响应的交互顺序,从不同流量的方向变化及其分布来观察它们的差异性;
数据包时序特性:描述流量中的数据包传输的时间间隔差异。
3.根据权利要求1所述的一种基于数据包时序的恶意加密流量分析特征提取方法,其特征在于,步骤1中数据包序列格式为:域名,IP:[时间戳,数据包大小]。
4.根据权利要求3所述的一种基于数据包时序的恶意加密流量分析特征提取方法,其特征在于,以“+”表示发送的数据包方向,“-”表示接收数据包方向。
5.根据权利要求1所述的一种基于数据包时序的恶意加密流量分析特征提取方法,其特征在于,步骤3中,基于数据包时序的特征提取算法包含以下计算步骤:
1)计算数据包在接收方向的个数和发送方向的个数比值,计算方法为
2)统计接收方向上每个数据包到达之前接收到的所有数据包的平均大小,即所有数据包的总大小与数据包总个数的比值,对这个序列求均值和标准差;
统计发送方向上每个数据包发送之前发送的所有数据包的平均大小,即所有数据包的总大小与数据包总个数的比值,对这个序列求均值和标准差;
3)确定单位时间Δt,然后统计每单位时间内的数据包个数,并对该序列求均值、标准差、最大值、最小值和中值;
4)统计整体数据包序列中每3个连续数据包之间的时间间隔(若数据包个数不能被3整除,则可以舍弃最后剩余数据包),并对这个时间间隔序列求取均值、最大值、最小值、标准差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377517.7A CN109474598A (zh) | 2018-11-19 | 2018-11-19 | 一种基于数据包时序的恶意加密流量分析特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811377517.7A CN109474598A (zh) | 2018-11-19 | 2018-11-19 | 一种基于数据包时序的恶意加密流量分析特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109474598A true CN109474598A (zh) | 2019-03-15 |
Family
ID=65673020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811377517.7A Pending CN109474598A (zh) | 2018-11-19 | 2018-11-19 | 一种基于数据包时序的恶意加密流量分析特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109474598A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111698223A (zh) * | 2020-05-22 | 2020-09-22 | 哈尔滨工程大学 | 一种基于自动特征工程的加密web网站指纹识别方法 |
CN115065560A (zh) * | 2022-08-16 | 2022-09-16 | 国网智能电网研究院有限公司 | 基于业务时序特征分析的数据交互防泄漏检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577835A (zh) * | 2013-08-02 | 2014-02-12 | 中国科学技术大学苏州研究院 | 采用多维特征向量检测ip id隐信道的方法 |
US20160219067A1 (en) * | 2015-01-28 | 2016-07-28 | Korea Internet & Security Agency | Method of detecting anomalies suspected of attack, based on time series statistics |
CN107404398A (zh) * | 2017-05-31 | 2017-11-28 | 中山大学 | 一种网络用户行为判别系统 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN108833360A (zh) * | 2018-05-23 | 2018-11-16 | 四川大学 | 一种基于机器学习的恶意加密流量识别技术 |
-
2018
- 2018-11-19 CN CN201811377517.7A patent/CN109474598A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577835A (zh) * | 2013-08-02 | 2014-02-12 | 中国科学技术大学苏州研究院 | 采用多维特征向量检测ip id隐信道的方法 |
US20160219067A1 (en) * | 2015-01-28 | 2016-07-28 | Korea Internet & Security Agency | Method of detecting anomalies suspected of attack, based on time series statistics |
CN107404398A (zh) * | 2017-05-31 | 2017-11-28 | 中山大学 | 一种网络用户行为判别系统 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN108833360A (zh) * | 2018-05-23 | 2018-11-16 | 四川大学 | 一种基于机器学习的恶意加密流量识别技术 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111698223A (zh) * | 2020-05-22 | 2020-09-22 | 哈尔滨工程大学 | 一种基于自动特征工程的加密web网站指纹识别方法 |
CN111698223B (zh) * | 2020-05-22 | 2022-02-22 | 哈尔滨工程大学 | 一种基于自动特征工程的加密web网站指纹识别方法 |
CN115065560A (zh) * | 2022-08-16 | 2022-09-16 | 国网智能电网研究院有限公司 | 基于业务时序特征分析的数据交互防泄漏检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110753064A (zh) | 机器学习和规则匹配融合的安全检测系统 | |
CN110213227A (zh) | 一种网络数据流检测方法及装置 | |
CN102035698B (zh) | 基于决策树分类算法的http隧道检测方法 | |
CN107609103A (zh) | 一种基于推特的事件检测方法 | |
CN107483488A (zh) | 一种恶意Http检测方法及系统 | |
CN106936667A (zh) | 一种基于应用程序流量分布式分析的主机实时识别方法 | |
CN105281973A (zh) | 一种针对特定网站类别的网页指纹识别方法 | |
CN110138849A (zh) | 基于随机森林的协议加密算法类型识别方法 | |
CN107438083B (zh) | 一种Android环境下钓鱼网站检测方法及其检测系统 | |
CN102880636A (zh) | 不良信息检测方法及服务端 | |
CN107404398A (zh) | 一种网络用户行为判别系统 | |
CN102708186A (zh) | 一种钓鱼网站的识别方法 | |
Lingyu et al. | A hierarchical classification approach for tor anonymous traffic | |
CN109474598A (zh) | 一种基于数据包时序的恶意加密流量分析特征提取方法 | |
CN109275045A (zh) | 基于dfi的移动端加密视频广告流量识别方法 | |
CN106789242A (zh) | 一种基于手机客户端软件动态特征库的识别应用智能分析引擎 | |
CN102542063A (zh) | 内容过滤的方法、装置及系统 | |
CN104216964A (zh) | 一种面向微博的非分词突发话题检测方法 | |
CN106330611A (zh) | 一种基于统计特征分类的匿名协议分类方法 | |
CN106998322A (zh) | 一种使用视频业务的平均意见分均值特征的流分类方法 | |
Wang et al. | A smart automated signature extraction scheme for mobile phone number in human-centered smart home systems | |
CN104021348B (zh) | 一种隐匿p2p程序实时检测方法及系统 | |
CN109858510A (zh) | 一种针对HTTP协议ETag值隐蔽通信的检测方法 | |
CN102984242A (zh) | 一种应用协议的自动识别方法和装置 | |
CN105429817A (zh) | 基于dpi和dfi的非法业务识别装置与方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190315 |
|
RJ01 | Rejection of invention patent application after publication |