CN108881305B - 一种面向加密流量识别的样本自动标定方法 - Google Patents
一种面向加密流量识别的样本自动标定方法 Download PDFInfo
- Publication number
- CN108881305B CN108881305B CN201810897782.1A CN201810897782A CN108881305B CN 108881305 B CN108881305 B CN 108881305B CN 201810897782 A CN201810897782 A CN 201810897782A CN 108881305 B CN108881305 B CN 108881305B
- Authority
- CN
- China
- Prior art keywords
- time
- log file
- flow
- format
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3297—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving time stamps, e.g. generation of time stamps
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种面向加密流量识别的样本自动标定方法,提出基于TCP特性的流量拆分方法,从划分不同的应用程序为出发点,将流量拆分为多个不同的样本,借助代理服务器端的日志信息对流量数据进行解析和拆分,从而实现响应网络行为与流量数据的对应关系,即实现分类学习中的流量数据标定。本方法充分利用了应用层通信协议TCP的相关知识和代理服务器端的日志信息,可应用于真实场景下的加密流量识别。
Description
技术领域
本发明属于网络安全与用户隐私领域,特别涉及一种面向加密流量识别的样本自动标定方法。
背景技术
近年来,随着互联网的高速发展,网络已经紧密地融入我们的生产与生活,网络安全也成为一个不可忽视的问题。在日常生活中,人们的网络安全意识也逐渐提高,越来越多的用户和企业开始重视信息的保护和安全传输。基于加密流量的网络行为识别技术,可以用来实现网络的安全监管,特别是非法业务和不良信息的监管,如人口贩卖,卖淫赌博,军火交易等。加密流量识别(Website Fingerprinting,WF)就是一种通过对网络流量的特征提取并结合有监督的分类模型对用户行为基于网站进行分类的技术。目前关于加密流量识别技术的研究中,实验数据的采集假设性很强,即通过严格的时间戳控制一次人为的网站请求的开始和结束以确保流量数据和网络行为的对应关系。然而,在真实的网络环境下,这种假设性很强的流量样本训练出的分类器并不适用,因为在出口抓流量并不能确定用户访问的开始和结束时间点,获取到的流量是多个用户甚至多个网站请求杂糅在一起的,因此不能抓到整个会话的所有流量与网络行为进行对应。何把获取到的混合流量拆分为不同的网站请求数据因此是值得关注的重要问题。
选择一种合理有效的流量预处理方法,是一个非常重要的问题,理由包括:(1)加密流量识别技术的本质是基于有监督机器学习模型的分类技术,对于样本的标定是至关重要的问题,即如何确定网络行为和流量数据的对应关系。(2)真实网络场景下只能得到混合流量的数据,如何将其拆分为不同的网站请求数据作为训练样本是分类学习中的基本问题。
国内外关于加密流量识别技术的流量预处理方法目前只有针对Tor的仿真数据处理方法。在实验数据采集时就具有较强的假设,即通过严格的时间戳来控制每一次请求的开始和结束,具有很强指向性的流量很容易确保数据与网络行为的对应关系。然而,在真实的网络环境下,这种假设性很强的流量样本训练出的分类器并不适用,因为在出口抓流量并不能确定用户访问的开始和结束时间点,获取到的流量是多个用户甚至多个网站请求杂糅在一起的,因此不能抓到整个会话的所有流量与网络行为进行对应。
发明内容
本发明的目的在于提供一种面向加密流量识别的样本自动标定方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种面向加密流量识别的样本自动标定方法,包括以下步骤:
步骤1:给定连续抓取n天的流量数据pcap文件,将其解析为<时间戳,客户端IP,客户端Port,传输方向,数据包长度>格式的流量数据序列,要求序列按照时间戳从小到大排序;给定在代理服务器端生成的通信日志,其中每条记录的格式为<时间戳,目标网址,客户端IP,客户端Port>,要求通信日志是每隔两小时生成一个日志文件,命名格式为“年-月-日-起始时刻”;
步骤2:选出包含从流量抓取到结束这一时间段的所有日志文件;
步骤3:以每天的偶数整点时刻为一个划分点,将在相邻两个偶数整点时刻内的流量数据划分到id为“年-月-日-起始时刻”的集合内,在每个集合内将具有相同客户端IP和客户端Port的流量数据的时间戳和数据包长度提取出来组合成按照时间戳从小到大排序的序列,每个序列被定义为一个TCP流;
步骤4:将流量数据集合与名称等于集合id的日志文件匹配,即同一时间段的流量数据集合与日志文件对,在每个集合中,将拥有相同的IP和Port的目标网址和TCP流对应起来,将目标网址作为该TCP流的类别标签;
步骤5:遍历每个流量数据集合,完成对所有TCP流的类别标定。
进一步的,步骤1中,生成日志文件的具体方法为:在每天的偶数整点时刻0:00,2:00,4:00,6:00,8:00…以此类推生成一个日志文件。
进一步的,步骤2中,选出特定日志文件的具体方法为:将流量数据序列中最大和最小的时间戳记为ts0和ts1,将其转换为“年-月-日-时:分:秒”的格式,记为t0和t1;比较出小于且最接近t0和小于且最接近于t1的偶数整点时刻_t0和_t1,格式为“年-月-日-偶数时刻”,与步骤1生成的日志文件名称进行匹配,挑选出名称所表示的时间在_t0和_t1之间且包含_t0和_t1在内的所有日志文件。
进一步的,访问的网站集合和样本采集时间由用户自行设定。
与现有技术相比,本发明有以下技术效果:
本发明在获取的通信流量是多个用户发起甚至多个网站请求杂糅在一起的情况下,根据<源IP,源端口,目的IP,目的端口>四元组作为划分TCP流的唯一标识,将相同时间段内的流量数据和网站访问日志一一对应,此方法能准确的将TCP流与网站行为对应起来,完成流量样本的类别标定。
本发明与其他假设性较强的仿真流量相比,将TCP流作为研究的基本数据单元,而非一次完整的网站请求行为,从而解决加密流量识别的真实流量预处理问题,可以将优秀的分类模型应用在真实网络场景下,准确识别用户行为。
附图说明
图1为本发明流程图。
具体实施方式
以下结合附图对本发明进一步说明:
请参阅图1,一种面向加密流量识别的样本自动标定方法,包括以下步骤:
步骤1:给定连续抓取n天的流量数据pcap文件,将其解析为<时间戳,客户端IP,客户端Port,传输方向,数据包长度>格式的流量数据序列,要求序列按照时间戳从小到大排序;给定在代理服务器端生成的通信日志,其中每条记录的格式为<时间戳,目标网址,客户端IP,客户端Port>,要求通信日志是每隔两小时生成一个日志文件,命名格式为“年-月-日-起始时刻”;
步骤2:选出包含从流量抓取到结束这一时间段的所有日志文件;
步骤3:以每天的偶数整点时刻为一个划分点,将在相邻两个偶数整点时刻内的流量数据划分到id为“年-月-日-起始时刻”的集合内,在每个集合内将具有相同客户端IP和客户端Port的流量数据的时间戳和数据包长度提取出来组合成按照时间戳从小到大排序的序列,每个序列被定义为一个TCP流;
步骤4:将流量数据集合与名称等于集合id的日志文件匹配,即同一时间段的流量数据集合与日志文件对,在每个集合中,将拥有相同的IP和Port的目标网址和TCP流对应起来,将目标网址作为该TCP流的类别标签;
步骤5:遍历每个流量数据集合,完成对所有TCP流的类别标定。
步骤1中,生成日志文件的具体方法为:在每天的偶数整点时刻0:00,2:00,4:00,6:00,8:00…以此类推生成一个日志文件。
步骤2中,选出特定日志文件的具体方法为:将流量数据序列中最大和最小的时间戳记为ts0和ts1,将其转换为“年-月-日-时:分:秒”的格式,记为t0和t1;比较出小于且最接近t0和小于且最接近于t1的偶数整点时刻_t0和_t1,格式为“年-月-日-偶数时刻”,与步骤1生成的日志文件名称进行匹配,挑选出名称所表示的时间在_t0和_t1之间且包含_t0和_t1在内的所有日志文件。
访问的网站集合和样本采集时间由用户自行设定。
实施例:
步骤1:给定连续抓取n天的流量数据pcap文件,将其解析为<时间戳,客户端IP,客户端Port,数据包长度>格式的数据包序列,要求序列按照时间戳从小到大排序。给定在代理服务器端生成的通信日志,其中每条记录的格式为<时间戳,目标网址,客户端IP,客户端Port>,根据每两小时同一IP的端口不会复用的特性,要求通信日志是每隔两小时生成一个文件,即每天的偶数整点时刻0:00,2:00,4:00,6:00,8:00…以此类推生成一个日志文件,如2018/4/20的18:00到20:00的通信日志记为2018-04-20.18:00的文件。
步骤2:将数据包序列中最大和最小的时间戳记为ts0和ts1,将其转换为[年-月-日.时:分:秒]的格式,记为t0和t1。计算出小于且最接近t0和小于且最接近于t1的[年-月-日.偶数时刻:00]记为_t0和_t1,与记录的日志文件名称进行匹配,挑选出名称所表示的时间在_t0和_t1之间且包含_t0和_t1在内的所有日志文件,如2018-01-23.18:00到2018-02-11.22:00之间。
步骤3:以每日的偶数整点时刻为一个划分点,如2018/4/20的18:00到20:00为一个区间,将18:00到20:00的数据包都划分在id为2018/4/20.18:00的集合内,每个集合内根据每个数据包记录的IP和Port,将具有相同的IP和Port的数据包再组合成序列作为一个TCP流,新集合中每个元素格式如下:
[{IP1,Port1:[timstamp1,len1],[timestamp2,len2],…,[timestampn,lenn]},
{IP2,Port2:[timstamp1,len1],[timestamp2,len2],…,[timestampn,lenn]},
…]
步骤4:根据数据包集合的id,将集合与名称等于集合id的日志文件匹配,在集合中,以IP和Port为唯一标识,将拥有相同的IP和Port的目标网址和TCP流对应起来,将目标网址作为该TCP流的类别标签。
步骤5:遍历每个数据包集合,完成对所有TCP流的类别标定。
Claims (4)
1.一种面向加密流量识别的样本自动标定方法,其特征在于,包括以下步骤:
步骤1:给定连续抓取n天的流量数据pcap文件,将其解析为<时间戳,客户端IP,客户端Port,传输方向,数据包长度>格式的流量数据序列,要求序列按照时间戳从小到大排序;给定在代理服务器端生成的通信日志,其中每条记录的格式为<时间戳,目标网址,客户端IP,客户端Port>,要求通信日志是每隔两小时生成一个日志文件,命名格式为“年-月-日-起始时刻”;
步骤2:选出包含从流量抓取到结束这一时间段的所有日志文件;
步骤3:以每天的偶数整点时刻为一个划分点,将在相邻两个偶数整点时刻内的流量数据划分到id为“年-月-日-起始时刻”的集合内,在每个集合内将具有相同客户端IP和客户端Port的流量数据的时间戳和数据包长度提取出来组合成按照时间戳从小到大排序的序列,每个序列被定义为一个TCP流;
步骤4:将流量数据集合与名称等于集合id的日志文件匹配,即同一时间段的流量数据集合与日志文件对,在每个集合中,将拥有相同的IP和Port的目标网址和TCP流对应起来,将目标网址作为该TCP流的类别标签;
步骤5:遍历每个流量数据集合,完成对所有TCP流的类别标定。
2.根据权利要求1所述的一种面向加密流量识别的样本自动标定方法,其特征在于,步骤1中,生成日志文件的具体方法为:在每天的偶数整点时刻0:00,2:00,4:00,6:00,8:00…以此类推生成一个日志文件。
3.根据权利要求1所述的一种面向加密流量识别的样本自动标定方法,其特征在于,步骤2中,选出特定日志文件的具体方法为:将流量数据序列中最大和最小的时间戳记为ts0和ts1,将其转换为“年-月-日-时:分:秒”的格式,记为t0和t1;比较出小于且最接近t0和小于且最接近于t1的偶数整点时刻_t0和_t1,格式为“年-月-日-偶数时刻”,与步骤1生成的日志文件名称进行匹配,挑选出名称所表示的时间在_t0和_t1之间且包含_t0和_t1在内的所有日志文件。
4.根据权利要求1所述的一种面向加密流量识别的样本自动标定方法,其特征在于,访问的网站集合和样本采集时间由用户自行设定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810897782.1A CN108881305B (zh) | 2018-08-08 | 2018-08-08 | 一种面向加密流量识别的样本自动标定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810897782.1A CN108881305B (zh) | 2018-08-08 | 2018-08-08 | 一种面向加密流量识别的样本自动标定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108881305A CN108881305A (zh) | 2018-11-23 |
CN108881305B true CN108881305B (zh) | 2020-04-28 |
Family
ID=64317915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810897782.1A Active CN108881305B (zh) | 2018-08-08 | 2018-08-08 | 一种面向加密流量识别的样本自动标定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108881305B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414594B (zh) * | 2019-07-24 | 2021-09-07 | 西安交通大学 | 一种基于双阶段判定的加密流量分类方法 |
CN113098832B (zh) * | 2019-12-23 | 2022-09-27 | 四川大学 | 一种基于机器学习的远程缓冲区溢出攻击检测方法 |
CN112511459B (zh) * | 2020-11-23 | 2024-04-26 | 恒安嘉新(北京)科技股份公司 | 一种流量识别方法、装置、电子设备及存储介质 |
CN115002030A (zh) * | 2022-04-27 | 2022-09-02 | 安徽工业大学 | 一种网站指纹识别方法、装置、存储器和处理器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452948A (zh) * | 2016-09-22 | 2017-02-22 | 恒安嘉新(北京)科技有限公司 | 一种网络流量的自动分类方法和系统 |
CN106557535A (zh) * | 2016-06-23 | 2017-04-05 | 哈尔滨安天科技股份有限公司 | 一种大数据级Pcap文件的处理方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140068761A1 (en) * | 2012-09-06 | 2014-03-06 | Microsoft Corporation | Abuse identification of front-end based services |
CN107645542A (zh) * | 2017-09-03 | 2018-01-30 | 中国南方电网有限责任公司 | 一种应用于云审计系统的数据采集装置 |
CN108199878B (zh) * | 2017-12-29 | 2021-02-05 | 北京理工大学 | 高性能ip网络中个人标识信息识别系统及方法 |
-
2018
- 2018-08-08 CN CN201810897782.1A patent/CN108881305B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557535A (zh) * | 2016-06-23 | 2017-04-05 | 哈尔滨安天科技股份有限公司 | 一种大数据级Pcap文件的处理方法及系统 |
CN106452948A (zh) * | 2016-09-22 | 2017-02-22 | 恒安嘉新(北京)科技有限公司 | 一种网络流量的自动分类方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108881305A (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108881305B (zh) | 一种面向加密流量识别的样本自动标定方法 | |
CN101741644B (zh) | 流量检测方法及装置 | |
CN111882367B (zh) | 一种通过用户上网行为分析进行在线广告监测跟踪的方法 | |
CN110868409A (zh) | 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统 | |
CN109275045B (zh) | 基于dfi的移动端加密视频广告流量识别方法 | |
CN105337753A (zh) | 一种互联网真实质量监测方法及装置 | |
CN113726615B (zh) | 一种it智能运维系统中基于网络行为的加密业务稳定性判定方法 | |
CN106210773B (zh) | 在本地视频中播放弹幕的方法及系统 | |
Laštovička et al. | Using TLS fingerprints for OS identification in encrypted traffic | |
Luxemburk et al. | CESNET-QUIC22: A large one-month QUIC network traffic dataset from backbone lines | |
CN109144837B (zh) | 一种支持精准服务推送的用户行为模式识别方法 | |
Yoon et al. | Behavior signature for big data traffic identification | |
CN110290188A (zh) | 一种适用于大规模网络环境的https流服务在线标识方法 | |
CN117130870B (zh) | 面向Java架构微服务系统的透明请求追踪及采样方法和装置 | |
CN102984242A (zh) | 一种应用协议的自动识别方法和装置 | |
CN107517237B (zh) | 一种视频识别方法和装置 | |
Hernández-Campos et al. | Understanding patterns of TCP connection usage with statistical clustering | |
CN109492655B (zh) | 一种特征提取方法、装置及终端 | |
CN111200543A (zh) | 一种基于主动服务探测引擎技术的加密协议识别方法 | |
CN111310796A (zh) | 一种面向加密网络流的Web用户点击识别方法 | |
CN102315991A (zh) | 一种基于互联网数据采集的方法 | |
CN114205151A (zh) | 基于多特征融合学习的http/2页面访问流量识别方法 | |
CN109104426B (zh) | 一种基于发包速率的加密流量分析防御方法 | |
US20210051107A1 (en) | Access origin classification device, access origin classification method, and program | |
CN116112256B (zh) | 一种面向应用加密流量识别的数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |