CN104954365A - 一种快速自动识别加密网络行为的方法 - Google Patents

一种快速自动识别加密网络行为的方法 Download PDF

Info

Publication number
CN104954365A
CN104954365A CN201510279195.2A CN201510279195A CN104954365A CN 104954365 A CN104954365 A CN 104954365A CN 201510279195 A CN201510279195 A CN 201510279195A CN 104954365 A CN104954365 A CN 104954365A
Authority
CN
China
Prior art keywords
data
behavior
sigma
refined net
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510279195.2A
Other languages
English (en)
Other versions
CN104954365B (zh
Inventor
朱贺军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Esafenet Science & Technology Co Ltd
Original Assignee
Beijing Esafenet Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Esafenet Science & Technology Co Ltd filed Critical Beijing Esafenet Science & Technology Co Ltd
Priority to CN201510279195.2A priority Critical patent/CN104954365B/zh
Publication of CN104954365A publication Critical patent/CN104954365A/zh
Application granted granted Critical
Publication of CN104954365B publication Critical patent/CN104954365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明针对海量的加密网络行为难以识别的问题,提出了一种快速自动识别加密网络行为的方法,该方法首先构建具体的加密网络行为模型库,然后进行实时采集网络交互数据,同时计算实时采集网络交互数据与模型库的相关系数,并依据计算的相关系数结合预设阈值进行自动分类识别。本发明的有益之处在于:本发明的识别方法能够及时、快速、高效地实现对加密数据的加密流量的在线判断,进而有效解决因加密协议频繁升级而带来的研发工作量加大的问题。

Description

一种快速自动识别加密网络行为的方法
技术领域
本发明涉及一种识别加密网络行为的方法,具体涉及一种快速自动识别加密网络行为的方法,属于网络安全技术领域。
背景技术
网络的出现大大的改变了人们的通信方式,使人们的生活发生了翻天覆地的变化,不同的用户使用网络中的各种应用,每天都会产生数以亿计的应用流,而这些看似正常的流量中可能隐藏着各种恶意攻击行为。因此,分类识别网络流量,对规范网络应用、净化网络环境以及保护网络用户的隐私安全都具有重大意义,这也是网络安全领域所要研究的热点问题,尤其是如何快速准确地识别加密的网络行为更是重中之重。
目前,常见的加密流量分类识别方法包括:基于端口号识别、基于载荷信息识别、基于机器学习识别以及基于流的统计特征识别。其中,基于端口号识别原理和实现都比较简单,但容易受到加密类流量的动态端口、伪造端口等影响;基于载荷信息识别对于加密应用模式匹配难度大,易受版本升级的影响;基于机器学习识别和基于流的统计特征识别的识别准确率尚可,但计算开销大,实现复杂度高,无法满足在线实时识别的要求。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种快速自动识别加密网络行为的方法,该识别方法能够及时、快速、高效地实现对加密数据的加密流量的在线判断,进而有效解决因加密协议频繁升级而带来的研发工作量加大的问题。
为了实现上述目标,本发明采用如下的技术方案:
一种快速自动识别加密网络行为的方法,其特征在于,包括以下步骤:
Step1:构建具体的加密网络行为模型库;
Step2:实时采集网络交互数据;
Step3:计算实时采集网络交互数据与模型库中不同参考样本的相关系数;
Step4:依据计算相关系数结合预设阈值进行网络行为自动分类识别。
前述的快速自动识别加密网络行为的方法,其特征在于,在Step1中,构建加密网络行为模型库的方法为:
(1)分析大量不同版本的加密网络行为数据;
(2)在前一步的分析基础上,提取出能够表征该加密网络行为的特征;
(3)根据相关系数原理和前一步提取出来的特征,构建该加密网络行为的模型库及参考样本。
前述的快速自动识别加密网络行为的方法,其特征在于,在Step2中,实时采集网络交互数据的方法为:采用滑动窗口方式采集与参考样本相同长度的测量数据集。
前述的快速自动识别加密网络行为的方法,其特征在于,在Step2中,根据下列公式计算实时采集网络交互数据与模型库的相关系数:
ρ = Σ i = 1 N XY - Σ i = 1 N X Σ i = 1 N Y N ( Σ i = 1 N X 2 - ( Σ i = 1 N X ) 2 N ) ( Σ i = 1 N Y 2 - ( Σ i = 1 N Y ) 2 N )
其中,X=[x1,x2,…,xN]表示样本数据,Y=[y1,y2,…,yN]表示新采集数据,相关系数ρ>0表示正相关,ρ<0表示负相关,ρ=0表示无关。
前述的快速自动识别加密网络行为的方法,其特征在于,在Step3中,
(1)对于音频和消息类,直接计算实时采集网络交互数据与模型库的相关系数;
(2)对于视频和图片类,先对采集到的数据进行预处理,预处理的方式是针对特定位置使数据的值发生微小波动,从而使采集数据值与参考样本完全一样,然后计算预处理后的数据与模型库的相关系数。
本发明的有益之处在于:本发明的识别方法能够及时、快速、高效地实现对加密数据的加密流量的在线判断,进而有效解决因加密协议频繁升级而带来的研发工作量加大的问题。
附图说明
图1是发消息交互过程中的流量记录图;
图2是行为识别总体流程图;
图3是数据采集方式示意图;
图4是Twitter行为分析的程序实现流程图。
具体实施方式
针对海量的加密网络行为难以识别的问题,本发明提出了一种快速自动识别加密网络行为的方法。该方法首先构建具体的加密网络行为模型库,然后进行实时采集网络交互数据,同时计算实时采集网络交互数据与模型库的相关系数,并依据计算的相关系数结合预设阈值进行自动分类识别。
以下结合附图和具体实施例对本发明作具体的介绍。
在本实施例中,以Android版Twitter发帖为研究对象。
Twitter发帖时涉及文字消息和上传图片,发文字消息时,从安全套接层(Secure Sockets Layer,SSL)的交互过程中可以获取域名为:“api.twitter.com”,在upload图片时的域名为“upload.twitter.com”。发消息属于长连接,且容易和看帖的行为相混淆,为区别看帖,采用本实施例的方案进行实现。
基本原理:
同一类行为有相似的统计特征或其他外在特征,本发明依据网络数据流量的统计特征,通过构建具体行为样本库,将实时采集的网络数据向样本库投影,投影值是依据相关系数进行计算。系数值的大小反映了两个随机变量之间的相似程度。
经过对Twitter数据大量研究分析表明,明文和密文从外在形式上保持一致,密文包的大小反映明文内容的多少,不同的行为动作,其特征不同,对于某一具体动作,例如发消息,客户端和服务器之间的交互模式相对固定,交互过程中,反映交互双方负载流量也保持了某种趋势,该趋势也不会因为小版本不同而发生变化。
图1是发消息交互过程中的流量记录图。如图1所示,图1(A)和图1(B)是两次真Twitter消息,图1(C)是一次伪消息,欲辨真伪,可选择其中一次真Twitter消息数据作为模板,将其它两个消息与之比对,为能给出数值结果,可采用相关系数。而相关系数反映了两个随机向量间的相关程度,计算公式如下:
&rho; = &Sigma; i = 1 N XY - &Sigma; i = 1 N X &Sigma; i = 1 N Y N ( &Sigma; i = 1 N X 2 - ( &Sigma; i = 1 N X ) 2 N ) ( &Sigma; i = 1 N Y 2 - ( &Sigma; i = 1 N Y ) 2 N )
其中,X=[x1,x2,…,xN]表示样本数据,Y=[y1,y2,…,yN]表示新采集数据,相关系数ρ>0表示正相关,ρ<0表示负相关,ρ=0表示无关。ρ的绝对值越大表示相关程度越高。
按照上述公式,两个真Twitter消息之间的相关系数为0.8881,另外两个消息之间的相关系数为0.6058。因此,本实施例以Twitter的登陆、聊天、音频、图片以及视频等消息为样板,通过大量的数据分析,分别建立相应的模板,且设定阈值为0.8,若大于设定阈值,判为真,否则为假。
算法实现:
结合数据包大小及特点区分,将基于相关系数的行为识别分成两类情形进行分析,如图2所示,行为识别总体流程为:
Step1:构建具体的加密网络行为模型库
经过分析大量不同版本的加密网络行为数据,Twitter发推时的方式可归纳为两种情况:音频/消息、视频/图片。因此,需要建立两个参考样本。
参考样本I,如表1所示,其包的大小分布为X。
表1 参考样本I的数据包的大小分布表
源地址 目标地址 协议 包长度(字节)
192.168.8.195 199.59.148.87 TLSv1 199
199.59.148.87 192.168.8.195 TLSv1 407
199.59.148.87 192.168.8.195 TLSv1 135
192.168.8.195 199.59.148.87 TCP 66
199.59.148.87 192.168.8.195 TLSv1 183
199.59.148.87 192.168.8.195 TLSv1 167
192.168.8.195 199.59.148.87 TCP 66
192.168.8.195 199.59.148.87 TLSv1 199
199.59.148.87 192.168.8.195 TLSv1 519
199.59.148.87 192.168.8.195 TLSv1 135
192.168.8.195 199.59.148.87 TCP 66
192.168.8.195 199.59.148.87 TLSv1 199
199.59.148.87 192.168.8.195 TLSv1 327
199.59.148.87 192.168.8.195 TLSv1 135
192.168.8.195 199.59.148.87 TCP 66
192.168.8.195 199.59.148.87 TLSv1 199
199.59.148.87 192.168.8.195 TCP 66
199.59.148.87 192.168.8.195 TLSv1 407
199.59.148.87 192.168.8.195 TLSv1 151
X = [ 199 , 407 &OverBar; , 135 , 183 &OverBar; , 167 &OverBar; , 199 , 519 &OverBar; , 135,199 , 327 &OverBar; , 135,199 , 407 &OverBar; , 151 ] .
带有下划线的数字表示对于同一个抓包环境,不同发推时其值不确定。考虑到样本的普适性,选取最后9个变量作为参考样本,即:
X 1 = [ 199 , 519 &OverBar; , 135,199 , 327 &OverBar; , 135,199 , 407 &OverBar; , 151 ] .
参考样本II,如表2所示,其包的大小分布为X2
表2 参考样本II的数据包的大小分布表
源地址 目标地址 协议 包长度(字节)
192.168.8.195 199.59.148.87 TLSv1 231
199.59.148.87 192.168.8.195 TCP 66
192.168.8.195 199.59.148.87 TLSv1 103
199.59.148.87 192.168.8.195 TCP 66
199.59.148.87 192.168.8.195 TLSv1 551
199.59.148.87 192.168.8.195 TLSv1 935
192.168.8.195 199.59.148.87 TCP 66
192.168.8.195 199.59.148.87 TLSv1 119
X 2 = [ 231 &OverBar; , 103 &OverBar; , 551 &OverBar; , 951 &OverBar; , 119 &OverBar; ] .
带有下划线的数字表示对于同一个抓包环境,不同发推时其值不确定。
Step2:实时采集网络交互数据
参照图3,采用滑动窗口方式采集与参考样本相同长度的测量数据集。
Twitter发消息时新采集的数据如表3所示,其包的大小分布为Y。
表3 Twitter发消息时新采集的数据
源地址 目标地址 协议 包长度(字节)
192.168.8.195 199.59.148.87 TLSv1 199
199.59.148.87 192.168.8.195 TLSv1 551
199.59.148.87 192.168.8.195 TLSv1 135
192.168.8.195 199.59.148.87 TCP 66
192.168.8.195 199.59.148.87 TLSv1 199
199.59.148.87 192.168.8.195 TLSv1 183
199.59.148.87 192.168.8.195 TLSv1 135
192.168.8.195 199.59.148.87 TCP 66
192.168.8.195 199.59.148.87 TLSv1 199
199.59.148.87 192.168.8.195 TLSv1 279
199.59.148.87 192.168.8.195 TLSv1 151
Y = [ 199 , 551 &OverBar; , 135,199 , 183 &OverBar; , 135,199 , 279 &OverBar; , 151 ] .
带有下划线的数字表示对于同一个抓包环境,不同发推时其值不确定。
Step3:计算实时采集网络交互数据与模型库中不同参考样本的相关系数
根据下列公式计算相关系数:
&rho; = &Sigma; i = 1 N XY - &Sigma; i = 1 N X &Sigma; i = 1 N Y N ( &Sigma; i = 1 N X 2 - ( &Sigma; i = 1 N X ) 2 N ) ( &Sigma; i = 1 N Y 2 - ( &Sigma; i = 1 N Y ) 2 N )
计算结果:参考样本X1与测试数据Y的相关系数为0.8881,参考样本X2与测试数据Y的相关系数分别为-0.4409、-0.1159、-0.5945、-0.3657。相关系数的绝对值越大,表示相关程度越高,值为正表示正相关,值为负表示负相关。
对于音频类,与发消息一样,直接计算参考样本与测试数据的正相关系数。
对于视频和图片类,因为参考样本和采集数据集其中一个为常量数组,并且参考样本和测量数据不完全一样,例如:Y=[1414,1400,…,1410],X=[1414,1414,…,1414],所以此时是不能依据相关系数进行直接判断的。为此,需要对数据进行预处理,预处理的方式是针对特定位置使数据的值微小波动,从而使采集数据值与参考样本完全一样,例如:改变上述变量的第二个数值和最后一个数值,得到如下形式:经数据实验证明,上述微小波动不影响判别结果。采集的数据经过预处理后,再计算预处理后的数据与模型库的相关系数。
Step4:依据计算相关系数结合预设阈值进行网络行为自动分类识别
Twitter的行为分析主要包括登陆、聊天、音频、图片以及视频等。图4为Twitter行为分析的程序实现流程图。
目前,依据相关系数值的大小决定分类,相关系数值大小根据经验值测定,在本发明中,相关系数参考值取0.8,大于0.8则判为发推。由Step2相关系数的计算可知,X1与Y相关性较强,而X2与Y相关程度较弱,结论:超过相关系数参考值的强相关为符合该种行为模式的加密的网络行为。
同理,当样本库中有图片或视频的参考样本,根据相关系数值的大小决定该时动作属于哪一类。
总结:
本实施例以Twitter为例,对它的登陆、聊天、音频、图片以及视频等加密行为进行研究分析,提出了基于相关系数的加密网络行为识别模型,同时经过实验验证,该方法高效、适用、可靠,并在实际的项目中得到应用,且其行为识别的准确率在96%以上。
同时还以Twitter发消息为例,模板数据维数为40,数据包大小877M,参与预算数据包大小686M,相关系数运算1957885次,其中输出相关记录1957次,总耗时6秒,其效率完全可以满足实时在线识别的要求。
由此可见,本发明的识别方法不仅实现了快速识别加密网络行为,而且有效解决了因加密协议频繁升级带来的研发工作量加大的问题。
需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (5)

1.一种快速自动识别加密网络行为的方法,其特征在于,包括以下步骤:
Step1:构建具体的加密网络行为模型库;
Step2:实时采集网络交互数据;
Step3:计算实时采集网络交互数据与模型库中不同参考样本的相关系数;
Step4:依据计算相关系数结合预设阈值进行网络行为自动分类识别。
2.根据权利要求1所述的快速自动识别加密网络行为的方法,其特征在于,在Step1中,构建加密网络行为模型库的方法为:
(1)分析大量不同版本的加密网络行为数据;
(2)在前一步的分析基础上,提取出能够表征该加密网络行为的特征;
(3)根据相关系数原理和前一步提取出来的特征,构建该加密网络行为的模型库及参考样本。
3.根据权利要求1所述的快速自动识别加密网络行为的方法,其特征在于,在Step2中,实时采集网络交互数据的方法为:采用滑动窗口方式采集与参考样本相同长度的测量数据集。
4.根据权利要求3所述的快速自动识别加密网络行为的方法,其特征在于,在Step3中,根据下列公式计算实时采集网络交互数据与模型库的相关系数:
&rho; = &Sigma; i = 1 N XY - &Sigma; i = 1 N X &Sigma; i = 1 N Y N ( &Sigma; i = 1 N X 2 - ( &Sigma; i = 1 N X ) 2 N ) ( &Sigma; i = 1 N Y 2 - ( &Sigma; i = 1 N Y ) 2 N )
其中,X=[x1,x2,…,xN]表示样本数据,Y=[y1,y2,…,yN]表示新采集数据,相关系数ρ>0表示正相关,ρ<0表示负相关,ρ=0表示无关。
5.根据权利要求4所述的快速自动识别加密网络行为的方法,其特征在于,在Step3中,
(1)对于音频和消息类,直接计算实时采集网络交互数据与模型库的相关系数;
(2)对于视频和图片类,先对采集到的数据进行预处理,预处理的方式是针对特定位置使数据的值发生微小波动,从而使采集数据值与参考样本完全一样,然后计算预处理后的数据与模型库的相关系数。
CN201510279195.2A 2015-05-27 2015-05-27 一种快速自动识别加密网络行为的方法 Active CN104954365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510279195.2A CN104954365B (zh) 2015-05-27 2015-05-27 一种快速自动识别加密网络行为的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510279195.2A CN104954365B (zh) 2015-05-27 2015-05-27 一种快速自动识别加密网络行为的方法

Publications (2)

Publication Number Publication Date
CN104954365A true CN104954365A (zh) 2015-09-30
CN104954365B CN104954365B (zh) 2018-10-16

Family

ID=54168719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510279195.2A Active CN104954365B (zh) 2015-05-27 2015-05-27 一种快速自动识别加密网络行为的方法

Country Status (1)

Country Link
CN (1) CN104954365B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528837A (zh) * 2017-08-17 2017-12-29 深信服科技股份有限公司 加密视频识别方法及装置、计算机装置、可读存储介质
CN110247819A (zh) * 2019-05-23 2019-09-17 武汉安问科技发展有限责任公司 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统
CN116319467A (zh) * 2023-05-22 2023-06-23 中国信息通信研究院 基于idc机房双向流量的深度合成音频检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414600A (zh) * 2013-07-19 2013-11-27 华为技术有限公司 近似匹配方法和相关设备及通信系统
CN103873320A (zh) * 2013-12-27 2014-06-18 北京天融信科技有限公司 加密流量识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414600A (zh) * 2013-07-19 2013-11-27 华为技术有限公司 近似匹配方法和相关设备及通信系统
CN103873320A (zh) * 2013-12-27 2014-06-18 北京天融信科技有限公司 加密流量识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶春明等: "一种基于用户行为状态特征的流量识别方法", 《计算机应用研究》 *
杜瑞颖等: "一种基于相似度的高效网络流量识别方案", 《山东大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528837A (zh) * 2017-08-17 2017-12-29 深信服科技股份有限公司 加密视频识别方法及装置、计算机装置、可读存储介质
CN107528837B (zh) * 2017-08-17 2020-06-09 深信服科技股份有限公司 加密视频识别方法及装置、计算机装置、可读存储介质
CN110247819A (zh) * 2019-05-23 2019-09-17 武汉安问科技发展有限责任公司 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统
CN110247819B (zh) * 2019-05-23 2021-07-06 武汉安问科技发展有限责任公司 一种基于加密流识别的Wi-Fi视频采集设备检测方法及系统
CN116319467A (zh) * 2023-05-22 2023-06-23 中国信息通信研究院 基于idc机房双向流量的深度合成音频检测方法及系统
CN116319467B (zh) * 2023-05-22 2023-07-21 中国信息通信研究院 基于idc机房双向流量的深度合成音频检测方法及系统

Also Published As

Publication number Publication date
CN104954365B (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN107749848B (zh) 物联网数据的处理方法、装置及物联网系统
CN104009836A (zh) 加密数据检测方法和系统
CN110213227A (zh) 一种网络数据流检测方法及装置
CN105721242A (zh) 一种基于信息熵的加密流量识别方法
Lingyu et al. A hierarchical classification approach for tor anonymous traffic
CN110493142B (zh) 基于谱聚类和随机森林算法的移动应用程序行为识别方法
CN110519228B (zh) 一种黑产场景下恶意云机器人的识别方法及系统
CN104967610A (zh) 一种基于时隙的水印跳变通信方法
CN106330611A (zh) 一种基于统计特征分类的匿名协议分类方法
Sun et al. A Survey of Digital Evidences Forensic and Cybercrime Investigation Procedure.
CN104636408A (zh) 基于用户生成内容的新闻认证预警方法及系统
Hejun et al. Encrypted network behaviors identification based on dynamic time warping and k-nearest neighbor
CN104954365A (zh) 一种快速自动识别加密网络行为的方法
Russo et al. Detection of illicit cryptomining using network metadata
CN111553443A (zh) 裁判文书处理模型的训练方法、训练装置和电子设备
CN102982048A (zh) 一种用于评估垃圾信息挖掘规则的方法与设备
Ren et al. App identification based on encrypted multi-smartphone sources traffic fingerprints
CN108268762B (zh) 基于行为建模的移动社交网络用户身份识伪方法
CN104636663A (zh) 一种基于业务数据流模型的安全威胁分析方法
Das et al. Smartphone fingerprinting via motion sensors: Analyzing feasibility at large-scale and studying real usage patterns
CN109788349A (zh) 一种探测计算能力的方法及相关装置
Altschaffel et al. Statistical pattern recognition based content analysis on encrypted network: Traffic for the teamviewer application
CN112667888A (zh) 一种基于区块链的大数据处理系统
Nadu Money laundering analysis based on time variant behavioral transaction patterns using data mining
Qi Computer Real-Time Location Forensics Method for Network Intrusion Crimes.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant