CN108667685A - 移动应用网络流量聚类装置 - Google Patents

移动应用网络流量聚类装置 Download PDF

Info

Publication number
CN108667685A
CN108667685A CN201810309715.3A CN201810309715A CN108667685A CN 108667685 A CN108667685 A CN 108667685A CN 201810309715 A CN201810309715 A CN 201810309715A CN 108667685 A CN108667685 A CN 108667685A
Authority
CN
China
Prior art keywords
dns
network
flows
dns query
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810309715.3A
Other languages
English (en)
Other versions
CN108667685B (zh
Inventor
何高峰
朱海婷
孙雁飞
王堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810309715.3A priority Critical patent/CN108667685B/zh
Publication of CN108667685A publication Critical patent/CN108667685A/zh
Application granted granted Critical
Publication of CN108667685B publication Critical patent/CN108667685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0882Utilisation of link capacity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

移动应用网络流量聚类装置,包括:获取单元,适于获取移动终端所产生的网络流量;预处理单元,适于对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除DNS流量之外的其他网络流量对应的其他网络流量记录集合;第一聚类单元,适于对DNS流量记录集合进行聚类,得到DNS流量对应的多个DNS网络流量类;第二聚类单元,适于采用所得到的多个DNS网络流量类对其他网络流量记录集合进行聚类,得到其他网络流量对应的多个其他网络流量类;合并单元,适于将DNS流量对应的多个DNS网络流量类与其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果。上述的方案,可以简易地实现对移动应用网络流量的聚类分析。

Description

移动应用网络流量聚类装置
技术领域
本发明涉及数据处理技术领域,具体地涉及一种移动应用网络流量聚类装置。
背景技术
随着移动互联网和物联网技术的迅速发展,移动终端,如智能手机、平板Pad、智能眼镜、智能手表等已经成为日常社会活动的重要辅助工具。
然而,移动终端的广泛使用也给网络管理和网络安全防护带来了前所未有的巨大挑战。例如,在某企业内网中,员工个人携带的移动终端安装有恶意应用,该应用调用摄像头拍摄保密信息,然后利用移动通信网络或无线网络将拍摄的保密信息传输至攻击者服务器,造成机密信息泄露。因而,通过网络流量检测恶意移动应用或者分析移动终端的操作行为是否异常,成为当前理论研究以及实际应用的热点问题。
在研究如何通过网络流量检测恶意移动应用或者分析移动终端的操作行为是否异常时,一个重要的前提是能够知悉网络流量与移动应用间的对应关系。例如,在分析网络行为以检测恶意移动应用时,对于不同网络流F1、F2、F3、F4,现有工作假定已知F1和F2由同一移动应用产生,F3和F4由另一移动应用产生,然后再分析{F1,F2}和{F3,F4}的网络行为特征以检测恶意移动应用。为那满足上述假设条件,可以在移动终端上安装代理程序,由该程序确定网络流量与移动应用间的对应关系。但实际中,在移动终端上直接安装代理程序存在众多困难,如需强制用户安装、用户可以自行卸载等。
但是,现有技术中尚未出现对移动应用网络流量进行自动聚类的公开研究和报道。
发明内容
本发明解决的技术问题如何简易地实现对移动应用网络流量的聚类分析。
为解决上述技术问题,本发明实施例提供了一种移动应用网络流量聚类装置,所述装置包括:
获取单元,适于获取移动终端所产生的网络流量;
预处理单元,适于对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合;
第一聚类单元,适于对所述DNS流量记录集合进行聚类,得到所述DNS流量对应的多个DNS网络流量类;
第二聚类单元,适于采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,得到所述其他网络流量对应的多个其他网络流量类;
合并单元,适于将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果。
可选地,所述DNS网络流量包括DNS应答流量和DNS查询流量;
所述预处理单元,适于对所获取的网络流量中的DNS流量进行逐条遍历;当确定遍历至的当前条DNS流量为DNS应答流量时,提取当前DNS流量中的IP地址和域名,组成对应的一条查询记录;当确定遍历至的当前条DNS流量为DNS查询流量时,提取当前DNS流量中的域名和捕获时间,组成对应的一条应答记录;获取所述网络流量中的DNS流量中的下一条DNS流量,直至所述网络流量中的DNS流量全部遍历完成,生成所述DNS流量记录集合。
可选地,所述预处理单元,还适于对所述其他网络流量进行逐条遍历,为所述其他网络流量中的每条设置对应的包括源地址、目的地址、源端口、目的端口、域名/空域名、上层协议的六元组流量标识;其中,当所述六元组流量标识中的目的地址具有对应的域名时,对应的域名/空域名字段为对应的域名信息;反之,则将对应的域名/空域名字段为空域名;分别将具有相同六元组流量标识的其他网络流量的报文捕获时间和报文长度依序添加在对应的六元组流量标识之后,得到所述其他网络流量记录集合。
可选地,所述第一聚类单元,适于创建变量j,并设置j的初始值为1,将DNS查询记录集合中第一条作为第一个DNS查询记录类T1中的第一个元素;按照顺序对所述DNS查询记录集合进行遍历,获取遍历到的当前条DNS查询记录Di;计算遍历到的当前条DNS查询记录Di与前一条DNS查询记录Di-1之间的报文捕获时间差值;当确定所述报文捕获时间差值小于预设的时间阈值时,将遍历到的当前条DNS查询记录Di并入前一条DNS查询记录Di-1所在的DNS查询记录类;当确定所述报文捕获时间差值大于或等于所述时间阈值时,创建一个新DNS查询记录类,并将所述遍历到的当前条DNS查询记录Di作为所述新DNS查询记录类中的第一个元素;获取所述DNS查询记录集合中的下一条DNS查询记录Di+1,直至所述DNS查询记录集合中的DNS查询记录全部遍历完成,得到多个DNS查询记录类T1~Tm;创建变量a和b,且a=1~m,b=1~m,并将变量a和b的初始值分别设置为1和2;对所述多个DNS查询记录类T1~Tm进行遍历,获取遍历到的当前DNS查询记录类Ta和Tb;当确定DNS查询记录类Tb存在时,计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度;当确定域名相似度大于预设的相似度阈值时,将当前DNS查询记录类Ta和Tb进行合并,得到合并后的DNS查询记录类Ta;当确定域名相似度小于或等于所述相似度阈值时,保持当前DNS查询记录类Ta和Tb不变;否则,则设置变量b=b+1,并重复上述的判断和计算步骤直至b=m;设置变量a=a+1,直至DNS查询记录类Ta存在时,设置b=a+1,并重复上述的判断和计算步骤直至b=m;重复上述的步骤,直至a=m,得到最终的多个DNS查询记录类;将所述DNS应答记录集合中的每条DNS应答记录分别归入对应的DNS查询记录所在的DNS查询记录类,得到所述多个DNS网络流量类。
可选地,所述第一聚类单元,适于采用如下的公式计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度:
其中,Sab表示DNS查询记录类Ta与Tb之间的域名相似度,K-Ta表示DNS查询记录类Ta的关键词集合,K-Tb表示DNS查询记录类Tb的关键词集合;所述DNS查询记录类Ta和DNS查询记录类Tb的关键词集合分别为将DNS查询记录类Ta和DNS查询记录类Tb的域名用点号进行分割且二级域名不分割形成。
可选地,所述第二聚类单元,适于分别提取所述其他网络流量记录集合中每条其他网络流量记录对应的网络流特征;将六元组流量标识中具有域名信息的其他网络流量记录中,与所得到的所述多个DNS网络流量类具有相同域名信息的归入同一其他网络流量类,形成一个以上的其他网络流量类;分别提取所述一个以上的其他网络流量类的网络流特征;基于所提取的网络流特征,分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离;将六元组流量标识中具有空域名信息的其他网络流量记录并入计算得到的距离中最小距离对应的其他网络流量类中,得到最终的多个其他网络流量类。
可选地,所述提取六元组流量标识中具有空域名信息的其他网络流量记录的网络流特征,包括:F1:流中第一个报文的捕获时间;F2:流中报文的总数量;F3:流中报文长度的总和;F4:流中最大报文长度;F5:流中最小报文长度;F6:流中平均报文长度值;F7:流中报文长度值的方差;F8:流中最大报文时间间隔;F9:流中最小报文时间间隔;F10:流中平均报文时间间隔;F11:流中报文时间间隔的方差。
可选地,所述第二聚类单元,适于采用如下的公式分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离:
且.
其中,dp表示六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类中第p个其他网络流量类Cp之间的欧式距离,fnull表示六元组流量标识中具有空域名信息的其他网络流量记录,Fq表示的第q个网络流量特征,s表示其他网络流量类Cp中其他网络流量记录的个数,fr表示其他网络流量类Cp中的第r个其他网络流量记录。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述的移动应用网络流量聚类方法的步骤。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述的移动应用网络流量聚类方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
上述的方案,通过对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合,并对所述DNS流量记录集合进行聚类,且采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,最后将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果,无需安装移动终端上安装代理程序,便可以确定网络流量与移动应用间的对应关系,故可以降低移动应用网络流量进行聚类的操作复杂度,提升用户的使用体验。
附图说明
图1是本发明实施例的一种移动应用网络流量聚类方法的流程图;
图2是本发明实施例中的一种对DNS流量进行聚类的流程图;
图3是通过计算域名相似度将DNS查询记录类T1~Tm进行进一步的合并的流程示意图;
图4是本发明实施例中的一种采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类的方法的流程图;
图5是应用移动应用网络流量聚类方法对移动终端的网络流量进行聚类时的系统部署示意图;
图6是本发明实施例的一种移动应用网络流量聚类装置的结构示意图。
具体实施方式
本发明实施例中的技术方案通过对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合,并对所述DNS流量记录集合进行聚类,且采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,最后将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果,无需安装移动终端上安装代理程序,便可以确定网络流量与移动应用间的对应关系,故可以降低移动应用网络流量进行聚类的操作复杂度,提升用户的使用体验。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种移动应用网络流量聚类方法的流程图。参考图1,一种移动应用网络流量聚类方法,可以包括如下的步骤:
步骤S101:获取移动终端所产生的网络流量。
在具体实施中,可以在移动终端运行的过程中,通过路由器镜像等捕获其所产生的网络流量。
步骤S102:对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合。
在具体实施中,可以将所捕获的移动终端产生的网络流量分为域名系统(DomainName System,DNS)流量和非DNS流量之外的其他网络流量。
在进行DNS流量预处理时,可以首先将DNS流量进一步分为DNS查询流量和DNS应答流量,再针对DNS查询流量和DNS应答流量分别进行预处理。
具体地,针对每一条DNS查询流量,提取其中的DNS查询内容,即具体的域名,并添加该DNS查询流量的捕获时间,形成一条DNS查询记录,表示为<捕获时间,域名>,将所有的DNS查询记录按照捕获时间的先后顺序进行排列,形成DNS查询记录集合如下所示:
<捕获时间1,域名1>
<捕获时间2,域名2>
<捕获时间3,域名3>
……
在对DNS应答流量进行预处理时,可以提取每一条DNS应答报文中的域名以及对应的IP地址,形成一条DNS应答记录,表示为<域名,IP地址>。
在对其它网络流量进行预处理时,可以首先以<源地址,目的地址,源端口,目的端口,上层协议>此五元组流量标识作为每条其他网络流量对应的网络流量标识。接着,可以根据对应的DNS应答记录,判断若五元组流量标识中的目的地址是否有对应域名;当确定五元组流量标识中的目的地址具有对应的域名信息时,则将五元组流量标识中增加对应的域名信息,构成对应的六元组流量标识为<源地址,目的地址,源端口,目的端口,上层协议,域名>;反之,则将五元组流量标识中添加空域名(null)信息,形成对应的六元组流量标识为<源地址,目的地址,源端口,目的端口,上层协议,null>。最后,将提取具有相同的六元组网络标识的多条其他网络流量的捕获时间和报文长度,并按照捕获时间的先后顺序添加在对应的六元组网络标识中,形成对应的一条其他网络流量记录。其中,按照域名信息是否为空,最终所形成的一条其他网络流量记录分别如下所示:
<源地址,目的地址,源端口,目的端口,上层协议,域名,报文1的捕获时间,报文1的长度值,报文2的捕获时间,报文2的长度值,...>,本文中称为六元组流量标识中具有域名信息的其他网络流量记录;
<源地址,目的地址,源端口,目的端口,上层协议,null,报文1的捕获时间,报文1的长度值,报文2的捕获时间,报文2的长度值,...>,本文中称为六元组流量标识中具有空域名信息的其他网络流量记录。
通过上述的描述可知,在捕获移动终端所产生的网络流量时,除DNS流量外,无需保存其它网络流量的具体通信内容,因而可以防止移动用户的隐私信息泄露,保障数据安全。
步骤S103:对所述DNS流量记录集合进行聚类,得到所述DNS流量对应的多个DNS网络流量类。
在具体实施中,当形成DNS流量记录集合和其他网络流量记录集合之后,可以分别对DNS流量记录集合进行聚类,分别得到DNS流量对应的多个DNS网络流量类,具体请参见图2。
步骤S104:采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,得到所述其他网络流量对应的多个其他网络流量类。
在具体实施中,当形成DNS流量记录集合和其他网络流量记录集合,且完成对DNS流量的聚类时,可以采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,具体请参见图3。
步骤S105:将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果。
在具体实施中,当得到通过聚类得到DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类时,通过将聚类得到的多个DNS网络流量类与其他网络流量类进行合并,最终形成移动终端的应用网络流量聚类。
上述的方案,通过对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合,并对所述DNS流量记录集合进行聚类,且采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,最后将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果,无需安装移动终端上安装代理程序,便可以确定网络流量与移动应用间的对应关系,故可以降低移动应用网络流量进行聚类的操作复杂度,提升用户的使用体验。
图2示出了本发明实施例中的一种对DNS流量进行聚类的流程图。参见图2,本发明实施例中的一种DNS流量的聚类方法,具体可以包括如下的操作:
步骤S201:将DNS查询记录集合中第一条作为第一个DNS查询记录类T1中的第一个元素,创建变量j,并设置j的初始值为1。
步骤S202:从所述DNS查询记录集合中的第二条DNS查询记录开始,按照顺序对所述DNS查询记录集合进行遍历,获取遍历到的当前条DNS查询记录Di。
在具体实施中,在对所述DNS查询记录集合中的多条DNS查询记录进行遍历,为按照DNS查询记录的捕获时间的先后顺序进行。
这里需要指出的是,初始时,将DNS查询记录集合中第一条作为第一个DNS查询记录类T1中的第一个元素,因此,在对DNS查询记录集合进行遍历时,为从DNS查询记录集合中的第二条DNS查询记录开始,也即i为大于或等于2的整数。
步骤S203:计算遍历到的当前条DNS查询记录Di与前一条DNS进行查询记录Di-1之间的报文捕获时间差值。
在具体实施中,从遍历到的当前条DNS查询记录Di中具有对应的捕获时间的信息,并将所得到的捕获时间减去前一条DNS进行查询记录Di-1的报文捕获时间,得到当前条DNS查询记录Di与前一条DNS进行查询记录Di-1之间的报文捕获时间差值ti。
步骤S204:判断所述报文捕获时间差值ti是否小于预设的时间阈值t;当判断结果为是时,可以执行步骤S2ti05;反之,则可以执行步骤S206。
在具体实施中,所述时间阈值t可以根据实际的需要进行设置,如1s等,在此不做限制。
步骤S205:将遍历到的当前条DNS查询记录Di并入前一条DNS查询记录Di-1所在的DNS查询记录类。
在具体实施中,当确定所述报文捕获时间差值ti小于预设的时间阈值t时,将当前条DNS查询记录Di并入前一条DNS查询记录Di-1所在的DNS查询记录类,也即并入DNS查询记录类Tj中。
步骤S206:将j设置为j+1,创建一个新DNS查询记录类Tj+1,并将所述遍历到的当前条DNS查询记录Di作为所述新DNS查询记录类Tj+1中的第一个元素。
在具体实施中,当确定所述报文捕获时间差值ti大于或等于所述时间阈值t时,创建一个新DNS查询记录类Tj+1,并将遍历到的当前条DNS查询记录Di作为新DNS查询记录类Tj+1中的第一个元素。
步骤S207:判断所述DNS查询记录中的所有DNS查询记录是否遍历完毕;当判断结果为是时,可以结束操作;反之,则执行步骤S208。
步骤S208:获取所述DNS查询记录集合中的下一条DNS查询记录Di+1。
在具体实施中,当所述DNS查询记录中的所有DNS查询记录未遍历完毕时,可以获取下一条DNS查询记录Di+1,作为遍历到的当前查询记录Di,并从步骤S203开始执行,直至所述DNS查询记录集合中的DNS查询记录全部遍历完成,得到多个DNS查询记录类T1~Tm。
在具体实施中,当得到对应的DNS查询记录类T1~Tm时,可以通过计算域名相似度,将DNS查询记录类T1~Tm进行进一步的合并,具体可以包括如下的操作:
步骤S301:创建变量a和b,且a=1~m,b=1~m,并将变量a和b的初始值分别设置为1和2。
步骤S302:对所述多个DNS查询记录类T1~Tm进行遍历,获取遍历到的当前DNS查询记录类Ta和Tb。
在具体实施中,初始时的DNS查询记录类Ta和Tb分别为T1和T2。
步骤S303:判断DNS查询记录类Tb是否存在;当判断结果为是时,可以执行步骤S304;反之,则可以执行步骤S308。
步骤S304:计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度。
在本发明一实施例中,在计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度时,首先分别对DNS查询记录类Ta和Tb中的所有域名按照点号“.”进行分割,二级域名不分割,形成关键词集合,记为K_Ta和K_Tb。接着,采用如下的公式计算得到当前DNS查询记录类Ta和Tb之间的域名相似度:
其中,Sab表示DNS查询记录类Ta与Tb之间的域名相似度,K_Ta表示DNS查询记录类Ta的关键词集合,K_Tb表示DNS查询记录类Tb的关键词集合。
步骤S305:判断计算得到的域名相似度Sab是否大于预设的相似度阈值S;当判断结果为是时,可以执行步骤S306;反之,则可以执行步骤S307。
在具体实施中,所述相似度阈值可以根据实际的需要进行设置,如0.3等,在此不做限制。
步骤S306:将当前DNS查询记录类Ta和Tb进行合并,得到合并后的DNS查询记录类Ta。
具体实施中,当确定域名相似度大于预设的相似度阈值时,将当前DNS查询记录类Ta和Tb进行合并,也即将DNS查询记录类Tb中的内容复制至DNS查询记录类Ta,同时删除DNS查询记录类Tb,得到合并后的DNS查询记录类Ta。
步骤S307:保持当前DNS查询记录类Ta和Tb不变。
具体实施中,当确定域名相似度小于或等于所述相似度阈值时,DNS查询记录类Ta和Tb无须进行合并,保持DNS查询记录类Ta和Tb不变即可。
步骤S308:判断b是否小于或等于m;当判断结果为是时,可以执行步骤S309;反之,则可以执行步骤S210。
步骤S309:设置变量b=b+1,并从步骤S303开始执行。
步骤S310:设置变量a=a+1,直至DNS查询记录类Ta存在。
在具体实施中,采用前述的步骤完成DNS查询记录类之间的合并和删除操作之后,当设置a=a+1时,对应的DNS查询记录类Ta可能存在,也可能不存在,此时,可以首先判断DNS查询记录类Ta是否存在。当Ta存在时,可以执行步骤S311,反之,则继续执行变量a自加1的操作,直至DNS查询记录类Ta存在。
步骤S311:当DNS查询记录类Ta存在时,判断a是否等于m;当判断结果为是时,结束操作;反之,则可以执行步骤S312。
在具体实施中,当a等于m,已经遍历到所述多个DNS查询记录类T1~Tm中的最后一个DNS查询记录类Tm,已无其他的DNS查询记录类可以与DNS查询记录类Tm进行域名相似度进行比较,也即完成了多个DNS查询记录类T1~Tm的聚类,故可以结束操作。
步骤S312:设置b=a+1,并从步骤S303开始执行。
在具体实施中,当DNS查询记录类Ta存在,且a小于m时,可以继续执行DNS查询记录类与其后排列的DNS查询记录类之间的域名相似度的计算操作,以确定是否进行合并,也即重新从步骤S303开始执行。
在具体实施中,当得到DNS查询流量对应的DNS查询流量类时,将所述DNS应答记录集合中的每条DNS应答记录分别归入对应的DNS查询记录所在的DNS查询记录类,便可以得到最终的多个DNS网络流量类。
图4示出了本发明实施例中的一种采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类的方法的流程图。参见图4,本发明实施例中的一种采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类的方法,具体可以包括如下的步骤:
步骤S401:分别提取所述其他网络流量记录集合中每条其他网络流量记录对应的网络流特征。
在具体实施中,对于六元组流浪标识中具有空域名信息的其他网络流量记录,分别提取对应的网络流量特征。在本发明一实施例中,具有空域名信息的其他网络流量记录的网络流特征,包括以下十一项:
F1:流中第一个报文的捕获时间;
F2:流中报文的总数量;
F3:流中报文长度的总和;
F4:流中最大报文长度;
F5:流中最小报文长度;
F6:流中平均报文长度值;
F7:流中报文长度值的方差;
F8:流中最大报文时间间隔;
F9:流中最小报文时间间隔;
F10:流中平均报文时间间隔;
F11:流中报文时间间隔的方差。
本领域的技术人员可以理解的是,具有空域名信息的其他网络流量记录可以包括比上述的十一项信息更多或者更少的网络流量特征,本领域的技术人员可以根据实际的需要进行设置,在此不做限制。
步骤S402:将六元组流量标识中具有域名信息的其他网络流量记录中,与所得到的所述多个DNS网络流量类具有相同域名信息的归入一类,形成一个其他网络流量类,从而得到一个以上的其他网络流量类。
在进行对其他网络流量记录进行聚类之前,可以首先按照六元组流量标识是否具有域名信息,将其他网络流量记录集合分为两类,即六元组流量标识具有域名信息的其他网络流量记录<源地址,目的地址,源端口,目的端口,上层协议,域名,报文1的捕获时间,报文1的长度值,报文2的捕获时间,报文2的长度值,...>作为一个子集合,将六元组流量标识具有空域名信息的其他网络流量记录<源地址,目的地址,源端口,目的端口,上层协议,null,报文1的捕获时间,报文1的长度值,报文2的捕获时间,报文2的长度值,...>归为另一子集合。
在进行其他网络流量记录集合进行聚类时,可以对于六元组流量标识中具有域名信息的其他网络流量记录子集合中的每条其他网络流量记录,按照前述的DNS流量的聚类结果进行重新划分。具体而言,将每条具有域名信息的其他网络流量记录中的域名信息,分别与得到的多个DNS网络流量类中的域名信息进行比较,从而将与DNS网络流量类中DNS流量记录具有相同域名信息的其他网络流量记录划归为同一个其他网络流量类,从而得到对应的一个以上的其他网络流量类。
步骤S303:分别提取所述一个以上的其他网络流量类的网络流特征。
在具体实施中,所述一个以上的其他网络流量类的网络流特征,为每个其他网络流量类中的其他网络流量记录的各项特征的均值,故可以采用步骤S301中提取的其他网络流量类中每条其他网络流量类的网络流量特征,并采用采用如下的公式计算得到所述一个以上的其他网络流量类中的每个对应的网络流特征:
其中,表示所述一个以上的其他网络流量类中第p个其他网络流量类Cp的第q个网络流量特征,s表示其他网络流量类Cp中其他网络流量记录的个数,fr表示其他网络流量类Cp中的第r个其他网络流量记录。
步骤S304:基于所提取的网络流特征,分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离。
在本发明一实施例中,采用如下的公式分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离:
其中,dp表示六元组流量标识中具有空域名信息的其他网络流量记录所述一个以上的其他网络流量类中第p个其他网络流量类Cp之间的欧式距离,fnull表示六元组流量标识中具有空域名信息的其他网络流量记录。
当然,也可以采用现有技术中的其他的距离计算方法分别得到计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离。
步骤S305:将六元组流量标识中具有空域名信息的其他网络流量记录并入计算得到的距离中最小距离对应的其他网络流量类中,得到最终的其他网络流量类。
在具体实施中,当计算得到每个具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类中的每个其他网络流量类之间的距离时,将其中的最小距离对应的其他网络流量类,作为对应的具有空域名信息的其他网络流量记录所属的类,从而得到最终的其他网络流量类。
下面将结合具体的实例对本发明实施例中的移动应用网络流量聚类方法进行说明。
参见图5,某企业员工在自己的移动智能终端上运行移动办公应用AppN,AppN连接公司服务器company.com;与此同时,该设备上感染了恶意病毒AppM,AppM正同黑客控制的服务器malware.com建立网络连接,将移动终端上的敏感信息上传至远程服务器。AppM为后台程序,用户无法从移动终端界面上观察到AppM的运行。
在采用本发明实施例中方法进行移动应用进行聚类时,在如图5所示的系统部署图中,通过路由器镜像功能,捕获移动终端所产生的网络流量。
接着,针对捕获的网络流量,进行流量预处理。其中,对所捕获4条DNS请求、4条DNS应答和其它6条TCP流量分别进行预处理后得到的DNS流量记录集合和其他网络流量记录集合如下所示:
然后,进行DNS流量聚类。设定阈值t为1秒,根据捕获时间的差值,聚类结果为:T1={2018.1.28日9时25分30秒work.company.com}、T2={2018.1.28日9时25分32秒control.malware.com}、T3={2018.1.28日9时25分35秒person.company.com}、T4={2018.1.28日9时25分45秒data.malware.com}。
对T1、T2、T3和T4中域名按照点号“.”进行分割,且二级域名不分割,形成关键词集合,即K_T1={work,company.com}、K_T2={control,malware.com}、K_T3={person,company.com}、K_T4={data,malware.com}。
之后,设定阈值δ为0.3。
计算T1与T2间的域名相似度,计算结果为|{work,company.com}∩{control,malware.com}|/|{control,malware.com}|=0/2=0,小于阈值δ,T1与T2不合并;
计算T1与T3间的域名相似度,计算结果为1/2=0.5,大于阈值δ,将T3合并入T1,并将T3删除,得到合并后的类T1,对应的关键词集合变为K_T1={work,person,company.com}。
计算T1与T4间的域名相似度,计算结果为0,小于阈值δ,合并后的T1与T4不合并。
由于已T3删除,计算T2与T4间的域名相似度,计算结果为1/2=0.5,大于阈值δ,合并T2与T4,并T4删除,得到合并后的类T2,且合并后的T2的关键词集合为K_T2={control,data,malware.com}。
计算结束,此时只剩下T1与T2类。T1={2018.1.28日9时25分30秒work.company.com;2018.1.28日9时25分35秒person.company.com}、T2={2018.1.28日9时25分32秒control.malware.com;2018.1.28日9时25分45秒data.malware.com}。
根据域名,直接将每条DNS应答流量并入T1或T2类中。
接着,进行其它网络流量的聚类。根据DNS流量聚类结果可知:
f1={192.168.1.100,3124,work.company.com,80,tcp,2018.1.28日9时25分31秒,100,2018.1.28日9时25分32秒,200,...}和f5={192.168.1.100,3128,person.company.com,80,tcp,2018.1.28日9时25分37秒,150,2018.1.28日9时25分39秒,200,…}应归为一类,记为C1;
f2={192.168.1.100,3125,control.malware.com,8080,tcp,2018.1.28日9时25分32秒,500,2018.1.28日9时25分33秒,1500,...}和f4={192.168.1.100,3127,data.malware.com,80,tcp,2018.1.28日9时25分35秒,500,2018.1.28日9时25分36秒,1500,…}应归为一类,记为C2。
计算C1和C2的各网络流特征的平均值,计算结果和f3以及f6的网流量流特征值如下所示:
分别计算f3以及f6至C1、C2的之间的距离。其中,f3至C1和C2的距离值分别为173和1277,f6至C1和C2的距离值分别为824和419,因而将f3聚至C1类中,将f6聚至C2类中。
租后,将DNS流量和其它网络流量的聚类结果进行合并,最终形成两个类别,即:
类1={2018.1.28日9时25分30秒work.company.com;2018.1.28日9时25分35秒person.company.com;work.company.com 10.3.125.6;person.company.com10.3.125.87;192.168.1.100,3124,work.company.com,80,tcp,2018.1.28日9时25分31秒,100,2018.1.28日9时25分32秒,200,...;192.168.1.100,3128,person.company.com,80,tcp,2018.1.28日9时25分37秒,150,2018.1.28日9时25分39秒,200,…;192.168.1.100,3126,10.3.245.8,443,tcp,2018.1.28日9时25分33秒,200,2018.1.28日9时25分34秒,500,...}。
类2={2018.1.28日9时25分32秒control.malware.com;2018.1.28日9时25分45秒data.malware.com;control.malware.com 183.45.6.8;data.malware.com183.45.6.9;192.168.1.100,3125,contro1.malware.com,8080,tcp,2018.1.28日9时25分32秒,500,2018.1.28日9时25分33秒,1500,...;192.168.1.100,3127,data.malware.com,80,tcp,2018.1.28日9时25分35秒,500,2018.1.28日9时25分36秒,1500,…;192.168.1.100,3129,143.5.8.10,443,tcp,2018.1.28日9时25分55秒,400,2018.1.28日9时25分56秒,1500,...}。
根据上述的聚类结果,除移动办公应用AppN以外,还有其它应用程序在后台运行,其域名为data.malware.com、control.malware.com,还有IP地址为143.5.8.10的直接TCP连接,因而存在异常情况。其中,类2所包含的信息可以为进一步恶意移动应用检测提供基础。
上述对本发明实施例中的方法进行了详细的描述,下面将对上述的方法对应的装置进行介绍。
图6示出了本发明实施例中的一种移动应用网络流量聚类装置的结构。参见图6,所述装置60可以包括获取单元601、预处理单元602、第一聚类单元603、第二聚类单元604和合并单元605,其中:
所述获取单元601,适于获取移动终端所产生的网络流量。
所述预处理单元602,适于对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合。
所述第一聚类单元603,适于对所述DNS流量记录集合进行聚类,得到所述DNS流量对应的多个DNS网络流量类。
所述第二聚类单元604,适于采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,得到所述其他网络流量对应的多个其他网络流量类。
所述合并单元605,适于将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果。
在具体实施中,所述DNS网络流量包括DNS应答流量和DNS查询流量;所述预处理单元602,适于对所获取的网络流量中的DNS流量进行逐条遍历;当确定遍历至的当前条DNS流量为DNS应答流量时,提取当前DNS流量中的IP地址和域名,组成对应的一条查询记录;当确定遍历至的当前条DNS流量为DNS查询流量时,提取当前DNS流量中的域名和捕获时间,组成对应的一条应答记录;获取所述网络流量中的DNS流量中的下一条DNS流量,直至所述网络流量中的DNS流量全部遍历完成,生成所述DNS流量记录集合。
在具体实施中,所述预处理单元602,还适于对所述其他网络流量进行逐条遍历,为所述其他网络流量中的每条设置对应的包括源地址、目的地址、源端口、目的端口、域名/空域名、上层协议的六元组流量标识;其中,当所述六元组流量标识中的目的地址具有对应的域名时,对应的域名/空域名字段为对应的域名信息;反之,则将对应的域名/空域名字段为空域名;分别将具有相同六元组流量标识的其他网络流量的报文捕获时间和报文长度依序添加在对应的六元组流量标识之后,得到所述其他网络流量记录集合。
在本发明一实施例中,所述第一聚类单元603,适于创建变量j,并设置j的初始值为1,将DNS查询记录集合中第一条作为第一个DNS查询记录类T1中的第一个元素;按照顺序对所述DNS查询记录集合进行遍历,获取遍历到的当前条DNS查询记录Di;计算遍历到的当前条DNS查询记录Di与前一条DNS查询记录Di-1之间的报文捕获时间差值;当确定所述报文捕获时间差值小于预设的时间阈值时,将遍历到的当前条DNS查询记录Di并入前一条DNS查询记录Di-1所在的DNS查询记录类;当确定所述报文捕获时间差值大于或等于所述时间阈值时,创建一个新DNS查询记录类,并将所述遍历到的当前条DNS查询记录Di作为所述新DNS查询记录类中的第一个元素;获取所述DNS查询记录集合中的下一条DNS查询记录Di+1,直至所述DNS查询记录集合中的DNS查询记录全部遍历完成,得到多个DNS查询记录类T1~Tm;创建变量a和b,且a=1~m,b=1~m,并将变量a和b的初始值分别设置为1和2;对所述多个DNS查询记录类T1~Tm进行遍历,获取遍历到的当前DNS查询记录类Ta和Tb;当确定DNS查询记录类Tb存在时,计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度;当确定域名相似度大于预设的相似度阈值时,将当前DNS查询记录类Ta和Tb进行合并,得到合并后的DNS查询记录类Ta;当确定域名相似度小于或等于所述相似度阈值时,保持当前DNS查询记录类Ta和Tb不变;否则,则设置变量b=b+1,并重复上述的判断和计算步骤直至b=m;设置变量a=a+1,直至DNS查询记录类Ta存在时,设置b=a+1,并重复上述的判断和计算步骤直至b=m;重复上述的步骤,直至a=m,得到最终的多个DNS查询记录类;将所述DNS应答记录集合中的每条DNS应答记录分别归入对应的DNS查询记录所在的DNS查询记录类,得到所述多个DNS网络流量类。
在本发明一实施例中,所述第一聚类单元603,适于采用如下的公式计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度:
其中,Sab表示DNS查询记录类Ta与Tb之间的域名相似度,K_Ta表示DNS查询记录类Ta的关键词集合,K_Tb表示DNS查询记录类Tb的关键词集合;所述DNS查询记录类Ta和DNS查询记录类Tb的关键词集合分别为将DNS查询记录类Ta和DNS查询记录类Tb的域名用点号进行分割且二级域名不分割形成。
在本发明一实施例中,所述第二聚类单元604,适于分别提取所述其他网络流量记录集合中每条其他网络流量记录对应的网络流特征;将六元组流量标识中具有域名信息的其他网络流量记录中,与所得到的所述多个DNS网络流量类具有相同域名信息的归入同一其他网络流量类,形成一个以上的其他网络流量类;分别提取所述一个以上的其他网络流量类的网络流特征;基于所提取的网络流特征,分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离;将六元组流量标识中具有空域名信息的其他网络流量记录并入计算得到的距离中最小距离对应的其他网络流量类中,得到最终的多个其他网络流量类。
在本发明一实施例中,所述提取六元组流量标识中具有空域名信息的其他网络流量记录的网络流特征,包括:F1:流中第一个报文的捕获时间;F2:流中报文的总数量;F3:流中报文长度的总和;F4:流中最大报文长度;F5:流中最小报文长度;F6:流中平均报文长度值;F7:流中报文长度值的方差;F8:流中最大报文时间间隔;F9:流中最小报文时间间隔;F10:流中平均报文时间间隔;F11:流中报文时间间隔的方差。
在本发明一实施例中,所述第二聚类单元604,适于采用如下的公式分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离:
且,
其中,dp表示六元组流量标识中具有空域名信息的其他网络流量记录所述一个以上的其他网络流量类中第p个其他网络流量类CC之间的欧式距离,fnull表示六元组流量标识中具有空域名信息的其他网络流量记录,Fq表示的第q个网络流量特征,s表示其他网络流量类Cp中其他网络流量记录的个数,fr表示其他网络流量类Cp中的第r个其他网络流量记录。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的移动应用网络流量聚类方法的步骤。其中,所述移动应用网络流量聚类方法的步骤请参见本文前述相关部分的介绍,不再赘述。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的移动应用网络流量聚类方法的步骤。其中,所述移动应用网络流量聚类方法的步骤请参见本文前述相关部分的介绍,不再赘述。
本发明实施例中的上述方案,通过对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合,并对所述DNS流量记录集合进行聚类,且采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,最后将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果,无需安装移动终端上安装代理程序,便可以确定网络流量与移动应用间的对应关系,故可以降低移动应用网络流量进行聚类的操作复杂度,提升用户的使用体验。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (8)

1.一种移动应用网络流量聚类装置,其特征在于,包括:
获取单元,适于获取移动终端所产生的网络流量;
预处理单元,适于对所获取的网络流量进行预处理,生成DNS流量对应的DNS流量记录集合和除所述DNS流量之外的其他网络流量对应的其他网络流量记录集合;
第一聚类单元,适于对所述DNS流量记录集合进行聚类,得到所述DNS流量对应的多个DNS网络流量类;
第二聚类单元,适于采用所得到的多个DNS网络流量类对所述其他网络流量记录集合进行聚类,得到所述其他网络流量对应的多个其他网络流量类;
合并单元,适于将所述DNS流量对应的多个DNS网络流量类与所述其他网络流量对应的多个其他网络流量类进行合并,得到最终的移动应用网络流量聚类结果。
2.根据权利要求1所述的移动应用网络流量聚类装置,其特征在于,所述DNS网络流量包括DNS应答流量和DNS查询流量;
所述预处理单元,适于对所获取的网络流量中的DNS流量进行逐条遍历;当确定遍历至的当前条DNS流量为DNS应答流量时,提取当前DNS流量中的IP地址和域名,组成对应的一条查询记录;当确定遍历至的当前条DNS流量为DNS查询流量时,提取当前DNS流量中的域名和捕获时间,组成对应的一条应答记录;获取所述网络流量中的DNS流量中的下一条DNS流量,直至所述网络流量中的DNS流量全部遍历完成,生成所述DNS流量记录集合。
3.根据权利要求2所述的移动应用网络流量聚类装置,其特征在于,所述预处理单元,还适于对所述其他网络流量进行逐条遍历,为所述其他网络流量中的每条设置对应的包括源地址、目的地址、源端口、目的端口、域名/空域名、上层协议的六元组流量标识;其中,当所述六元组流量标识中的目的地址具有对应的域名时,对应的域名/空域名字段为对应的域名信息;反之,则将对应的域名/空域名字段为空域名;分别将具有相同六元组流量标识的其他网络流量的报文捕获时间和报文长度依序添加在对应的六元组流量标识之后,得到所述其他网络流量记录集合。
4.根据权利要求3所述的移动应用网络流量聚类装置,其特征在于,所述第一聚类单元,适于创建变量j,并设置j的初始值为1,将DNS查询记录集合中第一条作为第一个DNS查询记录类T1中的第一个元素;按照顺序对所述DNS查询记录集合进行遍历,获取遍历到的当前条DNS查询记录Di;计算遍历到的当前条DNS查询记录Di与前一条DNS查询记录Di-1之间的报文捕获时间差值;当确定所述报文捕获时间差值小于预设的时间阈值时,将遍历到的当前条DNS查询记录Di并入前一条DNS查询记录Di-1所在的DNS查询记录类;当确定所述报文捕获时间差值大于或等于所述时间阈值时,创建一个新DNS查询记录类,并将所述遍历到的当前条DNS查询记录Di作为所述新DNS查询记录类中的第一个元素;获取所述DNS查询记录集合中的下一条DNS查询记录Di+1,直至所述DNS查询记录集合中的DNS查询记录全部遍历完成,得到多个DNS查询记录类T1~Tm;创建变量a和b,且a=1~m,b=1~m,并将变量a和b的初始值分别设置为1和2;对所述多个DNS查询记录类T1~Tm进行遍历,获取遍历到的当前DNS查询记录类Ta和Tb;当确定DNS查询记录类Tb存在时,计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度;当确定域名相似度大于预设的相似度阈值时,将当前DNS查询记录类Ta和Tb进行合并,得到合并后的DNS查询记录类Ta;当确定域名相似度小于或等于所述相似度阈值时,保持当前DNS查询记录类Ta和Tb不变;否则,则设置变量b=b+1,并重复上述的判断和计算步骤直至b=m;设置变量a=a+1,直至DNS查询记录类Ta存在时,设置b=a+1,并重复上述的判断和计算步骤直至b=m;重复上述的步骤,直至a=m,得到最终的多个DNS查询记录类;将所述DNS应答记录集合中的每条DNS应答记录分别归入对应的DNS查询记录所在的DNS查询记录类,得到所述多个DNS网络流量类。
5.根据权利要求4所述的移动应用网络流量聚类装置,其特征在于,所述第一聚类单元,适于采用如下的公式计算遍历到的当前DNS查询记录类Ta和Tb之间的域名相似度:
其中,Sab表示DNS查询记录类Ta与Tb之间的域名相似度,K_Ta表示DNS查询记录类Ta的关键词集合,K_Tb表示DNS查询记录类Tb的关键词集合;所述DNS查询记录类Ta和DNS查询记录类Tb的关键词集合分别为将DNS查询记录类Ta和DNS查询记录类Tb的域名用点号进行分割且二级域名不分割形成。
6.根据权利要求5所述的移动应用网络流量聚类装置,其特征在于,所述第二聚类单元,适于分别提取所述其他网络流量记录集合中每条其他网络流量记录对应的网络流特征;将六元组流量标识中具有域名信息的其他网络流量记录中,与所得到的所述多个DNS网络流量类具有相同域名信息的归入同一其他网络流量类,形成一个以上的其他网络流量类;分别提取所述一个以上的其他网络流量类的网络流特征;基于所提取的网络流特征,分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离;将六元组流量标识中具有空域名信息的其他网络流量记录并入计算得到的距离中最小距离对应的其他网络流量类中,得到最终的多个其他网络流量类。
7.根据权利要求5所述的移动应用网络流量聚类装置,其特征在于,所述提取六元组流量标识中具有空域名信息的其他网络流量记录的网络流特征,包括:
F1:流中第一个报文的捕获时间;
F2:流中报文的总数量;
F3:流中报文长度的总和;
F4:流中最大报文长度;
F5:流中最小报文长度;
F6:流中平均报文长度值;
F7:流中报文长度值的方差;
F8:流中最大报文时间间隔;
F9:流中最小报文时间间隔;
F10:流中平均报文时间间隔;
F11:流中报文时间间隔的方差。
8.根据权利要求7所述的移动应用网络流量聚类装置,其特征在于,所述第二聚类单元,适于采用如下的公式分别计算六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类之间的距离:
且,
其中,dp表示六元组流量标识中具有空域名信息的其他网络流量记录与所述一个以上的其他网络流量类中第p个其他网络流量类Cp之间的欧式距离,fnull表示六元组流量标识中具有空域名信息的其他网络流量记录,Fq表示的第q个网络流量特征,s表示其他网络流量类Cp中其他网络流量记录的个数,fr表示其他网络流量类Cp中的第r个其他网络流量记录。
CN201810309715.3A 2018-04-08 2018-04-08 移动应用网络流量聚类装置 Active CN108667685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810309715.3A CN108667685B (zh) 2018-04-08 2018-04-08 移动应用网络流量聚类装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810309715.3A CN108667685B (zh) 2018-04-08 2018-04-08 移动应用网络流量聚类装置

Publications (2)

Publication Number Publication Date
CN108667685A true CN108667685A (zh) 2018-10-16
CN108667685B CN108667685B (zh) 2020-10-02

Family

ID=63783456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810309715.3A Active CN108667685B (zh) 2018-04-08 2018-04-08 移动应用网络流量聚类装置

Country Status (1)

Country Link
CN (1) CN108667685B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617762A (zh) * 2018-12-14 2019-04-12 南京财经大学 一种利用网络流量识别移动应用的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143085A (zh) * 2011-04-27 2011-08-03 北京网御星云信息技术有限公司 一种多维度网络态势感知的方法、设备及系统
CN103051725A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 应用识别方法、数据挖掘方法、装置及系统
US20140188837A1 (en) * 2012-12-31 2014-07-03 Huawei Technologies Co., Ltd. Application Identification Method, and Data Mining Method, Apparatus, and System
CN107239697A (zh) * 2017-06-27 2017-10-10 四维创智(北京)科技发展有限公司 一种基于移动流量的服务器端扫描方法
US20180027416A1 (en) * 2016-07-22 2018-01-25 At&T Intellectual Property I, L.P. Providing security through characterizing mobile traffic by domain names
CN107819698A (zh) * 2017-11-10 2018-03-20 北京邮电大学 一种基于半监督学习的网络流量分类方法、计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143085A (zh) * 2011-04-27 2011-08-03 北京网御星云信息技术有限公司 一种多维度网络态势感知的方法、设备及系统
CN103051725A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 应用识别方法、数据挖掘方法、装置及系统
US20140188837A1 (en) * 2012-12-31 2014-07-03 Huawei Technologies Co., Ltd. Application Identification Method, and Data Mining Method, Apparatus, and System
US20180027416A1 (en) * 2016-07-22 2018-01-25 At&T Intellectual Property I, L.P. Providing security through characterizing mobile traffic by domain names
CN107239697A (zh) * 2017-06-27 2017-10-10 四维创智(北京)科技发展有限公司 一种基于移动流量的服务器端扫描方法
CN107819698A (zh) * 2017-11-10 2018-03-20 北京邮电大学 一种基于半监督学习的网络流量分类方法、计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GAOFENG HE等: "《Identifying Mobile Applications for Encrypted Network Traffic》", 《2017 FIFTH INTERNATIONAL CONFERENCE ON ADVANCED CLOUD AND BIG DATA》 *
潘吴斌等: "《潘吴斌等》", 《通信学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617762A (zh) * 2018-12-14 2019-04-12 南京财经大学 一种利用网络流量识别移动应用的方法

Also Published As

Publication number Publication date
CN108667685B (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN105100032B (zh) 一种防止资源盗取的方法及装置
Blondel et al. A survey of results on mobile phone datasets analysis
CN104717124B (zh) 一种好友推荐方法、装置及服务器
CA2683600C (en) A system and method for creating a list of shared information on a peer-to-peer network
WO2017067505A1 (zh) 网络扩容方法及装置
CN110213212A (zh) 一种设备的分类方法和装置
CN110519298A (zh) 一种基于机器学习的Tor流量识别方法及装置
CN113347156B (zh) 一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质
CN105824813B (zh) 一种挖掘核心用户的方法及装置
CN111277598B (zh) 一种基于流量的应用攻击识别方法及系统
Fraunholz et al. YAAS-On the Attribution of Honeypot Data.
US11240136B2 (en) Determining attributes using captured network probe data in a wireless communications system
CN109150859A (zh) 一种基于网络流量流向相似性的僵尸网络检测方法
CN110765134A (zh) 档案建立方法、设备及存储介质
CN106570014A (zh) 用于确定用户的家庭属性信息的方法与设备
CN108985954A (zh) 一种建立各标识的关联关系的方法以及相关设备
WO2014161281A1 (zh) 联机处理数据的方法、设备及系统
Wang et al. Botnet detection using social graph analysis
CN108540471A (zh) 移动应用网络流量聚类方法、计算机可读存储介质和终端
Wang et al. Benchmark data for mobile app traffic research
CN106878240A (zh) 僵尸主机识别方法及装置
CN108667685A (zh) 移动应用网络流量聚类装置
EP3789890A1 (en) Fully qualified domain name (fqdn) determination
WO2020228527A1 (zh) 数据流的分类方法和报文转发设备
CN108418871A (zh) 一种云存储性能优化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant