CN110290188B - 一种适用于大规模网络环境的https流服务在线标识方法 - Google Patents

一种适用于大规模网络环境的https流服务在线标识方法 Download PDF

Info

Publication number
CN110290188B
CN110290188B CN201910509856.4A CN201910509856A CN110290188B CN 110290188 B CN110290188 B CN 110290188B CN 201910509856 A CN201910509856 A CN 201910509856A CN 110290188 B CN110290188 B CN 110290188B
Authority
CN
China
Prior art keywords
address
https
domain name
dns
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910509856.4A
Other languages
English (en)
Other versions
CN110290188A (zh
Inventor
曾雪梅
陈兴蜀
何涛
王丽娜
岳亚伟
文奕
韩珍辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910509856.4A priority Critical patent/CN110290188B/zh
Publication of CN110290188A publication Critical patent/CN110290188A/zh
Application granted granted Critical
Publication of CN110290188B publication Critical patent/CN110290188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种适用于大规模网络环境的HTTPS流服务在线标识方法,包括:1)根据实际网络中HTTPS和DNS流量的属性,计算用于读取HTTPS流和DNS流的滑动时间窗口参数,然后采用滑动窗口机制实时地从网络流量中读取HTTPS流数据和DNS流数据;在每个滑动时间窗口下:2)分别把DNS数据和HTTPS数据处理为键值对格式的数据集合;3)通过两级关联方法建立HTTPS与DNS的关联;4)采用基于客户机DNS请求行为的候选服务标识确定方法,从关联的多个域名中选择一个或多个作为HTTPS流的服务标识。本发明应用于大规模网络环境下实时自动HTTPS流服务精细化识别,无需事先确定用于标识HTTPS流的分类标识符,无需事先建立网页指纹库,不易被攻击者欺骗,资源耗费小。

Description

一种适用于大规模网络环境的HTTPS流服务在线标识方法
技术领域
本发明属于网络安全与信息技术领域,具体涉及一种适用于大规模网络环境的HTTPS流服务在线标识方法。
背景技术
近年来以HTTPS为代表的加密流量持续处于显著增长状态,目前全球已有超过半数的Web流量采用了HTTPS进行传输。在线识别HTTPS流上承载的服务对网络安全管理具有重要的意义。目前,针对HTTPS流服务的识别方法主要有基于指纹攻击的服务识别、基于服务器名称标识(Server Name Indication,SNI)的方法和基于DNS与流关联的方法三类。
基于指纹攻击的服务识别方法通过观察数据流的模式来构建网页指纹,以推断加密或匿名连接的加密网页。这种方法前提假设较为严苛,需要预先建立指纹库,不能识别未建立指纹的目标,缺乏灵活性和可扩展性。
基于SNI的方法基于TLS协议,提取Client Hello数据包中SNI扩展域中包含连接服务器的域名信息,对SSL/TLS应用识别和HTTPS网站进行识别。其主要思想是建立目标SNI列表,对未知流量提取出其SNI信息,与列表进行比对,从而完成识别。由于SNI不是协议强制要求,SNI的值可能缺失或者被修改,使得基于SNI流服务识别方法失效。在实际的网络中,SNI仅能作为HTTPS网页辅助识别手段。且由于基于SNI的方法需要在数据包级提取应用层的信息,在大规模网络环境下处理和提取包级数据的代价较高,不适用于大规模网络环境下的HTTPS流服务识别。
基于DNS与流关联的方法从DNS流量中提取域名信息和服务器的关联关系,保存在数据库或设计的数据结构中,当每条流到达时,通过检索数据库,将域名分配给流,从而实现加密网络流量分类与识别。但现有方法需持续地保存新的DNS数据,且需要在线维护庞大的DNS数据,不适用于大规模网络环境。尽管在有些方法中设计了数据过期移除和数据结构最大容量限制机制,但以客户机IP地址与服务器IP地址为检索关键字的方法,始终面临着因DNS缓存机制带来的DNS请求缺失而无法有效标识HTTPS流的问题,最终导致流识别率偏低。
相关解释:
Spark:是一个针对大规模数据集合的低延迟集群分布计算引擎。
Spark Streaming:是Spark提供的一个核心API扩展,用于实现高吞吐量、具有容错机制的实时流数据的处理。
Cogroup:Spark提供的一种对弹性分布式数据集(RDD)的专有操作,这些操作被简称为算子。Cogroup的作用是将两个RDD中拥有相同键的数据分组合并在一起。
HTTPS:超文本传输安全协议(Hypertext Transfer Protocol Secure)是HTTP协议的安全扩展,用于两个主机之间的安全通信。
DNS:域名系统(Domain Name System)是互联网的一项基础服务,提供域名和IP地址之间的映射,使人们更方便的使用互联网。
发明内容
本发明所要解决的技术问题是提供一种适用于大规模网络环境的HTTPS流服务在线标识方法,通过大数据的流式处理和大数据关联方法在线关联HTTPS和DNS,基于客户机的DNS行为确定HTTPS流上承载的服务。
为解决上述技术问题,本发明采用的技术方案是:
一种适用于大规模网络环境的HTTPS流服务在线标识方法,包括以下步骤:
步骤1:根据实际网络中HTTPS和DNS流量的属性,计算用于读取HTTPS流和DNS流的滑动时间窗口参数;
步骤2:采用滑动时间窗口机制实时地从HTTPS流和DNS流中读取HTTPS流数据和DNS流数据;
步骤3:在每个滑动时间窗口下,对当前时间窗口内读取到的所有DNS记录进行解析和处理,转换为分别以<客户机IP地址,服务器IP地址>和<客户机IP地址>为关键字,以一个或多个域名及域名的评分组成的列表为值的键值对格式的两种关系映射数据集合GLevel1和GLevel2,且数据集合中每条记录中的域名按评分大小排序;GLevel1中的每个映射关系具体表示如下:
Figure GDA0002430891260000031
其中ci表示客户机IP地址,sj表示解析获得的服务器IP地址,
Figure GDA0002430891260000032
表示ci请求的第m个解析地址为sj的域名,
Figure GDA0002430891260000033
为第m个域名的评分,m的取值为
Figure GDA0002430891260000034
Figure GDA0002430891260000035
表示时间窗口内ci请求的解析地址为sj的不同域名的数量,
Figure GDA0002430891260000036
的下标表示映射关系的关键字为<ci,sj>;
GLevel2中的每个映射关系具体表示如下:
Figure GDA0002430891260000037
其中,
Figure GDA0002430891260000038
表示第k个解析地址为sj的域名,
Figure GDA0002430891260000039
为第k个域名的评分,k的取值为
Figure GDA00024308912600000310
Figure GDA00024308912600000311
表示时间窗口内所以客户机请求的解析地址为sj的不同域名的数量,
Figure GDA00024308912600000312
的下标表示映射关系的关键字为<sj>;
步骤4:对当前时间窗口内读取到的所有HTTPS流进行预处理,转换为以<源IP地址,目的IP地址>为关键字,以HTTPS流的流持续时间、流开始时间、源端口、目的端口、协议、字节数、数据包数属性值构成的列表为值的格式的数据集合;
步骤5:进行第一级关联:将处理后的HTTPS流数据集合以关键字<源IP地址,目的IP地址>和DNS数据集合GLevel1进行左连接关联,其中HTTPS流的源IP地址与GLevel1的客户机IP地址对应,HTTPS流的目的IP地址与GLevel1的服务器IP地址对应,并合并具有相同关键字的记录;
步骤6:第一级关联结果中未关联到任何DNS记录的HTTPS流,再处理为以<目的IP地址>为关键字,源IP地址、流持续时间、流开始时间、源端口、目的端口、协议、字节数、数据包数属性值列表为值的键值对格式的数据集合;
步骤7:进行第二级关联:将第一级关联处理后的HTTPS流数据集合以关键字<目的IP地址>和DNS数据集合GLevel2进行左连接关联,其中HTTPS流的目的IP地址与GLevel2的服务器IP地址对应,并合并具有相同关键字的记录;
步骤8:对步骤5和步骤7输出的与DNS建立关联的HTTPS流,根据关联结果中域名的评分,确定其中的一个或多个域名作为HTTPS流的服务标识;对HTTPS流的服务标识具体为:
对第一级关联后的结果中,HTTPS流的首选分类标签为满足映射关系rc,s,且令Fc,s(n)取值最大的候选域名
Figure GDA0002430891260000041
即:
Figure GDA0002430891260000042
其中,Fc,s(n)表示域名n被客户机c请求并获得解析IP地址s的请求频率,下标c,s也表示关联的HTTPS流的客户机IP地址c和目的IP地址s。在第一级关联中,源IP地址为ci,目的IP地址为sj的HTTP流的第一个候选域名
Figure GDA0002430891260000043
Figure GDA0002430891260000044
并且
Figure GDA0002430891260000045
其中
Figure GDA0002430891260000046
表示客户机IP地址为ci和解析地址为sj的首选候选域名
Figure GDA0002430891260000047
第l个候选域名
Figure GDA0002430891260000048
根据
Figure GDA0002430891260000049
计算得到;
对第二级关联后的结果中,HTTPS流的首选分类标签为满足映射关系r's,且令Fs(n)取值最大的候选域名
Figure GDA0002430891260000051
即:
Figure GDA0002430891260000052
其中,Fs(n)表示域名n被所有客户机请求并获得解析IP地址s的请求频率,下标s也表示关联的HTTPS流的目的IP地址s。在第二级关联中,目的IP地址为sj的HTTPS流的首选候选域名
Figure GDA0002430891260000053
Figure GDA0002430891260000054
并且
Figure GDA0002430891260000055
其中
Figure GDA0002430891260000056
表示所有客户机请求的解析地址为sj的首选候选域名
Figure GDA0002430891260000057
第l个候选域名
Figure GDA0002430891260000058
根据
Figure GDA0002430891260000059
计算。
进一步的,在步骤1中,计算滑动时间窗口参数具体为:HTTPS的滑动窗口大小b的大小根据对分类的实时性要求及实际网络环境下数据关联处理的时延确定;DNS的滑动时间窗口大小w的计算公式:w≈TTLmost+Durationmost
其中,TTLmost表示实际网络中绝大部分请求域名的生存时间值,根据实际网络中一段时间内DNS响应数据中获得的域名生命周期(TTL)值计算,求使得条件CDF(ttl≤TTLmost)≥TTL_Thresd成立的TTL值,ttl表示从实际网络中DNS响应数据中获取的任一域名的生存时间;Durationmost表示绝大部分HTTPS流的流持续时间值,根据实际网络中一段时间段内HTTPS流持续时间计算,求使得条件CDF(duration≤Durationmost)≥Duration_Thresd成立的HTTPS流持续时间值,duration表示从实际网络的HTTPS流数据中获得的任一HTTPS流的持续时间;函数CDF()表示累积分布函数,TTL_Thresd表示设定的TTL的累积分布函数取值的阈值,Duration_Thresd表示设定的HTTPS流持续时间的阈值。
进一步的,在所述步骤2中:采用流式数据微批处理模式读取HTTPS流数据和DNS流数据。
进一步的,在步骤3中,对当前时间窗口内读取到的所有DNS记录进行解析和处理具体为:
步骤31:解析DNS数据中的每条DNS响应记录,提取客户机IP地址、请求域名、域名指向的服务器IP地址,形成客户机IP地址-请求域名对与服务器IP地址之间的映射关系;
步骤32:对每个映射关系中请求域名与服务器IP地址之间关系Q的逆向转换,形成客户机IP地址-服务器IP地址对与请求域名之间的映射关系数据集R;转换方法如下式所示;
Figure GDA0002430891260000061
R由Q中所有的元素经过公式转换后形成的形如[(c,s),n]的所有映射关系组成,其中,c表示客户机IP地址,s表示服务器IP地址,n表示域名。
步骤33:构建以<客户机IP地址,服务器IP地址>为关键字的数据集合GLevel1,并计算其中每个域名的评分;构建以<服务器IP地址>为关键字的数据集合GLevel2,并计算其中每个域名的评分。进一步的,步骤33中对每个域名的评分计算方法为:
对于以<客户机IP地址,服务器IP地址>为关键字的数据集合,每个域名的评分ω的计算方法是该域名被当前客户机请求并获得关键字中服务器IP地址的请求频率;令Fc,s(n)表示域名n被客户机c请求并获得解析IP地址s的请求频率,M(A)表示A在集合R中出现的次数,“*”表示被客户机请求并获得解析IP地址s的所有域名,则:
Figure GDA0002430891260000062
以<服务器IP地址>为关键字的数据集合,每个域名的评分ω的计算方法是该域名被所有客户机请求并获得关键字中服务器IP地址的请求频率;令Fs(n)表示域名n被所有客户机请求并获得解析IP地址s的请求频率,则:
Figure GDA0002430891260000071
与现有技术相比,本发明的有益效果是:能够应用于大规模网络环境下实现自动化的HTTPS流服务精细化实时识别,无需事先确定用于标识HTTPS流的分类标识符,无需事先建立网页指纹库,不易被攻击者欺骗,资源耗费小。
附图说明
图1为本发明方法流程示意图;
图2为请求域名的TTL分布(整体视图);
图3为请求域名的TTL分布(局部放大视图);
图4为HTTPS流的持续时间分布(整体视图);
图5为HTTPS流的持续时间分布(局部放大视图)。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细说明。如图1所示,包括以下步骤:
步骤1:根据实际网络中HTTPS和DNS流量的属性,计算用于读取HTTPS流和DNS流的滑动时间窗口参数。
DNS的滑动时间窗口大小w的计算公式为:w≈TTLmost+Durationmost,其中,TTLmost根据实际网络中一段时间内DNS响应数据中获得的域名生命周期(TTL)值计算,求使得条件CDF(ttl≤TTLmost)≥TTL_Thresd成立的TTL值;Durationmost根据实际网络中一段时间段内HTTPS流持续时间计算,求使得条件CDF(duration≤Durationmost)≥Duration_Thresd成立的HTTPS流持续时间值。其中函数CDF()表示累积分布函数,TTL_Thresd表示设定的TTL的累积分布函数取值的阈值,Duration_Thresd表示设定的HTTPS流持续时间的阈值。
以10Gbps校园网为实施例,计算任一小时内TTLmost和Durationmost的值。阈值TTL_Thresd和阈值Duration_Thresd均设置为95%,通过计算得出超过95%的域名的TTL值小于800s(如图2和图3所示),95%的HTTPS流的持续时间小于80s(如图4和图5所示),由此,设置TTLmost=800s,Durationmost=80s,w≈TTLmost+Durationmost=880s=14.67分钟。为便于处理在本实例中设置DNS滑动时间窗口大小为w=15分钟;考虑实时性和数据处理时延,设置HTTPS流的滑动时间窗口设置为1分钟;窗口滑动步长设置为与HTTPS流的滑动时间窗口大小相同,即1分钟。
步骤2:采用滑动窗口机制实时地从HTTPS流和DNS流中读取HTTPS流数据和DNS流数据,具体实施时可采用Spark Streaming读取数据。
然后,在每个滑动时间窗口下处理和关联HTTPS流数据和DNS流数据步骤为:
步骤3:对当前时间窗口内读取到的所有DNS记录进行解析和处理,转换为分别以<客户机IP地址,服务器IP地址>和<客户机IP地址>为关键字,以一个或多个域名及域名的评分组成的列表为值的键值对格式的两种关系映射集合GLevel1和GLevel2,且数据集合中每条记录中的域名按评分大小排序。
DNS记录进行解析和处理过程为:
步骤31:解析DNS数据中的每条DNS响应记录,提取客户机IP地址、请求域名、域名指向的服务器IP地址(一个或多个),形成客户机IP地址-请求域名对与服务器IP地址之间的映射关系,如:
[(*.6.150.*,datasaver.googleapis.com),(172.217.27.138,216.58.200.234,172.217.24.10)]
步骤32:对每个映射关系中请求域名与服务器IP地址之间关系Q的逆向转换,形成客户机IP地址-服务器IP地址对于请求域名之间的映射关系数据集R。转换方法如式:
Figure GDA0002430891260000091
所示。R由Q中所有的元素经过公式转换后形成的形如[(c,s),n]的所有映射关系组成,其中记录的例子如:
[((*.6.150.*,*.31.19.51),www.cqvip.com),((*.6.150.*,*.31.19.50),www.cqvip.com),((*.6.150.*,*.31.19.40),www.cqvip.com)]
步骤33:形成以<客户机IP地址,服务器IP地址>为关键字的数据集合GLevel1,每条记录的格式的例子如下:
[(*.6.150.*,*.31.19.*),((www.cqvip.com,9),(ipub.cqvip.com,2),(ks.cqvip.com,2),(pay.cqvip.com,1))]
形成以<服务器IP地址>为关键字的数据集合GLevel2,每条记录的格式的例子如下:
[(*.60.51.*),((quote.eastmoney.com,8),(cmsjs.eastmoney.com,8),(data.eastmoney.com,7),(emres.dfcfw.com,6),(www.eastmoney.com,4),(stock.eastmoney.com,2),(finance.eastmoney.com,2),(topic.1234567.com.cn,1),(bdstatic.eastmoney.com,1),(cp.eastmoney.com,1))]
步骤33中对每个域名的评分计算方法为:以<客户机IP地址,服务器IP地址>为关键字的数据集合,域名n的评分计算方法为:“域名n客户机c请求并获得解析IP地址s的请求次数”除以“客户机c请求任意域名并获得解析IP地址s的请求次数”。由于对于数据集的每条记录,其“客户机c请求任意域名并获得解析IP地址s的请求次数”相同,因此实际计算域名评分时可忽略,仅用“域名n客户机c请求并获得解析IP地址s的请求次数”表示评分。
步骤4:对当前时间窗口内读取到的所有HTTPS流进行预处理,转换为以<源IP地址,目的IP地址>为关键字,以HTTPS流的流持续时间、流开始时间、源端口、目的端口、协议、字节数、数据包数属性值构成的列表为值的格式数据集合。
HTTPS流为Netflow格式,涉及的字段包括源IP、目的IP、持续时间、流开始时间、源端口、目的端口、协议、字节数、包数等。其中源IP、目的IP、持续时间、流开始时间4个字段为必须项。例如,对于一条HTTPS流:
(*.6.150.*,*.31.19.*,261,1496738791683,50894,80,6,923,4)
处理后的每条HTTPS数据格式的例子如:
[(*.6.150.*,*.31.19.*),(261,1496738791683,50894,80,6,923,4)]
步骤5:进行第一级关联:将处理后的HTTPS以关键字<客户机IP地址,服务器IP地址>,和DNS数据集合GLevel1进行关联,其中HTTPS流的源IP地址与GLevel1的客户机IP地址对应,HTTPS流的目的IP地址与GLevel1中的服务器IP地址对应。可采用Spark提供的Cogroup()算子实现数据的关联,然后去除结果中DNS部分为NULL的记录。
步骤6:第一级关联结果中未关联到任何DNS记录的HTTPS流,进一步处理为以<目的IP地址>为关键字,源IP地址、流持续时间、流开始时间、源端口、目的端口、协议、字节数、数据包数属性值列表为值的键值对格式数据集合。处理后的每条HTTPS数据格式的例子,如:
[(*.31.19.*),(*.6.150.*,261,1496738791683,50894,80,6,923,4)]
步骤7:进行第二级关联:将处理后的HTTPS以关键字<服务器IP地址>,和DNS数据集合GLevel2进行关联,其中HTTPS流的目的IP地址与GLevel2中的服务器IP地址对应。可以采用Spark提供的Cogroup()算子实现数据的关联,形成结果中去除DNS部分为NULL的记录。
步骤8:对步骤5和步骤7输出的与DNS建立关联的HTTPS流,根据关联结果中域名的评分,根据域名评分,确定其中的一个或多个域名作为HTTPS流的服务标识。例如,在第一级关联实例中:
HTTPS流[(*.6.150.*,*.31.19.*),(261,1496738791683,50894,80,6,923,4)]与DNS数据[(*.6.150.*,*.31.19.*),((www.cqvip.com,9),(ipub.cqvip.com,2),(ks.cqvip.com,2),(pay.cqvip.com,1))]之间建立关联,得到如下形式的关联结果:[(*.6.150.*,*.31.19.*),CompactBuffer(261,1496738791683,50894,80,6,923,4),CompactBuffer((www.cqvip.com,9),(ipub.cqvip.com,2),(ks.cqvip.com,2),(pay.cqvip.com,1))]
从中首选www.cqvip.com作为源地址为*.6.150.*,目的地址*.31.19.*,,源端口为50894,目的端口80,流开始时间为1496738791683的网络流的服务标识符。
在第二级关联实例中:
HTTPS流[(*.60.51.*),(*.6.150.*,261,1496738304172,63962,80,6,6335,9)]与DNS数据[(*.60.51.*),((quote.eastmoney.com,8),(cmsjs.eastmoney.com,8),(data.eastmoney.com,7),(emres.dfcfw.com,6),(www.eastmoney.com,4),(stock.eastmoney.com,2),(finance.eastmoney.com,2),(topic.1234567.com.cn,1),(bdstatic.eastmoney.com,1),(cp.eastmoney.com,1))]之间建立关联,得到如下形式的关联结果:
[(*.60.51.*),CompactBuffer(*.6.150.*,261,1496738304172,63962,80,6,6335,9),CompactBuffer((quote.eastmoney.com,8),(cmsjs.eastmoney.com,8),(data.eastmoney.com,7),(emres.dfcfw.com,6),(www.eastmoney.com,4),(stock.eastmoney.com,2),(finance.eastmoney.com,2),(topic.1234567.com.cn,1),(bdstatic.eastmoney.com,1),(cp.eastmoney.com,1))]
优选quote.eastmoney.com作为源地址为*.8.78.*,目的地址*.31.19.*,源端口为34524,目的端口80,流开始时间为1496738472251的网络流的服务标识符。域名评分相同的前两个域名的公共域名后缀eastmoney.com也可作为该流的服务标识符。

Claims (5)

1.一种适用于大规模网络环境的HTTPS流服务在线标识方法,其特征在于,包括以下步骤:
步骤1:根据实际网络中HTTPS和DNS流量的属性,计算用于读取HTTPS流和DNS流的滑动时间窗口参数;
步骤2:采用滑动时间窗口机制实时地从HTTPS流和DNS流中读取HTTPS流数据和DNS流数据;
步骤3:在每个滑动时间窗口下,对当前时间窗口内读取到的所有DNS记录进行解析和处理,转换为分别以<客户机IP地址,服务器IP地址>和<客户机IP地址>为关键字,以一个或多个域名及域名的评分组成的列表为值的键值对格式的两种关系映射数据集合GLevel1和GLevel2,且数据集合中每条记录中的域名按评分大小排序;GLevel1中的任一映射关系具体表示如下:
Figure FDA0002430891250000011
其中ci表示客户机IP地址,sj表示解析获得的服务器IP地址,
Figure FDA0002430891250000012
表示ci请求的第m个解析地址为sj的域名,
Figure FDA0002430891250000013
为第m个域名的评分,m的取值为
Figure FDA0002430891250000014
Figure FDA0002430891250000015
表示时间窗口内ci请求的解析地址为sj的不同域名的数量,
Figure FDA0002430891250000016
的下标表示映射关系的关键字为<ci,sj>;
GLevel2中的任一映射关系具体表示如下:
Figure FDA0002430891250000017
其中,
Figure FDA0002430891250000018
表示第k个解析地址为sj的域名,
Figure FDA0002430891250000019
为第k个域名的评分,k的取值为
Figure FDA00024308912500000110
Figure FDA00024308912500000111
表示时间窗口内所以客户机请求的解析地址为sj的不同域名的数量,
Figure FDA00024308912500000112
的下标表示映射关系的关键字为<sj>;
步骤4:对当前时间窗口内读取到的所有HTTPS流进行预处理,转换为以< 源IP地址,目的IP地址>为关键字,以HTTPS流的流持续时间、流开始时间、源端口、目的端口、协议、字节数、数据包数属性值构成的列表为值的格式的数据集合;
步骤5:进行第一级关联:将处理后的HTTPS流数据集合以关键字<源IP地址,目的IP地址>和DNS数据集合GLevel1进行左连接关联,其中HTTPS流的源IP地址与GLevel1的客户机IP地址对应,HTTPS流的目的IP地址与GLevel1的服务器IP地址对应,并合并具有相同关键字的记录;
步骤6:第一级关联结果中未关联到任何DNS记录的HTTPS流,再处理为以<目的IP地址>为关键字,源IP地址、流持续时间、流开始时间、源端口、目的端口、协议、字节数、数据包数属性值列表为值的键值对格式的数据集合;
步骤7:进行第二级关联:将第一级关联处理后的HTTPS流数据集合以关键字<目的IP地址>和DNS数据集合GLevel2进行左连接关联,其中HTTPS流的目的IP地址与GLevel2的服务器IP地址对应,并合并具有相同关键字的记录;
步骤8:对步骤5和步骤7输出的与DNS建立关联的HTTPS流,根据关联结果中域名的评分,确定其中的一个或多个域名作为HTTPS流的服务标识;对HTTPS流的服务标识具体为:
对第一级关联后的结果中,HTTPS流的首选分类标签为满足映射关系rc,s,且令Fc,s(n)取值最大的候选域名
Figure FDA0002430891250000021
即:
Figure FDA0002430891250000022
其中,Fc,s(n)表示域名n被客户机c请求并获得解析IP地址s的请求频率,下标c,s也表示关联的HTTPS流的客户机IP地址c和目的IP地址s;在第一级关联中,源IP地址为ci,目的IP地址为sj的HTTP流的第一个候选域名
Figure FDA0002430891250000023
Figure FDA0002430891250000031
并且
Figure FDA0002430891250000032
其中
Figure FDA0002430891250000033
表示客户机IP地址为ci和解析地址为sj的首选候选域名
Figure FDA0002430891250000034
第l个候选域名
Figure FDA0002430891250000035
根据
Figure FDA0002430891250000036
计算得到;
对第二级关联后的结果中,HTTPS流的首选分类标签为满足映射关系r's,且令Fs(n)取值最大的候选域名
Figure FDA0002430891250000037
即:
Figure FDA0002430891250000038
其中,Fs(n)表示域名n被所有客户机请求并获得解析IP地址s的请求频率,下标s也表示关联的HTTPS流的目的IP地址s;在第二级关联中,目的IP地址为sj的HTTPS流的首选候选域名
Figure FDA0002430891250000039
Figure FDA00024308912500000310
并且
Figure FDA00024308912500000311
其中
Figure FDA00024308912500000312
表示所有客户机请求的解析地址为sj的首选候选域名
Figure FDA00024308912500000313
第l个候选域名
Figure FDA00024308912500000314
根据
Figure FDA00024308912500000315
计算。
2.如权利要求1所述的一种适用于大规模网络环境的HTTPS流服务在线标识方法,其特征在于,在步骤1中,计算滑动时间窗口参数具体为:HTTPS的滑动窗口大小b的大小根据对分类的实时性要求及实际网络环境下数据关联处理的时延确定;DNS的滑动时间窗口大小w的计算公式:w≈TTLmost+Durationmost
其中,TTLmost表示实际网络中绝大部分请求域名的生存时间值,根据实际网络中一段时间内DNS响应数据中获得的域名生命周期TTL值计算,求使得条件CDF(ttl≤TTLmost)≥TTL_Thresd成立的TTL值,ttl表示从实际网络中DNS响应数据中获取的任一域名的生存时间;Durationmost表示绝大部分HTTPS流的流持续时间值,根据实际网络中一段时间段内HTTPS流持续时间计算,求使得条件CDF(duration≤Durationmost)≥Duration_Thresd成立的HTTPS流持续时间值,duration表示从实际网络的HTTPS流数据中获得的任一HTTPS流的持续时间;函数CDF()表示累积分布函数,TTL_Thresd表示设定的TTL的累积分布函数取值的阈值,Duration_Thresd表示设定的HTTPS流持续时间的阈值。
3.如权利要求1所述的一种适用于大规模网络环境的HTTPS流服务在线标识方法,其特征在于,在所述步骤2中:采用流式数据微批处理模式读取HTTPS流数据和DNS流数据。
4.如权利要求1所述的一种适用于大规模网络环境的HTTPS流服务在线标识方法,其特征在于,在步骤3中,对当前时间窗口内读取到的所有DNS记录进行解析和处理具体为:
步骤31:解析DNS数据中的每条DNS响应记录,提取客户机IP地址、请求域名、域名指向的服务器IP地址,形成客户机IP地址-请求域名对与服务器IP地址之间的映射关系;
步骤32:对每个映射关系中请求域名与服务器IP地址之间关系Q的逆向转换,形成客户机IP地址-服务器IP地址对与请求域名之间的映射关系数据集R;转换方法如下式所示;
Figure FDA0002430891250000041
R由Q中所有的元素经过公式转换后形成的形如[(c,s),n]的所有映射关系组成,其中,c表示客户机IP地址,s表示服务器IP地址,n表示域名;
步骤33:构建以<客户机IP地址,服务器IP地址>为关键字的数据集合GLevel1,并计算其中每个域名的评分;构建以<服务器IP地址>为关键字的数据集合GLevel2,并计算其中每个域名的评分。
5.如权利要求4所述的一种适用于大规模网络环境的HTTPS流服务在线标识方法,其特征在于,步骤33中对每个域名的评分计算方法为:
对于以<客户机IP地址,服务器IP地址>为关键字的数据集合,每个域名的评分ω的计算方法是该域名被当前客户机请求并获得关键字中服务器IP地址的请求频率;令Fc,s(n)表示域名n被客户机c请求并获得解析IP地址s的请求频率,M(A)表示A在集合R中出现的次数,“*”表示被客户机请求并获得解析IP地址s的所有域名,则:
Figure FDA0002430891250000051
以<服务器IP地址>为关键字的数据集合,每个域名的评分ω的计算方法是该域名被所有客户机请求并获得关键字中服务器IP地址的请求频率;令Fs(n)表示域名n被所有客户机请求并获得解析IP地址s的请求频率,则:
Figure FDA0002430891250000052
CN201910509856.4A 2019-06-13 2019-06-13 一种适用于大规模网络环境的https流服务在线标识方法 Active CN110290188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910509856.4A CN110290188B (zh) 2019-06-13 2019-06-13 一种适用于大规模网络环境的https流服务在线标识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910509856.4A CN110290188B (zh) 2019-06-13 2019-06-13 一种适用于大规模网络环境的https流服务在线标识方法

Publications (2)

Publication Number Publication Date
CN110290188A CN110290188A (zh) 2019-09-27
CN110290188B true CN110290188B (zh) 2020-06-02

Family

ID=68004810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910509856.4A Active CN110290188B (zh) 2019-06-13 2019-06-13 一种适用于大规模网络环境的https流服务在线标识方法

Country Status (1)

Country Link
CN (1) CN110290188B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114900360B (zh) * 2022-05-12 2023-09-22 国家计算机网络与信息安全管理中心山西分中心 一种检测HTTPS流量中的DoH流量方法
CN115086030A (zh) * 2022-06-14 2022-09-20 中国电信股份有限公司 Https加密流量的指纹攻击防护方法、装置、电子设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187393A (zh) * 2015-08-10 2015-12-23 济南大学 一种移动终端恶意软件网络行为重构方法及其系统
CN106131016A (zh) * 2016-07-13 2016-11-16 北京知道创宇信息技术有限公司 恶意url检测干预方法、系统及装置
CN106453675A (zh) * 2016-09-19 2017-02-22 网宿科技股份有限公司 302跳转方法、url生成方法及系统、域名解析方法及系统
CN107911398A (zh) * 2018-01-04 2018-04-13 世纪龙信息网络有限责任公司 身份信息的认证方法、装置以及系统
CN109361575A (zh) * 2018-12-20 2019-02-19 哈尔滨工业大学(威海) 一种获取分析dns流量数据的方法及其系统
CN109861995A (zh) * 2019-01-17 2019-06-07 安徽谛听信息科技有限公司 一种网络空间安全大数据智能分析方法、计算机可读介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9800608B2 (en) * 2000-09-25 2017-10-24 Symantec Corporation Processing data flows with a data flow processor
US7551567B2 (en) * 2005-01-05 2009-06-23 Cisco Technology, Inc. Interpreting an application message at a network element using sampling and heuristics
US8812714B2 (en) * 2008-11-12 2014-08-19 Citrix Systems, Inc. Systems and methods for application fluency policies

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187393A (zh) * 2015-08-10 2015-12-23 济南大学 一种移动终端恶意软件网络行为重构方法及其系统
CN106131016A (zh) * 2016-07-13 2016-11-16 北京知道创宇信息技术有限公司 恶意url检测干预方法、系统及装置
CN106453675A (zh) * 2016-09-19 2017-02-22 网宿科技股份有限公司 302跳转方法、url生成方法及系统、域名解析方法及系统
CN107911398A (zh) * 2018-01-04 2018-04-13 世纪龙信息网络有限责任公司 身份信息的认证方法、装置以及系统
CN109361575A (zh) * 2018-12-20 2019-02-19 哈尔滨工业大学(威海) 一种获取分析dns流量数据的方法及其系统
CN109861995A (zh) * 2019-01-17 2019-06-07 安徽谛听信息科技有限公司 一种网络空间安全大数据智能分析方法、计算机可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Flow Context and Host Behavior Based Shadowsocks’s Traffic Identification;Xuemei Zeng等;《IEEE Access ( Volume: 7 )》;20190328;全文 *
面向安全分析的大规模网络下的DNS流量还原系统;文奕等;《信息网络安全》;20190510;全文 *

Also Published As

Publication number Publication date
CN110290188A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN107665191B (zh) 一种基于扩展前缀树的私有协议报文格式推断方法
CN110493208B (zh) 一种多特征的dns结合https恶意加密流量识别方法
CN113705712B (zh) 一种基于联邦半监督学习的网络流量分类方法和系统
US11122058B2 (en) System and method for the automated detection and prediction of online threats
CN107592312B (zh) 一种基于网络流量的恶意软件检测方法
Chen et al. DNS covert channel detection method using the LSTM model
CN109905288B (zh) 一种应用服务分类方法及装置
CN112261645B (zh) 一种基于分组分域的移动应用指纹自动化提取方法及系统
WO2020133986A1 (zh) 僵尸网络域名家族的检测方法、装置、设备及存储介质
CN110290188B (zh) 一种适用于大规模网络环境的https流服务在线标识方法
CN114157502B (zh) 一种终端识别方法、装置、电子设备及存储介质
CN110012122B (zh) 一种基于词嵌入技术的域名相似性分析方法
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
CN105959321A (zh) 网络远程主机操作系统被动识别方法及装置
CN113364787A (zh) 一种基于并联神经网络的僵尸网络流量检测方法
CN110868404A (zh) 一种基于tcp/ip指纹的工控设备自动识别方法
Li et al. Street-Level Landmarks Acquisition Based on SVM Classifiers.
CN110602059B (zh) 一种精准复原tls协议加密传输数据明文长度指纹的方法
Wang et al. A two-stage method for fine-grained dns covert tunnel behavior detection
US9444729B2 (en) Fast application recognition system and fast application processing method
CN112866039A (zh) 一种基于被动dns流量的递归域名服务器用户量估计方法
Li et al. DNS Tunnel Detection Scheme Based on Machine Learning in Campus Network
CN106790245B (zh) 一种基于云服务的实时僵尸网络检测方法
Voronov et al. Determining OS and applications by DNS traffic analysis
Zeng et al. DTA-HOC: Online HTTPS traffic service identification using DNS in large-scale networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant