CN105812204A - 一种基于连接度估计的递归域名服务器在线识别方法 - Google Patents

一种基于连接度估计的递归域名服务器在线识别方法 Download PDF

Info

Publication number
CN105812204A
CN105812204A CN201610144111.9A CN201610144111A CN105812204A CN 105812204 A CN105812204 A CN 105812204A CN 201610144111 A CN201610144111 A CN 201610144111A CN 105812204 A CN105812204 A CN 105812204A
Authority
CN
China
Prior art keywords
source
value
con
src
dom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610144111.9A
Other languages
English (en)
Other versions
CN105812204B (zh
Inventor
孙永
黄彩云
刘晓梅
刘庆云
郭莉
秦鹏
刘洋
刘俊朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610144111.9A priority Critical patent/CN105812204B/zh
Publication of CN105812204A publication Critical patent/CN105812204A/zh
Application granted granted Critical
Publication of CN105812204B publication Critical patent/CN105812204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于连接度估计的递归域名服务器在线识别方法。本方法为:1)对获取的设定时间段内的网络流量进行协议分析,得到一DNS流量数据集;2)对该DNS流量数据集中的DNS流量进行解析,获取DNS流量的属性信息;3)根据属性信息计算每个源IP的Src‑con值和Dom‑con值;Src‑con值为源IP连接度,即DNS流量中源IP地址对应不同目的IP地址的个数;Dom‑con值为域名连接度,即源IP地址对应不同域名的个数;4)如果同一源IP对应的Src‑con值高于源IP连接度阈值、Dom‑con值高于域名连接度阈值;则将该源IP对应的服务器作为递归域名服务器。本发明识别准确率高。

Description

一种基于连接度估计的递归域名服务器在线识别方法
技术领域
本发明属于网络测量技术领域,具体涉及一种基于连接度估计的递归域名服务器在线识别方法。
背景技术
域名系统(Domain Name System)是互联网的核心服务,它通过域名服务器解析域名为IP地址,使用户更便捷地访问互联网,解析流程如图1所示。目前域名服务器按服务类型可分为:Root-DNS:根域名服务器,域名解析系统中最高级别的域名服务器,负责返回顶级域名的权威域名服务器地址;Authoritative DNS(ADNS):权威域名服务器,负责管理某区域,对于该区域的域名查询直接从本地数据库查找并响应;Recursive DNS(RDNS):递归域名服务器,代替用户向权威域名服务器提出查询,解析权威域名服务器的响应信息,并向用户返回响应信息。
对递归域名服务器进行污染评估、DDos攻击规模评估等是识别递归域名服务器安全程度的有效途径。然而,获取准确的递归域名服务器是这些评估工作的前提和基础。依据是否需要构造特定的域名查询请求,目前识别递归域名服务器的方法可以分为两类:主动方式和被动方式。
主动方式又可以分为两类:第一类方式中用户向设定的IP列表发送特定的域名查询请求,根据是否收到应答或应答类型对域名服务器进行分类,进而识别出递归域名服务器。第二类方式中,由于权威域名服务器只与递归域名服务器直接交互,通过获取与权威域名服务器直接交互的节点的IP地址集合,达到获取递归域名服务器的目的。权威域名服务器ADNS接收DNS请求的源IP集合就是递归域名服务器集合。但是主动方式也存在很多缺点:第一类方式中,主动探测前需要提前获取大量的IP地址;第二类方式中,当前很多递归域名服务器都进行安全设置,阻止某顶级或二级域名下任意主机的域名查询,域名查询请求可能被其过滤,导致主动方式耗费大量资源探测没有响应结果的IP地址。
被动方式指不依赖具体的递归域名服务器,通过分析网络流量中递归域名服务器的相关特征进行识别,有效的解决了主动方式的缺点。但由于递归域名服务器和客户端使用相同的协议,两者之间的流量特征无明显区别,难以从网络流量中通过协议分析直接识别出递归域名服务器。现有的被动方式主要通过解析离线DNS流量,构造DNS流量图,通过分析图形中节点模式识别出递归域名服务器。但是由于离线流量无法及时反映网络状态,时效性较差,无法识别出活跃程度发生变化的递归域名服务器。因此亟需一种直接对在线流量进行分析,及时准确地识别出活跃度高的递归域名服务器的方法。大流量和有限的在线资源对在线分析流量造成极大挑战。
发明内容
基于上述分析与考虑,本发明的目的在于提供一种基于连接度估计的递归域名服务器在线识别方法,本发明通过利用多种主动探测技术,对不同连接度阈值下所识别出的递归域名服务器进行验证,识别准确率高,占用内存消耗小。
本发明的技术方案为:
一种基于连接度估计的递归域名服务器在线识别方法,其步骤为:
1)对获取的设定时间段内的网络流量进行协议分析,得到一DNS流量数据集;
2)对该DNS流量数据集中的DNS流量进行解析,获取DNS流量的属性信息;其中,属性信息包括源IP、目的IP和域名;
3)根据获取的属性信息计算每个源IP的Src-con值和Dom-con值;其中,Src-con值为源IP连接度,即DNS流量中源IP地址对应不同目的IP地址的个数;Dom-con值为域名连接度,即DNS流量中源IP地址对应不同域名的个数;
4)如果同一源IP对应的Src-con值高于源IP连接度阈值、Dom-con值高于域名连接度阈值;则将该源IP对应的服务器作为递归域名服务器。
确定该源IP连接度阈值、域名连接度阈值的方法为:将每个源IP对应的Src-con值进行累加得到一总Src-con值,将每个源IP对应的Dom-con值进行累加得到一总Dom-con值;然后计算每个源IP对应的Src-con值占总Src-con值的比值、Dom-con值占总Dom-con值的比值;然后将得到的比值分别从大到小进行累计,当Src-con值占总Src-con值的比值累计值变化小于设定变化值h1时,将最后一个累计的源IP地址的Src-con值作为源IP连接度阈值;当Dom-con值占总Dom-con值的比值累计值变化小于设定变化值h2时,将最后一个累计的源IP地址的Dom-con值作为域名连接度阈值。
计算每个源IP的Src-con值的方法为:首先初始化一位值为0的共享位数组B;然后对每一组源IP、目的IP,在该共享位数组B中为该源IP分配s个位,将该源IP获取的位中的一位分配给该目的IP并置位值为1,同时存储该源IP;最后根据存储的源IP和共享位数组B,计算该共享位数组B中位值为0的位数占该共享位数组B总位数的占比Vm、每个源IP对应的s个位中位值为0的位数占s的占比Vs,根据公式s*(ln(Vm)–ln(Vs))计算出对应源IP的Src-con值。
采用哈希函数在该共享位数组B中为每一源IP分配s个位。
计算每个源IP的Dom-con值的方法为:首先初始化一位值为0的共享位数组B’;然后对每一组源IP、域名,在该共享位数组B’中为该源IP分配s’个位,并将该源IP获取的位中一位分配给该域名,置位值为1,同时哈希存储该源IP;最后根据存储的源IP和共享位数组B’,计算该共享位数组B’中位值为0的位数占该共享位数组B’总位数的占比Vm’、每个源IP对应的s’个位中位值为0的位数占s’的占比Vs’,根据公式s’*(ln(Vm’)–ln(Vs’))计算出对应源IP的Dom-con值。
本发明主要包括以下步骤:
1)获取一段时间内的流量,对获取的网络流量进行协议分析得到DNS流量数据集,然后对DNS流量数据集进行解析,获取流量中源IP、目的IP、域名等属性;
2)基于在线获取的DNS流量属性,使用估计连接度的算法,计算每个源IP的Src-con和Dom-con;
3)将同时具有较高的Src-con和Dom-con作为识别特征,分别取阈值,获取RDNS的交集列表集合。通过验证IP发现这些Src-con和Dom-con比较高的IP一般都是递归域名服务器,因此本发明将这两个指标作为关键特征,将这两个指标数值高于设定阈值的IP作为递归服务器。
步骤1)获取的一段时间的流量,选取的是24小时。
步骤2)Src-con源IP连接度,表示在一定时间周期内,DNS流量中源IP地址对应不同目的地址的个数;Dom-con域名连接度,在一定时间周期内,DNS流量中源IP地址对应不同域名的个数;估计每个源IP的连接度的流程图如图2,具体计算连接度的伪代码如下:
算法1Src-con估值算法
输入:DNS Stream
输出:Conset{src,Src-con}
采用上述方法,将连接度统计模型部署到在线网络设备中,如图3所示,具体包括如下模块:
DNS流量获取模块,从底层获取网络流量,再通过协议分析获取DNS流量,将DNS流量上传给DNS流量解析模块;
DNS流量解析模块,解析出源IP地址、目的IP地址与域名;
数据流哈希模块,通过对这三个属性的哈希映射来更新Src-con和Dom-con的共享数组,同时哈希存储源IP地址;
在线连接度计算模块,读取流量24h以后,利用共享数组和源IP的哈希表对每个源IP分别计算Src-con和Dom-con,然后计算每个源IP地址Src-con和Dom-con对总Src-con和总Dom-con的占比情况,对百分比从大到小进行累计,当累计百分比变化小于设定变化值时,最后一个累计的源IP地址的Src-con和Dom-con就是源IP连接度阈值和域名连接度阈值,之后将Src-con和Dom-con值分别高于对应阈值的源IP识别为递归服务器,获得RDNS的交集列表集合。
与现有技术相比,本发明具有以下优点:
1、对DNS流量进行分析,挖掘出可识别递归域名服务器的特征:主机连接度和域名连接度。
2、实现了一种高效的在线计算流量中主机连接度和域名连接度的算法,并对在线计算结果进行误差分析,应用于识别递归域名服务器这个应用场景中;
3、结合多种主动探测技术和IP定位技术,对不同连接度阈值下所识别出的递归域名服务器进行验证,获得具有较高识别准确率的连接度阈值。本发明是以一定时间(如90~120s)为周期对所有域名不存在记录进行聚合,保证了域名分析的实时性。
附图说明
图1为域名系统解析流程图;
图2为连接度估计算法流程图;
图3是连接度模型在线部署图;
图4是验证流程图;
图5是内存消耗图。
具体实施方式
本发明的系统是以在线网络设备的插件运行,下面结合附图和具体实施例对本发明进行详细说明。
如图3所示,一种基于连接度估计的递归域名服务器在线识别方法部署,实验步骤如下:
步骤1):获取某教育网网关(EDU)和某企业网网关(ISP)24小时内的DNS流量,对DNS数据集进行解析,获取流量中的源IP、目的IP、域名等属性。
步骤201):按照图2连接度估计算法流程图所示,以Src-con为例,程序初始化时申请一个位值为0的大型共享位数组B,之后每到达一组源、目的IP地址,利用随机数组R制造的多个哈希函数,对源IP地址进行映射,把数组B中s个位分配给该源IP地址,对目的IP地址进行映射,把该源IP地址获取的位中某一位分配给该目的IP地址,置位值为1,同时存储源IP地址。读取流量24h以后,输出源IP地址和共享位数组B,计算位数组B中位值为0的位数占B数组总位数的占比Vm、每个源IP地址对应的那s个位中位值为0的位数占s的占比Vs,然后通过公式s*(ln(Vm)–ln(Vs))计算出对应源IP地址的Src-con的估计值;同理可以计算得到Dom-con的估计值。
步骤202):为了评估连接度估计算法的误差对最后识别RDNS精确性的影响,以计算Src-con为例,对估计算法进行误差分析:选用从带宽为5Gbps骨干网链路上捕获的24h的DNS数据包作为测试数据集,BOB哈希处理测试数据集中的DNS数据流,分别计算Src-con的精确值S_1和估计值S_2,发现S_2值越高越接近精确值,识别出RDNS的概率越大,因此估计算法的误差对识别准确性影响不大。其中,精确值S_1的计算方法就是计数,以Src-con为例,把所有不同的源IP地址记录下来,把每个源IP地址对应的目的IP地址也记录下来,每到达一个新的源IP地址,那么其对应的目的IP地址肯定也是新的,也就是说Src-con变为1,之后每到达一个这个源IP地址的目的IP地址,都会与之前这个源IP地址对应的目的IP地址严格比较,与所有目的IP地址都不一样的时候,才会让Src-con进行加1操作,这样最后得到的Src-con值,才是精确值,完全是数出来的。
步骤203):对估计算法进行性能评估:一组运行连接度精确测量算法(每个源IP维护一组连接信息),另一组运行本文所使用的连接度估计算法,两组设备在同一个带宽为5Gbps的骨干网链路上同时进行在线测试,内存消耗如图5所示。
步骤301):根据计算得到的Src-con和Dom-con分别取阈值,获取RDNS的交集列表集合。
步骤302):如图4验证流程图所示,对不同阈值下识别出的递归域名服务器结合多种主动探测技术进行验证。
积极效果
数据集为某教育网网关(EDU)和某企业网网关(ISP)24小时内的DNS流量。将计算得到的Src-con和Dom-con分别取阈值,获取RDNS的交集列表集合,阈值的选取和识别RDNS的数目,对不同阈值下识别出的递归域名服务器结合多种主动探测技术进行验证,验证结果如下:
表1RDNS结果识别与验证

Claims (5)

1.一种基于连接度估计的递归域名服务器在线识别方法,其步骤为:
1)对获取的设定时间段内的网络流量进行协议分析,得到一DNS流量数据集;
2)对该DNS流量数据集中的DNS流量进行解析,获取DNS流量的属性信息;其中,属性信息包括源IP、目的IP和域名;
3)根据获取的属性信息计算每个源IP的Src-con值和Dom-con值;其中,Src-con值为源IP连接度,即DNS流量中源IP地址对应不同目的IP地址的个数;Dom-con值为域名连接度,即DNS流量中源IP地址对应不同域名的个数;
4)如果同一源IP对应的Src-con值高于源IP连接度阈值、Dom-con值高于域名连接度阈值;则将该源IP对应的服务器作为递归域名服务器。
2.如权利要求1所述的方法,其特征在于,确定该源IP连接度阈值、域名连接度阈值的方法为:将每个源IP对应的Src-con值进行累加得到一总Src-con值,将每个源IP对应的Dom-con值进行累加得到一总Dom-con值;然后计算每个源IP对应的Src-con值占总Src-con值的比值、Dom-con值占总Dom-con值的比值;然后将得到的比值分别从大到小进行累计,当Src-con值占总Src-con值的比值累计值变化小于设定变化值h1时,将最后一个累计的源IP地址的Src-con值作为源IP连接度阈值;当Dom-con值占总Dom-con值的比值累计值变化小于设定变化值h2时,将最后一个累计的源IP地址的Dom-con值作为域名连接度阈值。
3.如权利要求1或2所述的方法,其特征在于,计算每个源IP的Src-con值的方法为:首先初始化一位值为0的共享位数组B;然后对每一组源IP、目的IP,在该共享位数组B中为该源IP分配s个位,将该源IP获取的位中的一位分配给该目的IP并置位值为1,同时存储该源IP;最后根据存储的源IP和共享位数组B,计算该共享位数组B中位值为0的位数占该共享位数组B总位数的占比Vm、每个源IP对应的s个位中位值为0的位数占s的占比Vs,根据公式s*(ln(Vm)–ln(Vs))计算出对应源IP的Src-con值。
4.如权利要求3所述的方法,其特征在于,采用哈希函数在该共享位数组B中为每一源IP分配s个位。
5.如权利要求1或2所述的方法,其特征在于,计算每个源IP的Dom-con值的方法为:首先初始化一位值为0的共享位数组B’;然后对每一组源IP、域名,在该共享位数组B’中为该源IP分配s’个位,并将该源IP获取的位中一位分配给该域名,置位值为1,同时哈希存储该源IP;最后根据存储的源IP和共享位数组B’,计算该共享位数组B’中位值为0的位数占该共享位数组B’总位数的占比Vm’、每个源IP对应的s’个位中位值为0的位数占s’的占比Vs’,根据公式s’*(ln(Vm’)–ln(Vs’))计算出对应源IP的Dom-con值。
CN201610144111.9A 2016-03-14 2016-03-14 一种基于连接度估计的递归域名服务器在线识别方法 Active CN105812204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610144111.9A CN105812204B (zh) 2016-03-14 2016-03-14 一种基于连接度估计的递归域名服务器在线识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610144111.9A CN105812204B (zh) 2016-03-14 2016-03-14 一种基于连接度估计的递归域名服务器在线识别方法

Publications (2)

Publication Number Publication Date
CN105812204A true CN105812204A (zh) 2016-07-27
CN105812204B CN105812204B (zh) 2019-02-15

Family

ID=56467273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610144111.9A Active CN105812204B (zh) 2016-03-14 2016-03-14 一种基于连接度估计的递归域名服务器在线识别方法

Country Status (1)

Country Link
CN (1) CN105812204B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071084A (zh) * 2017-04-01 2017-08-18 北京神州绿盟信息安全科技股份有限公司 一种dns的评价方法和装置
CN112866039A (zh) * 2021-03-05 2021-05-28 中国科学院信息工程研究所 一种基于被动dns流量的递归域名服务器用户量估计方法
CN115442250A (zh) * 2022-08-11 2022-12-06 国家计算机网络与信息安全管理中心河北分中心 一种获取海量dns服务属性并归类的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4764810B2 (ja) * 2006-12-14 2011-09-07 富士通株式会社 異常トラヒック監視装置、エントリ管理装置およびネットワークシステム
CN102457588A (zh) * 2011-12-20 2012-05-16 北京瑞汛世纪科技有限公司 一种实现反向域名解析的方法及装置
CN104618351A (zh) * 2015-01-15 2015-05-13 中国科学院信息工程研究所 一种识别dns欺骗攻击包及检测dns欺骗攻击的方法
CN105376344A (zh) * 2015-11-26 2016-03-02 中国互联网络信息中心 一种与源地址相关的递归域名服务器的解析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4764810B2 (ja) * 2006-12-14 2011-09-07 富士通株式会社 異常トラヒック監視装置、エントリ管理装置およびネットワークシステム
CN102457588A (zh) * 2011-12-20 2012-05-16 北京瑞汛世纪科技有限公司 一种实现反向域名解析的方法及装置
CN104618351A (zh) * 2015-01-15 2015-05-13 中国科学院信息工程研究所 一种识别dns欺骗攻击包及检测dns欺骗攻击的方法
CN105376344A (zh) * 2015-11-26 2016-03-02 中国互联网络信息中心 一种与源地址相关的递归域名服务器的解析方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071084A (zh) * 2017-04-01 2017-08-18 北京神州绿盟信息安全科技股份有限公司 一种dns的评价方法和装置
CN107071084B (zh) * 2017-04-01 2019-07-26 北京神州绿盟信息安全科技股份有限公司 一种dns的评价方法和装置
US11431742B2 (en) 2017-04-01 2022-08-30 NSFOCUS Information Technology Co., Ltd. DNS evaluation method and apparatus
CN112866039A (zh) * 2021-03-05 2021-05-28 中国科学院信息工程研究所 一种基于被动dns流量的递归域名服务器用户量估计方法
CN115442250A (zh) * 2022-08-11 2022-12-06 国家计算机网络与信息安全管理中心河北分中心 一种获取海量dns服务属性并归类的方法

Also Published As

Publication number Publication date
CN105812204B (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
Wang et al. Towards {Street-Level}{Client-Independent}{IP} Geolocation
Pang et al. Availability, usage, and deployment characteristics of the domain name system
CN110995885B (zh) 一种基于路由器误差训练的ip定位方法
CN107342913B (zh) 一种cdn节点的探测方法和装置
CN109067930A (zh) 域名接入方法、域名解析方法、服务器、终端及存储介质
Youn et al. Statistical geolocation of internet hosts
CN111885086B (zh) 恶意软件心跳检测方法、装置、设备及可读存储介质
Feldman et al. A structural approach for PoP geo-location
CN103905440A (zh) 一种基于日志和snmp信息融合的网络安全态势感知分析方法
CN105227688A (zh) 一种基于路径特征的区域级目标ip定位方法
CN105262690A (zh) 一种自治系统级网络拓扑识别方法
CN105812204A (zh) 一种基于连接度估计的递归域名服务器在线识别方法
CN105227689A (zh) 基于局部时延分布相似性度量的目标ip定位算法
EP3913888A1 (en) Detection method for malicious domain name in domain name system and detection device
Zhao et al. IP Geolocation based on identification routers and local delay distribution similarity
CN111064817B (zh) 一种基于节点排序的城市级ip定位方法
CN103873604A (zh) 一种基于分析cdn网络数据的网络访问方法
CN106302737A (zh) 一种ip定位技术中基准点数据的清洗方法
TWI656778B (zh) Malicious domain detection method combining network information and network traffic
Li et al. Street-Level Landmarks Acquisition Based on SVM Classifiers.
Li et al. Geocam: An ip-based geolocation service through fine-grained and stable webcam landmarks
Chen et al. A landmark calibration-based IP geolocation approach
CN106993027B (zh) 远程数据存储位置验证方法
CN113438332A (zh) 一种DoH服务标识方法及装置
CN105245628B (zh) 一种适用于弱连接网络的网络实体地理位置定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant