CN105357335A - 一种dns权威日志信息挖掘处理方法 - Google Patents
一种dns权威日志信息挖掘处理方法 Download PDFInfo
- Publication number
- CN105357335A CN105357335A CN201510831485.3A CN201510831485A CN105357335A CN 105357335 A CN105357335 A CN 105357335A CN 201510831485 A CN201510831485 A CN 201510831485A CN 105357335 A CN105357335 A CN 105357335A
- Authority
- CN
- China
- Prior art keywords
- domain name
- recurrence
- province
- recursion
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4552—Lookup mechanisms between a plurality of directories; Synchronisation of directories, e.g. metadirectories
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4594—Address books, i.e. directories containing contact information about correspondents
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种DNS权威日志信息挖掘处理方法。本方法为:1)权威服务器根据DNS权威日志统计每一递归服务器R的递归IP访问,得到该递归服务器R的访问统计量;2)权威服务器根据递归服务器访问的独立域名个数和递归IP访问量对步骤1)过滤后的递归IP访问进行聚类;3)根据alexa排名、域名ttl以及DNS权威日志计算域名查询指数;4)基于域名查询指数以及域名whois注册机构所在地,对递归IP访问的域名进行聚类;5)根据步骤2)、步骤4)的聚类结果建立每一类域名的递归IP访问量与域名查询指数的关系方程,根据该关系方程求解出每一类域名的递归IP访问分布。本发明能够准确反映实际用户的查询行为。
Description
技术领域
本发明涉及一种基于DNS权威日志的信息挖掘处理方法,属于数据挖掘技术领域。
背景技术
域名系统(DNS)实现了IP地址和域名之间的转换,是互联网最关键的基础设施和其他丰富应用的基础。几乎所有基于IP网络的信息通信服务都要通过域名访问来定位相应的网络资源。CNDNS日志中蕴含了数以亿计的互联网络用户与负责千万级CN国家域名解析系统之间的交互,因此,CNDNS日志记载了用户访问域名的情况,蕴藏了丰富的互联网访问信息。
CN权威服务器记录的是来自全球各递归服务器的查询信息,互联网用户通过递归IP访问CN权威服务器时,由于缓存等因素的影响,原始的用户查询很难暴露在权威服务器,因此,提出DNS日志信息挖掘过程中需要处理的影响因素并给出相应的解决方法,对CN权威日志的数据挖掘有着重要意义。
发明内容
DNS权威日志蕴含了重要的价值,但是由于DNS镜像服务,DNSTTL缓存策略以及大量网络应用系统干扰,使得CN权威的原始查询量不能反映实际用户的查询行为。因此本发明提出了一种全新的方法来得到用户访问网站的真实查询行为。
本发明的技术方案为:
一种DNS权威日志信息挖掘处理方法,其步骤为:
1)权威服务器根据DNS权威日志统计每一递归服务器R的递归IP访问,得到该递归服务器R的访问统计量(d1,d2...dn),其中第i个分量di表示递归服务器R向权威服务器访问第i个域名的访问量;判断递归服务器R的访问统计量(d1,d2...dn)是否符合幂率分布,如果不符合则过滤掉该访问统计量(d1,d2...dn);
2)权威服务器根据递归服务器访问的独立域名个数和递归IP访问量对步骤1)过滤后的递归IP访问进行聚类;
3)根据alexa排名、域名ttl以及DNS权威日志计算域名查询指数;
4)基于域名查询指数以及域名whois注册机构所在地,对递归IP访问的域名进行聚类;
5)根据步骤2)、步骤4)的聚类结果建立每一类域名的递归IP访问量与域名查询指数
的关系方程,根据该关系方程求解出每一类域名的递归IP访问分布。
进一步的,所述域名查询指数为其中,r为alexa排名,r∈[1,Ndomain],Ndomain为当前域名的域名流行度区间的最大值,为流行度区间,t为TTL缓存时间,N为当前域名的递归IP访问量,β、cm分别为一常量。
进一步的,所述关系方程为:T=∑Ri×qj,其中Ri=W(tj,dj);递归服务器rj对网站d的访问量为qj,递归服务器rj的总访问量为tj,递归服务器rj访问的不同域名个数为dj;权重函数W用于对递归服务器rj按照tj以及dj进行划分,即W(tj,dj)→Ri,Ri是递归服务器rj的权重,rj为步骤2)得到的第j个聚类结果,T为域名d的总体访问量。
进一步的,所述步骤2)、步骤4)的聚类方法均为k-means聚类方法。
进一步的,所述递归IP访问分布为网站的省份访问分布;首先,对于每一网站d,计算来自省份i的第j类递归的查询指数为dij=∑Rlqij,递归服务器rij来自省份i,并且它的分类是j,qij为递归服务器rij对网站d的原始查询量,Rl为递归服务器rij的权重系数;然后根据各网站的各类递归IP的查询指数计算他们之间的相关性,为每一类网站选取一个中心点;然后根据每类网站的中心点e的访问日志,得到其在各个省份的用户访问比例,则网站d在省份i的查询指数为其中,pem为中心点e来自省份m的用户访问比例;M为网站类别总数,qe为中心点e的查询指数,emj为来自省份m的第j类网站中心点e的递归查询指数;最后,网站d在省份i的用户访问比例J为省份总数。
进一步的,利用公式cos{(em1,em2...emM),(di1,di2...diM)}=min(cos{(en1,en2...enM),(di1,di2...diM)})计算每一emj的值。
与现有技术相比,本发明的优点:
1)通过研究TTL与域名流行度的关系,对域名的查询指数进行计算,消除缓存对域名查询量的影响。
2)基于网络幂率分布,对递归到权威的原始查询量进行预处理,排除不符合幂率分布的递归。
3)经过递归聚类以及域名聚类处理,建立域名原始查询量与查询指数的关系方程,进而得到某类递归IP访问某类域名的权重向量。
4)通过基于域名查询指数聚类的协同推荐方法,得到具体的网站的用户访问分布。
附图说明
图1为本发明的建模流程图;
图2为本发明的异常递归过滤流程图。
具体实施方式
下面结合附图对本发明的具体实施方法进行进一步详细描述。
一般而言,在一定时间周期内,用户通过某类递归服务器访问某类网站的访问行为相对固定,用户使用的递归服务器的数量相对稳定且某类网站的访问用户的省份分布是相对固定的。我们通过挖掘分析DNS权威日志,得到了以下两类信息
1.对指定的网站给出相应的用户访问省份分布;
2.对于一类网站,给出各个省份的用户访问分布比例。
本节将详细介绍整个建模流程与方法
总体建模流程
本发明方案仅依赖于alexa排名,域名ttl以及cn权威日志,整体建模包括:异常递归过滤,查询指数计算,递归聚类,域名聚类,域名原始查询量与查询指数关系方程求解以及基于域名查询指数聚类的协同推荐。整体的流程图如图1所示。
1)异常递归的过滤
由于网络爬虫,应用系统的干扰导致递归服务器的访问行为无法真实的反应用户的访问行为。因此,为了尽可能的去除这种异常递归的干扰,我们提出了一种基于复杂网络幂率分布的异常递归过滤方法。假设递归服务器R在权威日志中的访问统计量为向量(d1,d2...dn),通过对权威日志在网站维度行聚合统计可得到此向量,其中d1≥d2≥d3...≥dn,di表示递归服务器R向权威服务器访问第i个域名的访问量。当递归服务器R的域名访问量不符合幂率分布时,标记其为异常,将其剔除掉。整个流程如图2所示。
2)查询指数计算
互联网用户通过递归服务器IP访问CN权威服务器时,由于缓存等因素的影响,原始的用户查询很难暴露在权威服务器,因此,本文提出基于来自递归服务器的查询来评估访问特定域名的查询指数的方法。
2.1)前置条件
根据DNS数据情况的分析证明,通过递归IP上网用户查询相互独立,各递归IP相互独立。
2.2)模型
其中,λ(r)表示某一个递归IP对应某一个域名的查询速率;b为该递归IP对应该域名的常量,比如取1000,代表每小时1000次查询,在TTL为1小时的情况下;β通常约为0.91;alexa排名r∈[1,Ndomain],Ndomain为域名流行度区间的最大值。
根据2.1各递归IP相互独立,那么某一个CN域名对应来自所有递归IP的总查询速率定义为:总查询指数定义为:
其中:λ'(r)为域名的查询指数,β通常取0.91;
表示为t相关的函数常量;
为流行度区间,t为TTL缓存时间,N为域名的递归查询量。
其中,cm为常量,t为TTL值。
通过求解上述模型,我们得到给定域名的查询指数λ'(r)。
3)递归聚类
由于在CN权威日志中出现的递归服务器数量众多,为建立CN权威日志原始查询量与查询指数的关系方程,我们基于递归服务器在权威日志中的递归IP访问查询量以及递归IP访问的独立域名个数对步骤1)过滤后的递归IP访问进行聚类。采用的聚类方法是k-means,聚类的个数为24。
4)域名聚类
同样采用k-means方法,基于2步骤中得到的域名查询指数以及域名whois注册机构所在地,对域名进行聚类,聚类的个数为6。
5)域名的递归IP访问查询量与查询指数的关系方程
通过上述几步的处理之后,我们建立如下方程。
T=∑Ri×qj,其中Ri=W(tj,dj);通过求解这里的关系方程,得到相应的变量值,即W(tj,dj)的值。
■符号说明
1.递归服务器rj(1<=j<=n,其中n为递归服务器的个数),它对网站d的访问量为qj,它的总访问量为tj,它访问的不同域名个数为dj;
2.λ'(r)为网站的查询指数。
3.权重函数W,(它用于对递归服务器rj按照tj以及dj进行划分,W(tj,dj)→Ri,其中Ri是rj的权重)。
■算法伪代码:
Input:{[tj,dj],1<=j<=n,其中n为递归服务器的个数}
Output:权重函数W
1.对rj按照W进行划分(1<=j<=n,其中n为递归服务器的个数),计算这个域名d的总体访问量T=∑Ri×qj(其中Ri=W(tj,dj))。
2.T=λ'(r)。
3.使用svd方法对方程W进行求解,得到上面的权重,即到每一Ri值。
将递归服务器按照其所在省份进行划分,相应省份c的访问比例是(rj来自省份c,其访问量为qj,λ'(r)为网站的查询指数,Ri是rj的权重),但是由于上述模型未考虑省份因素,使得最终求解的网站的省份访问比例存在偏差。因此我们提出了一种基于域名查询指数聚类的协同推荐方法,来修正网站的省份访问分布。
6)基于域名查询指数聚类的协同推荐
令网站d在来自省份i的各类递归的查询指数为(di1,di2...di24),我们一共划分了24类递归,其中dij=∑Rlqij,递归服务器rij来自省份i,并且它的分类是j,qij为它对网站d的原始查询量,Rl为对应递归的权重系数。基于每个网站的各类递归IP的查询指数计算他们之间的相关性,然后每一类网站选取一个中心点。假设网站e为某类网站的中心点,其中来自省份i各类递归的查询指数为(ei1,ei2...ei24);通过分析网站e的访问日志,得到其在各个省份的用户访问比例(pe1,pe2...pe24),则网站d在省份i的查询指数为其中cos{(em1,em2...em24),(di1,di2...di24)}=min(cos{(en1,en2...en24),(di1,di2...di24)})(1≤n≤34)最后网站d在省份i的用户访问比例
实验:
我们以4.20到4.26的cn权威日志为基础数据。计算北京市政府类网站的用户访问情况。
第一步得到查询量符合幂率分布的递归ip,按照相应ip地址的前24位前缀进行统计,共有5889个不同的ip地址前缀。
第二步计算上述相应网站的查询指数,比如bjgjj.gov.cn的查询指数为557926234。
第三步使用k-means方法,对第一步汇总得到的ip集合进行聚类,得到24类递归。
第四步同样使用k-means方法,对北京市政府类域名进行聚类,得到6类域名。
第五步使用svd方法,对每一类域名求解建立的域名查询量与查询指数方程,得到24个递归的权重系数。例如对于上述得到的第3类域名,对应的权重系数为
[-4790.38829,-5869.58865,3457.39308,-6750.25327,-20922.51359,815.03235,33238.17777,-3152.63177,-16132.26548,12953.66946,-25415.58789,9803.69452,-1629.29333,28001.93686,22557.93653,9092.60519,-3488.86506,-1708.48510,14056.61720,1126.07780,8992.45893,612.16929,-22535.55280,-1238.25172]
第六步对于每一类域名,计算相应的省份分布。例如对于第3类网站一共有134个网站,其中有94个网站与cpweb.gov.cn网站在查询指数向量上的相似性超过70%。选取它为中心点。对于3类网站中的其他网站,通过上述公式计算省份访问分布。
例如abp.gov.cn,其对应的省份访问分布如下:
北京市200929.31
广东省6315.53
浙江省1842.26
安徽省1593.27
上海市1306.41
江苏省1090.69
河南省994.27
天津市824.73
湖南省653.00
吉林省132.60
湖北省73.64
福建省17.29
香港特别行政区1.56
四川省0.84
甘肃省0.64
江西省0.13。
Claims (6)
1.一种DNS权威日志信息挖掘处理方法,其步骤为:
1)权威服务器根据DNS权威日志统计每一递归服务器R的递归IP访问,得到该递归服务器R的访问统计量(d1,d2...dn),其中第i个分量di表示递归服务器R向权威服务器访问第i个域名的访问量;判断递归服务器R的访问统计量(d1,d2...dn)是否符合幂率分布,如果不符合则过滤掉该访问统计量(d1,d2...dn);
2)权威服务器根据递归服务器访问的独立域名个数和递归IP访问量对步骤1)过滤后的递归IP访问进行聚类;
3)根据alexa排名、域名ttl以及DNS权威日志计算域名查询指数;
4)基于域名查询指数以及域名whois注册机构所在地,对递归IP访问的域名进行聚类;
5)根据步骤2)、步骤4)的聚类结果建立每一类域名的递归IP访问量与域名查询指数的关系方程,根据该关系方程求解出每一类域名的递归IP访问分布。
2.如权利要求1所述的方法,其特征在于,所述域名查询指数为其中,r为alexa排名,r∈[1,Ndomain],Ndomain为当前域名的域名流行度区间的最大值,为流行度区间,t为TTL缓存时间,N为当前域名的递归IP访问量,β、cm分别为一常量。
3.如权利要求1或2所述的方法,其特征在于,所述关系方程为:T=ΣRi×qj,其中Ri=W(tj,dj);递归服务器rj对网站d的访问量为qj,递归服务器rj的总访问量为tj,递归服务器rj访问的不同域名个数为dj;权重函数W用于对递归服务器rj按照tj以及dj进行划分,即W(tj,dj)→Ri,Ri是递归服务器rj的权重,rj为步骤2)得到的第j个聚类结果,T为域名d的总体访问量。
4.如权利要求1或2所述的方法,其特征在于,所述步骤2)、步骤4)的聚类方法均为k-means聚类方法。
5.如权利要求1所述的方法,其特征在于,所述递归IP访问分布为网站的省份访问分布;首先,对于每一网站d,计算来自省份i的第j类递归的查询指数为dij=ΣRlqij,递归服务器rij来自省份i,并且它的分类是j,qij为递归服务器rij对网站d的原始查询量,Rl为递归服务器rij的权重系数;然后根据各网站的各类递归IP的查询指数计算他们之间的相关性,为每一类网站选取一个中心点;然后根据每类网站的中心点e的访问日志,得到其在各个省份的用户访问比例,则网站d在省份i的查询指数为其中,pem为中心点e来自省份m的用户访问比例;M为网站类别总数,qe为中心点e的查询指数,emj为来自省份m的第j类网站中心点e的递归查询指数;最后,网站d在省份i的用户访问比例 J为省份总数。
6.如权利要求5所述的方法,其特征在于,利用公式cos{(em1,em2...emM),(di1,di2...diM)}=min(cos{(en1,en2...enM),(di1,di2...diM)})计算每一emj的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510831485.3A CN105357335B (zh) | 2015-11-25 | 2015-11-25 | 一种dns权威日志信息挖掘处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510831485.3A CN105357335B (zh) | 2015-11-25 | 2015-11-25 | 一种dns权威日志信息挖掘处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105357335A true CN105357335A (zh) | 2016-02-24 |
CN105357335B CN105357335B (zh) | 2019-01-04 |
Family
ID=55333194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510831485.3A Active CN105357335B (zh) | 2015-11-25 | 2015-11-25 | 一种dns权威日志信息挖掘处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105357335B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071084A (zh) * | 2017-04-01 | 2017-08-18 | 北京神州绿盟信息安全科技股份有限公司 | 一种dns的评价方法和装置 |
CN110535982A (zh) * | 2019-09-05 | 2019-12-03 | 赛尔网络有限公司 | 基于DNS over TLS的排名统计方法、装置、系统及介质 |
CN111385357A (zh) * | 2020-03-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种网络资源的管理方法以及相关装置 |
CN114050912A (zh) * | 2021-09-30 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于深度强化学习的恶意域名检测方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902505A (zh) * | 2009-05-31 | 2010-12-01 | 中国科学院计算机网络信息中心 | 一种分布式dns查询日志的实时统计装置及方法 |
-
2015
- 2015-11-25 CN CN201510831485.3A patent/CN105357335B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902505A (zh) * | 2009-05-31 | 2010-12-01 | 中国科学院计算机网络信息中心 | 一种分布式dns查询日志的实时统计装置及方法 |
Non-Patent Citations (1)
Title |
---|
尉迟学彪,李晓东等: "DNS服务中的Internet访问行为测量研究", 《计算机工程与应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071084A (zh) * | 2017-04-01 | 2017-08-18 | 北京神州绿盟信息安全科技股份有限公司 | 一种dns的评价方法和装置 |
CN107071084B (zh) * | 2017-04-01 | 2019-07-26 | 北京神州绿盟信息安全科技股份有限公司 | 一种dns的评价方法和装置 |
US11431742B2 (en) | 2017-04-01 | 2022-08-30 | NSFOCUS Information Technology Co., Ltd. | DNS evaluation method and apparatus |
CN110535982A (zh) * | 2019-09-05 | 2019-12-03 | 赛尔网络有限公司 | 基于DNS over TLS的排名统计方法、装置、系统及介质 |
CN111385357A (zh) * | 2020-03-04 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种网络资源的管理方法以及相关装置 |
CN112261153A (zh) * | 2020-03-04 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 一种网络资源的管理方法以及相关装置 |
CN112261153B (zh) * | 2020-03-04 | 2021-07-13 | 腾讯科技(深圳)有限公司 | 一种网络资源的管理方法以及相关装置 |
CN114050912A (zh) * | 2021-09-30 | 2022-02-15 | 中国科学院信息工程研究所 | 一种基于深度强化学习的恶意域名检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105357335B (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Real-time and spatio-temporal crowd-sourced social network data publishing with differential privacy | |
CN110462604B (zh) | 基于设备使用关联互联网设备的数据处理系统和方法 | |
Liu et al. | Location-aware and personalized collaborative filtering for web service recommendation | |
CN110290116B (zh) | 一种基于知识图谱的恶意域名检测方法 | |
Gu et al. | Privacy on the edge: Customizable privacy-preserving context sharing in hierarchical edge computing | |
Zhang et al. | Quality-aware user recruitment based on federated learning in mobile crowd sensing | |
CN105357335A (zh) | 一种dns权威日志信息挖掘处理方法 | |
CN103716282B (zh) | 一种修正ip库的方法和系统 | |
Girardin et al. | How helpful are spatial effects in forecasting the growth of Chinese provinces? | |
CN106528777A (zh) | 跨屏用户标识归一的方法及其系统 | |
CN109564616A (zh) | 个人信息去标识化方法及装置 | |
CN110727663A (zh) | 数据清洗方法、装置、设备及介质 | |
Wang et al. | Discover community leader in social network with PageRank | |
Wu | Geographical knowledge diffusion and spatial diversity citation rank | |
Jin et al. | Modeling mass protest adoption in social network communities using geometric brownian motion | |
CN114328962A (zh) | 一种基于知识图谱的web日志异常行为识别方法 | |
Li et al. | Street-Level Landmarks Acquisition Based on SVM Classifiers. | |
Li et al. | Street-level landmark evaluation based on nearest routers | |
Bao et al. | Privacy-preserving collaborative filtering algorithm based on local differential privacy | |
CN107239542A (zh) | 一种数据统计方法、装置、服务器及存储介质 | |
Abbas et al. | Co-evolving popularity prediction in temporal bipartite networks: A heuristics based model | |
Zhang et al. | Ecological network analysis of embodied energy exchanges among the seven regions of China | |
Li et al. | Privacy-preserving cost minimization in mobile crowd sensing supported by edge computing | |
CN105871891B (zh) | 一种dns隐私泄露风险评估方法及系统 | |
Li et al. | LandmarkMiner: Street-level network landmarks mining method for IP geolocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |