CN105357335A

CN105357335A - 一种dns权威日志信息挖掘处理方法

Info

Publication number: CN105357335A
Application number: CN201510831485.3A
Authority: CN
Inventors: 李晓东; 李洪涛; 刘继勇; 董陆阳; 肖中南; 杨学
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2016-02-24
Anticipated expiration: 2035-11-25
Also published as: CN105357335B

Abstract

本发明公开了一种DNS权威日志信息挖掘处理方法。本方法为：1)权威服务器根据DNS权威日志统计每一递归服务器R的递归IP访问，得到该递归服务器R的访问统计量；2)权威服务器根据递归服务器访问的独立域名个数和递归IP访问量对步骤1)过滤后的递归IP访问进行聚类；3)根据alexa排名、域名ttl以及DNS权威日志计算域名查询指数；4)基于域名查询指数以及域名whois注册机构所在地，对递归IP访问的域名进行聚类；5)根据步骤2)、步骤4)的聚类结果建立每一类域名的递归IP访问量与域名查询指数的关系方程，根据该关系方程求解出每一类域名的递归IP访问分布。本发明能够准确反映实际用户的查询行为。

Description

一种DNS权威日志信息挖掘处理方法

技术领域

本发明涉及一种基于DNS权威日志的信息挖掘处理方法，属于数据挖掘技术领域。

背景技术

域名系统(DNS)实现了IP地址和域名之间的转换，是互联网最关键的基础设施和其他丰富应用的基础。几乎所有基于IP网络的信息通信服务都要通过域名访问来定位相应的网络资源。CNDNS日志中蕴含了数以亿计的互联网络用户与负责千万级CN国家域名解析系统之间的交互，因此，CNDNS日志记载了用户访问域名的情况，蕴藏了丰富的互联网访问信息。

CN权威服务器记录的是来自全球各递归服务器的查询信息，互联网用户通过递归IP访问CN权威服务器时，由于缓存等因素的影响，原始的用户查询很难暴露在权威服务器，因此，提出DNS日志信息挖掘过程中需要处理的影响因素并给出相应的解决方法，对CN权威日志的数据挖掘有着重要意义。

发明内容

DNS权威日志蕴含了重要的价值，但是由于DNS镜像服务，DNSTTL缓存策略以及大量网络应用系统干扰，使得CN权威的原始查询量不能反映实际用户的查询行为。因此本发明提出了一种全新的方法来得到用户访问网站的真实查询行为。

本发明的技术方案为：

一种DNS权威日志信息挖掘处理方法，其步骤为：

1)权威服务器根据DNS权威日志统计每一递归服务器R的递归IP访问，得到该递归服务器R的访问统计量⁽d₁,d₂...d_n)，其中第i个分量d_i表示递归服务器R向权威服务器访问第i个域名的访问量；判断递归服务器R的访问统计量(d₁,d₂...d_n)是否符合幂率分布，如果不符合则过滤掉该访问统计量(d₁,d₂...d_n)；

2)权威服务器根据递归服务器访问的独立域名个数和递归IP访问量对步骤1)过滤后的递归IP访问进行聚类；

3)根据alexa排名、域名ttl以及DNS权威日志计算域名查询指数；

4)基于域名查询指数以及域名whois注册机构所在地，对递归IP访问的域名进行聚类；

5)根据步骤2)、步骤4)的聚类结果建立每一类域名的递归IP访问量与域名查询指数

的关系方程，根据该关系方程求解出每一类域名的递归IP访问分布。

进一步的，所述域名查询指数为其中，r为alexa排名，r∈[1,N_domain]，N_domain为当前域名的域名流行度区间的最大值，为流行度区间，t为TTL缓存时间，N为当前域名的递归IP访问量，β、c_m分别为一常量。

进一步的，所述关系方程为：T＝∑R_i×q_j，其中R_i＝W(t_j,d_j)；递归服务器r_j对网站d的访问量为q_j，递归服务器r_j的总访问量为t_j，递归服务器r_j访问的不同域名个数为d_j；权重函数W用于对递归服务器r_j按照t_j以及d_j进行划分，即W(t_j,d_j)→R_i，R_i是递归服务器r_j的权重，r_j为步骤2)得到的第j个聚类结果，T为域名d的总体访问量。

进一步的，所述步骤2)、步骤4)的聚类方法均为k-means聚类方法。

进一步的，所述递归IP访问分布为网站的省份访问分布；首先，对于每一网站d，计算来自省份i的第j类递归的查询指数为d_ij＝∑R_lq_ij,递归服务器r_ij来自省份i,并且它的分类是j,q_ij为递归服务器r_ij对网站d的原始查询量,R_l为递归服务器r_ij的权重系数；然后根据各网站的各类递归IP的查询指数计算他们之间的相关性，为每一类网站选取一个中心点；然后根据每类网站的中心点e的访问日志，得到其在各个省份的用户访问比例,则网站d在省份i的查询指数为其中，p_em为中心点e来自省份m的用户访问比例；M为网站类别总数，q_e为中心点e的查询指数，e_mj为来自省份m的第j类网站中心点e的递归查询指数；最后，网站d在省份i的用户访问比例J为省份总数。

进一步的，利用公式cos{(e_m1,e_m2...e_mM),(d_i1,d_i2...d_iM)}＝min(cos{(e_n1,e_n2...e_nM),(d_i1,d_i2...d_iM)})计算每一e_mj的值。

与现有技术相比，本发明的优点：

1)通过研究TTL与域名流行度的关系，对域名的查询指数进行计算，消除缓存对域名查询量的影响。

2)基于网络幂率分布，对递归到权威的原始查询量进行预处理，排除不符合幂率分布的递归。

3)经过递归聚类以及域名聚类处理，建立域名原始查询量与查询指数的关系方程，进而得到某类递归IP访问某类域名的权重向量。

4)通过基于域名查询指数聚类的协同推荐方法，得到具体的网站的用户访问分布。

附图说明

图1为本发明的建模流程图；

图2为本发明的异常递归过滤流程图。

具体实施方式

下面结合附图对本发明的具体实施方法进行进一步详细描述。

一般而言，在一定时间周期内，用户通过某类递归服务器访问某类网站的访问行为相对固定，用户使用的递归服务器的数量相对稳定且某类网站的访问用户的省份分布是相对固定的。我们通过挖掘分析DNS权威日志，得到了以下两类信息

1.对指定的网站给出相应的用户访问省份分布；

2.对于一类网站，给出各个省份的用户访问分布比例。

本节将详细介绍整个建模流程与方法

总体建模流程

本发明方案仅依赖于alexa排名，域名ttl以及cn权威日志，整体建模包括：异常递归过滤，查询指数计算，递归聚类，域名聚类，域名原始查询量与查询指数关系方程求解以及基于域名查询指数聚类的协同推荐。整体的流程图如图1所示。

1)异常递归的过滤

由于网络爬虫，应用系统的干扰导致递归服务器的访问行为无法真实的反应用户的访问行为。因此，为了尽可能的去除这种异常递归的干扰，我们提出了一种基于复杂网络幂率分布的异常递归过滤方法。假设递归服务器R在权威日志中的访问统计量为向量(d₁,d₂...d_n)，通过对权威日志在网站维度行聚合统计可得到此向量，其中d₁≥d₂≥d₃...≥d_n,d_i表示递归服务器R向权威服务器访问第i个域名的访问量。当递归服务器R的域名访问量不符合幂率分布时，标记其为异常，将其剔除掉。整个流程如图2所示。

2)查询指数计算

互联网用户通过递归服务器IP访问CN权威服务器时，由于缓存等因素的影响，原始的用户查询很难暴露在权威服务器，因此，本文提出基于来自递归服务器的查询来评估访问特定域名的查询指数的方法。

2.1)前置条件

根据DNS数据情况的分析证明，通过递归IP上网用户查询相互独立，各递归IP相互独立。

2.2)模型

λ (r) = \frac{b}{r^{β}} ...... (1)

其中，λ(r)表示某一个递归IP对应某一个域名的查询速率；b为该递归IP对应该域名的常量，比如取1000，代表每小时1000次查询，在TTL为1小时的情况下；β通常约为0.91；alexa排名r∈[1,N_domain]，N_domain为域名流行度区间的最大值。

根据2.1各递归IP相互独立，那么某一个CN域名对应来自所有递归IP的总查询速率定义为：总查询指数定义为:

其中：λ'(r)为域名的查询指数，β通常取0.91；

表示为t相关的函数常量；

为流行度区间，t为TTL缓存时间，N为域名的递归查询量。

其中，c_m为常量，t为TTL值。

通过求解上述模型，我们得到给定域名的查询指数λ'(r)。

3)递归聚类

由于在CN权威日志中出现的递归服务器数量众多，为建立CN权威日志原始查询量与查询指数的关系方程，我们基于递归服务器在权威日志中的递归IP访问查询量以及递归IP访问的独立域名个数对步骤1)过滤后的递归IP访问进行聚类。采用的聚类方法是k-means，聚类的个数为24。

4)域名聚类

同样采用k-means方法，基于2步骤中得到的域名查询指数以及域名whois注册机构所在地，对域名进行聚类，聚类的个数为6。

5)域名的递归IP访问查询量与查询指数的关系方程

通过上述几步的处理之后，我们建立如下方程。

T＝∑R_i×q_j，其中R_i＝W(t_j,d_j)；通过求解这里的关系方程，得到相应的变量值，即W(t_j,d_j)的值。

■符号说明

1_.递归服务器r_j(1＜＝j＜＝n,其中n为递归服务器的个数)，它对网站d的访问量为q_j，它的总访问量为t_j,它访问的不同域名个数为d_j；

2.λ'(r)为网站的查询指数。

3.权重函数W,(它用于对递归服务器r_j按照t_j以及d_j进行划分，W(t_j,d_j)→R_i,其中R_i是r_j的权重)。

■算法伪代码:

Input:{[t_j,d_j],1＜＝j＜＝n,其中n为递归服务器的个数}

Output:权重函数W

1.对r_j按照W进行划分(1＜＝j＜＝n,其中n为递归服务器的个数)，计算这个域名d的总体访问量T＝∑R_i×q_j(其中R_i＝W(t_j,d_j))。

2.T＝λ'(r)。

3.使用svd方法对方程W进行求解，得到上面的权重，即到每一R_i值。

将递归服务器按照其所在省份进行划分，相应省份c的访问比例是(r_j来自省份c,其访问量为q_j,λ'(r)为网站的查询指数,R_i是r_j的权重)，但是由于上述模型未考虑省份因素，使得最终求解的网站的省份访问比例存在偏差。因此我们提出了一种基于域名查询指数聚类的协同推荐方法，来修正网站的省份访问分布。

6)基于域名查询指数聚类的协同推荐

令网站d在来自省份i的各类递归的查询指数为(d_i1,d_i2...d_i24),我们一共划分了24类递归，其中d_ij＝∑R_lq_ij,递归服务器r_ij来自省份i,并且它的分类是j,q_ij为它对网站d的原始查询量,R_l为对应递归的权重系数。基于每个网站的各类递归IP的查询指数计算他们之间的相关性，然后每一类网站选取一个中心点。假设网站e为某类网站的中心点,其中来自省份i各类递归的查询指数为(e_i1,e_i2...e_i24)；通过分析网站e的访问日志，得到其在各个省份的用户访问比例(p_e1,p_e2...p_e24),则网站d在省份i的查询指数为其中cos{(e_m1,e_m2...e_m24),(d_i1,d_i2...d_i24)}＝min(cos{(e_n1,e_n2...e_n24),(d_i1,d_i2...d_i24)})(1≤n≤34)最后网站d在省份i的用户访问比例

p_{i} = \frac{d_{i}}{{Σd}_{n}}, (1 \leq n \leq 34) .

实验:

我们以4.20到4.26的cn权威日志为基础数据。计算北京市政府类网站的用户访问情况。

第一步得到查询量符合幂率分布的递归ip，按照相应ip地址的前24位前缀进行统计，共有5889个不同的ip地址前缀。

第二步计算上述相应网站的查询指数，比如bjgjj.gov.cn的查询指数为557926234。

第三步使用k-means方法，对第一步汇总得到的ip集合进行聚类，得到24类递归。

第四步同样使用k-means方法，对北京市政府类域名进行聚类，得到6类域名。

第五步使用svd方法，对每一类域名求解建立的域名查询量与查询指数方程，得到24个递归的权重系数。例如对于上述得到的第3类域名，对应的权重系数为

[-4790.38829，-5869.58865，3457.39308，-6750.25327，-20922.51359，815.03235，33238.17777，-3152.63177，-16132.26548，12953.66946，-25415.58789，9803.69452，-1629.29333，28001.93686，22557.93653，9092.60519，-3488.86506，-1708.48510，14056.61720，1126.07780，8992.45893，612.16929，-22535.55280，-1238.25172]

第六步对于每一类域名，计算相应的省份分布。例如对于第3类网站一共有134个网站，其中有94个网站与cpweb.gov.cn网站在查询指数向量上的相似性超过70％。选取它为中心点。对于3类网站中的其他网站，通过上述公式计算省份访问分布。

例如abp.gov.cn，其对应的省份访问分布如下：

北京市200929.31

广东省6315.53

浙江省1842.26

安徽省1593.27

上海市1306.41

江苏省1090.69

河南省994.27

天津市824.73

湖南省653.00

吉林省132.60

湖北省73.64

福建省17.29

香港特别行政区1.56

四川省0.84

甘肃省0.64

江西省0.13。

Claims

1.一种DNS权威日志信息挖掘处理方法，其步骤为：

1)权威服务器根据DNS权威日志统计每一递归服务器R的递归IP访问，得到该递归服务器R的访问统计量(d₁,d₂...d_n)，其中第i个分量d_i表示递归服务器R向权威服务器访问第i个域名的访问量；判断递归服务器R的访问统计量(d₁,d₂...d_n)是否符合幂率分布，如果不符合则过滤掉该访问统计量(d₁,d₂...d_n)；

3)根据alexa排名、域名ttl以及DNS权威日志计算域名查询指数；

5)根据步骤2)、步骤4)的聚类结果建立每一类域名的递归IP访问量与域名查询指数的关系方程，根据该关系方程求解出每一类域名的递归IP访问分布。

2.如权利要求1所述的方法，其特征在于，所述域名查询指数为其中，r为alexa排名，r∈[1,N_domain]，N_domain为当前域名的域名流行度区间的最大值，为流行度区间，t为TTL缓存时间，N为当前域名的递归IP访问量，β、c_m分别为一常量。

3.如权利要求1或2所述的方法，其特征在于，所述关系方程为：T＝ΣR_i×q_j，其中R_i＝W(t_j,d_j)；递归服务器r_j对网站d的访问量为q_j，递归服务器r_j的总访问量为t_j，递归服务器r_j访问的不同域名个数为d_j；权重函数W用于对递归服务器r_j按照t_j以及d_j进行划分，即W(t_j,d_j)→R_i，R_i是递归服务器r_j的权重，r_j为步骤2)得到的第j个聚类结果，T为域名d的总体访问量。

4.如权利要求1或2所述的方法，其特征在于，所述步骤2)、步骤4)的聚类方法均为k-means聚类方法。

5.如权利要求1所述的方法，其特征在于，所述递归IP访问分布为网站的省份访问分布；首先，对于每一网站d，计算来自省份i的第j类递归的查询指数为d_ij＝ΣR_lq_ij,递归服务器r_ij来自省份i,并且它的分类是j,q_ij为递归服务器r_ij对网站d的原始查询量,R_l为递归服务器r_ij的权重系数；然后根据各网站的各类递归IP的查询指数计算他们之间的相关性，为每一类网站选取一个中心点；然后根据每类网站的中心点e的访问日志，得到其在各个省份的用户访问比例,则网站d在省份i的查询指数为其中，p_em为中心点e来自省份m的用户访问比例；M为网站类别总数，q_e为中心点e的查询指数，e_mj为来自省份m的第j类网站中心点e的递归查询指数；最后，网站d在省份i的用户访问比例

p_{i} = \frac{d_{i}}{{Σd}_{j}}, 1 \leq j \leq J,

J为省份总数。

6.如权利要求5所述的方法，其特征在于，利用公式cos{(e_m1,e_m2...e_mM),(d_i1,d_i2...d_iM)}＝min(cos{(e_n1,e_n2...e_nM),(d_i1,d_i2...d_iM)})计算每一e_mj的值。