CN105704260A

CN105704260A - 一种互联网流量来源去向的分析方法

Info

Publication number: CN105704260A
Application number: CN201610231212.XA
Authority: CN
Inventors: 张大顺
Original assignee: SHANGHAI YAMU COMMUNICATION TECHNOLOGY Co Ltd
Current assignee: Yamu Technology Co.,Ltd.
Priority date: 2016-04-14
Filing date: 2016-04-14
Publication date: 2016-06-22
Anticipated expiration: 2036-04-14
Also published as: RU2702048C1; JP7075348B2; JP2019514303A; CN105704260B; WO2017177591A1; GB2564057A

Abstract

本发明提出了一种互联网流量来源去向的分析方法，其通过处理DNS日志来获得互联网流量的来源与去向，包括如下步骤：日志过滤步骤，过滤无法反映用户真实访问路径的DNS日志；日志切分步骤，对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分，获得切分后的访问路径；以及数据汇总步骤，将所有所述切分后的访问路径进行汇总。通过本发明的分析方法，能够掌握互联网流量的来源和去向，从而能够更好地帮助网站进行网站流量的分析和优化；进一步地，通过完整地了解整个互联网的流量的流向情况，可以从全局的角度进行分析并了解其他网站的流量情况。

Description

一种互联网流量来源去向的分析方法

技术领域

本发明涉及互联网DNS域名解析领域，尤其涉及一种互联网流量来源去向的分析方法。

背景技术

所谓互联网流量的来源去向是指用户先访问了什么网站然后又去了什么网站等一系列的网站访问路径。关于如何确认网站的流量来源，业界的主流方式只有一种，就是在网站的页面上添加JavaScript监测代码。最常见的就是第三方检测工具，如googleanalytics和百度统计等。

上述统计方法有很大的局限性，每个网站只能知道访客上一个访问的网站，没有办法获悉这个访客之前访问的多个网站，更加没有办法了解这个访客离开自己网站后会去哪里。DNS(DomainNameSystem，域名系统)，是因特网上作为域名和IP地址相互映射的一个分布式数据库，能够使用户更方便的访问互联网，而不用去记住能够被机器直接读取的IP数串。“DNS域名解析技术”是指：当用户需要访问一个网站时，他需要在浏览器中输入这个网站的域名。敲击回车后浏览器会先发起一个DNS请求，通过DNS技术，浏览器可以获取这个域名对应的服务器IP地址，然后再对这个IP地址发起HTTP请求。

DNS日志会记录每次DNS请求的应答内容，几乎能记录所有用户请求的域名信息。不过日志中会包含太多的异常和无效的信息，例如服务器也会发起DNS请求从而产生大量的域名信息，互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反应用户的真实访问路径的。

目前市场上没有能够很好分析互联网访客的整个访问路径的方法，而本发明则弥补了这一空缺，是一种通过对DNS日志的再处理来分析网站的流量分别来自哪些网站，离开后又去了哪些网站的方法。

发明内容

鉴于上述缺陷的存在，本发明提出了一种互联网流量来源去向的分析方法，通过本发明方法，尽可能地清洗掉日志中非人为访问的行为，能够有效地获得互联网流量的来源和去向。

本发明的一种互联网流量来源去向的分析方法，通过处理DNS日志来获得互联网流量的来源与去向，包括如下步骤：

日志过滤步骤，过滤无法反映用户真实访问路径的DNS日志；日志切分步骤，对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分，获得切分后的访问路径；以及数据汇总步骤，将所有所述切分后的访问路径进行汇总。

优选地，日志过滤步骤通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。

优选地，去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。

优选地，根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。

优选地，所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据DNS日志的时间戳之间的差进行切分，如果两个DNS日志的时间戳之间的差大于规定时间长度，则切开所述两个DNS日志。

优选地，所述规定时间长度为3秒。

优选地，根据时间戳之差对DNS日志进行切分步骤后还包括合并步骤，对切分获得的访问路径中的域名转化成域，并将连续相同的域合并，以获得所述源IP的路径。

优选地，所述根据中心域进行切分是以中心域为基准对所述源IP的路径进行切分，切分后获得的访问路径为：来源域名n+…+来源域名1+中心域名+去向域名1+…+去向域名n，其中，所述中心域是根据用户/系统需求确定要重点分析的域。

优选地，所述数据汇总步骤中，对根据所述中心域切分步骤后获得的所述源IP的所有访问路径进行汇总。

通过本发明的分析方法，能够掌握互联网流量的来源和去向，从而能够更好地帮助网站进行网站流量的分析和优化；进一步地，通过完整地了解整个互联网的流量的流向情况，可以从全局的角度进行分析并了解其他网站的流量情况，做到知己知彼。

附图说明

图1(a)、图1(b)是本发明的互联网流量来源去向的分析方法的流程图；

图2(a)、图2(b)是通过本发明的互联网流量来源去向的分析方法获得的流量来源的示意图。

具体实施方式

以下，将结合附图和实施例对发明进行详细说明。以下实施例并不是对本发明的限制。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中。

如前所提到的，DNS(DomainNameSystem，域名系统)，是因特网上作为域名和IP地址相互映射的一个分布式数据库，能够使用户更方便的访问互联网，而不用去记住能够被机器直接读取的IP数串。当用户访问一个网站时，先在浏览器中输入这个网站的域名，敲击回车后浏览器会先发起一个DNS请求，通过DNS技术，浏览器可以获取这个域名对应的服务器IP地址，然后再对这个IP地址发起HTTP请求。这就是DNS域名解析技术。

在上述域名解析的过程中，会产生DNS日志。DNS日志会记录每次DNS请求的应答内容，几乎能记录所有用户请求的域名信息。DNS日志的格式如下所示：

14.***.***.10|www.baidu.com|20141211035932|180.***.***.107；180.***.***.108|0

源IP|域名|时间戳|解析IP|状态码

即DNS日志包括“源IP”，“域名”，“时间戳”，“解析IP”和“状态码”五部分内容。

由于DNS日志中包括了所有用户请求的域名信息，本发明人由此想到通过对DNS日志的再处理来分析网站的流量的来源和去向。但是DNS日志中也包括了很多异常和无效的信息，例如服务器也会发起DNS请求从而产生大量的域名信息，互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反映用户的真实访问路径的。基于上述的情况，本发明人想到了通过尽可能地清洗掉日志中非人为访问的行为，来有效地获得互联网流量的来源和去向。

图1是本发明的互联网流量来源去向的分析方法的流程图。如图1所示，本发明的互联网流量来源去向的分析方法包括如下步骤。

首先，过滤无法反映用户真实访问路径的DNS日志(步骤S1)。如前所述，由于DNS请求中包括了很多无法真实有效地反映用户的真实访问路径的域名，因此需要进行清洗。例如通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。通过设置黑名单可以去除服务器产生的非人为的域名请求。通过设置白名单可以保留重点关注的某些域名。白名单优先级高于黑名单。另外，去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。其中，去除企业IP，是因为企业IP会产生多人的同时访问日志，影响对个人访问轨迹的判断；去除没有解析IP的日志，即去除访问失败的日志。通过不同的维度进行日志过滤，从而可以获得反映用户真实访问路径的DNS日志。

接下来对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分，获得切分后的域(步骤S2)。

详细步骤如下：

1)根据源IP切分(步骤S21)。根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。

例如，源IP1.1.1.1和源IP2.2.2.2是不同源IP所以将日志切分。如下所示：

源IP|域名|时间戳|解析IP|状态码

1.1.1.1|www.baidu.com|20141211035932|180.***.***.107；180.***.***.108|0

1.1.1.1|www.qq.com|20141211035932|180.***.***.107；180.***.***.108|0

---------------------------------------日志切割线-----------------------------------------

2.2.2.2|www.baidu.com|20141211035932|180.***.***.107；180.***.***.108|0

2.2.2.2|www.qq.com|20141211035932|180.***.***.107；180.***.***.108|0

2)接下来将按照源IP切分好的日志根据时间戳之差再进行切分(步骤S22)。根据时间戳之差切分是指对根据源IP切分后的日志再根据DNS日志的时间戳之间的差值进行切分。如果两个DNS日志的时间戳之间的差大于规定时间长度，则切开这两个DNS日志(切分的原因是日志的时间间隔过久则被认为是两个不同的行为)。该规定时间长度可以根据需要调整。本实施例中，所述规定时间长度为3秒，即时间戳相隔大于3秒会被切分开。

例如，对源IP2.2.2.2的DNS日志进一步根据其时间戳之差值进行切分，如下所示。(时间戳20141211035932表示2014年12月11日3点59分32秒)

源IP|域名|时间戳|解析IP|状态码

2.2.2.2|www.baidu.com|20141211000001|180.***.***.107；180.***.***.108|0

2.2.2.2|a.qq.com|20141211000002|180.***.***.107；180.***.***.108|0

2.2.2.2|b.baidu.com|20141211000003|180.***.***.107；180.***.***.108|0

2.2.2.2|c.tanx.com|20141211000004|180.***.***.107；180.***.***.108|0

2.2.2.2|c.allyes.com|20141211000005|180.***.***.107；180.***.***.108|0

---------------------------------------日志切割线-------------------------------------------

2.2.2.2|www.sina.com|20141211000009|180.***.***.107；180.***.***.108|0

2.2.2.2|www.qq.com|201412110000015|180.***.***.107；180.***.***.108|0

2.2.2.2|www.qq.com|201412110000019|180.***.***.107；180.***.***.108|0

2.2.2.2|www.a.com|201412110000024|180.***.***.107；180.***.***.108|0

2.2.2.2|www.b.com|201412110000029|180.***.***.107；180.***.***.108|0

如上所示，由于时间戳20141211000005的05秒和20141211000009的09秒之间相差4秒(大于3秒)，所以日志被切开。20141211000009和201412110000015之间相差6秒，所以也被切开。

如上所示，日志共被切分成了6段。第一段的日志中源IP：2.2.2.2访问了5个域名，www.baidu.com，a.qq.com，b.baidu.com，c.tanx.com，c.allyes.com。根据用户访问行为的判断方法，可以得出用户实际上只访问了www.baidu.com，剩余的4个域名只是在用户点击www.baidu.com之后附带产生的域名请求，并不是用户的真实访问行为。所以第一段日志可以得出用户访问了www.baidu.com这个域名的路径。这里提到的用户访问行为的判定方法是这样的：当一个用户点击一个url时，除了请求当前url的域名外还会请求一些其他的域名。通过爬虫技术可以获取该url域名请求后的所有其他域名请求，将爬取的一系列域名请求和DNS日志中切分出来的域名段进行匹配可以得出该DNS日志和用户实际访问的域名的对应关系。由此方法得出的对应关系可以知道这段日志反应了用户实际是访问了www.baidu.com。第二段日志只有www.sina.com，所以www.sina.com就是用户访问的域名路径。

将以上日志的路径连起来后，如下所示：

www.baidu.com>www.sina.com>www.qq.com>www.qq.com>www.a.com>www.b.com

再将上述根据时间戳之差切分获得的路径按相同的域进行合并，这里按二级域进行合并，合并后结果为：

baidu.com>sina.com>qq.com>a.com>b.com

上述这条路径就是该源IP所有访问行为中的一条路径，按这样的规则可以算出所有源IP的所有访问路径。

3)接下来根据中心域对上述结果再切分(步骤S23)。中心域是根据用户/系统需求要重点分析的域，即用户是从哪里来到中心域的，然后又从中心域去了哪些域。例如以日志中a.com为中心域，则如下所示：

baidu.com>sina.com>qq.com>a.com>b.com

例如下面是前述源IP的4个路径，并且只举例每个路径中的中心域前3层的来源域，中心域后的路径处理逻辑和处理中心域之前的路径处理逻辑是一致的。实际的层数可以根据具体需求调整。亦如图2(a)所示。

来源域3>来源域2>来源域1>中心域

路径1：baidu.com>sina.com>qq.com>a.com(中心域)

路径2：sina.com>baidu.com>qq.com>a.com(中心域)

路径3：youku.com>sina.com>baidu.com>a.com(中心域)

路径4：baidu.com>qq.com>youku.com>a.com(中心域)

最后是数据汇总步骤，对前述源IP的所有4个访问路径进行汇总。汇总图如图2(b)所示。

中心域的汇总为4个a.com。

来源域1的汇总为2个qq.com，1个baicu.com，1个youku.com。

来源域2的汇总为2个sina.com，1个baidu.com，1个qq.com。

来源域3的汇总为2个baidu.com，1个sina.com，1个youku.com。

通过如图2(b)这样的可视化绘图可以很清楚的看出访问中心域a.com的用户前一步是访问了哪些域，这些域之前又访问了哪些域，以此类推。

当把所有源IP都按照这个逻辑处理后就能看到整个互联网的流量来源和去向的情况。

通过本发明的上述方法，能够基于要分析的中心域名而掌握其互联网流量的来源和去向，从而能够更好地帮助中心域名网站进行网站流量的分析和优化；进一步地，通过完整地了解整个互联网的流量的流向情况，可以从全局的角度进行分析并了解其他网站的流量情况，做到知己知彼。

综上所述仅为本发明的较佳实施例，并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化与修饰，都应属于本发明的技术范畴。

Claims

1.一种互联网流量来源去向的分析方法，其特征在于，通过处理DNS日志来获得互联网流量的来源与去向，包括如下步骤：

日志过滤步骤，过滤无法反映用户真实访问路径的DNS日志；

日志切分步骤，对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分，获得切分后的访问路径；以及

数据汇总步骤，将所有所述切分后的访问路径进行汇总。

2.根据权利要求1所述的分析方法，其特征在于，日志过滤步骤通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。

3.根据权利要求2所述的分析方法，其特征在于，去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。

4.根据权利要求3所述的分析方法，其特征在于，根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。

5.根据权利要求4所述的分析方法，其特征在于，所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据DNS日志的时间戳之间的差进行切分，如果两个DNS日志的时间戳之间的差大于规定时间长度，则切开所述两个DNS日志。

6.根据权利要求5所述的分析方法，其特征在于，所述规定时间长度为3秒。

7.根据权利要求6所述的分析方法，其特征在于，根据时间戳之差对DNS日志进行切分步骤后还包括合并步骤，对切分获得的访问路径中的域名转化成域，并将连续相同的域合并，以获得所述源IP的路径。

8.根据权利要求7所述的分析方法，其特征在于，所述根据中心域进行切分是以中心域为基准对所述源IP的路径进行切分，切分后获得的访问路径为：

来源域名n+…+来源域名1+中心域名+去向域名1+…+去向域名n，

其中，所述中心域是根据用户/系统需求确定要重点分析的域。

9.根据权利要求8所述的分析方法，其特征在于，所述数据汇总步骤中，对根据所述中心域切分步骤后获得的所述源IP的所有访问路径进行汇总。