CN105704260A - 一种互联网流量来源去向的分析方法 - Google Patents

一种互联网流量来源去向的分析方法 Download PDF

Info

Publication number
CN105704260A
CN105704260A CN201610231212.XA CN201610231212A CN105704260A CN 105704260 A CN105704260 A CN 105704260A CN 201610231212 A CN201610231212 A CN 201610231212A CN 105704260 A CN105704260 A CN 105704260A
Authority
CN
China
Prior art keywords
daily record
source
dns
domain name
com
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610231212.XA
Other languages
English (en)
Other versions
CN105704260B (zh
Inventor
张大顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamu Technology Co.,Ltd.
Original Assignee
SHANGHAI YAMU COMMUNICATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YAMU COMMUNICATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YAMU COMMUNICATION TECHNOLOGY Co Ltd
Priority to CN201610231212.XA priority Critical patent/CN105704260B/zh
Publication of CN105704260A publication Critical patent/CN105704260A/zh
Priority to PCT/CN2016/095672 priority patent/WO2017177591A1/zh
Priority to JP2018554481A priority patent/JP7075348B2/ja
Priority to RU2018139991A priority patent/RU2702048C1/ru
Priority to GB1816212.3A priority patent/GB2564057A/en
Application granted granted Critical
Publication of CN105704260B publication Critical patent/CN105704260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies

Abstract

本发明提出了一种互联网流量来源去向的分析方法,其通过处理DNS日志来获得互联网流量的来源与去向,包括如下步骤:日志过滤步骤,过滤无法反映用户真实访问路径的DNS日志;日志切分步骤,对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分,获得切分后的访问路径;以及数据汇总步骤,将所有所述切分后的访问路径进行汇总。通过本发明的分析方法,能够掌握互联网流量的来源和去向,从而能够更好地帮助网站进行网站流量的分析和优化;进一步地,通过完整地了解整个互联网的流量的流向情况,可以从全局的角度进行分析并了解其他网站的流量情况。

Description

一种互联网流量来源去向的分析方法
技术领域
本发明涉及互联网DNS域名解析领域,尤其涉及一种互联网流量来源去向的分析方法。
背景技术
所谓互联网流量的来源去向是指用户先访问了什么网站然后又去了什么网站等一系列的网站访问路径。关于如何确认网站的流量来源,业界的主流方式只有一种,就是在网站的页面上添加JavaScript监测代码。最常见的就是第三方检测工具,如googleanalytics和百度统计等。
上述统计方法有很大的局限性,每个网站只能知道访客上一个访问的网站,没有办法获悉这个访客之前访问的多个网站,更加没有办法了解这个访客离开自己网站后会去哪里。DNS(DomainNameSystem,域名系统),是因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。“DNS域名解析技术”是指:当用户需要访问一个网站时,他需要在浏览器中输入这个网站的域名。敲击回车后浏览器会先发起一个DNS请求,通过DNS技术,浏览器可以获取这个域名对应的服务器IP地址,然后再对这个IP地址发起HTTP请求。
DNS日志会记录每次DNS请求的应答内容,几乎能记录所有用户请求的域名信息。不过日志中会包含太多的异常和无效的信息,例如服务器也会发起DNS请求从而产生大量的域名信息,互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反应用户的真实访问路径的。
目前市场上没有能够很好分析互联网访客的整个访问路径的方法,而本发明则弥补了这一空缺,是一种通过对DNS日志的再处理来分析网站的流量分别来自哪些网站,离开后又去了哪些网站的方法。
发明内容
鉴于上述缺陷的存在,本发明提出了一种互联网流量来源去向的分析方法,通过本发明方法,尽可能地清洗掉日志中非人为访问的行为,能够有效地获得互联网流量的来源和去向。
本发明的一种互联网流量来源去向的分析方法,通过处理DNS日志来获得互联网流量的来源与去向,包括如下步骤:
日志过滤步骤,过滤无法反映用户真实访问路径的DNS日志;日志切分步骤,对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分,获得切分后的访问路径;以及数据汇总步骤,将所有所述切分后的访问路径进行汇总。
优选地,日志过滤步骤通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。
优选地,去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。
优选地,根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。
优选地,所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据DNS日志的时间戳之间的差进行切分,如果两个DNS日志的时间戳之间的差大于规定时间长度,则切开所述两个DNS日志。
优选地,所述规定时间长度为3秒。
优选地,根据时间戳之差对DNS日志进行切分步骤后还包括合并步骤,对切分获得的访问路径中的域名转化成域,并将连续相同的域合并,以获得所述源IP的路径。
优选地,所述根据中心域进行切分是以中心域为基准对所述源IP的路径进行切分,切分后获得的访问路径为:来源域名n+…+来源域名1+中心域名+去向域名1+…+去向域名n,其中,所述中心域是根据用户/系统需求确定要重点分析的域。
优选地,所述数据汇总步骤中,对根据所述中心域切分步骤后获得的所述源IP的所有访问路径进行汇总。
通过本发明的分析方法,能够掌握互联网流量的来源和去向,从而能够更好地帮助网站进行网站流量的分析和优化;进一步地,通过完整地了解整个互联网的流量的流向情况,可以从全局的角度进行分析并了解其他网站的流量情况,做到知己知彼。
附图说明
图1(a)、图1(b)是本发明的互联网流量来源去向的分析方法的流程图;
图2(a)、图2(b)是通过本发明的互联网流量来源去向的分析方法获得的流量来源的示意图。
具体实施方式
以下,将结合附图和实施例对发明进行详细说明。以下实施例并不是对本发明的限制。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中。
如前所提到的,DNS(DomainNameSystem,域名系统),是因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。当用户访问一个网站时,先在浏览器中输入这个网站的域名,敲击回车后浏览器会先发起一个DNS请求,通过DNS技术,浏览器可以获取这个域名对应的服务器IP地址,然后再对这个IP地址发起HTTP请求。这就是DNS域名解析技术。
在上述域名解析的过程中,会产生DNS日志。DNS日志会记录每次DNS请求的应答内容,几乎能记录所有用户请求的域名信息。DNS日志的格式如下所示:
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
源IP|域名|时间戳|解析IP|状态码
即DNS日志包括“源IP”,“域名”,“时间戳”,“解析IP”和“状态码”五部分内容。
由于DNS日志中包括了所有用户请求的域名信息,本发明人由此想到通过对DNS日志的再处理来分析网站的流量的来源和去向。但是DNS日志中也包括了很多异常和无效的信息,例如服务器也会发起DNS请求从而产生大量的域名信息,互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反映用户的真实访问路径的。基于上述的情况,本发明人想到了通过尽可能地清洗掉日志中非人为访问的行为,来有效地获得互联网流量的来源和去向。
图1是本发明的互联网流量来源去向的分析方法的流程图。如图1所示,本发明的互联网流量来源去向的分析方法包括如下步骤。
首先,过滤无法反映用户真实访问路径的DNS日志(步骤S1)。如前所述,由于DNS请求中包括了很多无法真实有效地反映用户的真实访问路径的域名,因此需要进行清洗。例如通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。通过设置黑名单可以去除服务器产生的非人为的域名请求。通过设置白名单可以保留重点关注的某些域名。白名单优先级高于黑名单。另外,去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。其中,去除企业IP,是因为企业IP会产生多人的同时访问日志,影响对个人访问轨迹的判断;去除没有解析IP的日志,即去除访问失败的日志。通过不同的维度进行日志过滤,从而可以获得反映用户真实访问路径的DNS日志。
接下来对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分,获得切分后的域(步骤S2)。
详细步骤如下:
1)根据源IP切分(步骤S21)。根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。
例如,源IP1.1.1.1和源IP2.2.2.2是不同源IP所以将日志切分。如下所示:
源IP|域名|时间戳|解析IP|状态码
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-----------------------------------------
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
2)接下来将按照源IP切分好的日志根据时间戳之差再进行切分(步骤S22)。根据时间戳之差切分是指对根据源IP切分后的日志再根据DNS日志的时间戳之间的差值进行切分。如果两个DNS日志的时间戳之间的差大于规定时间长度,则切开这两个DNS日志(切分的原因是日志的时间间隔过久则被认为是两个不同的行为)。该规定时间长度可以根据需要调整。本实施例中,所述规定时间长度为3秒,即时间戳相隔大于3秒会被切分开。
例如,对源IP2.2.2.2的DNS日志进一步根据其时间戳之差值进行切分,如下所示。(时间戳20141211035932表示2014年12月11日3点59分32秒)
源IP|域名|时间戳|解析IP|状态码
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-------------------------------------------
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-------------------------------------------
2.2.2.2|www.qq.com|201412110000015|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-------------------------------------------
2.2.2.2|www.qq.com|201412110000019|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-------------------------------------------
2.2.2.2|www.a.com|201412110000024|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-------------------------------------------
2.2.2.2|www.b.com|201412110000029|180.***.***.107;180.***.***.108|0
如上所示,由于时间戳20141211000005的05秒和20141211000009的09秒之间相差4秒(大于3秒),所以日志被切开。20141211000009和201412110000015之间相差6秒,所以也被切开。
如上所示,日志共被切分成了6段。第一段的日志中源IP:2.2.2.2访问了5个域名,www.baidu.coma.qq.comb.baidu.comc.tanx.comc.allyes.com。根据用户访问行为的判断方法,可以得出用户实际上只访问了www.baidu.com,剩余的4个域名只是在用户点击www.baidu.com之后附带产生的域名请求,并不是用户的真实访问行为。所以第一段日志可以得出用户访问了www.baidu.com这个域名的路径。这里提到的用户访问行为的判定方法是这样的:当一个用户点击一个url时,除了请求当前url的域名外还会请求一些其他的域名。通过爬虫技术可以获取该url域名请求后的所有其他域名请求,将爬取的一系列域名请求和DNS日志中切分出来的域名段进行匹配可以得出该DNS日志和用户实际访问的域名的对应关系。由此方法得出的对应关系可以知道这段日志反应了用户实际是访问了www.baidu.com。第二段日志只有www.sina.com,所以www.sina.com就是用户访问的域名路径。
将以上日志的路径连起来后,如下所示:
www.baidu.com>www.sina.com>www.qq.com>www.qq.com>www.a.com>www.b.com
再将上述根据时间戳之差切分获得的路径按相同的域进行合并,这里按二级域进行合并,合并后结果为:
baidu.com>sina.com>qq.com>a.com>b.com
上述这条路径就是该源IP所有访问行为中的一条路径,按这样的规则可以算出所有源IP的所有访问路径。
3)接下来根据中心域对上述结果再切分(步骤S23)。中心域是根据用户/系统需求要重点分析的域,即用户是从哪里来到中心域的,然后又从中心域去了哪些域。例如以日志中a.com为中心域,则如下所示:
baidu.com>sina.com>qq.com>a.com>b.com
例如下面是前述源IP的4个路径,并且只举例每个路径中的中心域前3层的来源域,中心域后的路径处理逻辑和处理中心域之前的路径处理逻辑是一致的。实际的层数可以根据具体需求调整。亦如图2(a)所示。
来源域3>来源域2>来源域1>中心域
路径1:baidu.com>sina.com>qq.com>a.com(中心域)
路径2:sina.com>baidu.com>qq.com>a.com(中心域)
路径3:youku.com>sina.com>baidu.com>a.com(中心域)
路径4:baidu.com>qq.com>youku.com>a.com(中心域)
最后是数据汇总步骤,对前述源IP的所有4个访问路径进行汇总。汇总图如图2(b)所示。
中心域的汇总为4个a.com。
来源域1的汇总为2个qq.com,1个baicu.com,1个youku.com。
来源域2的汇总为2个sina.com,1个baidu.com,1个qq.com。
来源域3的汇总为2个baidu.com,1个sina.com,1个youku.com。
通过如图2(b)这样的可视化绘图可以很清楚的看出访问中心域a.com的用户前一步是访问了哪些域,这些域之前又访问了哪些域,以此类推。
当把所有源IP都按照这个逻辑处理后就能看到整个互联网的流量来源和去向的情况。
通过本发明的上述方法,能够基于要分析的中心域名而掌握其互联网流量的来源和去向,从而能够更好地帮助中心域名网站进行网站流量的分析和优化;进一步地,通过完整地了解整个互联网的流量的流向情况,可以从全局的角度进行分析并了解其他网站的流量情况,做到知己知彼。
综上所述仅为本发明的较佳实施例,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化与修饰,都应属于本发明的技术范畴。

Claims (9)

1.一种互联网流量来源去向的分析方法,其特征在于,通过处理DNS日志来获得互联网流量的来源与去向,包括如下步骤:
日志过滤步骤,过滤无法反映用户真实访问路径的DNS日志;
日志切分步骤,对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分,获得切分后的访问路径;以及
数据汇总步骤,将所有所述切分后的访问路径进行汇总。
2.根据权利要求1所述的分析方法,其特征在于,日志过滤步骤通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。
3.根据权利要求2所述的分析方法,其特征在于,去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。
4.根据权利要求3所述的分析方法,其特征在于,根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。
5.根据权利要求4所述的分析方法,其特征在于,所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据DNS日志的时间戳之间的差进行切分,如果两个DNS日志的时间戳之间的差大于规定时间长度,则切开所述两个DNS日志。
6.根据权利要求5所述的分析方法,其特征在于,所述规定时间长度为3秒。
7.根据权利要求6所述的分析方法,其特征在于,根据时间戳之差对DNS日志进行切分步骤后还包括合并步骤,对切分获得的访问路径中的域名转化成域,并将连续相同的域合并,以获得所述源IP的路径。
8.根据权利要求7所述的分析方法,其特征在于,所述根据中心域进行切分是以中心域为基准对所述源IP的路径进行切分,切分后获得的访问路径为:
来源域名n+…+来源域名1+中心域名+去向域名1+…+去向域名n,
其中,所述中心域是根据用户/系统需求确定要重点分析的域。
9.根据权利要求8所述的分析方法,其特征在于,所述数据汇总步骤中,对根据所述中心域切分步骤后获得的所述源IP的所有访问路径进行汇总。
CN201610231212.XA 2016-04-14 2016-04-14 一种互联网流量来源去向的分析方法 Active CN105704260B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610231212.XA CN105704260B (zh) 2016-04-14 2016-04-14 一种互联网流量来源去向的分析方法
PCT/CN2016/095672 WO2017177591A1 (zh) 2016-04-14 2016-08-17 一种互联网流量来源去向的分析方法
JP2018554481A JP7075348B2 (ja) 2016-04-14 2016-08-17 インターネットトラフィックの送信元と宛先の分析方法
RU2018139991A RU2702048C1 (ru) 2016-04-14 2016-08-17 Способ анализа источника и адресата интернет-трафика
GB1816212.3A GB2564057A (en) 2016-04-14 2016-08-17 Method for analyzing source and destination of internet traffic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610231212.XA CN105704260B (zh) 2016-04-14 2016-04-14 一种互联网流量来源去向的分析方法

Publications (2)

Publication Number Publication Date
CN105704260A true CN105704260A (zh) 2016-06-22
CN105704260B CN105704260B (zh) 2019-05-21

Family

ID=56216713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610231212.XA Active CN105704260B (zh) 2016-04-14 2016-04-14 一种互联网流量来源去向的分析方法

Country Status (5)

Country Link
JP (1) JP7075348B2 (zh)
CN (1) CN105704260B (zh)
GB (1) GB2564057A (zh)
RU (1) RU2702048C1 (zh)
WO (1) WO2017177591A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017177590A1 (zh) * 2016-04-14 2017-10-19 上海牙木通讯技术有限公司 一种域名和网站访问行为的关联方法
WO2017177591A1 (zh) * 2016-04-14 2017-10-19 上海牙木通讯技术有限公司 一种互联网流量来源去向的分析方法
CN107707545A (zh) * 2017-09-29 2018-02-16 深信服科技股份有限公司 一种异常网页访问片段检测方法、装置、设备及存储介质
CN107846480A (zh) * 2016-09-19 2018-03-27 贵州白山云科技有限公司 Nxdomain应答包处理方法和装置
CN109150819A (zh) * 2018-01-15 2019-01-04 北京数安鑫云信息技术有限公司 一种攻击识别方法及其识别系统
CN110138684A (zh) * 2019-04-01 2019-08-16 贵州力创科技发展有限公司 一种基于dns日志的流量监控方法及系统
CN111526065A (zh) * 2020-04-13 2020-08-11 苏宁云计算有限公司 一种网站页面流量分析方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10834214B2 (en) 2018-09-04 2020-11-10 At&T Intellectual Property I, L.P. Separating intended and non-intended browsing traffic in browsing history

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129134A1 (en) * 2000-05-26 2002-09-12 Leighton F. Thomson Global load balancing across mirrored data centers
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934826B2 (en) * 2002-03-26 2005-08-23 Hewlett-Packard Development Company, L.P. System and method for dynamically allocating memory and managing memory allocated to logging in a storage area network
WO2009102746A1 (en) * 2008-02-11 2009-08-20 Dolby Laboratories Licensing Corporation Dynamic dns system for private networks
US8380870B2 (en) * 2009-08-05 2013-02-19 Verisign, Inc. Method and system for filtering of network traffic
RU105758U1 (ru) * 2010-11-23 2011-06-20 Валентина Владимировна Глазкова Система анализа и фильтрации интернет-трафика на основе методов классификации многотемных документов
CN102004883B (zh) * 2010-12-03 2012-06-13 中国软件与技术服务股份有限公司 电子文件的轨迹跟踪方法
CN105704260B (zh) * 2016-04-14 2019-05-21 上海牙木通讯技术有限公司 一种互联网流量来源去向的分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129134A1 (en) * 2000-05-26 2002-09-12 Leighton F. Thomson Global load balancing across mirrored data centers
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017177590A1 (zh) * 2016-04-14 2017-10-19 上海牙木通讯技术有限公司 一种域名和网站访问行为的关联方法
WO2017177591A1 (zh) * 2016-04-14 2017-10-19 上海牙木通讯技术有限公司 一种互联网流量来源去向的分析方法
GB2564057A (en) * 2016-04-14 2019-01-02 Shanghai Yamu Communication Tech Co Ltd Method for analyzing source and destination of internet traffic
GB2567749A (en) * 2016-04-14 2019-04-24 Shanghai Yamu Communication Tech Co Ltd Method for associating domain name with website access behavior
CN107846480A (zh) * 2016-09-19 2018-03-27 贵州白山云科技有限公司 Nxdomain应答包处理方法和装置
CN107846480B (zh) * 2016-09-19 2021-04-20 贵州白山云科技股份有限公司 Nxdomain应答包处理方法和装置
CN107707545A (zh) * 2017-09-29 2018-02-16 深信服科技股份有限公司 一种异常网页访问片段检测方法、装置、设备及存储介质
CN109150819A (zh) * 2018-01-15 2019-01-04 北京数安鑫云信息技术有限公司 一种攻击识别方法及其识别系统
CN110138684A (zh) * 2019-04-01 2019-08-16 贵州力创科技发展有限公司 一种基于dns日志的流量监控方法及系统
CN110138684B (zh) * 2019-04-01 2022-04-29 贵州力创科技发展有限公司 一种基于dns日志的流量监控方法及系统
CN111526065A (zh) * 2020-04-13 2020-08-11 苏宁云计算有限公司 一种网站页面流量分析方法及系统

Also Published As

Publication number Publication date
RU2702048C1 (ru) 2019-10-03
JP7075348B2 (ja) 2022-05-25
JP2019514303A (ja) 2019-05-30
CN105704260B (zh) 2019-05-21
WO2017177591A1 (zh) 2017-10-19
GB2564057A (en) 2019-01-02

Similar Documents

Publication Publication Date Title
CN105704260A (zh) 一种互联网流量来源去向的分析方法
Losarwar et al. Data preprocessing in web usage mining
US20050076097A1 (en) Dynamic web page referrer tracking and ranking
US20080270471A1 (en) Apparatus and method for internet service provider filtering in web analytics reports
CN107819895B (zh) 基于域资源记录的顶级域名配置及安全的分析方法
Bhargav et al. Pattern discovery and users classification through web usage mining
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
Sujatha Improved user navigation pattern prediction technique from web log data
JP5791548B2 (ja) アドレス抽出装置
Darer et al. FilteredWeb: A framework for the automated search-based discovery of blocked URLs
KR101055871B1 (ko) 웹 로그의 실시간 분석을 통한 사용자 세션 정보 추출 장치 및 방법
Upadhyay et al. Web usage mining has pattern discovery
CN105763633B (zh) 一种域名和网站访问行为的关联方法
CN107404497A (zh) 一种在海量日志中检测WebShell的方法
Kaur et al. A novel semantically-time-referrer based approach of web usage mining for improved sessionization in pre-processing of web log
CN102831124A (zh) 基于跨网通信网络报文的用户行为关联分析方法
Shu-yue et al. The study on the preprocessing in web log mining
Verma et al. Web Usage mining framework for Data Cleaning and IP address Identification
Shrivastava et al. Extracting knowledge from user access logs
Pande et al. A study of web traffic analysis
CN113411377A (zh) 一种基于大型内容网站dns解析的cdn场景判定方法
Dhawan et al. Web Usage Mining: Finding Usage Patterns from Web Logs
Jayaprakash et al. A Comprehensive Survey on Data Preprocessing Methods in Web Usage Minning
Raiyani et al. Enhance preprocessing technique Distinct user identification using web log usage data
Kinder et al. Towards an automated process to categorise Tor’s hidden services

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 200233 Room 401, building 1, No. 180, Yizhou Road, Xuhui District, Shanghai

Patentee after: Yamu Technology Co.,Ltd.

Address before: Room 305, 1028 Panyu Road, Xuhui District, Shanghai 200030

Patentee before: SHANGHAI YAMU COMMUNICATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address