CN105763633B - 一种域名和网站访问行为的关联方法 - Google Patents
一种域名和网站访问行为的关联方法 Download PDFInfo
- Publication number
- CN105763633B CN105763633B CN201610230263.0A CN201610230263A CN105763633B CN 105763633 B CN105763633 B CN 105763633B CN 201610230263 A CN201610230263 A CN 201610230263A CN 105763633 B CN105763633 B CN 105763633B
- Authority
- CN
- China
- Prior art keywords
- dns
- domain name
- log
- request set
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提出了一种域名和网站访问行为的关联方法,包括以下步骤:步骤S1:通过爬虫程序模拟用户访问网站的行为,获得当次HTTP请求中所有的DNS域名请求,即抓取的DNS域名请求集合;步骤S2:对DNS日志进行切分获得n段域名请求集合,n为大于等于1的整数;以及步骤S3:将步骤S1中抓取的DNS域名请求集合和步骤S2中DNS日志切分出来的域名请求集合进行集合和集合的匹配,如果DNS日志切分出来的一段域名请求集合等于或被包含于所述抓取的DNS域名请求集合,则认为所述DNS日志表示用户点击了所述爬虫程序抓取时请求的URL的域名。通过本发明的域名和网站访问行为的关联方法,通过DNS日志也能实现分析用户的互联网浏览行为。
Description
技术领域
本发明涉及互联网DNS域名解析领域以及网络爬虫技术,尤其涉及一种域名和网站访问行为的关联方法。
背景技术
DNS(Domain Name System,域名系统),是因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。“DNS域名解析技术”是指:当用户需要访问一个网站时,他需要在浏览器中输入这个网站的域名。敲击回车后浏览器会先发起一个DNS请求,通过DNS技术,浏览器可以获取这个域名对应的服务器IP地址,然后再对这个IP地址发起HTTP请求。
网络爬虫技术,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。其模拟用户对网站发起HTTP请求并记录该过程中产生的DNS请求。
DNS的数据的价值一直没有的到相应的重视,仅仅被认为是一种IP和域名的对应关系,所以目前市场上并没有人通过DNS数据去进行相应的关联。
发明内容
本发明提出了一种域名和网站访问行为的关联方法,通过DNS日志采集和网络爬虫技术的结合,使得通过DNS日志也能分析用户的互联网浏览行为。
本发明的一种域名和网站访问行为的关联方法,包括如下步骤:步骤S1:通过爬虫程序模拟用户访问网站的行为,获得当次HTTP请求中所有的DNS域名请求,即抓取的DNS域名请求集合;步骤S2:对DNS日志进行切分获得n段域名请求集合,n为大于等于1的整数;以及步骤S3:将步骤S1中抓取的DNS域名请求集合和步骤S2中DNS日志切分出来的域名请求集合进行集合和集合的匹配,如果DNS日志切分出来的一段域名请求集合等于或被包含于所述抓取的DNS域名请求集合,则认为所述DNS日志表示用户点击了所述爬虫程序抓取时请求的URL的域名。
优选地,步骤S2中,所述DNS日志是访问行为当天的DNS日志。
优选地,步骤S2中,对所述DNS日志进行切分包括2次切分,即先根据源IP进行切分,再根据时间戳之差进行切分。
优选地,根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。
优选地,所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据DNS日志的时间戳之间的差进行切分,如果两个DNS日志的时间戳之间的差大于规定时间长度,则切开所述两个DNS日志。
优选地,所述规定时间长度为3秒。
通过本发明的域名和网站访问行为的关联方法,通过DNS日志也能实现分析用户的互联网浏览行为。
附图说明
图1是爬虫程序抓取的DNS域名请求集合的示意图。
图2是本发明的域名和网站访问行为的关联方法的流程图。
具体实施方式
以下,将结合附图和实施例对发明进行详细说明。以下实施例并不是对本发明的限制。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中。
如前所提到的,DNS(Domain Name System,域名系统),是因特网上作为域名和I P地址相互映射的一个分布式数据库,能够使用户更方便地访问互联网,而不用去记住能够被机器直接读取的IP数串。当用户访问一个网站时,先在浏览器中输入这个网站的域名,敲击回车后浏览器会先发起一个DNS请求,通过DNS技术,浏览器可以获取这个域名对应的服务器IP地址,然后再对这个IP地址发起HTTP请求。这就是DNS域名解析技术。
在上述域名解析的过程中,会产生DNS日志。DNS日志会记录每次DNS请求的应答内容,几乎能记录所有用户请求的域名信息。DNS日志的格式如下所示:
14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0源IP|域名|时间戳|解析IP|状态码
即DNS日志包括“源IP”,“域名”,“时间戳”,“解析IP”和“状态码”五部分内容。下面结合图1详细说明本发明的域名和网站访问行为的关联方法。
首先,通过爬虫程序模拟用户访问网站的行为,获得当次HTTP请求中所有的DNS域名请求,即抓取的DNS域名请求集合(步骤S1)。例如,打开某个页面或点击某个URL(链接),爬虫程序会抓取当次HTTP请求中所有的DNS域名请求。由于当一个用户点击一个URL时,除了请求当前URL的域名外还会请求一些其他的域名,通过爬虫技术可以获取点击该URL后产生的所有DNS域名请求。这里,统一资源定位符(URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
例如,用户点击一个具体的URL(链接),如下所示:
“http://baike.baidu.com/link?url=Lm-TkKUzV687IRoPCDVUAG5qslgMyZtNa6 e6A3nPnWXorcXEAIl50O6XHZWpTJat”。
爬虫程序会抓取点击该URL后产生的所有DNS域名请求,即DNS域名请求集合,具体如图1所示。
接下来,对DNS日志进行切分获得n段域名请求集合,n为大于等于1的整数(步骤S2)。这里,DNS日志一般为访问行为当天的日志。所述切分包括2次切分,即先根据源IP进行切分,再根据时间戳之差进行切分。
1)对DNS日志根据源IP进行切分,即日志的源IP不同,则将连续的日志切分开。根据源IP切分是获得一段时间内相同源IP的连续的DNS日志。如下所示:
1.1.1.1|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
1.1.1.1|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-----------------------------------------
2.2.2.2|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0
2.2.2.2|www.qq.com|20141211035932|180.***.***.107;180.***.***.108|0
2)根据时间戳之差切分是指对根据源IP切分后的日志再根据DNS日志的时间戳之间的差值进行切分。如果两个连续日志之间的时间戳之差大于规定时间长度,则被切分开(切分的原因是日志的时间间隔过久则被认为是两个不同的行为)。该规定时间长度可以根据需要调整。本实施例中,所述规定时间长度为3秒,即时间戳相隔大于3秒会被切分开。
例如,对源IP2.2.2.2的DNS日志进一步根据其时间戳之差值进行切分,如下所示。(时间戳20141211035932表示2014年12月11日3点59分32秒)
源IP|域名|时间戳|解析IP|状态码
2.2.2.2|www.baidu.com|20141211000001|180.***.***.107;180.***.***.108|0
2.2.2.2|a.qq.com|20141211000002|180.***.***.107;180.***.***.108|0
2.2.2.2|b.baidu.com|20141211000003|180.***.***.107;180.***.***.108|0
2.2.2.2|c.tanx.com|20141211000004|180.***.***.107;180.***.***.108|0
2.2.2.2|c.allyes.com|20141211000005|180.***.***.107;180.***.***.108|0
---------------------------------------日志切割线-------------------------------------------
2.2.2.2|www.sina.com|20141211000009|180.***.***.107;180.***.***.108|0
如上所示,由于时间戳20141211000005的05秒和20141211000009的09秒之间相差4秒(大于3秒),所以日志被切开。
www.baidu.com,a.qq.com,b.baidu.com,c.tanx.com,c.tanx.com即为DNS日志中的一段域名请求集合。
接着将步骤S1中爬虫获取的域名请求集合和步骤S2中DNS日志切分出来的域名请求集合进行集合和集合的匹配(步骤S3)。匹配的规则是【(a,b,c)=(b,c,a)=(a,c,b)】。
匹配日志后,如果DNS日志的一段域名请求集合包含在爬虫抓取的域名请求集合内,或两个集合相同,即认为该DNS日志表示用户点击了该域名(即爬虫抓取时请求的URL的域名)。例如:
爬虫抓取的URL是www.a.com/doc/1234(该URL为一个用户的点击行为)。抓取的所有域名请求集合A为“www.a.com、www.b.com、www.c.com、www.d.com、www.e.com”。
DNS日志切分后有一段的域名请求集合B为“www.a.com、www.b.com、www.e.com、www.d.com”
如上,B集合包含在A集合内,则认为域名请求集合B反映了域名集合A映射的www.a.com/doc/1234这一用户访问行为。这样,通过DNS日志也能实现分析用户的互联网浏览行为。
综上所述仅为本发明的较佳实施例,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化与修饰,都应属于本发明的技术范畴。
Claims (5)
1.一种域名和网站访问行为的关联方法,其特征在于,包括如下步骤:
步骤S1:通过爬虫程序模拟用户访问网站的行为,获得当次HTTP请求中所有的DNS域名请求,即抓取的DNS域名请求集合;
步骤S2:对DNS日志进行切分获得n段域名请求集合,n为大于等于1的整数;以及
步骤S3:将步骤S1中抓取的DNS域名请求集合和步骤S2中DNS日志切分出来的n段域名请求集合进行集合和集合的匹配,如果DNS日志切分出来的一段域名请求集合等于或被包含于所述抓取的DNS域名请求集合,则认为所述DNS日志表示用户点击了所述爬虫程序抓取时请求的URL的域名;
其中,步骤S2中,对所述DNS日志进行切分包括2次切分,即先根据源IP进行切分,再根据时间戳之差进行切分。
2.根据权利要求1所述的域名和网站访问行为的关联方法,其特征在于,步骤S2中,所述DNS日志是访问行为当天的DNS日志。
3.根据权利要求1所述的关联方法,其特征在于,根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。
4.根据权利要求3所述的关联方法,其特征在于,所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据DNS日志的时间戳之间的差进行切分,如果两个DNS日志的时间戳之间的差大于规定时间长度,则切开所述两个DNS日志。
5.根据权利要求4所述的关联方法,其特征在于,所述规定时间长度为3秒。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610230263.0A CN105763633B (zh) | 2016-04-14 | 2016-04-14 | 一种域名和网站访问行为的关联方法 |
PCT/CN2016/095670 WO2017177590A1 (zh) | 2016-04-14 | 2016-08-17 | 一种域名和网站访问行为的关联方法 |
GB1816195.0A GB2567749A (en) | 2016-04-14 | 2016-08-17 | Method for associating domain name with website access behavior |
JP2018554480A JP6703621B2 (ja) | 2016-04-14 | 2016-08-17 | ドメイン名とウェブサイトアクセス行為との関連付け方法 |
RU2018139988A RU2709647C9 (ru) | 2016-04-14 | 2016-08-17 | Способ ассоциирования доменного имени с характеристикой посещения веб-сайта |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610230263.0A CN105763633B (zh) | 2016-04-14 | 2016-04-14 | 一种域名和网站访问行为的关联方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105763633A CN105763633A (zh) | 2016-07-13 |
CN105763633B true CN105763633B (zh) | 2019-05-21 |
Family
ID=56333890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610230263.0A Active CN105763633B (zh) | 2016-04-14 | 2016-04-14 | 一种域名和网站访问行为的关联方法 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP6703621B2 (zh) |
CN (1) | CN105763633B (zh) |
GB (1) | GB2567749A (zh) |
RU (1) | RU2709647C9 (zh) |
WO (1) | WO2017177590A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105763633B (zh) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | 一种域名和网站访问行为的关联方法 |
CN111131370B (zh) * | 2018-11-01 | 2022-09-27 | 百度在线网络技术(北京)有限公司 | 用于检测服务调用是否正确的方法、装置和系统 |
CN110798545B (zh) * | 2019-11-05 | 2020-08-18 | 中国人民解放军国防科技大学 | 一种基于Web的域名数据获取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104065532A (zh) * | 2014-06-26 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种基于多路数据接入方式的未备案网站探寻方法及系统 |
CN105005600A (zh) * | 2015-07-02 | 2015-10-28 | 焦点科技股份有限公司 | 一种访问日志中url的预处理方法 |
CN105357054A (zh) * | 2015-11-26 | 2016-02-24 | 上海晶赞科技发展有限公司 | 网站流量分析方法、装置和电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7734815B2 (en) * | 2006-09-18 | 2010-06-08 | Akamai Technologies, Inc. | Global load balancing across mirrored data centers |
CN101079064B (zh) * | 2007-06-25 | 2011-11-30 | 腾讯科技(深圳)有限公司 | 一种网页排序方法及装置 |
CN103389983B (zh) * | 2012-05-08 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种用于网络爬虫系统的网页内容抓取方法及装置 |
CN105704260B (zh) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | 一种互联网流量来源去向的分析方法 |
CN105763633B (zh) * | 2016-04-14 | 2019-05-21 | 上海牙木通讯技术有限公司 | 一种域名和网站访问行为的关联方法 |
-
2016
- 2016-04-14 CN CN201610230263.0A patent/CN105763633B/zh active Active
- 2016-08-17 WO PCT/CN2016/095670 patent/WO2017177590A1/zh active Application Filing
- 2016-08-17 JP JP2018554480A patent/JP6703621B2/ja active Active
- 2016-08-17 GB GB1816195.0A patent/GB2567749A/en not_active Withdrawn
- 2016-08-17 RU RU2018139988A patent/RU2709647C9/ru active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104065532A (zh) * | 2014-06-26 | 2014-09-24 | 国家计算机网络与信息安全管理中心 | 一种基于多路数据接入方式的未备案网站探寻方法及系统 |
CN105005600A (zh) * | 2015-07-02 | 2015-10-28 | 焦点科技股份有限公司 | 一种访问日志中url的预处理方法 |
CN105357054A (zh) * | 2015-11-26 | 2016-02-24 | 上海晶赞科技发展有限公司 | 网站流量分析方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6703621B2 (ja) | 2020-06-03 |
GB2567749A (en) | 2019-04-24 |
WO2017177590A1 (zh) | 2017-10-19 |
RU2709647C1 (ru) | 2019-12-19 |
RU2709647C9 (ru) | 2020-04-02 |
CN105763633A (zh) | 2016-07-13 |
JP2019514137A (ja) | 2019-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11108807B2 (en) | Performing rule-based actions for newly observed domain names | |
US10999384B2 (en) | Method and system for identifying website visitors | |
JP7045104B2 (ja) | データを処理する方法、装置、及びコンピュータプログラム、並びに階層ドメインネームシステムのゾーンファイル | |
US8458604B2 (en) | Methods and apparatus for determining website validity | |
CN105704260B (zh) | 一种互联网流量来源去向的分析方法 | |
WO2002017079A2 (en) | Gathering enriched web server activity data of cached web content | |
CN105763633B (zh) | 一种域名和网站访问行为的关联方法 | |
US7949724B1 (en) | Determining attention data using DNS information | |
CN103678295B (zh) | 一种向用户提供文件的方法及装置 | |
CN104021143A (zh) | 一种记录网页访问行为的方法及装置 | |
Mahanti et al. | Workload characterization of a large systems conference web server | |
JP5851251B2 (ja) | 通信パケット保存装置 | |
Mahanti et al. | Workload Characterization of the WWW2007 Conference Web Site | |
Goddard | Getting to the source: A survey of quantitative data sources available to the everyday librarian: Part I: Web server log analysis | |
Wan et al. | Computer Hard Drive Geolocation by HTTP Feature Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 200233 Room 401, building 1, No. 180, Yizhou Road, Xuhui District, Shanghai Patentee after: Yamu Technology Co.,Ltd. Address before: Room 305, 1028 Panyu Road, Xuhui District, Shanghai 200030 Patentee before: SHANGHAI YAMU COMMUNICATION TECHNOLOGY Co.,Ltd. |