CN108600054A - 一种基于域名区文件的网站数量判定方法和系统 - Google Patents

一种基于域名区文件的网站数量判定方法和系统 Download PDF

Info

Publication number
CN108600054A
CN108600054A CN201810442457.6A CN201810442457A CN108600054A CN 108600054 A CN108600054 A CN 108600054A CN 201810442457 A CN201810442457 A CN 201810442457A CN 108600054 A CN108600054 A CN 108600054A
Authority
CN
China
Prior art keywords
detection
domain name
website
area file
mission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810442457.6A
Other languages
English (en)
Other versions
CN108600054B (zh
Inventor
肖建芳
孙从友
杨学
卢剑鸣
邓桂英
王利军
杨磊
张立坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
China Internet Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Network Information Center filed Critical China Internet Network Information Center
Priority to CN201810442457.6A priority Critical patent/CN108600054B/zh
Publication of CN108600054A publication Critical patent/CN108600054A/zh
Application granted granted Critical
Publication of CN108600054B publication Critical patent/CN108600054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Abstract

本发明提供一种基于域名区文件的网站数量判定方法和系统。该方法包括以下步骤:获取域名区文件,并从中提取域名信息列表;将所述域名信息列表转化为探测任务;执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;通过对所述探测数据统计和分析,获得探测结果。本发明能够以较低的成本和较高的效率完成全球网站数量的判定,并且能够识别网站所属地、停靠情况、重复情况、跳转情况,具有较强的实用性。

Description

一种基于域名区文件的网站数量判定方法和系统
技术领域
本发明涉及信息技术领域,具体涉及一种基于域名区文件的网站数量判定方法和系统。
背景技术
在经济或信息技术领域的数据分析或统计报告中,网站数量是一个非常重要的指标数据,网站数量的准确性非常重要,但是网站数量的判定却没有经济有效的技术手段。
目前网站数量的获取方式有如下几种:
a,在某些国家或地区采取网站备案手段可以获取本国或本地区的备案网站数量。
b,通过搜索引擎爬取和遍历网站并进一步分析的方式获取网站数量。
c,通过遍历全球已分配IP地址相应web端口并做进一步分析的方式获取网站数量。
以上方法通常有如下缺点:
a,实现成本高。
b,耗时长,时效性低。
c,有些模式需要非技术手段配合,管理成本高。
d,有些模式准确性低,数据权威性不足。
发明内容
针对上述现有技术的缺陷,本发明的目的在于提供一种基于域名区文件的网站数量判定方法和系统,能够以较低的成本和较高的效率完成全球网站数量的判定,并且支持对网站数量进行分地域、分类别等辨别和统计,具有较强的实用性。
为实现上述目的,本发明采取的技术方案是:
一种基于域名区文件的网站数量判定方法,包括以下步骤:
获取域名区文件,并从中提取域名信息列表;
将所述域名信息列表转化为探测任务;
执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;
通过对所述探测数据统计和分析,获得探测结果。
进一步地,所述获取域名区文件,并从中提取域名信息列表包括:在协商或取得授权后,从各个域名注册局或ICANN官方网站获取各种TLD的域名区文件;并通过对各域名区文件中权威记录进行处理提取全部域名信息列表。
进一步地,所述探测任务的探测内容包括下列中的一种或多种:域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测。
进一步地,执行探测任务获取探测数据包括,下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据。
进一步地,所述通过对探测数据统计和分析,获得探测结果包括:通过分析探测数据,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况;获取最终分类探测结果。
进一步地,所述网站数量为所有获取到对应网站首页内容,并且首页内容符合配置要求的对应域名数量;网站所属地通过其对应IP地址所属地进行判断;停靠情况通过对应网站首页内容中的停靠关键字识别得出;网站重复情况通过不同域名对应网页内容是否一致得出;跳转情况通过域名对应网站是否含有可达的跳转页面得出。
进一步地,还包括:根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。
一种基于域名区文件的网站数量判定系统,包括:
域名区文件获取与分析模块,用以获取域名区文件,并从中提取域名信息列表;
探测任务生成模块,用以将所述域名信息列表转化为探测任务;
探测节点模块,用以执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;
数据分析模块,用以通过对所述探测数据统计和分析,获得探测结果。
进一步地,还包括报告生成模块,用以根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。
进一步地,还包括:
任务控制模块,用以通过调度管理,确保在探测节点模块提取探测任务时有相应探测任务提供,并用以对任务消费和执行情况进行标记;
数据传输模块,用以传送探测任务内容和收集探测数据,通过消息队列的方式,将每个探测节点模块探测到的探测数据写入消息队列,对消息队列进行传输控制;
监测模块,用以用于确保所有探测节点模块工作正常以及所有探测任务被正确执行完毕;
配置模块,用于对系统部署环境进行配置。
通过采用了以上的方案,本发明相对于现有技术而言,具有以下优点:
通过本发明的基于域名区文件的网站数量判定方法和系统,能够使技术手段获取和判定网站数量可行,并降低执行成本,使网站数量判定高效,准确。在网站数量判定过程中,可以结合进行网站内容的基本识别和分析,能够识别网站所属地、停靠情况、重复情况、跳转情况。
附图说明
图1为本发明一实施例中一种基于域名区文件的网站数量判定系统的架构部署示意图。
图2为本发明一实施例中一种基于域名区文件的网站数量判定方法实施的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
如图1所示,在一实施例中所提供的基于域名区文件的网站数量判定系统,其包括:域名区文件获取与分析模块,探测任务生成模块,探测节点模块,任务控制模块,数据传输模块,监测模块,数据分析模块,配置模块及报告生成模块。下面结合附图对各模块的功能和关联介绍如下:
域名区文件获取与分析模块,用于在协商或取得授权后,从各个域名注册局或ICANN(The Internet Corporation for Assigned Names and Numbers)官方网站获取各种TLD(Top-Level Domain)的域名区文件,并从每个区文件中提取相应的全部域名信息,若域名信息非英文,则区文件中一定是已经进行过Punycode编码的内容。通过对区文件中权威记录进行处理,从而可获得相应TLD或全部TLD的域名列表,所为进一步网站探测工作的前提条件。
例如,假设“test”这个TLD的区文件内容如下:
test.86400 in soa a0.test.afilias-nst.info.noc@abc.info.201121402810800 3600 2764800 900
test.86400 in ns a0.test.afilias-nst.info.
test.86400 in ns a2.test.afilias-nst.info.
000.test.86400 in ns ns1.000.test.
ns1.000.test.86400 in a 3.22.7.43
25live.test.86400 in ns nsb1.icmregistry.net.
2600.test.86400 in ns ns73.domaincontrol.com.
2alarm.test.86400 in ns nsb2.icmregistry.net.
2as.test.86400 in ns ns1.onlydomains.com.
xn--hoq754q..test.86400 in ns nsb1.icmregistry.net.
则域名区文件获取与分析模块提取到的域名列表为:
000.test
25live.test
2600.test
2alarm.test
2as.test
xn--hoq754q..test(对应Punycode转码前的“企鹅.test”)
探测任务生成模块,用于将域名信息列表转化为探测任务,任务内容包括域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测等内容。若某任务中域名列表长度较长则可进一步切割为多个子任务,比如通过配置限定每个任务的域名列表长度上限为2000,则一个有100万域名的TLD会对应生成500个子任务。
探测节点模块,用于执行基本网站探测任务,包括从任务控制模块下载探测任务、从域名递归服务器探测域名主机对应IP地址和网站可达性以及网站内容抓取,以及执行站内跳转探测任务。
例如下载到的一个基本探测任务内容包含的递归服务器为1.2.4.8,则针对任务中域名列表内的每个域名执行如下操作:假设域名为cnnic.cn,则向递归服务器1.2.4.8查询www.cnnic.cn和cnnic.cn的A记录,即尝试获取域名对应网站的IP地址;然后向查询到的IP地址探测其80端口服务的可达性,若相应IP地址80端口服务可达,则根据相应URL,抓取相应网站首页页面内容,包括网页内容、网页标题、字节数、返回码。对于无法获取到IP地址的域名,或者IP地址相应端口服务超时或不可用的情况,根据配置进行相应的重复探测,以消除网络不确定性引起的失败情况。
站内跳转探测任务用于在上述基本探测子任务中每个域名的成功探测结果中(有返回码),抽取对应结果为站内跳转的结果集,根据其相应URL形成新的探测列表,执行站内跳转探测子任务,该子任务的目的是确认站内跳转URL的连通情况。由于探测列表是URL,所以不用执行递归探测,直接按照URL探测即可;根据该站内跳转探测子任务的探测结果,可识别内部跳转是否可以访问,同时该域名的探测结果(包括首页内容、首页title、字节数)需要以站内跳转的结果为准。
任务控制模块,用于任务和子任务调度管理,确保在探测节点提取任务时有相应任务提供,并提供任务消费和执行情况标记功能。
数据传输模块,用于模块间通信,包括传送任务内容和收集探测结果数据。通过消息队列的方式,每个探测节点将探测到的结果数据写入消息队列,消息队列进行传输控制,并由数据分析模块读取、存储和数据分析。
监测模块,用于确保所有探测节点工作正常以及所有任务被正确执行完毕,在探测节点故障时会触发探测节点的删除,在有新的探测节点可加入时,可提供探测节点加入功能。
数据分析模块,用于探测数据的统计分析,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况等,获取最终分类探测结果。网站数量为所有获取到对应网站首页内容,并且首页内容符合配置要求的对应域名数量;网站所属地的可通过其对应IP地址所属地进行判断;停靠情况可通过对应网站首页内容中的停靠关键字识别得出;网站重复情况可通过不同域名对应网页内容是否一致得出;跳转情况可通过域名对应网站是否含有可达的跳转页面得出。
配置模块,用于系统配置,包括节点配置、TLD配置、任务大小限制、网站判定配置、重复探测配置。节点配置包括节点名称、IP、任务执行权限;TLD配置包括系统支持的TLD范围集合。网站判定配置包括合格网站首页字节数范围、重复网站是否统计入网站总数、跳转网站是否统计入网站总数;重复探测配置包括子任务最大重复探测次数、A记录探测失败后重复探测次数。
报告生成模块,用于生成探测报告。内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。
相应地,结合图2对应或者参考上述实施例所描述的系统架构,所实施的方法步骤描述如下:
1)配置系统。
2)通过线上或线下获取域名区文件,从域名区文件提取域名信息列表。
3)将域名列表生成探测任务,若任务列表大于配置上限,则进行探测任务分解,将探测任务进一步分割为探测子任务。
4)启动探测点获取探测子任务。
5)探测节点执行探测任务/子任务,若任务探测失败或探测结果不完整则执行重新探测。若生成站内跳转探测任务,则相应执行站内跳转探测任务。
6)探测点将探测结果传输到数据分析节点,所有探测任务完成后,进行数据统计和分析。
7)统计和分析探测数据,获得网站总数、分类网站数量及归属地等探测结果。
8)生成探测报告。
最终获得包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数的探测报告。
上述实施例中所描述的系统及方法基于域名区文件对网站进行存在性判定,从而获取网站数量。从递归服务器获取域名对应IP地址,然后根据IP地址结合域名主机进行网站探测。将网站定义规则化,可以同时获取各种符合规则定义的网站数量。可以单个或多个TLD的网站数进行探测和判定,即可以判定全球或分TLD网站数量。在网站数量判定同时进行网站归属地、违法性、备案情况、停靠情况、重复情况判断。在网站探测过程中,针对存在网站抓取网站首页进行分析。
相较于现有技术而言,具有诸多优越之处:
首先,可以利用空闲的网络计算资源参与,成本低。空闲计算资源可通过安装和配置探测节点模块并加入探测系统,从而扩大探测并发度,提高效率和降低成本。
其次,可以在很短时间内完成全球网站数量的判定,效率高。在有20个探测节点,10台递归服务器的条件下,可在48-72小时内完成1.8亿域名对应网站数的探测和统计。
并且,通过数据分析模块可以对网站数量进行分地域、分类别等辨别和统计,实用性强。
最后,通过数据分析模块对探测抓取到的网站首页内容进行基本分析,从而带来更多实用价值。
显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (11)

1.一种基于域名区文件的网站数量判定方法,包括以下步骤:
获取域名区文件,并从中提取域名信息列表;
将所述域名信息列表转化为探测任务;
执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;
通过对所述探测数据统计和分析,获得探测结果。
2.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述获取域名区文件,并从中提取域名信息列表包括:在协商或取得授权后,从各个域名注册局或ICANN官方网站获取各种TLD的域名区文件;并通过对各域名区文件中权威记录进行处理提取全部域名信息列表。
3.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述探测任务的探测内容包括下列中的一种或多种:域名所属TLD、域名列表、递归服务器列表、探测节点列表、是否重复探测。
4.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述将所述域名信息列表转化为探测任务,若任务列表大于配置上限,则进行探测任务分解,将探测任务分割为探测子任务。
5.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,执行探测任务获取探测数据包括:下载探测任务;从域名递归服务器探测域名主机对应IP地址和网站可达性;网站内容抓取;执行站内跳转探测任务;获取探测内容作为探测数据。
6.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,所述通过对探测数据统计和分析,获得探测结果包括:通过分析探测数据,获取网站数量,并识别网站所属地、停靠情况、重复情况、跳转情况;获取最终分类探测结果。
7.如权利要求6所述基于域名区文件的网站数量判定方法,其特征在于,网站所属地通过其对应IP地址所属地进行判断;停靠情况通过对应网站首页内容中的停靠关键字识别得出;网站重复情况通过不同域名对应网页内容是否一致得出;跳转情况通过域名对应网站是否含有可达的跳转页面得出。
8.如权利要求1所述基于域名区文件的网站数量判定方法,其特征在于,还包括:根据探测结果生成探测报告,所述探测报告包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。
9.一种基于域名区文件的网站数量判定系统,其特征在于,包括:
域名区文件获取与分析模块,用以获取域名区文件,并从中提取域名信息列表;
探测任务生成模块,用以将所述域名信息列表转化为探测任务;
探测节点模块,用以执行所述探测任务获取与所述探测任务的探测内容相应的探测数据;
数据分析模块,用以通过对所述探测数据统计和分析,获得探测结果。
10.如权利要求9所述基于域名区文件的网站数量判定系统,其特征在于,还包括报告生成模块,用以根据探测结果生成探测报告,所述探测包括内容包括全部网站数、TLD对应范围的网站总数、站内跳转网站数、重复网站数、停靠网站数、分地区网站数、首页内容大小在一定范围内的网站数。
11.如权利要求9所述基于域名区文件的网站数量判定系统,其特征在于,还包括:
任务控制模块,用以通过调度管理,确保在探测节点模块提取探测任务时有相应探测任务提供,并用以对任务消费和执行情况进行标记;
数据传输模块,用以传送探测任务内容和收集探测数据,通过消息队列的方式,将每个探测节点模块探测到的探测数据写入消息队列,对消息队列进行传输控制;
监测模块,用以用于确保所有探测节点模块工作正常以及所有探测任务被正确执行完毕;
配置模块,用于对系统部署环境进行配置。
CN201810442457.6A 2018-05-10 2018-05-10 一种基于域名区文件的网站数量判定方法和系统 Active CN108600054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810442457.6A CN108600054B (zh) 2018-05-10 2018-05-10 一种基于域名区文件的网站数量判定方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810442457.6A CN108600054B (zh) 2018-05-10 2018-05-10 一种基于域名区文件的网站数量判定方法和系统

Publications (2)

Publication Number Publication Date
CN108600054A true CN108600054A (zh) 2018-09-28
CN108600054B CN108600054B (zh) 2020-11-20

Family

ID=63636900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810442457.6A Active CN108600054B (zh) 2018-05-10 2018-05-10 一种基于域名区文件的网站数量判定方法和系统

Country Status (1)

Country Link
CN (1) CN108600054B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153171A (zh) * 2020-09-25 2020-12-29 互联网域名系统北京市工程研究中心有限公司 域名的建站情况探测系统和探测方法
CN112804370A (zh) * 2020-12-29 2021-05-14 互联网域名系统北京市工程研究中心有限公司 诈骗网站的分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571404A (zh) * 2010-12-31 2012-07-11 北京新媒传信科技有限公司 网站访问统计方法和网站访问统计系统
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
US20140331319A1 (en) * 2013-01-04 2014-11-06 Endgame Systems, Inc. Method and Apparatus for Detecting Malicious Websites
CN104765882A (zh) * 2015-04-29 2015-07-08 中国互联网络信息中心 一种基于网页特征字符串的互联网网站统计方法
CN104935605A (zh) * 2015-06-30 2015-09-23 北京奇虎科技有限公司 钓鱼网站的检测方法、装置及系统
CN105376217A (zh) * 2015-10-15 2016-03-02 中国互联网络信息中心 一种恶意跳转及恶意嵌套类不良网站的自动判定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571404A (zh) * 2010-12-31 2012-07-11 北京新媒传信科技有限公司 网站访问统计方法和网站访问统计系统
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
US20140331319A1 (en) * 2013-01-04 2014-11-06 Endgame Systems, Inc. Method and Apparatus for Detecting Malicious Websites
CN104765882A (zh) * 2015-04-29 2015-07-08 中国互联网络信息中心 一种基于网页特征字符串的互联网网站统计方法
CN104935605A (zh) * 2015-06-30 2015-09-23 北京奇虎科技有限公司 钓鱼网站的检测方法、装置及系统
CN105376217A (zh) * 2015-10-15 2016-03-02 中国互联网络信息中心 一种恶意跳转及恶意嵌套类不良网站的自动判定方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153171A (zh) * 2020-09-25 2020-12-29 互联网域名系统北京市工程研究中心有限公司 域名的建站情况探测系统和探测方法
CN112804370A (zh) * 2020-12-29 2021-05-14 互联网域名系统北京市工程研究中心有限公司 诈骗网站的分析方法及系统

Also Published As

Publication number Publication date
CN108600054B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
US7454523B2 (en) Geographic location determination including inspection of network address
CN105187392B (zh) 基于网络接入点的移动终端恶意软件检测方法及其系统
CN108446221A (zh) 系统测试方法、装置、计算机设备和存储介质
CN107087001A (zh) 一种分布式的互联网重要地址空间检索系统
CN105376217B (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN106878108A (zh) 网络流量回放测试方法及装置
CN108768921A (zh) 一种基于特征检测的恶意网页发现方法及系统
CN107528817A (zh) 域名劫持的探测方法和装置
CN112804370A (zh) 诈骗网站的分析方法及系统
CN109117368A (zh) 一种接口测试方法、电子设备及存储介质
CN106067879B (zh) 信息的检测方法及装置
CN108600054A (zh) 一种基于域名区文件的网站数量判定方法和系统
CN109510738A (zh) 一种通信链路的测试方法及设备
CN105515909B (zh) 一种数据采集测试方法和装置
CN108073693A (zh) 一种基于Hadoop的分布式网络爬虫系统
CN105577472A (zh) 一种数据采集测试方法和装置
CN109547294B (zh) 一种基于固件分析的联网设备型号探测方法、装置
CN113438332B (zh) 一种DoH服务标识方法及装置
CN108574681A (zh) 一种服务器智能扫描方法及装置
CN106790071A (zh) 一种dns全流量劫持风险的检测方法和装置
CN108322418A (zh) 非法访问的检测方法和装置
CN108574957B (zh) 演进分组核心网设备智能巡检服务器、巡检系统及方法
CN109165513A (zh) 系统配置信息的巡检方法、装置和服务器
KR102314557B1 (ko) 보안 통제 관리 시스템 및 그 방법
CN104734914A (zh) 一种用于网络监控的方法、设备与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant