CN108880883A

CN108880883A - 一种基于主被动数据的互联网接入网站数量的计算方法

Info

Publication number: CN108880883A
Application number: CN201810618363.XA
Authority: CN
Inventors: 陈晓光; 张振涛; 王小华; 李金宇; 金红; 杨满智; 刘长永
Original assignee: Heng Jia Jia (beijing) Technology Co Ltd
Current assignee: Heng Jia Jia (beijing) Technology Co Ltd; Eversec Beijing Technology Co Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-23
Anticipated expiration: 2038-06-15
Also published as: CN108880883B

Abstract

本发明公开了一种基于主被动数据的互联网接入网站数量的计算方法，所述方法包括：被动采集全国及各省互联网网站报备数据信息和IP地址报备信息，获得全国及各省互联网网站备案的域名信息、IP地址分布库；被动采集全国及各省活跃域名信息，获得全国及各省采集到的活跃域名信息；主动分布式采集以上两种方式采集的域名对应的网站信息，获得网站连接状态、标题、首页静态数据、接入IP地址信息；基于以上三类数据，通过数学建模，分析出全国及各省互联网网站的数量。本发明公开的统计方法能够在很大程度上反应全国互联网网站的总体数量情况、各省互联网网站的总体数量情况、所占比重情况，以及总体变化情况，具有较好的应用前景。

Description

一种基于主被动数据的互联网接入网站数量的计算方法

技术领域

本发明属于互联网和大数据应用技术领域，具体涉及一种基于主被动数据的互联网接入网站数量的计算方法。

背景技术

互联网迅猛发展，互联网网站作为互联网信息的重要传播载体备受关注，互联网网站的数量在一定程度上能否反应互联网的发展状况。我国已经逐步建设了备案系统和IDC信安系统，要求各互联网网站接入商对所接入的网站进行报备，对现网访问的网站域名进行监测。

备案系统采用人工填报的方式将各个接入商接入的网站信息报备到系统中，存在报备审核时延较长、未备案网站无法发现等问题，从而造成报备网站数量少于真实接入网站数量的情况；IDC信安系统采用探针设备对流量进行监测的技术方法实时探测流经的域名信息，并每天上报一次活跃域名，虽然很好地补充和解决了备案系统中的网站报备不全、数量偏少的问题，但由于流量监测的复杂性和实时性要求，所监测和捕获的域名并不一定是网站的域名，即使是网站的域名，也存在大量不在国内接入的情况(比如，代理跳转)，这些都导致了所统计的网站域名数量远远多于真实接入的网站数量。

如何采用技术手段有效地监测、统计和分析现网中接入的网站真实数量，目前还未见到相对有效的方法、技术和产品。

发明内容

本发明所要解决的技术问题在于，提供一种基于主被动数据的互联网接入网站数量的计算方法，以解决现有的

为解决上述技术问题，本发明所采用的技术方案如下：

一种基于主被动数据的互联网接入网站数量的计算方法，所述方法包括：

被动采集全国及各省互联网网站报备数据信息和IP地址报备信息，获得全国及各省互联网网站备案的域名信息、IP地址分布库；

被动采集全国及各省活跃域名信息，获得全国及各省采集到的活跃域名信息；

主动分布式采集以上两种方式采集的域名对应的网站信息，获得网站连接状态、标题、首页静态数据、接入IP地址信息；

基于以上三类数据，通过数学建模，分析出全国及各省互联网网站的数量。

进一步地，所述的互联网网站备案的域名信息包括：备案网站名称、备案网站数量、备案网站域名、备案网站的IP地址、备案网站接入省份、备案网站接入企业、备案网站上报时间；所述的IP地址分布库包括：IP地址、省份、报备时间；对全国及各省互联网网站报备数据信息和IP地址报备信息的被动采集方式为：由ICP/IP地址和/或域名备案管理系统进行数据报备。

进一步地，所述的活跃域名信息包括：活跃域名、活跃域名数量、活跃域名采集的省份、活跃域名采集的接入商、活跃域名采集的时间；对全国及各省活跃域名信息的被动采集方式为：由IDC/ISP信息安全管理系统进行数据报备。

进一步地，所述的主动分布式采集方式为：通过爬虫模块主动爬取以上两种方式确定的域名列表并主动获取以上网站的信息；在全国各省及各运营商线路上设置多个爬虫探测点进行分布式探测。

进一步地，分析出全国及各省互联网网站的数量具体包括：

对获取的上述三种方式中的数据通过数学建模模型分别进行去重、归并、关联处理，分析出全国及各省接入的网站的总体数量，所述的网站数量包括基期、当期两个维度。

所述去重处理包括：

对采集的备案网站信息数据库D1按照域名维度进行去重，形成D11库；

对采集的活跃域名信息数据库D2按照域名维度进行去重，形成D21库；

针对D11库与D21库进行归并，再按照域名维度进行去重，形成去重后的域名库D3。

进一步地，所述主动分布式采集通过设置1个总控节点和93个探测验证节点来实现对全国及各省的探测，总控节点把D3中的域名列表发给各个探测验证节点进行验证，并搜集所有探测验证节点返回的结果数据，形成本地探测验证知识库D4。

进一步地，在形成本地探测验证知识库D4后，对数据进行分类归并，借助于D1库，针对D4中的每个域名进行分类，按照不可解析不在D1库、可解析不可访问不在D1库、不可解析在D1库、可解析不可访问在D1库、可访问在D1库、可访问不在D1库，分成S1、S2、T1、T2、T3、T4共六个库，在T1、T2中针对域名进行了IP地址的归并，在T3、T4中针对MD5值进行了IP地址的归并，并关联上接入域名信息。

进一步地，基于T1、T2、T3、T4中不同的域名、MD5值数量进行求和，即得到全国接入的网站数量CS；基于T1、T2中域名对应的IP地址所属省份，统计相应的省份在T1、T2中的网站数量，基于T3、T4中MD5对应的IP地址所属省份，统计相应的省份在T3、T4中的网站数量，然后将每个省在T1、T2、T3、T4中的网站数量求和即得到每个省接入的网站数量。

与现有技术相比，本发明所提供的一种基于主被动数据的互联网接入网站数量的计算方法，基于以上备案系统和IDC信安系统的两类数据源，并结合分布式主动爬虫探测验证相结合的方式，能够有效第对现网中接入的网站真实数量进行有效地监测、统计和分析，该方法能够在很大程度上反应全国互联网网站的总体数量情况、各省互联网网站的总体数量情况、所占比重情况，以及总体变化情况，具有较好的应用前景。

附图说明

图1为本发明实施例所述的基于主被动数据的互联网接入网站数量的计算方法的流程示意图。

图2为本发明实施例中的备案网站信息采集的流程示意图。

图3为本发明实施例中的活跃域名信息采集的流程示意图。

图4为本发明实施例中的数据去重处理的流程示意图。

图5为本发明实施例中的主动探测的流程原理图。

图6为本发明实施例中的数据分类规避的流程原理图。

图7为本发明实施例中的全国接入网站数量的计算流程原理图。

图8为本发明实施例中的各省接入网站数量的计算流程原理图。

具体实施方式

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

在对本发明实施例所公开的一种基于主被动数据的互联网接入网站数量的计算方法进行叙述之前，先对本实施例中涉及的如下技术名词进行解释。

1、定义

1.1互联网网站

本发明方法中所指的互联网网站(以下简称网站)是指通过域名或IP地址方式访问的提供WEB服务的互联网站点。一般来说，一个网站可能会有多个域名(含IP地址，以下如无特别说明，IP地址也看做特殊的域名)，而同样的网站无论是在哪里接入，一般都具有同样的首页标题、同样的首页静态内容(动态内容可能会随着不同的访问的时间、地点而不同)。

1.2域名

本发明方法中所指的域名是指按照IANA中所规定的域名，以及以IP地址直接访问的方式提供WEB服务的IP地址。一般来说，一个网站是以IANA域名的方式进行访问，或者直接以IP地址方式进行访问。

1.3网站的接入

本发明方法中所指的网站的接入是指网站接入互联网的方式，网站的接入从接入点来看，有单接入和多接入；从接入方式来看，有IDC接入、ISP接入，云IDC接入、CDN接入等方式，其中云IDC接入和CDN接入只是提供接入服务的方式不同，本质上也是IDC接入。

1.4备案系统

本发明方法中所指的备案系统是指由工信部建设的部、省、企业三级报备系统，支持网站报备与审核管理、IP地址报备管理、域名报备管理等功能。

1.5IDC信安系统

本发明方法中所指的IDC信安系统是指由工信部建设的部、省、企业三级采集监测和信安处置系统，支持活跃IP监测和采集、活跃域名监测和采集、信息安全监测、信息安全处置、访问日志留存等功能。

1.6网站的数量

本发明方法中所指的网站数量是指按照真实接入基于同一网站归并后的数量，具体包括全国网站数量、各省网站数量，考虑到网站多接入的情况，各省网站数量之和有可能大于全国网站数量。

1.7基期和当期

一般来说，网站数量的统计总有一个相对开始的时间和时间的跨度，开始的这个时间为基期，跨度为一个月。比如，2018年5月底统计5月份的网站数量。当期是指当前统计时间。

1.8同比和环比

同比是指今年同一期的网站数量与去年同一期的网站数量的相比增长情况。

环比是指今年当期的网站数量与前一期的网站数量的相比增长情况。

参照图1所示，本发明实施例所公开的一种基于主被动数据的互联网接入网站数量的计算方法包括如下步骤：

101、被动采集全国及各省互联网网站报备数据信息和IP地址报备信息，获得全国及各省互联网网站域名、域名数量及变化信息、IP地址分布库；

102、被动采集全国及各省活跃域名信息，获得全国及各省采集到的活跃域名、域名数量及变化信息；

103、主动分布式采集以上两种方式采集的域名对应的网站信息，获得网站连接状态、标题、首页静态数据、接入IP地址信息；

104、根据以上数据的采集，进行去重、归并、关联分析，汇总出全国及各省互联网网站的数量；

105、根据基期和当期，计算全国及各省接入的互联网网站变化趋势；基于当期，计算各省接入的互联网网站在全国中的占比情况。

下面来对本发明实施例中的上述步骤进行详细。

1、备案网站信息的采集

备案网站信息采集算子每隔一段时间(可根据系统需要进行时间间隔调整)从备案系统中同步一次各省的IP地址报备数据，并加上时间标签，形成本地的用于确定网站归属地的IP地址分布库，同步一次各省的通过审核的备案数据，并加上当前时间标签，形成本地的用于后续网站数量分析的网站备案原始数据库。

具体参照图2所示，对采集时间设定定时器，当定时时间到达时，即通过接口访问备案系统，各省的备案系统可以访问时，获取各省的IP地址备案数据，包括：IP地址、省份、报备时间，保存在本地，形成具有本地IP地址分布库D0，包括：IP地址、省份、报备时间、入库时间。同时，还获取各省的网站备案数据，包括：备案网站名称、备案网站域名、备案网站的IP地址、备案网站接入省份、备案网站接入企业、备案网站上报时间，保存在本地，形成本地网站备案原始数据库D1，包括：备案网站名称、备案网站域名、备案网站的IP地址、备案网站接入省份、备案网站接入企业、备案网站上报时间、入库时间。

2、活跃域名信息的采集

活跃域名信息的采集可每天(可根据系统需要进行调整)从IDC信安系统中同步一次各省的活跃域名数据，并加上当前时间标签，形成本地的网站备案原始数据库。

具体参照图3所示，对采集时间设定定时器，当定时时间到达时，即通过接口访问IDC信安系统，获取各省的活跃域名数据，包括：活跃域名、活跃域名采集的省份、活跃域名采集的接入商、活跃域名采集的时间，保存本地，形成本地活跃域名原始数据库D2，包括：活跃域名、活跃域名采集的省份、活跃域名采集的接入商、活跃域名采集的时间、入库时间。

3、数据去重处理

具体参照图4所示，针对上述采集的备案网站信息生成的D1库，按照域名维度进行去重，生成D11库；针对活跃域名信息生成的D2库，按照域名维度进行去重，生成D211；最后，针对D11和D12按照域名维度进行去重，生成去重后的域名库D3。

4、主动探测验证系统

本实施例中，所述主动探测验证系统包括两部分：1个总控节点和93个(31个省，每省3个运营商)探测验证节点。

参照图5所示，总控节点把D3中的域名列表发给各个探测验证节点进行验证，并搜集所有探测验证节点返回的结果数据，形成本地探测验证知识库D4，包括：节点所属省份、节点所属线路运营商、域名、IP地址、链接状态、首页标题、首页静态内容、首页静态内容MD5、探测时间。

探测验证节点针对总控节点下发的D3中的每个域名进行可达性探测，并记录可达状态、IP地址、首页标题、首页静态内容、计算首页静态内容的MD5特征值、探测时间等，并将所有结果返回给总控节点。

5、数据分类及归并处理

数据分类归并，借助于D1库，针对D4中的每个域名进行分类，按照不可解析不在D1库、可解析不可访问不在D1库、不可解析在D1库、可解析不可访问在D1库、可访问在D1库、可访问不在D1库，分成S1、S2、T1、T2、T3、T4共六个库，S1和S2对于网站计数没有价值，在T1、T2中针对域名进行了IP地址的归并，在T3、T4中针对MD5值进行了IP地址的归并，并关联上接入域名信息。

参照图6所示，针对数据库D4中每个域名进行分类，判断每个域名是否均已分类完毕，如果是，则结束，如果否，则针对未完成分类的域名，看其链接状态是否可访问，如果该链接不可访问，则继续判断其IP地址是否为空，如果为空，则判定域名是否在库D1中，如果不是，则将该域名放到不可解析不可用的域名库S1中，如果域名存在于D1中，则保存到备案不可解析库T1中，以该域名报备的IP地址集合作为所有接入IP地址，并作为接入省份判别的依据；如果链接不可访问时，IP地址不为空，则从D4中获取该域名对应的所有接入IP地址，形成IP地址接入集合，并继续判断域名是否在D1中，如否，则将该域名保存到可解析不可用域名库S2中，如是，则针对该域名在D4库中的IP地址集合与D1中的IP地址集合进行归并，保存到备案可解析库T2中，以该域名报备的IP地址集合与解析的IP地址集合的并集作为所有接入IP地址，并作为接入省份判别的依据。如果前述链接状态可访问，则从D4中获取该域名对应的MD5特征值，以及，从D4中获取该MD5特征值对应的所有数据记录中的接入IP地址，形成IP地址接入集合，并在D4中标记相应的域名为已分类；判断MD5特征值关联的域名是否在D1中，如否，则保存到探测库T4中，以MD5特征值关联所有域名，并进而关联所有接入IP地址，如是，则获取所有在D4中的关联域名对应的IP地址，并归并到现有IP地址接入集合，保存到探测备案库T3中，以MD5特征值关联所有域名，并进而关联所有接入IP地址(含备案库中相应IP地址)。

6、全国网站数量的统计计算

参照图7所示，基于T1、T2、T3、T4中不同的域名、MD5值数量进行求和，即得到全国接入的网站数量CS。

7、各省网站数量的统计计算

各省网站数量的统计和计算，基于T1、T2中域名对应的IP地址所属省份，统计相应的省份在T1、T2中的网站数量，基于T3、T4中MD5对应的IP地址所属省份，统计相应的省份在T3、T4中的网站数量，然后将每个省在T1、T2、T3、T4中的网站数量求和即得到每个省接入的网站数量。值得注意的是，由于网站有多接入情况，因此，所有省份接入的网站数量之和，一般来说，要大于上述第6节计算的全国接入网站数量。

参照图8所示，各省网站数量统计计算的流程如下：

针对T1中每个域名，提取IP地址列表，判断域名是否都已处理，如否，则针对每个IP地址，查询D0中所属省份信息，继续判断IP地址是否都已处理，如否，则在所属省份的网站计数上增加1，如域名均已处理完毕，则得到每个省在T1中接入的网站数ST1_1，ST1_2…ST1_31；

针对T2中每个域名，提取IP地址列表，判断域名是否都已处理，如否，则针对每个IP地址，查询D0中所属省份信息，继续判断IP地址是否都已处理，如否，则在所属省份的网站计数上增加1，如是，则继续对T2中其它域名进行IP地址提取，如域名均已处理完毕，则得到每个省在T2中接入的网站数ST2_1，ST2_2…ST2_31；

针对T3中每个MD5，提取IP地址列表，判断MD5是否都已处理，如否，则针对每个IP地址，查询D0中所属省份信息，继续判断IP地址是否都已处理，如否，则在所属省份的网站计数上增加1，如是，则继续对T3中其它MD5进行IP地址提取，如MD5均已处理完毕，则得到每个省在T3中接入的网站数ST3_1，ST3_2…ST3_31；

针对T4中每个MD5，提取IP地址列表，判断MD5是否都已处理，如否，则针对每个IP地址，查询D0中所属省份信息，继续判断IP地址是否都已处理，如否，则在所属省份的网站计数上增加1，如是，则继续对T4中其它MD5进行IP地址提取，如MD5均已处理完毕，则得到每个省在T4中接入的网站数ST4_1，ST4_2…ST4_31；

最后，计算每个省接入的网站数，ST_1＝ST1_1+ST1_2+…ST1_31，ST_2＝ST2_1+ST2_2+…ST2_31；ST_3＝ST3_1+ST3_2+…ST3_31；ST_4＝ST4_1+ST4_2+…ST4_31。

8、互联网网站数量变化趋势分析

分析时间跨度：按照国家CPI统计的时间跨度月为单位进行数量变化趋势分析。

全国接入网站数量的变化趋势分析：

1)环比分析：

CSLR＝(CS_本月/CS_上月-1)*100％

2)同比分析：

CSSR＝(CS_本月/CS_去年同月-1)*100％

各省接入网站数量的变化趋势分析：

1)环比分析：

STLR_i＝(ST_i_本月/ST_i_上月-1)*100％，i＝1，2，…，31

2)同比分析：

STSR_i＝(ST_i_本月/ST_i_去年同月-1)*100％，i＝1，2，…，31

3)占比分析：

STR_i＝STR_i/(STR_1+STR_2+…+STR_31)*100％，i＝1，2，…，31

本发明所提供的一种基于主被动数据的互联网接入网站数量的计算方法，基于以上备案系统和IDC信安系统的两类数据源，并结合分布式主动爬虫探测验证相结合的方式，能够有效第对现网中接入的网站真实数量进行有效地监测、统计和分析，该方法能够在很大程度上反应全国互联网网站的总体数量情况、各省互联网网站的总体数量情况、所占比重情况，以及总体变化情况，具有较好的应用前景。

上述说明示出并描述了本发明的若干推荐实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述指导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于主被动数据的互联网接入网站数量的计算方法，其特征在于，所述方法包括：

2.如权利要求1所述的计算方法，其特征在于，所述的互联网网站备案的域名信息包括：备案网站名称、备案网站数量、备案网站域名、备案网站的IP地址、备案网站接入省份、备案网站接入企业、备案网站上报时间；所述的IP地址分布库包括：IP地址、省份、报备时间；对全国及各省互联网网站报备数据信息和IP地址报备信息的被动采集方式为：由ICP/IP地址和/或域名备案管理系统进行数据报备。

3.如权利要求1所述的计算方法，其特征在于，所述的活跃域名信息包括：活跃域名、活跃域名数量、活跃域名采集的省份、活跃域名采集的接入商、活跃域名采集的时间；对全国及各省活跃域名信息的被动采集方式为：由IDC/ISP信息安全管理系统进行数据报备。

4.如权利要求1所述的计算方法，其特征在于，所述的主动分布式采集方式为：通过爬虫模块主动爬取上述两种方式确定的域名列表并主动获取以上网站的信息。

5.如权利要求1所述的计算方法，其特征在于，分析出全国及各省互联网网站的数量具体包括：

6.如权利要求1所述的计算方法，其特征在于，所述去重处理包括：

7.如权利要求6所述的计算方法，其特征在于，所述主动分布式采集通过设置1个总控节点和93个探测验证节点来实现对全国及各省的探测，总控节点把D3中的域名列表发给各个探测验证节点进行验证，并搜集所有探测验证节点返回的结果数据，形成本地探测验证知识库D4。

8.如权利要求7所述的计算方法，其特征在于，在形成本地探测验证知识库D4后，对数据进行分类归并，借助于D1库，针对D4中的每个域名进行分类，按照不可解析不在D1库、可解析不可访问不在D1库、不可解析在D1库、可解析不可访问在D1库、可访问在D1库、可访问不在D1库，分成S1、S2、T1、T2、T3、T4共六个库，在T1、T2中针对域名进行了IP地址的归并，在T3、T4中针对MD5值进行了IP地址的归并，并关联上接入域名信息。

9.如权利要求8所述的计算方法，其特征在于，基于T1、T2、T3、T4中不同的域名、MD5值数量进行求和，即得到全国接入的网站数量CS；基于T1、T2中域名对应的IP地址所属省份，统计相应的省份在T1、T2中的网站数量，基于T3、T4中MD5对应的IP地址所属省份，统计相应的省份在T3、T4中的网站数量，然后将每个省在T1、T2、T3、T4中的网站数量求和即得到每个省接入的网站数量。