CN104765882B

CN104765882B - 一种基于网页特征字符串的互联网网站统计方法

Info

Publication number: CN104765882B
Application number: CN201510212232.8A
Authority: CN
Inventors: 陈勇; 陈建功; 胡安磊; 耿光刚
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2019-04-09
Anticipated expiration: 2035-04-29
Also published as: CN104765882A

Abstract

本发明涉及一种基于网页特征字符串的互联网网站统计方法，其步骤包括：1)利用域名做为入口，探测域名指向的主机是否提供网站服务，对提供网站服务的主机进行网页代码保存；2)获得域名对应的网站服务器上的网页内容，提取其文档对象模型树状结构特征，并提取其标题、关键字、网页描述中的一种或多种，构成网页的特征文本；3)采用摘要算法对网页的特征文本进行计算，生成固定长度的特征字符串；4)对所有网站的的特征字符串进行字符串比较，特征字符串相同的为同一网站，将对应于同一网站的多个域名合并处理，统计出网站数量。本发明通过提取网站页面特征文本计算为特征字符串来区分不同的网站，能够实现网站的快速统计。

Description

一种基于网页特征字符串的互联网网站统计方法

技术领域

本发明属于信息技术、网络技术领域，具体涉及一种基于网页特征字符串的互联网网站统计方法。

背景技术

互联网已经成为了人们获取信息的一个不可或缺的渠道，而互联网网站数目不断增长以及互联网技术的发展，互联网网站变化频繁，一方面一个网站可能有多个域名和多个主机，而一个主机上也可能有多个网站，而另一方面网站网页的内容也频繁变化更改，网页的内容不具有长期唯一性，因而无法根据网站内容的统计网站数目。

现有的网站数目统计方法包括：

1)以主机的数目或者以域名的数目来统计网站：对于有多个域名或者多个主机的网站有重复统计的问题，这种方法的统计结果不准确。

2)基于网站备案信息的统计：基于工信部网站备案系统中网站数据进行统计，一方面相当一部分网站没有进行备案，另外一方面网站关闭频繁，依靠人工建档的备案系统也无法第一时间掌握网站关闭信息，导致统计结果不准确。

如何快速准确统计国内乃至全球互联网网站数目，对于互联网管理机构和研究机构就成为一个难题。

发明内容

本发明提供一种通过域名入口，基于网站页面特征字符串的统计网站的方法，该方法通过提取网站页面特征文本计算为特征字符串来区分不同的网站，从而实现网站的快速统计。

本发明采用的技术方案如下：

一种基于网页特征字符串的互联网网站统计方法，其步骤包括：

1)利用域名做为入口，探测域名指向的主机是否提供网站服务(Web服务)，对其中提供网站服务的主机进行网页代码保存；

2)获得域名对应的网站服务器上的网页内容，提取其文档对象模型(dom)树状结构特征，并提取其标题(title)、关键字(keywords)、网页描述(description)中的一种或多种，构成网页的特征文本；

3)采用摘要算法对网页的特征文本进行计算，生成固定长度的特征字符串；

4)对所有网站的的特征字符串进行字符串比较，特征字符串相同的为同一网站，从而可以将对应于同一个网站的多个域名合并处理，据此统计出网站数量。

进一步地，步骤1)利用给定域名清单下的一级域名和二级域名做为入口，探测域名指向的主机是否提供网站服务。

进一步地，步骤3)所述摘要算法可以是MD5、SHA1、CRC32、SHA256、SHA384、SHA512等算法。

优选地，步骤3)所述摘要算法为MD5算法，生成的特征字符串长度为16个字符或者32个字符。

优选地，步骤3)所述摘要算法为SHA1算法，生成的特征字符串长度为40个字符。

进一步地，步骤4)利用哈希数组对网站的的特征字符串进行快速比较运算，具体方法是：首先在内存中构建一个哈希数组，以网站网页特征字符串作为主键；对于新加入的网站网页特征字符串，查看在哈希数组中是否存在以该网站网页特征字符串为主键的成员：如果不存在，即为一个独立的网站，将该网站网页特征字符串作为主键加入这个哈希数组，并设置其值为1；如果存在，则为非独立网站，将哈希数组中对应成员的值加1；最后统计哈希数组的大小即网站的数量，哈希数组中每个成员的值即某个网站对应的多个服务器或者多个域名的情况。

本发明使用域名为入口，通过发掘网站页面结构特征字符串唯一标识一个网站，具有如下优点：

1)不受网站部署的主机情况影响；

2)不受网站文本内容调整影响；

3)算法简洁高效，准确。

利用本发明方法可以快速准确的统计域名下的网站数目，为互联网统计分析机构、域名注册管理机构提供了一种可信可靠、快速准确的网站统计分析的方法。

附图说明

图1是本发明的互联网网站的统计方法流程图。

图2是提取的文档对象模型树状结构特征的示意图。

图3是根据特定文本内容生成的长度为16个和32个字符的特征字符串示意图。

图4是特征字符串快速比较算法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

本发明提供一种快速准确的统计互联网网站数目的方法。通过对域名对应的网站服务器上的网页进行探测分析，对所有的网页提取文档对象模型树状结构特征、标题、关键字、网页描述等特征的一定顺序的组合，构成网页特征文本，最后进行MD5算法计算生成唯一的固定长度的特征字符串标识此网站，最后通过对特征字符串归一统计获得网站数目。

特征文本的具体组合方式可以是下列中的一种：

文档对象模型树状结构特征+标题；

文档对象模型树状结构特征+标题+关键字；

文档对象模型树状结构特征+标题+网页描述；

文档对象模型树状结构特征+标题+关键字+网页描述；

文档对象模型树状结构特征+关键字；

文档对象模型树状结构特征+网页描述；

文档对象模型树状结构特征+关键字+网页描述。

本发明方法的具体流程如下：

1)利用给定域名清单下的一级域名和以二级域名做为入口，探测域名指向的主机是否提供网站服务，对其中提供网站服务的主机进行页面代码保存；

2)对保存的页面代码提取文档对象模型树状结构特征、标题、关键词和网页描述，并生成网页的特征文本。

文档对象模型(dom)将网页文档结构化地呈现为带有元素、属性和文本的树状结构(节点树)，是一种与平台和语言无关的接口，它允许程序和脚本动态访问和修改文档的内容、结构和类型。它定义了一系列的对象和方法文档对象模型树状结构特征中节点进行各种随机操作。用任何一种程序语言按照其接口标准可以提取文档对象模型树状结构特征中各元素名称和特征值，按照先后出现的顺依次组成一维串值。

标题、关键词和网页描述使用正则表达式进行提取即可。

图2是提取的文档对象模型树状结构特征的示意图。图中，各个节点是网页中的特征元素及其特征，这些节点本身的组合顺序是网页整体结构的一种呈现。

3)对特征文本用MD5算法进行计算，生成固定长度的(16个、32个字符)特征字符串，以方便快速进行比较运算。

MD5算法是一种摘要算法，它将一个比较大的文本信息，通过其不可逆的字符串变换算法，产生了这个唯一的MD5信息摘要。具体的计算过程是以512位分组来处理输入的信息，且每一分组又被划分为16个32位子分组，经过了一系列的处理后，算法的输出由四个32位分组组成，将这四个32位分组级联后将生成一个128位散列值。最终可以表达为16个、32个或者更多字符。

图3是根据特定文本内容生成的长度为16个和32个字符特征字符串的示意图。

4)对所有网站的采用MD5算法计算得到的特征字符串进行比较，相同的为同一网站，特征字符串不同的为不同的网站。统计出给定域名清单下的网站总数。

为了提高几百万个网站网页特征字符串的比较速度，本发明在内存中构建一个哈希数组，以网站网页特征字符串作为主键。图4是特征字符串快速比较算法示意图。对于一个新加入的网站特征字符串，查看在哈希数组中是否存在以该网站网页特征字符串为主键的成员，如果不存在，即为一个独立的网站，将该网站网页特征字符串作为主键加入这个哈希数组，并设置其值为1；如果在哈希数组中存在以该网站网页特征字符串为主键的成员，则为非独立网站(与其他域名或者主机为同一网站)，将哈希数组中对应成员的值加1。最后统计哈希数组的大小即网站的数量，哈希数组中每个成员的值即某个网站对应的多个服务器或者多个域名的情况。

本发明的核心是：a)提取网站页面文档对象模型树状结构特征为网站主特征，结合标题、关键字和网页描述以一定方式形成网站特征文本；b)为了快速进行比较运算，将网站特征文本进行摘要计算，统一计算为固定长度的唯一标识网站的字符串，然后利用哈希数组进行快速比较运算，特征字符串相同的为同一网站。

在上述实施例的步骤3)中，使用的摘要算法是MD5算法。本发明也可以使用其他摘要算法，比如CRC32、SHA1、SHA256、SHA384、SHA512等。其中MD5算法和SHA1算法效率较高，输出结果长度较短，易于比较。用MD5计算生成的特征字符串长度根据具体设置可以是16个字符、32个字符或者更多字符，为了进行不同网站网页特征字符串之间的比较速度，优先选择使用16个或者32个字符长度。SHA1计算结果为40个字符长度。

具体实例：

.CN注册管理机构CNNIC通过掌握的域名数据进行分析探测，利用本方法可以快速统计.CN旗下的互联网站数目。

互联网研究分析机构可以利用公开的.COM域名数据，快速统计全球.COM互联网站数目或者国内.COM互联网站数目。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于网页特征字符串的互联网网站统计方法，其步骤包括：

1)利用域名做为入口，探测域名指向的主机是否提供网站服务，对其中提供网站服务的主机进行网页代码保存；

2)获得域名对应的网站服务器上的网页内容，提取其文档对象模型树状结构特征，并提取其标题、关键字、网页描述中的一种或多种，构成网页的特征文本；

3)采用摘要算法对网页的特征文本进行计算，生成固定长度的唯一标识网站的特征字符串；

4)对所有网站的特征字符串进行字符串比较，特征字符串相同的为同一网站，从而将对应于同一网站的多个域名合并处理，据此统计出网站数量；

所述步骤4)利用哈希数组对网站的特征字符串进行快速比较运算，具体方法是：首先在内存中构建一个哈希数组，以网站网页特征字符串作为主键；对于新加入的网站网页特征字符串，查看在哈希数组中是否存在以该网站网页特征字符串为主键的成员：如果不存在，即为一个独立的网站，将该网站网页特征字符串作为主键加入这个哈希数组，并设置其值为1；如果存在，则为非独立网站，将哈希数组中对应成员的值加1；最后统计哈希数组的大小即网站的数量，哈希数组中每个成员的值即某个网站对应的多个服务器或者多个域名的情况。

2.如权利要求1所述的方法，其特征在于，步骤1)利用给定域名清单下的一级域名和二级域名做为入口，探测域名指向的主机是否提供网站服务。

3.如权利要求1所述的方法，其特征在于，步骤2)使用正则表达式提取标题、关键词和网页描述。

4.如权利要求1所述的方法，其特征在于，步骤2)所述网页的特征文本是下列中的一种：文档对象模型树状结构特征+标题；

文档对象模型树状结构特征+标题+关键字；

文档对象模型树状结构特征+标题+网页描述；

文档对象模型树状结构特征+标题+关键字+网页描述；

文档对象模型树状结构特征+关键字；

文档对象模型树状结构特征+网页描述；

文档对象模型树状结构特征+关键字+网页描述。

5.如权利要求1所述的方法，其特征在于，步骤3)所述摘要算法为下列算法中的一种：MD5、SHA1、CRC32、SHA256、SHA384、SHA512。

6.如权利要求5所述的方法，其特征在于：步骤3)所述摘要算法为MD5算法，生成的特征字符串长度为16个字符或者32个字符。

7.如权利要求5所述的方法，其特征在于：步骤3)所述摘要算法为SHA1算法，生成的特征字符串长度为40个字符。