CN104765882B - 一种基于网页特征字符串的互联网网站统计方法 - Google Patents

一种基于网页特征字符串的互联网网站统计方法 Download PDF

Info

Publication number
CN104765882B
CN104765882B CN201510212232.8A CN201510212232A CN104765882B CN 104765882 B CN104765882 B CN 104765882B CN 201510212232 A CN201510212232 A CN 201510212232A CN 104765882 B CN104765882 B CN 104765882B
Authority
CN
China
Prior art keywords
website
feature
webpage
string
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510212232.8A
Other languages
English (en)
Other versions
CN104765882A (zh
Inventor
陈勇
陈建功
胡安磊
耿光刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
China Internet Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Network Information Center filed Critical China Internet Network Information Center
Priority to CN201510212232.8A priority Critical patent/CN104765882B/zh
Publication of CN104765882A publication Critical patent/CN104765882A/zh
Application granted granted Critical
Publication of CN104765882B publication Critical patent/CN104765882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于网页特征字符串的互联网网站统计方法,其步骤包括:1)利用域名做为入口,探测域名指向的主机是否提供网站服务,对提供网站服务的主机进行网页代码保存;2)获得域名对应的网站服务器上的网页内容,提取其文档对象模型树状结构特征,并提取其标题、关键字、网页描述中的一种或多种,构成网页的特征文本;3)采用摘要算法对网页的特征文本进行计算,生成固定长度的特征字符串;4)对所有网站的的特征字符串进行字符串比较,特征字符串相同的为同一网站,将对应于同一网站的多个域名合并处理,统计出网站数量。本发明通过提取网站页面特征文本计算为特征字符串来区分不同的网站,能够实现网站的快速统计。

Description

一种基于网页特征字符串的互联网网站统计方法
技术领域
本发明属于信息技术、网络技术领域,具体涉及一种基于网页特征字符串的互联网网站统计方法。
背景技术
互联网已经成为了人们获取信息的一个不可或缺的渠道,而互联网网站数目不断增长以及互联网技术的发展,互联网网站变化频繁,一方面一个网站可能有多个域名和多个主机,而一个主机上也可能有多个网站,而另一方面网站网页的内容也频繁变化更改,网页的内容不具有长期唯一性,因而无法根据网站内容的统计网站数目。
现有的网站数目统计方法包括:
1)以主机的数目或者以域名的数目来统计网站:对于有多个域名或者多个主机的网站有重复统计的问题,这种方法的统计结果不准确。
2)基于网站备案信息的统计:基于工信部网站备案系统中网站数据进行统计,一方面相当一部分网站没有进行备案,另外一方面网站关闭频繁,依靠人工建档的备案系统也无法第一时间掌握网站关闭信息,导致统计结果不准确。
如何快速准确统计国内乃至全球互联网网站数目,对于互联网管理机构和研究机构就成为一个难题。
发明内容
本发明提供一种通过域名入口,基于网站页面特征字符串的统计网站的方法,该方法通过提取网站页面特征文本计算为特征字符串来区分不同的网站,从而实现网站的快速统计。
本发明采用的技术方案如下:
一种基于网页特征字符串的互联网网站统计方法,其步骤包括:
1)利用域名做为入口,探测域名指向的主机是否提供网站服务(Web服务),对其中提供网站服务的主机进行网页代码保存;
2)获得域名对应的网站服务器上的网页内容,提取其文档对象模型(dom)树状结构特征,并提取其标题(title)、关键字(keywords)、网页描述(description)中的一种或多种,构成网页的特征文本;
3)采用摘要算法对网页的特征文本进行计算,生成固定长度的特征字符串;
4)对所有网站的的特征字符串进行字符串比较,特征字符串相同的为同一网站,从而可以将对应于同一个网站的多个域名合并处理,据此统计出网站数量。
进一步地,步骤1)利用给定域名清单下的一级域名和二级域名做为入口,探测域名指向的主机是否提供网站服务。
进一步地,步骤3)所述摘要算法可以是MD5、SHA1、CRC32、SHA256、SHA384、SHA512等算法。
优选地,步骤3)所述摘要算法为MD5算法,生成的特征字符串长度为16个字符或者32个字符。
优选地,步骤3)所述摘要算法为SHA1算法,生成的特征字符串长度为40个字符。
进一步地,步骤4)利用哈希数组对网站的的特征字符串进行快速比较运算,具体方法是:首先在内存中构建一个哈希数组,以网站网页特征字符串作为主键;对于新加入的网站网页特征字符串,查看在哈希数组中是否存在以该网站网页特征字符串为主键的成员:如果不存在,即为一个独立的网站,将该网站网页特征字符串作为主键加入这个哈希数组,并设置其值为1;如果存在,则为非独立网站,将哈希数组中对应成员的值加1;最后统计哈希数组的大小即网站的数量,哈希数组中每个成员的值即某个网站对应的多个服务器或者多个域名的情况。
本发明使用域名为入口,通过发掘网站页面结构特征字符串唯一标识一个网站,具有如下优点:
1)不受网站部署的主机情况影响;
2)不受网站文本内容调整影响;
3)算法简洁高效,准确。
利用本发明方法可以快速准确的统计域名下的网站数目,为互联网统计分析机构、域名注册管理机构提供了一种可信可靠、快速准确的网站统计分析的方法。
附图说明
图1是本发明的互联网网站的统计方法流程图。
图2是提取的文档对象模型树状结构特征的示意图。
图3是根据特定文本内容生成的长度为16个和32个字符的特征字符串示意图。
图4是特征字符串快速比较算法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
本发明提供一种快速准确的统计互联网网站数目的方法。通过对域名对应的网站服务器上的网页进行探测分析,对所有的网页提取文档对象模型树状结构特征、标题、关键字、网页描述等特征的一定顺序的组合,构成网页特征文本,最后进行MD5算法计算生成唯一的固定长度的特征字符串标识此网站,最后通过对特征字符串归一统计获得网站数目。
特征文本的具体组合方式可以是下列中的一种:
文档对象模型树状结构特征+标题;
文档对象模型树状结构特征+标题+关键字;
文档对象模型树状结构特征+标题+网页描述;
文档对象模型树状结构特征+标题+关键字+网页描述;
文档对象模型树状结构特征+关键字;
文档对象模型树状结构特征+网页描述;
文档对象模型树状结构特征+关键字+网页描述。
本发明方法的具体流程如下:
1)利用给定域名清单下的一级域名和以二级域名做为入口,探测域名指向的主机是否提供网站服务,对其中提供网站服务的主机进行页面代码保存;
2)对保存的页面代码提取文档对象模型树状结构特征、标题、关键词和网页描述,并生成网页的特征文本。
文档对象模型(dom)将网页文档结构化地呈现为带有元素、属性和文本的树状结构(节点树),是一种与平台和语言无关的接口,它允许程序和脚本动态访问和修改文档的内容、结构和类型。它定义了一系列的对象和方法文档对象模型树状结构特征中节点进行各种随机操作。用任何一种程序语言按照其接口标准可以提取文档对象模型树状结构特征中各元素名称和特征值,按照先后出现的顺依次组成一维串值。
标题、关键词和网页描述使用正则表达式进行提取即可。
图2是提取的文档对象模型树状结构特征的示意图。图中,各个节点是网页中的特征元素及其特征,这些节点本身的组合顺序是网页整体结构的一种呈现。
3)对特征文本用MD5算法进行计算,生成固定长度的(16个、32个字符)特征字符串,以方便快速进行比较运算。
MD5算法是一种摘要算法,它将一个比较大的文本信息,通过其不可逆的字符串变换算法,产生了这个唯一的MD5信息摘要。具体的计算过程是以512位分组来处理输入的信息,且每一分组又被划分为16个32位子分组,经过了一系列的处理后,算法的输出由四个32位分组组成,将这四个32位分组级联后将生成一个128位散列值。最终可以表达为16个、32个或者更多字符。
图3是根据特定文本内容生成的长度为16个和32个字符特征字符串的示意图。
4)对所有网站的采用MD5算法计算得到的特征字符串进行比较,相同的为同一网站,特征字符串不同的为不同的网站。统计出给定域名清单下的网站总数。
为了提高几百万个网站网页特征字符串的比较速度,本发明在内存中构建一个哈希数组,以网站网页特征字符串作为主键。图4是特征字符串快速比较算法示意图。对于一个新加入的网站特征字符串,查看在哈希数组中是否存在以该网站网页特征字符串为主键的成员,如果不存在,即为一个独立的网站,将该网站网页特征字符串作为主键加入这个哈希数组,并设置其值为1;如果在哈希数组中存在以该网站网页特征字符串为主键的成员,则为非独立网站(与其他域名或者主机为同一网站),将哈希数组中对应成员的值加1。最后统计哈希数组的大小即网站的数量,哈希数组中每个成员的值即某个网站对应的多个服务器或者多个域名的情况。
本发明的核心是:a)提取网站页面文档对象模型树状结构特征为网站主特征,结合标题、关键字和网页描述以一定方式形成网站特征文本;b)为了快速进行比较运算,将网站特征文本进行摘要计算,统一计算为固定长度的唯一标识网站的字符串,然后利用哈希数组进行快速比较运算,特征字符串相同的为同一网站。
在上述实施例的步骤3)中,使用的摘要算法是MD5算法。本发明也可以使用其他摘要算法,比如CRC32、SHA1、SHA256、SHA384、SHA512等。其中MD5算法和SHA1算法效率较高,输出结果长度较短,易于比较。用MD5计算生成的特征字符串长度根据具体设置可以是16个字符、32个字符或者更多字符,为了进行不同网站网页特征字符串之间的比较速度,优先选择使用16个或者32个字符长度。SHA1计算结果为40个字符长度。
具体实例:
.CN注册管理机构CNNIC通过掌握的域名数据进行分析探测,利用本方法可以快速统计.CN旗下的互联网站数目。
互联网研究分析机构可以利用公开的.COM域名数据,快速统计全球.COM互联网站数目或者国内.COM互联网站数目。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (7)

1.一种基于网页特征字符串的互联网网站统计方法,其步骤包括:
1)利用域名做为入口,探测域名指向的主机是否提供网站服务,对其中提供网站服务的主机进行网页代码保存;
2)获得域名对应的网站服务器上的网页内容,提取其文档对象模型树状结构特征,并提取其标题、关键字、网页描述中的一种或多种,构成网页的特征文本;
3)采用摘要算法对网页的特征文本进行计算,生成固定长度的唯一标识网站的特征字符串;
4)对所有网站的特征字符串进行字符串比较,特征字符串相同的为同一网站,从而将对应于同一网站的多个域名合并处理,据此统计出网站数量;
所述步骤4)利用哈希数组对网站的特征字符串进行快速比较运算,具体方法是:首先在内存中构建一个哈希数组,以网站网页特征字符串作为主键;对于新加入的网站网页特征字符串,查看在哈希数组中是否存在以该网站网页特征字符串为主键的成员:如果不存在,即为一个独立的网站,将该网站网页特征字符串作为主键加入这个哈希数组,并设置其值为1;如果存在,则为非独立网站,将哈希数组中对应成员的值加1;最后统计哈希数组的大小即网站的数量,哈希数组中每个成员的值即某个网站对应的多个服务器或者多个域名的情况。
2.如权利要求1所述的方法,其特征在于,步骤1)利用给定域名清单下的一级域名和二级域名做为入口,探测域名指向的主机是否提供网站服务。
3.如权利要求1所述的方法,其特征在于,步骤2)使用正则表达式提取标题、关键词和网页描述。
4.如权利要求1所述的方法,其特征在于,步骤2)所述网页的特征文本是下列中的一种:文档对象模型树状结构特征+标题;
文档对象模型树状结构特征+标题+关键字;
文档对象模型树状结构特征+标题+网页描述;
文档对象模型树状结构特征+标题+关键字+网页描述;
文档对象模型树状结构特征+关键字;
文档对象模型树状结构特征+网页描述;
文档对象模型树状结构特征+关键字+网页描述。
5.如权利要求1所述的方法,其特征在于,步骤3)所述摘要算法为下列算法中的一种:MD5、SHA1、CRC32、SHA256、SHA384、SHA512。
6.如权利要求5所述的方法,其特征在于:步骤3)所述摘要算法为MD5算法,生成的特征字符串长度为16个字符或者32个字符。
7.如权利要求5所述的方法,其特征在于:步骤3)所述摘要算法为SHA1算法,生成的特征字符串长度为40个字符。
CN201510212232.8A 2015-04-29 2015-04-29 一种基于网页特征字符串的互联网网站统计方法 Active CN104765882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510212232.8A CN104765882B (zh) 2015-04-29 2015-04-29 一种基于网页特征字符串的互联网网站统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510212232.8A CN104765882B (zh) 2015-04-29 2015-04-29 一种基于网页特征字符串的互联网网站统计方法

Publications (2)

Publication Number Publication Date
CN104765882A CN104765882A (zh) 2015-07-08
CN104765882B true CN104765882B (zh) 2019-04-09

Family

ID=53647709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510212232.8A Active CN104765882B (zh) 2015-04-29 2015-04-29 一种基于网页特征字符串的互联网网站统计方法

Country Status (1)

Country Link
CN (1) CN104765882B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204960B (zh) * 2016-03-16 2020-11-24 阿里巴巴集团控股有限公司 网页识别方法及装置、服务器
CN106503125B (zh) * 2016-10-19 2019-10-15 中国互联网络信息中心 一种数据源扩展方法及装置
CN107590118A (zh) * 2017-08-03 2018-01-16 天脉聚源(北京)传媒科技有限公司 一种新闻的智能排版的方法及装置
CN108600054B (zh) * 2018-05-10 2020-11-20 中国互联网络信息中心 一种基于域名区文件的网站数量判定方法和系统
CN108880883B (zh) * 2018-06-15 2021-11-05 恒安嘉新(北京)科技股份公司 一种基于主被动数据的互联网接入网站数量的计算方法
CN116501781B (zh) * 2023-06-28 2023-09-12 中博信息技术研究院有限公司 一种增强前缀树的数据快速统计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826105B (zh) * 2010-04-02 2013-06-05 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN103164459A (zh) * 2011-12-16 2013-06-19 苏州威世博知识产权服务有限公司 专利文献预览方法及系统
CN102984162B (zh) * 2012-12-05 2016-05-18 北京奇虎科技有限公司 可信网站的识别方法和收集系统

Also Published As

Publication number Publication date
CN104765882A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
US9705761B2 (en) Opinion information display system and method
CN107204960B (zh) 网页识别方法及装置、服务器
US9672251B1 (en) Extracting facts from documents
CN105975459B (zh) 一种词项的权重标注方法和装置
RU2015142105A (ru) Классификация документов с использованием многоуровневых сигнатур текста
US9110852B1 (en) Methods and systems for extracting information from text
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN109194677A (zh) 一种sql注入攻击检测方法、装置及设备
US20140289612A1 (en) Merging web page style addresses
Kim et al. Event diffusion patterns in social media
CN104268289B (zh) 链接url的失效检测方法和装置
US20210141822A1 (en) Systems and methods for identifying latent themes in textual data
CN105528416A (zh) 一种网站更新内容的监测方法及系统
CN106446123A (zh) 一种网页中验证码元素识别方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN108595453B (zh) Url标识映射获取方法及装置
CN104063506B (zh) 重复网页识别方法和装置
CN103577578B (zh) 一种标记文件解析方法和装置
CN106547780A (zh) 文章转载量的统计方法及装置
C. dos Santos et al. Is there personalization in twitter search? a study on polarized opinions about the brazilian welfare reform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant