CN109062876B

CN109062876B - 一种基于dom网页剪枝的相似网页查找方法及系统

Info

Publication number: CN109062876B
Application number: CN201810801006.7A
Authority: CN
Inventors: 汪敏; 刘鹏飞; 刘轩山; 李绪祥; 尹娜
Original assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Current assignee: Cape Cloud Information Technology Co Ltd; Beijing Puyun Mdt Infotech Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2019-07-12
Anticipated expiration: 2038-07-20
Also published as: CN109062876A

Abstract

本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统，其包括步骤：输入数据格式化：获取网页的数字化标识；相似网页查找：在存储网页数字化标识的数据库中查找相似网页。其中，所述获取网页的数据化标识具体包括以下步骤：网页数据格式化：获取输入网页的HTML源代码；网页净化：去除网页中的冗余信息；生成网页的DOM树：对网页进行DOM解析，生成DOM树；精炼的DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；文本序列转换：对新的DOM树进行深度优先遍历，得到一个HTML标签拼接的文本序列；数字标识生成：利用simhash算法计算所述文本序列，得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。

Description

一种基于DOM网页剪枝的相似网页查找方法及系统

技术领域

本发明涉及互联网信息采集的技术领域，尤其涉及一种基于DOM网页剪枝的相似网页查找方法及系统。

背景技术

随着Web信息资源的爆炸式增长，如何从海量数据中筛选出人们想要的数据就成为了一个富有挑战性的课题。传统的网页信息提取工具大都基于文本信息的匹配，并不能对复杂的结构化网页信息进行准确地比较和取舍。目前对Web网页进行比较主要是通过对网页的结构特性，也就是DOM树结构，来衡量目标信息和样本信息之间的相似度，但是由于网页的DOM结构复杂，内容较多，在进行相似度比较时，耗费极大，效率极低。

发明内容

为了在海量的网页中快速的获取找到相似网页，本发明提出了一种基于DOM网页剪枝的相似网页查找方法，该方法包括以下步骤：

S1、输入数据格式化：获取网页的数字化标识；

S2、相似网页查找：在存储网页数字化标识的数据库中查找相似网页；

其中，所述获取网页的数据化标识具体包括以下步骤：

S1.1、网页数据格式化：获取输入网页的HTML源代码；

S1.2、网页净化：去除网页中的冗余信息；

S1.4、生成网页的DOM树：对网页进行DOM解析，生成DOM树；

S1.5、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；

S1.6、文本序列转换：对新的DOM树进行深度优先遍历，得到一个HTML标签拼接的文本序列；

S1.7、数字标识生成：利用simhash算法计算所述文本序列，得到该网页的数字化标识。

其中，所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库。

其中，所述格式节点是网页中确定网页结构布局的节点，如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等；所述样式节点是网页中不会影响页面布局，对网页的DOM树“主干”没有影响的节点，如FONT、SPAN、A、IMG等；所述最小格式节点是指该节点下的子孙节点，不会再出现格式节点，只可能出现样式节点、文本、注释等。

其中，所述网页的数字化标识为一个128位的simhash值，并且其在数据库中分4段保存在数据库中，每段32位，标记为hash1，hash2，hash3，hash4的四个整型整数，并且数据库记录了这四个数字和对应的网页url的映射关系。

其中，所述相似网页，是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页，n为小于3的整数。

另外，本发明还提供了一种基于DOM网页剪枝的相似网页查找系统，该系统包括以下模块：

数据格式化模块：获取网页的数字化标识；

相似网页查找模块：在存储网页数字化标识的数据库中查找相似网页。

其中，所述获取网页的数据化标识具体包括以下子模块：

网页数据格式化子模块：获取输入网页的HTML源代码；

网页净化子模块：去除网页中的冗余信息；

DOM树生成子模块：对网页进行DOM解析，生成DOM树。

DOM树精炼子模块：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；

文本序列转换子模块：对新的DOM树进行深度优先遍历，得到一个HTML标签拼接的文本序列；

数字标识生成子模块：利用simhash算法计算所述文本序列，得到该网页的数字化标识；

本发明通过对网页DOM树进行合理的剪枝，找到所有的最小格式节点，对网页DOM树从根节点开始遍历，终止于最小格式节点，得到一段HTML标签构成的文本；对这段文本进行simhash计算，将网页的结构信息存储在一个128位的数字中，使得将原来的文档结构对比转化为数字查询，大大提升相似网页的查找效率，与现有网页数字化标识的具有更好的兼容性和实用性。比如在海量网页中查找相似网页，假设所有网页平均有k个节点，有N个网页，那么如果采用现有的相似网页查找方法，则需要将对海量网页进行逐个遍历比较，效率为k*O(N)，而本发明的相似网页查找方法，将海量网页中进行相似网页的查找，变为计算网页的simhash值，查找海明距离＜＝n(一般n取3)的数值查询，此时相似网页的查找效率提升到O(1)，大大提高相似网页查找以及按照网页结构分类的效率。

附图说明

图1为本发明一种基于DOM网页剪枝的相似网页查找方法的流程图。

图2为本发明一种基于DOM网页剪枝的相似网页查找系统的示意图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可以找说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂，以下为本发明的具体实施方式。

图1为本发明一种基于DOM网页剪枝的相似网页查找方法的流程图，该方法包括以下步骤：

S1、网页数据格式化：获取网页的HTML源代码；

S2、网页净化：去除网页的HTML源代码中的冗余信息，比如css、script、meta、注释信息等；

S3、生成网页的DOM树：对净化后的网页基于jsoup进行DOM树解析，生成净化后的DOM树；

S4、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树；其中，所述格式节点是网页中确定网页结构布局的节点，如DIV、TABLE、P、UL/LI、OL/LI、DL/DD/DT等；所述样式节点是网页中不会影响页面布局，对网页的DOM树“主干”没有影响的节点，如FONT、SPAN、A、IMG等；所述最小格式节点是指该节点下的子孙节点，不会再出现格式节点，只可能出现样式节点、文本、注释等；

S5、文本序列转换：对新的DOM树进行深度优先遍历，得到一个HTML标签拼接的文本序列；

S6、数字标识生成：利用simhash算法计算所述文本序列，得到一个128位的simhash值即为该网页的数字化标识；

S7、网页信息存储：将该simhash值分4段保存在数据库中，每段32位，标记位hash1，hash2，hash3，hash4的四个整型整数，记录了这四个数字和对应的网页url的映射关系；

S8、获取待查找网页的数字化标识：对待查找网页利用上述步骤S1-S6获取该待查找网页的simhash值；

S9、相似网页查找：利用待查找网页的数字化标识在数据库中检索simhash值和当前计算值海明距离不超过3的记录，这些记录对应的网页即为与待查找网页相似的网页。

图2为本发明提供的一种基于DOM网页剪枝的相似网页查找系统示意图，该系统包括以下模块：

数据格式化模块：获取网页的数字化标识；

其中，所述获取网页的数据化标识具体包括以下子模块：

网页数据格式化子模块：获取输入网页的HTML源代码；

网页净化子模块：去除网页中的冗余信息；

DOM树生成子模块：对网页进行DOM解析，生成DOM树。

数字标识生成子模块：利用simhash算法计算所述文本序列，得到该网页的数字化标识。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于DOM网页剪枝的相似网页查找方法，其特征在于：该方法包括以下步骤：

S1、输入数据格式化：获取网页的数字化标识；

其中，所述获取网页的数字化标识具体包括以下步骤：

S1.1、网页数据格式化：获取输入网页的HTML源代码；

S1.2、网页净化：去除网页中的冗余信息；

S1.3、生成网页的DOM树：对网页进行DOM解析，生成DOM树；

S1.4、精炼DOM树：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树，其中，所述最小格式节点是指DOM树中该节点下的子孙节点中不会再出现格式节点；所述格式节点是网页中确定网页结构布局的节点；

S1.5、文本序列转换：对新的DOM树进行深度优先遍历，得到一个HTML标签拼接的文本序列；

S1.6、数字标识生成：利用simhash算法计算所述文本序列，得到该网页的数字化标识；

所述存储网页数字化标识的数据库为存储有网页的数字化标识以及该网页URL的对应关系记录的数据库；

所述网页的数字化标识为一个128位的simhash值，并且其在数据库中分4段保存在数据库中，每段32位，标记为hash1，hash2，hash3，hash4的四个整型整数，并且数据库记录了这四个整数和对应的网页URL的映射关系；

所述相似网页，是指所述网页的数字化标识与数据库中的网页的数字化标识之间的海明距离小于等于n时的数据库中的网页，n为小于3的整数。

2.一种基于DOM网页剪枝的相似网页查找系统，该系统包括以下模块：

数据格式化模块：获取网页的数字化标识；

相似网页查找模块：在存储网页数字化标识的数据库中查找相似网页；

其中，所述获取网页的数字化标识具体包括以下子模块：

网页数据格式化子模块：获取输入网页的HTML源代码；

网页净化子模块：去除网页中的冗余信息；

DOM树生成子模块：对网页进行DOM解析，生成DOM树；

DOM树精炼子模块：遍历DOM树，寻找最小格式节点，删除最小格式节点的子孙节点，形成一个新的DOM树，其中，所述最小格式节点是指DOM树中该节点下的子孙节点中不会再出现格式节点；所述格式节点是网页中确定网页结构布局的节点；