CN105528357A

CN105528357A - 一种基于url和网页文档结构的相似性的网页内容提取方法

Info

Publication number: CN105528357A
Application number: CN201410515677.9A
Authority: CN
Inventors: 张琦; 尹亚伟; 张上誉
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2016-04-27

Abstract

本发明涉及一种基于URL和网页文档结构的网页相似性的判断方法。该方法包括下述步骤：计算两个网页的URL相似度；计算两个网页DOM结构的相似度；基于URL相似度和DOM结构的相似度计算两个网页的相似度；将计算出的网页的相似度与预定设定的阈值范围进行比较，如果在预先设定的阈值范围内则判断两个网页为相似。

Description

一种基于URL和网页文档结构的相似性的网页内容提取方法

技术领域

本发明涉及互联网技术，具体地涉及一种网页相似性内容提取方法。

背景技术

一般而言，网页包含的信息丰富复杂，可以包括导航、标题、正文、时间、甚至广告等内容。为了在网页中抽取有效的内容，就需要对网页继续精细的分析。

网络爬虫能够高效地将海量的网页数据下载到本地，在本地形成互联网网页的镜像备份，在信息检索与处理中有很大的作用，是收集网络信息的重要工具，是搜索引擎的重要组成部分。

对于网络爬虫来说，抓取下来的网页包括各种格式，其中最常见的是HTML。这些文件抓取下来后，需要把这些文件中的链接和文本等信息提取出来。准确提取这些文档的信息不但会影响后续信息检索的准确性，而且会对正确跟踪其他链接产生一定的影响。传统的网络爬虫在抽取HTML信息时，一般采用正则表达式、关键字识别等方式来识别和抽取网页中的文本、链接等信息。但是许多网页中都包含和内容无关的文本、链接、图片和Flash动画等信息，所以需要花费时间和资源对每个网页采取去噪措施。而且，在这种方式下，对网页信息的抽取都是在离散情况下进行，而同一站点下网页一般存在很大的相似性，我们就无法利用这种相似性和历史的分析成果来提高当前页面的分析抽取效率。

发明内容

鉴于上述问题，本发明旨在提供一种能够提升相似页面信息抽取效率和精度的基于URL和网页文档结构的相似性的网页内容提取方法。

按照本发明的一方面，提供一种基于URL和网页文档结构的网页相似性的判断方法，包括下述步骤：

　　URL相似度计算步骤，计算两个网页的URL相似度；

　　DOM结构相似度计算步骤，计算两个网页DOM结构的相似度；

　　网页相似度计算步骤，基于URL相似度和DOM结构的相似度计算两个网页的相似度；

　　网页相似性判断，将计算出的网页的相似度与预定设定的阈值范围进行比较，如果在预先设定的阈值范围内则判断两个网页为相似。

按照本发明的又一方面，提供一种基于URL和网页文档结构的相似性的网页内容提取方法，包括下述步骤：

　　URL相似度计算步骤，计算两个网页的URL相似度；

　　DOM结构相似度计算步骤，计算两个网页DOM结构的相似度；

　　网页相似度计算步骤，基于URL相似度和DOM结构的相似度计算网页的相似度；

　　网页相似性判断步骤，将计算出的网页的相似度与预定设定的阈值范围进行比较，如果在预先设定的阈值范围内则判断两个网页为相似；

　　DOM结构提取步骤，提取两个网页的共有的DOM结构；

　　网页信息提取步骤，在所述DOM结构提取步骤中已提取的共有DOM结构中提取相似网页对应信息。

按照本发明的还一方面，提供一种基于URL和网页文档结构的相似性的网页内容提取方法，包括下述步骤：

　　第一维度相似度计算步骤，计算两个网页的第一维度的相似度；

　　第一维度相似度判断步骤，判断第一维度的相似度是否达到规定阈值，并且仅第一维度的相似度达到规定阈值的情况下才继续后续步骤；

　　第二维度相似度计算步骤，计算两个网页的第二维度的相似度；

　　网页相似度计算步骤，基于第一维度的相似度和第二维度的相似度计算网页的相似度；

　　DOM结构提取步骤，提取两个网页的共有的DOM结构；

附图说明

图1是表示本发明第一实施方式的基于URL和网页文档结构的相似性的网页内容提取方法的流程图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

第一实施方式

本发明的第一实施方式的基于URL和网页文档结构的相似性的网页内容提取方法可以分为两大步骤：相似网页识别步骤和网页信息抽取步骤。

其中，相似网页识别是对存在一定相似程度的两个页面的识别。在本发明中我们根据两个维度来判断相似网页，分别为URL的相似度和网页Dom结构的相似度。通过分析和综合这两个维度的相似度，进而得出网页的相似度。

然后，网页信息抽取步骤是指基于得到的网页的相似度再对相似的网页提取网页信息。

下面参照图1对于本发明的基于URL和网页文档结构的相似性的网页内容提取方法进行具体说明。其中，步骤S101～步骤S103构成上述的相似网页识别步骤，步骤S104～步骤S105构成上述的网页信息抽取步骤。

接着，具体对各个步骤进行说明

（1）URL相似度计算步骤S101

在URL相似度计算步骤S101中，计算两个网页的URL相似度。

URL即统一资源定位符（UniformResourceLocator）是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置。基本URL包含模式（或称协议）、服务器名称（或IP地址）、路径和文件名。

在下述的公式1中，url_sim表示URL的相似度。与一般的字串不同，URL具有一定的结构和特征。首先，URL具有一定的路径深度；其次，同一路径下的网页所描述的资源一般具有一定的相似性。基于这种特征，我们使用路径深度的一致和前缀的一致作为判断URL相似度的两个先决因素，用相同前缀包含的目录深度占总路径深度的比例来表示URL的相似度。假如URL为：http://weibo.com/p/1005052521277214/weibo，则路径深度为从“http://”开始以”/”间隔的元素数量及深度为4。假设另一个URL为：http://weibo.com/p/1005052521277215/weibo，则相同前缀为：http://weibo.com/p/，前缀包含目录深度为2，总深度为4，比例为1：2。

（2）DOM结构相似度计算步骤S102

在DOM结构相似度计算步骤S102中，计算两个网页DOM结构的相似度。

DOM是DocumentObjectModel（文档对象模型）的缩写。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。DOM把HTML文档呈现为带有元素、属性和文本的树结构（节点树）。

在下述的公式1中，dom_sim表示网页DOM结构的相似度。DOM结构是用来描述一个页面文档结构的模型，使用树形结构表示HTML的所有节点。比较DOM结构的相似性时，从根节点出发，深度遍历每个子节点，通过比较对应叶子节点来进行相似性判断。如果对应叶子节点的类型一致，则相似度为1，否则为0，然后将所有叶子节点的相似度均值作为两个网页的相似度数值。

（3）网页相似度计算步骤S103

在网页相似度计算步骤S103中，基于上述计算出的URL相似度和DOM结构的相似度，根据下述的公式1计算网页的相似度，

公式1：page_sim=w₁*url_sim+w₂*dom_sim

其中，page_sim表示是两个网页的相似度，url_sim表示两个网页的URL的相似度，dom_sim表示两个网页的DOM结构的相似度，w₁，w₂表示两种相似度因素的权重，并且w₁+w₂=1。

作为一种优选的方式，在本发明中，设置为使得DOM结构的相似度比重占得较大，例如可以设置为w₂>w₁，例如，可以设置为w₂＝0.8，W₁=0.2。

（4）网页相似性判断步骤S104

在网页相似性判断步骤S104中，将网页相似度计算步骤S103

将计算出的网页的相似度与预定设定的阈值范围进行比较，如果在预先设定的阈值范围内，则判断两个网页为相似，如果超过该预先设定的阈值范围，则判断两个网页不相似。在后者的情况下，就不再继续后续的网页信息抽取步骤。

（5）DOM结构提取步骤S105

在DOM结构提取步骤S105，提取两个网页的共有的DOM结构。

网页信息抽取是在相似网页识别完成的情况下，根据网页的相似信息抽取信息的过程。由相似网页识别的两个维度可知，相似的网页在网页DOM结构上也存在一定的相似性，两个相似页面在某些位置上DOM结构存在着一致性，这些共有的DOM节点上包含了相似的链接和内容信息。在提取网页信息时，首先，可以利用提取共有的根据DOM的结构。

（6）网页信息提取步骤S106

在网页信息提取步骤S106中，根据在所述DOM结构提取步骤中已提取的共有DOM结构，提取相似网页对应信息。

这里，由于DOM为树形结构，共DOM结构提取就是比较两个DOM树，然后将相同部分提取出来。并且更具提取出来的结果，找出对应节点分别包含了哪些信息，将节点和信息的对应关系存储到一定的数据结构中。例如，信息为Dom节点的包含的属性值或内容信息。如Dom节点a如下：<ahref=”http://www.baidu.com”>百度</a>

则，href的值：http://www.baidu.com和“百度”就是节点a包含的信息。

最后，根据上一步存储的数据结构提取相似网页对应的链接等信息。

在本发明第一实施方式的的基于URL和网页文档结构的相似性的网页内容提取方法中，通过计算URL和网页文档结构的相似性来识别相似网页，进而利用相似网页DOM结构的相似性，提取共有DOM结构以及结构和信息的对应关系，应用到相似信息的抽取上，由此能够提高相似网页的内容抽取效率和准确性。

第二实施方式

在第一实施方式中，分别计算了网页URL的相似度和DOM文档结构的相似度这两个维度的相似度，为了更加高效的识别相似网页，在第二实施方式中，我们可以为两个维度的相似度分别设定一个阈值，只有在一个维度的相似度达到一定的值时，才去计算另一个维度的相似程度，否则认为两个页面不可能存在相似性。

此后，根据两个维度的相似度按照第一实施方式1中公式1计算网页总的相似度（同第一实施方式中的步骤S103），如果达到预先设定的阈值时，作相似网页处理（同第一实施方式中的步骤S104）。然后，对相似网页提取共有的DOM结构（同第一实施方式中的步骤S105），并根据已有的分析成果，找出对应节点分别包含了哪些信息，将节点和信息的对应关系存储到一定的数据结构中。最后，根据上一步存储的数据结构提取相似网页对应的链接等信息（同第一实施方式中的步骤S106）。

以上例子主要说明了本发明的基于URL和网页文档结构的相似性的网页内容提取方法。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种基于URL和网页文档结构的网页相似性的判断方法，其特征在于，包括下述步骤：

　　URL相似度计算步骤，计算两个网页的URL相似度；

　　DOM结构相似度计算步骤，计算两个网页DOM结构的相似度；

2.如权利要求1所述的基于URL和网页文档结构的网页相似性的判断方法，其特征在于，在所述计算两个网页的相似度的步骤中，根据以下公式1来计算：

　　公式1：page_sim=w1*url_sim+w2*dom_sim

　　其中，page_sim表示是两个网页的相似度，url_sim表示两个网页的URL的相似度，dom_sim表示两个网页的DOM结构的相似度，w1，w2表示两种相似度因素的权重，并且w1+w2=1。

3.如权利要求1或2所述的基于URL和网页文档结构的网页相似性的判断方法，其特征在于，在所述URL相似度计算步骤中，用URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度。

4.如权利要求1或2所述的基于URL和网页文档结构的网页相似性的判断方法，其特征在于，所述DOM结构相似度计算步骤包括下述子步骤：

　　从根节点出发，深度遍历每个子节点，比较对应叶子节点来的类型；

　　如果对应叶子节点的类型一致，则相似度为1，否则为0；

　　将所有叶子节点的相似度均值作为两个网页的相似度。

5.一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，包括下述步骤：

　　URL相似度计算步骤，计算两个网页的URL相似度；

　　DOM结构相似度计算步骤，计算两个网页DOM结构的相似度；

　　DOM结构提取步骤，提取两个网页的共有的DOM结构；

6.如权利要求5所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述计算网页的相似度的步骤中，根据以下公式1来计算：

　　公式1：page_sim=w1*url_sim+w2*dom_sim

7.如权利要求5或6所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述URL相似度计算步骤中，用URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度。

8.如权利要求5或6所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，所述DOM结构相似度计算步骤包括下述子步骤：

　　如果对应叶子节点的类型一致，则相似度为1，否则为0；

　　将所有叶子节点的相似度均值作为两个网页的相似度。

9.如权利要求8所述所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述DOM结构提取步骤中，根据网页的相似信息抽取信息提取共有的根据DOM的结构。

10.如权利要求9所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述网页信息提取步骤中，比较两个DOM树，并且将相同部分提取出，然后找出对应节点分别包含的信息，将节点和信息的对应关系存储到数据结构中。

11.一种基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，包括下述步骤：

　　DOM结构提取步骤，提取两个网页的共有的DOM结构；

12.如权利要求10所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述计算网页的相似度的步骤中，根据以下公式1来计算：

　　公式1：page_sim=w1*url_sim+w2*dom_sim

13.如权利要求11或12所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，所述第一维度相似度为URL的相似度并且所述第二维度相似度为DOM结构的相似度，或者，

所述第一维度相似度为DOM结构的相似度并且所述第二维度相似度为URL的相似度。

14.如权利要求13所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在计算URL相似度步骤中，用URL的相同前缀包含的目录深度占总路径深度的比例表示URL的相似度。

15.如权利要求13所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在计算DOM结构的相似度的步骤中包括下述子步骤：

　　如果对应叶子节点的类型一致，则相似度为1，否则为0；

　　将所有叶子节点的相似度均值作为两个网页的相似度。

16.如权利要求13所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述DOM结构提取步骤中，根据网页的相似信息抽取信息提取共有的根据DOM的结构。

17.如权利要求16所述的基于URL和网页文档结构的相似性的网页内容提取方法，其特征在于，在所述网页信息提取步骤中，比较两个DOM树，并且将相同部分提取出，然后找出对应节点分别包含的信息，将节点和信息的对应关系存储到数据结构中。