CN104133870B

CN104133870B - 一种网页相似度计算方法及装置

Info

Publication number: CN104133870B
Application number: CN201410348586.0A
Authority: CN
Inventors: 魏玉良; 吕芳; 邹新; 邹新一; 王佰玲; 黄俊恒; 刘扬
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2014-07-22
Filing date: 2014-07-22
Publication date: 2017-06-09
Anticipated expiration: 2034-07-22
Also published as: CN104133870A

Abstract

本发明实施例公开一种网页相似度计算方法及装置，应用于计算机网络领域，能够解决现有的比对两个网页的相似度时判断不准的问题。该方法包括：生成待测网页对应的基于视觉结构的第一分块特征向量，其中第一分块特征向量包括第一分块位置特征向量和第一分块内容特征向量；将第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度。本发明的实施例应用于比较网页相似度。

Description

一种网页相似度计算方法及装置

技术领域

本发明涉及计算机网络领域，尤其涉及一种网页相似度计算方法及装置。

背景技术

起初，网页相似度是指两个网页之间相同部分的代码字节数占两个网页中总字节数的百分比，通过相似度比较可以实现页面按内容筛选，降低网页相似度是网站优化中重要的一步。随着互联网技术的发展和新的检测需求出现，对于网页相似的计算并不局限于字节码的比对。web2.0的发展至今，网页开发转向前端和后端明确区分的程度，前端集中于页面内容展示形式，在浏览器端通过脚本和布局实现，而后端侧重业务逻辑，给前端提供数据请求接口。现在的页面结构已经跟传统页面区别较大，通过字节码比对只能解决部分需求，并不能胜任在其他的应用场合，如网页信息自动抽取、仿冒网站检测、网页篡改检测等，针对这些问题提出了基于DOM树的网页相似度比对的概念。

字节码比对可以理解为将网页视为一维的字节流，而基于DOM树的网页相似度比对，则是将HTML源码进行渲染和解析之后生成的二维树形结构的对比，相对于字节码比对，DOM树比对更适合于网页信息自动抽取、网页篡改检测等应用。

图1展示了网页的DOM树，执行相似性比对时会计算两棵树形的相似关系，如：从A页面对应的DOM树变为B页面对应的DOM树需要的最少步数、两颗树的深度及子树相似度等。

通过比对DOM树可以直观的比对页面结构，比较子树的相似性，识别相似区域，通过定义正文特征，从而达到文本自动抽取。但无论是字符流比对还是DOM比对都存在一个问题，例如，图1所示的两颗树形可以在浏览器中显示同样的页面结构，当仅根据DOM树或者字符流比对两个网页的相似度时就会存在判断不准的问题。

发明内容

本发明实施例提供一种网页相似度计算方法及装置，以解决现有的比对两个网页的相似度时判断不准的问题。

第一方面提供一种网页相似度计算方法，包括：

生成待测网页对应的基于视觉结构的第一分块特征向量，其中所述第一分块特征向量包括第一分块位置特征向量和第一分块内容特征向量；将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度。

根据第一方面，在第一种可能的实现方式中，所述生成待测网页对应的基于视觉结构的第一分块特征向量，包括：获得所述待测网页对应的DOM树；根据所述DOM树获得VTree；根据预设的筛选条件筛选VTree，获得第一分块位置特征向量；根据应用环境获得第一分块内容特征向量，由所述第一分块位置特征向量和所述第一分块内容特征向量获得第一分块特征向量。

根据第一方面，在第二种可能的实现方式中，所述将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对之前，还包括：获得所述预设网页对应的DOM树；根据所述DOM树获得VTree；根据预设的筛选条件筛选VTree，获得第二分块位置特征向量；根据应用环境获得第二分块内容特征向量，由所述第二分块位置特征向量和所述第二分块内容特征向量获得第二分块特征向量。

根据第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述由所述第二分块位置特征向量和所述第二分块内容特征向量获得第二分块特征向量之后，还包括：对所述第二分块特征向量建立索引；根据所述索引建立特征向量索引库。相应地，所述将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度包括：将所述第一分块特征向量和所述特征向量索引库中的第二分块特征向量通过查找索引进行比对，获得待测网页的相似度。

根据第一方面，在第四种可能的实现方式中，所述获得待测网页的相似度，包括：

获得待测网页的分块数N和预设网页的分块数N_a；

通过所述第一分块特征向量和所述第二分块特征向量匹配的数目获得所述待测网页和所述预设网页匹配的分块数n_a；

计算待测网页的相似度，其中所述待测网页的相似度由公式(1)获得；

S＝(n_a/N_a)*(max(N,N_a)/min(N,N_a)) 公式(1)；

其中，S为所述待测网页的相似度；max(N,N_a)为N和N_a中较大者；min(N,N_a)为N和N_a中较小者。

第二方面提供一种网页相似度计算装置，包括：

第一生成单元，用于生成待测网页对应的基于视觉结构的第一分块特征向量，其中所述第一分块特征向量包括第一分块位置特征向量和第一分块内容特征向量；

比对单元，用于将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度。

根据第二方面，在第一种可能的实现方式中，所述第一生成单元，包括：

第一DOM树生成子单元，用于获得所述待测网页对应的DOM树；

第一VTree生成子单元，用于根据所述DOM树获得VTree；

第一筛选子单元，用于根据预设的筛选条件筛选VTree,获得第一分块位置特征向量；

第一获得子单元，用于根据应用环境获得第一分块内容特征向量，由所述第一分块位置特征向量和所述第一分块内容特征向量获得第一分块特征向量。

根据第二方面，在第二种可能的实现方式中，所述装置，还包括：

DOM树生成单元，用于获得所述预设网页对应的DOM树；

VTree生成单元，用于根据所述DOM树获得VTree；

筛选单元，用于根据预设的筛选条件筛选VTree,获得第二分块位置特征向量；

获得单元，用于根据应用环境获得第二分块内容特征向量，由所述第二分块位置特征向量和所述第二分块内容特征向量获得第二分块特征向量。

根据第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述装置，还包括：

索引建立单元，用于对所述第二分块特征向量建立索引；

索引库建立单元，用于根据所述索引建立特征向量索引库。

相应地，所述比对单元，具体用于：

将所述第一分块特征向量和所述特征向量索引库中的第二分块特征向量通过查找索引进行比对，获得待测网页的相似度。

根据第二方面，在第四种可能的实现方式中，所述比对单元用于获得待测网页的相似度，具体包括：

分块数获得子单元，用于获得待测网页的分块数N和预设网页的分块数N_a；

匹配子单元，用于通过所述第一分块特征向量和所述第二分块特征向量匹配的数目获得所述待测网页和所述预设网页匹配的分块数n_a；

计算子单元，用于计算待测网页的相似度，其中所述待测网页的相似度由公式(2)获得；

S＝(n_a/N_a)*(max(N,N_a)/min(N,N_a)) 公式(2)；

本发明实施例提供的网页相似度计算方法及装置，基于视觉结构通过将待测网页对应的第一分块特征向量和预设网页对应的第二分块特征向量进行比对，获得待测网页的相似度，提高了判断不同页面在浏览器中实际显示的相似程度的准确率，以助于其他应用判断。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为现有技术中网页的DOM树结构示意图；

图2为本发明实施例提供的网页相似度计算方法的流程示意图；

图3为本发明又一实施例提供的网页相似度计算方法的流程示意图；

图4为本发明实施例提供的网页相似度计算装置的结构示意图；

图5为本发明又一实施例提供的网页相似度计算装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

图2为本发明实施例提供的网页相似度计算方法的流程示意图。该方法主要用于判断不同页面在浏览器中实际显示的相似程度，通常由网页相似度计算装置执行，参考图2所示，该方法包括以下步骤：

10、生成待测网页对应的基于视觉结构的第一分块特征向量，其中第一分块特征向量包括第一分块位置特征向量和第一分块内容特征向量。

其中，待测网页是指所要对比的网页，可以将待测网页分成若干个分块，每个分块对应一个第一分块特征向量，该第一分块特征向量是基于视觉内容，包括第一分块位置特征向量和第一分块内容特征向量。

第一分块位置特征向量是一个四元组(T，L，W，H)，其中：

T：分块左上角相对于页面左上角的垂直距离；

L：分块左上角相对于页面左上角的水平距离；

W：分块宽度；

H：分块高度。

通过上述四元组可以确定一个分块在页面中的实际位置。

第一分块内容特征向量，可以参考相似度的实际应用环境，例如，正文内容字数统计；内容关键词；连接个数；是否是img标签；是否包含iframe标签；是否包含input标签；是否是登陆部分等。

上述第一分块位置特征向量和第一分块内容特征向量组合为一个分块的第一分块特征向量。

20、将第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度。

其中，预设网页是网页相似度对比时的参考基准，网页相似对比时可以有多个预设网页和待测网页进行对比，输出结果是待测网页和各个预设网页的相似度。本实施例为方便描述，仅以单个预设网页为例进行说明。

预设网页对应的基于视觉结构的第二分块特征向量和待测网页的第一分块特征向量生成方法相同，如果第一分块特征向量和第二分块特征向量相同，则待测网页的该分块和预设网页的该分块相同，当待测网页和预设网页相同的分块数很多时，例如达到一定比例或者满足预设的条件，则说明待测网页和预设网页相似度很高。

本实施例，基于视觉结构通过将待测网页对应的第一分块特征向量和预设网页对应的第二分块特征向量进行比对，获得待测网页的相似度，提高了判断不同页面在浏览器中实际显示的相似程度的准确率，以助于其他应用判断。

在上述方案基础上，步骤10中，生成待测网页对应的基于视觉结构的第一分块特征向量，如图3所示，可以优选包括以下步骤：

101、获得待测网页对应的DOM树。

其中，DOM树是网页加载后的网页对象模型，包括HTML源码基本标签属性，通常可以根据页面HTML源码可以解析获得对应DOM树，本实施例除去对HTML代码本身解析外，还执行嵌入的脚本语言，如某些网页的内容部分需要动态请求打印。

102、根据DOM树获得VTree。

其中，VTree是通过脚本语言，将标签相对于页面的位置偏移(top、left)和标签实际显示区域大小(width、heigh)与DOM树原标签关联后的数据结构。获得完整DOM树后加载CSS文件，使DOM树节点增加CSS布局属性，删除与内容无关的节点，如meta、脚本定义标签等，形成VTree。VTree是页面在浏览器中实际显示的DOM树及布局属性组合形成的节点树形结构。通过VTree中的节点可以直接获得页面某区域对应的DOM树节点。

103、根据预设的筛选条件筛选VTree,获得第一分块位置特征向量。

设定VTree分块的筛选条件，如具体标签(img、table)、节点宽高、节点面积和父子节点关系等，最基本的分块条件是，分块的总面积和与页面实际面积相等，分块之间不重叠。通过具体需求设定节点筛选的条件，得到页面的分块，分块全部为长方形。分块之间彼此独立。

得到页面的分块即可得到分块的第一分块位置特征向量。

104、根据应用环境获得第一分块内容特征向量，由第一分块位置特征向量和第一分块内容特征向量获得第一分块特征向量。

将通过步骤103获得的页面的每个分块对应到VTree中的指针(VTree节点包括DOM树节点和每个标签位置信息)，通过VTree节点，获取该分块的第一分块内容特征向量，具体获取方式包括遍历该分块节点的子节点，查找需要统计的数据，例如：分块子节点正文集合；a标签个数及与分块面积比；img标签大小及对应图片感知哈希值(通过对鱼片计算获得)；iframe标签截图及感知哈希值；input标签个数等数据

第一分块位置特征向量和第一分块内容特征向量组合为一个分块的第一分块特征向量。

可选的，将第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对之前，可以预先生成预设网页对应的基于视觉结构的第二分块特征向量，生成方法和生成待测网页对应的基于视觉结构的第一分块特征向量相同，具体包括以下步骤：

A1、获得预设网页对应的DOM树。

A2、根据DOM树获得VTree。

A3、根据预设的筛选条件筛选VTree,获得第二分块位置特征向量。

A4、根据应用环境获得第二分块内容特征向量，由第二分块位置特征向量和第二分块内容特征向量获得第二分块特征向量。

在实际应用环境中预设页面的数量一般较为庞大，而待检测网页一般作为任务批次处理，为了便于快速比对，在上述方案基础上，可以设计分块特征向量的索引结构。具体地，由第二分块位置特征向量和第二分块内容特征向量获得第二分块特征向量之后，还包括以下步骤：

A5、对第二分块特征向量建立索引。

A6、根据索引建立特征向量索引库。

分块特征向量索引建立类似搜索引擎中关键词与原网页的倒排索引结构，即建立key-value映射关系。建立索引时，使用位置特征向量(left、width、height)作为键值key，分块的其他特征作为值value，需要分块比对时，可以通过key快速查询到匹配的块，并比较其他特征，以此判断块是否相似。在实际的特征值计算时，会通过一定模糊处理，实现近似比对，而非完全匹配，提高相似检出率。例如，标签正文为“工行网银支持哪些基金的转换业务？在那里能查到？”，处理后保留“工行网银支持基金转换业务查”。如果待检测分块内容为“在那里能查到？工行网银支持哪些基金的转换业务？”或是其他变化比较大但核心关键词不变的块，也是可以被匹配出来的从而提高了匹配度。

在上述方案基础上，将第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度可以包括：

将第一分块特征向量和特征向量索引库中的第二分块特征向量通过查找索引进行比对，获得待测网页的相似度。

其中，具体地，将所有预设页面建立一个上述特征向量索引库后，将待检测页面的分块的第一分块特征向量，通过索引查询匹配到预设页面的分块，进而比对分块的特征向量，从而判断该待测网页是否相似，并选择匹配块数多的预设网页作为输出。

可选地，上述方案中待测网页的相似度的计算过程可以包括以下：

a、获得待测网页的分块数N和预设网页的分块数N_a。

b、由第一分块特征向量和第二分块特征向量匹配的数目获得待测网页和预设网页匹配的分块数n_a。

c、待测网页的相似度由公式(1)获得。

S＝(n_a/N_a)*(max(N,N_a)/min(N,N_a)) 公式(1)

其中，S为待测网页的相似度；max(N,N_a)为N和N_a中较大者；min(N,N_a)为N和N_a中较小者。

本实施例，可以有效的提高视觉上相似而结构上不相似的网页相似度判定的准确率和匹配效率。

图4为本发明实施例提供的网页相似度计算装置的结构示意图，该装置可由软件实现也可由硬件实现，主要用于执行上述网页相似度计算方法。参考图4所示，该装置包括：第一生成单元21和比对单元22。

其中，第一生成单元21，用于生成待测网页对应的基于视觉结构的第一分块特征向量，其中第一分块特征向量包括第一分块位置特征向量和第一分块内容特征向量。

比对单元22，用于将第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度。

在上述方案基础上，参考图5所示，可选的，第一生成单元21，包括：

第一DOM树生成子单元221，用于获得待测网页对应的DOM树。

第一VTree生成子单元222，用于根据DOM树获得VTree。

第一筛选子单元223，用于根据预设的筛选条件筛选VTree,获得第一分块位置特征向量。

第一获得子单元224，用于根据应用环境获得第一分块内容特征向量，由第一分块位置特征向量和第一分块内容特征向量获得第一分块特征向量。

在上述方案基础上，可选的，将第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对之前，可以预先生成预设网页对应的基于视觉结构的第二分块特征向量，生成方法和生成待测网页对应的基于视觉结构的第一分块特征向量相同，由此装置，还可以包括：

DOM树生成单元23，用于获得预设网页对应的DOM树。

VTree生成单元24，用于根据DOM树获得VTree。

筛选单元25，用于根据预设的筛选条件筛选VTree,获得第二分块位置特征向量。

获得单元26，用于根据应用环境获得第二分块内容特征向量，由第二分块位置特征向量和第二分块内容特征向量获得第二分块特征向量。

在实际应用环境中预设页面的数量一般较为庞大，而待检测网页一般作为任务批次处理，为了便于快速比对，在上述方案基础上，可以设计分块特征向量的索引结构。由此装置，还可以包括：

索引建立单元27，用于对第二分块特征向量建立索引。

索引库建立单元28，用于根据索引建立特征向量索引库。

相应地，比对单元22，具体用于：

上述装置中，比对单元用于获得待测网页的相似度，具体包括：

分块数获得子单元，用于获得待测网页的分块数N和预设网页的分块数N_a。

匹配子单元，用于通过第一分块特征向量和第二分块特征向量匹配的数目获得待测网页和预设网页匹配的分块数n_a。

计算子单元，用于计算待测网页的相似度，其中待测网页的相似度由公式(2)获得；

S＝(n_a/N_a)*(max(N,N_a)/min(N,N_a)) 公式(2)

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种网页相似度计算方法，其特征在于，包括：

生成待测网页对应的基于视觉结构的第一分块特征向量，其中所述第一分块特征向量包括第一分块位置特征向量和第一分块内容特征向量；

将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度；

其中，获得待测网页的相似度的步骤包括：

获得待测网页的分块数N和预设网页的分块数Na；

S＝(n_a/N_a)*(max(N,N_a)/min(N,N_a))公式(1)；

2.根据权利要求1所述的方法，其特征在于，所述生成待测网页对应的基于视觉结构的第一分块特征向量，包括：

获得所述待测网页对应的DOM树；

根据所述DOM树获得VTree；

根据预设的筛选条件筛选VTree,获得第一分块位置特征向量；

根据应用环境获得第一分块内容特征向量，由所述第一分块位置特征向量和所述第一分块内容特征向量获得第一分块特征向量。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对之前，还包括：

获得所述预设网页对应的DOM树；

根据所述DOM树获得VTree；

根据预设的筛选条件筛选VTree,获得第二分块位置特征向量；

根据应用环境获得第二分块内容特征向量，由所述第二分块位置特征向量和所述第二分块内容特征向量获得第二分块特征向量。

4.根据权利要求3所述的方法，其特征在于，所述由所述第二分块位置特征向量和所述第二分块内容特征向量获得第二分块特征向量之后，还包括：

对所述第二分块特征向量建立索引；

根据所述索引建立特征向量索引库；

相应地，所述将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度包括：

5.一种网页相似度计算装置，其特征在于，包括：

比对单元，用于将所述第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对，获得待测网页的相似度；

其中，所述比对单元用于获得待测网页的相似度，具体包括：

分块数获得子单元，用于获得待测网页的分块数N和预设网页的分块数Na；

S＝(n_a/N_a)*(max(N,N_a)/min(N,N_a))公式(2)；

6.根据权利要求5所述的装置，其特征在于，所述第一生成单元，包括：

第一DOM树生成子单元，用于获得所述待测网页对应的DOM树；

第一VTree生成子单元，用于根据所述DOM树获得VTree；

7.根据权利要求5所述的装置，其特征在于，所述装置，还包括：

DOM树生成单元，用于获得所述预设网页对应的DOM树；

VTree生成单元，用于根据所述DOM树获得VTree；

8.根据权利要求7所述的装置，其特征在于，所述装置，还包括：

索引建立单元，用于对所述第二分块特征向量建立索引；

索引库建立单元，用于根据所述索引建立特征向量索引库；

相应地，所述比对单元，具体用于：