CN106021383A

CN106021383A - 网页相似度计算方法及装置

Info

Publication number: CN106021383A
Application number: CN201610311779.8A
Authority: CN
Inventors: 谭露
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Information Technology Beijing Co Ltd
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2016-10-12

Abstract

本发明公开了一种网页相似度计算方法及装置，包括：获取待对比的两个网页的网页信息；从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；从所述两个网页的所述内容信息中分别提取出内容特征向量，并计算内容特征向量相似度；从所述两个网页的所述结构信息中分别提取出结构特征向量，并计算结构特征向量相似度；从所述两个网页的所述图片信息中分别提取出图片特征向量，计算图片特征向量相似度；根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度。本发明提出的网页相似度计算方法及装置，其相似度计算效果较好。

Description

网页相似度计算方法及装置

技术领域

本发明涉及数据处理技术领域，特别是指一种网页相似度计算方法及装置。

背景技术

目前互联网上的重复网页非常多，因此，从不同的网站抓取到相似网页的可能性非常高。比如，同一条新闻出现时，网上会以各种形式进行转载复制传播，从而导致两个网页的相似程度非常高，这种相似程度高的网页，可以是同一个网站上的网页，也可以不是同一个网站上的网页。搜索引擎在收录网页的时候，通常会对两个网页进行比较，看看两个网页是否相似，对相似度高的网页进行去重或者聚合展现。

现有的相似度计算方法包括几种：1)利用URL去重；2)利用内容计算相似；3)利用链接关系计算相似；4)利用网页的结构特征(DOM树结构)计算相似。

利用URL去重，只能做到简单的去重，无法解决不同URL，内容相似的问题；利用链接关系进行相似度计算还不是很成熟，链接关系只是网页中权重较小信息，效果不是很好；利用网页的结构特征计算，也只能解决网页结构完全一致的重复，而网站制作时一般都自己的网页结构，纯粹的网站结构上的抄袭已经比较少用，而且从实际效果看引入网页结构特征对于相似度计算的贡献也不多。目前业界，一般多数还是利用内容信息从网页中提取内容，计算相似，但是对于内容信息提取困难的网页(比如正文及摘要较少、大量图片出现、正文位置很难识别、Meta属性伪造等网站等)，利用现有方法就很难做到较好的判断。

发明内容

有鉴于此，本发明的目的在于提出一种相似度计算效果较好的网页相似度计算方法及装置。

基于上述目的本发明提供的网页相似度计算方法，包括：

获取待对比的两个网页的网页信息；

从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；

从所述两个网页的所述内容信息中分别提取出内容特征向量，并计算内容特征向量相似度；

从所述两个网页的所述结构信息中分别提取出结构特征向量，并计算结构特征向量相似度；

从所述两个网页的所述图片信息中分别提取出图片特征向量，计算图片特征向量相似度；

根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度。

在一些实施方式中，从所述两个网页的网页信息中分别提取出内容信息的步骤包括：

对所述网页信息的内容进行渲染，得到不包括图片的网页的完整信息；

从所述网页的完整信息中提取出内容信息，所述内容信息包括网页元信息和网页正文中靠前的预定数量的文字。

在一些实施方式中，从所述两个网页的网页信息中分别提取出结构信息的步骤包括：

根据所述网页的完整信息，构造得到DOM树，并对所述DOM树进行裁剪。

在一些实施方式中，从所述两个网页的网页信息中分别提取出图片信息的步骤包括：

提取所述网页信息中正文部分的图片URL信息；

根据所述图片URL信息，提取得到与网页正文有关的关键图片URL列表；

根据所述关键图片URL列表，抓取得到关键图片列表；

和/或，

根据所述网页信息中的网页URL信息，将网页转换为网页图片；

从所述网页图片中分析得到网页正文图片。

在一些实施方式中，所述最终相似度的计算公式为：

最终相似度＝内容特征向量相似度*第一权重值+结构特征向量相似度*第二权重值+图片特征向量相似度*第三权重值。

本发明的另一方面还提供了一种网页相似度计算装置，包括：

网页信息获取模块，用于获取待对比的两个网页的网页信息；

信息提取模块，用于从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；

内容相似度计算模块，用于从所述两个网页的所述内容信息中分别提取出内容特征向量，并计算内容特征向量相似度；

结构相似度计算模块，用于从所述两个网页的所述结构信息中分别提取出结构特征向量，并计算结构特征向量相似度；

图片相似度计算模块，用于从所述两个网页的所述图片信息中分别提取出图片特征向量，并计算图片特征向量相似度；

最终相似度计算模块，用于根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度。

在一些实施方式中，所述信息提取模块，具体用于：

提取所述网页信息中正文部分的图片URL信息；

根据所述关键图片URL列表，抓取得到关键图片列表；

和/或，

从所述网页图片中分析得到网页正文图片。

在一些实施方式中，所述最终相似度的计算公式为：

从上面所述可以看出，本发明实施例提供的网页相似度计算方法及装置，从网页信息中提取出内容信息、结构信息和图片信息，从中提取出相应的内容特征向量、结构特征向量和图片特征向量，将待对比的两个网页的内容特征向量、结构特征向量和图片特征向量分别进行比较，并相应计算得到内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，从而计算得到最终相似度；所述最终相似度，其中包含了网页的内容特征、结构特征和图片特征的相似度计算，从而得到较为全面的相似度，能够很好地体现出两个网页之间的相似度。采用上述方法，可依次将待对比的网页进行两两对比，也可以将某个网页作为基准网页，将其他网页与其对比，通过判断最终相似度是否高于预设相似度阈值，即可排除掉相似网页，从而剔除重复内容的网页。

附图说明

图1为本发明提供的网页相似度计算方法的一个实施例的流程示意图；

图2为本发明提供的网页相似度计算方法的另一个实施例的流程示意图；

图3为本发明提供的网页相似度计算装置实施例的模块结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明的第一个方面，提出了一种相似度计算效果较好的网页相似度计算方法。如图1所示，为本发明提供的网页相似度计算方法的一个实施例的流程示意图。

所述网页相似度计算方法，包括以下步骤：

步骤101：获取待对比的两个网页的网页信息；

步骤102：从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；

步骤103：从所述两个网页的所述内容信息中分别提取出内容特征向量(例如多维文本特征)，并计算内容特征向量相似度；

步骤104：从所述两个网页的所述结构信息中分别提取出结构特征向量(例如多维DOM树特征)，并计算结构特征向量相似度；

步骤105：从所述两个网页的所述图片信息中分别提取出图片特征向量，并计算图片特征向量相似度；

步骤106：根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度；

其中，可选的，所述内容特征向量、结构特征向量和图片特征向量可采用常用的特征提取方法来实现，例如，通过对内容信息进行文本数据分析处理(又称，文本分析)，得到关键词及其出现频次，从而将出现频次高于预设频次的关键词作为内容特征向量中的参数，将其TF-IDF值(TF-IDF，termfrequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度；字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降)作为内容特征向量中该参数的权重值；再比如，通过对结构信息中包含的节点及其关联节点数据的处理，得到关键结构数据作为结构特征向量中的参数；再比如，通过对图片信息，利用图像分析技术提取图片关键信息，作为图片特征向量中的参数；所述图像分析技术，一般利用数学模型并结合图像处理的技术来分析底层特征和上层结构，从而提取具有一定智能性的信息。

可选的，所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度可采用余弦相似度计算方法来进行计算。所述余弦相似度，又称为余弦相似性，是指通过计算两个向量的夹角余弦值来评估他们的相似度；具体地，通过将向量根据坐标值，绘制到向量空间中，通过求得他们的夹角，并得出夹角对应的余弦值，此余弦值就可以用来表征这两个向量的相似性。夹角越小，余弦值越接近于1，余弦值的范围在[-1,1]之间，值越趋近于1，代表两个向量的方向越趋近于0，他们的方向更加一致，相应的相似度也越高。

从上述实施例可以看出，本发明提供的网页相似度计算方法，从网页信息中提取出内容信息、结构信息和图片信息，从中提取出相应的内容特征向量、结构特征向量和图片特征向量，将待对比的两个网页的内容特征向量、结构特征向量和图片特征向量分别进行比较，并相应计算得到内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，从而计算得到最终相似度；所述最终相似度，其中包含了网页的内容特征、结构特征和图片特征的相似度计算，从而得到较为全面的相似度，能够很好地体现出两个网页之间的相似度。采用上述方法，可依次将待对比的网页进行两两对比，也可以将某个网页作为基准网页，将其他网页与其对比，通过判断最终相似度是否高于预设相似度阈值，即可排除掉相似网页，从而剔除重复内容的网页。

较佳的，在一些可选实施方式中，所述的从所述两个网页的网页信息中分别提取出内容信息的步骤102还可具体包括以下步骤：

对所述网页信息的内容进行渲染，得到不包括图片的网页的完整信息；所述对所述网页信息的内容进行渲染的步骤可以采用JavaScript引擎来完成，JavaScript引擎是一个专门处理JavaScript脚本的虚拟机，一般会附带在网页浏览器之中；

从所述网页的完整信息中提取出内容信息，所述内容信息包括网页元信息(例如Meta信息)和网页正文中靠前的预定数量的文字；所述网页元信息可包括网页的标题、关键字、网页描述等信息；所述网页正文中靠前的文字，通常是一篇文章等内容的主旨部分，其中包含了一些较为重要的信息，例如标题、作者、发布时间、总括性描述等等；所述预定数量的文字，可以根据能够满足提取到较为重要的信息为准进行选择，例如500～1000字。

通过上述实施例，网页的标题，关键字，网页描述、网页正文中靠前的预定数量的文字等信息作为所述内容信息，从而能够将网页内容中较为重要的信息作为相似度计算基础，使得最终相似度的准确性更高。

较佳的，在另一些可选实施方式中，所述的从所述两个网页的网页信息中分别提取出结构信息的步骤102还可具体包括以下步骤：

根据所述网页的完整信息，构造得到DOM树，并对所述DOM树进行裁剪。这里，DOM的全称为Document Object Model，即文档对象模型；DOM是以层次结构组织的节点或信息片断的集合。HTML DOM是HTML DocumentObject Model的缩写，HTML DOM则是专门适用于HTML/XHTML的文档对象模型，可以将HTML DOM理解为网页的API，它将网页中的各个元素都看作一个个对象，从而使网页中的元素也可以被计算机语言获取或者编辑。HTML DOM定义了访问和操作HTML文档的标准方法。HTML DOM把HTML文档呈现为带有元素、属性和文本的树结构(节点树)。

可选的，所述构造得到DOM树的方法，可包括以下步骤：

先用HTML解析器(比如，常用的HTMLParser等)对HTML网页进行解析；

所述HTML解析器将HTML网页的页面信息作为节点保存到DOM树的层次结构中；

在HTML DOM中，HTML网页的每个部分都是节点，文档本身是文档节点，所有HTML元素是元素节点，所有HTML属性是属性节点，HTML元素内的文本是文本节点，注释是注释节点。

可选的，对所述DOM树进行裁剪的步骤可以是：遍历DOM树上的所有节点，仅保留元素节点信息作为所述结构信息；优选的，可以仅保留前N个元素节点(比如128个)，作为所述结构信息。通过上述实施例，构建DOM树作为所述结构信息，从而能够将网页内容中较为重要的结构信息作为相似度计算基础，使得最终相似度的准确性更高。

现在图片新闻越来越多，文字很短，图片本身就是新闻的重要组成部分。同时，当热门新闻出现时，各个网站进行转载编辑时一般只对标题和内容进行一定程度的修改，因为对于文字部分，其修改的成本比较低；而很少会对新闻的图片进行修改，因为图片的修改成本高，需要编辑人员自己去获取不一样的图片同时该图片又需要满足新闻本身的主题和内容的要求，若随意更换其他图也可能会导致图片与新闻内容不符。因此，图片相似度较高的两个网页，其为同一网页的可能性较高。从而，较佳的，在又一些可选实施方式中，所述的从所述两个网页的网页信息中分别提取出图片信息的步骤102还可具体包括以下步骤：

提取所述网页信息中正文部分的图片URL信息；因为网页信息的正文部分的后台存储数据通常为代码形式，其中包含了图片的URL信息，这些图片的URL信息通过针对于图片的特定存储形式进行存储(例如，该段包含图片URL信息的代码被图片标识进行标记)，通过对正文部分的数据进行分析，即可得到图片URL信息，其实质也就是图片的URL(统一资源定位符)；

根据所述图片URL信息，提取得到与网页正文有关的关键图片URL列表；亦即，将从网页信息正文部分中提取得到的图片URL信息，形成为URL列表，因为这些图片均与网页信息正文部分相关，因此其图片URL信息所形成的URL列表，即为关键图片URL列表；

根据所述关键图片URL列表，抓取得到关键图片列表；这里，根据所述关键图片URL列表，即可得知网页信息正文部分中的图片的URL，根据该URL就能抓取得到相应的图片并形成关键图片列表；

和/或，

根据所述网页信息中的网页URL信息，将网页转换为网页图片；所述网页图片为网页的页面被处理成的图片，类似于对网页的页面进行截屏处理而得到的图片；

从所述网页图片中分析得到网页正文图片；所述网页正文图片为网页的正文部分转换成的图片；通过图像分析技术对网页正文图片进行分析，能够得到关于网页正文排版方式等内容的参数，作为网页正文的图片特征向量(而不仅仅是网页中所包含的关键图片的图片特征向量)，从而从另一个角度对两个网页的相似度进行计算。

通过上述实施例，与网页正文有关的关键图片和/或网页图片作为所述图片信息，从而能够将网页内容中较为重要的图片信息作为相似度计算基础，使得最终相似度的准确性更高。

进一步的，上述实施例中的图片信息可以是同时包括多张所述关键图片和网页正文图片，一方面，直接将网页转换成网页图片进行相似度判断，另一方面将关键图片的信息提取出来，作为相似度判断的重要判断依据。利用图片信息，能更好的解决现在仅仅利用文字信息计算相似度很难解决的问题，而通过上述实施例，除了利用图片信息，还综合利用了内容信息和结构信息的特征进行相似度判断，使得最终相似度的准确性更高。

可选的，在一些实施方式中，所述最终相似度的计算公式为：

所述第一权重值、第二权重值和第三权重值，可以根据需要进行相似度判断从而解决的具体问题的数据类别、现有样本的训练结果进行调整；

可选的，针对新闻类型的网页，其内容所占比重较为重要，所述第一权重值可以选择较大的值，例如0.5；而结构特征和图片特征则为比重基本相同的因素，因此可以在0.15～0.35之间进行选择，并根据实际实验效果进行调整；因此，所述最终相似度的计算公式可以是：

最终相似度＝内容特征向量相似度*0.5+结构特征向量相似度*0.3+图片特征向量相似度*0.2，权重值可以根据实际实验效果进行调整；

其中，相似度根据实际计算结果代入，即可得到最终相似度。本发明还提供可所述网页相似度计算方法的另一个实施例。如图2所示，为本发明提供的网页相似度计算方法的另一个实施例的流程示意图。

所述网页相似度计算方法，包括以下步骤：

步骤201：获取待对比的两个网页的网页信息；

步骤202：使用JavaScript引擎对所述两个网页的网页信息的内容进行渲染，得到不包括图片的所述两个网页的的完整信息；

步骤203：从所述两个网页的的完整信息中分别提取出内容信息，所述内容信息包括网页元信息和网页正文中靠前的预定数量的文字；

步骤204：根据所述两个网页的完整信息，分别构造得到DOM树，并对所述DOM树进行裁剪；

步骤205：提取所述两个网页的网页信息中正文部分的图片URL信息；

步骤206：根据所述图片URL信息，提取得到与网页正文有关的关键图片URL列表；

步骤207：根据所述关键图片URL列表，抓取得到关键图片列表；；

步骤208：根据所述两个网页的网页信息中的网页URL信息，将网页转换为网页图片；

步骤209：从所述网页图片中分析得到网页正文图片；

步骤210：从所述两个网页的所述内容信息中分别提取出内容特征向量，并计算内容特征向量相似度；

步骤211：从所述两个网页的所述DOM树中分别提取出结构特征向量，并计算结构特征向量相似度；

步骤212：从所述两个网页的所述关键图片列表和网页正文图片中分别提取出图片特征向量，计算图片特征向量相似度；

步骤213：根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度。

本发明的第二个方面，提出了一种相似度计算效果较好的网页相似度计算装置。如图3所示，为本发明提供的网页相似度计算装置实施例的模块结构示意图。

所述网页相似度计算装置，包括：

网页信息获取模块301，用于获取待对比的两个网页的网页信息；

信息提取模块302，用于从所述两个网页的网页信息中分别提取出内容信息、结构信息和图片信息；

内容相似度计算模块303，用于从所述两个网页的所述内容信息中分别提取出内容特征向量(例如多维文本特征)，并计算内容特征向量相似度；

结构相似度计算模块304，用于从所述两个网页的所述结构信息中分别提取出结构特征向量(例如多维DOM树特征)，并计算结构特征向量相似度；

图片相似度计算模块305，用于从所述两个网页的所述图片信息中分别提取出图片特征向量，并计算图片特征向量相似度；

最终相似度计算模块306，用于根据所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，计算得到所述两个网页的最终相似度；

其中，所述内容特征向量、结构特征向量和图片特征向量可采用常用的特征提取方法来实现，在此不再赘述；所述内容特征向量相似度、结构特征向量相似度和图片特征向量相似度可采用余弦相似度计算方法来进行计算。

从上述实施例可以看出，本发明提供的网页相似度计算装置，从网页信息中提取出内容信息、结构信息和图片信息，从中提取出相应的内容特征向量、结构特征向量和图片特征向量，将待对比的两个网页的内容特征向量、结构特征向量和图片特征向量分别进行比较，并相应计算得到内容特征向量相似度、结构特征向量相似度和图片特征向量相似度，从而计算得到最终相似度；所述最终相似度，其中包含了网页的内容特征、结构特征和图片特征的相似度计算，从而得到较为全面的相似度，能够很好地体现出两个网页之间的相似度。采用上述方法，可依次将待对比的网页进行两两对比，也可以将某个网页作为基准网页，将其他网页与其对比，通过判断最终相似度是否高于预设相似度阈值，即可排除掉相似网页，从而剔除重复内容的网页。

较佳的，在一些可选实施方式中，所述信息提取模块302，还可具体用于：

从所述网页的完整信息中提取出内容信息，所述内容信息包括网页元信息(例如Meta信息)和网页正文中靠前的预定数量的文字；所述网页元信息可包括网页的标题、关键字、网页描述等信息。

较佳的，在另一些可选实施方式中，所述信息提取模块302，还可具体用于：

通过上述实施例，构建DOM树作为所述结构信息，从而能够将网页内容中较为重要的结构信息作为相似度计算基础，使得最终相似度的准确性更高。

现在图片新闻越来越多，文字很短，图片本身就是新闻的重要组成部分。同时，当热门新闻出现时，各个网站进行转载时编辑时长会对标题和内容进行一定程度的修改，因为修改的成本比较低，而很少会对新闻的图片进行修改，因为图的修改成本高，更换其他图也可能会与新闻内容不符。因此，较佳的，在又一些可选实施方式中，所述信息提取模块302，还可具体用于：

提取所述网页信息中正文部分的图片URL信息；

根据所述关键图片URL列表，抓取得到关键图片列表；

和/或，

从所述网页图片中分析得到网页正文图片；所述网页正文图片为网页的正文部分转换成的图片。

所述第一权重值、第二权重值和第三权重值，可以根据需要进行相似度判断从而解决的具体问题的数据类别、现有样本的训练结果进行调整。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页相似度计算方法，其特征在于，包括：

获取待对比的两个网页的网页信息；

2.根据权利要求1所述的方法，其特征在于，从所述两个网页的网页信息中分别提取出内容信息的步骤包括：

3.根据权利要求1所述的方法，其特征在于，从所述两个网页的网页信息中分别提取出结构信息的步骤包括：

4.根据权利要求1所述的方法，其特征在于，从所述两个网页的网页信息中分别提取出图片信息的步骤包括：

提取所述网页信息中正文部分的图片URL信息；

根据所述关键图片URL列表，抓取得到关键图片列表；

和/或，

从所述网页图片中分析得到网页正文图片。

5.根据权利要求1所述的方法，其特征在于，所述最终相似度的计算公式为：

6.一种网页相似度计算装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述信息提取模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述信息提取模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述信息提取模块，具体用于：

提取所述网页信息中正文部分的图片URL信息；

根据所述关键图片URL列表，抓取得到关键图片列表；

和/或，

从所述网页图片中分析得到网页正文图片。

10.根据权利要求6所述的装置，其特征在于，所述最终相似度的计算公式为：