CN109918624A

CN109918624A - 一种网页文本相似度的计算方法和装置

Info

Publication number: CN109918624A
Application number: CN201910203967.2A
Authority: CN
Inventors: 胡聪聪; 刘智朋; 陈炜鹏; 许静芳
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-21
Anticipated expiration: 2039-03-18
Also published as: CN109918624B

Abstract

本申请实施例公开了一种网页文本相似度的计算方法，在计算网页文本相似度时，获取各网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表。分别以映射关系表中每个关键词作为目标关键词，确定目标关键词对应的网页文本集合。将网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集，得到目标关键词对应的至少一个网页文本子集。计算每个网页文本子集中任两个网页文本之间的相似度。通过将根据关键词对网页文本进行初步聚类，以及根据网页文本所属预设主题对网页文本进行最终聚类相结合，在减少相似度计算量的基础上，提高了网页文本聚类的准确性，进而提高网页文本相似度计算的准确性，改善相似网页文本识别的准确率。

Description

一种网页文本相似度的计算方法和装置

技术领域

本申请涉及互联网领域，特别是涉及一种网页文本相似度的计算方法和装置。

背景技术

随着互联网技术的迅猛发展，数据正以前所未有的规模急速增加，海量数据中存在很多相似网页文本，确定海量数据中的相似网页文本对于相似网页文本的推荐、去重等非常重要。

确定相似网页文本需要计算网页文本之间的相似度，由于海量数据中包括亿级网页文本，如果针对任意两个网页文本都计算相似度，将会导致计算量过大，计算速度极为缓慢。故，目前通过simhash算法计算网页文本的相似度，即通过对所有网页文本进行分词，得到各个分词的哈希值，进而根据各个分词的哈希值分别生成每个网页文本的签名值。然后根据签名值对网页文本进行聚类，针对同一类别中的网页文本计算网页文本之间的相似度。

但是由于不同分词对应的哈希值不同，对于较短的网页文本来说，每个分词的哈希值在签名值中所占比重较大，网页文本中一个分词的不同都会导致网页文本之间的签名值存在较大差异。这样，即使两个网页文本相似，也会由于二者之间签名值的较大差异将二者划分到不同类别，可能导致直接确定这两个网页文本不相似。可见，simhash算法针对较短的网页文本确定相似文本时，会出现聚类不准确而导致相似网页文本的识别准确率较低的问题。

发明内容

为了解决上述技术问题，本申请提供了一种网页文本相似度的计算方法和装置，在减少相似度的计算量、提高计算速度的基础上，提高了网页文本聚类的准确性，进而提高网页文本之间相似度计算的准确性，使得相似网页文本的识别准确率明显改善。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种网页文本相似度的计算方法，所述方法包括：

获取网页文本数据库中各个网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表；

分别以映射关系表中的每个关键词作为目标关键词，确定所述目标关键词对应的网页文本集合；所述目标关键词对应的网页文本集合包括所述目标关键词对应的网页文本；

针对所述目标关键词对应的网页文本集合，将所述网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集，得到所述目标关键词对应的至少一个网页文本子集；

对所述目标关键词对应的至少一个网页文本子集，计算每个网页文本子集中任两个网页文本之间的相似度，得到所述目标关键词对应的网页文本之间的相似度。

可选的，所述确定所述目标关键词对应的网页文本集合，包括：

根据所述映射关系表，建立关键词与网页文本之间的倒排关系；

根据所述倒排关系，将与所述目标关键词具有倒排关系的网页文本进行聚合处理，得到所述目标关键词对应的网页文本集合。

可选的，在所述将所述网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集之前，所述方法还包括：

确定所述网页文本集合中每个网页文本所属的预设主题。

可选的，所述确定所述网页文本集合中每个网页文本所属的预设主题，包括：

计算所述网页文本集合中每个网页文本分别对应各个预设主题的概率，将概率超过预设阈值的预设主题作为所述网页文本所属预设主题。

可选的，所述计算所述网页文本集合中每个网页文本分别对应各个预设主题的概率，包括：

将所述网页文本集合中每个网页文本分别输入文档主题生成模型LDA，计算每个网页文本分别对应各个预设主题的概率。

可选的，所述预设主题的个数根据所述网页文本集合中网页文本的数量和每个所述网页文本子集中包括网页文本的预设数量设定的。

第二方面，本申请实施例提供一种网页文本相似度的计算装置，所述装置包括获取单元、第一确定单元、聚类单元和计算单元：

所述获取单元，用于获取网页文本数据库中各个网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表；

所述第一确定单元，用于分别以映射关系表中的每个关键词作为目标关键词，确定所述目标关键词对应的网页文本集合；所述目标关键词对应的网页文本集合包括所述目标关键词对应的网页文本；

所述聚类单元，用于针对所述目标关键词对应的网页文本集合，将所述网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集，得到所述目标关键词对应的至少一个网页文本子集；

所述计算单元，用于对所述目标关键词对应的至少一个网页文本子集，计算每个网页文本子集中任两个网页文本之间的相似度，得到所述目标关键词对应的网页文本之间的相似度。

可选的，所述第一确定单元，具体用于：

可选的，所述装置还包括第二确定单元：

所述第二确定单元，用于确定所述网页文本集合中每个网页文本所属的预设主题。

可选的，所述第二确定单元，具体用于：

第三方面，本申请实施例提供一种用于网页文本相似度计算的设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

第四方面，本申请实施例提供一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如第一方面中一个或多个所述的网页文本相似度的计算方法。

由上述技术方案可以看出，本方案为了减少网页文本相似度的计算量，提升计算速度，在计算网页文本之间的相似度时，获取网页文本数据库中各个网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表。分别以映射关系表中每个关键词作为目标关键词，确定目标关键词对应的网页文本集合。

相对于传统的基于签名值对网页文本进行聚类，由于关键词从语义上反映了网页文本包括的主要内容，故根据关键词得到的网页文本集合对网页文本聚类更加准确，避免由于网页文本类别划分不准确导致后续相似度计算的不准确。由于亿级网页文本根据关键词划分类别后，每个关键词对应的网页文本数量过多，因此，针对每个网页文本，将网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集，得到目标关键词对应的至少一个网页文本子集。由于主题可以反映网页文本所涉及的内容，主题相同的网页文本更有可能是相似的网页文本，故计算每个网页文本子集中任两个网页文本之间的相似度，避免对不可能相似的网页文本之间的相似度进行计算，大大减少相似度的计算量。

可见，本方案通过将根据关键词对海量网页文本进行初步聚类，以及根据网页文本所属预设主题对网页文本进行最终聚类相结合，在减少相似度的计算量、提高计算速度的基础上，提高了网页文本聚类的准确性，进而提高网页文本之间相似度计算的准确性，使得相似网页文本的识别准确率明显改善。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种网页文本相似度的计算方法的流程图；

图2为本申请实施例提供的一种网页文本相似度的计算装置的结构图；

图3为本申请实施例提供的一种用于网页文本相似度计算的设备的结构图；

图4为本申请实施例提供的一种服务器的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

通过simhash算法计算网页文本的相似度，对于较短的网页文本来说，由于网页文本中分词的不同都会导致网页文本之间的签名值存在较大差异，从而导致根据签名值对网页文本进行聚类会出现聚类不准确，进而导致网页文本的相似度计算不准确，使得相似网页文本的识别准确率较低。

例如，网页文本1为“范冰冰李晨”，网页文本2为“范冰冰李晨相关消息”，网页文本1和网页文本2实质上都是关于范冰冰和李晨的，二者有很大可能是相似的网页文本。但是，若采用simhash算法计算网页文本相似度时，则会计算得到“范冰冰李晨”的签名值例如为“010100110”，以及“范冰冰李晨相关消息”的签名值例如为“010011101”。可见，计算得到的网页文本1和网页文本2的签名值差异很大，如果根据二者的签名值，则会将网页文本1和网页文本2划分到不同的类别，从而不会对网页文本1和网页文本2之间的相似度进行计算，无法确定出网页文本1和网页文本2是相似的网页文本，导致相似网页文本的识别准确率较低。

为了解决上述技术问题，本申请实施例提供一种网页文本相似度的计算方法，该方法根据关键词对海量网页文本进行初步聚类。其中，关键词可以表达网页文本的主要内容，可以用于区分不同的网页文本之间是否可能相似。若两个不同的网页文本具有相同的关键词，可以认为具有相同关键词的两个网页文本有相似的可能，可能需要对这两个网页文本进行相似度计算，以进一步确认这两个网页文本是否为相似的网页文本。若两个网页文本不存在相同的关键词，可以认为这两个网页文本很大可能不相似，故没有必要对不相似的两个网页文本计算相似度。

由于网页文本数量非常多，而关键词数量有限，可以通过关键词将网页文本聚类得到多个网页文本集合。此时，每个网页文本集合中包括的网页文本仍旧非常多，明显超出可以计算相似度的计算量，故，还可以根据网页文本所属预设主题对网页文本集合中的网页文本进行最终聚类得到网页文本子集。这样，通过设置预设主题的个数，可以保证网页文本子集中包括的网页文本数量在可计算范围内，大大降低了网页文本相似度的计算量。

其中，同一网页文本子集中包括的网页文本所属的预设主题完全相同，且同一网页文本子集对应的预设主题可以包括一个或多个。

若一网页文本子集对应的相同预设主题为一个，则说明该网页文本子集中包括的网页文本仅属于一个预设主题，且不同网页文本之间所属的预设主题相同。例如，网页文本1属于预设主题B1，网页文本2也属于预设主题B1，则网页文本1和网页文本2为所属预设主题相同的网页文本，网页文本1和网页文本2聚类到一个网页文本子集中，此时，该网页文本子集中的网页文本1和网页文本2属于相同预设主题，相同预设主题为B1。

若一网页文本子集对应的相同预设主题为多个，则说明该网页文本子集中包括的网页文本属于多个预设主题，且不同的网页文本之间所属的多个预设主题完全相同。例如，网页文本3属于预设主题B2和B3，网页文本4也属于预设主题B2和B3，网页文本5属于预设主题B2。由于网页文本3和网页文本4所属的预设主题完全相同，则将网页文本3和网页文本4聚类到一个网页文本子集中。此时，网页文本子集中的网页文本3和网页文本4属于相同预设主题，相同预设主题为B2和B3。其中，预设主题B2和B3为不同的主题，二者均可以表示网页文本3和网页文本4所涉及的内容。而网页文本5与网页文本3、网页文本4所属的预设主题不完全相同，因此，网页文本5属于另一网页文本子集，该网页文本子集对应的预设主题为B2。

可见，本申请实施例将根据关键词对海量网页文本进行初步聚类，以及根据网页文本所属预设主题对网页文本进行最终聚类相结合；首先，通过根据关键词对海量网页文本进行初步聚类得到网页文本集合，提高聚类的准确性，避免由于聚类错误导致没有对可能相似的网页文本之间的相似度进行计算；然后，通过根据网页文本所属预设主题对网页文本集合中的网页文本进行最终聚类得到网页文本子集，使得网页文本子集中包括的网页文本的数量大大减少。与传统方式相比，实现了在减少相似度的计算量、提高计算速度的基础上，提高网页文本之间相似度计算的准确性，使得相似网页文本的识别准确率明显改善。

可以理解的是，本申请实施例提供的方法可以用于基于相似度进行网页文本推荐、基于相似度进行网页文本去重等各种应用场景中。例如，在基于相似度进行网页文本推荐的应用场景中，可以通过本申请实施例提供的方法对网页文本数据库中可能相似的网页文本进行相似度计算。当用户打开某个网页文本后，可以基于离线计算得到的这个网页文本与其他网页文本之间的相似度，确定这个网页文本的相似网页文本，从而向用户推荐相似网页文本。

本申请实施例提供的方法可以应用到终端设备，也可以应用到服务器中，其中，终端设备可以是手机、笔记本电脑、台式电脑、平板电脑等。本申请实施例以该方法应用到服务器为例进行介绍。

接下来，将结合附图对本申请实施例提供的网页文本相似度的计算方法进行介绍。

参见图1，图1示出了一种网页文本相似度的计算方法流程图，该方法包括：

S101、获取网页文本数据库中各个网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表

网页文本数据库中包括海量网页文本，网页文本一般包括网页标题和网页内容。而在本实施例中，一般可以对网页文本中包括的网页标题进行分词，基于词频-逆文本频率指数(term frequency–inverse document frequency，简称TF-IDF)得到每个网页文本对应的关键词。

在本实施例中，网页文本可以为网页文本数据库中所有网页文本或部分网页文本。当然，在一些情况下，计算网页文本相似度，从而确定相似网页文本的目的是为了当用户在搜索引擎中打开某一网页时，可以向用户推荐相似的网页文本。因此，为了减少计算量，网页文本可以为用户通过输入搜索词搜索得到的，并且可能被用户打开的文本。

其中，每个网页文本对应的关键词可以包括一个或多个，关键词选取的越多，最终计算得到的网页文本之间的相似度越准确。然而，由于关键词选取的越多，计算网页文本之间相似度的计算量越大，因此，在尽可能保证计算准确性的基础上，选取的关键词不能过多，一般情况下，选取三个左右关键词较为合适。

本申请实施例中，基于获取的各个网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表。

S102、分别以所述映射关系表中每个关键词作为目标关键词，确定该目标关键词对应的网页文本集合。

其中，所述目标关键词对应的网页文本集合可以包括所述目标关键词对应的网页文本。可以理解的是，网页文本集合中包括的网页文本至少具有一个相同的关键词，即目标关键词。其中，对应所述目标关键词的网页文本可以是指网页标题中包括所述目标关键词的网页文本。例如：通过步骤S101获取网页文本对应关键词A和关键词B，则网页文本既是对应关键词A的网页文本，也是对应关键词B的网页文本。

S101中得到了每个网页文本分别对应的关键词，通过建立关键词与网页文本的倒排关系，进而可以得到每个关键词对应的网页文本集合。具体的，S102所述的确定所述目标关键词对应的网页文本集合的一种实现方式可以是：根据构建的映射关系表，建立关键词与网页文本之间的倒排关系，然后，根据倒排关系，将与目标关键词具有倒排关系的网页文本进行聚合处理，得到目标关键词对应的网页文本集合，从而得到每个关键词对应的网页文本集合。

例如，网页文本包括网页文本1、网页文本2、网页文本3、网页文本4、网页文本5和网页文本6。通过S101构建出的映射关系表包括网页文本1对应关键词A，网页文本2对应关键词A和关键词B，网页文本3对应关键词A，网页文本4对应关键词A，网页文本5对应关键词A，网页文本6对应关键词B。通过倒排索引建立的关键词A与网页文本之间的倒排关系为：关键词A—网页文本1，关键词A—网页文本2，关键词A—网页文本3，关键词A—网页文本4，关键词A—网页文本5；通过倒排索引建立的关键词B与网页文本之间的倒排关系为：关键词B—网页文本2，关键词B—网页文本6。

若以关键词A作为目标关键词为例，根据得到的倒排关系，将关键词A具有倒排关系的网页文本进行聚合处理，得到关键词A对应的网页文本集合。由于与关键词A具有倒排关系的网页文本包括网页文本1、网页文本2、网页文本3、网页文本4和网页文本5，故可以得到关键词A对应的网页文本集合{网页文本1、网页文本2、网页文本3、网页文本4、网页文本5}。同理，得到关键词B对应的网页文本集合{网页文本2、网页文本6}。

S103、针对目标关键词对应的网页文本集合，将该网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集，得到所述网页文本集合包括的至少一个网页文本子集，即为所述目标关键词对应的至少一个网页文本子集。

其中，步骤S103中，在执行所述将网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集之前，还可以包括：确定所述网页文本集合中每个网页文本所属的预设主题。

需要说明的是，确定所述网页文本集合中每个网页文本所属的预设主题的方式可以包括很多。由于预设主题可以包括多个，网页文本集合中的网页文本可以与多个预设主题具有对应关系，只不过该网页文本对应不同预设主题的概率大小可能有所区别，网页文本对应某个预设主题的概率越大，该网页文本越有可能属于该预设主题。故，在本实施例中，确定网页文本所属预设主题的一种实现方式可以为：计算网页文本集合中每个网页文本分别对应各个预设主题的概率，将概率超过预设阈值的预设主题作为所述网页文本所属预设主题。其中，概率可以体现出每个网页文本属于各个预设主题的可能性，当网页文本对应某一预设主题的概率超过预设阈值时，可以认为该网页文本属于该预设主题，当网页文本对应某一预设主题的概率未达到预设阈值时，可以认为该网页文本不属于该预设主题，从而确定出该网页文本所属的预设主题。由此可见，网页文本集合中的每个网页文本可能属于一个或多个预设主题，也可能不属于任何预设主题。实际应用中，针对不属于任何主题的网页文本可以视为异常情况，进行丢弃处理等，在此不做具体限定。

进一步需要说明的是：如果某个目标关键词对应的网页文本集合中包括的所有网页文本均不属于任何一预设主题(例如均小于预设阈值)，则可以认为该目标关键词对应的网页文本子集为空。例如，关键词A对应的网页文本集合为{网页文本1、网页文本2、网页文本3、网页文本4、网页文本5}，预设主题为主题B1、主题B2、主题B3。通过计算得到每个网页文本分别对应各个预设主题的概率，若网页文本1对应主题B1的概率为0.42、网页文本1对应主题B2的概率为0.53、网页文本1对应主题B3的概率为0.05，预设阈值为0.1，由于0.42大于0.1、0.53大于0.1、0.05小于0.1，则网页文本1属于主题B1和主题B2。

相应的，采用类似的方法可以确定出网页文本2、网页文本3、网页文本4、网页文本5所属的预设主题，假设网页文本2所属的预设主题为主题B1和主题B2、网页文本3所属的预设主题为主题B3、网页文本4所属的预设主题为主题B3、网页文本5所属的预设主题为主题B3。

这样，网页文本1和网页文本2所属的预设主题相同，二者都属于主题B1和主题B2，故，网页文本1和网页文本2聚类至同一网页文本子集，得到网页文本子集C1{网页文本1、网页文本2}；网页文本3、网页文本4和网页文本5的所属的预设主题相同，三者都属于主题B3，故，网页文本3、网页文本4和网页文本5聚类至同一网页文本子集，得到网页文本子集C2{网页文本3、网页文本4、网页文本5}。

需要说明的是，计算网页文本分别对应各个预设主题的概率的方式可以包括多种。其中，一种可能的实现方式可以是通过主题分布模型进行确定。由于文档主题生成模型(Latent Dirichlet Allocation，简称LDA)收敛速度快，且为无监督学习，不需要手工标注的网页文本。因此，一般采用LDA计算网页文本分别对应各个预设主题的概率。LDA的输入为网页文本，输出为网页文本分别对应各个预设主题的概率，因此，将网页文本集合中每个网页文本分别输入到LDA，便可以计算每个网页文本分别对应各个预设主题的分布概率。

另外，使用LDA计算网页文本分别对应各个预设主题的概率时，需要预先在LDA中输入预设主题的个数，由于预设主题的个数会影响网页文本子集中所包括的网页文本数量，预设主题个数过少，会导致每个网页文本子集中所包括的网页文本数量过多，进而导致在计算网页文本子集中网页文本之间的相似度时计算量过大。因此，预设主题的个数可以是根据网页文本集合中网页文本的数量和网页文本子集中所包括网页文本的预设数量设定的。从而将网页文本集合中过多的网页文本划分到多个网页文本子集中，使得每个网页文本子集中包括的网页文本数量适中，减少计算量。当然，预设主题的个数也不可以过多，从而避免LDA收敛速度过慢。

在一种实现方式中，预设主题的个数可以通过以下公式表示：m＝log₂(n/cons)。其中，m为预设主题的个数，n为网页文本集合中网页文本的数量，cons为网页文本子集中所包括网页文本的预设数量。

在通常情况下，cons可以设置为500，m个预设主题最多有2^m-1个不同网页文本子集。

S104、对所述目标关键词对应的至少一个网页文本子集，计算每个网页文本子集中任两个网页文本之间的相似度，得到所述目标关键词对应的网页文本之间的相似度。

其中，针对网页文本与对应关键词的映射关系表中的每个关键词，分别执行上述步骤S102至S104，可以实现对整个网页文本数据库中包括的每个关键词对应的网页文本之间相似度的计算。

其中，计算两个网页文本之间相似度的方式有多种，例如：杰卡德指数(JaccardIndex)，word2vec的余弦相似度等。

例如，针对关键词A对应的网页文本集合，得到其包括网页文本子集C1{网页文本1、网页文本2}和网页文本子集C2{网页文本3、网页文本4、网页文本5}；则需要计算网页文本子集C1中网页文本1和网页文本2之间的相似度，以及网页文本子集C2中任意两个网页文本之间的相似度，包括计算网页文本3和网页文本4之间的相似度，网页文本3和网页文本5之间的相似度，网页文本4和网页文本5之间的相似度。可见，采用本申请实施例所述方法，计算关键词A对应网页文本之间相似度时，只需要进行4组网页文本的相似度计算即可。如果采用传统方法，则需要对关键词A对应的5个网页文本两两计算相似度，需要进行10组网页文本的相似度计算。由此可以看到，采用本申请实施例所述的方法，可以大大减少网页文本相似度的计算量。提高计算速度。

由上述技术方案可以看出，本方案为了减少网页文本相似度的计算量，提升计算速度，在计算网页文本之间的相似度时，获取网页文本数据库中各个网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表。分别以映射关系表中每个关键词作为目标关键词，确定目标关键词对应的网页文本集合。相对于传统的基于签名值对网页文本进行聚类，由于关键词从语义上反映了网页文本包括的主要内容，故根据关键词得到的网页文本集合对网页文本聚类更加准确，避免由于网页文本类别划分不准确导致后续相似度计算的不准确。由于亿级网页文本根据关键词划分类别后，每个关键词对应的网页文本数量过多，因此，针对每个网页文本，将网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集，得到目标关键词对应的至少一个网页文本子集。由于主题可以反映网页文本所涉及的内容，主题相同的网页文本更有可能是相似的网页文本，故计算每个网页文本子集中任两个网页文本之间的相似度，避免对不可能相似的网页文本之间的相似度进行计算，大大减少相似度的计算量。可见，本方案通过将根据关键词对海量网页文本进行初步聚类，以及根据网页文本所属预设主题对网页文本进行最终聚类相结合，在减少相似度的计算量、提高计算速度的基础上，提高了网页文本聚类的准确性，进而提高网页文本之间相似度计算的准确性，使得相似网页文本的识别准确率明显改善。

另外，由于各个网页文本集合之间是相互独立的，在针对每个网页文本集合进行后续计算时，可以将多个网页文本集合分发到不同的数据处理设备上进行处理，保证了后续计算方法可分布式并行运行。

可以理解的是，在计算得到网页文本数据库中各关键词对应网页文本之间的相似度后，针对用户输入的搜索词，搜索得到该搜索词对应的搜索结果；针对搜索结果中的某个搜索结果项对应的网页文本，可以根据前述方法计算得到的网页文本数据库中该搜索词对应网页文本之间的相似度，确定该搜索结果项的网页文本的相似网页文本，从而向用户推荐相关搜索结果或者进行网页文本去重。

例如，当需要针对搜索结果中的某个搜索结果项对应的网页文本，确定该搜索结果项的网页文本的相似网页文本时，可以根据该网页文本的标识，在网页文本数据库中查找到该网页文本，将与该网页文本相似度满足预设条件的其他网页文本作为该网页文本的相似网页文本。

进一步的，所述方法在步骤S103中所述得到所述目标关键词对应的至少一个网页文本子集时，还可以包括每个网页文本子集对应的预设主题。

则在针对用户输入的搜索词，搜索得到该搜索词对应的搜索结果；针对搜索结果中的某个搜索结果项对应的网页文本，可以先确定该网页文本所属预设主题，基于前述计算得到的所述网页文本数据库中该预设主题的网页文本子集，并从该网页文本子集中，获取该搜索结果项的网页文本的相似网页文本。

在得到相似网页文本后，根据应用场景的不同可以对相似网页文本进行不同的处理。例如，在基于相似度进行网页文本推荐的应用场景中，可以向用户推荐相似网页文本。

而在基于相似度进行网页文本去重的应用场景中，由于相似网页文本是与搜索结果中某个搜索结果项对应的网页文本相似的网页文本，二者所包括的内容相似或基本相同，可以认为二者相重复。用户已经打开了搜索结果中某个搜索结果项对应的网页文本，如果用户还需要继续打开其他网页文本，则说明搜索结果中某个搜索结果项对应的网页文本不满足用户需求，没必要继续向用户展示重复的网页文本。因此，为了提高用户的搜索效率，提高用户体验，可以去除与搜索结果中某个搜索结果项对应的网页文本重复的相似网页文本。

基于前述实施例提供的网页文本相似度的计算方法，本申请实施例提供一种网页文本相似度的计算装置，参见图2，所述装置包括获取单元201、第一确定单元202、聚类单元203和计算单元204：

所述获取单元201，用于获取网页文本数据库中各个网页文本对应的关键词，构建每个网页文本与对应关键词的映射关系表；

所述第一确定单元202，用于分别以映射关系表中的每个关键词作为目标关键词，确定所述目标关键词对应的网页文本集合；所述目标关键词对应的网页文本集合包括所述目标关键词对应的网页文本；

所述聚类单元203，用于针对所述目标关键词对应的网页文本集合，将所述网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集，得到所述目标关键词对应的至少一个网页文本子集；

所述计算单元204，用于对所述目标关键词对应的至少一个网页文本子集，计算每个网页文本子集中任两个网页文本之间的相似度，得到所述目标关键词对应的网页文本之间的相似度。

可选的，所述第一确定单元，具体用于：

可选的，所述装置还包括第二确定单元：

可选的，所述第二确定单元，具体用于：

可选的，所述预设主题的个数根据所述网页文本集合中网页文本的数量和每个所述网页文本子集中包括网页文本的预设数量设定的

本实施例还提供一种用于网页文本相似度计算的的设备，该设备可以是终端设备，图3是根据一示例性实施例示出的一种终端设备300的框图。例如，终端设备300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，终端设备300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制终端设备300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理部件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在终端设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为终端设备300的各种组件提供电力。电源组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述终端设备300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当终端设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为终端设备300提供各个方面的状态评估。例如，传感器组件314可以检测到终端设备300的打开/关闭状态，组件的相对定位，例如所述组件为终端设备300的显示器和小键盘，传感器组件314还可以检测终端设备300或终端设备300一个组件的位置改变，用户与终端设备300接触的存在或不存在，终端设备300方位或加速/减速和终端设备300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于终端设备300和其他设备之间有线或无线方式的通信。终端设备300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由终端设备300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种用于网页文本相似度计算方法，所述方法包括：

本实施例提供的用于句联想的设备还可以是服务器，图4是本发明实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口458，一个或一个以上键盘456，和/或，一个或一个以上操作系统441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种网页文本相似度的计算方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标关键词对应的网页文本集合，包括：

3.根据权利要求1所述的方法，其特征在于，在所述将所述网页文本集合中所属预设主题相同的网页文本聚类至同一网页文本子集之前，所述方法还包括：

确定所述网页文本集合中每个网页文本所属的预设主题。

4.根据权利要求3所述的方法，其特征在于，所述确定所述网页文本集合中每个网页文本所属的预设主题，包括：

5.根据权利要求4所述的方法，其特征在于，所述计算所述网页文本集合中每个网页文本分别对应各个预设主题的概率，包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述预设主题的个数根据所述网页文本集合中网页文本的数量和每个所述网页文本子集中包括网页文本的预设数量设定的。

7.一种网页文本相似度的计算装置，其特征在于，所述装置包括获取单元、第一确定单元、聚类单元和计算单元：

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元，具体用于：

9.一种用于网页文本相似度计算的设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的网页文本相似度的计算方法。