CN106372202A

CN106372202A - 文本相似度计算方法及装置

Info

Publication number: CN106372202A
Application number: CN201610799835.7A
Authority: CN
Inventors: 唐文韬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-01
Anticipated expiration: 2036-08-31
Also published as: CN106372202B

Abstract

本发明提供了一种文本相似度计算方法及装置，其中的方法包括：确定多条待定文本；将各条待定文本分别转换为各自对应的字符串列表，并基于各个字符串列表计算各待定文本的文本签名；查找出具有相同文本签名的所有待定文本，构成候选文本集，其中，所述候选文本集中任意两个文本组成候选对；计算所述候选对的两个文本之间的相似度。本发明可处理海量网络评论文本，同时保证处理效率。

Description

文本相似度计算方法及装置

技术领域

本发明涉及数据分析技术领域，特别是涉及一种文本相似度计算方法及装置。

背景技术

随着互联网的发展，新闻网站、社交网站成为用户获取资讯的主要平台，而评论文本则很大程度上影响舆论走向，因此，如何识别出文本相似度则有助于提高互联网信息的可信度。例如，出于商业目的，出现了“水军”群体，水军基于统一目的在网络上发表具有水军特性的评论，这些评论的导向是一致的，目的在于引导舆论走向，从而达到商业或其他目的。由于水军群体目的的一致性，因此其评论文本存在很大的相似性。

目前，对于网络评论文本的相似度，一般是基于社交账号属性信息进行识别，由于这种方式不但需要分析、处理评论文本，还要对用户账户属性信息进行分析和处理，因此这种识别方式的识别效率有限，而且，对于上述的水军言论，由于水军个体账户各不相同，因此很难识别。另外，在大数据时代，数据量呈现爆炸式增长，如何提高文本相似度的识别效率也是本领域关心的一个问题。

发明内容

为了提高针对网络海量评论的处理效率，本发明实施例提供一种文本相似度计算方法及装置。

根据本发明实施例的一个方面，提供一种文本相似度计算方法，包括：确定多条待定文本；将各条待定文本分别转换为各自对应的字符串列表，并基于各个字符串列表计算各待定文本的文本签名；查找出具有相同文本签名的所有待定文本，构成候选文本集，其中，所述候选文本集中任意两个文本组成候选对；计算所述候选对的两个文本之间的相似度。

优选的，在所述确定多条待定文本之前，还包括：对当前获取的所有文本进行预处理，确定出特定类型的文本；在获取的所有文本中除去所述特定类型的文本，将剩余文本确定为所述待定文本。

优选的，所述特定类型的文本包括：水军评论文本、认证用户评论文本、相同内容评论文本，和/或，长度小于预置长度的评论文本。

优选的，在所述计算所述候选对的两个文本之间的相似度之后，还包括：判断两个文本之间的相似度是否大于预置的水军相似度阈值，若是，则确定两个文本均为水军评论文本。

优选的，所述文本签名是指局部敏感哈西LSH文本签名，所述方法还包括：通过预置不同的哈西函数，针对所述待定文本多次迭代计算LSH文本签名；将多次迭代计算的LSH文本签名进行汇总，得到汇总的LSH文本签名作为所述待定文本的文本签名。

优选的，在所述计算所述候选对的两个文本之间的相似度之前，还包括：通过候选对标识查找所述候选对是否在不同的候选文本集中重复出现；去除重复出现的候选对，仅保留在一个候选文本集中的所述候选对。

根据本发明实施例的另一个方面，提供一种文本相似度计算装置，包括：待定文本确定单元，用于确定多条待定文本；文本签名计算单元，用于将各条待定文本分别转换为各自对应的字符串列表，并基于各个字符串列表计算各待定文本的文本签名；候选对确定单元，用于查找出具有相同文本签名的所有待定文本，构成候选文本集，其中，所述候选文本集中任意两个文本组成候选对；相似度计算单元，用于计算所述候选对的两个文本之间的相似度。

优选的，该装置还包括：预处理单元，用于对当前获取的所有文本进行预处理，确定出特定类型的文本；所述待定文本确定单元，是在获取的所有文本中除去所述特定类型的文本，将剩余文本确定为所述待定文本。

优选的，该装置还包括：水军评论确定单元，用于判断两个文本之间的相似度是否大于预置的水军相似度阈值，若是，则确定两个文本均为水军评论文本。

优选的，该装置所述文本签名是指局部敏感哈西LSH文本签名，所述装置还包括：签名迭代单元，用于通过预置不同的哈西函数，针对所述待定文本多次迭代计算LSH文本签名；以及，将多次迭代计算的LSH文本签名进行汇总，得到汇总的LSH文本签名作为所述待定文本的文本签名。

优选的，该装置还包括：候选对去重单元，用于通过候选对标识查找所述候选对是否在不同的候选文本集中重复出现；以及，去除重复出现的候选对，仅保留在一个候选文本集中的所述候选对。

本发明实施例中，创新性提出采用文本签名作为候选对集合划分标准，由于文本签名计算量小(如LSH签名)、效率高，从而有助于在有限时间内完成海量网络评论文本的相似度计算；特别的，通过采取不同哈西函数多次迭代确定LSH文本签名，可弥补最小哈西算法易存在的比较对遗漏问题。另外，通过预处理过滤出特定类型的评论文本，可减小待定文本的数量和范围，从而减小后续计算量，也提高了处理效率。另外，通过候选对去重处理，将重复的候选对仅保留一份，从而避免无谓的计算量，也提高了处理效率。

附图说明

图1是本发明一个实施例提供的一种文本相似度计算方法流程图；

图2是本发明一个实施例提供的一种文本相似度计算装置结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供一种文本相似度计算方法及装置，旨在针对目前网络大数据背景下，能够实现快速对评论文本进行相似度计算，从而为判定某类评论(如水军评论)提供依据。

参见图1，为本发明实施例提供的一种文本相似度计算方法流程图，该方法包括：

S101：确定多条待定文本。

其中，待定文本可以是指网络评论文本，例如，新闻评论文本、社交平台评论文本、影视资源评论文本，等等。文本可以是汉字评论文本、英文评论文本或其他语言评论文本，且文本中可包含表情、符号等内容。

由于网络评论文本数量庞大，为了提高效率，在优选方式中，可在确定待定文本之前进行文本分类预处理，通过预先确定出一些特定类型的文本，从而缩小待定文本的范围，可为后续对待定文本的相似度计算节约时间，从而提高效率。

具体的，可以根据评论文本的用户信息，识别出水军评论文本或非水军评论文本，例如，如果通过用户信息确定用户是认证用户，则判定该用户的评论文本为非水军评论文本，再如，如果通过用户信息确定用户为水军用户，则判定该用户的评论文本为水军评论文本，此外，对于内容完全一致的评论文本，可直接判断为水军评论文本。另外，还可以根据文本大小排除一些超短评论文本，因为超短评论文本之间的相似度较高，存在误判的概率增大，因此，可预先排除这些超短评论文本，具体的，可以预置最小文本长度，从而可将小于最小文本长度的评论文本预先过滤掉。

在获取的所有网络文本中除去上述预先确定的特定类型的文本，将剩余文本确定为采取本发明方式进行相似度计算的待定文本。由于通过预处理方式缩小了待定文本范围，使得后续进行相似度计算的数据量大为减小，从而可提高处理效率。

S102：将各条待定文本分别转换为各自对应的字符串列表，并基于各个字符串列表计算各待定文本的文本签名。

将文本转换为对应的字符串列表，即将文本中的内容(汉字或英文单词等，以下以汉字为例)进行拆分和组合，从而形成包含多个元素的字符串列表，其中的元素即是拆分和组合后的文本内容，元素的大小是预置的。例如，一条文本为“今天天气真好”，预设元素大小为两个汉字，那么，对上述文本拆分、组合后形成的字符串列表为{今天、天天、天气、气真、真好}。

基于字符串列表计算文本签名，是指根据字符串列表中各个元素按照一定算法(例如特征取值算法、哈西算法，等)取值，从而计算出该字符串列表对应的特定标识，其中，文本签名是指表明该文本特定性的标识。

例如，可以采取基于最小哈西算法(MinHash)的局部敏感哈西(Locality-Sensitive Hashing，LSH)，为待定文本计算LSH签名。本领域技术人员了解，MinHash的理论是，随机从特征中抽样一些来进行比较，和取全部特征进行比较，在数学上能得到一样的效果。相对于传统的哈西算法，MinHash通过降维提高计算效率，这特别适用于网络评论文本数量庞大的场景。具体的，计算LSH签名的方法可如下：步骤1、基于随机数生成r*b个Hash函数作为MinHash函数，和一个Hash函数作为LSH函数；步骤2、对字符串列表中的每个元素调用r*b个Hash函数，为每个Hash函数计算其在列表中的最小哈希值(MinHash)；对得到的r*b个最小Hash值，以r个为一组计算Hash值，得到b个LSH签名。以LSH签名作为关键字，评论id作为值(value)。将所有具有相同LSH签名的评论id聚合在一起成为“候选对”集合。

通过基于MinHash的LSH签名，可以过滤掉不相似的“比较对”(具体是指两条待比较的文本)，从而减少计算量。但是另一方面存在一部分相似的比较对被过滤掉的概率。因此，为了解决此问题，在一个优选方式中，可以通过不同哈西函数多次迭代计算LSH签名的方式，尽量减少相似比较对被过滤的概率。具体的，首先，通过预置不同的哈西函数，针对待定文本多次迭代计算LSH文本签名(反复执行上述计算LSH签名的步骤1-2)，例如，预置十组不同的哈西函数，并利用每一组哈西函数分别计算LSH文本签名，共计算出十次的LSH文本签名；然后，将多次迭代计算的LSH文本签名进行汇总，得到汇总的LSH文本签名作为待定文本的文本签名。

S103：查找出具有相同文本签名的所有待定文本，构成候选文本集，其中，候选文本集中任意两个文本组成候选对。

通过之前的步骤，已为所有待定文本计算出文本签名，然后，根据文本签名，对文本进行区分(分类)。例如，假设需要进行相似度计算的待定文本共计100条(此处仅为示例，实际数量一般远远大于此数值)，通过前序步骤计算，共计算出5个不同的文本签名S1-S5，且每个签名对应的文本数量如下：S1(15条)；S2(10条)；S3(8条)；S4(5条)；S5(3条)，其余文本未与其他文本具有相同签名。针对每个签名，将这些具有相同签名的文本归为一类，构成候选文本集，例如，上述具有相同文本签名S1的15条文本构成候选文本集，该候选文本集中的任意两个文本组成候选对，继续进行后续的相似度计算。

另外，存在这样的情况，某个候选对在不同的候选文本集中重复出现，这样就造成该候选对在相似度计算时被重复计算，增加无谓的计算量。为此，在优选的方式中，可进行候选对去重处理。具体的，通过候选对标识查找候选对是否在不同的候选文本集中重复出现；去除重复出现的候选对，仅保留在一个候选文本集中的候选对。例如，假设候选对[A,B](其中，A、B代表两个文本)出现在某个具有第一文本签名的第一候选文本集中，同时，候选对[A,B]也出现在另一个具有第二文本签名的第二候选文本集中，那么，如果不作去重处理，后续即需要针对不同的候选文本集对该候选文本进行两次相似度计算，增加了无谓的计算量。通过去重处理，例如，仅保留候选对[A,B]在第一候选文本集中，而在第二候选文本集中删除该候选对，从而为后续计算减少了计算量。

S104：计算候选对的两个文本之间的相似度。

对于任意一个候选对[A,B](其中，A、B代表两个文本)，可根据这两个文本各自对应的字符串列表之间的相似性，计算出这两个文本的相似度。具体的相似度计算可采取目前或未来的相似度计算算法，例如采取杰卡德距离(Jaccard Distance)计算相似度，等等，本发明对此不作限定。

在计算出候选对的两个文本之间的相似度之后，在优选的方式中，还可以进一步判断候选对的两个文本是否为水军文本。具体的，可预先设置一个水军相似度阈值，只要候选对的相似度大于该水军相似度阈值，则确定该候选对的两个文本都是水军评论文本。

本发明实施例中，创新性提出采用文本签名作为候选对集合划分标准，由于文本签名计算量小(如LSH签名)、效率高，从而有助于在有限时间内完成海量网络评论文本的相似度计算。另外，通过预处理过滤出特定类型的评论文本，可减小待定文本的数量和范围，从而减小后续计算量，也提高了处理效率。另外，通过候选对去重处理，将重复的候选对仅保留一份，从而避免无谓的计算量，也提高了处理效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，是本发明实施例提供的一种文本相似度计算装置结构示意图。该装置包括：

待定文本确定单元201，用于确定多条待定文本；

文本签名计算单元202，用于将各条待定文本分别转换为各自对应的字符串列表，并基于各个字符串列表计算各待定文本的文本签名；

候选对确定单元203，用于查找出具有相同文本签名的所有待定文本，构成候选文本集，其中，所述候选文本集中任意两个文本组成候选对；

在为所有待定文本计算出文本签名之后，根据文本签名，对文本进行区分(分类)。例如，假设需要进行相似度计算的待定文本共计100条(此处仅为示例，实际数量一般远远大于此数值)，通过前序步骤计算，共计算出5个不同的文本签名S1-S5，且每个签名对应的文本数量如下：S1(15条)；S2(10条)；S3(8条)；S4(5条)；S5(3条)，其余文本未与其他文本具有相同签名。针对每个签名，将这些具有相同签名的文本归为一类，构成候选文本集，例如，上述具有相同文本签名S1的15条文本构成候选文本集，该候选文本集中的任意两个文本组成候选对，继续进行后续的相似度计算。

相似度计算单元204，用于计算所述候选对的两个文本之间的相似度。

优选的，该装置还包括：预处理单元205，用于对当前获取的所有文本进行预处理，确定出特定类型的文本；其中，所述待定文本确定单元201，是在获取的所有文本中除去所述特定类型的文本，将剩余文本确定为所述待定文本。

由于网络评论文本数量庞大，为了提高效率，在优选方式中，可在确定待定文本之前进行文本分类预处理，通过预先确定出一些特定类型的文本，从而缩小待定文本的范围，可为后续对待定文本的相似度计算节约时间，从而提高效率。具体的，可以根据评论文本的用户信息，识别出水军评论文本或非水军评论文本，例如，如果通过用户信息确定用户是认证用户，则判定该用户的评论文本为非水军评论文本，再如，如果通过用户信息确定用户为水军用户，则判定该用户的评论文本为水军评论文本，此外，对于内容完全一致的评论文本，可直接判断为水军评论文本。另外，还可以根据文本大小排除一些超短评论文本，因为超短评论文本之间的相似度较高，存在误判的概率增大，因此，可预先排除这些超短评论文本，具体的，可以预置最小文本长度，从而可将小于最小文本长度的评论文本预先过滤掉。在获取的所有网络文本中除去上述预先确定的特定类型的文本，将剩余文本确定为采取本发明方式进行相似度计算的待定文本。由于通过预处理方式缩小了待定文本范围，使得后续进行相似度计算的数据量大为减小，从而可提高处理效率。

优选的，该装置还包括：水军评论确定单元206，用于判断两个文本之间的相似度是否大于预置的水军相似度阈值，若是，则确定两个文本均为水军评论文本。

优选的，所述文本签名是指局部敏感哈西LSH文本签名，所述装置还包括：签名迭代单元207，用于通过预置不同的哈西函数，针对所述待定文本多次迭代计算LSH文本签名；以及，将多次迭代计算的LSH文本签名进行汇总，得到汇总的LSH文本签名作为所述待定文本的文本签名。

优选的，该装置还包括：候选对去重单元208，用于通过候选对标识查找所述候选对是否在不同的候选文本集中重复出现；以及，去除重复出现的候选对，仅保留在一个候选文本集中的所述候选对。

本发明实施例提供的文本相似度计算装置中，创新性提出采用文本签名作为候选对集合划分标准，由于文本签名计算量小(如LSH签名)、效率高，从而有助于在有限时间内完成海量网络评论文本的相似度计算。另外，通过预处理过滤出特定类型的评论文本，可减小待定文本的数量和范围，从而减小后续计算量，也提高了处理效率。另外，通过候选对去重处理，将重复的候选对仅保留一份，从而避免无谓的计算量，也提高了处理效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种关系型数据库的调度方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本相似度计算方法，其特征在于，包括：

确定多条待定文本；

将各条待定文本分别转换为各自对应的字符串列表，并基于各个字符串列表计算各待定文本的文本签名；

查找出具有相同文本签名的所有待定文本，构成候选文本集，其中，所述候选文本集中任意两个文本组成候选对；

计算所述候选对的两个文本之间的相似度。

2.根据权利要求1所述的方法，其特征在于，在所述确定多条待定文本之前，还包括：

对当前获取的所有文本进行预处理，确定出特定类型的文本；

在获取的所有文本中除去所述特定类型的文本，将剩余文本确定为所述待定文本。

3.根据权利要求2所述的方法，其特征在于，所述特定类型的文本包括：水军评论文本、认证用户评论文本、相同内容评论文本，和/或，长度小于预置长度的评论文本。

4.根据权利要求3所述的方法，其特征在于，在所述计算所述候选对的两个文本之间的相似度之后，还包括：

判断两个文本之间的相似度是否大于预置的水军相似度阈值，若是，则确定两个文本均为水军评论文本。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述文本签名是指局部敏感哈西LSH文本签名，所述方法还包括：

通过预置不同的哈西函数，针对所述待定文本多次迭代计算LSH文本签名；

将多次迭代计算的LSH文本签名进行汇总，得到汇总的LSH文本签名作为所述待定文本的文本签名。

6.根据权利要求1-4任一项所述的方法，其特征在于，在所述计算所述候选对的两个文本之间的相似度之前，还包括：

通过候选对标识查找所述候选对是否在不同的候选文本集中重复出现；

去除重复出现的候选对，仅保留在一个候选文本集中的所述候选对。

7.一种文本相似度计算装置，其特征在于，包括：

待定文本确定单元，用于确定多条待定文本；

文本签名计算单元，用于将各条待定文本分别转换为各自对应的字符串列表，并基于各个字符串列表计算各待定文本的文本签名；

候选对确定单元，用于查找出具有相同文本签名的所有待定文本，构成候选文本集，其中，所述候选文本集中任意两个文本组成候选对；

相似度计算单元，用于计算所述候选对的两个文本之间的相似度。

8.根据权利要求7所述的装置，其特征在于，还包括：预处理单元，用于对当前获取的所有文本进行预处理，确定出特定类型的文本；

所述待定文本确定单元，是在获取的所有文本中除去所述特定类型的文本，将剩余文本确定为所述待定文本。

9.根据权利要求8所述的装置，其特征在于，所述特定类型的文本包括：水军评论文本、认证用户评论文本、相同内容评论文本，和/或，长度小于预置长度的评论文本。

10.根据权利要求9所述的装置，其特征在于，还包括：

水军评论确定单元，用于判断两个文本之间的相似度是否大于预置的水军相似度阈值，若是，则确定两个文本均为水军评论文本。

11.根据权利要求7-10任一项所述的装置，其特征在于，所述文本签名是指局部敏感哈西LSH文本签名，所述装置还包括：

签名迭代单元，用于通过预置不同的哈西函数，针对所述待定文本多次迭代计算LSH文本签名；以及，将多次迭代计算的LSH文本签名进行汇总，得到汇总的LSH文本签名作为所述待定文本的文本签名。

12.根据权利要求7-10任一项所述的装置，其特征在于，还包括：

候选对去重单元，用于通过候选对标识查找所述候选对是否在不同的候选文本集中重复出现；以及，去除重复出现的候选对，仅保留在一个候选文本集中的所述候选对。