CN112528630A

CN112528630A - 文本相似度确定方法、装置、存储介质和电子设备

Info

Publication number: CN112528630A
Application number: CN201910886796.8A
Authority: CN
Inventors: 崔志伸
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2021-03-19
Anticipated expiration: 2039-09-19
Also published as: CN112528630B

Abstract

本申请涉及一种文本相似度确定方法、装置、存储介质和电子设备。该方法包括：获取第一文本的第一高频词序列和第二文本的第二高频词序列；所述第一高频词序列和所述第二高频词序列中的词均按照词频从大到小排列；提取所述第一高频词序列和所述第二高频词序列中的公共词，得到所述第一文本和所述第二文本的公共词序列；其中，所述公共词序列中的词按照词频从大到小排列，所述公共词序列中任意两个词的顺序，分别与所述任意两个词在所述第一高频词序列和所述第二高频词序列中的顺序相同；根据所述第一高频词序列、所述第二高频词序列和所述公共词序列，确定所述第一文本和所述第二文本的文本相似度。采用本方法能够提高文本相似度的准确性。

Description

文本相似度确定方法、装置、存储介质和电子设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种文本相似度确定方法、装置、存储介质和电子设备。

背景技术

随着社会的日益发展，各个行业的信息量急剧增大。通常，对于网络舆情数据的处理中，其中一个重要的方面就是在海量的网络舆情数据中识别出重复的文章。

传统的判断两篇文章是否重复的方法为，将文章进行分句和分词，然后再比较两篇文章所分出的句子和词语的重复情况，并根据重复的程度多少来确定这两篇文章是否为重复文本。

然而，传统的判断方法依据单一，准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确率的文本相似度确定方法、装置、存储介质和电子设备。

第一方面，本申请实施例提供一种文本相似度确定方法，所述方法包括：

获取第一文本的第一高频词序列和第二文本的第二高频词序列；所述第一高频词序列和所述第二高频词序列中的词均按照词频从大到小排列；

提取所述第一高频词序列和所述第二高频词序列中的公共词，得到所述第一文本和所述第二文本的公共词序列；其中，所述公共词序列中的词按照词频从大到小排列，所述公共词序列中任意两个词的顺序，分别与所述任意两个词在所述第一高频词序列和所述第二高频词序列中的顺序相同；

根据所述第一高频词序列、所述第二高频词序列和所述公共词序列，确定所述第一文本和所述第二文本的文本相似度。

在其中一个实施例中，所述根据所述第一高频词序列和所述第二高频词序列，得到所述第一文本和所述第二文本的公共词序列，包括：

获取所述第一高频词序列和所述第二高频词序列的并集词序列；其中，并集词序列中的词为第一高频词序列和第二高频词序列中的所有词的并集；

从所述并集词序列中，提取出前后顺序与所述第一高频词序列和所述第二高频词序列中的前后顺序均相同的词，生成所述公共词序列。

在其中一个实施例中，所述根据所述第一高频词序列、所述第二高频词序列和所述公共词序列，确定所述第一文本和所述第二文本的文本相似度，包括：

根据所述公共词序列和所述并集词序列中词的数量和/或词的前后顺序的相似度，确定所述文本相似度。

在其中一个实施例中，所述根据所述公共词序列和所述并集词序列中词的数量和/或词的前后顺序的相似度，确定所述文本相似度，包括：

获取所述公共词序列中词的数量与所述并集词序列中词的数量之比，作为所述文本相似度。

在其中一个实施例中，所述获取第一文本的第一高频词序列和第二文本的第二高频词序列，包括：

对所述第一文本和第二文本分别进行分词，得到第一分词集和第二分词集；

在所述第一分词集和所述第二分词集分别中进行关键词筛选，得到第一关键词集和第二关键词集；

将所述第一关键词集和第二关键词集分别按照词频进行排序，得到所述第一高频词序列和所述第二高频词序列。

在其中一个实施例中，所述将所述第一关键词集和第二关键词集分别按照词频进行排序，得到所述第一高频词序列和所述第二高频词序列，包括：

将所述第一关键词集中的关键词按照词频进行排序，得到第一高频词初始序列；

判断所述第一高频词初始序列中关键词的数量是否大于或等于预设的词频阈值；

若否，则将所述第一高频词初始序列作为所述第一高频词序列。

在其中一个实施例中，所述方法还包括：

若所述第一高频词初始序列中词的数量大于或等于所述词频阈值，则选取所述第一高频词初始序列中前N个关键词，作为所述第一高频词序列；所述N等于所述词频阈值。

将所述第二关键词集中的关键词按照词频进行排序，得到第二高频词初始序列；

判断所述第二高频词初始序列中关键词的数量是否大于或等于预设的词频阈值；

若否，则将所述第二高频词初始序列作为所述第二高频词序列。

在其中一个实施例中，所述方法还包括：

若所述第二高频词初始序列中词的数量是否大于或等于所述词频阈值，则选取所述第二高频词初始序列中前N个关键词，作为所述第二高频词序列；所述N等于所述词频阈值。

第二方面，本申请实施例提供一种文本相似度确定装置，所述装置包括：

获取模块，用于获取第一文本的第一高频词序列和第二文本的第二高频词序列；所述第一高频词序列和所述第二高频词序列中的词均按照词频从大到小排列；

处理模块，用于提取所述第一高频词序列和所述第二高频词序列中的公共词，得到所述第一文本和所述第二文本的公共词序列；其中，所述公共词序列中的词按照词频从大到小排列，所述公共词序列中任意两个词的顺序，分别与所述任意两个词在所述第一高频词序列和所述第二高频词序列中的顺序相同；

确定模块，用于根据所述第一高频词序列、所述第二高频词序列和所述公共词序列，确定所述第一文本和所述第二文本的文本相似度。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如下步骤：

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述文本相似度确定方法、装置、存储介质和电子设备，通过电子设备获取第一文本的第一高频词序列和第二文本的第二高频词序列，由于第一高频词序列和第二高频词序列中的词均按照词频从大到小排列，电子设备就能够提取第一高频词序列和第二高频词序列中的公共词，得到第一文本和第二文本的公共词序列。由于该公共词序列中的词按照词频从大到小排列，其中任意两个词的顺序分别与第一高频词序列和第二高频词序列中的顺序相同，因此所得到的公共词序列不仅能够表征第一文本和第二文本中相同的公共高频词的多少，还能够表征这些公共高频词在第一文本和第二文本中的词频的前后顺序。由于公共词序列能够表征两个文本中高频词数量和高频词的词频顺序这两个维度的相似性，因此采用第一高频词序列、第二高频词序列和公共词序列，所确定的文本相似度的合理性大大增加，准确度也大大提高。

附图说明

图1为一个实施例中电子设备的内部结构图；

图2为一个实施例提供的文本相似度确定方法的流程示意图；

图3为另一个实施例提供的文本相似度确定方法的流程示意图；

图4为又一个实施例提供的文本相似度确定方法的流程示意图；

图5为又一个实施例提供的文本相似度确定方法的流程示意图；

图6为又一个实施例提供的文本相似度确定方法的流程示意图；

图7为又一个实施例提供的文本相似度确定方法的流程示意图；

图8为一个实施例提供的文本相似度确定装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的文本相似度确定方法，可以适用于图1所示的电子设备。该电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线，其中，处理器、存储器通过总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，可选地，还可以包括网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口可以用于与外部的其他设备通过网络连接通信。可选的，该电子设备可以是服务器，可以是台式机，可以是个人数字助理，还可以是其他的终端设备，例如平板电脑、手机等等，还可以是云端或者远程服务器，本申请实施例对电子设备的具体形式并不做限定。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。当然，输入装置和显示屏也可以不属于电子设备的一部分，可以是电子设备的外接设备。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

需要说明的是，下述方法实施例的执行主体可以是文本相似度确定装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述电子设备的部分或者全部。下述方法实施例以执行主体为电子设备为例进行说明。

图2为一个实施例提供的文本相似度确定方法。本实施例涉及的是电子设备根据第一文本和第二文本高频词确定文本相似度的具体过程，如图2所示，该方法包括：

S10、获取第一文本的第一高频词序列和第二文本的第二高频词序列；所述第一高频词序列和所述第二高频词列中的词均按照词频从大到小排列。

具体的，电子设备获取第一文本的第一高频词序列，可以是读取存储器中预先存储的第一高频词序列，也可以是将第一文本进行识别，从而识别和统计得到关于第一文本的第一高频词序列。其中第一高频词序列中包括多个词，这些词均来源于第一文本，且这些词在该第一高频词序列中按照词频，即在第一文本中出现次数，按照从多到少进行排列，排在前面的词比排在后面的词的词频高。电子设备获取第二文本的第二高频词序列的具体方式可以参照获取第一高频词序列的描述；关于第二高频词序列的详细描述可以参见第一高频词序列的描述，区别在于第一高频词序列是第一文本的词序列，第二高频词序列是第二文本的词序列。

S20、提取所述第一高频词序列和所述第二高频词序列中的公共词，得到所述第一文本和所述第二文本的公共词序列；其中，所述公共词序列中的词按照词频从大到小排列，所述公共词序列中任意两个词的顺序，分别与所述任意两个词在所述第一高频词序列和所述第二高频词序列中的顺序相同。

具体的，电子设备从第一高频词序列和第二高频词序列中进行公共词提取，并按照词频进行排列，得到公共词序列。可选地，电子设备可以是将第一高频词序列中的每个词逐一判断是否出现在第二高频词序列中，若这个词仅出现在第一高频词序列而并未出现在第二高频词序列，则该词不列入序列；若该词在第一高频词序列和第二高频词序列中均出现，则继续判断第一高频词序列中的另一个词是否也存在于第二高频词序列。如果另一个词并未出现在第二高频词序列中，则另一个词也不列入序列；如果出现在第二高频词序列中，则判断这两个词按照词频从大到小的顺序和第一高频词序列中的这两个词的前后顺序是否相同，如果不同，则这两个词也不列入序列；如果相同，则将这两个词加入序列，以此类推，直至遍历完第一高频词序列中的所有词，并将加入序列中的所有词按照词频进行排列，得到公共词序列。因此，该公共词序列就可以满足词频从大到小排列，并且其中的任意两个词的顺序，与第一高频词序列和第二高频词序列中的顺序均相同。

S30、根据所述第一高频词序列、所述第二高频词序列和所述公共词序列，确定所述第一文本和所述第二文本的文本相似度。

具体的，电子设备根据第一高频词序列、第二高频词序列和上述公共词序列，确定第一文本和第二文本的文本相似度。可选地，电子设备可以是将公共词序列中的词的个数，与第一高频词序列和第二高频词序列中词的个数之和求取比值，作为上述文本相似度；电子设备还可以将公共词序列中的词的个数，与第一高频词序列和第二高频词序列中相同词的个数之和求取比值，作为上述文本相似度。

本实施例中，电子设备获取第一文本的第一高频词序列和第二文本的第二高频词序列，由于第一高频词序列和第二高频词序列中的词均按照词频从大到小排列，电子设备就能够提取第一高频词序列和第二高频词序列中的公共词，得到第一文本和第二文本的公共词序列。由于该公共词序列中的词按照词频从大到小排列，其中任意两个词的顺序分别与第一高频词序列和第二高频词序列中的顺序相同，因此所得到的公共词序列不仅能够表征第一文本和第二文本中相同的公共高频词的多少，还能够表征这些公共高频词在第一文本和第二文本中的词频的前后顺序。由于公共词序列能够表征两个文本中高频词数量和高频词的词频顺序这两个维度的相似性，因此采用第一高频词序列、第二高频词序列和公共词序列，所确定的文本相似度的合理性大大增加，准确度也大大提高。

可选地，在上述实施例的基础上，步骤S10的一种可能的实现方式具体如图3所示，包括：

S11、对所述第一文本和第二文本分别进行分词，得到第一分词集和第二分词集。

具体的，电子设备对上述第一文本和第二文本分别进行分词，可以是对第一文本和第二文本分别进行分句，并对句子再次分词，从而将文章打散到词的粒度，分别得到第一分词集和第二分词集。可选地，可以是将上述第一文本和第二文本分别输入神经网络模型，通过神经网络模型的智能识别，实现对上述第一文本和第二文本的分词，从而得到第一分词集和第二分词集。

S12、在根据所述第一分词集和所述第二分词集中分别进行关键词筛选，得到第一关键词集和第二关键词集。

具体的，电子设备分别在上述第一分词集和第二分词集中分别进行关键词筛选，例如去除停用词以及无用词，从而完成词的过滤，得到了第一关键词集和第二关键词集。通过该步骤能够去除多余的无意义的词语，因此可以减少后续处理的时间，提高处理精度和效率。

S13、将所述第一关键词集和第二关键词集分别按照词频进行排序，得到所述第一高频词序列和所述第二高频词序列。

需要说明的是，在进行关键词筛选之后，例如去除所有停用词和无用词之后，电子设备可以将第一关键词集和第二关键词集中的词进行统计，从而得到每个词分别在第一文本和第二文本中出现的次数，即每个词在第一文本和第二文本中的词频，然后，电子设备可以将每个文本所筛选出的词按照词频进行排列，从而得到第一高频词序列和第二高频词序列。可选地，经过关键词筛选之后，每个文本依然会由很多词语组成，因此电子设备还可将词频低于一定阈值的词进行删除，仅保留词频较高的部分词形成第一高频词序列和第二高频词序列。

本实施例中，电子设备对文本相似度第一文本和第二文本分别进行分词，得到第一分词集和第二分词集，将第一文本和第二文本分解至词的粒度，然后根据文本相似度第一分词集和文本相似度第二分词集中分别进行关键词筛选，得到第一关键词集和第二关键词集，从而过滤掉部分无用词，减少后续处理的时间，提高处理精度和效率。同时，电子设备还将第一关键词集和第二关键词集分别按照词频进行排序，得到第一高频词序列和第二高频词序列，进而使得能够根据两个文本的高频词对文本相似度进行表征，因此确定的文本相似度的合理性大大增加，准确度也大大提高。

可选地，上述步骤S13的一种可能的实现方式可以如图4所示，具体包括：

S131、将所述第一关键词集中的关键词按照词频进行排序，得到第一高频词初始序列。

S132、判断所述第一高频词初始序列中关键词的数量是否大于或等于预设的词频阈值，若否，则执行S133A；可选地，若是，则执行S133B。

S133A、将所述第一高频词初始序列作为所述第一高频词序列。

S133B、选取所述第一高频词初始序列中前N个关键词，作为所述第一高频词序列；所述N等于所述词频阈值。

具体的，电子设备将第一关键词集中的关键词按照词频从大到小排列，从而得到第一高频词初始序列，然后判断该第一高频词初始序列中关键词的数量是否大于或等于预设的词频阈值，如果大于或等于，则将选取第一高频词初始序列中前N个关键词作为第一高频词序列；如果小于，则将第一高频词初始序列作为第一高频词序列。即，如果所得到的第一高频词初始序列中关键词的数量没有超过词频阈值，则不用对第一高频词初始序列进行筛选，直接将第一高频词初始序列作为第一高频词序列；如果所得到的第一高频词初始序列中关键词的数量大于词频阈值，则需要对第一高频词初始序列进行筛选，使得进行相似度比较的关键词的数量可控，且所筛选的关键词具有代表性，因此可以选择第一高频词初始序列中词频大的前N个关键词作为第一高频词序列。需要说明的是，上述词频阈值用N表示，该词频阈值的大小可以根据需要进行设定，如果需要比较效率高，则可以通过较小的N来选择少一些关键词进行相似度的比较；如果需要比较结果更为精确，则可以通过较大的N来选择更多的关键词进行相似度的比较，本实施例对此不做限定。

本实现方式中，电子设备将第一关键词集中的关键词按照词频进行排序，得到第一高频词初始序列，并判断第一高频词初始序列中关键词的数量是否大于或等于预设的词频阈值，在第一高频词初始序列中关键词的数量小于词频阈值的时候，将第一高频词初始序列作为第一高频词序列，以及在第一高频词初始序列中关键词的数量大于或等于词频阈值的时候，选取第一高频词初始序列中前N个关键词词，作为第一高频词序列。采用该方法，能够按照预设的词频阈值N从第一高频词初始序列中确定出前第一高频词序列，从而能够避免关键词太多而导致的运算量过大，因此大大节约了系统的开销；并且在第一高频词初始序列中关键词的数量大于或等于词频阈值的时候，能够选取第一高频词初始序列中前N个关键词，作为第一高频词序列，因此能够实现基于第一文本中的高频词进行文本相似度的确定，进而使得确定结果更为准确。

可选地，上述步骤S13的另一种可能的实现方式还可以如图5所示，具体包括：

S134、将所述第二关键词集中的关键词按照词频进行排序，得到第二高频词初始序列。

S135、判断所述第二高频词初始序列中关键词的数量是否大于或等于预设的词频阈值。若否，则执行S136A；可选地，若是，则执行S136B。

S136A、将所述第二高频词初始序列作为所述第二高频词序列。

S136B、选取所述第二高频词初始序列中前N个关键词，作为所述第二高频词序列；所述N等于所述词频阈值。

本实施例中的实现原理和技术效果可以参见上述图4所示的实施例的具体描述，此处不再赘述。

可选地，在上述各个实施例的基础上，步骤S20还可以如图6所示，具体包括：

S21、获取所述第一高频词序列和所述第二高频词序列的并集词序列；其中，所述并集词序列中的词为所述第一高频词序列和所述第二高频词序列中所有的词的并集；

S22、从所述并集词序列中，提取出前后顺序与所述第一高频词序列和所述第二高频词序列中的前后顺序均相同的词，生成所述公共词序列。

具体的，电子设备选取将第一高频词序列和第二高频词序列的并集，从而得到二者的并集词序列。例如，电子设备可以将第一高频词序列和第二高频词序列中的词进行取并集操作，即选取同时出现在第一高频词序列和第二高频词序列中的词。例如可以是采用遍历的方式，将出现在第一高频词序列中的每一个词在第二高频词序列中进行查找，从而根据查找结果确定并集词序列。然后，电子设备选取并集词序列中任意两个词，并按照不同的排列顺序形成词组，并判断这每个词组中的词的前后顺序是否与其在第一高频词序列和第二高频词序列中的顺序均相同，如果相同，则保留，如果不同，则删除这个词组。然后，电子设备将保留下来的与第一高频词序列和第二高频词序列中的前后顺序相同的词的组合，删除重复的词之后按照词频进行排列，从而得到公共词序列。

本实施例中，电子设备获取第一高频词序列和第二高频词序列的并集词序列，从并集词序列中，提取出前后顺序与第一高频词序列和第二高频词序列中的前后顺序均相同的词，生成公共词序列。由于并集词序列中的词为第一高频词序列和第二高频词序列中所有词的并集，公共词序列中的词为第一文本和第二文本中的高频词，并且各个词的词频的排列顺序与第一文本和第二文本中相同，因此该公共词序列可以从高频词的数量和高频词的多少顺序两个维度表征第一文本和第二文本的相似程度，进而使得文本相似度的判断维度更为全面，合理性大大增加，准确度也大大提高。

可选地，在上述各个实施例的基础上，步骤S30还可以如图7所示，包括：

S31、根据所述公共词序列和所述并集词序列中词的数量和/或词的前后顺序的相似度，确定所述文本相似度。具体的，电子设备根据公共词序列中词的数量和并集词序列中词的数量，或者词的前后顺序的相似度，或者结合词的数量和词的前后顺序的相似度，确定文本相似度。例如可以是电子设备将并集词序列中的词按照词频进行排列，然后将公共词序列中的词数量和每个词的前后顺序，与排列之后的并集词序列中词的数量和每个词的前后顺序分别进行相似度比较，如果数量相近，例如达到预设数量阈值，顺序也相近，例如顺序相似度超过预设阈值，则确定文本相似度高；如果数量相差较大，顺序相差也较大，则确定文本相似度低。

可选地，上步骤S31的一种可能的实现方式还可以是：获取所述公共词序列中词数量与所述并集词序列中词的数量之比，作为所述文本相似度。具体的，该实现方式可以是表达为：S＝NS/NO*100％，其中，S为文本相似度，NS为公共词序列中词的数量，NO为集词序列中词的数量。例如第一高频词序列为[A、B、C]，第二高频词序列为[B、C、D]，那么NO的值为4，即两个序列并集[A、B、C、D]的词数量，NS的数量为2，则文本相似度为50％。

可选地，当S大于或等于St时，可以判断两个文章相似，当S小于St时，可以判断两个文章不相似。其中St为设定值，取值范围为0～100％，取值越高相似判定的条件越严格，推荐值为90％。将St设置为90％，能够使得判定的结果更为合理，实用性更强。本实现方式中，通过将公共词序列中词的数量与并集词序列中词的数量之比，作为文本相似度，该方法计算方式简单，易于实现，且准确率高。

上述图7所示的实施例中，由于公共词序列能够从高频词的数量和高频词的词频的顺序两个维度反应两个文本之间的共同特征，同时并集词序列还包括了两个文本的所有的高频词，因此电子设备通过根据公共词序列和并集词序列中词的数量和/或词的前后顺序的相似度，确定文本相似度，所依据的维度更多，进而使得结果的合理性大大增加，准确度也大大提高。

此处以一个具体的实例对本申请的实施例进行说明，将第一文本进行分词和筛选之后，得到第一关键词集，表示为[C1、C2、C3…..CM]，将这第一关键词集按照第一文本中出现的词频进行降序排列，得到第一高频词初始序列[A1、A2、A3…..AM]，取第一高频词初始序列的前P个词，形成第一高频词序列。其中，P＝Max(M,N)。N越大，则判断的文本相似度越精确。按照上述方法，对第二文本进行操作，可以得到第二高频词序列。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种文本相似度确定装置，包括：

获取模块100，用于获取第一文本的第一高频词序列和第二文本的第二高频词序列；所述第一高频词序列和所述第二高频词序列中的词均按照词频从大到小排列；

处理模块200，用于提取所述第一高频词序列和所述第二高频词序列中的公共词，得到所述第一文本和所述第二文本的公共词序列；其中，所述公共词序列中的词按照词频从大到小排列，所述公共词序列中任意两个词的顺序，分别与所述任意两个词在所述第一高频词序列和所述第二高频词序列中的顺序相同。

确定模块300，用于根据所述第一高频词序列、所述第二高频词序列和所述公共词序列，确定所述第一文本和所述第二文本的文本相似度。

在一个实施例中，处理模块200，具体用于获取所述第一高频词序列和所述第二高频词序列的并集词序列；其中，并集词序列中的词为第一高频词序列和第二高频词序列中的所有词的并集；从所述并集词序列中，提取出前后顺序与所述第一高频词序列和所述第二高频词序列中的前后顺序均相同的词，生成所述公共词序列。

在一个实施例中，确定模块300，具体用于根据所述公共词序列和所述并集词序列中词的数量和/或词的前后顺序的相似度，确定所述文本相似度。

在一个实施例中，确定模块300，具体用于获取所述公共词序列中词的数量与所述并集词序列中词的数量之比，作为所述文本相似度。

在一个实施例中，获取模块100，具体用于对所述第一文本和第二文本分别进行分词，得到第一分词集和第二分词集；在所述第一分词集和所述第二分词集分别中进行关键词筛选，得到第一关键词集和第二关键词集；将所述第一关键词集和第二关键词集分别按照词频进行排序，得到所述第一高频词序列和所述第二高频词序列。

在一个实施例中，获取模块100，具体用于将所述第一关键词集中的关键词按照词频进行排序，得到第一高频词初始序列；判断所述第一高频词初始序列中关键词的数量是否大于或等于预设的词频阈值；若否，则将所述第一高频词初始序列作为所述第一高频词序列。

在一个实施例中，获取模块100，具体用于若所述第一高频词初始序列中词的数量大于或等于所述词频阈值，则选取所述第一高频词初始序列中前N个关键词，作为所述第一高频词序列；所述N等于所述词频阈值。

在一个实施例中，获取模块100，具体用于将所述第二关键词集中的关键词按照词频进行排序，得到第二高频词初始序列；判断所述第二高频词初始序列中关键词的数量是否大于或等于预设的词频阈值；若否，则将所述第二高频词初始序列作为所述第二高频词序列。

在一个实施例中，获取模块100，具体用于若所述第二高频词初始序列中词的数量是否大于或等于所述词频阈值，则选取所述第二高频词初始序列中前N个关键词，作为所述第二高频词序列；所述N等于所述词频阈值

关于文本相似度确定装置的具体限定可以参见上文中对于文本相似度确定方法的限定，在此不再赘述。上述文本相似度确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如下步骤：

在一个实施例中，所述处理器用于调用所述存储器中的程序指令，还执行如下步骤：

在一个实施例中所述处理器用于调用所述存储器中的程序指令，还执行如下步骤：

应当清楚的是，本申请实施例中处理器调用程序指令的过程，与上述方法中各个步骤的执行过程一致，具体可参见上文中的描述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

应当清楚的是，本申请实施例中处理器执行计算机程序的过程，与上述方法中各个步骤的执行过程一致，具体可参见上文中的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本相似度确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一高频词序列和所述第二高频词序列，得到所述第一文本和所述第二文本的公共词序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一高频词序列、所述第二高频词序列和所述公共词序列，确定所述第一文本和所述第二文本的文本相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述公共词序列和所述并集词序列中词的数量和/或词的前后顺序的相似度，确定所述文本相似度，包括：

5.根据权利要求3所述的方法，其特征在于，所述获取第一文本的第一高频词序列和第二文本的第二高频词序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第一关键词集和第二关键词集分别按照词频进行排序，得到所述第一高频词序列和所述第二高频词序列，包括：

若否，则将所述第一高频词初始序列作为所述第一高频词序列；

若是，则选取所述第一高频词初始序列中前N个关键词，作为所述第一高频词序列；所述N等于所述词频阈值。

7.根据权利要求5或6所述的方法，其特征在于，所述将所述第一关键词集和第二关键词集分别按照词频进行排序，得到所述第一高频词序列和所述第二高频词序列，包括：

若否，则将所述第二高频词初始序列作为所述第二高频词序列；

若是，则选取所述第二高频词初始序列中前N个关键词，作为所述第二高频词序列；所述N等于所述词频阈值。

8.一种文本相似度确定装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种电子设备，所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1-7中任一项所述的文本相似度确定方法。