CN113780449A

CN113780449A - 文本相似度的计算方法、装置、存储介质及计算机设备

Info

Publication number: CN113780449A
Application number: CN202111087766.4A
Authority: CN
Inventors: 谷坤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2021-12-10
Anticipated expiration: 2041-09-16
Also published as: CN113780449B

Abstract

本发明公开了一种文本相似度的计算方法、装置、存储介质及计算机设备，涉及信息技术领域，主要在于能够提高文本相似度的计算精度。其中方法包括：获取待处理的两条文本分别对应的各个分词；基于所述各个分词，确定所述两条文本中包含的各个公共子句；根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度；根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；根据所述第一相似度权重和所述第二相似度权重，得到所述两条文本之间的相似度。本发明适用于对文本相似度进行计算。

Description

文本相似度的计算方法、装置、存储介质及计算机设备

技术领域

本发明涉及信息技术领域，尤其是涉及一种文本相似度的计算方法、装置、存储介质及计算机设备。

背景技术

信息社会目前已经全面进入大数据时代，伴随的是用户数据、业务数据的不断积累，对于文本的数据检索的需求也应运而生，使用最为广泛的就是基于文本相似度的检索方式，其中就涉及到如何通过计算文本相似度来在海量文本中检索出相似的文本。

目前，通常依据文本中重复词出现的数量来计算文本相似度。然而，在这种方式中，一旦在两条文本中出现了相同的词或者短语，便认为这两个词或者短语完全相同，但是实际上同一个词或者同一个短语在不同文本中代表的意思可能完全不同，两者之间没有任何关联，因此这种仅通过统计重复词或者重复短语出现的数量来计算文本相似度的方式，会导致文本相似度的计算精度较低，进而会影响文本的检索效果。

发明内容

本发明提供了一种文本相似度的计算方法、装置、存储介质及计算机设备，主要在于能够提高文本相似度的计算精度。

根据本发明的第一个方面，提供一种文本相似度的计算方法，包括：

获取待处理的两条文本分别对应的各个分词；

基于所述各个分词，确定所述两条文本中包含的各个公共子句；

根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度；

根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；

根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度；

将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度。

根据本发明的第二个方面，提供文本相似度的计算装置，包括：

获取单元，用于获取待处理的两条文本分别对应的各个分词；

第一确定单元，用于基于所述各个分词，确定所述两条文本中包含的各个公共子句；

第二确定单元，用于根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度；

第一计算单元，用于根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；

第二计算单元，用于根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度；

相加单元，用于将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待处理的两条文本分别对应的各个分词；

根据本发明的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取待处理的两条文本分别对应的各个分词；

根据本发明提供的一种文本相似度的计算方法、装置、存储介质及计算机设备，与目前依据文本中重复词出现的数量来计算文本相似度的方式相比，本发明通过获取待处理的两条文本分别对应的各个分词；并基于所述各个分词，确定所述两条文本中包含的各个公共子句；与此同时，根据所述各个公共子句对应的长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的长度；之后根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；最终根据所述第一相似度权重和所述各个公共子句对应的长度，计算所述两条文本中各个公共子句之间的第一相似度，并根据所述第二相似度权重和所述各个非公共子句对应的长度，计算所述两条文本中各个非公共子句之间的第二相似度，将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度，由此通过计算两条文本中各个公共子句共同对应的第一相似度权重，及各个非公共子句共同对应的第二相似度权重，并基于所述第一相似度权重和所述第二相似度权重，计算各个公共子句之间的第一相似度，以及各个非公共子句之间的第二相似度，能够避免文本中一旦出现相同内容，便认为两者完全一致的情况，从而能够提高文本相似度的计算精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种文本相似度的计算方法流程图；

图2示出了本发明实施例提供的另一种文本相似度的计算方法流程图；

图3示出了本发明实施例提供的一种文本相似度的计算装置结构示意图；

图4示出了本发明实施例提供的另一种文本相似度的计算装置结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，依据文本中重复词出现的数量来计算文本相似度的方式，对导致文本相似度的计算精度较低，进而影响文本的检索效果。

为了解决上述问题，本发明实施例提供了一种文本相似度的计算方法，如图1所示，所述方法包括：

101、获取待处理的两条文本分别对应的各个分词。

其中，待处理的两条文本具体可以是两句文本，两段文本或者两篇文本。

对于本发明实施例，为了克服现有技术中文本相似度计算精度较低的缺陷，本发明实施例通过计算两条文本中各个公共子句共同对应的第一相似度权重，及各个非公共子句共同对应的第二相似度权重，并基于所述第一相似度权重和所述第二相似度权重，计算各个公共子句之间的第一相似度，以及各个非公共子句之间的第二相似度，从而能够避免文本中一旦出现相同内容，便认为两者完全一致的情况，提高了文本相似度的计算精度。本发明实施例主要应用于对文本相似度进行计算的场景，本发明实施例的执行主体为能够对文本相似度进行计算的装置或者设备，具体可以设置在客户端或者服务器一侧。

具体地，首先将两条文本输入至文本相似度的计算装置中，之后对两条文本分贝进行分词处理，得到两条文本分别对应的各个分词，然后利用停用词库分别对两条文本中的各个分词进行过滤，检测所述两条文本中是否含有停用词库中的停用词，若两条文本中含有所述停用词中的停用词，则将两条文本中的所述停用词去除，分别得到两条文本对应的排除后的各个分词，例如，文本A为“外面雨下的很大，不适合出去”，对文本A进行分词处理，得到文本A对应的各个分词为“外面/雨/下/的/很大/，/不/适合/出去”，然后利用停用词库对文本A对应的各个分词进行过滤，发现文本A对应的各个分词中“的”和“，”出现在停用词库中，所以将文本A对应的各个分词中“的”和“，”去除，最终得到文本A对应的排除后的各个分词为“外面/雨/下/很大/不/适合/出去”，同理，文本B为“外面雨下的不小，待在家里比较合适”，对文本B进行分词处理，得到文本B对应的各个分词为“外面/雨/下/的/不/小/，/待/在/家里/比较/合适”,然后利用停用词库对文本B对应的各个分词进行过滤，发现文本B对应的各个分词中“的”和“，”出现在停用词库中，所以将文本B对应的各个分词中“的”和“，”去除，最终得到文本B对应的排除后的各个分词为“外面/雨/下/不/小/待/在/家里/比较/合适”，最终基于两条文本对应的排除后的各个分词，确定两条文本中包含的各个公共子句和非公共子句，并计算两条文本中各个公共子句之间的第一相似度和各个非公共子句之间的第二相似度，进而确定两条文本之间的相似度，避免了两条文本中一旦出现相同内容，便认为两条文本完全一致的情况，从而提高了文本相似度的计算精度。

102、基于所述各个分词，确定所述两条文本中包含的各个公共子句。

其中，公共子句为两条文本中相同的语句，如语句A为“外面雨下很大”，语句B为“外面雨下不小”，“外面雨下”就是语句A和语句B的一个公共子句。

对于本发明实施例，在得到两条文本对应的排除停用词后的各个分词之后，遍历两条文本对应的排除停用词后的各个位置处的分词，若存在相同的公共子句，则将所述相同的公共子句存储起来，直到遍历至两条文本对应的排除停用词后的最后位置处的分词，得到两条文本中的各个公共子句，以便基于两条文本中的各个公共子句，确定两条文本中的各个非公共子句，最终根据两条文本中各个公共子句之间的第一相似度和各个非公共子句之间的第二相似度，确定两条文本之间的相似度，避免通过统计重复词或者重复短语出现的数量来计算文本相似度，提高了文本相似度的计算精度，避免对文本检索效果的影响。

103、根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度。

其中，从两条文本中排除掉公共子句的部分，剩余部分为非公共子句。

对于本发明实施例，在确定两条文本中包含的各个公共子句之后，确定两条文本对应的总长度和各个公共子句对应的第一长度，在各个公共子句对应的第一长度中确定最长第一长度，所述最长第一长度对应的公共子句即为最长长度的公共子句，同时，用两条文本对应的总长度减去各个公共子句对应的第一长度，得到两条文本中的各个非公共子句对应的第二长度。

104、根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重。

对于本发明实施例，在两条文本中分别排除最长长度的公共子句，得到两条文本中的最短非公共子句，根据两条文本中的最短非公共子句，确定两条文本中的最短非公共子句对应的向量，并根据最短非公共子句对应的向量，计算两条文本中的各个非公共子句共同对应的第二相似度权重，并根据第二相似度权重，计算两条文本中各个公共子句共同对应的第一相似度权重，以便基于所述第一相似度权重和所述第二相似度权重，分别计算两条文本中的各个公共子句之间的第一相似度和各个非公共子句之间的第二相似度，进而计算两条文本之间的相似度，避免根据两条文本中重复词出现的数量来确定两条文本之间的相似度，提高了文本相似度计算的精度。

105、根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度。

对于本发明实施例，根据两条文本中各个公共子句共同对应的第一相似度权重、最长公共子句对应的长度、各个公共子句对应的第一长度和两条文本对应的总长度，计算两条文本中各个公共子之间的第一相似度，并根据两条文本中各个非公共子句共同对应的第二相似度权重、最短非公共子句对应的长度、各个非公共子句对应的第二长度和两条文本的总长度，计算两条文本中各个非公共子句之间的第二相似度，最终将所述各个公共子句之间的第一相似度加上各个非公共子句之间的第二相似度，得到两条文本之间的相似度。

106、将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度。

对于本发明实施例，在计算两条文本中的各个公共子句之间的第一相似度，以及各个非公共子句之间的第二相似度之后，将所述第一相似度加上所述第二相似度，得到两条文本之间的相似度，由此通过计算两条文本中的各个公共子句之间的第一相似度，可以避免文本中一旦出现相同内容，便认为两者完全一致的情况，进而将第一相似度和第二相似度相加，得到两条文本之间的相似度的方式，能够提高文本相似度的计算精度。

根据本发明提供的一种文本相似度的计算方法，与目前依据文本中重复词出现的数量来计算文本相似度的方式相比，本发明通过获取待处理的两条文本分别对应的各个分词；并基于所述各个分词，确定所述两条文本中包含的各个公共子句；与此同时，根据所述各个公共子句对应的长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的长度；之后根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；最终根据所述第一相似度权重和所述各个公共子句对应的长度，计算所述两条文本中各个公共子句之间的第一相似度，并根据所述第二相似度权重和所述各个非公共子句对应的长度，计算所述两条文本中各个非公共子句之间的第二相似度，将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度，由此通过计算两条文本中各个公共子句共同对应的第一相似度权重，及各个非公共子句共同对应的第二相似度权重，并基于所述第一相似度权重和所述第二相似度权重，计算各个公共子句之间的第一相似度，以及各个非公共子句之间的第二相似度，能够避免文本中一旦出现相同内容，便认为两者完全一致的情况，从而能够提高文本相似度的计算精度。

进一步地，为了更好的说明上述文本相似度的计算过程，作为对上述实施例的细化和扩展，本发明实施例提供了另一种文本相似度的计算方法，如图2所示，所述方法包括：

201、获取待处理的两条文本分别对应的各个分词。

对于本发明实施例，为了计算两条文本之间的相似度，需要获取两条文本分别对应的各个分词，并将两条文本分别对应的各个分词中的停用词排除，排除停用词后，所述方法还包括：将所述两条文本中的各个分词按顺序相互插入，得到所述两条文本对应的插入后的各个分词，其中，插入的分词为在被插入的文本中不存在的分词；分别统计所述插入后的各个分词在所述两条文本中的词频；若所述插入后的各个分词中的目标分词在所述两条文本中任意一条文本中的词频大于第一预设词频，则将所述目标分词分别从所述两条文本中去除，得到所述两条文本对应的处理后的各个分词；若所述目标分词在所述任意一条文本中的词频小于或者等于所述第一预设词频，且大于第二预设词频，则对所述目标分词在所述任意一条文本中的词频进行降频处理，得到所述两条文本对应的处理后的各个分词。

具体地，为了得到两条文本对应的处理后的各个分词，首先需要将两条文本进行整合，具体的整合方法为，以被插入的文本中的各个分词的顺序为基准，将另一条文本中的各个分词依次插入至所述被插入的文本中，以此得到两条文本对应的插入后的各个分词，需要说明的是，在插入分词的过程中，仅将被插入文本中不存在的分词插入至其中，进一步地，分别统计两条文本对应的插入后的各个分词的词频，具体计算词频的方法为，以其中一条文本对应的插入后的分词为例，分别统计插入后的各个分词在该文本中出现的次数，若某分词在该文本中出现1次，则代表该分词的词频为1，并将词频1记录在该分词的后面，若某分词在该文本中未出现，则代表该分词的词频为0，并将词频0记录在该分词的后面，由此按照相同方法依次统计所述文本中的各个分词的词频，并将统计结果记录在相应分词的后面，例如，经过分词处理和去除停用词后的两条文本A和B，文本A为“外面/雨/下/很大/不/适合/出去”，文本B为“外面/雨/下/不/小/待/在/家里/比较/合适”，以文本A对应的各个分词的顺序为基准，将文本B对应的各个分词依次插入至文本A中，得到文本A对应的插入后的各个分词为“外面/雨/下/很大/小/不/适合/出去/待/在/家里/比较”，之后统计插入后的各个分词在文本A中的词频，“外面”、“雨”、“下”、“很大”、“不”、“适合”、“出去”分别在文本A中出现1次，而“小”、“待”、“在”、“家里”、“比较”在文本A中出现0次，将统计结果分别记录在插入后的各个分词的后面，得到插入后的各个分词在文本A中的词频为“外面1/雨1/下1/很大1/小0/不1/适合1/出去1/待0/在0/家里0/比较0”，与此同时，以文本B对应的各个分词的顺序为基准，将文本A对应的各个分词依次插入至文本B中，得到文本B对应的插入后的各个分词为“外面/雨/下/不/小/很大/待/在/家里/比较/合适/出去”,之后统计文本B对应的插入后的各个分词在文本B中出现的次数，最终得到插入后的各个分词在文本B中的词频为“外面1/雨1/下1/不1/小1/很大0/待1/在1/家里1/比较1/合适1/出去0”。

进一步地，由于在文本中出现频率过高的词语，通常对文本来说并没有实质上的意思，需要消除这种词语对文本相似度计算结果的影响，可以不让这些词语参与计算，具体消除方法为，若插入后的各个分词中的目标分词在两条文本中任意一条文本中的词频大于第一预设词频，则将该目标分词分别从两条文本中去除，得到所述两条文本对应的处理后的各个分词，若目标分词在两条文本中任意一条文本中的词频小于或者等于第一预设词频，同时大于第二预设词频，则将该目标分词在两条文本中任意一条文本中的词频进行降频处理，并将经过降频处理的词频记录在该目标分词的后面，以此得到所述两条文本对应的处理后的各个分词。

202、基于所述各个分词，确定所述两条文本中包含的各个公共子句。

对于本发明实施例，在获得两条文本对应的处理后的各个分词之后，需要确定两条文本中包含的各个公共子句，基于此，步骤202具体包括：分别确定所述处理后的各个分词在所述两条文本中的位置索引；遍历两条文本中各个位置索引处的分词，利用动态规划求解的方式，确定所述两条文本中包含的各个公共子句。

具体地，确定处理后的各个分词在所述两条文本中的位置索引，所述位置索引可以基于处理后的各个分词从左至右的顺序依次设置为1、2、3等，然后遍历两条文本中各个位置索引处的分词，利用动态规划求解的方式，确定两条文本中包含的各个公共子句，具体公式如下：

其中，i和j分别代表获取到的公共子句开始的位置索引和结束的位置索引，C[i，j]表示获取到的公共子句的长度，x[i]＝y[j]表示一条文本中位置i处的分词与另一条文本中位置j处的分词相同，x[i]！＝y[j]表示一条文本中位置i处的分词与另一条文本中位置j处的分词不相同，通过动态规划求解的方式，获取两条文本中各个公共子句的过程具体为，遍历两条文本分别对应各个索引位置处的分词，得到两条文本包含的各个公共子句，并将两条文本中所有的公共子句存储起来，例如，利用动态规划求解的方式，遍历文本A和B中各个索引位置处的分词，得到两条文本对应的各个公共子句为“外面”、“外面雨”、“外面雨下”等。需要说明的是，在进行动态规划求解的过程中，最终得到的解为最长长度的公共子句，同时也会得到其他长度的公共子句。

203、根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度。

对于本发明实施例，为了确定最长长度的公共子句，以及两条文本中各个非公共子句对应的第二长度，步骤203具体包括：根据所述两条文本包含的分词数量，确定所述两条文本对应的文本长度，并根据所述各个公共子句中包含的分词数量，确定所述各个公共子句对应的第一长度；从各个第一长度中筛选出最长长度，并确定所述最长长度对应的公共子句；分别将所述文本长度与所述各个公共子句对应的第一长度相减，得到所述两条文本中各个非公共子句对应的第二长度。

具体地，首先统计两条文本中包含的分词数量，所述分词数量即为两条文本对应的长度，同时统计两条文本中各个公共子句包含的分词数量，从而确定了各个公共子句对应的第一长度，并在第一长度中筛选出最长长度，确定最长长度对应的公共子句，该最长长度对应的公共子句即为两条文本中的最长公共子句，之后利用两条文本对应的长度减去所述各个公共子句对应的第一长度，即可得到两条文本中的各个非公共子句对应的第二长度，例如，文本A和文本B中的分词数量为12个，即可确定文本A和文本B对应的长度为12，两条文本中的一个公共子句为“外面雨”，其分词数量为3个，即该公共子句对应的第一长度为3，,12-3＝9，则9就是文本A和文本B中的非公共子句对应的第二长度，同理能够计算两个文本中各个公共子句对应的第一长度和各个非公共子句对应的第二长度。

204、将所述最长长度的公共子句分别从所述两条文本中排除，得到所述两条文本分别对应的最短非公共子句。

对于本发明实施例，上述步骤中确定了两条文本中包含的最长长度的公共子句，在两条文本中将所述最长长度的公共子句排除，即可得到两条文本中包含的最短非公共子句，并基于所述最短非公共子句对应的语句向量，确定两条文本中各个公共子句共同对应的第一相似度权重，以及各个非公共子句共同对应的第二相似度权重。

205、根据所述最短非公共子句中包含的处理后的各个分词在所述两条文本中的词频，确定所述最短非公共子句对应的语句向量。

具体地，上述步骤中确定了处理后的各个分词在所述两条文本中的词频，将最长公共子句对应的分词在处理后的各个分词中去除，得到最短非公共子句中包含的处理后的各个分词在所述两条文本中的词频，并根据最短非公共子句中包含的处理后的各个分词在所述两条文本中的词频，确定所述最短非公共子句对应的语句向量，例如，文本A和文本B对应的最长长度的公共子句为“外面雨下”，在文本A中去除最长公共子句“外面雨下”，得到最短非公共子句为“不适合出去”，通过所述最短非公共子句中包含的处理后的各个分词在所述两条文本中的词频，得到所述最短非公共子句对应的语句向量为[1,0,1,1,1,0,0,0,0]，同理在文本B中去除最长公共子句“外面雨下”，得到最短非公共子句为“待在家里比较合适”，通过所述最短非公共子句中包含的处理后的各个分词在所述两条文本中的词频，得到所述最短非公共子句对应的语句向量为[1,1,0,1,1,1,1,1,0]，进而依据两条文本中的最短非公共子句对应的语句向量，利用余弦相似度的计算公式，能够计算两条文本中各个非公共子句共同对应的第二相似度权重，进而能够计算两条文本中各个公共子句共同对应的第一相似度权重。

206、基于所述两条文本分别对应的最短非公共子句的语句向量，计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重。

对于本发明实施例，为了计算两条文本中各个公共子句共同对应的第一相似度权重和各个非公共子句共同对应的第二相似度权重，步骤206具体包括：根据所述语句向量，计算所述两条文本分别对应的最短非公共子句之间的余弦相似度；将所述余弦相似度确定为所述各个非公共子句共同对应的第二相似度权重；将1与所述余弦相似度的差确定为所述各个公共子句共同对应的第一相似度权重。

具体地，根据两条文本中最短非公共子句对应的语句向量，计算所述两条文本分别对应的最短非公共子句之间的余弦相似度，具体计算公式如下：

其中，所述cos(θ)表示两条文本中的最短非公共子句之间的余弦相似度，即本实施例中各个非公共子句共同对应的第二相似度权重，则1-cos(θ)即为本实施例中的所述各个公共子句共同对应的第一相似度权重，x_i表示其中一条文本中最短非公共子句对应的向量，y_i表示另一条文本中最短非公共子句对应的向量，按照此公式能够计算出各个非公共子句共同对应的第二相似度权重，同时能够获得所述各个公共子句共同对应的第一相似度权重，进而能够根据所述第一相似度权重和所述第二相似度权重，确定两条文本中各个公共子句之间的第一相似度和各个非公共子句之间的第二相似度。

207、根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度。

对应本发明实施例，为了获得两条文本中各个公共子句之间的第一相似度和各个非公共子句之间的第二相似度，步骤207具体包括：根据所述各个非公共子句对应的第二长度，确定最长长度的非公共子句；根据所述第一相似度权重、所述各个公共子句对应的第一长度、所述最长长度的公共子句对应的第一长度和所述两条文本对应的文本长度，计算所述两条文本中所述各个公共子句之间的第一相似度；根据所述第二相似度权重，所述各个非公共子句对应的第二长度，所述最长长度的非公共子句对应的第二长度和所述两条文本对应的文本长度，计算所述两条文本中所述各个非公共子句之间的第二相似度。

具体地，根据所述各个非公共子句对应的第二长度，确定所述第二长度中的最长长度，进而得到最长长度对应的非公共子句，及该最长长度非公共子句对应的第二长度，同时根据获得的各个公共子句共同对应的第一相似度权重、各个公共子句对应的第一长度、最长长度公共子句对应的第一长度和两条文本对应的文本长度，计算两条文本中各个公共子句之间的第一相似度，具体计算公式如下：

其中，y₁为各个公共子句之间的第一相似度，n代表两条文本中各个公共子句对应的第一长度，m代表两条文本对应的文本长度，max(comword)代表最长长度公共子句对应的第一长度，1-cosθ代表两条文本中各个公共子句共同对应的第一相似度权重。

进一步地，根据获得的各个非公共子句共同对应的第二相似度权重、各个非公共子句对应的第二长度、最长长度的非公共子句对应的第二长度和两条文本对应的文本长度，计算两条文本中各个非公共子句之间的第二相似度，具体计算公式如下：

其中，y₂为各个非公共子句之间的第二相似度，cosθ代表两条文本中各个非公共子句共同对应的第二相似度权重，m-n代表两条文本中各个非公共子句对应的第二长度，max(word)代表最长长度非公共子句对应的第二长度，从而利用上述公式分别计算两条文本中各个公共子句之间的第一相似度和各个非公共子句之间的第二相似度，并将所述第一相似度与所述第二相似度相加，得到两条文本之间的相似度，提高了文本相似度计算的精度，进而使文本检索的效果更好。

208、将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度。

具体地，为了计算两条文本之间的相似度，需要将两条文本中的各个公共子句之间的第一相似度与各个非公共子句之间的第二相似度相加，具体公式如下：

其中，

表示两条文本中各个公共子句之间的第一相似度，

表示两条文本中各个非公共子句之间的第二相似度。

根据本发明提供的另一种文本相似度的计算方法，与目前依据文本中重复词出现的数量来计算文本相似度的方式相比，本发明通过获取待处理的两条文本分别对应的各个分词；并基于所述各个分词，确定所述两条文本中包含的各个公共子句；与此同时，根据所述各个公共子句对应的长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的长度；之后根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；最终根据所述第一相似度权重和所述各个公共子句对应的长度，计算所述两条文本中各个公共子句之间的第一相似度，并根据所述第二相似度权重和所述各个非公共子句对应的长度，计算所述两条文本中各个非公共子句之间的第二相似度，将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度，由此通过计算两条文本中各个公共子句共同对应的第一相似度权重，及各个非公共子句共同对应的第二相似度权重，并基于所述第一相似度权重和所述第二相似度权重，计算各个公共子句之间的第一相似度，以及各个非公共子句之间的第二相似度，能够避免文本中一旦出现相同内容，便认为两者完全一致的情况，从而能够提高文本相似度的计算精度。

进一步地，作为图1的具体实现，本发明实施例提供了一种文本相似度的计算装置，如图3所示，所述装置包括：获取单元31、第一确定单元32、第二确定单元33、第一计算单元34、第二计算单元35和相加单元36。

所述获取单元31，可以用于获取待处理的两条文本分别对应的各个分词。

所述第一确定单元32，可以用于基于所述各个分词，确定所述两条文本中包含的各个公共子句。

所述第二确定单元33，可以用于根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度。

所述第一计算单元34，可以用于根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重。

所述第二计算单元35，可以用于根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度。

所述相加单元36，可以用于将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度。

在具体应用场景中，为了获取两条文本对应的处理后的各个分词，如图4所述，所述装置还包括：插入单元37、统计单元38、去除单元39和降频单元40。

所述插入单元37，可以用于将所述两条文本中的各个分词按顺序相互插入，得到所述两条文本对应的插入后的各个分词，其中，插入的分词为在被插入的文本中不存在的分词。

所述统计单元38，可以用于分别统计所述插入后的各个分词在所述两条文本中的词频。

所述去除单元39，可以用于若所述插入后的各个分词中的目标分词在所述两条文本中任意一条文本中的词频大于第一预设词频，则将所述目标分词分别从所述两条文本中去除，得到所述两条文本对应的处理后的各个分词。

所述降频单元40，可以用于若所述目标分词在所述任意一条文本中的词频小于或者等于所述第一预设词频，且大于第二预设词频，则对所述目标分词在所述任意一条文本中的词频进行降频处理，得到所述两条文本对应的处理后的各个分词。

在具体应用场景中，为了确定两条文本中包含的各个公共子句，所述第一确定单元32具体可以用于分别确定所述处理后的各个分词在所述两条文本中的位置索引；并遍历两条文本中各个位置索引处的分词，利用动态规划求解的方式，确定所述两条文本中包含的各个公共子句。

在具体应用场景中，为了确定最长长度的公共子句和两条文本中各个非公共子句对应的第二长度，所述第二确定单元33，包括筛选模块331和相减模块332。

所述第二确定单元33，具体可以用于根据所述两条文本包含的分词数量，确定所述两条文本对应的文本长度，并根据所述各个公共子句中包含的分词数量，确定所述各个公共子句对应的第一长度。

所述筛选模块331，可以用于从各个第一长度中筛选出最长长度，并确定所述最长长度对应的公共子句。

所述相减模块332，可以用于分别将所述文本长度与所述各个公共子句对应的第一长度相减，得到所述两条文本中各个非公共子句对应的第二长度。

在具体应用场景中，为了计算两条文本中各个公共子句共同对应的第一相似度权重和各个非公共子句共同对应的第二相似度权重，所述第一计算单元34，包括排除模块341、第一确定模块342和第一计算模块343。

所述排除模块341，可以用于将所述最长长度的公共子句分别从所述两条文本中排除，得到所述两条文本分别对应的最短非公共子句。

所述第一确定模块342，可以用于根据所述最短非公共子句中包含的处理后的各个分词在所述两条文本中的词频，确定所述最短非公共子句对应的语句向量。

所述第一计算模块343，可以用于基于所述两条文本分别对应的最短非公共子句的语句向量，计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重。

在具体应用场景中，为了根据两条文本分别对应的最短非公共子句的语句向量，计算各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重，所述第一计算模块343，包括计算子模块和确定子模块。

所述计算子模块，可以用于根据所述语句向量，计算所述两条文本分别对应的最短非公共子句之间的余弦相似度。

所述确定子模块，可以用于将所述余弦相似度确定为所述各个非公共子句共同对应的第二相似度权重。

所述确定子模块，还可以用于将1与所述余弦相似度的差确定为所述各个公共子句共同对应的第一相似度权重。

在具体应用场景中，为了计算两条文本中各个公共子句之间的第一相似度和各个非公共子句之间的第二相似度，所述第二计算单元35，包括第二确定模块351和第二计算模块352。

所述第二确定模块351，可以用于根据所述各个非公共子句对应的第二长度，确定最长长度的非公共子句。

所述第二计算模块352，可以用于根据所述第一相似度权重、所述各个公共子句对应的第一长度、所述最长长度的公共子句对应的第一长度和所述两条文本对应的文本长度，计算所述两条文本中所述各个公共子句之间的第一相似度。

所述第二计算模块352，还可以用于根据所述第二相似度权重，所述各个非公共子句对应的第二长度，所述最长长度的非公共子句对应的第二长度和所述两条文本对应的文本长度，计算所述两条文本中所述各个非公共子句之间的第二相似度。

需要说明的是，本发明实施例提供的一种文本相似度的计算装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取待处理的两条文本分别对应的各个分词；基于所述各个分词，确定所述两条文本中包含的各个公共子句；根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度；根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度；将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度。

基于上述如图1所示方法和如图3所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器51、存储器52、及存储在存储器52上并可在处理器上运行的计算机程序，其中，存储器52和处理器51均设置在总线53上，所述处理器51执行所述程序时实现以下步骤：获取待处理的两条文本分别对应的各个分词；基于所述各个分词，确定所述两条文本中包含的各个公共子句；根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度；根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度；将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度。

通过本发明的技术方案，本发明通过获取待处理的两条文本分别对应的各个分词；并基于所述各个分词，确定所述两条文本中包含的各个公共子句；与此同时，根据所述各个公共子句对应的长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的长度；之后根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重；最终根据所述第一相似度权重和所述各个公共子句对应的长度，计算所述两条文本中各个公共子句之间的第一相似度，并根据所述第二相似度权重和所述各个非公共子句对应的长度，计算所述两条文本中各个非公共子句之间的第二相似度，将所述第一相似度和所述第二相似度相加，得到所述两条文本之间的相似度，由此通过计算两条文本中各个公共子句共同对应的第一相似度权重，及各个非公共子句共同对应的第二相似度权重，并基于所述第一相似度权重和所述第二相似度权重，计算各个公共子句之间的第一相似度，以及各个非公共子句之间的第二相似度，能够避免文本中一旦出现相同内容，便认为两者完全一致的情况，从而能够提高文本相似度的计算精度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种文本相似度的计算方法，其特征在于，包括：

获取待处理的两条文本分别对应的各个分词；

2.根据权利要求1所述的方法，其特征在于，在所述获取待处理的两条文本分别对应的各个分词之后，所述方法还包括：

将所述两条文本中的各个分词按顺序相互插入，得到所述两条文本对应的插入后的各个分词，其中，插入的分词为在被插入的文本中不存在的分词；

分别统计所述插入后的各个分词在所述两条文本中的词频；

若所述插入后的各个分词中的目标分词在所述两条文本中任意一条文本中的词频大于第一预设词频，则将所述目标分词分别从所述两条文本中去除，得到所述两条文本对应的处理后的各个分词；

若所述目标分词在所述任意一条文本中的词频小于或者等于所述第一预设词频，且大于第二预设词频，则对所述目标分词在所述任意一条文本中的词频进行降频处理，得到所述两条文本对应的处理后的各个分词。

3.根据权利要求2所述的方法，其特征在于，所述基于所述各个分词，确定所述两条文本中包含的各个公共子句，包括：

分别确定所述处理后的各个分词在所述两条文本中的位置索引；

遍历两条文本中各个位置索引处的分词，利用动态规划求解的方式，确定所述两条文本中包含的各个公共子句。

4.根据权利要求2所述的方法，其特征在于，所述根据所述各个公共子句对应的第一长度，确定最长长度的公共子句，以及所述两条文本中各个非公共子句对应的第二长度，包括：

根据所述两条文本包含的分词数量，确定所述两条文本对应的文本长度，并根据所述各个公共子句中包含的分词数量，确定所述各个公共子句对应的第一长度；

从各个第一长度中筛选出最长长度，并确定所述最长长度对应的公共子句；

分别将所述文本长度与所述各个公共子句对应的第一长度相减，得到所述两条文本中各个非公共子句对应的第二长度。

5.根据权利要求2所述的方法，其特征在于，所述根据所述最长长度的公共子句，分别计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重，包括：

将所述最长长度的公共子句分别从所述两条文本中排除，得到所述两条文本分别对应的最短非公共子句；

根据所述最短非公共子句中包含的处理后的各个分词在所述两条文本中的词频，确定所述最短非公共子句对应的语句向量；

基于所述两条文本分别对应的最短非公共子句的语句向量，计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重。

6.根据权利要求5所述的方法，其特征在于，所述基于所述两条文本分别对应的最短非公共子句的语句向量，计算所述各个公共子句共同对应的第一相似度权重和所述各个非公共子句共同对应的第二相似度权重，包括：

根据所述语句向量，计算所述两条文本分别对应的最短非公共子句之间的余弦相似度；

将所述余弦相似度确定为所述各个非公共子句共同对应的第二相似度权重；

将1与所述余弦相似度的差确定为所述各个公共子句共同对应的第一相似度权重。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一相似度权重和所述第一长度，以及所述第二相似度权重和所述第二长度，分别计算所述两条文本中所述各个公共子句之间的第一相似度和所述各个非公共子句之间的第二相似度，包括：

根据所述各个非公共子句对应的第二长度，确定最长长度的非公共子句；

根据所述第一相似度权重、所述各个公共子句对应的第一长度、所述最长长度的公共子句对应的第一长度和所述两条文本对应的文本长度，计算所述两条文本中所述各个公共子句之间的第一相似度；

根据所述第二相似度权重，所述各个非公共子句对应的第二长度，所述最长长度的非公共子句对应的第二长度和所述两条文本对应的文本长度，计算所述两条文本中所述各个非公共子句之间的第二相似度。

8.一种文本相似度的计算装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。