CN113312475B

CN113312475B - 一种文本相似度确定方法及装置

Info

Publication number: CN113312475B
Application number: CN202010123914.2A
Authority: CN
Inventors: 张静军; 韩青; 姜琳
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2024-03-15
Anticipated expiration: 2040-02-27
Also published as: CN113312475A

Abstract

本申请实施例公开了一种文本相似度确定方法及装置，该方法包括：将第一文本和第二文本分别进行分句处理，得到由第一文本中分句组成的第一句子集合以及由第二文本中分句组成的第二句子集合，并将第一句子集合与第二句子集合中的一个确定为待比较句子集合且另一个确定为基准句子集合。将待比较句子集合中与基准句子集合中的任一句子的相似度满足预设条件的句子确定为相似句，并依据待比较句子集合中相似句的数量与待比较句子集合中的句子总数，计算第一文本与第二文本的相似度。如此使得基于两个长文本间的相似句数量确定的文本相似度能够准确地表征出该两个长文本间的相似度，如此实现了准确地确定出不同长文本间的相似度目的。

Description

一种文本相似度确定方法及装置

技术领域

本申请涉及数据处理领域，具体涉及一种文本相似度确定方法及装置。

背景技术

长文本间的相似度可以应用于很多应用领域(例如，需确定机器翻译译文与人工翻译译文间差异的应用领域)。其中，长文本是指包括多个句子的文本，例如，长文本可以是指一篇文档。

长文本间的相似度可以用于表征不同长文本之间的相似程度；而且，两个长文本间的相似度越高，则表示该两个长文本越相似。然而，如何确定长文本的相似度仍是一个亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种文本相似度确定方法及装置，能够准确地确定出不同长文本间的相似度。

为解决上述问题，本申请实施例提供的技术方案如下：

一种文本相似度确定方法，所述方法包括：

获取第一句子集合以及第二句子集合，所述第一句子集合是对第一文本进行分句处理后得到的，所述第二句子集合是对第二文本进行分句处理后得到的；

将所述第一句子集合与所述第二句子集合中的一个确定为待比较句子集合，另一个确定为基准句子集合；

利用至少一种文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度满足预设条件，所述目标句分别为所述待比较句子集合中的每一句；

获取所述待比较句子集合中相似句的数量，所述相似句为所述待比较句子集合中与所述基准句子集合中的任一句子的相似度满足预设条件的句子；

依据所述待比较句子集合中相似句的数量与所述待比较句子集合中的句子总数，计算所述第一文本与所述第二文本的相似度。

在一种可能的实现方式中，所述将所述第一句子集合与所述第二句子集合中的一个确定为待比较句子集合，另一个确定为基准句子集合，包括：

如果所述第一句子集合与所述第二句子集合中的句子数量不相等，将所述第一句子集合与所述第二句子集合中句子数量较少的确定为待比较句子集合，句子数量较多的确定为基准句子集合；

如果所述第一句子集合与所述第二句子集合中的句子数量相等，将所述第一句子集合与所述第二句子集合中的任意一个确定为待比较句子集合，另一个确定为基准句子集合。

在一种可能的实现方式中，所述利用至少一种文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度满足预设条件，包括：

利用第一文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度大于或等于第一阈值；

如果利用第一文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的任一句子的相似度大于或等于第一阈值，确定所述目标句与所述基准句子集合中的任一句子的相似度满足预设条件；

如果利用第一文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的全部句子的相似度小于第一阈值，利用第二文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度大于或等于第二阈值；

如果利用第二文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的任一句子的相似度大于或等于第二阈值，确定所述目标句与所述基准句子集合中的任一句子的相似度满足预设条件；

如果利用第二文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的全部句子的相似度小于第二阈值，确定所述目标句与所述基准句子集合中的任一句子的相似度不满足预设条件。

在一种可能的实现方式中，所述第一文本相似度算法为基于非语义的文本相似度算法，所述第二文本相似度算法为基于语义的文本相似度算法；

或者，

所述第一文本相似度算法为基于语义的文本相似度算法，所述第二文本相似度算法为基于非语义的文本相似度算法。

在一种可能的实现方式中，所述方法还包括：

如果所述第一句子集合与所述第二句子集合中的句子数量的差值大于第四阈值，根据所述第一句子集合与所述第二句子集合中的句子数量计算惩罚值；

将计算得到的所述第一文本与所述第二文本的相似度乘以所述惩罚值，得到所述第一文本与所述第二文本的相似度。

在一种可能的实现方式中，所述根据所述第一句子集合与所述第二句子集合中的句子数量计算惩罚值，包括：

计算第一句子集合中的句子数量与第二句子集合中的句子数量的比值，将1与所述比值之差确定为目标数值；

将自然常数作为底数，所述目标数值作为指数计算惩罚值。

一种文本相似度确定装置，所述装置包括：

句子集合获取单元，用于获取第一句子集合以及第二句子集合，所述第一句子集合是对第一文本进行分句处理后得到的，所述第二句子集合是对第二文本进行分句处理后得到的；

目标集合确定单元，用于将所述第一句子集合与所述第二句子集合中的一个确定为待比较句子集合，另一个确定为基准句子集合；

相似程度判断单元，用于利用至少一种文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度满足预设条件，所述目标句分别为所述待比较句子集合中的每一句；

相似句数量获取单元，用于获取所述待比较句子集合中相似句的数量，所述相似句为所述待比较句子集合中与所述基准句子集合中的任一句子的相似度满足预设条件的句子；

相似度计算单元，用于依据所述待比较句子集合中相似句的数量与所述待比较句子集合中的句子总数，计算所述第一文本与所述第二文本的相似度。

在一种可能的实现方式中，所述目标集合确定单元，包括：

第一集合确定子单元，用于如果所述第一句子集合与所述第二句子集合中的句子数量不相等，将所述第一句子集合与所述第二句子集合中句子数量较少的确定为待比较句子集合，句子数量较多的确定为基准句子集合；

第二集合确定子单元，用于如果所述第一句子集合与所述第二句子集合中的句子数量相等，将所述第一句子集合与所述第二句子集合中的任意一个确定为待比较句子集合，另一个确定为基准句子集合。

在一种可能的实现方式中，所述相似程度判断单元，包括：

第一相似判断子单元，用于利用第一文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度大于或等于第一阈值；

第一相似确定子单元，用于如果利用第一文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的任一句子的相似度大于或等于第一阈值，确定所述目标句与所述基准句子集合中的任一句子的相似度满足预设条件；

第二相似判断子单元，用于如果利用第一文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的全部句子的相似度小于第一阈值，利用第二文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度大于或等于第二阈值；

第二相似确定子单元，用于如果利用第二文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的任一句子的相似度大于或等于第二阈值，确定所述目标句与所述基准句子集合中的任一句子的相似度满足预设条件；

第三相似确定子单元，用于如果利用第二文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的全部句子的相似度小于第二阈值，确定所述目标句与所述基准句子集合中的任一句子的相似度不满足预设条件。

或者，

在一种可能的实现方式中，所述装置还包括：

惩罚值计算单元，用于如果所述第一句子集合与所述第二句子集合中的句子数量的差值大于第四阈值，根据所述第一句子集合与所述第二句子集合中的句子数量计算惩罚值；

相似度校正单元，用于将计算得到的所述第一文本与所述第二文本的相似度乘以所述惩罚值，得到所述第一文本与所述第二文本的相似度。

在一种可能的实现方式中，所述惩罚值计算单元，包括：

目标数值计算子单元，用于计算第一句子集合中的句子数量与第二句子集合中的句子数量的比值，将1与所述比值之差确定为目标数值；

惩罚值计算子单元，用于将自然常数作为底数，所述目标数值作为指数计算惩罚值。

一种用于确定文本相似度的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行所述的文本相似度确定方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供的文本相似度确定方法中，首先，将第一文本和第二文本分别进行分句处理，得到由第一文本中分句组成的第一句子集合以及由第二文本中分句组成的第二句子集合，并将第一句子集合与第二句子集合中的一个确定为待比较句子集合且另一个确定为基准句子集合。然后，将待比较句子集合中与基准句子集合中的任一句子的相似度满足预设条件的句子确定为相似句，并依据待比较句子集合中相似句的数量与待比较句子集合中的句子总数，计算第一文本与第二文本的相似度。其中，因两个长文本间的相似句越多则表示该两个长文本间的相似度越高，使得基于两个长文本间的相似句数量确定的文本相似度能够准确地表征出该两个长文本间的相似度，如此实现了准确地确定出不同长文本间的相似度目的。

附图说明

图1为本申请实施例提供的文本相似度确定方法的示例性应用场景的框架示意图；

图2为本申请实施例提供的一种文本相似度确定方法的流程图；

图3为本申请实施例提供的确定待比较句子集合中相似句的示意图；

图4为本申请实施例提供的S203的一种实施方式的流程图；

图5为本申请实施例提供的S2031-S2035的具体实施方式的流程图；

图6为本申请实施例提供的另一种文本相似度确定方法的示意图；

图7为本申请实施例提供的确定文本相似性的示意图；

图8为本申请实施例提供的一种文本相似度确定装置的结构示意图；

图9为本申请实施例提供的一种用于输入装置的结构示意图；

图10为本申请实施例提供的一种服务器设备的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为了便于理解和解释本申请实施例提供的技术方案，下面将先对本申请的背景技术进行说明。

发明人对长文本间的相似度研究中发现：两个长文本间的相似度可以借助该两个长文本间的相似句数量进行衡量，而且，两个长文本间的相似度与该两个长文本间的相似句数量正相关，其具体为：两个长文本间的相似句数量越多则表示该两个长文本间的相似度越高。其中，两个长文本间的相似句是指位于该两个长文本中的具有较高相似度的句子。例如，假设第一个长文本包括第一句子，第二个长文本包括第二句子，且第一句子与第二句子之间的相似度较高，则可以将第一句子或第二句子确定为第一个长文本与第二个长文本间的相似句。

基于此，本申请实施例提供了一种文本相似度确定方法，其具体为：将第一文本和第二文本分别进行分句处理，得到由第一文本中分句生成的第一句子集合以及由第二文本中分句生成的第二句子集合，并将第一句子集合与第二句子集合中的一个确定为待比较句子集合以及另一个确定为基准句子集合；将待比较句子集合中与基准句子集合中的任一句子的相似度满足预设条件的句子作为相似句，并依据待比较句子集合中相似句的数量与待比较句子集合中的句子总数，计算第一文本与第二文本的相似度。如此实现了借助两个长文本间的相似句数量确定该两个长文本间的相似度的目的。

为了便于理解本申请实施例提供的文本相似度确定方法，下面先结合图1对本申请实施例提供的应用场景进行说明。其中，图1为本申请实施例提供的文本相似度确定方法的示例性应用场景的框架示意图。其中，本申请实施例提供的文本相似度确定方法可以应用于服务器101。

实际应用中，在终端102获取到第一文本和第二文本之后，终端102可以将第一文本和第二文本发送给服务器101，以便服务器101可以确定第一文本与第二文本的相似度，而且，服务器101确定第一文本与第二文本的文本相似度的过程具体可以为：服务器101先将第一文本和第二文本分别进行分句处理，得到由第一文本中分句组成的第一句子集合以及由第二文本中分句组成的第二句子集合，并将第一句子集合与第二句子集合中的一个确定为待比较句子集合以及另一个确定为基准句子集合；再将待比较句子集合中与基准句子集合中的任一句子的相似度满足预设条件的句子作为相似句，并依据待比较句子集合中相似句的数量与待比较句子集合中的句子总数，计算第一文本与第二文本的相似度。另外，当服务器101确定出第一文本与第二文本的相似度之后，服务器101可以将第一文本与第二文本的相似度反馈给终端102。

需要说明的是，本申请实施例提供的文本相似度确定方法可以由服务器101根据服务器101自身存储或生成的第一文本以及第二文本、终端102发送的第一文本以及第二文本或其它设备发送的第一文本以及第二文本来执行，也可以由终端102根据终端102自身存储、采集或生成的第一文本以及第二文本、服务器101发送的第一文本以及第二文本或其它设备发送的第一文本以及第二文本来执行。其中，其它设备可以为不同于服务器101和终端102的独立存在的设备，可以为现有、正在研发的或将来研发的、能够向服务器101或终端102发送第一文本以及第二文本的设备。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

需要注意的是，终端102可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如，Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是，本申请实施例中服务器101可以是现有的、正在研发的或将来研发的、能够执行上述操作的设备的一个示例。本申请的实施方式在此方面不受任何限制。

为便于理解本申请实施例提供的技术方案，下面将结合附图对本申请实施例提供的文本相似度确定方法进行说明。

参见图2，该图为本申请实施例提供的一种文本相似度确定方法的流程图，如图2所示，该方法可以包括S201-S205：

S201：获取第一句子集合以及第二句子集合。

第一句子集合是对第一文本进行分句处理后得到的，也就是，第一句子集合是由第一文本中的分句组成的。例如，当第一文本包括第一分句至第四分句时，则第一句子集合可以包括：第一分句、第二分句、第三分句和第四分句。

第二句子集合是对第二文本进行分句处理后得到的，也就是，第二句子集合是由第二文本中的分句组成的。例如，当第二文本包括第五分句至第九分句时，则第二句子集合可以包括：第五分句、第六分句、第七分句、第八分句和第九分句。

需要说明的，第一文本和第二文本均为长文本，长文本可以理解为分句数量达到预设数值的文本。其中，分句可以理解为对第一文本或第二文本进行分句处理后得到的句子。

基于上述内容可知，本申请实施例中，在获取到第一文本和第二文本之后，可以将第一文本进行分句处理，并基于第一文本中的分句生成第一句子集合；同时，还可以将第二文本进行分句处理，并基于第二文本中的分句生成第二句子集合，以便后续能够基于第一句子集合和第二句子集合计算第一文本与第二文本的相似度。

需要说明的是，本申请实施例不限定分句方法，可以采用任一种能够将长文本拆分成多个分句的分句方法进行实施。

S202：将第一句子集合与第二句子集合中的一个确定为待比较句子集合，另一个确定为基准句子集合。

本申请实施例中，在获取到第一句子集合和第二句子集合之后，可以根据第一句子集合与第二句子集合确定待比较句子集合和基准句子集合，其具体为：若将第一句子集合确定为待比较句子集合，则将第二句子集合确定为基准句子集合；若将第二句子集合确定为待比较句子集合，则将第一句子集合确定为基准句子集合。

在一些情况下，当两个句子集合中句子数量不相等时，为了更好地计算文本相似度，可以将句子数量较小的句子集合确定为待比较句子集合，并将句子数量较大的句子集合确定为基准句子集合。基于此，本申请实施例还提供了S202的一种可能的实施方式，其具体为：如果第一句子集合与第二句子集合中的句子数量不相等，则将第一句子集合与第二句子集合中句子数量较少的确定为待比较句子集合，句子数量较多的确定为基准句子集合。例如，当第一句子集合包括第一分句至第四分句，且第二句子集合包括第五分句至第九分句时，则可以将第一句子集合确定为待比较句子集合，并将第二句子集合确定为基准句子集合。

在一些情况下，当两个句子集合中句子数量相等时，这两个句子集合中的任一句子集合都可以作为待比较句子集合或基准句子集合。基于此，本申请实施例还提供了S202的另一种可能的实施方式，其具体为：如果第一句子集合与第二句子集合中的句子数量相等，则将第一句子集合与第二句子集合中的任意一个确定为待比较句子集合，另一个确定为基准句子集合。例如，当第一句子集合包括4个句子，且第二句子集合也包括4个句子时，则可以将第一句子集合确定为待比较句子集合，并将第二句子集合确定为基准句子集合；或者，也可以将第一句子集合确定为基准句子集合，并将第二句子集合确定为待比较句子集合。

S203：利用至少一种文本相似度算法判断待比较句子集合中的目标句是否与基准句子集合中的任一句子的相似度满足预设条件，该目标句分别为待比较句子集合中的每一句。

文本相似度算法用于计算不同句子之间的相似程度；而且，本申请实施例不限定文本相似度算法，例如，文本相似度算法可以为双语评估替代(bilingual evaluationunderstudy，BLEU)算法、Bert算法、Word2Vec或余弦相似度等。

本申请实施例中，在获取到待比较句子集合和基准句子集合之后，可以基于至少一种文本相似度算法确定待比较句子集合和基准句子集合之间的相似句，其具体为：当待比较句子集合包括N_C个句子，且基准句子集合包括N_B个句子时，则利用至少一种文本相似度算法判断待比较句子集合中的第i个句子与基准句子集合中的第j个句子的相似度是否满足预设条件，以便在确定待比较句子集合中的第i个句子与基准句子集合中的第j个句子的相似度满足预设条件时，则可以将待比较句子集合中的第i个句子确定为相似句。其中，i为正整数，且i≤N_C；j为正整数，且j≤N_B。

需要说明的是，在本申请实施例中，为了提高文本相似度的计算效率，可以在确定待比较句子集合中的第i个句子与基准句子集合中的第j个句子的相似度满足预设条件之后，无需再判断待比较句子集合中的第i个句子与基准句子集合中的其他句子是否满足预设条件，可以继续判断待比较句子集合中的其他句子是否为相似句。如此能够有效地减少判断次数，有利于提高文本相似度的计算效率。基于上述内容可知，在本申请实施例中，只要确定基准句子集合中存在一个句子与待比较句子集合中的目标句的相似度满足预设条件，则可以确定该目标句为相似句。其中，目标句分别为待比较句子集合中的每一句。

参见图3，示出了一种确定相似句的示意图。例如，待比较句子集合为{第一分句，第二分句，第三分句，第四分句}，基准句子集合为{第五分句，第六分句，第七分句，第八分句，第九分句}。首先，将第一分句作为目标句，判断第一分句与第五分句的相似度是否满足预设条件，如果是，则确定第一分句为相似句，结束对第一分句的判断；如果否，则继续判断第一分句与第六分句的相似度是否满足预设条件，如果是，则确定第一分句为相似句，结束对第一分句的判断；如果否，则继续判断第一分句与第七分句的相似度是否满足预设条件，依此类推；直至确定第一分句为相似句或遍历完基准句子集合中的所有句子为止。如果遍历完基准句子集合中的所有句子，不存在与第一句子的相似度满足预设条件的句子，则确定第一分句不属于相似句，结束对第一分句的判断。在对第一句子判断结束(为相似句或不属于相似句)后，将第二分句作为目标句，执行对第二分句的判断流程，直到完成对待比较句子集合中的每个句子的判断为止。

另外，本申请实施例还提供了S203的一种实施方式，请参见下文具体实施方式。

S204：获取待比较句子集合中相似句的数量，该相似句为待比较句子集合中与基准句子集合中的任一句子的相似度满足预设条件的句子。

本申请实施例中，在确定出待比较句子集合中各个句子是否为相似句之后，可以统计待比较句子集合中相似句的数量。例如，当待比较句子集合为{第一分句，第二分句，第三分句，第四分句}，且待比较句子集合对应的相似句标识集合为图3中的{1,0,1,1}时，则确定待比较句子集合中相似句的数量为3。其中，“1”是相似句的标识，“0”是非相似句的标识。

S205：依据待比较句子集合中相似句的数量与待比较句子集合中的句子总数，计算第一文本与第二文本的相似度。

本申请实施例中，在获取到待比较句子集合中相似句的数量之后，可以依据待比较句子集合中相似句的数量与待比较句子集合中的句子总数，确定出待比较句子集合对应的文本与所述基准句子集合对应的文本的相似度，具体可以为：将待比较句子集合中相似句的数量与待比较句子集合中的句子总数的比值，确定为待比较句子集合对应的文本与所述基准句子集合对应的文本的相似度。例如，当待比较句子集合为{第一分句，第二分句，第三分句，第四分句}，且待比较句子集合对应的相似句标识集合为图3中的{1,0,1,1}时，则可知：待比较句子集合中相似句的数量为3，且待比较句子集合中的句子总数为4，此时利用S205可以计算得到第一文本与第二文本的相似度为0.75。

基于上述S201至S205的相关内容可知，在本申请实施例提供的文本相似度确定方法中，首先，将第一文本和第二文本分别进行分句处理，得到由第一文本中分句组成的第一句子集合以及由第二文本中分句组成的第二句子集合，并将第一句子集合与第二句子集合中的一个确定为待比较句子集合且另一个确定为基准句子集合。然后，将待比较句子集合中与基准句子集合中的任一句子的相似度满足预设条件的句子确定为相似句，并依据待比较句子集合中相似句的数量与待比较句子集合中的句子总数，计算第一文本与第二文本的相似度。其中，因两个长文本间的相似句越多则表示该两个长文本间的相似度越高，使得基于两个长文本间的相似句数量确定的文本相似度能够准确地表征出该两个长文本间的相似度，如此实现了准确地确定出不同长文本间的相似度目的。

在本申请实施例一种可能的实现方式中，本申请实施例还提供了一种利用至少一种文本相似度算法判断待比较句子集合中的目标句是否与基准句子集合中的任一句子的相似度满足预设条件(也就是S203)的具体实施方式，如图4所示，其具体可以包括S2031-S2035：

S2031：利用第一文本相似度算法判断待比较句子集合中的目标句是否与基准句子集合中的任一句子的相似度大于或等于第一阈值。

其中，第一文本相似度算法用于计算两个句子之间的相似程度；而且，本申请实施例不限定第一文本相似度算法。作为示例，第一文本相似度算法可以为基于非语义的文本相似度算法(例如，BLEU算法)，也可以为基于语义的文本相似度算法(例如，Bert算法)。

S2032：如果利用第一文本相似度算法判断待比较句子集合中的目标句与基准句子集合中的任一句子的相似度大于或等于第一阈值，确定目标句与基准句子集合中的任一句子的相似度满足预设条件。

基于上述内容可知，本申请实施例中，只要利用第一文本相似度算法确定出基准句子集合中存在一个句子与待比较句子集合中的目标句的相似度大于或等于第一阈值，则可以确定该目标句与基准句子集合中的任一句子的相似度满足预设条件，从而可以确定该目标句为相似句。

S2033：如果利用第一文本相似度算法判断待比较句子集合中的目标句与基准句子集合中的全部句子的相似度小于第一阈值，利用第二文本相似度算法判断待比较句子集合中的目标句是否与基准句子集合中的任一句子的相似度大于或等于第二阈值。

其中，第二文本相似度算法用于计算两个句子之间的相似程度；而且，本申请实施例不限定第二文本相似度算法。作为示例，第二文本相似度算法可以为基于语义的文本相似度算法(例如，Bert算法)，也可以为基于非语义的文本相似度算法(例如，BLEU算法)。

需要说明的是，第二文本相似度算法与第一文本相似度算法不同，而且，第二文本相似度算法与第一文本相似度算法可以互补长短，其具体为：若第一文本相似度算法为基于非语义的文本相似度算法，则第二文本相似度算法为基于语义的文本相似度算法；若第一文本相似度算法为基于语义的文本相似度算法，则第二文本相似度算法为基于非语义的文本相似度算法。

S2034：如果利用第二文本相似度算法判断待比较句子集合中的目标句与基准句子集合中的任一句子的相似度大于或等于第二阈值，确定目标句与基准句子集合中的任一句子的相似度满足预设条件。

基于上述内容可知，本申请实施例中，只要利用第二文本相似度算法确定出基准句子集合中存在一个句子与待比较句子集合中的目标句的相似度大于或等于第二阈值，则可以确定目标句与基准句子集合中的任一句子的相似度满足预设条件，从而可以确定该目标句为相似句。

S2035：如果利用第二文本相似度算法判断待比较句子集合中的目标句与基准句子集合中的全部句子的相似度小于第二阈值，确定目标句与基准句子集合中的任一句子的相似度不满足预设条件。

为了便于理解和解释上述S2031-S2035，下面结合示例进行说明。

作为示例，假设待比较句子集合包括第一分句至第四分句，基准句子集合包括第五分句至第九分句，第一文本相似度算法为BLEU算法，且第二文本相似度算法为Bert算法。基于该假设可知，如图5所示，当目标句为第一分句时，上述S2031-S2035的具体实施方式，可以具体包括S501-S512：

S501：利用BLEU算法判断第一分句与第五分句的相似度是否大于或等于第一阈值，若是，则执行S512；若否，则执行S502。

S502：利用BLEU算法判断第一分句与第六分句的相似度是否大于或等于第一阈值，若是，则执行S512；若否，则执行S503。

S503：利用BLEU算法判断第一分句与第七分句的相似度是否大于或等于第一阈值，若是，则执行S512；若否，则执行S504。

S504：利用BLEU算法判断第一分句与第八分句的相似度是否大于或等于第一阈值，若是，则执行S512；若否，则执行S505。

S505：利用BLEU算法判断第一分句与第九分句的相似度是否大于或等于第一阈值，若是，则执行S512；若否，则执行S506。

S506：利用Bert算法判断第一分句与第五分句的相似度是否大于或等于第二阈值，若是，则执行S512；若否，则执行S507。

S507：利用Bert算法判断第一分句与第六分句的相似度是否大于或等于第二阈值，若是，则执行S512；若否，则执行S508。

S508：利用Bert算法判断第一分句与第七分句的相似度是否大于或等于第二阈值，若是，则执行S512；若否，则执行S509。

S509：利用Bert算法判断第一分句与第八分句的相似度是否大于或等于第二阈值，若是，则执行S512；若否，则执行S510。

S510：利用Bert算法判断第一分句与第九分句的相似度是否大于或等于第二阈值，若是，则执行S512；若否，则执行S511。

S511：确定第一分句与基准句子集合中的任一句子的相似度不满足预设条件。

S512：确定第一分句与基准句子集合中的任一句子的相似度满足预设条件。

需要说明的是，上述是以目标句为第一分句为例进行说明的。另外，待比较句子集合中的第二分句、第三分句或第四分句均可以按照上述S501-S512进行实施，只需将上述S501-S512中的第一分句分别替换为第二分句、第三分句或第四分句即可。

基于上述提供的S203的具体实施方式可知，本申请实施例可以利用两种不同的文本相似度算法(例如，BLEU算法和Bert算法)来综合判断基准句子集合中是否存在与待比较句子集合中的目标句的相似度满足预设条件的句子。其中，因两种文本相似度算法能够互补长短，使得该判断过程的判断精度更高，从而使得利用该两种文本相似度算法确定出的相似句更准确，进而有利于提高文本相似度的准确性。

在一些情况下，因第一文本中分句数量与第二文本中分句数量差距较大，导致基于上述S205计算得到的文本相似度无法正确地表征第一文本与第二文本之间的相似程度。例如，当第一文本包括20个分句，且第二文本包括2个分句时，若利用上述S205计算得到第一文本与第二文本的相似度为1，则该相似度“1”理论上表示第一文本与第二文本十分相似。但是，实际上第二文本可能只与第一文本中的两个分句相似，且与第一文本中的其他分句没有任何相似性，如此导致因第一文本与第二文本中的大部分句子没有任何相似性使得第一文本与第二文本间的相似度较低。可见，利用上述S205计算得到的第一文本与第二文本的相似度高于第一文本与第二文本的实际相似度，如此导致计算得到的文本相似度的准确性较低。

基于此，为了解决上述问题，本申请实施例还提供了文本相似度确定方法的另一种实施方式，在该实施方式中，文本相似度确定方法除了包括上述S201-S205以外，还包括S206-S207(如图6所示)：

S206：如果第一句子集合与第二句子集合中的句子数量的差值大于第四阈值，根据第一句子集合与第二句子集合中的句子数量计算惩罚值。

基于上述内容可知，本申请实施例中，在得到第一句子集合和第二句子集合之后，可以先判断第一句子集合中的句子数量与第二句子集合中的句子数量之间的差值是否大于第四阈值，若是，则表示第一文本中分句数量与第二文本中分句数量差距较大，此时为了提高文本相似度的准确性，可以先根据第一句子集合与第二句子集合中的句子数量计算惩罚值，以便后续可以利用该惩罚值来校正利用上述S205计算出的第一文本与第二文本的相似度。

另外，本申请实施例还提供了一种根据第一句子集合与第二句子集合中的句子数量计算惩罚值的具体实施方式，其具体为：计算第一句子集合中的句子数量与第二句子集合中的句子数量的比值，将1与比值之差确定为目标数值，并将自然常数作为底数，目标数值作为指数计算惩罚值。

基于此可知，本申请实施例中，可以利用公式(1)计算惩罚值。

式中，P表示惩罚值；N₁表示第一句子集合中的句子数量；N₂表示第二句子集合中的句子数量。

基于上述内容可知，本申请实施例中，在确定第一句子集合与第二句子集合中的句子数量的差值大于第四阈值时，可以根据第一句子集合中的句子数量与第二句子集合中的句子数量，并利用公式(1)计算惩罚值。例如，当第一句子集合包括20个句子，且第二句子集合包括2个句子时，则惩罚值为e^-9≈0.00012。

S207：将计算得到的第一文本与第二文本的相似度乘以惩罚值，得到第一文本与第二文本的相似度。

本申请实施例中，在获取到惩罚值之后，可以将惩罚值与在S205中计算得到第一文本与第二文本的相似度相乘，得到校正后的第一文本与第二文本的相似度。例如，当惩罚值为0.00012，且在S205中计算得到的第一文本与第二文本的相似度为1时，则校正后的第一文本与第二文本的相似度为0.00012。

需要说明的是，本申请实施例不限定S206的执行时间，S206只需在执行S207之前完成即可。

基于上述S206至S207的相关内容可知，本申请实施例中，在确定第一句子集合与第二句子集合中的句子数量的差值大于第四阈值之后，可以先根据第一句子集合中的句子数量与第二句子集合中的句子数量计算惩罚值，再将利用S205计算得到的第一文本与第二文本的相似度乘以该惩罚值，得到校正后的第一文本与第二文本的相似度，使得校正后的第一文本与第二文本的相似度能够更准确的表征第一文本与第二文本之间的相似程度，如此能够弥补因第一文本中分句数量与第二文本中分句数量差距较大导致的计算得到的第一文本与第二文本的相似度准确性低的缺陷。

在一些情况下，可以利用计算得到的第一文本与第二文本的相似度判断第一文本和第二文本是否相似。基于此，本申请实施例还提供了文本相似度确定方法的另一种实施方式，在该实施方式中，文本相似度确定方法除了可以包括上述部分或全部步骤以外，还包括S208-S210(如图7所示)：

S208：判断第一文本与第二文本的相似度是否大于或等于第三阈值，若是，则执行S209；若否，则执行S210。

其中，第三阈值可以预先根据应用场景设定。例如，第三阈值为0.7。

S209：确定第一文本与第二文本相似。

S209：确定第一文本与第二文本不相似。

基于上述S208至S210的相关内容可知，本申请实施例中，在获取到第一文本与第二文本的相似度之后，可以判断第一文本与第二文本的相似度是否大于或等于第三阈值，若是，则表示第一文本与第二文本之间的相似程度较高，从而可以确定第一文本与第二文本相似；若否，则表示第一文本与第二文本之间的相似程度较低，从而可以确定第一文本与第二文本不相似。例如，当第三阈值为0.7时，若第一文本与第二文本的相似度为0.75，则基于0.75＞0.7可以确定第一文本与第二文本相似；若第一文本与第二文本的相似度为0.00012，则基于0.00012＜0.7可以确定第一文本与第二文本不相似。

基于上述方法实施例提供的文本相似度确定方法，本申请实施例还提供了一种文本相似度确定装置，下面结合附图进行解释和说明。

参见图8，该图为本申请实施例提供的一种文本相似度确定装置的结构示意图。本申请实施例提供的文本相似度确定装置，包括：

句子集合获取单元801，用于获取第一句子集合以及第二句子集合，所述第一句子集合是对第一文本进行分句处理后得到的，所述第二句子集合是对第二文本进行分句处理后得到的；

目标集合确定单元802，用于将所述第一句子集合与所述第二句子集合中的一个确定为待比较句子集合，另一个确定为基准句子集合；

相似程度判断单元803，用于利用至少一种文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度满足预设条件，所述目标句分别为所述待比较句子集合中的每一句；

相似句数量获取单元804，用于获取所述待比较句子集合中相似句的数量，所述相似句为所述待比较句子集合中与所述基准句子集合中的任一句子的相似度满足预设条件的句子；

相似度计算单元805，用于依据所述待比较句子集合中相似句的数量与所述待比较句子集合中的句子总数，计算所述第一文本与所述第二文本的相似度。

在一种可能的实现方式中，所述目标集合确定单元802，包括：

在一种可能的实现方式中，所述相似程度判断单元803，包括：

或者，所述第一文本相似度算法为基于语义的文本相似度算法，所述第二文本相似度算法为基于非语义的文本相似度算法。

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述惩罚值计算单元，包括：

在一种可能的实现方式中，所述装置还包括：

第一相似确定单元，用于如果所述第一文本与所述第二文本的相似度大于或等于第三阈值，确定所述第一文本与所述第二文本相似；

第二相似确定单元，用于如果所述第一文本与所述第二文本的相似度小于第三阈值，确定所述第一文本与所述第二文本不相似。

图9示出了一种输入装置1200的框图。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理部件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：

可选的，所述将所述第一句子集合与所述第二句子集合中的一个确定为待比较句子集合，将所述第一句子集合与所述第二句子集合中的另一个确定为基准句子集合，包括：

可选的，所述利用至少一种文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度满足预设条件，包括：

可选的，所述第一文本相似度算法为基于非语义的文本相似度算法，所述第二文本相似度算法为基于语义的文本相似度算法；

或者，

可选的，还包括：

可选的，所述根据所述第一句子集合与所述第二句子集合中的句子数量计算惩罚值，包括：

将自然常数作为底数，所述目标数值作为指数计算惩罚值。

可选的，还包括：

如果所述第一文本与所述第二文本的相似度大于或等于第三阈值，确定所述第一文本与所述第二文本相似；

如果所述第一文本与所述第二文本的相似度小于第三阈值，确定所述第一文本与所述第二文本不相似。

图10是本发明实施例中服务器的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列用于执行上述文本相似度确定方法的指令操作。

终端1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1356，一个或一个以上键盘1356，和/或，一个或一个以上操作系统1341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本相似度确定方法，其特征在于，所述方法包括：

如果所述第一句子集合与所述第二句子集合中的句子数量相等，将所述第一句子集合与所述第二句子集合中的任意一个确定为待比较句子集合，另一个确定为基准句子集合；

利用第一文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度大于或等于第一阈值；所述目标句分别为所述待比较句子集合中的每一句；

如果利用第二文本相似度算法判断所述待比较句子集合中的目标句与所述基准句子集合中的全部句子的相似度小于第二阈值，确定所述目标句与所述基准句子集合中的任一句子的相似度不满足预设条件；

2.根据权利要求1所述的方法，其特征在于，所述第一文本相似度算法为基于非语义的文本相似度算法，所述第二文本相似度算法为基于语义的文本相似度算法；

或者，

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一句子集合与所述第二句子集合中的句子数量计算惩罚值，包括：

将自然常数作为底数，所述目标数值作为指数计算惩罚值。

5.一种文本相似度确定装置，其特征在于，所述装置包括：

相似度计算单元，用于依据所述待比较句子集合中相似句的数量与所述待比较句子集合中的句子总数，计算所述第一文本与所述第二文本的相似度；

所述目标集合确定单元，包括：

第二集合确定子单元，用于如果所述第一句子集合与所述第二句子集合中的句子数量相等，将所述第一句子集合与所述第二句子集合中的任意一个确定为待比较句子集合，另一个确定为基准句子集合；

所述相似程度判断单元，包括：

6.根据权利要求5所述的装置，其特征在于，所述第一文本相似度算法为基于非语义的文本相似度算法，所述第二文本相似度算法为基于语义的文本相似度算法；

或者，

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述惩罚值计算单元，包括：

9.一种用于确定文本相似度的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

利用第一文本相似度算法判断所述待比较句子集合中的目标句是否与所述基准句子集合中的任一句子的相似度大于或等于第一阈值；所述目标句分别为所述待比较句子集合中的每一句；所述目标句分别为所述待比较句子集合中的每一句；

10.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行权利要求1至4中一个或多个所述的文本相似度确定方法。