CN111666755A

CN111666755A - 一种复述句识别的方法及装置

Info

Publication number: CN111666755A
Application number: CN202010591942.7A
Authority: CN
Inventors: 周楠楠; 汤耀华; 杨海军; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-09-15

Abstract

本发明提供了一种复述句识别的方法及装置，该方法包括：通过获取待识别的两个句子，在确定两个句子的编辑距离不为0时，将两个句子预处理后，确定出两个句子各自的句向量以及两个句子的差向量，根据句向量和差向量确定出待识别的向量，将待识别的向量输入到复述句识别模型中，确定两个句子是否为复述句。通过对两个句子分别进行预处理后，得到两个句子各自的句向量，以及这个两个句子的差向量，最后再由两个句子各自的句向量和差向量得到作为复述句识别模型输入的待识别向量。通过将识别两个句子是否为复述句的问题作为分类预测进行处理，得到的识别结果相比仅仅是计算两个句子的向量相似度的方式，本申请的识别精度高，提高了识别准确率。

Description

一种复述句识别的方法及装置

技术领域

本发明涉及金融科技(Fintech)领域，尤其涉及一种复述句识别的方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，但由于金融行业的安全性、实时性要求，也对技术提出的更高的要求。在金融领域的客服服务中，复述句识别是智能语音客服系统中一个重要的问题，正确的识别并理解复述句能够很好的提升用户体验。

在智能语音客服系统中，复述句一般定义为用户的当前输入是否是对智能客服上一句在语义上的正确重复。现有的技术方案一般是通过两个句子的向量相似度来确定是否为复述句。但是，由于识别精度仅依赖于向量相似度，而向量相似度的技术方案简单、单一，因此，这种方法识别结果精度不高，影响用户体验。

综上，目前亟需一种复述句识别的方法，用以解决现有技术中存在复述句识别精度不高的问题。

发明内容

本发明提供了一种复述句识别的方法及装置，可以解决现有技术中存在复述句识别精度不高的问题。

第一方面，本发明提供了一种复述句识别的方法，包括：

获取待识别的两个句子；

在确定所述两个句子的编辑距离不为0时，将所述两个句子预处理后，确定出所述两个句子各自的句向量以及所述两个句子的差向量；

根据所述两个句子各自的句向量和所述两个句子的差向量确定出待识别的向量；

将所述待识别的向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。

上述技术方案中，通过对两个句子分别进行预处理后，得到两个句子各自的句向量，以及这个两个句子的差向量，最后再由两个句子各自的句向量和差向量得到作为复述句识别模型输入的待识别向量。通过将识别两个句子是否为复述句的问题作为分类预测进行处理，得到的识别结果相比仅仅是计算两个句子的向量相似度的方式，识别精度高，可以提高复述句识别的准确率。

可选的，所述将所述两个句子预处理，包括：

将所述两个句子分别进行字符级切分，得到所述两个句子各自对应的字符；

将所述两个句子各自对应的字符按照预设格式放置后转换为预设长度的数字形式。

可选的，所述确定所述两个句子各自的句向量以及所述两个句子的差向量，包括：

将预处理后的所述两个句子分别输入不同的预训练模型中，得到所述两个句子各自的句向量；

取所述两个句子的各自的句向量的差值的绝对值作为所述两个句子的差向量。

可选的，所述根据所述两个句子各自的句向量和所述两个句子的差向量确定出待识别的向量，包括：

将所述两个句子各自的句向量、所述两个句子的差向量进行加权求和得到所述待识别的向量；其中，各向量对应的权重在所述复述句识别模型训练过程中对各向量的初始权重进行训练得到的。

可选的，所述使用标注好的复述句训练样本对预设的识别模型进行训练得到所述复述句识别模型，包括：

获取标注好的复述句训练样本；

对所述标注好的复述句训练样本中每对句子进行预处理后，确定出所述每对句子中每个句子的句向量以及所述每对句子的差向量；

将所述每对句子中每个句子的句向量以及所述每对句子的差向量与各向量对应的初始权重进行加权求和，得到所述每对句子的输入向量；

将所述输入向量输入到预设的识别模型中进行训练，直至所述预设的识别模型收敛，得到所述复述句识别模型。

可选的，所述方法还包括：

若确定所述两个句子的编辑距离为0，则确定所述两个句子为复述句。

可选的，所述确定两个句子的编辑距离，包括：

根据预设规则去除所述两个句子中无意义词；

确定去除无意义词的两个句子的编辑距离。

第二方面，本发明实施例提供一种复述句识别的装置，包括：

获取单元，用于获取待识别的两个句子；

处理单元，用于在确定所述两个句子的编辑距离不为0时，将所述两个句子预处理后，确定出所述两个句子各自的句向量以及所述两个句子的差向量；根据所述两个句子各自的句向量和所述两个句子的差向量确定出待识别的向量；将所述待识别的向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。

可选的，所述处理单元具体用于：

获取标注好的复述句训练样本；

可选的，所述处理单元还用于：

可选的，所述处理单元具体用于：

根据预设规则去除所述两个句子中无意义词；

确定去除无意义词的两个句子的编辑距离。

第三方面，本发明提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述第一方面所述的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种复述句识别的方法的流程示意图；

图3为本发明实施例提供的一种复述句识别的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种系统架构。如图1所示，该系统架构可以为服务器100，包括处理器110、通信接口120和存储器130。

其中，通信接口120用于与客服终端设备进行通信，收发该客服终端设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种复述句识别的方法的流程，该流程可以由一种复述句识别的装置执行。

如图2所示，该流程具体步骤包括：

步骤201，获取待识别的两个句子。

在本发明实施例中，该待识别的两个句子可以是客服与用户对话的对话数据中的两个句子，比如一句为客服输入的，一句是用户输入的，一般是客服重复用户的句子，或用户重复客服的句子。如句子A＝“手动操作还款就行”和句子B＝“手动操作还款就行是吧”。

在获取该待识别的两个句子之前，需要先训练复述句识别模型，具体的可以为：首先获取标注好的复述句训练样本，该复述句训练样本中设有正例样本和负例样本。例如A和B两个句子，正例样本的标注是句子B是句子A的复述句，负例样本的标注是句子B不是句子A的复述句。然后对标注好的复述句训练样本中每对句子进行预处理后，确定出每对句子中每个句子的句向量以及每对句子的差向量，将每对句子中每个句子的句向量以及每对句子的差向量与各向量对应的初始权重进行加权求和，得到每对句子的输入向量，最后将该输入向量输入到预设的识别模型中进行训练，直至预设的识别模型收敛，得到该复述句识别模型。其中，在复述句识别模型训练的过程中，同样训练了个向量对应的权重。

具体的，在得到标注好的复述句训练样本之后，对该复述句训练样本中的每对句子进行预处理，即将每对句子中的句子A和句子B分别进行字符级切分，然后在首置[CLS]标签，句末置[SEP]标签。例如，“[CLS]A[SEP]”和“[CLS]B[SEP]”的形式。并转化为预设长度的数字形式，即转换为ID形式，处理后句子A和句子B都变为定长，对长度不够的句子用‘0’进行补齐，超过定长的进行截断。预设长度可以依据经验设置。

得到预处理后的两个句子之后，就分别将句子A和句子B输入到两个预训练模型Bert1和Bert2中，得到句子A和句子B的向量表示e_A和e_B，进而得到两个句子向量的差向量u＝|e_A-e_B|。

将e_A、e_B和u进行加权求和得到最终的输入向量l＝∑W(e_A,e_B,u)，其中W为三个向量的权重，由训练得到。将输入向量l表示输入到预设的识别模型中进行训练，训练过程中不断更新上层模型的参数、W以及Bert1和Bert2的参数，直至预设的识别收敛，进而得到复述句识别模型，即为分类模型，其中预设的识别模型根据问题的复杂性可以采用DNN、LR、SVM等。

步骤202，在确定所述两个句子的编辑距离不为0时，将所述两个句子预处理后，确定出所述两个句子各自的句向量以及所述两个句子的差向量。

当在步骤201中得到两个句子后，可以需要先去掉两个句子中的无意义词，这里可以按照预设规则进行去除，该预设规则可以依据经验设置的，比如预设规则为去除语气词，即去除“你是说”、“你的意思是”、“对吧”等。例如，将句子A＝“手动操作还款就行”和句子B＝“手动操作还款就行是吧”，可以得到句子A＝“手动操作还款就行”和句子B＝“手动操作还款就行”。然后确定去除无意义词的两个句子的编辑距离，该编辑距离一般可以是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。其中编辑操作的次数越少，两者越接近。

需要说明的是，当两个句子的编辑距离为0时，表明两个句子是相同的句子，直接可以确定这两个句子为复述句。很显然，上述句子A和句子B的编辑距离为0，这两个句子是复述句。

如果两个句子的编辑距离不为0，就需要通过复述句识别模型进行判别，此时，需要先将两个句子预处理，确定出所述两个句子各自的句向量以及所述两个句子的差向量。

其中预处理的过程可以是：首先将两个句子分别进行字符级切分，得到两个句子各自对应的字符。然后将两个句子各自对应的字符按照预设格式放置后转换为预设长度的数字形式，从而得到预处理后的两个句子。

将预处理后的两个句子分别输入不同的预训练模型中，即可以得到两个句子各自的句向量。最后取两个句子的各自的句向量的差值的绝对值作为两个句子的差向量。

例如，将如句子A＝“您解绑银行卡就行”和句子B＝“我解绑就行”分别进行字符级切分，可以得到，句子A＝“您|解|绑|银|行|卡|就|行”，句子B＝“我|解|绑|就|行”。然后在首置[CLS]标签，句末置[SEP]标签，即“[CLS]您|解|绑|银|行|卡|就|行[SEP]”和“[CLS]我|解|绑|就|行[SEP]”的形式。在将这两个句子转换预设长度的ID形式，其中，对于长度不够的句子用‘0’进行补齐，超过定长的进行截断。

将预处理后的句子A输入到预训练模型Bert1，将句子B输入到预训练模型Bert2中，分别得到句子A和句子B的句向量e_A和e_B，进而得到两个句子的句向量的差向量u＝|e_A-e_B|。

步骤203，根据所述两个句子各自的句向量和所述两个句子的差向量确定出待识别的向量。

具体的，将该两个句子各自的句向量、两个句子的差向量进行加权求和得到待识别的向量。其中，各向量对应的权重是在复述句识别模型训练过程中对各向量的初始权重进行训练得到的。

例如，将e_A、e_B和u进行加权求和得到待识别的向量M＝∑W(e_A,e_B,u)，其中W为三个向量的权重。

步骤204，将所述待识别的向量输入到复述句识别模型中，确定所述两个句子是否为复述句。

将该待识别的向量输入到复述句识别模型中，即可以得到该两个句子是否为复述句。具体的，将该待识别的向量输入到复述句识别模型中，得到两个句子是否为复述句的预测概率，然后确定两个句子为复述句的预测概率是否大于概率阈值，若是，则确定两个句子为复述句，否则确定两个句子不是复述句。也就是说，将特征向量输入到复述句识别模型中进行预测，得到预测概率，只有预测概率大于概率阈值时才能确定两个句子是复述句。其中，概率阈值可以依据经验设置。

本发明实施例表明，通过获取待识别的两个句子，在确定两个句子的编辑距离不为0时，将两个句子预处理后，确定出两个句子各自的句向量以及两个句子的差向量，根据两个句子各自的句向量和两个句子的差向量确定出待识别的向量，将待识别的向量输入到复述句识别模型中，确定两个句子是否为复述句，复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。通过对两个句子分别进行预处理后，得到两个句子各自的句向量，以及这个两个句子的差向量，最后再由两个句子各自的句向量和差向量得到作为复述句识别模型输入的待识别向量。通过将识别两个句子是否为复述句的问题作为分类预测进行处理，得到的识别结果相比仅仅是计算两个句子的向量相似度的方式，本申请的识别精度高，提高了识别准确率。

基于相同的技术构思，图3示例性的示出了本发明实施例提供的一种复述句识别的装置的结构示意图，该装置可以执行复述句识别的流程。

如图3所示，该装置具体包括：

获取单元301，用于获取待识别的两个句子；

处理单元302，用于在确定所述两个句子的编辑距离不为0时，将所述两个句子预处理后，确定出所述两个句子各自的句向量以及所述两个句子的差向量；根据所述两个句子各自的句向量和所述两个句子的差向量确定出待识别的向量；将所述待识别的向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。

可选的，所述处理单元302具体用于：

获取标注好的复述句训练样本；

可选的，所述处理单元302还用于：

可选的，所述处理单元302具体用于：

根据预设规则去除所述两个句子中无意义词；

确定去除无意义词的两个句子的编辑距离。

基于相同的技术构思，本发明实施例提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述复述句识别的方法。

基于相同的技术构思，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述复述句识别的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种复述句识别的方法，其特征在于，包括：

获取待识别的两个句子；

2.如权利要求1所述的方法，其特征在于，所述将所述两个句子预处理，包括：

3.如权利要求1所述的方法，其特征在于，所述确定所述两个句子各自的句向量以及所述两个句子的差向量，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述两个句子各自的句向量和所述两个句子的差向量确定出待识别的向量，包括：

将所述两个句子各自的句向量、所述两个句子的差向量进行加权求和得到所述待识别的向量；其中，各向量对应的权重是在所述复述句识别模型训练过程中对各向量的初始权重进行训练得到的。

5.如权利要求1至4任一项所述的方法，其特征在于，所述使用标注好的复述句训练样本对预设的识别模型进行训练得到所述复述句识别模型，包括：

获取标注好的复述句训练样本；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述确定两个句子的编辑距离，包括：

根据预设规则去除所述两个句子中无意义词；

确定去除无意义词的两个句子的编辑距离。

8.一种复述句识别的装置，其特征在于，包括：

获取单元，用于获取待识别的两个句子；

9.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行权利要求1至7任一项所述的方法。