CN111737988B

CN111737988B - 一种复述句识别的方法及装置

Info

Publication number: CN111737988B
Application number: CN202010591978.5A
Authority: CN
Inventors: 周楠楠; 汤耀华; 杨海军; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-06-06
Anticipated expiration: 2040-06-24
Also published as: CN111737988A

Abstract

本发明提供了一种复述句识别的方法及装置，该方法包括通过获取待识别的两个句子，在确定两个句子的编辑距离不为0时，提取两个句子的多个特征，得到两个句子的多个特征组成的特征向量，将两个句子的特征向量输入到复述句识别模型中，确定两个句子是否为复述句，复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。通过提取两个句子的多个特征来得到两个句子的特征向量，然后输入到复述句识别模型中，来确定这两个句子是否为复述句。由于使用两个句子的多个特征作为复述句识别模型的输入，相比现有技术中的仅仅是通过两个句子的向量相似度来确定是否为复述句的方式，大大提高了复述句识别模型的精度，提高了识别准确率。

Description

一种复述句识别的方法及装置

技术领域

本发明涉及金融科技(Fintech)领域，尤其涉及一种复述句识别的方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，但由于金融行业的安全性、实时性要求，也对技术提出的更高的要求。在金融领域的客服服务中，复述句识别是智能语音客服系统中一个重要的问题，正确的识别并理解复述句能够很好的提升用户体验。

在智能语音客服系统中，复述句一般定义为用户的当前输入是否是对智能客服上一句在语义上的正确重复。现有的技术方案一般是通过两个句子的向量相似度来确定是否为复述句。但是，由于识别精度仅依赖于向量相似度，而向量相似度的技术方案简单、单一，因此，这种方法识别结果精度不高，影响用户体验。

综上，目前亟需一种复述句识别的方法，用以解决现有技术中存在复述句识别精度不高的问题。

发明内容

本发明提供了一种复述句识别的方法及装置，可以解决现有技术中存在复述句识别精度不高的问题。

第一方面，本发明提供了一种复述句识别的方法，包括：

获取待识别的两个句子；

在确定所述两个句子的编辑距离不为0时，提取所述两个句子的多个特征，得到所述两个句子的多个特征组成的特征向量；

将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。

上述技术方案中，通过提取两个句子的多个特征来得到两个句子的特征向量，然后输入到复述句识别模型中，来确定这两个句子是否为复述句。由于使用两个句子的多个特征组成的特征向量作为复述句识别模型的输入，可以使得复述句识别模型能够学习的特征更多，从而保证复述句识别模型输出的结果更加精细。而且现有技术中的仅仅是通过两个句子的向量相似度来确定是否为复述句，使用的向量相比本发明中的特征向量中的多个特征，特征简单、单一，进而由向量相似度确定是否为复述句的方式的准确率不高，本发明实施例大大提高了复述句识别模型的精度，提高了识别准确率。

可选的，所述多个特征至少包括以下特征：

两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征。

上述技术方案中，通过设置两个句子的多个特征，可以增加模型识别的精度。

可选的，所述提取所述两个句子的多个特征，包括：

确定所述两个句子的长度，得到所述两个句子的长度差的绝对值；

将所述两个句子分别向量化后，确定所述两个句子向量化后的相似度；

将所述两个句子通过词向量模型得到所述两个句子中每个名词的向量，根据所述两个句子中每个名词的向量，确定所述两个句子中名词的相似度；

将所述两个句子通过词向量模型得到所述两个句子中每个动词的向量，根据所述两个句子中每个动词的向量，确定所述两个句子中动词的相似度；

确定所述两个句子中每个词的依存关系，得到每个句子对应的依存关系集合和所述两个句子相同的依存关系集合；根据每个句子对应的依存关系集合中元素的数量和所述两个句子相同的依存关系集合中元素的数量，确定所述两个句子依存关系的依存值；

确定所述两个句子中用户表达的句子的语气，将所述语气向量化处理后得到所述用户表达的句子的语气特征。

上述技术方案中，通过不同的技术手段确定两个句子的每个特征，这些特征都是两个句子的共同特征，相比于现有技术中的两个句子的向量是每个句子的各自的向量，能够提供更多可以供复述句识别模型进行识别的特征，进而可以提高复述句识别模型的精度。

可选的，所述将所述两个句子分别向量化，包括：

将所述两个句子输入到词向量模型，得到所述两个句子中每个词的向量，根据所述两个句子中每个词的向量确定所述两个句子的句向量；或

将所述两个句子输入到预训练模型中，得到所述两个句子的句向量。

可选的，所述将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句，包括：

将所述两个句子的特征向量输入到所述复述句识别模型中，得到所述两个句子是否为复述句的预测概率；

确定所述两个句子是否为复述句的预测概率是否大于概率阈值，若是，则确定所述两个句子为复述句，否则确定所述两个句子不是复述句。

上述技术方案中，由于将多个特征组成的特征向量输入到复述句识别模型中，能够为复述句识别模型提供更多可以识别的特征，从而可以提高复述句识别模型的识别准确率。

可选的，所述使用标注好的复述句训练样本对预设的识别模型进行训练得到所述复述句识别模型，包括：

获取标注好的复述句训练样本；

对所述标注好的复述句训练样本中每对句子提取特征，得到所述每对句子的特征向量；

将所述特征向量输入到预设的识别模型中进行训练，得到所述复述句识别模型。

可选的，所述方法还包括：

若确定所述两个句子的编辑距离为0，则确定所述两个句子为复述句。

第二方面，本发明实施例提供一种复述句识别的装置，包括：

获取单元，用于获取待识别的两个句子；

处理单元，用于在确定所述两个句子的编辑距离不为0时，提取所述两个句子的多个特征，得到所述两个句子的多个特征组成的特征向量；将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。

可选的，所述多个特征至少包括以下特征：

可选的，所述处理单元具体用于：

获取标注好的复述句训练样本；

可选的，所述处理单元还用于：

第三方面，本发明提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述第一方面所述的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种复述句识别的方法的流程示意图；

图3为本发明实施例提供的一种复述句识别的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种系统架构。如图1所示，该系统架构可以为服务器100，包括处理器110、通信接口120和存储器130。

其中，通信接口120用于与客服终端设备进行通信，收发该客服终端设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种复述句识别的方法的流程，该流程可以由一种复述句识别的装置执行。

如图2所示，该流程具体步骤包括：

步骤201，获取待识别的两个句子。

在本发明实施例中，该待识别的两个句子可以是客服与用户对话的对话数据中的两个句子，比如一句为客服输入的，一句是用户输入的，一般是客服重复用户的句子，或用户重复客服的句子。如句子A＝“手动操作还款就行”和句子B＝“手动操作还款就行是吧”。

在获取该待识别的两个句子之前，需要先训练复述句识别模型，具体的可以为：首先获取标注好的复述句训练样本，该复述句训练样本中设有正例样本和负例样本。例如A和B两个句子，正例样本的标注是句子B是句子A的复述句，负例样本的标注是句子B不是句子A的复述句。然后根据标注好的复述句训练样本中每对句子提取多个特征，得到每对句子的多个特征组成的特征向量，最后将特征向量输入到预设的识别模型中进行训练，直到模型收敛后，得到复述句识别模型。其中，多个特征至少包括以下特征：两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征。需要说明的是，上述特征尽是示例作用，在实际应用过程中不限于上述特征。

举例来说，可以根据下述方式来提取标注好的复述句训练样本中每对句子的多个特征：

1)两个句子的长度差的绝对值S₁：

首先分别计算两个句子的长度，然后将两个句子的长度相减，得到两个句子的长度差之后取绝对值。即S₁＝|L₁-L₂|，其中L₁和L₂分别为两个句子的长度。

2)两个句子向量化后的相似度S₂：

可以先通过下面两种方式来确定两个句子的各自的句向量：

第一种，首先通过词向量模型Glove等得到句子中每个词的向量，然后通过词向量求平均的方式分别得到两个句子的句向量。

第二种，可以通过Bert等预训练模型分别得到两个句子的句向量，即将两个句子分别输入到Bert等预训练模型中，即可得到两个句子各自的句向量。

然后通过余弦相似度得到两个句子的句向量的相似度，即：

其中e₁为句子A的向量，e₂为句子B的向量。

3)两个句子中名词的相似度S₃：

首先通过词向量模型Glove等得到两个句子中每个名词的向量。然后分别对两个句子中的所有名词的向量求平均，分别得到两个句子中的所有名词的向量，e_n1为句子A中的所有名词的向量和e_n2为句子B中的所有名词的向量。最后可以通过余弦相似度得到两个句子中所有名词的相似度。即

4)两个句子中动词的相似度S₄：

首先通过词向量模型Glove等得到两个句子中每个动词的向量。然后分别对两个句子中的所有动词的向量求平均，分别得到两个句子中的所有动词的向量，e_v1为句子A中的所有动词的向量和e_v2为句子B中的所有动词的向量。最后可以通过余弦相似度得到两个句子中所有动词的相似度。即

5)两个句子中依存关系的依存值S₅：

首先确定两个句子中每个词的依存关系，得到每个句子对应的依存关系集合。通过对句子进行语义依存关系分析，可以得到句子中各个成分之间的依存关系，该依存关系可以有多种，例如主谓关系、动宾关系、介宾关系、动补关系、并列关系、定中关系、同位关系等多种关系。得到每个句子对应的依存关系集合后，可以将两个集合中相交的部分作为两个句子相同的依存关系集合。然后统计每个依存关系集合中元素的数量，依据每个依存关系集合中元素的数量确定两个句子依存关系的依存值。

假设句子A的依存关系集合为U_A，集合中元素个数(依存关系的数量)为n_A，句子B的依存关系集合为U_B，集合中元素个数为n_B，两者相同的依存关系集合为U_C，集合中元素个数为n_C，先将两者相同的依存关系集合中元素个数与句子A的依存关系集合中的元素个数的比值确定为第一比值R₁，将两者相同的依存关系集合中元素个数与句子B的依存关系集合中元素个数的比值确定为第二比值R₂。然后将第一比值与第二比值的乘积的两倍除以该第一比值与第二比值的和，得到该两个句子中依存关系的依存值。即

其中

6)用户表达句子B时的语气特征S₆：

可以对用户表达的句子B中的语气词进行分析，得到用户表达句子B时的语气，该语气可以分为祈使语气、疑问语气、表态语气、确定语气、缓和语气等多种语气，得到这些语气后可以用one-hot向量表示使用了那种语气，假设定义用户表达时有三种语气，如果用户的语气是第一种，则此时语气特征S₆＝[1,0,0]，如果是第二种，则语气特征S₆＝[0,1,0]，依此类推。

通过上述方式提取的每对句子的多个特征之后，就可以将上述多个特征进行组合，得到每对句子多个特征组成的特征向量，即特征向量w＝[S₁,S₂,S₃,S₄,S₅,S₆]，将特征向量输入到模型中进行训练，直至模型收敛，从而得到复述句识别模型，其中模型根据问题的复杂性可以选择传统机器学习模型，如逻辑斯蒂回归、支持向量机等，或者深度学习模型，如卷积神经网络等。

步骤202，在确定所述两个句子的编辑距离不为0时，提取所述两个句子的多个特征，得到所述两个句子的多个特征组成的特征向量。

当在步骤201中得到两个句子后，可以需要先去掉两个句子中的无意义词，这里可以按照预设规则进行去除，比如去除语气词：“你是说”、“你的意思是”、“对吧”等。然后确定这两个句子的编辑距离，该编辑距离一般可以是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。其中编辑操作的次数越少，两者越接近。

需要说明的是，当两个句子的编辑距离为0时，表明两个句子是相同的句子，直接可以确定这两个句子为复述句。如果两个句子的编辑距离不为0，就需要通过复述句识别模型进行判别，此时，需要先提取该两个句子的特征，得到两个句子的特征向量。

其中，在提取特征时，具体可以为：

通过确定两个句子的长度，得到两个句子的长度差的绝对值。

通过将两个句子分别向量化后，确定两个句子向量化后的相似度。

通过将两个句子通过词向量模型得到两个句子中每个名词的向量，根据两个句子中每个名词的向量，确定两个句子中名词的相似度。

通过将两个句子通过词向量模型得到两个句子中每个动词的向量，根据两个句子中每个动词的向量，确定两个句子中动词的相似度。

通过先确定两个句子中每个词的依存关系，得到每个句子对应的依存关系集合和两个句子相同的依存关系集合。然后在根据每个句子对应的依存关系集合中元素的数量和两个句子相同的依存关系集合中元素的数量，确定两个句子依存关系的依存值。

通过确定两个句子中用户表达的句子的语气，将语气向量化处理后得到用户表达的句子的语气特征。

需要说明的是，上述特征提取的过程已在上述复述句识别模型训练的过程中详细描述，此处不再赘述。

由于将依存句法应用到智能语音客服领域的复述句识别问题中，提高了复述句识别模型的准确率。同时由于用户在用不同的语气表达同样的话术时有可能表达的是截然不同的意思，因此语气也是一个判断是否是复述句的一个重要特征，本发明实施例将语气特征考虑在内，可以进一步提高复述句识别模型的准确率。

当得到两个句子的上述多个特征之后，就可以合并在一起，作为该两个句子的特征向量。

步骤203，将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句。

将两个句子的特征向量输入到复述句识别模型中，即可以得到该两个句子是否为复述句。具体的，可以将两个句子的特征向量输入到复述句识别模型中，得到所两个句子是否为复述句的预测概率，然后确定两个句子为复述句的预测概率是否大于概率阈值，若是，则确定两个句子为复述句，否则确定两个句子不是复述句。也就是说，将特征向量输入到复述句识别模型中进行预测，得到预测概率，只有预测概率大于概率阈值时才能确定两个句子是复述句。其中，概率阈值可以依据经验设置。

本发明实施例表明，通过获取待识别的两个句子，在确定两个句子的编辑距离不为0时，提取两个句子的多个特征，得到两个句子的多个特征组成的特征向量，将两个句子的特征向量输入到复述句识别模型中，确定两个句子是否为复述句，复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。通过提取两个句子的多个特征来得到两个句子的特征向量，然后输入到复述句识别模型中，来确定这两个句子是否为复述句。由于使用两个句子的多个特征作为复述句识别模型的输入，相比现有技术中的仅仅是通过两个句子的向量相似度来确定是否为复述句的方式，大大提高了复述句识别模型的精度，提高了识别准确率。

基于相同的技术构思，图3示例性的示出了本发明实施例提供的一种复述句识别的装置的结构示意图，该装置可以执行复述句识别的流程。

如图3所示，该装置具体包括：

获取单元301，用于获取待识别的两个句子；

处理单元302，用于在确定所述两个句子的编辑距离不为0时，提取所述两个句子的多个特征，得到所述两个句子的多个特征组成的特征向量；将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的。

可选的，所述多个特征至少包括以下特征：

可选的，所述处理单元302具体用于：

获取标注好的复述句训练样本；

可选的，所述处理单元302还用于：

基于相同的技术构思，本发明提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述复述句识别的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述复述句识别的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种复述句识别的方法，其特征在于，包括：

获取待识别的两个句子；

在确定所述两个句子的编辑距离不为0时，提取所述两个句子的多个特征，得到所述两个句子的多个特征组成的特征向量，所述多个特征至少包括以下特征：两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征，所述多个特征是所述两个句子的共同特征，所述特征向量并非是每个句子的各自的向量；

将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的；

其中，所述提取所述两个句子的多个特征，包括：

2.如权利要求1所述的方法，其特征在于，所述提取所述两个句子的多个特征，还包括：

将所述两个句子通过词向量模型得到所述两个句子中每个动词的向量，根据所述两个句子中每个动词的向量，确定所述两个句子中动词的相似度。

3.如权利要求2所述的方法，其特征在于，所述将所述两个句子分别向量化，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句，包括：

5.如权利要求1至4任一项所述的方法，其特征在于，所述使用标注好的复述句训练样本对预设的识别模型进行训练得到所述复述句识别模型，包括：

获取标注好的复述句训练样本；

将所述每对句子的特征向量输入到预设的识别模型中进行训练，得到所述复述句识别模型。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种复述句识别的装置，其特征在于，包括：

获取单元，用于获取待识别的两个句子；

处理单元，用于在确定所述两个句子的编辑距离不为0时，提取所述两个句子的多个特征，得到所述两个句子的多个特征组成的特征向量，所述多个特征至少包括以下特征：两个句子的长度差的绝对值、两个句子向量化后的相似度、两个句子中名词的相似度、两个句子中动词的相似度、两个句子中依存关系的依存值、用户表达的句子的语气特征，所述多个特征是所述两个句子的共同特征，所述特征向量并非是每个句子的各自的向量；将所述两个句子的特征向量输入到复述句识别模型中，确定所述两个句子是否为复述句，所述复述句识别模型是使用标注好的复述句训练样本对预设的识别模型进行训练得到的；其中，所述提取所述两个句子的多个特征，包括：确定所述两个句子中每个词的依存关系，得到每个句子对应的依存关系集合和所述两个句子相同的依存关系集合；根据每个句子对应的依存关系集合中元素的数量和所述两个句子相同的依存关系集合中元素的数量，确定所述两个句子依存关系的依存值；确定所述两个句子中用户表达的句子的语气，将所述语气向量化处理后得到所述用户表达的句子的语气特征。

8.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行权利要求1至6任一项所述的方法。