CN110543551B

CN110543551B - 一种问题语句处理方法和装置

Info

Publication number: CN110543551B
Application number: CN201910832864.2A
Authority: CN
Inventors: 吴玮
Original assignee: Beijing Xiangnong Huiyu Technology Co ltd
Current assignee: Beijing Xiangnong Huiyu Technology Co ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-11-08
Anticipated expiration: 2039-09-04
Also published as: CN110543551A

Abstract

本发明提供了一种问题语句处理方法和装置，其中，该方法包括：获取两个问题语句，对获取的两个问题语句进行拼接，并确定出拼接后的两个问题语句中的多个词语；通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；根据提取出的各个词语的语义特征，得到所述各个词语的语言表示；根据拼接后的两个问题语句中所述各个词语的语言表示，确定两个问题语句的相似性。通过本发明实施例提供的问题语句处理方法和装置，通过多头注意力来提取问题语句中语义特征最显着的词语来比较两个问题语句之间的相似性，可以根据需要保留两个问题语句中尽可能多的信息，从而能够更好的完成两个问题语句之间相似性的判断任务。

Description

一种问题语句处理方法和装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种问题语句处理方法和装置。

背景技术

目前，社区问答论坛正在被越来越多的用户所使用，用户可以在社区问答论坛中提问，并对自己能够解答的问题进行解答。由于每个用户都可以在社区问答论坛中进行提问，就会在社区问答论坛中提出很多相似的问题。为了方便用户查看问题答案，社区问答论坛需要将相似的至少两个问题关联起来。

为了确定社区问答论坛中的相似问题，需要确定出语义匹配的两个问题语句，然后确定语义匹配的两个问题语句之间的相似性。

用于进行语义匹配任务的方法太简单而不能完全完成语义匹配任务，导致社区问答论坛中的确定相似问题的效率低。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种问题语句处理方法和装置。

第一方面，本发明实施例提供了一种问题语句处理方法，包括：

获取两个问题语句，对获取的两个问题语句进行拼接，并确定出拼接后的两个问题语句中的多个词语；

通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；

根据提取出的各个词语的语义特征，得到所述各个词语的语言表示；

根据拼接后的两个问题语句中所述各个词语的语言表示，确定两个问题语句的相似性。

第二方面，本发明实施例还提供了一种问题语句处理装置，包括：

获取模块，用于获取两个问题语句，对获取的两个问题语句进行拼接，并确定出拼接后的两个问题语句中的多个词语；

提取模块，用于通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；

第一处理模块，用于根据提取出的各个词语的语义特征，得到所述各个词语的语言表示；

第二处理模块，用于根据拼接后的两个问题语句中所述各个词语的语言表示，确定两个问题语句的相似性。

本发明实施例上述第一方面至第二方面提供的方案中，通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；并根据提取出的各个词语的语义特征对应的语言表示，确定两个问题语句的相似性，与相关技术中由于进行语义匹配任务的方法太简单而不能完全完成语义匹配任务的方式相比，通过多头注意力来提取问题语句中语义特征最显着的词语来比较两个问题语句之间的相似性，可以根据需要保留两个问题语句中尽可能多的信息，从而能够更好的完成两个问题语句之间相似性的判断任务。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例1所提供的一种问题语句处理方法的流程图；

图2示出了本发明实施例2所提供的一种问题语句处理装置的结构示意图。

具体实施方式

目前，社区问答论坛正在被越来越多的用户所使用，用户可以在社区问答论坛中提出自己的问题，并对社区问答论坛中自己能够解答的问题进行解答。由于每个用户都可以在社区问答论坛中进行提问，不同用户就可能在社区问答论坛中提出很多相似的问题。为了方便用户查看问题答案，社区问答论坛需要将相似的至少两个问题关联起来。那么如何确定社区问答论坛中的相似问题成为社区问答论坛需要完成的一个任务。为了确定社区问答论坛中的相似问题，需要确定出语义匹配的两个问题语句，然后确定语义匹配的两个问题语句之间的相似性，最后根据两个问题语句之间的相似性确定两个问题语句之间是否为相似问题。而相关技术中用于进行语义匹配任务的方法太简单而不能完全完成语义匹配任务，导致社区问答论坛中确定相似问题语句的效率低，使得社区问答论坛中存在大量的重复问题无法被识别出来。

为了减轻社区问答论坛中存在的大规模重复问题语句的问题，需要一种自动检测两个问题语句之间对是否实际上在语义上是匹配的。这在自然语言处理和机器学习中是一个具有挑战性的课题。

语义匹配是一项长期任务，需要弥合问题语句中不同的两个词汇之间的语义鸿沟。预先训练的语言表示已经在包括语义匹配在内的广泛任务中取得了很好的结果。然而，用于语义匹配任务的现有方法太简单而不能完全进行问题语句的语义匹配任务。另一方面，孪生胶囊网络已经证明能够在物体识别任务上能成功泛化到新的视角。受孪生胶囊网络的启发，本申请提出一种问题语句处理方法和装置，能够胜任语义匹配任务，更好的完成两个问题语句之间相似性的判断任务。

本方案通过预训练语言模型的表示能力和胶囊网络处理视角不变性的泛化能力来实现重复问题语句的检测。首先使用预训练语言模型得到两个问题的语义表示，然后使用孪生胶囊网络的动态路由机制将两个问题表示为两个胶囊的实例化向量，将这两个向量L2范数的差作为相似度评价的标准，从而可以有效地实现重复问题检测。

基于此，本申请提出一种问题语句处理方法和装置，通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；并根据提取出的各个词语的语义特征对应的语言表示，确定两个问题语句的相似性，通过多头注意力来提取问题语句中语义特征最显着的词语来比较两个问题语句之间的相似性，可以根据需要保留两个问题语句中尽可能多的信息，从而能够更好的完成两个问题语句之间相似性的判断任务。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请做进一步详细的说明。

实施例1

本实施例提出的一种问题语句处理方法，执行主体是服务器。

所述服务器，可以采用现有技术中任何可以对问题语句的相似度进行判断的计算设备，这里不再一一赘述。

参见图1所示的一种问题语句处理方法的流程图，本实施例提出一种问题语句处理方法，包括以下具体步骤：

步骤100、获取两个问题语句，对获取的两个问题语句进行拼接，并确定出拼接后的两个问题语句中的多个词语。

在上述步骤100中，通过服务器中设置的深度双向Transformer语言模型(BERT)来对两个问题语句进行拼接，并确定出拼接后的两个问题语句中的多个词语。上述步骤100的具体实现过程为现有技术，这里不再赘述。

步骤102、通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取。

在上述步骤102中，通过多头注意力中的每个自我注意头集中于问题语句的不同词语并提取出该词语可能不被邻近词语表达的语义特征。

比如通过多头注意力处理“我爱中国”这句话时，多头注意力中的每个自我注意头就会分别关注“我”、“爱”和“中国”三个不同的词语，并分别提取出“我”、“爱”和“中国”的语义特征。

通过现有的任何多头注意力，都可对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取，具体的提取过程这里不再赘述。

步骤104、根据提取出的各个词语的语义特征，得到所述各个词语的语言表示。

在上述步骤104中，服务器，可以根据提取出的各个词语的语义特征，从词语的语义特征与语言表示的对应关系中查询得到各个词语的语义特征对应的语言表示。

所述词语的语言表示，就是用于表示词语不同维度的向量。

所述词语的语义特征与语言表示的对应关系，预先存储在服务器中。

步骤106、根据拼接后的两个问题语句中所述各个词语的语言表示，确定两个问题语句的相似性。

为了确定出两个问题语句的相似性，上述步骤106中，可以执行以下步骤(1)至步骤(4)：

(1)根据拼接后的两个问题语句中各个词语的语言表示，得到拼接后的两个问题语句的语言表示矩阵；

(2)根据拼接后的两个问题语句的语言表示矩阵，计算多个多头注意力的权重矩阵；

(3)将计算得到的多个多头注意力的权重矩阵输入孪生胶囊网络，计算得到两个问题语句的相似度；

(4)当计算得到的两个问题语句的相似度大于等于相似度阈值时，确定两个问题语句是相似问题。

在上述步骤(1)中，拼接后的两个问题语句的语言表示矩阵可以通过以下公式1表示：

其中，H表示拼接后的两个问题语句的语言表示矩阵；h₁，h₂，...，h_T分别表示拼接后的两个问题语句中各个词语的语言表示；T表示拼接后的两个问题语句中的词语数量；D_H表示语言表示的维度。

在上述步骤(2)中，通过以下公式2计算多个多头注意力的权重矩阵：

A＝softmax(W_s2tanh(W_s1H^T)) (2)

其中，A表示多头注意力的权重矩阵；W_s1和W_s2可供学习的参数；H^T表示拼接后的两个问题语句的语言表示矩阵的转置矩阵。

具体地，W_s1和W_s2在计算多个多头注意力的权重矩阵中的每个多头注意力的权重矩阵的过程中都是不同的。所以，将拼接后的两个问题语句的语言表示矩阵多次带入上述公式2，并在计算每个多头注意力的权重矩阵时使用不同的W_s1和W_s2，就可以计算得到多个不同的多头注意力的权重矩阵。

在上述步骤(3)中，通过以下公式3计算两个问题语句的相似度：

其中，c_ij表示两个问题语句的相似度；b_ij表示多个多头注意力的权重矩阵中的第i个多头注意力的权重矩阵A；b_ik表示多个多头注意力的权重矩阵；k表示多个多头注意力的权重矩阵的数量。

其中，上述字符i是上胶囊的索引，上述字符j是下胶囊的索引。

这里，所述孪生胶囊网络，包括：上胶囊和下胶囊。

服务器将多个多头注意力的权重矩阵输入上胶囊中，进行两个问题语句的相似度计算，并通过下胶囊输出两个问题语句的相似度。

上述两个问题语句的相似度，就是两个向量L2范数的差值。本实施例提出的问题语句处理方法中，通过上述公式3对两个问题语句的向量的L2范数的差值进行计算，即计算得到两个问题语句的相似度。

所述孪生胶囊网络，通过迭代路由过程更新耦合系数的权重，并确定下胶囊被引导到上胶囊的程度，来对上述两个问题语句的相似度进行计算。具体实现过程可以采用现有技术中任何孪生胶囊网络的迭代路由过程，对两个问题语句的相似度进行计算，这里不再赘述。

在上述步骤(4)中，所述相似度阈值，缓存在服务器中。

综上所述，本实施例提出的问题语句处理方法，通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；并根据提取出的各个词语的语义特征对应的语言表示，确定两个问题语句的相似性，与相关技术中由于进行语义匹配任务的方法太简单而不能完全完成语义匹配任务的方式相比，通过多头注意力来提取问题语句中语义特征最显着的词语来比较两个问题语句之间的相似性，可以根据需要保留两个问题语句中尽可能多的信息，从而能够更好的完成两个问题语句之间相似性的判断任务。

实施例2

本实施例提出一种问题语句处理装置，用于执行上述实施例1的问题语句处理方法。

参见图2所示的一种问题语句处理装置的结构示意图，本实施例提出的一种问题语句处理装置，包括：

获取模块200，用于获取两个问题语句，对获取的两个问题语句进行拼接，并确定出拼接后的两个问题语句中的多个词语；

提取模块202，用于通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；

第一处理模块204，用于根据提取出的各个词语的语义特征，得到所述各个词语的语言表示；

第二处理模块206，用于根据拼接后的两个问题语句中所述各个词语的语言表示，确定两个问题语句的相似性。

所述提取模块202，具体用于：

根据提取出的各个词语的语义特征，从词语的语义特征与语言表示的对应关系中查询得到各个词语的语义特征对应的语言表示。

所述第二处理模块206，具体用于：

根据拼接后的两个问题语句中各个词语的语言表示，得到拼接后的两个问题语句的语言表示矩阵；

根据拼接后的两个问题语句的语言表示矩阵，计算多个多头注意力的权重矩阵；

将两个问题语句和计算得到的多个多头注意力的权重矩阵输入孪生胶囊网络，计算得到两个问题语句的相似度；

当计算得到的两个问题语句的相似度大于等于相似度阈值时，确定两个问题语句是相似问题。

所述第二处理模块208，用于根据拼接后的两个问题语句的语言表示矩阵，计算得到多个多头注意力的权重矩阵，包括：

通过以下公式计算多个多头注意力的权重矩阵：

A＝softmax(W_s2tanh(W_s1H^T))

所述第二处理模块208，用于将两个问题语句和计算得到的多个多头注意力的权重矩阵输入孪生胶囊网络，计算两个问题语句的相似度，包括：

通过以下公式计算两个问题语句的相似度：

综上所述，本实施例提出的问题语句处理装置，通过多头注意力对拼接后的两个问题语句中多个词语中的各个词语的语义特征进行提取；并根据提取出的各个词语的语义特征对应的语言表示，确定两个问题语句的相似性，与相关技术中由于进行语义匹配任务的方法太简单而不能完全完成语义匹配任务的方式相比，通过多头注意力来提取问题语句中语义特征最显着的词语来比较两个问题语句之间的相似性，可以根据需要保留两个问题语句中尽可能多的信息，从而能够更好的完成两个问题语句之间相似性的判断任务。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种问题语句处理方法，其特征在于，包括：

根据提取出的各个词语的语义特征，从词语的语义特征与语言表示的对应关系中查询得到各个词语的语义特征对应的语言表示；

根据拼接后的两个问题语句的语言表示矩阵，计算多个多头注意力的权重矩阵，通过以下公式计算多个多头注意力的权重矩阵：

A＝softmax(W_s2tanh(W_s1H^T))

其中，A表示多头注意力的权重矩阵；W_s1和W_s2可供学习的参数；H^T表示拼接后的两个问题语句的语言表示矩阵的转置矩阵；

将计算得到的多个多头注意力的权重矩阵输入孪生胶囊网络，计算得到两个问题语句的相似度，通过以下公式计算两个问题语句的相似度：

其中，c_ij表示两个问题语句的相似度；b_ij表示多个多头注意力的权重矩阵中的第i个多头注意力的权重矩阵A；b_ik表示多个多头注意力的权重矩阵；k表示多个多头注意力的权重矩阵的数量；

2.根据权利要求1所述的方法，其特征在于，根据提取出的各个词语的语义特征，得到各个词语的语言表示，包括：

3.一种问题语句处理装置，其特征在于，包括：

第一处理模块，用于根据提取出的各个词语的语义特征，从词语的语义特征与语言表示的对应关系中查询得到各个词语的语义特征对应的语言表示；

第二处理模块，用于根据拼接后的两个问题语句中各个词语的语言表示，得到拼接后的两个问题语句的语言表示矩阵；

A＝softmax(W_s2tanh(W_s1H^T))

4.根据权利要求3所述的装置，其特征在于，所述提取模块，具体用于：