CN111475620B

CN111475620B - 一种面向智能问答系统的自然语言推理方法

Info

Publication number: CN111475620B
Application number: CN202010257825.7A
Authority: CN
Inventors: 徐小龙; 路欣远
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2022-08-26
Anticipated expiration: 2040-04-03
Also published as: CN111475620A

Abstract

本发明公开了一种面向智能问答系统的自然语言推理方法，包括如下步骤：首先需要将两个句子转换成词向量的形式，利用正向时序运算以及反向时序运算提取句子的局部特征以及全局特征，再对得到的结果同时进行最大值选择以及多维加权平均的运算，其中最大值选择的运算用于提取句子中最重要的信息，而多维加权平均能够对句子中的次重要特征进行提取，对于结果通过句意融合，最后，通过句意融合的结果得到句子间关系的可能性，其中可能性最高的关系将作为最后的结果。本发明能够充分提取问答系统中用户前后输入的句子中的信息，可以在自然语言推理的公开数据上都取得优异的效果，在对准确率、实时性要求较高的多轮问答系统中具有良好的实用性。

Description

一种面向智能问答系统的自然语言推理方法

技术领域

本发明涉及自然语言处理与人工智能技术领域，具体涉及一种面向智能问答系统的自然语言推理方法。

背景技术

面向客户服务的问答系统是一个多轮交互的过程，用户的信息将不会一次性全部给出，而是需要不断地对系统进行输入，同时系统不断理解问题。在这个过程中，用户的前后多轮的描述可能存在不一致的状况，而利用自然语言推理方法就可以使得问答系统能够对该情况进行判断，从而进行进一步的处理。

传统的自然语言推理方法需要通过人工提取特征的方法来表示句子。比如句法依存树、语法树等来计算二者的编辑距离。这些通过人工提取特征的方法虽然每个特征都具有很好的解释性，但是通过人工提取特征需要花费大量的人工成本，也会需要使用额外的资源。而且，这样的方法与使用深度学习模型的方法相比，在性能上差距较大。

随着深度学习在自然语言处理领域的发展，越来越多的使用深度学习的自然语言推理方法被提出。在这些方法中，需要将句子转换成词向量的形式，并通过深度学习模型进行一些运算，最后判断出句子之间的关系。其中，使用长短记忆网络表示句子的方法得到了广泛应用。而在池化方法方面，作为一种常见的池化方法，最大池化只从整个句子中的每个维度提取最能体现句子特征的部分，同时会直接丢弃那些次重要的特征。

发明内容

发明目的：为了克服现有技术中存在的自然语言推理方法准确率不够、效率不足的问题，提供一种面向智能问答系统的自然语言推理方法，其能够充分提取了问答系统中用户前后输入的句子中的信息，可以在自然语言推理的公开数据上都取得优异的效果，在对准确率、实时性要求较高的多轮问答系统中具有良好的实用性。

技术方案：为实现上述目的，本发明提供一种面向智能问答系统的自然语言推理方法，包括如下步骤：

S1：将用户前后输入的两个句子去除标点符号，将句子中的每一个词转换成预训练的词向量，根据词向量将每个句子都表示为矩阵X^inf；

S2：将矩阵X^inf分别通过正向时序运算和反向时序运算，并将两次运算的结果进行拼接，得到矩阵H^enc；

S3：对矩阵H^enc中的所有列向量只保留最大值，得到向量v^mp，同时将矩阵H^enc进行多维加权平均得到向量v^mda，将向量v^mp和向量v^mda进行拼接得到向量v；

S4：根据向量v，获得需要判断关系的两个句子所对应的向量v₁和向量v₂，将向量v₁和向量v₂进行句意融合，得到向量m；

S5：将向量m通过多次矩阵运算转化为一个多维向量，此多维向量中每个元素分别代表句子间对应关系的概率，选择最大的元素所对应的关系作为最后的结果。

进一步的，所述步骤S2中的正向时序运算是对矩阵

的每一列向量按照从左到右的顺序依次进行如下计算：

c_t＝i_t⊙s_t+f_t⊙c_t-1

其中，

为矩阵X^inf第t列的列向量，在每次计算完成后将会得到记录信息的两个向量c_t、

这两个向量将参与下一次的运算，在每次计算中，都会得到四个中间向量 f_t、i_t、o_t、s_t，在计算中间向量时，W^f、Wⁱⁿ、W^o、W^s分别为生成中间向量时对输入向量

的权重转移矩阵，U^f、Uⁱⁿ、U^o、U^s分别为生成中间向量时对前一次运算得到的向量c_t-1的权重转移矩阵，b^f、bⁱⁿ、b^o、b^s分别为计算中间向量时添加的偏置向量，σ、ta为激活函数，exp表示指数函数，⊙表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量的运算，将每次计算所得到的

依次排序，将得到正向时序运算的矩阵。

进一步的，所述步骤S2中的反向时序运算，需要将X^inf中的列向量按照

的顺序反向排列，然后将反向排列过的矩阵中的列向量按从左到右的顺序依次进行运算获取到输出向量。

进一步的，所述步骤S3中将矩阵H^enc进行多维加权平均得到向量v^mda的具体运算过程为：

A＝W^bσ(W^aH^enc+b^a)+b^b

首先将H^enc通过两次矩阵运算得到维度与H^enc相同的权重矩阵A，W^a、W^b分别为两次运算的权重转移矩阵，b^a、b^b为偏置向量，σ为激活函数，在得到权重矩阵A 后，将其每一行向量进行指数归一化运算，得到H^enc中每一个元素所对应的权重p(a_ij)，而p_·j表示第j列元素所对应的权重所组成的权重向量，a_ij为矩阵A中第i行第j列的元素，n为矩阵A的列数，

为H^enc第j列的列向量，exp表示指数运算，v^mda为多维加权平均后所得到的向量。

进一步的，所述步骤S4中向量v₁和向量v₂进行句意融合的过程为：首先将向量v₁和向量v₂做逐一元素的绝对值减法得到|v₁-v₂|，再将二者做逐一元素的乘法得到 v₁⊙v₂，然后把v₁,v₂,|v₁-v₂|,v₁⊙v₂进行拼接，得到向量m。

进一步的，所述步骤S5中向量m通过两次矩阵运算转化为一个三维向量，此三维向量中每个元素分别代表句子间关系为蕴含、矛盾、无关的概率。

本发明首先需要将两个句子转换成词向量的形式，利用正向时序运算以及反向时序运算提取句子的局部特征以及全局特征，再对得到的结果同时进行最大值选择以及多维加权平均的运算，其中最大值选择的运算用于提取句子中最重要的信息，而多维加权平均能够对句子中的次重要特征进行提取，对于上一阶段所产生的结果，需要通过句意融合，最后，通过句意融合的结果得到句子间关系的可能性，其中可能性最高的关系将作为最后的结果。

有益效果：本发明与现有技术相比，具备如下优点：

1、本发明利用正向时序运算以及反向时序运算来对用户前后输入的句子进行特征提取，使得最后得到的向量可以表现出句子中重要的局部信息与全局信息。

2、本发明利用提取矩阵中列向量最大值的方法以及矩阵中所有元素加权平均的方法来对经过时序运算后所得到的矩阵进行处理，其中取最大值的方法用于提取句子中最重要的特征，而多维加权平均可以对句子中的次重要特征进行提取。

3、本发明采用多种形式的句意融合机制，使得用户前后输入的句子中的信息可以得到有效的融合，从而更加突出句子之间的关系。

4、本发明充分提取了问答系统中用户前后输入的句子中的信息，可以在自然语言推理的公开数据上都取得优异的效果，在对准确率、实时性要求较高的多轮问答系统中具有良好的实用性。

附图说明

图1为本发明方法的模型示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

如图1所示，本发明提供一种面向智能问答系统的自然语言推理方法，具体步骤如下：

S1：将用户前后输入的两个句子去除标点符号，之后将两个句子中的每一个词转换成预训练的词向量，根据词向量将每个句子都表示为矩阵X^inf，这里以第一个句子为例，得到的矩阵表示如下：

S2：将步骤S1获得的矩阵X^inf分别通过正向时序运算以及反向时序运算，并将同一正向时序运算以及反向时序运算的结果进行拼接得到最后的结果，正向时序运算是对步骤S1的结果矩阵

中的每一列向量依次进行如下计算，

这两个向量将参与下一次的运算，在每次计算中，都会得到四个中间向量f_t、i_t、o_t、s_t，在计算中间向量时，W^f、Wⁱⁿ、W^o、W^s分别为生成中间向量时对输入向量的权重转移矩阵，U^f、Uⁱⁿ、U^o、U^s分别为生成中间向量时前一次运算得到的向量c_t-1的权重转移矩阵，b^f、bⁱⁿ、b^o、b^s分别为计算中间向量时添加的偏置向量，σ、ta为激活函数， exp表示指数函数，⊙表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量，将每次计算所得到的

依次排序，将得到正向时序运算的输出矩阵。

c_t＝i_t⊙s_t+f_t⊙c_t-1

而对于反向时序运算，需要将X^inf中的列向量按照

的顺序反向排列，然后将反向排列过后的矩阵中的列向量按从左到右的顺序依次进行运算，每一次的计算过程与正向时序运算相同，最后将输入

在正向时序运算与反向时序运算中对应的输出

进行拼接，得到h_t，将所有的h_t按对应

在X^inf中的顺序排列，得到该步骤的运算结果矩阵H^enc：

S3：将步骤S2得到的结果矩阵H^enc分别通过对列向量的最大值选择以及一次多维加权平均，其中最大值的选取过程如下：

其中，

表示经过最大值选择后的向量v^mp中的第i个元素，该元素为向量h_i中的最大值，而h_i为H^enc中的第i列向量；

多维加权平均按如下计算：

首先将矩阵H^enc通过两次矩阵运算得到维度与H^enc相同的权重矩阵A，W^a、W^b分别为两次运算的权重转移矩阵，b^a、b^b为偏置向量，σ为激活函数，在得到权重矩阵A 后，将其每一行向量进行指数归一化运算，得到H^enc中每一个元素所对应的权重p(a_ij)，而p_·j表示第j列元素所对应的权重所组成的权重向量，a_ij为矩阵A中第i行第j列的元素，n为矩阵A的列数，x_j为X第j列的列向量，exp为指数运算，v^mda为多维加权平均后所得到的向量；

A＝W^bσ(W^aH^enc+b^a)+b^b

将最大值选取得到的向量v^mp以及多维加权平均所得到的向量v^mda进行拼接得到向量v：

[-0.01911898 -0.05521853 -0.01912285...0.05380649 0.11411360.18427889]

S4：根据向量v，获得需要判断关系的两个句子所对应的向量v₁和向量v₂，为了使得两个句子的差异性得到提升，从而使得分类更加准确，需要将向量v₁和向量v₂进行句向量融合，首先将二者做逐一元素的绝对值减法得到|v₁-v₂|，再将二者做逐一元素的乘法得到v₁⊙v₂，然后把二者与v₁和v₂进行拼接，得到向量m：

[-0.03318719 -0.03001147 -0.01090131...0.00072425 0.013917180.01510476]

S5：将步骤4的结果通过两次矩阵运算转化为一个三维向量，得到句子间关系为蕴含、矛盾、无关的概率，选择最大的元素所对应的关系作为最后的结果。

本实施例中获得如下的一组向量，由于第三个元素的值最大，因此句子之间的关系将被判断为无关。

[-1.2895579 -3.436133 4.979603]。

Claims

1.一种面向智能问答系统的自然语言推理方法，其特征在于：包括如下步骤：

S1：将用户前后输入的两个句子中的每一个词转换成预训练的词向量，根据词向量将每个句子都表示为矩阵X^inf；

S5：将向量m通过多次矩阵运算转化为一个多维向量，此多维向量中每个元素分别代表句子间对应关系的概率，选择最大的元素所对应的关系作为最后的结果；

所述步骤S2中的正向时序运算是对矩阵

的每一列向量按照从左到右的顺序依次进行如下计算：

c_t＝i_t⊙s_t+f_t⊙c_t-1

其中，

这两个向量将参与下一次的运算，在每次计算中，都会得到四个中间向量f_t、i_t、o_t、s_t，在计算中间向量时，W^f、Wⁱⁿ、W^o、W^s分别为生成中间向量时对输入向量

依次排序，将得到正向时序运算的矩阵；

所述步骤S2中的反向时序运算，需要将X^inf中的列向量按照

的顺序反向排列，然后将反向排列过的矩阵中的列向量按从左到右的顺序依次进行运算获取到输出向量；

所述步骤S3中将矩阵H^enc进行多维加权平均得到向量v^mda的具体运算过程为：

A＝W^bσ(W^aH^enc+b^a)+b^b

首先将H^enc通过两次矩阵运算得到维度与H^enc相同的权重矩阵A，W^a、W^b分别为两次运算的权重转移矩阵，b^a、b^b为偏置向量，σ为激活函数，在得到权重矩阵A后，将其每一行向量进行指数归一化运算，得到H^enc中每一个元素所对应的权重p(a_ij)，而p_·j表示第j列元素所对应的权重所组成的权重向量，a_ij为矩阵A中第i行第j列的元素，n为矩阵A的列数，

为H^enc第j列的列向量，exp表示指数运算，v^mda为多维加权平均后所得到的向量；

所述步骤S4中向量v₁和向量v₂进行句意融合的过程为：首先将向量v₁和向量v₂做逐一元素的绝对值减法得到|v₁-v₂|，再将二者做逐一元素的乘法得到v₁⊙v₂，然后把v₁,v₂,|v₁-v₂|,v₁⊙v₂进行拼接，得到向量m；

所述步骤S5中向量m通过两次矩阵运算转化为一个三维向量，此三维向量中每个元素分别代表句子间关系为蕴含、矛盾、无关的概率。