CN111597319A

CN111597319A - 一种基于faq问答系统的问句匹配方法

Info

Publication number: CN111597319A
Application number: CN202010454152.4A
Authority: CN
Inventors: 陈兴元; 金澎; 陈可
Original assignee: Chengdu Buwen Technology Co ltd
Current assignee: Chengdu Buwen Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-08-28
Anticipated expiration: 2040-05-26
Also published as: CN111597319B

Abstract

本发明公开了一种基于FAQ问答系统的问句匹配方法，通过联合训练术语规范化模块M₁和语句规范化模块M₂，得到训练完的问句规范系统，再将用户问句输入问句规范系统，得到规范化的问句，计算规范化的问句与原始标准FAQ问答对集中问句的相似度，得到准确的答案。本发明在构建规范化问句训练集合时采用二次标注方法，对用户问句进行术语规范化标注，再对得到的专业问句集进行问句规范化标注，提高用户输入问句集的利用效率；其次，两个模块联合训练和应用，术语规范化模块M₁为语句规范化模块M₂提供增益信息，提升问句规范系统的性能，解决了现有基于FAQ的自动问答技术匹配准确率不高的问题。

Description

一种基于FAQ问答系统的问句匹配方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于FAQ问答系统的问句匹配方法。

背景技术

基于FAQ的垂直领域自动问答系统，其常见问题和答案，往往由领域专家搜集整理，一个问题对应一个答案。也称为问答对。已有的采用FAQ技术实现的问答系统，通过将用户提出的问题和系统中所列问题，采用基于句子相似度匹配的方式，完成用户问题到所列问题之间的映射。这种方法的主要缺点有：

一义多词等带来的语义鸿沟。在许多专业领域的问答系统中，比如医学、税收等，用户(如患者、普通纳税人)提问时的用词和句式等等，和专业问句的表述之间有巨大的语义鸿沟。比如“呼吸困难”和“出不赢气”；前者是专业表达，后者是普通用户描述，两者语义相近，但无一字相同。研究人员进一步提出采用词嵌入(word embedding)方式，但这种方式对每一个词计算一个静态的词向量。接下来，通过余弦相似度计算词相似，然后通过词相似计算句子相似；或者将一句话所有词的词向量采用累加等方法形成一个总的句子向量，计算这两个句子向量的余弦相似度。但这些改进对一词多义仍然束手无策且存在下述第二个缺点。

无法有效利用标注问题集合里的信息。由于标注好的问答句对里面包含了很多可以利用的规律和信息，利用这些信息，可以有效提升问题系统的质量。如何利用这些信息，基于传统问题匹配技术，还不充分和不够科学。

低频词权重过高(不知道哪些词更重要)。已有方法在计算用户提问和已有列表问题的句子相似度时，通常采用tf*idf的加权方法，tf为词频(该词在当前问句中出现的次数)，idf为反文档频次(总问句数除以该词出现的问句数)。但该方法是一种比较粗的计算方法，和实际问句上下文关系不大。用户问句中由于用户的实际情况千差万别，表达方式各异，许多词通常只在极少数问题表述中出现。这使得虽然其tf很小，但idf往往很高，两者相乘之后仍可能被赋予了过高的权重。比如“模特为未成年是否需缴纳个税吗？”和“我家小孩子还不到18岁，给电商摆拍模特，日收入过千，交不交税？”。在后者的普通用户问题描述中，“摆拍”在已有权重计算方法中权重很高，但由于和其匹配的专业表达中，未出现该词，从而极大降低该专业表达匹配的概率。但此词显然并不重要。

综上所述，目前的基于句子相似的问题匹配，由于存在用户问句和列表问句存在语义鸿沟，且句子中关键词加权算法无法细致考虑其所在上下文，导致匹配准确率不高。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于FAQ问答系统的问句匹配方法解决了现有基于FAQ的自动问答技术匹配准确率不高的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于FAQ问答系统的问句匹配方法，包括以下步骤：

S1、收集用户问句，构建规范化问句训练集合；

S2、构建原始标准FAQ问答对集；

S3、采用动态softmax方法构建术语规范化模块M₁；

S4、基于术语规范化模块M₁输出logits向量，构建语句规范化模块M₂；

S5、采用规范化问句训练集合，联合训练术语规范化模块M₁和语句规范化模块M₂，得到训练完的问句规范系统；

S6、将用户问句，输入问句规范系统，得到规范化的问句；

S7、根据匹配检索算法，计算规范化的问句与原始标准FAQ问答对集中的问句的相似度值；

S8、判断相似度值是否大于阈值，若是，则得到与该问句对应的答案；若否，则更新用户问句，并跳转至步骤S6。

进一步地，步骤S1中构建规范化问句训练集合的过程为：

S11、对用户问句进行收集，得到N个用户输入问句集；

S12、对N个用户输入问句集进行术语规范化标注，得到N个规范化术语问句构成的集合，即N个专业问句集；

S13、对N个专业问句集进行问句规范化标注，得到N个规范问句构成的集合，即N个规范问句集；

S14、根据N个用户输入问句集、N个专业问句集和N个规范问句集，构建规范化问句训练集合，其中，规范化问句训练集合为：S＝{[X₁,Y₁,Z₁],…,[X_i,Y_i,Z_i],…,[X_N,Y_N,Z_N]}，其中，S为规范化问句训练集合，X_i为第i个用户输入问句集，X_i＝{x_i1,…,x_it,…x_iT}，x_it为第i个用户输入问句集中的第t个用户词，Y_i为第i个专业问句集，Y_i＝{y_i1,…,y_it,…y_iT}，y_it为第i个专业问句集的第t个专业术语词，T为第i个用户输入问句集或第i个专业问句集的长度，Z_i为第i个规范问句集，Z_i＝{z_i1,…,z_il,…z_iL}，z_il为第i个规范问句集的第l个规范词，L为第i个规范问句集的长度，1≤i≤N，N为问句总数。

进一步地，所述步骤S5中术语规范化模块M₁包括：第一自注意力机制的神经网络、第一全连接层和第一损失层；

所述问句规范化模块M₂包括：第二自注意力机制的神经网络、第二全连接层和第二损失层；

所述第一自注意力机制的神经网络的输出端分别与第一全连接层的输入端和第二自注意力机制的神经网络的输入端连接；

所述第一全连接层的输出端与第一损失层的输入端连接；

所述第二自注意力机制的神经网络的输出端与第二全连接层的输入端连接；

所述第二全连接层的输出端与第二损失层的输入端连接。

进一步地，所述术语规范化模块M₁通过专业词汇表V_key＝{u₁,…,u_k,…,u_K}建立用户输入问句集X_i和专业问句集Y_i之间的映射关系，构建其映射关系的表达式为：

其中，u_k为专业词汇表V_key第k个专业术语词，k为专业词汇表V_key的长度，由上面公式，得到动态词汇表V_it＝V_key∪{x_it}，其特征还包括根据映射结果，可用条件概率函数P(w|x_it,X_i)来表示这个映射，其中w∈V_it，其特征还有采用基于神经网络transformer来构建术语规范化模块M₁，其输出logits向量H_i，以及利用H_i在动态词汇表V_it上执行动态sotfmax方法来规范化术语。

进一步地，所述步骤S5中的训练方法为：采用规范化问句训练集合，根据联合损失函数，通过反向传播算法，并将第一自注意力机制的神经网络的输出logits向量和规范问句集作为第二自注意力机制的神经网络的输入，迭代训练术语规范化模块M₁和问句规范化模块M₂的神经网络参数，得到训练好的问句规范模块；所述反向传播算法采用梯度下降方式；所述联合损失函数的表达式为：

loss＝loss₁+loss₂

其中，loss为联合损失函数，loss₁为术语规范化模块M₁的损失函数，loss₂为问句规范化模块M₂的损失函数。

进一步地，所述术语规范化模块M₁的损失函数loss₁的表达式为：

其中，h_it为输出logits向量H_i的第t个元素，“·”为内积，v(u_k)为专业术语词u_k的词向量，p_tk表示术语规范化模块M₁在动态词汇表V_i,t＝V_key∪{x_it}上输出的分布列，p_tyit表示y_it对应这个概率序列p_tk中的概率，即答案概率。

进一步地，所述问句规范化模块M₂的损失函数loss₂的表达式为：

lpss₂＝crossentropy(softmax(L_i),Z_i)

其中，crossentropy为交叉熵函数，softmax为逻辑回归函数，L_i为向量H_i输入到问句规范化模块M₂后输出的logits向量。

本发明的有益效果为：

(1)、本发明在构建规范化问句训练集合时采用二次标注方法，对用户问句进行术语规范化标注，再对得到的专业问句集进行问句规范化标注，提高用户输入问句集的利用效率；

(2)、两个模块联合训练和应用，术语规范化模块M₁为语句规范化模块M₂提供增益信息，提升问句规范系统的性能。

(3)、计算专业词在专业词汇表Veb中的分布列，通过这种方式能自动找到关键词语赋予更高权重、忽略无关紧要的词语，进而获得更好的问答性能。

(4)、通过将用户输入问句集转换为规范问句集，再通过规范问句集去匹配原始标准FAQ问答对集中的答案，提高了问句匹配的准确度和效率。

附图说明

图1为一种基于FAQ问答系统的问句匹配方法的流程图；

图2为术语规范化模块M₁和问句规范化模块M₂的结构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于FAQ问答系统的问句匹配方法，包括以下步骤：

S1、收集用户问句，构建规范化问句训练集合；

所述步骤S1中构建规范化问句训练集合的过程为：

S11、对用户问句进行收集，得到N个用户输入问句集；

S14、根据N个用户输入问句集、N个专业问句集和N个规范问句集，构建规范化问句训练集合，其中，规范化问句训练集合为：S＝{X₁,Y₁,Z₁],…,[X_i,Y_i,Z_i],…,[X_N,Y_N,Z_N]}，其中，S为规范化问句训练集合，X_i为第i个用户输入问句集，X_i＝{x_i1,…,x_it,…x_iT}，x_it为第i个用户输入问句集中的第t个用户词，Y_i为第i个专业问句集，Y_i＝{y_i1,…,y_it,…y_iT}，y_it为第i个专业问句集的第t个专业术语词，T为第i个用户输入问句集或第i个专业问句集的长度，Z_i为第i个规范问句集，Z_i＝{z_i1,…,z_il,…z_iL}，z_il为第i个规范问句集的第l个规范词，L为第i个规范问句集的长度，1≤i≤N，N为问句总数。

S2、构建原始标准FAQ问答对集；

原始标准FAQ问答对集F＝{[Q₁,A₁],…,[Q_M,A_M]}，其中Q₁,…,Q_M为问句，A₁,…,A_M为与问句匹配的答案，M为原始标准FAQ问答对集中问句或答案的总数。

S3、采用动态softmax方法构建术语规范化模块M₁；

所述步骤S5中术语规范化模块M₁包括：第一自注意力机制的神经网络、第一全连接层和第一损失层；

所述问句规范化模块M₂包括：第二自注意力机制的神经网络、第二全连接层和第二损失层其中，第一自注意力机制的神经网络和第二自注意力机制的神经网络可采用LSTM神经网络来替代；

所述第一全连接层的输出端与第一损失层的输入端连接；

所述第二全连接层的输出端与第二损失层的输入端连接。

所述术语规范化模块M₁通过专业词汇表V_key＝{u₁,…,u_k,…,u_K}建立用户输入问句集X_i和专业问句集Y_i之间的映射关系，构建其映射关系的表达式为：

所述步骤S5中的训练方法为：采用规范化问句训练集合，根据联合损失函数，通过反向传播算法，并将第一自注意力机制的神经网络的输出logits向量和规范问句集作为第二自注意力机制的神经网络的输入，迭代训练术语规范化模块M₁和问句规范化模块M₂的神经网络参数，得到训练好的问句规范模块；所述反向传播算法采用梯度下降方式；所述联合损失函数的表达式为：

loss＝loss₁+loss₂

所述术语规范化模块M₁的损失函数loss₁的表达式为：

所述问句规范化模块M₂的损失函数loss₂的表达式为：

loss₂＝crossentropy(softmax(L_i),Z_i)

S6、将用户问句，输入问句规范系统，得到规范化的问句；

本发明的有益效果为：

Claims

1.一种基于FAQ问答系统的问句匹配方法，其特征在于，包括以下步骤：

S1、收集用户问句，构建规范化问句训练集合；

S2、构建原始标准FAQ问答对集；

S3、采用动态softmax方法构建术语规范化模块M₁；

S6、将用户问句，输入问句规范系统，得到规范化的问句；

2.根据权利要求1所述的基于FAQ问答系统的问句匹配方法，其特征在于，所述步骤S1中构建规范化问句训练集合的过程为：

S11、对用户问句进行收集，得到N个用户输入问句集；

3.根据权利要求2所述的基于FAQ问答系统的问句匹配方法，其特征在于，所述步骤S5中术语规范化模块M₁包括：第一自注意力机制的神经网络、第一全连接层和第一损失层；

所述第一全连接层的输出端与第一损失层的输入端连接；

所述第二全连接层的输出端与第二损失层的输入端连接。

4.根据权利要求3所述的基于FAQ问答系统的问句匹配方法，其特征在于，所述术语规范化模块M₁通过专业词汇表V_key＝{u₁,…,u_k,…,u_K}建立用户输入问句集X_i和专业问句集Y_i之间的映射关系，构建其映射关系的表达式为：

5.根据权利要求4所述的基于FAQ问答系统的问句匹配方法，其特征在于，所述步骤S5中的训练方法为：采用规范化问句训练集合，根据联合损失函数，通过反向传播算法，并将第一自注意力机制的神经网络的输出logits向量和规范问句集作为第二自注意力机制的神经网络的输入，迭代训练术语规范化模块M₁和问句规范化模块M₂的神经网络参数，得到训练好的问句规范模块；所述反向传播算法采用梯度下降方式；所述联合损失函数的表达式为：

loss＝loss₁+loss₂

6.根据权利要求5所述的基于FAQ问答系统的问句匹配方法，其特征在于，所述术语规范化模块M₁的损失函数loss₁的表达式为：

7.根据权利要求5所述的基于FAQ问答系统的问句匹配方法，其特征在于，所述问句规范化模块M₂的损失函数loss₂的表达式为：

loss₂＝crossentropy(softmax(L_i),Z_i)