CN112800203A

CN112800203A - 一种融合文本和知识表征的问答匹配方法及系统

Info

Publication number: CN112800203A
Application number: CN202110163420.1A
Authority: CN
Inventors: 潘昌琴; 林涵阳; 郑骁凌; 卢进桦; 刘华杰; 陈羽中
Original assignee: Jiangsu Start Dima Data Processing Co ltd
Current assignee: Jiangsu Start Dima Data Processing Co ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14
Anticipated expiration: 2041-02-05
Also published as: CN112800203B

Abstract

本发明涉及一种融合文本和知识表征的问答匹配方法及系统，该方法包括以下步骤：步骤A：从智能客服系统中获取问题以及答案记录，建立包括正确匹配问答对和错误匹配问答对的问答对训练集；步骤B：构建结合文本和知识表征的深度学习网络模型及其损失函数，以问答对训练集作为深度学习网络模型的输入，在训练集上通过最小化损失函数学习深度神经网络模型的最优参数，得到训练好的深度神经网络模型；步骤C：接收用户的提问，并将提问输入到训练好的深度学习网络模型中，输出匹配的答案。该方法及系统有利于提高针对用户提问自动给出匹配答案的精度。

Description

一种融合文本和知识表征的问答匹配方法及系统

技术领域

本发明属于自然语言处理领域，具体涉及一种融合文本和知识表征的问答匹配方法及系统。

背景技术

随着科技的进步和社会的发展，互联网在人们的生活中扮演着一个举足轻重的地位，得益于互联网，人们在购物，社交，医疗，教育等场景中得到了越来越多的便利。数字信息化已经成为当今世界发展进程中一个重要环节，海量的信息得益于互联网这个媒介能够以数字化的方式在世界范围内传播和共享，同时互联网的不断发展也时刻改变着人们访问互联网并从中获取信息的方式。随着社会信息化和互联网的快速发展，人们对于智能问答系统的需求日益增长。人们热衷于在智能问答系统上提出问题，获取答案并且同他人交流来分享自己的知识。

因自然语言处理和人工智能领域的研究已经取得了长足的进步，使得利用计算机来代替人力操作来进行智能问答系统中的答案选择任务成为了可能。答案选择是问答领域的一个重要的子任务，在大多数情况下答案选择任务被视为排序问题或分类问题。传统的答案选择模型依赖于人工定义的规则来提取特征，比如从问答对中提取词汇特征、句法结构特征、n-gram特征等，获取特征后，使用统计学习算法或排序算法识别问题的匹配答案。Filice等采用排序特征、启发式特征等多种特征，进一步挖掘了问题和答案之间的语义相关性。Tran等结合词匹配特征组、特殊组件特征组、非文本特征组、基于主题模型的特征以及基于词向量表示共计5组16个特征来预测答案的质量。Surdeanu等在学习问题答案对之间的相关性时引入了大量的特征类型，像是相似性特征，翻译特征，频度特征，实验结果表明这些特征的组合在答案选择任务中能够取得一定的成效。Tymoshenk等使用浅层和深层句法分析器得到基于核心树的句法和语义树结构，并将其应用于答案段的重排序任务。该类模型在答案选择任务上取得了一定的进展，虽然将人们从一条条对信息进行筛选评估的繁琐工作中解脱出来，但其主要缺点在于依赖人工进行特征工程，这同样也是耗费时力的。

由于与基于统计学习的答案选择算法相比具有省时省力，且在性能上有更优异表现的原因，越来越的研究人员将深度神经网络应用到答案选择任务中。在基于深度神经网络的答案选择方法中，核心问题是利用深度神经网络从问答对中获取具有区别性的语义特征，从而为给定的问题选择最适合的答案。循环神经网络RNN由于其内部存在记忆存储器，因而可以处理任意长度的输入序列，且具备获取时间序列信息的能力。由于其在序列的上下文依赖关系建模方面具有优势，因此许多模型采用循环神经网络，如长短期记忆网络LSTM、门循环单元GRU等对问题和答案的上下文相关性进行建模。Wang等使用堆叠的双向长短期记忆网络从问答句中提取前向和后向的上下文信息。Tan等使用Bi-LSTM来学习问题-答案对的特征表示，然后通过相似度函数来评估它们的语义关系。Tay等利用全息组件扩展长短期记忆网络，建立了问答对特征表示之间的语义关联模型。

Transformer网络在并行计算方面相比于循环神经网络具有一定的优势且具有更强的语义特征提取能力，并且相比于卷积神经网络能够更好地捕获长距离特征。因此，一些研究人员尝试将Transformer网络应用于答案选择任务。Laskar等在答案选择任务中利用上下文的词嵌入和Transformer编码器来进行句子相似度建模。Shao等提出了两种基于Transformer网络的答案选择模型，一种在Transformer网络后面部署了一个双向长短期记忆来获取问题-答案对的全局语义和顺序特征来进行问题-答案的匹配，另一种设计了一个灵活的神经网络结构，可以根据输入句子的长度自动选择神经特征提取器，包括基于双向长短期记忆的短句子特征提取器和基于Transformer的长句子特征提取器从而解决了长期依赖问题。

传统智能问答系统使用有监督学习，训练答案排序和问题检索模型，但该方法需要抽取复杂的文本特征，很难在特征构造上做到最优，并且该方法在新的数据集上泛化性能较差，对新数据集往往需求重新进行特征抽取和特征工程。目前基于深度学习的方法通常由于无法充分利用问答句的长距离语义依赖关系，因此存在语义信息和上下文信息丢失的问题，同时所引入的注意力机制在计算过程中只是分别计算每个句子的注意力权重或是计算表示单词对相互作用的匹配矩阵，因而无法充分获取问答对间的匹配特征，无法全面准确地提取影响智能问答精度的各项特征；并且现有的模型算法仍然难以获取文本句子中的词语在不同语境中的精确语义表示，而知识库中的信息作为重要的背景知识有助于获取句子中词语的精确表示，且能够帮助弥合问题与答案之间的语义鸿沟，这在智能问答系统中还没有得到足够的重视。

发明内容

本发明的目的在于提供一种融合文本和知识表征的问答匹配方法及系统，该方法及系统有利于提高针对用户提问自动给出匹配答案的精度。

为实现上述目的，本发明采用的技术方案是：一种融合文本和知识表征的问答匹配方法，包括以下步骤：

步骤A：从智能客服系统中获取问题以及答案记录，建立包括正确匹配问答对和错误匹配问答对的问答对训练集；

步骤B：构建结合文本和知识表征的深度学习网络模型及其损失函数，以问答对训练集作为深度学习网络模型的输入，在训练集上通过最小化损失函数学习深度神经网络模型的最优参数，得到训练好的深度神经网络模型；

步骤C：接收用户的提问，并将提问输入到训练好的深度学习网络模型中，输出匹配的答案。

进一步地，所述步骤B具体包括以下步骤：

步骤B1：构建结合文本和知识表征的深度学习网络模型，所述深度学习网络模型包括文本编码层、知识编码层、文本表征学习层、知识表征学习层、特征融合层以及输出层；

步骤B2：构建适用于所述深度学习网络模型的损失函数，所述损失函数包含交叉熵损失和L2正则化项，计算公式如下：

其中N表示训练集中的问答对样本数，y_i为训练集中的类别标签，y_i等于1表示答案与问题相匹配，y_i等于0表示答案与问题不匹配，p_i为输出层的输出，表示模型预测训练集中第i个样本的答案的类别标签y_i是1的概率，θ包含深度学习网络的所有参数，

是L2正则化项；

步骤B3：遍历问答对训练集，对训练集中的每个问答对，按步骤B4-B9进行处理；

步骤B4：将问答对输入文本编码层，对问题与答案进行分词并去除停用词，之后在预训练的词向量矩阵中查询问题与答案中每个词的词向量，以问题中每个词的词向量构成的词向量序列作为问题的文本表征向量

以答案中每个词的词向量构成的词向量序列作为答案的文本表征向量

步骤B5：将问题与答案的文本表征向量输入到文本表征学习层，学习问题与答案的语义信息以及问题与答案之间的语义交互，得到问题的答案感知的文本表征向量

答案的问题感知的文本表征向量

步骤B6：将问答对输入知识编码层，对问题与答案进行分词并去除停用词，之后根据给定的知识库，分别查询在问题与答案中出现的前K个知识实体，采用TransE方法获得每个知识实体的表征向量，若问题或答案中查询到的知识实体数n小于K，则第n+1个知识实体到第K个知识实体的表征向量设置为零向量，最后以答案中K个知识实体的表征向量构成的向量序列作为答案的知识表征向量

以问题中K个知识实体的表征向量构成的向量序列作为问题的知识表征向量

步骤B7：将步骤B5得到的问题的答案感知的文本表征向量

答案的问题感知的文本表征向量

以及步骤B6得到的问题的知识表征向量

答案的知识表征向量

输入到知识表征学习层，得到问题的答案感知的知识表征向量

与答案的问题感知的知识表征向量

步骤B8：将步骤B5得到的问题的答案感知的文本表征向量

答案的问题感知的文本表征向量

以及步骤B7得到的问题的答案感知的知识表征向量

答案的问题感知的知识表征向量

输入到特征融合层，融合得到问答对的表征向量o_f；

步骤B9：将B8步骤得到的问答对表征向量o_f输入到输出层，通过softmax计算答案与问题相匹配的概率；

步骤B10：根据步骤B2的损失函数计算损失并进行反向传播，通过多次迭代最小化损失函数，采用mini-batch梯度下降法进行分批优化，得到训练好的结合文本和知识表征的深度学习网络模型。

进一步地，所述步骤B5具体包括以下步骤：

步骤B51：将步骤B4获取的问题的文本表征向量

和答案的文本表征向量

分别输入到双向长短期记忆网络中，分别得到问题的上下文表征向量H_q和答案的上下文表征向量H_a；

其中，

，d_h是隐藏单元的维度，

分别是将

输入双向长短期记忆网络后，双向长短期记忆网络的前向层和后向层在第i个时间步输出的隐藏状态向量；

分别是将

输入双向长短期记忆网络后，双向长短期记忆网络的前向层和后向层在第i个时间步输出的隐藏状态向量；l是固定长度，若问题与答案进行分词并去除停用词后剩余的词数小于l，则填充零向量，若大于l，则截断到固定长度l；

步骤B52：将上下文表征向量H_q和H_a分别输入编码器，编码器由6个相同的层叠加而成，每层包含两个子层，即多头注意力机制子层和全连接前馈神经网络子层，每个子层使用残差网络和层归一化来避免信息丢失，最后分别得到问题和答案的表征向量

和

其中，Encoder表示通过所述编码器进行编码；

步骤B53：计算问题与答案的语义交互，得到问题的答案感知的文本表征向量

和答案的问题感知文本表征向量

其中，“

”表示哈达玛积，(.)^T表示矩阵转置，

是评估问题与答案相似性的相似度矩阵，

是待学习的注意力权值矩阵。

进一步地，所述步骤B7具体包括以下步骤：

步骤B71：计算步骤B5得到的问题的答案感知的文本表征向量

与步骤B6得到的问题的知识表征向量

之间的语义交互，反映问题的文本信息与知识实体之间的语义关联性，得到问题的文本信息指导下的知识表征向量

计算步骤B5得到的答案的问题感知的文本表征向量

与步骤B6得到的答案的知识表征向量

之间的语义交互，反映答案的文本信息与知识实体之间的语义关联性，得到答案的文本信息指导下的知识表征向量

其中

是待学习的注意力权值矩阵，d_a是注意力参数大小，α_q、α_a是注意力权值向量；

步骤B72：将步骤B71得到的问题的文本信息指导下的知识表征向量

与答案的文本信息指导下的知识表征向量

分别输入到卷积神经网络，再计算卷积神经网络输出的表征向量之间的交互，得到问题的答案感知的知识表征向量

答案的问题感知的知识表征向量

从知识库角度体现问题和答案之间的语义匹配关系；

其中，CNN()表示使用卷积神经网络进行编码，“

”表示哈达玛积，(.)^T表示矩阵转置，

是评估问题与答案的知识表征向量相似性的相似度矩阵，

是待学习的注意力权值矩阵，d_c是卷积神经网络的卷积核大小。

进一步地，所述步骤B8具体包括以下步骤：

步骤B81：连接步骤B5得到的问题的答案感知文本表征向量

与步骤B7得到的问题的答案感知的知识表征向量

得到问题的表征向量

连接步骤B5得到的问题的答案感知的文本表征向量

与步骤B7得到的问题的答案感知的知识表征向量

得到答案的表征向量

其中[；]表示连接操作；

步骤B82：连接问题的表征向量Q与答案的表征向量A，得到问答对的表征向量o_f＝[Q；A]。

本发明还提供了一种融合文本和知识表征的问答匹配系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的程序模块，所述程序模块包括：

训练集构建模块，用于从智能客服系统中获取问题以及答案记录，构建问答对训练集；

网络训练模块，用于将问答对训练集中的问答对输入到深度学习网络模型中，得到问题与答案的表征向量，进一步融合得到问答对的表征向量，根据定义的损失函数，通过最小化损失函数学习深度神经网络模型的最优参数，得到训练好的深度神经网络模型；以及

问答匹配模块，用于利用训练好的深度学习网络模型对输入的问题进行处理，输出匹配的答案；

当处理器运行所述程序模块时，实现所述的方法步骤。

相较于现有技术，本发明具有以下有益效果：该方法及系统基于问答对训练集以及知识库中的实体信息训练一种融合文本和知识表征的深度学习网络模型，通过对文本问答对中长距离特征表示进行精确提取，并充分利用来自知识库中的信息作为背景知识，得到问答对的细粒度语义特征表示，显著提高了问答系统的问答匹配精度，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例的系统程序模块结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种融合文本和知识表征的问答匹配方法，包括以下步骤：

步骤A：从智能客服系统中获取问题以及答案记录，建立包括正确匹配问答对和错误匹配问答对的问答对训练集。

步骤B：构建结合文本和知识表征的深度学习网络模型及其损失函数，以问答对训练集作为深度学习网络模型的输入，在训练集上通过最小化损失函数学习深度神经网络模型的最优参数，得到训练好的深度神经网络模型。

所述步骤B具体包括以下步骤：

步骤B1：构建结合文本和知识表征的深度学习网络模型，所述深度学习网络模型包括文本编码层、知识编码层、文本表征学习层、知识表征学习层、特征融合层以及输出层。

步骤B2：构建适用于所述深度学习网络模型的损失函数，损失函数包含交叉熵损失和L2正则化项，计算公式如下：

是L2正则化项。

步骤B3：遍历问答对训练集，对训练集中的每个问答对，按步骤B4-B9进行处理。

答案的问题感知的文本表征向量

所述步骤B5具体包括以下步骤：

步骤B51：将步骤B4获取的问题的文本表征向量

和答案的文本表征向量

分别输入到双向长短期记忆网络中，分别得到问题的上下文表征向量H_q和答案的上下文表征向量H_a。

其中，

，d_h是隐藏单元的维度，

分别是将

分别是将

输入双向长短期记忆网络后，双向长短期记忆网络的前向层和后向层在第i个时间步输出的隐藏状态向量；l是固定长度，若问题与答案进行分词并去除停用词后剩余的词数小于l，则填充零向量，若大于l，则截断到固定长度l。

和

其中，Encoder表示通过所述编码器进行编码。

和答案的问题感知文本表征向量

其中，“

”表示哈达玛积，(.)^T表示矩阵转置，

是评估问题与答案相似性的相似度矩阵，

是待学习的注意力权值矩阵。

步骤B7：将步骤B5得到的问题的答案感知的文本表征向量

答案的问题感知的文本表征向量

以及步骤B6得到的问题的知识表征向量

答案的知识表征向量

与答案的问题感知的知识表征向量

所述步骤B7具体包括以下步骤：

步骤B71：计算步骤B5得到的问题的答案感知的文本表征向量

与步骤B6得到的问题的知识表征向量

计算步骤B5得到的答案的问题感知的文本表征向量

与步骤B6得到的答案的知识表征向量

其中

是待学习的注意力权值矩阵，d_a是注意力参数大小，α_q、α_a是注意力权值向量。

与答案的文本信息指导下的知识表征向量

以及答案的问题感知的知识表征向量

从知识库角度体现问题和答案之间的语义匹配关系。

其中，CNN()表示使用卷积神经网络进行编码，“

”表示哈达玛积，(.)^T表示矩阵转置，

是评估问题与答案的知识表征向量相似性的相似度矩阵，

步骤B8：将步骤B5得到的问题的答案感知的文本表征向量

答案的问题感知的文本表征向量

以及步骤B7得到的问题的答案感知的知识表征向量

答案的问题感知的知识表征向量

输入到特征融合层，融合得到问答对的表征向量o_f。所述步骤B8具体包括以下步骤：

步骤B81：连接步骤B5得到的问题的答案感知文本表征向量

与步骤B7得到的问题的答案感知的知识表征向量

得到问题的表征向量

连接步骤B5得到的问题的答案感知的文本表征向量

与步骤B7得到的问题的答案感知的知识表征向量

得到答案的表征向量

其中[；]表示连接操作。

步骤B9：将B8步骤得到的问答对表征向量o_f输入到输出层，通过softmax计算答案与问题相匹配的概率。

本实施例提供了一种融合文本和知识表征的问答匹配系统，包括存储器、处理器以及存储于存储器上并能够在处理器上运行的程序模块，如图2所示，所述程序模块包括训练集构建模块、网络训练模块和问答匹配模块。

所述训练集构建模块用于从智能客服系统中获取问题以及答案记录，构建问答对训练集。

所述网络训练模块用于将问答对训练集中的问答对输入到深度学习网络模型中，得到问题与答案的表征向量，进一步融合得到问答对的表征向量，根据定义的损失函数，通过最小化损失函数学习深度神经网络模型的最优参数，得到训练好的深度神经网络模型。

所述问答匹配模块用于利用训练好的深度学习网络模型对输入的问题进行处理，输出匹配的答案。

当处理器运行所述程序模块时，实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。