CN116028604A

CN116028604A - 一种基于知识增强图卷积网络的答案选择方法及系统

Info

Publication number: CN116028604A
Application number: CN202211464352.3A
Authority: CN
Inventors: 陈羽中; 郑超凡; 徐俊杰; 李炜炜
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-04-28

Abstract

本发明提供了一种基于知识增强图卷积网络的答案选择方法及系统，包括以下步骤：步骤A：在问答平台中收集用户的问题以及回答记录，并标注每一个问题‑答案对的真实标签，以此构建训练集DS；步骤B：使用训练数据集DS以及知识图谱ConceptNet，训练基于知识增强的图卷积神经网络的深度学习网络模型M，通过此模型来分析给定问题，相对应候选答案的正确性；步骤C：将用户的问题输入到训练好的深度学习网络模型M中，输出匹配的答案；应用本技术方案有利于提高答案选择的准确性。

Description

一种基于知识增强图卷积网络的答案选择方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是一种基于知识增强图卷积网络的答案选择方法及系统。

背景技术

答案选择(Answer Selection)答案选择是问答领域的一个重要子任务，在信息检索(IR)和自然语言处理(NLP)的众多应用中发挥这十分重要的作用。随着互联网的迅速发展，互联网相继涌现了大量的问答社区，如：知乎，Quora，StackOverflow，等，人们热衷于在问答社区中提出问题，获取答案。在用户的长期广泛参与下，互联网上产生了海量问题-答案数据对，伴随着信息量的激增，通过人力的手段对于问答系统中的信息进行过滤和甄别变得难以为继；同时由于问答系统中网络信息的剧增，在问答系统中当前用户提出的问题常常被不断涌现的新问题所淹没，没有办法得到一个快速的响应。因此，迫切需要一种能够有效进行答案选择的自动化方法，判断问题和众多候选答案之间的匹配关系，从中选择出最佳答案并将其尽可能的排在答案列表前列。

随着深度学习方法研究的不断深入，许多研究人员也将深度学习模型应用到答案选择领域中。基于基于深度学习的问答匹配模型通常基于融合注意力机制的卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)或预训练语言模型。采用CNN获得问题、答案文本的局部语义信息。RNN可以构建文本序列的语义依赖关系。注意力机制使得模型能够更加关注问答对中关键语义部分。根据不同单词之间的文本关系例如句法关系将问答对抽象成图数据结构，GNN则可以根据不同单词之间的文本关系将问答对抽象成图数据结构，对图节点间的依赖关系进行建模。预训练语言模型的出现极大推动自然语言处理领域的发展。预训练语言模型可以从海量的无标注文本中学习到潜在的语义信息。一些研究学者开展将预训练语言模型应用于答案选择任务的研究工作。Devlin等人提出一个基于Transformer架构训练自然语言处理的通用模型BERT，并将其应用于答案选择任务。但是现有不论是采用神经网络还是基于预训练语言模型的答案选择模型主要专注于获得问题、答案文本中单词之间的上下文语义关联信息的特征表示，未充分考虑从语法结构的角度挖掘问题与答案之间的依赖信息，限制了模型对文本语义信息的理解。

此外，一些研究工作将知识图谱引入答案选择任务，也取得了一定进展。知识图谱中的事实背景包含大量实体信息，在问答匹配的过程中能够提供有效的常识性推理信息，提高答案选择的准确度。Li和Wu等人提出词网增强层次模型，利用WordNet中同义词集和上位词来增强问答句中的词嵌入表示，并设计了两个基于同义词集和上位词的关系分数的注意力机制，从而捕获更加丰富的问答交互信息，但是，现有的一些答案选择模型虽引入了知识图谱，但是知识实体之间缺少上下文语义关联且未有效引导实体信息帮助模型学习不同语境下的正确语义表示，限制了答案选择模型性能的提升。

发明内容

有鉴于此，本发明的目的在于提供一种基于知识增强图卷积网络的答案选择方法及系统，有利于提高选择正确答案的准确性。

为实现上述目的，本发明采用如下技术方案：一种基于知识增强图卷积网络的答案选择方法，包括以下步骤：

步骤A：在问答平台中收集用户的问题以及回答记录，并标注每一个问题-答案对的真实标签，以此构建训练集DS；

步骤B：使用训练数据集DS以及知识图谱ConceptNet，训练基于知识增强的图卷积神经网络的深度学习网络模型M，通过此模型来分析给定问题，相对应候选答案的正确性；

步骤C：将用户的问题输入到训练好的深度学习网络模型M中，输出匹配的答案。

在一较佳的实施例中，所述步骤B具体包括以下步骤：

步骤B1：对训练数据集DS中的所有训练样本进行初始编码，从而得到问题，答案文本内容的初始特征E^q，E^a、问答对全局语义特征序列E^cls，问题-答案对的句法结构依赖邻接矩阵A，同时从知识图谱ConceptNetc对问题，答案文本进行文本-知识匹配以及多跳知识节点扩展查询，将文本匹配的知识节点和扩展节点相连接，得到知识扩展序列，并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量，最终形成问题和答案的知识扩展序列特征C^q，C^a；

步骤B2：将问题、答案文本内容的初始特征E^q，E^a进行连接，得到问题-答案的文本特征E^qa，通过对E^qa进行掩码计算，得到问题-答案边权重矩阵M_a，将M_a与句法结构依赖邻接矩阵A相乘，得到带有具有边关联权重的句法结构依赖邻接矩阵

步骤B3：将步骤B2得到的问题-答案的文本特征E^qa和具有边关联权重的句法结构依赖邻接矩阵

输入到一个K层图卷积网络中，通过图节点之间句法结构依赖关系引导节点信息传播，学习到问题-答案的文本特征

然后对问题-答案的语义表示E^qa和问题-答案文本原始的结构信息特征

采用注意力的方式进行语义增强，保证节点语义信息的准确度，得到得到问题-答案的语义结构信息特征

步骤B4：将步骤B1得到的问题、答案文本内容的初始特征E^q，E^a和问题、答案的知识扩展序列特征C^q，C^a，输入到两个基于文本语义指导的注意力计算机制，获得问题问题q和答案a的语义引导知识特征

然后将语义引导知识表征

输入到两个多头自注意力机制中，得到自注意力知识表征

将语义引导知识特征

和自注意力知识特征

输入到两个前馈神经网络层中，得到知识的上下文特征H^q，H^a；将识的上下文特征H^q，H^a利用一个门控机制进行过滤融合，获得问题-答案的知识上下文特征H^qa；

步骤B5：将问题-答案的知识上下文特征H^qa和问题-答案的语义结构信息特征

利用注意力计算的方式进行融合，获得知识增强的问题答案对的语义结构信息特征

然后将步骤B1得到的局语义特征矩阵E^cls，输入到一个多尺寸的卷积神经网络之中，得到多粒度的全局语义特征表示

步骤B6：将知识增强的问题答案对的语义结构信息特征

输入到一个BiGRU网络之中，并对BiGRU的隐藏状态输出的序列进行平均池化操作，得到问题-答案对的聚合特征

将问题-答案对的聚合特征

和多粒度的全局语义特征表示

进行拼接，得到最终的问答特征E^final；随后将最终的问答特征E^final输入到一个线性分类层并使用softmax函数进行归一化处理，生成问题-答案之间的相关性分数f(q，a)∈[0，1]；然后根据目标损失函数loss，通过反向传播方法计算深度学习网络模型中各参数的梯度，并利用随机梯度下降方法更新各参数；

步骤B7：当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值、或者达到最大迭代次数，则终止深度学习网络模型的训练过程。

在一较佳的实施例中，所述步骤B1具体包括以下步骤：

步骤B11：对训练集DS进行遍历，对其中的问题和候选答案文本进行分词处理并去除停用词之后，DS中的每一个训练样本表示为ds＝(q，a，p)；其中，q为问题的文本内容，a为问题对应候选答案的内容；p为问题答案对对应的正确与否标签，p∈[0，1]，0：候选答案为错误答案，1：候选答案为正确答案；

问题q表示为：

其中，

为问题q中的第i个词，i＝1，2，...，m，m为问题q的词语数量；

答案a表示为：

其中，

为答案a中的第i个词，i＝1，2，...，n，n为问题a的词语数量；

步骤B12：对步骤B11得到的问题

和答案

进行拼接，并在问题q的前面插入[CLS]标标记，答案a的前后插入[SEP]标记，构造BERT编码模型的问答输入序列X^s；

问答输入序列可以表示为：

其中，m和n分别表示问题q和答案a是词语数量；

步骤B13：将X^s输入到BERT模型中，得到模型的第i层输出序列

模型最后一层输出序列E^s；根据[CLS]和[SEP]标签在E^s序列中的位置，对问题、答案的初始表征向量进行切分，从而分别获得问题、答案的初始表征向量E^q和E^a；连接

中的[CLS]标记，得到问题与答案的全局语义特征E^cls；

其中，模型的第i层输出序列

表示为：

其中，模型最后一层输出序列E^s表示为：

问题q初始特征E^q表示为：

其中

为第i词

对应的词向量，

m为问题序列的长度，d为词向量的维度；

问题a初始特征E^a表示为：

其中

为第i个词

对应的词向量，

n为答案序列的长度，d为词向量的维度；

问题与答案的全局语义特征E^cls表示为：

其中其中

为第i层模型输出的[CLS]标记，

l₁为BERT的编码器层数，d为[CLS]向量维度；

步骤B14：将问题文本

和答案文本

进行连接，得到问题-答案的文本序列

对问题-答案的文本序列X^qa进行进行句法依赖解析，生成无向的句法结构依赖图，并编码为对应的(m+n)阶句法结构依赖邻接矩阵A；

其中A的表示为：

步骤B15：将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展；首先对问题q中的每一个词

知识图谱中进行文本-知识匹配获得其对应的知识节点

同理可获得答案a中每一个词

对应的知识节点

其次，在多跳扩展知识节点的过程中，根据文本匹配知识节点

和知识图谱中节点之间的关系进行多跳的节点选择；将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序，从中选择权重最大的max_n个扩展知识节点；扩展节点和文本匹配知识节点进行连接，形成知识扩展序列；利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量，最终形成问题q和答案a的知识扩展序列特征C^q，C^a；

其中，问题q知识扩展序列特征C^q表示为：

其中，

l₂＝(m+max_n×m)为问题知识扩展序列的长度，d为知识词向量的维度；

为

的扩展知识节点，max_n为扩展节点的个数；

答案a知识扩展序列特征C^a表示为：

其中，

l₃＝(n+max_n×n)为答案知识扩展序列的长度，d为知识词向量的维度；

为

的扩展知识节点，max_n为扩展节点的个数；

在一较佳的实施例中，所述步骤B2具体包括以下步骤：

步骤B21：问题、答案文本内容的初始特征

进行连接，得到问题-答案的文本特征

其中

m+n为问题-答案文本序列长度，d为词向量的维度；

步骤B22：对步骤B21得到的问题-答案的文本特征E^qa进行掩码边权计算，获得边权值矩阵M_a，其计算过程如下：

其中

m+n为序列X^qa的长度，d为E^qa向量的维度，

W₁，W₂为可训练的参数矩阵；

步骤B23：将边权值矩阵M_a与步骤B14得到的句法结构依赖邻接矩阵A进行点乘操作，得到具有边权重的的句法结构依赖邻接矩阵

其计算过程如下：

其中，

⊙为矩阵按位点乘操作。

在一较佳的实施例中，所述步骤B3具体包括以下步骤：

步骤B31：将问题-答案的文本特征E^qa作为图节点的初始表征向量，利用K层图卷积网络在邻接矩阵

上进行图卷积操作，进行图节点信息的更新；节点i的隐藏状态在第k层图卷积网络的更新过程如下：

其中k∈[1，K]，表示图卷积网络的层数，

是节点i在第k层网络输出的隐藏状态Relu()为非线性激活函数，

为可训练参数矩阵，

为偏置向量，d_i表示节点i初始表征向量的维度；

步骤B32：将第K层图卷积网络的隐藏状态进行连接，得到问题-答案原始的结构信息特征

表示如下：

其中，

m+n为问题-答案文本序列长度，d为节点初始表征向量的维度；

步骤B33：将问题-答案的文本特征E^qa和问题-答案原始的结构信息特征

以注意力计算的方式进行语义增强，得到问题-答案的语义结构信息特征

计算公式如下：

其中，

m+n为问题-答案文本序列长度，d为节点初始表征向量的维度，

W₄，W₅为可训练的参数矩阵。

在一较佳的实施例中，所述步骤B4具体包括以下步骤：

步骤B41：将步骤B13得到的问题、答案文本内容的初始特征E^q，E^a和步骤B15得到问题、答案的知识扩展序列特征C^q，C^a，输入到两个基于文本语义指导的注意力计算机制，获得问题q和答案a的语义引导特征

其中

计算公式如下：

其中，

l₂为知识扩展序列特征C^q的长度，

W₆，W₇为可训练的参数矩阵；同理可以获得答案的语义引导知识表征

步骤B42：问题q和答案a的语义引导知识表征

分别输入到两个不同的多头注意力机制中，得到问题和答案的自注意力知识特征

其中，

的计算公式如下：

其中，MHA表示多头注意力机制，num为并行的头数，Q(query)、k(key)，V(value)均为语义引导的问题知识特征

为可训练的参数矩阵，，head_i表示第i个注意力函数的输出，i∈[1，num]；同理获得答案的自注意力知识特征

步骤B43：将问题、答案的自注意力知识特征

和语义引导知识特征

输入到两个线性前馈层网络进行融合，得到知识的上下文特征H^q，H^a；

其中H^q的计算公式如下：

其中，

为可训练的参数矩阵，

为偏置向量；

步骤B45：将问题与答案的知识上下文特征H^q、H^a输入到一个门控机制当中进行过滤融合，从而达到抑制知识噪声，得到问题-答案的知识上下文特征H^qa；

其中H^qa的计算公式如下：

g＝sigmoid(H^qW₁₅：H^aW₁₆)

H^qa＝(1-g)⊙H^q+g_t⊙H^a

其中

l₂为C^q长度，l₃为C^a长度；

为可训练参数，“：”为连接操作。

在一较佳的实施例中，所述步骤B5具体包括以下步骤：

步骤B51：将问题-答案的知识上下文特征H^qa和问题-答案的语义结构信息特征

以注意力计算的方式进行知识增强，得到知识增强的问题答案对的语义结构信息特征

计算公式如下：

其中，

m+n为问题答案对的文本序列X^qa的长度，

为可训练参数；

步骤B52：将步骤B1得到的全局语义特征Ec^ls，输入到一个多尺寸的卷积神经网络之中，得到多粒度的全局语义特征表示

表示为：

其中MCNN()表示多尺寸CNN。

在一较佳的实施例中，所述步骤B6具体包括以下步骤：

步骤B61：将知识增强的问题答案对的语义结构信息特征

输入到一个双向GRU网络的前向层和反向层之中，分别得到前向隐层的状态向量序列

和反向隐层的状态向量序列

其中

步骤B62：将

和

拼接，并通过一个线性层，得到问题答案对的BiGRU的输出序列E^gru；对E^gru进行平均池化，得到问答-答案的聚合特征

计算公式如下：

其中，

为可训练参数，

meanpool()为平均池化函数；

步骤B63：将问答-答案的聚合特征

和多粒度的全局语义特征表示

进行连接，得到最终的问答特征表示E^final；E^final表示如下：

步骤B64：将最终的问答特征Ef^inal输入到一个线性分类层并使用softmax函数进行归一化处理，生成问题-答案之间的相关性分数f(q，a)∈[0，1]，计算公式如下：

f(q，a)＝softamx(E^finalW₁₉+b₄)

其中，

为可训练的参数矩阵，

为偏置向量；

步骤B65：用交叉熵作为损失函数计算损失值，通过梯度优化算法Adam对学习率进行更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型；最小化损失函数L的计算公式如下：

其中f(q，a)_i∈[0，1]是由softmax分类器计算出的问题-答案的相关性分数，y_i∈[0，1]是二元分类标签。

本发明还提供了一种基于知识增强图卷积网络的答案选择系统，系统实行了上述的一种基于知识增强图卷积网络的答案选择方法，包括：

数据收集模块，在问答平台中收集用户的问题以及回答记录，并标注每一个问题-答案对的真实标签，以此构建训练集DS；

文本预处理模块，用于对训练集中的训练样本进行预处理，包括分词处理、去除停用词；

文本编码模块，对训练数据集DS中的所有训练样本进行初始编码，从而得到问题，答案文本内容的初始特征、问答对全局语义特征序列，问题-答案对的句法结构依赖邻接矩阵，同时从知识图谱ConceptNetc对问题，答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征；

网络模型训练模块，用于将问题和答案文本的初始特征、问答对全局语义特征序列，问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中，得到问答对的最终表征向量，利用利用该表征向量预测答案正确性的概率，并通过与训练集中的真实类别标注作为对比计算损失，以最小化损失为目标来对整个深度学习网络进行训练，得到基于知识增强图卷积网络的深度学习网络模型；

答案选择模块，为给定问题选择一个正确答案，利用知识增强图卷积网络的深度学习网络模型对输入的问题进行分析处理，输出问答对相关性分数最高的候选答案，表示该问题所选择到的正确答案。

与现有技术相比，本发明具有以下有益效果：有利于提高选择正确答案的准确性。

附图说明

图1是本发明优选实施例的方法实现流程图；

图2是本发明优选实施例中模型架构图；

图3是本发明优选实施例的系统结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1-3所示，本实施例提供了一种基于知识增强图卷积网络的答案选择方法，包括以下步骤：

步骤C：将用户的问题输入到训练好的深度学习网络模型M中，输出匹配的答案。该方法及系统有利于提高答案选择的准确性；

在本实施例中，所述步骤B具体包括以下步骤：

步骤B1：对训练数据集DS中的所有训练样本进行初始编码，从而得到问题，答案文本内容的初始特征E^q，E^a、问答对全局语义特征序列E^cls，问题-答案对的句法结构依赖邻接矩阵A，同时从知识图谱ConceptNetc对问题，答案文本进行文本-知识匹配以及多跳知识节点扩展查询，将文本匹配的知识节点和扩展节点相连接，得到知识扩展序列，并将将知识扩展序列中的每一个知识节点信息映射为连续的低维向量，最终形成问题和答案的知识扩展序列特征C^q，C^a；所述步骤B1具体包括以下步骤：

问题q表示为：

其中，

答案a表示为：

其中，

为答案a中的第i个词，i＝1，2，...，n，n为问题a的词语数量：

步骤B12：对步骤B11得到的问题

和答案答案

问答输入序列可以表示为：

其中，m和n分别表示问题q和答案a是词语数量；

步骤B13：将X^s输入到BERT模型中，得到模型的第i层输出序列

模型最后一层输出序列E^s；根据根据[CLS]和[SEP]标签在E^s序列中的位置，对问题、答案的初始表征向量进行切分，从而分别获得问题、答案的初始表征向量E^q和E^a；连接

中的[CLS]标记，得到问题与答案的全局语义特征E^cls；

其中，模型的第i层输出序列

表示为：

其中，模型最后一层输出序列E^s表示为：

问题q初始特征E^q表示为：

其中

为第i个词

对应的词向量，

m为问题序列的长度，d为词向量的维度。

问题a初始特征E^a表示为：

其中

为第i词

对应的词向量，

n为答案序列的长度，d为词向量的维度。

问题与答案的全局语义特征E^cls表示为：

其中其中

为第i层模型输出的[CLS]标记，

l₁为BERT的编码器层数，d为[CLS]向量维度。

步骤B14：将问题文本

和答案文本

进行连接，得到问题-答案的文本序列

其中A的表示为：

步骤B15：将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展。首先对问题q中的每一个词

知识图谱中进行文本-知识匹配获得其对应的知识节点

同理可获得答案a中每一个词

对应的知识节点

和知识图谱中节点之间的关系进行多跳的节点选择；将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序，从中选

择权重最大的max_n个扩展知识节点。扩展节点和文本匹配知识节点进行连接，形成知识扩展序列。利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量，最终形成问题q和答案a的知识扩展序列特征C^q，C^a；

其中，问题q知识扩展序列特征C^q表示为：

其中，

l₂＝(m+max_n×m)为问题知识扩展序列的长度，d为知识词向量的维度。

为

的扩展知识节点，max_n为扩展节点的个数。

答案a知识扩展序列特征C^a表示为：

其中，

l₃＝(n+max_n×n)为答案知识扩展序列的长度，d为知识词向量的维度。

为

的扩展知识节点，max_n为扩展节点的个数。

所述步骤B2具体包括以下步骤：

步骤B21：问题、答案文本内容的初始特征

进行连接，得到问题-答案的文本特征

其中

m+n为问题-答案文本序列长度，d为词向量的维度；

步骤B22：对B2１得到的问题-答案的文本特征E^qa进行掩码边权计算，获得边权值矩阵M_a，其计算过程如下：

其中

m+n为序列X^qa的长度，d为E^qa向量的维度，

W₁，W₂为可训练的参数矩阵；

其计算过程如下：

其中，

⊙为矩阵按位点乘操作；

输入到一个K层图卷积网络中，通过图节点之间句法结构依赖关系引导节点信息传播，学习到问题-答案文本原始的结构信息特征

然后对问题-答案的文本特征E^qa和问题-答案文本原始的结构信息特征

所述步骤B3具体包括以下步骤：

上进行图卷积操作，进行图节点信息的更新。节点i的隐藏状态在第k层图卷积网络的更新过程如下：

其中k∈[1,K],表示图卷积网络的层数，

为可训练参数矩阵,

为偏置向量，d_i表示节点i初始表征向量的维度。

表示如下：

其中，

m+n为问题-答案文本序列长度，d为节点初始表征向量的维度：

计算公式如下：

其中，

W₄，W₅为可训练的参数矩阵；

然后将语义引导知识特征

输入到两个多头自注意力机制中，得到自注意力知识表征

为了保证不丢失知识实体自身的语义特征，将语义引导知识表征

和自注意力知识特征

输入到两个前馈神经网络层中，得到知识的上下文特征H^q，H^a；将识的上下文特征H^q，H^a利用一个门控机制进行过滤融合，获得问题-答案的知识上下文特征H^qa；所述步骤B4具体包括以下步骤：

步骤B41：将步骤B13得到的问题、答案文本内容的初始特征E^q，E^a和步骤B15得到问题、答案的知识扩展特征C^q，C^a，输入到两个基于文本语义指导的注意力计算机制，获得问题q和答案a的语义引导知识特征

其中

计算公式如下：

α_q＝softmax(tanh(E^qW₆×(C^qW₇)^T))

其中，

l₂为知识扩展序列特征C^q的长度，

W₆，W₇为可训练的参数矩阵。同理可以获得答案的语义引导知识表征

步骤B42：问题q和答案a的语义引导知识表征

其中，

的计算公式如下：

为可训练的参数矩阵，，head_i表示第i个注意力函数的输出，i∈[1，num]；同理可以获得答案的自注意力知识特征

步骤B43：将问题、答案的自注意力知识特征

和语义引导知识特征

其中H^q的计算公式如下：

其中，

为可训练的参数矩阵，

为偏置向量；

其中H^qa的计算公式如下：

g＝sigmoid(H^qW₁₅：H^aW₁₆)

H^qa＝(1-g)⊙H^q+g_t⊙H^a

其中

l₂为C^q长度，l₃为C^a长度。

为可训练参数，“：”为连接操作。

所述步骤B5具体包括以下步骤：

计算公式如下：

其中，

m+n为问题答案对的文本序列X^qa的长度，

为可训练参数

步骤B52：将步骤B1得到的全局语义特征E^cls，输入到一个多尺寸的卷积神经网络之中，得到多粒度的全局语义特征表示

表示为：

其中MCNN()表示多尺寸CNN。

步骤B6：将知识增强的问题答案对的语义结构信息特征

将问题-答案对的聚合特征

和多粒度的全局语义特征表示

进行拼接，得到最终的问答特征E^final；随后将最终的问答特征E^final输入到一个线性分类层并使用softmax函数进行归一化处理，，生成问题-答案之间的相关性分数f(q，a)∈[0，1]；然后根据目标损失函数loss，通过反向传播方法计算深度学习网络模型中各参数的梯度，并利用随机梯度下降方法更新各参数；所述步骤B6具体包括以下步骤：

步骤B61：将知识增强的问题答案对的语义结构信息特征

和反向隐层的状态向量序列

其中

步骤B62：将

和

计算公式如下：

其中，

为可训练参数，

meanpool()为平均池化函数；

步骤B63：将问答-答案的聚合特征

和多粒度的全局语义特征表示

步骤B64：将最终的问答特征Ef^inal输入到一个线性分类层并使用softmax函数进行归一化处理，，生成问题-答案之间的相关性分数f(q，a)∈[0，1]，计算公式如下：

f(q，a)＝softamx(E^finalW₁₉+b₄)

其中，

为可训练的参数矩阵，

为偏置向量：

如图3所示，本实施例提供了用于实现上述方法的谣答案选择系统，包括：

数据收集模块，在问答平台中收集用户的问题以及回答记录，并标注每一个问题-答案对的真实标签，以此构建训练集DS。

文本预处理模块，用于对训练集中的训练样本进行预处理，包括分词处理、去除停用词等；

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于知识增强图卷积网络的答案选择方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于知识增强图卷积网络的答案选择方法，其特征在于，所述步骤B具体包括以下步骤：

步骤B1：对训练数据集DS中的所有训练样本进行初始编码，从而得到问题、答案文本内容的初始特征E^q、E^a，问答对全局语义特征序列E^cls，问题-答案对的句法结构依赖邻接矩阵A，同时从知识图谱ConceptNet对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询，将文本匹配的知识节点和扩展节点相连接，得到知识扩展序列，并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量，最终形成问题和答案的知识扩展序列特征C^q、C^a；

步骤B2：将问题、答案文本内容的初始特征E^q、E^a进行连接，得到问题-答案的文本特征E^qa，通过对E^qa进行掩码计算，得到问题-答案边权重矩阵M_a，将M_a与句法结构依赖邻接矩阵A相乘，得到带有具有边关联权重的句法结构依赖邻接矩阵

采用注意力的方式进行语义增强，保证节点语义信息的准确度，得到问题-答案的语义结构信息特征

步骤B4：将步骤B1得到的问题、答案文本内容的初始特征E^q、E^a和问题、答案的知识扩展序列特征C^q、C^a，输入到两个基于文本语义指导的注意力计算机制，获得问题q和答案a的语义引导知识特征

然后将语义引导知识特征

输入到两个多头自注意力机制中，得到自注意力知识表征

将语义引导知识表征

和自注意力知识特征

输入到两个前馈神经网络层中，得到知识的上下文特征H^q、H^a；将知识的上下文特征H^q、H^a利用一个门控机制进行过滤融合，获得问题-答案的知识上下文特征H^qa；

利用注意力计算的方式进行融合，获得知识增强的问题-答案的语义结构信息特征

然后将步骤B1得到的局语义特征矩阵E^cls，输入到一个多尺寸的卷积神经网络之中，得到多粒度的全局语义特征

步骤B6：将知识增强的问题-答案的语义结构信息特征

输入到一个BiGRU网络之中，并对BiGRU的隐藏状态输出的序列进行平均池化操作，得到问题-答案的聚合特征

将问题-答案的聚合特征

和多粒度的全局语义特征

进行拼接，得到最终的问答特征E^final；随后将E^final输入到一个线性分类层并使用softmax函数进行归一化处理，生成问题-答案之间的相关性分数f(q，a)∈[0，1]；然后根据目标损失函数loss，通过反向传播方法计算深度学习网络模型中各参数的梯度，并利用随机梯度下降方法更新各参数；

步骤B7：当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值，或者达到最大迭代次数，终止深度学习网络模型的训练过程。

3.根据权利要求2所述的一种基于知识增强图卷积网络的答案选择方法，其特征在于，所述步骤B1具体包括以下步骤：

步骤B11：对训练集DS进行遍历，对其中的问题和候选答案文本进行分词处理并去除停用词之后，DS中的每一个训练样本表示为ds＝(q，a，p)；其中，q为问题的文本内容，a为问题对应的候选答案的文本内容；p为问题与答案是否正确对应的标签，p∈[0，1]，0表示候选答案为错误答案，1表示候选答案为正确答案；问题q表示为：

其中，

答案a表示为：

其中，

为答案a中的第i个词，i＝1，2，...，n，n为答案a的词语数量；

步骤B12：对步骤B11得到的问题

和答案

问答输入序列可以表示为：

其中，m和n分别表示问题q和答案a的词语数量；

步骤B13：将X^s输入到BERT模型中，得到模型的第i层输出序列

中的[CLS]标记，得到问题与答案的全局语义特征E^cls；

其中，模型的第i层输出序列

表示为：

其中，模型最后一层输出序列E^s表示为：

问题q初始特征E^q表示为：

其中

为第i个词

对应的词向量，

m为问题q的词语数量，d为词向量的维度；

问题a初始特征E^a表示为：

其中

为第i词

对应的词向量，

n为答案a的词语数量，d为词向量的维度；

问题与答案的全局语义特征E^cls表示为：

其中

为第i层模型输出的[CLS]标记，

l₁为BERT的编码器层数；

步骤B14：将问题

和答案

进行连接，得到词语序列

对X^qa进行句法依赖解析，生成无向的句法结构依赖图，并编码为对应的(m+n)阶句法结构依赖邻接矩阵A；

其中A的表示为：

在知识图谱中进行文本-知识匹配，获得其对应的知识节点

同理可获得答案a中每一个词

对应的知识节点

其中，问题q的知识扩展序列特征C^q表示为：

其中，

l₂＝(m+max_n×m)为问题知识扩展序列的长度，知识词向量的维度为d；

为

的扩展知识节点，max_n为扩展节点的个数；

答案a的知识扩展序列特征C^a表示为：

其中，

为

的扩展知识节点，max_n为扩展节点的个数。

4.根据权利要求3所述的一种基于知识增强图卷积网络的答案选择方法，其特征在于，所述步骤B2具体包括以下步骤：

步骤B21：问题、答案文本内容的初始特征

进行连接，得到问题-答案的文本特征

其中

m+n为问题-答案文本序列长度，d为词向量的维度；步骤B22：对步骤B21得到的问题-答案的文本特征E^qa进行掩码边权计算，获得边权值矩阵M_a，其计算过程如下：

其中

m+n为X^qa的长度，d为E^qa向量的维度，

W₁，W₂为可训练的参数矩阵；

其计算过程如下：

其中，

⊙为矩阵按位点乘操作。

5.根据权利要求4所述的一种基于知识增强图卷积网络的答案选择方法，其特征在于，所述步骤B3具体包括以下步骤：

其中k∈[1，K]，表示图卷积网络的层数，

为可训练参数矩阵，

为偏置向量，d_i表示节点i初始表征向量的维度；

表示如下：

其中，

计算公式如下：

其中，

W₄，W₅为可训练的参数矩阵。

6.根据权利要求5所述的一种基于知识增强图卷积网络的答案选择方法，其特征在于，所述步骤B4具体包括以下步骤：

步骤B41：将步骤B13得到的问题、答案文本内容的初始特征E^q、E^a和步骤B15得到问题、答案的知识扩展序列特征C^q、C^a，输入到两个基于文本语义指导的注意力计算机制，获得问题q和答案a的语义引导知识特征

其中

计算公式如下：

α_q＝softmax(tanh(E^qW₆×(C^qW₎ ^T))

其中，

l₂为知识扩展序列特征C^q的长度，

步骤B42：问题q和答案a的语义引导知识表征

其中，

的计算公式如下：

步骤B43：将问题、答案的自注意力知识特征

和语义引导知识特征

输入到两个线性前馈层网络进行融合，得到知识的上下文特征H^q、H^a；

其中H^q的计算公式如下：

其中，

为可训练的参数矩阵，

为偏置向量；

其中H^qa的计算公式如下：

g＝sigmoid(H^qW₁₅：H^aW₁₆)

H^qa＝(1-g)⊙H^q+g_t⊙H^a

其中

l₂为C^q长度，l₃为C^a长度；

为可训练参数，“：”为连接操作。

7.根据权利要求6所述的一种基于知识增强图卷积网络的答案选择方法，其特征在于，所述步骤B5具体包括以下步骤：

计算公式如下：

其中，

m+n为问题答案对的文本序列X^qa的长度，

为可训练参数；

步骤B52：将步骤B1得到的全局语义特征E^cls，输入到一个多尺寸的卷积神经网络之中，得到多粒度的全局语义特征

表示为：

其中MCNN()表示多尺寸CNN。

8.根据权利要求7所述的一种基于知识增强图卷积网络的答案选择方法，其特征在于，所述步骤B6具体包括以下步骤：

步骤B61：将知识增强的问题答案对的语义结构信息特征

输入到一个双向GRU网络的前向层和反向层之中，分别得到前向隐层的状态特征

和反向隐层的状态特征

其中

步骤B62：将

和

拼接，并通过一个线性层，得到问题答案对的BiGRU的输出特征E^gru；对E^gru进行平均池化，得到问题-答案的聚合特征

计算公式如下：

其中，

为可训练参数，

meanpool()为平均池化函数；

步骤B63：将问题-答案的聚合特征

和多粒度的全局语义特征

步骤B64：将最终的问答特征E^final输入到一个线性分类层并使用softmax函数进行归一化处理，生成问题-答案之间的相关性分数f(q，a)∈[0，1]，计算公式如下：

f(q，a)＝softamx(E^finalW₁₉+b₄)

其中，

为可训练的参数矩阵，

为偏置向量：

9.一种基于知识增强图卷积网络的答案选择系统，其特征在于采用了上述权利要求1至8中任意一项所述的一种基于知识增强图卷积网络的答案选择方法，包括：

数据收集模块，在问答平台中收集用户的问题以及回答记录，并标注每一个问题-答案的真实标签，以此构建训练集DS；

文本编码模块，对训练数据集DS中的所有训练样本进行初始编码，从而得到问题，答案文本内容的初始特征、问答对全局语义特征序列，问题-答案的句法结构依赖邻接矩阵，同时从知识图谱ConceptNet对问题，答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征；

网络模型训练模块，用于将问题和答案文本的初始特征、问题-答案全局语义特征，问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中，得到问答对的最终特征，利用利用该问答对的最终特征预测答案正确性的概率，并通过与训练集中的真实类别标注作为对比计算损失，以最小化损失为目标来对整个深度学习网络进行训练，得到基于知识增强图卷积网络的深度学习网络模型；