CN116028604A - 一种基于知识增强图卷积网络的答案选择方法及系统 - Google Patents
一种基于知识增强图卷积网络的答案选择方法及系统 Download PDFInfo
- Publication number
- CN116028604A CN116028604A CN202211464352.3A CN202211464352A CN116028604A CN 116028604 A CN116028604 A CN 116028604A CN 202211464352 A CN202211464352 A CN 202211464352A CN 116028604 A CN116028604 A CN 116028604A
- Authority
- CN
- China
- Prior art keywords
- answer
- knowledge
- question
- feature
- questions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000013135 deep learning Methods 0.000 claims abstract description 31
- 239000008186 active pharmaceutical agent Substances 0.000 claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000002372 labelling Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 66
- 239000011159 matrix material Substances 0.000 claims description 62
- 238000000034 method Methods 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 24
- 238000005096 rolling process Methods 0.000 claims description 23
- 238000012512 characterization method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 230000001419 dependent effect Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims 1
- 230000007480 spreading Effects 0.000 description 6
- 238000003892 spreading Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识增强图卷积网络的答案选择方法及系统,包括以下步骤:步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题‑答案对的真实标签,以此构建训练集DS;步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案;应用本技术方案有利于提高答案选择的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是一种基于知识增强图卷积网络的答案选择方法及系统。
背景技术
答案选择(Answer Selection)答案选择是问答领域的一个重要子任务,在信息检索(IR)和自然语言处理(NLP)的众多应用中发挥这十分重要的作用。随着互联网的迅速发展,互联网相继涌现了大量的问答社区,如:知乎,Quora,StackOverflow,等,人们热衷于在问答社区中提出问题,获取答案。在用户的长期广泛参与下,互联网上产生了海量问题-答案数据对,伴随着信息量的激增,通过人力的手段对于问答系统中的信息进行过滤和甄别变得难以为继;同时由于问答系统中网络信息的剧增,在问答系统中当前用户提出的问题常常被不断涌现的新问题所淹没,没有办法得到一个快速的响应。因此,迫切需要一种能够有效进行答案选择的自动化方法,判断问题和众多候选答案之间的匹配关系,从中选择出最佳答案并将其尽可能的排在答案列表前列。
随着深度学习方法研究的不断深入,许多研究人员也将深度学习模型应用到答案选择领域中。基于基于深度学习的问答匹配模型通常基于融合注意力机制的卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)或预训练语言模型。采用CNN获得问题、答案文本的局部语义信息。RNN可以构建文本序列的语义依赖关系。注意力机制使得模型能够更加关注问答对中关键语义部分。根据不同单词之间的文本关系例如句法关系将问答对抽象成图数据结构,GNN则可以根据不同单词之间的文本关系将问答对抽象成图数据结构,对图节点间的依赖关系进行建模。预训练语言模型的出现极大推动自然语言处理领域的发展。预训练语言模型可以从海量的无标注文本中学习到潜在的语义信息。一些研究学者开展将预训练语言模型应用于答案选择任务的研究工作。Devlin等人提出一个基于Transformer架构训练自然语言处理的通用模型BERT,并将其应用于答案选择任务。但是现有不论是采用神经网络还是基于预训练语言模型的答案选择模型主要专注于获得问题、答案文本中单词之间的上下文语义关联信息的特征表示,未充分考虑从语法结构的角度挖掘问题与答案之间的依赖信息,限制了模型对文本语义信息的理解。
此外,一些研究工作将知识图谱引入答案选择任务,也取得了一定进展。知识图谱中的事实背景包含大量实体信息,在问答匹配的过程中能够提供有效的常识性推理信息,提高答案选择的准确度。Li和Wu等人提出词网增强层次模型,利用WordNet中同义词集和上位词来增强问答句中的词嵌入表示,并设计了两个基于同义词集和上位词的关系分数的注意力机制,从而捕获更加丰富的问答交互信息,但是,现有的一些答案选择模型虽引入了知识图谱,但是知识实体之间缺少上下文语义关联且未有效引导实体信息帮助模型学习不同语境下的正确语义表示,限制了答案选择模型性能的提升。
发明内容
有鉴于此,本发明的目的在于提供一种基于知识增强图卷积网络的答案选择方法及系统,有利于提高选择正确答案的准确性。
为实现上述目的,本发明采用如下技术方案:一种基于知识增强图卷积网络的答案选择方法,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。
在一较佳的实施例中,所述步骤B具体包括以下步骤:
步骤B1:对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征Eq,Ea、问答对全局语义特征序列Ecls,问题-答案对的句法结构依赖邻接矩阵A,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到知识扩展序列,并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq,Ca;
步骤B2:将问题、答案文本内容的初始特征Eq,Ea进行连接,得到问题-答案的文本特征Eqa,通过对Eqa进行掩码计算,得到问题-答案边权重矩阵Ma,将Ma与句法结构依赖邻接矩阵A相乘,得到带有具有边关联权重的句法结构依赖邻接矩阵
步骤B3:将步骤B2得到的问题-答案的文本特征Eqa和具有边关联权重的句法结构依赖邻接矩阵输入到一个K层图卷积网络中,通过图节点之间句法结构依赖关系引导节点信息传播,学习到问题-答案的文本特征然后对问题-答案的语义表示Eqa和问题-答案文本原始的结构信息特征采用注意力的方式进行语义增强,保证节点语义信息的准确度,得到得到问题-答案的语义结构信息特征
步骤B4:将步骤B1得到的问题、答案文本内容的初始特征Eq,Ea和问题、答案的知识扩展序列特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题问题q和答案a的语义引导知识特征然后将语义引导知识表征输入到两个多头自注意力机制中,得到自注意力知识表征将语义引导知识特征和自注意力知识特征
步骤B5:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征利用注意力计算的方式进行融合,获得知识增强的问题答案对的语义结构信息特征然后将步骤B1得到的局语义特征矩阵Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征表示
步骤B6:将知识增强的问题答案对的语义结构信息特征输入到一个BiGRU网络之中,并对BiGRU的隐藏状态输出的序列进行平均池化操作,得到问题-答案对的聚合特征将问题-答案对的聚合特征和多粒度的全局语义特征表示进行拼接,得到最终的问答特征Efinal;随后将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;
步骤B7:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值、或者达到最大迭代次数,则终止深度学习网络模型的训练过程。
在一较佳的实施例中,所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应候选答案的内容;p为问题答案对对应的正确与否标签,p∈[0,1],0:候选答案为错误答案,1:候选答案为正确答案;
问题q表示为:
答案a表示为:
问答输入序列可以表示为:
其中,m和n分别表示问题q和答案a是词语数量;
步骤B13:将Xs输入到BERT模型中,得到模型的第i层输出序列模型最后一层输出序列Es;根据[CLS]和[SEP]标签在Es序列中的位置,对问题、答案的初始表征向量进行切分,从而分别获得问题、答案的初始表征向量Eq和Ea;连接中的[CLS]标记,得到问题与答案的全局语义特征Ecls;
其中,模型最后一层输出序列Es表示为:
问题q初始特征Eq表示为:
问题a初始特征Ea表示为:
问题与答案的全局语义特征Ecls表示为:
其中A的表示为:
步骤B15:将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展;首先对问题q中的每一个词知识图谱中进行文本-知识匹配获得其对应的知识节点同理可获得答案a中每一个词对应的知识节点其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选择权重最大的max_n个扩展知识节点;扩展节点和文本匹配知识节点进行连接,形成知识扩展序列;利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca;
其中,问题q知识扩展序列特征Cq表示为:
答案a知识扩展序列特征Ca表示为:
在一较佳的实施例中,所述步骤B2具体包括以下步骤:
步骤B22:对步骤B21得到的问题-答案的文本特征Eqa进行掩码边权计算,获得边权值矩阵Ma,其计算过程如下:
在一较佳的实施例中,所述步骤B3具体包括以下步骤:
在一较佳的实施例中,所述步骤B4具体包括以下步骤:
步骤B41:将步骤B13得到的问题、答案文本内容的初始特征Eq,Ea和步骤B15得到问题、答案的知识扩展序列特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导特征
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key),V(value)均为语义引导的问题知识特征 为可训练的参数矩阵,,headi表示第i个注意力函数的输出,i∈[1,num];同理获得答案的自注意力知识特征
其中Hq的计算公式如下:
步骤B45:将问题与答案的知识上下文特征Hq、Ha输入到一个门控机制当中进行过滤融合,从而达到抑制知识噪声,得到问题-答案的知识上下文特征Hqa;
其中Hqa的计算公式如下:
g=sigmoid(HqW15:HaW16)
Hqa=(1-g)⊙Hq+gt⊙Ha
在一较佳的实施例中,所述步骤B5具体包括以下步骤:
其中MCNN()表示多尺寸CNN。
在一较佳的实施例中,所述步骤B6具体包括以下步骤:
步骤B64:将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1],计算公式如下:
f(q,a)=softamx(EfinalW19+b4)
步骤B65:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;最小化损失函数L的计算公式如下:
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
本发明还提供了一种基于知识增强图卷积网络的答案选择系统,系统实行了上述的一种基于知识增强图卷积网络的答案选择方法,包括:
数据收集模块,在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词;
文本编码模块,对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中,得到问答对的最终表征向量,利用利用该表征向量预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于知识增强图卷积网络的深度学习网络模型;
答案选择模块,为给定问题选择一个正确答案,利用知识增强图卷积网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
与现有技术相比,本发明具有以下有益效果:有利于提高选择正确答案的准确性。
附图说明
图1是本发明优选实施例的方法实现流程图;
图2是本发明优选实施例中模型架构图;
图3是本发明优选实施例的系统结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1-3所示,本实施例提供了一种基于知识增强图卷积网络的答案选择方法,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。该方法及系统有利于提高答案选择的准确性;
在本实施例中,所述步骤B具体包括以下步骤:
步骤B1:对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征Eq,Ea、问答对全局语义特征序列Ecls,问题-答案对的句法结构依赖邻接矩阵A,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到知识扩展序列,并将将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq,Ca;所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应候选答案的内容;p为问题答案对对应的正确与否标签,p∈[0,1],0:候选答案为错误答案,1:候选答案为正确答案;
问题q表示为:
答案a表示为:
问答输入序列可以表示为:
其中,m和n分别表示问题q和答案a是词语数量;
步骤B13:将Xs输入到BERT模型中,得到模型的第i层输出序列模型最后一层输出序列Es;根据根据[CLS]和[SEP]标签在Es序列中的位置,对问题、答案的初始表征向量进行切分,从而分别获得问题、答案的初始表征向量Eq和Ea;连接中的[CLS]标记,得到问题与答案的全局语义特征Ecls;
其中,模型最后一层输出序列Es表示为:
问题q初始特征Eq表示为:
问题a初始特征Ea表示为:
问题与答案的全局语义特征Ecls表示为:
其中A的表示为:
步骤B15:将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展。首先对问题q中的每一个词知识图谱中进行文本-知识匹配获得其对应的知识节点同理可获得答案a中每一个词对应的知识节点其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选
择权重最大的max_n个扩展知识节点。扩展节点和文本匹配知识节点进行连接,形成知识扩展序列。利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca;
其中,问题q知识扩展序列特征Cq表示为:
答案a知识扩展序列特征Ca表示为:
步骤B2:将问题、答案文本内容的初始特征Eq,Ea进行连接,得到问题-答案的文本特征Eqa,通过对Eqa进行掩码计算,得到问题-答案边权重矩阵Ma,将Ma与句法结构依赖邻接矩阵A相乘,得到带有具有边关联权重的句法结构依赖邻接矩阵所述步骤B2具体包括以下步骤:
步骤B22:对B21得到的问题-答案的文本特征Eqa进行掩码边权计算,获得边权值矩阵Ma,其计算过程如下:
步骤B3:将步骤B2得到的问题-答案的文本特征Eqa和具有边关联权重的句法结构依赖邻接矩阵输入到一个K层图卷积网络中,通过图节点之间句法结构依赖关系引导节点信息传播,学习到问题-答案文本原始的结构信息特征然后对问题-答案的文本特征Eqa和问题-答案文本原始的结构信息特征采用注意力的方式进行语义增强,保证节点语义信息的准确度,得到得到问题-答案的语义结构信息特征所述步骤B3具体包括以下步骤:
步骤B4:将步骤B1得到的问题、答案文本内容的初始特征Eq,Ea和问题、答案的知识扩展序列特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题问题q和答案a的语义引导知识特征然后将语义引导知识特征输入到两个多头自注意力机制中,得到自注意力知识表征为了保证不丢失知识实体自身的语义特征,将语义引导知识表征和自注意力知识特征输入到两个前馈神经网络层中,得到知识的上下文特征Hq,Ha;将识的上下文特征Hq,Ha利用一个门控机制进行过滤融合,获得问题-答案的知识上下文特征Hqa;所述步骤B4具体包括以下步骤:
步骤B41:将步骤B13得到的问题、答案文本内容的初始特征Eq,Ea和步骤B15得到问题、答案的知识扩展特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导知识特征
αq=softmax(tanh(EqW6×(CqW7)T))
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key),V(value)均为语义引导的问题知识特征 为可训练的参数矩阵,,headi表示第i个注意力函数的输出,i∈[1,num];同理可以获得答案的自注意力知识特征
其中Hq的计算公式如下:
步骤B45:将问题与答案的知识上下文特征Hq、Ha输入到一个门控机制当中进行过滤融合,从而达到抑制知识噪声,得到问题-答案的知识上下文特征Hqa;
其中Hqa的计算公式如下:
g=sigmoid(HqW15:HaW16)
Hqa=(1-g)⊙Hq+gt⊙Ha
步骤B5:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征利用注意力计算的方式进行融合,获得知识增强的问题答案对的语义结构信息特征然后将步骤B1得到的局语义特征矩阵Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征表示所述步骤B5具体包括以下步骤:
其中MCNN()表示多尺寸CNN。
步骤B6:将知识增强的问题答案对的语义结构信息特征输入到一个BiGRU网络之中,并对BiGRU的隐藏状态输出的序列进行平均池化操作,得到问题-答案对的聚合特征将问题-答案对的聚合特征和多粒度的全局语义特征表示进行拼接,得到最终的问答特征Efinal;随后将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,,生成问题-答案之间的相关性分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;所述步骤B6具体包括以下步骤:
步骤B64:将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,,生成问题-答案之间的相关性分数f(q,a)∈[0,1],计算公式如下:
f(q,a)=softamx(EfinalW19+b4)
步骤B65:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;最小化损失函数L的计算公式如下:
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
步骤B7:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值、或者达到最大迭代次数,则终止深度学习网络模型的训练过程。
如图3所示,本实施例提供了用于实现上述方法的谣答案选择系统,包括:
数据收集模块,在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS。
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词等;
文本编码模块,对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中,得到问答对的最终表征向量,利用利用该表征向量预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于知识增强图卷积网络的深度学习网络模型;
答案选择模块,为给定问题选择一个正确答案,利用知识增强图卷积网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (9)
1.一种基于知识增强图卷积网络的答案选择方法,其特征在于,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。
2.根据权利要求1所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B具体包括以下步骤:
步骤B1:对训练数据集DS中的所有训练样本进行初始编码,从而得到问题、答案文本内容的初始特征Eq、Ea,问答对全局语义特征序列Ecls,问题-答案对的句法结构依赖邻接矩阵A,同时从知识图谱ConceptNet对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到知识扩展序列,并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq、Ca;
步骤B2:将问题、答案文本内容的初始特征Eq、Ea进行连接,得到问题-答案的文本特征Eqa,通过对Eqa进行掩码计算,得到问题-答案边权重矩阵Ma,将Ma与句法结构依赖邻接矩阵A相乘,得到带有具有边关联权重的句法结构依赖邻接矩阵
步骤B3:将步骤B2得到的问题-答案的文本特征Eqa和具有边关联权重的句法结构依赖邻接矩阵输入到一个K层图卷积网络中,通过图节点之间句法结构依赖关系引导节点信息传播,学习到问题-答案文本原始的结构信息特征然后对问题-答案的文本特征Eqa和问题-答案文本原始的结构信息特征采用注意力的方式进行语义增强,保证节点语义信息的准确度,得到问题-答案的语义结构信息特征
步骤B4:将步骤B1得到的问题、答案文本内容的初始特征Eq、Ea和问题、答案的知识扩展序列特征Cq、Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导知识特征然后将语义引导知识特征输入到两个多头自注意力机制中,得到自注意力知识表征将语义引导知识表征和自注意力知识特征输入到两个前馈神经网络层中,得到知识的上下文特征Hq、Ha;将知识的上下文特征Hq、Ha利用一个门控机制进行过滤融合,获得问题-答案的知识上下文特征Hqa;
步骤B5:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征利用注意力计算的方式进行融合,获得知识增强的问题-答案的语义结构信息特征然后将步骤B1得到的局语义特征矩阵Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征
步骤B6:将知识增强的问题-答案的语义结构信息特征输入到一个BiGRU网络之中,并对BiGRU的隐藏状态输出的序列进行平均池化操作,得到问题-答案的聚合特征将问题-答案的聚合特征和多粒度的全局语义特征进行拼接,得到最终的问答特征Efinal;随后将Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;
步骤B7:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值,或者达到最大迭代次数,终止深度学习网络模型的训练过程。
3.根据权利要求2所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应的候选答案的文本内容;p为问题与答案是否正确对应的标签,p∈[0,1],0表示候选答案为错误答案,1表示候选答案为正确答案;问题q表示为:
答案a表示为:
问答输入序列可以表示为:
其中,m和n分别表示问题q和答案a的词语数量;
步骤B13:将Xs输入到BERT模型中,得到模型的第i层输出序列模型最后一层输出序列Es;根据[CLS]和[SEP]标签在Es序列中的位置,对问题、答案的初始表征向量进行切分,从而分别获得问题、答案的初始表征向量Eq和Ea;连接中的[CLS]标记,得到问题与答案的全局语义特征Ecls;
其中,模型最后一层输出序列Es表示为:
问题q初始特征Eq表示为:
问题a初始特征Ea表示为:
问题与答案的全局语义特征Ecls表示为:
其中A的表示为:
步骤B15:将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展;首先对问题q中的每一个词在知识图谱中进行文本-知识匹配,获得其对应的知识节点同理可获得答案a中每一个词对应的知识节点其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选择权重最大的max_n个扩展知识节点;扩展节点和文本匹配知识节点进行连接,形成知识扩展序列;利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca;
其中,问题q的知识扩展序列特征Cq表示为:
答案a的知识扩展序列特征Ca表示为:
4.根据权利要求3所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B2具体包括以下步骤:
5.根据权利要求4所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B3具体包括以下步骤:
6.根据权利要求5所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B4具体包括以下步骤:
步骤B41:将步骤B13得到的问题、答案文本内容的初始特征Eq、Ea和步骤B15得到问题、答案的知识扩展序列特征Cq、Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导知识特征
αq=softmax(tanh(EqW6×(CqW) T))
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key),V(value)均为语义引导的问题知识特征 为可训练的参数矩阵,,headi表示第i个注意力函数的输出,i∈[1,num];同理获得答案的自注意力知识特征
其中Hq的计算公式如下:
步骤B45:将问题与答案的知识上下文特征Hq、Ha输入到一个门控机制当中进行过滤融合,从而达到抑制知识噪声,得到问题-答案的知识上下文特征Hqa;
其中Hqa的计算公式如下:
g=sigmoid(HqW15:HaW16)
Hqa=(1-g)⊙Hq+gt⊙Ha
8.根据权利要求7所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B6具体包括以下步骤:
步骤B64:将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1],计算公式如下:
f(q,a)=softamx(EfinalW19+b4)
步骤B65:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;最小化损失函数L的计算公式如下:
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
9.一种基于知识增强图卷积网络的答案选择系统,其特征在于采用了上述权利要求1至8中任意一项所述的一种基于知识增强图卷积网络的答案选择方法,包括:
数据收集模块,在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案的真实标签,以此构建训练集DS;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词;
文本编码模块,对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征、问答对全局语义特征序列,问题-答案的句法结构依赖邻接矩阵,同时从知识图谱ConceptNet对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问题-答案全局语义特征,问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中,得到问答对的最终特征,利用利用该问答对的最终特征预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于知识增强图卷积网络的深度学习网络模型;
答案选择模块,为给定问题选择一个正确答案,利用知识增强图卷积网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211464352.3A CN116028604A (zh) | 2022-11-22 | 2022-11-22 | 一种基于知识增强图卷积网络的答案选择方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211464352.3A CN116028604A (zh) | 2022-11-22 | 2022-11-22 | 一种基于知识增强图卷积网络的答案选择方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116028604A true CN116028604A (zh) | 2023-04-28 |
Family
ID=86078491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211464352.3A Pending CN116028604A (zh) | 2022-11-22 | 2022-11-22 | 一种基于知识增强图卷积网络的答案选择方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028604A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595158A (zh) * | 2023-07-18 | 2023-08-15 | 山东鲁商通科技有限公司 | 一种基于Transformer模型的用户交互方法及系统 |
CN116992007A (zh) * | 2023-09-28 | 2023-11-03 | 北京致远互联软件股份有限公司 | 基于问题意图理解的限定问答系统 |
CN117764085A (zh) * | 2024-01-11 | 2024-03-26 | 华中师范大学 | 一种基于跨图协同建模的机器阅读理解方法 |
-
2022
- 2022-11-22 CN CN202211464352.3A patent/CN116028604A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595158A (zh) * | 2023-07-18 | 2023-08-15 | 山东鲁商通科技有限公司 | 一种基于Transformer模型的用户交互方法及系统 |
CN116595158B (zh) * | 2023-07-18 | 2023-09-05 | 山东鲁商通科技有限公司 | 一种基于Transformer模型的用户交互方法及系统 |
CN116992007A (zh) * | 2023-09-28 | 2023-11-03 | 北京致远互联软件股份有限公司 | 基于问题意图理解的限定问答系统 |
CN116992007B (zh) * | 2023-09-28 | 2023-12-08 | 北京致远互联软件股份有限公司 | 基于问题意图理解的限定问答系统 |
CN117764085A (zh) * | 2024-01-11 | 2024-03-26 | 华中师范大学 | 一种基于跨图协同建模的机器阅读理解方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256065B (zh) | 基于关系检测和强化学习的知识图谱推理方法 | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN116028604A (zh) | 一种基于知识增强图卷积网络的答案选择方法及系统 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN112667818A (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 | |
CN116361438A (zh) | 基于文本-知识扩展图协同推理网络的问答方法及系统 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115510226A (zh) | 一种基于图神经网络的情感分类方法 | |
CN109766546A (zh) | 一种基于神经网络的自然语言推理方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN114238649B (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN114492459A (zh) | 基于知识图谱与交互图卷积的评论情感分析方法及系统 | |
CN110297894A (zh) | 一种基于辅助网络的智能对话生成方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN116701665A (zh) | 基于深度学习的中医古籍知识图谱构建方法 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
CN115374281B (zh) | 基于多粒度融合和图卷积网络的会话情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |