CN116028604A - 一种基于知识增强图卷积网络的答案选择方法及系统 - Google Patents

一种基于知识增强图卷积网络的答案选择方法及系统 Download PDF

Info

Publication number
CN116028604A
CN116028604A CN202211464352.3A CN202211464352A CN116028604A CN 116028604 A CN116028604 A CN 116028604A CN 202211464352 A CN202211464352 A CN 202211464352A CN 116028604 A CN116028604 A CN 116028604A
Authority
CN
China
Prior art keywords
answer
knowledge
question
feature
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211464352.3A
Other languages
English (en)
Inventor
陈羽中
郑超凡
徐俊杰
李炜炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202211464352.3A priority Critical patent/CN116028604A/zh
Publication of CN116028604A publication Critical patent/CN116028604A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识增强图卷积网络的答案选择方法及系统,包括以下步骤:步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题‑答案对的真实标签,以此构建训练集DS;步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案;应用本技术方案有利于提高答案选择的准确性。

Description

一种基于知识增强图卷积网络的答案选择方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是一种基于知识增强图卷积网络的答案选择方法及系统。
背景技术
答案选择(Answer Selection)答案选择是问答领域的一个重要子任务,在信息检索(IR)和自然语言处理(NLP)的众多应用中发挥这十分重要的作用。随着互联网的迅速发展,互联网相继涌现了大量的问答社区,如:知乎,Quora,StackOverflow,等,人们热衷于在问答社区中提出问题,获取答案。在用户的长期广泛参与下,互联网上产生了海量问题-答案数据对,伴随着信息量的激增,通过人力的手段对于问答系统中的信息进行过滤和甄别变得难以为继;同时由于问答系统中网络信息的剧增,在问答系统中当前用户提出的问题常常被不断涌现的新问题所淹没,没有办法得到一个快速的响应。因此,迫切需要一种能够有效进行答案选择的自动化方法,判断问题和众多候选答案之间的匹配关系,从中选择出最佳答案并将其尽可能的排在答案列表前列。
随着深度学习方法研究的不断深入,许多研究人员也将深度学习模型应用到答案选择领域中。基于基于深度学习的问答匹配模型通常基于融合注意力机制的卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)或预训练语言模型。采用CNN获得问题、答案文本的局部语义信息。RNN可以构建文本序列的语义依赖关系。注意力机制使得模型能够更加关注问答对中关键语义部分。根据不同单词之间的文本关系例如句法关系将问答对抽象成图数据结构,GNN则可以根据不同单词之间的文本关系将问答对抽象成图数据结构,对图节点间的依赖关系进行建模。预训练语言模型的出现极大推动自然语言处理领域的发展。预训练语言模型可以从海量的无标注文本中学习到潜在的语义信息。一些研究学者开展将预训练语言模型应用于答案选择任务的研究工作。Devlin等人提出一个基于Transformer架构训练自然语言处理的通用模型BERT,并将其应用于答案选择任务。但是现有不论是采用神经网络还是基于预训练语言模型的答案选择模型主要专注于获得问题、答案文本中单词之间的上下文语义关联信息的特征表示,未充分考虑从语法结构的角度挖掘问题与答案之间的依赖信息,限制了模型对文本语义信息的理解。
此外,一些研究工作将知识图谱引入答案选择任务,也取得了一定进展。知识图谱中的事实背景包含大量实体信息,在问答匹配的过程中能够提供有效的常识性推理信息,提高答案选择的准确度。Li和Wu等人提出词网增强层次模型,利用WordNet中同义词集和上位词来增强问答句中的词嵌入表示,并设计了两个基于同义词集和上位词的关系分数的注意力机制,从而捕获更加丰富的问答交互信息,但是,现有的一些答案选择模型虽引入了知识图谱,但是知识实体之间缺少上下文语义关联且未有效引导实体信息帮助模型学习不同语境下的正确语义表示,限制了答案选择模型性能的提升。
发明内容
有鉴于此,本发明的目的在于提供一种基于知识增强图卷积网络的答案选择方法及系统,有利于提高选择正确答案的准确性。
为实现上述目的,本发明采用如下技术方案:一种基于知识增强图卷积网络的答案选择方法,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。
在一较佳的实施例中,所述步骤B具体包括以下步骤:
步骤B1:对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征Eq,Ea、问答对全局语义特征序列Ecls,问题-答案对的句法结构依赖邻接矩阵A,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到知识扩展序列,并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq,Ca
步骤B2:将问题、答案文本内容的初始特征Eq,Ea进行连接,得到问题-答案的文本特征Eqa,通过对Eqa进行掩码计算,得到问题-答案边权重矩阵Ma,将Ma与句法结构依赖邻接矩阵A相乘,得到带有具有边关联权重的句法结构依赖邻接矩阵
Figure SMS_1
步骤B3:将步骤B2得到的问题-答案的文本特征Eqa和具有边关联权重的句法结构依赖邻接矩阵
Figure SMS_2
输入到一个K层图卷积网络中,通过图节点之间句法结构依赖关系引导节点信息传播,学习到问题-答案的文本特征
Figure SMS_3
然后对问题-答案的语义表示Eqa和问题-答案文本原始的结构信息特征
Figure SMS_4
采用注意力的方式进行语义增强,保证节点语义信息的准确度,得到得到问题-答案的语义结构信息特征
Figure SMS_5
步骤B4:将步骤B1得到的问题、答案文本内容的初始特征Eq,Ea和问题、答案的知识扩展序列特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题问题q和答案a的语义引导知识特征
Figure SMS_6
然后将语义引导知识表征
Figure SMS_7
输入到两个多头自注意力机制中,得到自注意力知识表征
Figure SMS_8
将语义引导知识特征
Figure SMS_9
和自注意力知识特征
Figure SMS_10
输入到两个前馈神经网络层中,得到知识的上下文特征Hq,Ha;将识的上下文特征Hq,Ha利用一个门控机制进行过滤融合,获得问题-答案的知识上下文特征Hqa
步骤B5:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征
Figure SMS_11
利用注意力计算的方式进行融合,获得知识增强的问题答案对的语义结构信息特征
Figure SMS_12
然后将步骤B1得到的局语义特征矩阵Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征表示
Figure SMS_13
步骤B6:将知识增强的问题答案对的语义结构信息特征
Figure SMS_14
输入到一个BiGRU网络之中,并对BiGRU的隐藏状态输出的序列进行平均池化操作,得到问题-答案对的聚合特征
Figure SMS_15
将问题-答案对的聚合特征
Figure SMS_16
和多粒度的全局语义特征表示
Figure SMS_17
进行拼接,得到最终的问答特征Efinal;随后将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;
步骤B7:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值、或者达到最大迭代次数,则终止深度学习网络模型的训练过程。
在一较佳的实施例中,所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应候选答案的内容;p为问题答案对对应的正确与否标签,p∈[0,1],0:候选答案为错误答案,1:候选答案为正确答案;
问题q表示为:
Figure SMS_18
其中,
Figure SMS_19
为问题q中的第i个词,i=1,2,...,m,m为问题q的词语数量;
答案a表示为:
Figure SMS_20
其中,
Figure SMS_21
为答案a中的第i个词,i=1,2,...,n,n为问题a的词语数量;
步骤B12:对步骤B11得到的问题
Figure SMS_22
和答案
Figure SMS_23
Figure SMS_24
进行拼接,并在问题q的前面插入[CLS]标标记,答案a的前后插入[SEP]标记,构造BERT编码模型的问答输入序列Xs
问答输入序列可以表示为:
Figure SMS_25
其中,m和n分别表示问题q和答案a是词语数量;
步骤B13:将Xs输入到BERT模型中,得到模型的第i层输出序列
Figure SMS_26
模型最后一层输出序列Es;根据[CLS]和[SEP]标签在Es序列中的位置,对问题、答案的初始表征向量进行切分,从而分别获得问题、答案的初始表征向量Eq和Ea;连接
Figure SMS_27
中的[CLS]标记,得到问题与答案的全局语义特征Ecls
其中,模型的第i层输出序列
Figure SMS_28
表示为:
Figure SMS_29
其中,模型最后一层输出序列Es表示为:
Figure SMS_30
问题q初始特征Eq表示为:
Figure SMS_31
其中
Figure SMS_32
为第i词
Figure SMS_33
对应的词向量,
Figure SMS_34
m为问题序列的长度,d为词向量的维度;
问题a初始特征Ea表示为:
Figure SMS_35
其中
Figure SMS_36
为第i个词
Figure SMS_37
对应的词向量,
Figure SMS_38
n为答案序列的长度,d为词向量的维度;
问题与答案的全局语义特征Ecls表示为:
Figure SMS_39
其中其中
Figure SMS_40
为第i层模型输出的[CLS]标记,
Figure SMS_41
l1为BERT的编码器层数,d为[CLS]向量维度;
步骤B14:将问题文本
Figure SMS_42
和答案文本
Figure SMS_43
Figure SMS_44
进行连接,得到问题-答案的文本序列
Figure SMS_45
Figure SMS_46
对问题-答案的文本序列Xqa进行进行句法依赖解析,生成无向的句法结构依赖图,并编码为对应的(m+n)阶句法结构依赖邻接矩阵A;
其中A的表示为:
Figure SMS_47
Figure SMS_48
步骤B15:将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展;首先对问题q中的每一个词
Figure SMS_49
知识图谱中进行文本-知识匹配获得其对应的知识节点
Figure SMS_50
同理可获得答案a中每一个词
Figure SMS_51
对应的知识节点
Figure SMS_52
其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点
Figure SMS_53
和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选择权重最大的max_n个扩展知识节点;扩展节点和文本匹配知识节点进行连接,形成知识扩展序列;利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca
其中,问题q知识扩展序列特征Cq表示为:
Figure SMS_54
其中,
Figure SMS_55
l2=(m+max_n×m)为问题知识扩展序列的长度,d为知识词向量的维度;
Figure SMS_56
Figure SMS_57
的扩展知识节点,max_n为扩展节点的个数;
答案a知识扩展序列特征Ca表示为:
Figure SMS_58
其中,
Figure SMS_59
l3=(n+max_n×n)为答案知识扩展序列的长度,d为知识词向量的维度;
Figure SMS_60
Figure SMS_61
的扩展知识节点,max_n为扩展节点的个数;
在一较佳的实施例中,所述步骤B2具体包括以下步骤:
步骤B21:问题、答案文本内容的初始特征
Figure SMS_62
Figure SMS_63
进行连接,得到问题-答案的文本特征
Figure SMS_64
Figure SMS_65
其中
Figure SMS_66
m+n为问题-答案文本序列长度,d为词向量的维度;
步骤B22:对步骤B21得到的问题-答案的文本特征Eqa进行掩码边权计算,获得边权值矩阵Ma,其计算过程如下:
Figure SMS_67
其中
Figure SMS_68
m+n为序列Xqa的长度,d为Eqa向量的维度,
Figure SMS_69
W1,W2为可训练的参数矩阵;
步骤B23:将边权值矩阵Ma与步骤B14得到的句法结构依赖邻接矩阵A进行点乘操作,得到具有边权重的的句法结构依赖邻接矩阵
Figure SMS_70
其计算过程如下:
Figure SMS_71
其中,
Figure SMS_72
⊙为矩阵按位点乘操作。
在一较佳的实施例中,所述步骤B3具体包括以下步骤:
步骤B31:将问题-答案的文本特征Eqa作为图节点的初始表征向量,利用K层图卷积网络在邻接矩阵
Figure SMS_73
上进行图卷积操作,进行图节点信息的更新;节点i的隐藏状态在第k层图卷积网络的更新过程如下:
Figure SMS_74
Figure SMS_75
其中k∈[1,K],表示图卷积网络的层数,
Figure SMS_76
是节点i在第k层网络输出的隐藏状态Relu()为非线性激活函数,
Figure SMS_77
为可训练参数矩阵,
Figure SMS_78
为偏置向量,di表示节点i初始表征向量的维度;
步骤B32:将第K层图卷积网络的隐藏状态进行连接,得到问题-答案原始的结构信息特征
Figure SMS_79
表示如下:
Figure SMS_80
其中,
Figure SMS_81
m+n为问题-答案文本序列长度,d为节点初始表征向量的维度;
步骤B33:将问题-答案的文本特征Eqa和问题-答案原始的结构信息特征
Figure SMS_82
以注意力计算的方式进行语义增强,得到问题-答案的语义结构信息特征
Figure SMS_83
计算公式如下:
Figure SMS_84
Figure SMS_85
其中,
Figure SMS_86
m+n为问题-答案文本序列长度,d为节点初始表征向量的维度,
Figure SMS_87
W4,W5为可训练的参数矩阵。
在一较佳的实施例中,所述步骤B4具体包括以下步骤:
步骤B41:将步骤B13得到的问题、答案文本内容的初始特征Eq,Ea和步骤B15得到问题、答案的知识扩展序列特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导特征
Figure SMS_88
其中
Figure SMS_89
计算公式如下:
Figure SMS_90
Figure SMS_91
其中,
Figure SMS_92
l2为知识扩展序列特征Cq的长度,
Figure SMS_93
Figure SMS_94
W6,W7为可训练的参数矩阵;同理可以获得答案的语义引导知识表征
Figure SMS_95
步骤B42:问题q和答案a的语义引导知识表征
Figure SMS_96
分别输入到两个不同的多头注意力机制中,得到问题和答案的自注意力知识特征
Figure SMS_97
其中,
Figure SMS_98
的计算公式如下:
Figure SMS_99
Figure SMS_100
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key),V(value)均为语义引导的问题知识特征
Figure SMS_101
Figure SMS_102
Figure SMS_103
为可训练的参数矩阵,,headi表示第i个注意力函数的输出,i∈[1,num];同理获得答案的自注意力知识特征
Figure SMS_104
步骤B43:将问题、答案的自注意力知识特征
Figure SMS_105
和语义引导知识特征
Figure SMS_106
输入到两个线性前馈层网络进行融合,得到知识的上下文特征Hq,Ha
其中Hq的计算公式如下:
Figure SMS_107
其中,
Figure SMS_108
为可训练的参数矩阵,
Figure SMS_109
Figure SMS_110
为偏置向量;
步骤B45:将问题与答案的知识上下文特征Hq、Ha输入到一个门控机制当中进行过滤融合,从而达到抑制知识噪声,得到问题-答案的知识上下文特征Hqa
其中Hqa的计算公式如下:
g=sigmoid(HqW15:HaW16)
Hqa=(1-g)⊙Hq+gt⊙Ha
其中
Figure SMS_111
l2为Cq长度,l3为Ca长度;
Figure SMS_112
为可训练参数,“:”为连接操作。
在一较佳的实施例中,所述步骤B5具体包括以下步骤:
步骤B51:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征
Figure SMS_113
以注意力计算的方式进行知识增强,得到知识增强的问题答案对的语义结构信息特征
Figure SMS_114
计算公式如下:
Figure SMS_115
Figure SMS_116
其中,
Figure SMS_117
m+n为问题答案对的文本序列Xqa的长度,
Figure SMS_118
为可训练参数;
步骤B52:将步骤B1得到的全局语义特征Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征表示
Figure SMS_119
Figure SMS_120
表示为:
Figure SMS_121
其中MCNN()表示多尺寸CNN。
在一较佳的实施例中,所述步骤B6具体包括以下步骤:
步骤B61:将知识增强的问题答案对的语义结构信息特征
Figure SMS_122
输入到一个双向GRU网络的前向层和反向层之中,分别得到前向隐层的状态向量序列
Figure SMS_123
和反向隐层的状态向量序列
Figure SMS_124
Figure SMS_125
其中
Figure SMS_126
步骤B62:将
Figure SMS_127
Figure SMS_128
拼接,并通过一个线性层,得到问题答案对的BiGRU的输出序列Egru;对Egru进行平均池化,得到问答-答案的聚合特征
Figure SMS_129
计算公式如下:
Figure SMS_130
Figure SMS_131
其中,
Figure SMS_132
为可训练参数,
Figure SMS_133
meanpool()为平均池化函数;
步骤B63:将问答-答案的聚合特征
Figure SMS_134
和多粒度的全局语义特征表示
Figure SMS_135
进行连接,得到最终的问答特征表示Efinal;Efinal表示如下:
Figure SMS_136
步骤B64:将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1],计算公式如下:
f(q,a)=softamx(EfinalW19+b4)
其中,
Figure SMS_137
为可训练的参数矩阵,
Figure SMS_138
为偏置向量;
步骤B65:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;最小化损失函数L的计算公式如下:
Figure SMS_139
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
本发明还提供了一种基于知识增强图卷积网络的答案选择系统,系统实行了上述的一种基于知识增强图卷积网络的答案选择方法,包括:
数据收集模块,在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词;
文本编码模块,对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中,得到问答对的最终表征向量,利用利用该表征向量预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于知识增强图卷积网络的深度学习网络模型;
答案选择模块,为给定问题选择一个正确答案,利用知识增强图卷积网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
与现有技术相比,本发明具有以下有益效果:有利于提高选择正确答案的准确性。
附图说明
图1是本发明优选实施例的方法实现流程图;
图2是本发明优选实施例中模型架构图;
图3是本发明优选实施例的系统结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1-3所示,本实施例提供了一种基于知识增强图卷积网络的答案选择方法,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。该方法及系统有利于提高答案选择的准确性;
在本实施例中,所述步骤B具体包括以下步骤:
步骤B1:对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征Eq,Ea、问答对全局语义特征序列Ecls,问题-答案对的句法结构依赖邻接矩阵A,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到知识扩展序列,并将将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq,Ca;所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应候选答案的内容;p为问题答案对对应的正确与否标签,p∈[0,1],0:候选答案为错误答案,1:候选答案为正确答案;
问题q表示为:
Figure SMS_140
其中,
Figure SMS_141
为问题q中的第i个词,i=1,2,...,m,m为问题q的词语数量;
答案a表示为:
Figure SMS_142
其中,
Figure SMS_143
为答案a中的第i个词,i=1,2,...,n,n为问题a的词语数量:
步骤B12:对步骤B11得到的问题
Figure SMS_144
和答案答案
Figure SMS_145
Figure SMS_146
进行拼接,并在问题q的前面插入[CLS]标标记,答案a的前后插入[SEP]标记,构造BERT编码模型的问答输入序列Xs
问答输入序列可以表示为:
Figure SMS_147
其中,m和n分别表示问题q和答案a是词语数量;
步骤B13:将Xs输入到BERT模型中,得到模型的第i层输出序列
Figure SMS_148
模型最后一层输出序列Es;根据根据[CLS]和[SEP]标签在Es序列中的位置,对问题、答案的初始表征向量进行切分,从而分别获得问题、答案的初始表征向量Eq和Ea;连接
Figure SMS_149
中的[CLS]标记,得到问题与答案的全局语义特征Ecls
其中,模型的第i层输出序列
Figure SMS_150
表示为:
Figure SMS_151
其中,模型最后一层输出序列Es表示为:
Figure SMS_152
问题q初始特征Eq表示为:
Figure SMS_153
其中
Figure SMS_154
为第i个词
Figure SMS_155
对应的词向量,
Figure SMS_156
m为问题序列的长度,d为词向量的维度。
问题a初始特征Ea表示为:
Figure SMS_157
其中
Figure SMS_158
为第i词
Figure SMS_159
对应的词向量,
Figure SMS_160
n为答案序列的长度,d为词向量的维度。
问题与答案的全局语义特征Ecls表示为:
Figure SMS_161
其中其中
Figure SMS_162
为第i层模型输出的[CLS]标记,
Figure SMS_163
l1为BERT的编码器层数,d为[CLS]向量维度。
步骤B14:将问题文本
Figure SMS_164
和答案文本
Figure SMS_165
Figure SMS_166
进行连接,得到问题-答案的文本序列
Figure SMS_167
Figure SMS_168
对问题-答案的文本序列Xqa进行进行句法依赖解析,生成无向的句法结构依赖图,并编码为对应的(m+n)阶句法结构依赖邻接矩阵A;
其中A的表示为:
Figure SMS_169
Figure SMS_170
步骤B15:将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展。首先对问题q中的每一个词
Figure SMS_171
知识图谱中进行文本-知识匹配获得其对应的知识节点
Figure SMS_172
同理可获得答案a中每一个词
Figure SMS_173
对应的知识节点
Figure SMS_174
其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点
Figure SMS_175
和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选
择权重最大的max_n个扩展知识节点。扩展节点和文本匹配知识节点进行连接,形成知识扩展序列。利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca
其中,问题q知识扩展序列特征Cq表示为:
Figure SMS_176
其中,
Figure SMS_177
l2=(m+max_n×m)为问题知识扩展序列的长度,d为知识词向量的维度。
Figure SMS_178
Figure SMS_179
的扩展知识节点,max_n为扩展节点的个数。
答案a知识扩展序列特征Ca表示为:
Figure SMS_180
其中,
Figure SMS_181
l3=(n+max_n×n)为答案知识扩展序列的长度,d为知识词向量的维度。
Figure SMS_182
Figure SMS_183
的扩展知识节点,max_n为扩展节点的个数。
步骤B2:将问题、答案文本内容的初始特征Eq,Ea进行连接,得到问题-答案的文本特征Eqa,通过对Eqa进行掩码计算,得到问题-答案边权重矩阵Ma,将Ma与句法结构依赖邻接矩阵A相乘,得到带有具有边关联权重的句法结构依赖邻接矩阵
Figure SMS_184
所述步骤B2具体包括以下步骤:
步骤B21:问题、答案文本内容的初始特征
Figure SMS_185
Figure SMS_186
进行连接,得到问题-答案的文本特征
Figure SMS_187
Figure SMS_188
其中
Figure SMS_189
m+n为问题-答案文本序列长度,d为词向量的维度;
步骤B22:对B21得到的问题-答案的文本特征Eqa进行掩码边权计算,获得边权值矩阵Ma,其计算过程如下:
Figure SMS_190
其中
Figure SMS_191
m+n为序列Xqa的长度,d为Eqa向量的维度,
Figure SMS_192
W1,W2为可训练的参数矩阵;
步骤B23:将边权值矩阵Ma与步骤B14得到的句法结构依赖邻接矩阵A进行点乘操作,得到具有边权重的的句法结构依赖邻接矩阵
Figure SMS_193
其计算过程如下:
Figure SMS_194
其中,
Figure SMS_195
⊙为矩阵按位点乘操作;
步骤B3:将步骤B2得到的问题-答案的文本特征Eqa和具有边关联权重的句法结构依赖邻接矩阵
Figure SMS_196
输入到一个K层图卷积网络中,通过图节点之间句法结构依赖关系引导节点信息传播,学习到问题-答案文本原始的结构信息特征
Figure SMS_197
然后对问题-答案的文本特征Eqa和问题-答案文本原始的结构信息特征
Figure SMS_198
采用注意力的方式进行语义增强,保证节点语义信息的准确度,得到得到问题-答案的语义结构信息特征
Figure SMS_199
所述步骤B3具体包括以下步骤:
步骤B31:将问题-答案的文本特征Eqa作为图节点的初始表征向量,利用K层图卷积网络在邻接矩阵
Figure SMS_200
上进行图卷积操作,进行图节点信息的更新。节点i的隐藏状态在第k层图卷积网络的更新过程如下:
Figure SMS_201
Figure SMS_202
其中k∈[1,K],表示图卷积网络的层数,
Figure SMS_203
是节点i在第k层网络输出的隐藏状态Relu()为非线性激活函数,
Figure SMS_204
为可训练参数矩阵,
Figure SMS_205
为偏置向量,di表示节点i初始表征向量的维度。
步骤B32:将第K层图卷积网络的隐藏状态进行连接,得到问题-答案原始的结构信息特征
Figure SMS_206
Figure SMS_207
表示如下:
Figure SMS_208
其中,
Figure SMS_209
m+n为问题-答案文本序列长度,d为节点初始表征向量的维度:
步骤B33:将问题-答案的文本特征Eqa和问题-答案原始的结构信息特征
Figure SMS_210
以注意力计算的方式进行语义增强,得到问题-答案的语义结构信息特征
Figure SMS_211
计算公式如下:
Figure SMS_212
Figure SMS_213
其中,
Figure SMS_214
m+n为问题-答案文本序列长度,d为节点初始表征向量的维度,
Figure SMS_215
W4,W5为可训练的参数矩阵;
步骤B4:将步骤B1得到的问题、答案文本内容的初始特征Eq,Ea和问题、答案的知识扩展序列特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题问题q和答案a的语义引导知识特征
Figure SMS_216
然后将语义引导知识特征
Figure SMS_217
输入到两个多头自注意力机制中,得到自注意力知识表征
Figure SMS_218
为了保证不丢失知识实体自身的语义特征,将语义引导知识表征
Figure SMS_219
和自注意力知识特征
Figure SMS_220
输入到两个前馈神经网络层中,得到知识的上下文特征Hq,Ha;将识的上下文特征Hq,Ha利用一个门控机制进行过滤融合,获得问题-答案的知识上下文特征Hqa;所述步骤B4具体包括以下步骤:
步骤B41:将步骤B13得到的问题、答案文本内容的初始特征Eq,Ea和步骤B15得到问题、答案的知识扩展特征Cq,Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导知识特征
Figure SMS_221
其中
Figure SMS_222
计算公式如下:
αq=softmax(tanh(EqW6×(CqW7)T))
Figure SMS_223
其中,
Figure SMS_224
l2为知识扩展序列特征Cq的长度,
Figure SMS_225
Figure SMS_226
W6,W7为可训练的参数矩阵。同理可以获得答案的语义引导知识表征
Figure SMS_227
步骤B42:问题q和答案a的语义引导知识表征
Figure SMS_228
分别输入到两个不同的多头注意力机制中,得到问题和答案的自注意力知识特征
Figure SMS_229
其中,
Figure SMS_230
的计算公式如下:
Figure SMS_231
Figure SMS_232
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key),V(value)均为语义引导的问题知识特征
Figure SMS_233
Figure SMS_234
Figure SMS_235
为可训练的参数矩阵,,headi表示第i个注意力函数的输出,i∈[1,num];同理可以获得答案的自注意力知识特征
Figure SMS_236
步骤B43:将问题、答案的自注意力知识特征
Figure SMS_237
和语义引导知识特征
Figure SMS_238
输入到两个线性前馈层网络进行融合,得到知识的上下文特征Hq,Ha
其中Hq的计算公式如下:
Figure SMS_239
其中,
Figure SMS_240
为可训练的参数矩阵,
Figure SMS_241
Figure SMS_242
为偏置向量;
步骤B45:将问题与答案的知识上下文特征Hq、Ha输入到一个门控机制当中进行过滤融合,从而达到抑制知识噪声,得到问题-答案的知识上下文特征Hqa
其中Hqa的计算公式如下:
g=sigmoid(HqW15:HaW16)
Hqa=(1-g)⊙Hq+gt⊙Ha
其中
Figure SMS_243
l2为Cq长度,l3为Ca长度。
Figure SMS_244
为可训练参数,“:”为连接操作。
步骤B5:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征
Figure SMS_245
利用注意力计算的方式进行融合,获得知识增强的问题答案对的语义结构信息特征
Figure SMS_246
然后将步骤B1得到的局语义特征矩阵Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征表示
Figure SMS_247
所述步骤B5具体包括以下步骤:
步骤B51:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征
Figure SMS_248
以注意力计算的方式进行知识增强,得到知识增强的问题答案对的语义结构信息特征
Figure SMS_249
Figure SMS_250
计算公式如下:
Figure SMS_251
Figure SMS_252
其中,
Figure SMS_253
m+n为问题答案对的文本序列Xqa的长度,
Figure SMS_254
为可训练参数
步骤B52:将步骤B1得到的全局语义特征Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征表示
Figure SMS_255
Figure SMS_256
表示为:
Figure SMS_257
其中MCNN()表示多尺寸CNN。
步骤B6:将知识增强的问题答案对的语义结构信息特征
Figure SMS_258
输入到一个BiGRU网络之中,并对BiGRU的隐藏状态输出的序列进行平均池化操作,得到问题-答案对的聚合特征
Figure SMS_259
将问题-答案对的聚合特征
Figure SMS_260
和多粒度的全局语义特征表示
Figure SMS_261
进行拼接,得到最终的问答特征Efinal;随后将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,,生成问题-答案之间的相关性分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;所述步骤B6具体包括以下步骤:
步骤B61:将知识增强的问题答案对的语义结构信息特征
Figure SMS_262
输入到一个双向GRU网络的前向层和反向层之中,分别得到前向隐层的状态向量序列
Figure SMS_263
和反向隐层的状态向量序列
Figure SMS_264
Figure SMS_265
其中
Figure SMS_266
步骤B62:将
Figure SMS_267
Figure SMS_268
拼接,并通过一个线性层,得到问题答案对的BiGRU的输出序列Egru;对Egru进行平均池化,得到问答-答案的聚合特征
Figure SMS_269
计算公式如下:
Figure SMS_270
Figure SMS_271
其中,
Figure SMS_272
为可训练参数,
Figure SMS_273
meanpool()为平均池化函数;
步骤B63:将问答-答案的聚合特征
Figure SMS_274
和多粒度的全局语义特征表示
Figure SMS_275
进行连接,得到最终的问答特征表示Efinal;Efinal表示如下:
Figure SMS_276
步骤B64:将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,,生成问题-答案之间的相关性分数f(q,a)∈[0,1],计算公式如下:
f(q,a)=softamx(EfinalW19+b4)
其中,
Figure SMS_277
为可训练的参数矩阵,
Figure SMS_278
为偏置向量:
步骤B65:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;最小化损失函数L的计算公式如下:
Figure SMS_279
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
步骤B7:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值、或者达到最大迭代次数,则终止深度学习网络模型的训练过程。
如图3所示,本实施例提供了用于实现上述方法的谣答案选择系统,包括:
数据收集模块,在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS。
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词等;
文本编码模块,对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵,同时从知识图谱ConceptNetc对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问答对全局语义特征序列,问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中,得到问答对的最终表征向量,利用利用该表征向量预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于知识增强图卷积网络的深度学习网络模型;
答案选择模块,为给定问题选择一个正确答案,利用知识增强图卷积网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (9)

1.一种基于知识增强图卷积网络的答案选择方法,其特征在于,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练数据集DS以及知识图谱ConceptNet,训练基于知识增强的图卷积神经网络的深度学习网络模型M,通过此模型来分析给定问题,相对应候选答案的正确性;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。
2.根据权利要求1所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B具体包括以下步骤:
步骤B1:对训练数据集DS中的所有训练样本进行初始编码,从而得到问题、答案文本内容的初始特征Eq、Ea,问答对全局语义特征序列Ecls,问题-答案对的句法结构依赖邻接矩阵A,同时从知识图谱ConceptNet对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到知识扩展序列,并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq、Ca
步骤B2:将问题、答案文本内容的初始特征Eq、Ea进行连接,得到问题-答案的文本特征Eqa,通过对Eqa进行掩码计算,得到问题-答案边权重矩阵Ma,将Ma与句法结构依赖邻接矩阵A相乘,得到带有具有边关联权重的句法结构依赖邻接矩阵
Figure FDA0003955676060000011
步骤B3:将步骤B2得到的问题-答案的文本特征Eqa和具有边关联权重的句法结构依赖邻接矩阵
Figure FDA0003955676060000021
输入到一个K层图卷积网络中,通过图节点之间句法结构依赖关系引导节点信息传播,学习到问题-答案文本原始的结构信息特征
Figure FDA0003955676060000022
然后对问题-答案的文本特征Eqa和问题-答案文本原始的结构信息特征
Figure FDA0003955676060000023
采用注意力的方式进行语义增强,保证节点语义信息的准确度,得到问题-答案的语义结构信息特征
Figure FDA0003955676060000024
步骤B4:将步骤B1得到的问题、答案文本内容的初始特征Eq、Ea和问题、答案的知识扩展序列特征Cq、Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导知识特征
Figure FDA0003955676060000025
然后将语义引导知识特征
Figure FDA0003955676060000026
输入到两个多头自注意力机制中,得到自注意力知识表征
Figure FDA0003955676060000027
将语义引导知识表征
Figure FDA0003955676060000028
和自注意力知识特征
Figure FDA0003955676060000029
输入到两个前馈神经网络层中,得到知识的上下文特征Hq、Ha;将知识的上下文特征Hq、Ha利用一个门控机制进行过滤融合,获得问题-答案的知识上下文特征Hqa
步骤B5:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征
Figure FDA00039556760600000210
利用注意力计算的方式进行融合,获得知识增强的问题-答案的语义结构信息特征
Figure FDA00039556760600000211
然后将步骤B1得到的局语义特征矩阵Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征
Figure FDA00039556760600000212
步骤B6:将知识增强的问题-答案的语义结构信息特征
Figure FDA00039556760600000213
输入到一个BiGRU网络之中,并对BiGRU的隐藏状态输出的序列进行平均池化操作,得到问题-答案的聚合特征
Figure FDA00039556760600000214
将问题-答案的聚合特征
Figure FDA00039556760600000215
和多粒度的全局语义特征
Figure FDA00039556760600000216
进行拼接,得到最终的问答特征Efinal;随后将Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;
步骤B7:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值,或者达到最大迭代次数,终止深度学习网络模型的训练过程。
3.根据权利要求2所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应的候选答案的文本内容;p为问题与答案是否正确对应的标签,p∈[0,1],0表示候选答案为错误答案,1表示候选答案为正确答案;问题q表示为:
Figure FDA0003955676060000031
其中,
Figure FDA0003955676060000032
为问题q中的第i个词,i=1,2,...,m,m为问题q的词语数量;
答案a表示为:
Figure FDA0003955676060000033
其中,
Figure FDA0003955676060000034
为答案a中的第i个词,i=1,2,...,n,n为答案a的词语数量;
步骤B12:对步骤B11得到的问题
Figure FDA0003955676060000035
和答案
Figure FDA0003955676060000036
Figure FDA0003955676060000037
进行拼接,并在问题q的前面插入[CLS]标标记,答案a的前后插入[SEP]标记,构造BERT编码模型的问答输入序列Xs
问答输入序列可以表示为:
Figure FDA0003955676060000041
其中,m和n分别表示问题q和答案a的词语数量;
步骤B13:将Xs输入到BERT模型中,得到模型的第i层输出序列
Figure FDA00039556760600000414
模型最后一层输出序列Es;根据[CLS]和[SEP]标签在Es序列中的位置,对问题、答案的初始表征向量进行切分,从而分别获得问题、答案的初始表征向量Eq和Ea;连接
Figure FDA0003955676060000042
中的[CLS]标记,得到问题与答案的全局语义特征Ecls
其中,模型的第i层输出序列
Figure FDA0003955676060000043
表示为:
Figure FDA0003955676060000044
其中,模型最后一层输出序列Es表示为:
Figure FDA0003955676060000045
问题q初始特征Eq表示为:
Figure FDA0003955676060000046
其中
Figure FDA0003955676060000047
为第i个词
Figure FDA0003955676060000048
对应的词向量,
Figure FDA0003955676060000049
m为问题q的词语数量,d为词向量的维度;
问题a初始特征Ea表示为:
Figure FDA00039556760600000410
其中
Figure FDA00039556760600000411
为第i词
Figure FDA00039556760600000412
对应的词向量,
Figure FDA00039556760600000413
n为答案a的词语数量,d为词向量的维度;
问题与答案的全局语义特征Ecls表示为:
Figure FDA0003955676060000051
其中
Figure FDA0003955676060000052
为第i层模型输出的[CLS]标记,
Figure FDA0003955676060000053
l1为BERT的编码器层数;
步骤B14:将问题
Figure FDA0003955676060000054
和答案
Figure FDA0003955676060000055
进行连接,得到词语序列
Figure FDA0003955676060000056
对Xqa进行句法依赖解析,生成无向的句法结构依赖图,并编码为对应的(m+n)阶句法结构依赖邻接矩阵A;
其中A的表示为:
Figure FDA0003955676060000057
Figure FDA0003955676060000058
步骤B15:将问题q和答案a中的每一个单词在知识图谱ConceptNet中进行问文本-知识匹配和多跳节点扩展;首先对问题q中的每一个词
Figure FDA0003955676060000059
在知识图谱中进行文本-知识匹配,获得其对应的知识节点
Figure FDA00039556760600000510
同理可获得答案a中每一个词
Figure FDA00039556760600000511
对应的知识节点
Figure FDA00039556760600000512
其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点
Figure FDA00039556760600000513
和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选择权重最大的max_n个扩展知识节点;扩展节点和文本匹配知识节点进行连接,形成知识扩展序列;利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca
其中,问题q的知识扩展序列特征Cq表示为:
Figure FDA0003955676060000061
其中,
Figure FDA0003955676060000062
l2=(m+max_n×m)为问题知识扩展序列的长度,知识词向量的维度为d;
Figure FDA0003955676060000063
Figure FDA0003955676060000064
的扩展知识节点,max_n为扩展节点的个数;
答案a的知识扩展序列特征Ca表示为:
Figure FDA0003955676060000065
其中,
Figure FDA0003955676060000066
l3=(n+max_n×n)为答案知识扩展序列的长度,d为知识词向量的维度;
Figure FDA0003955676060000067
Figure FDA0003955676060000068
的扩展知识节点,max_n为扩展节点的个数。
4.根据权利要求3所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21:问题、答案文本内容的初始特征
Figure FDA0003955676060000069
Figure FDA00039556760600000610
进行连接,得到问题-答案的文本特征
Figure FDA00039556760600000611
Figure FDA00039556760600000612
其中
Figure FDA00039556760600000613
m+n为问题-答案文本序列长度,d为词向量的维度;步骤B22:对步骤B21得到的问题-答案的文本特征Eqa进行掩码边权计算,获得边权值矩阵Ma,其计算过程如下:
Figure FDA00039556760600000614
其中
Figure FDA00039556760600000615
m+n为Xqa的长度,d为Eqa向量的维度,
Figure FDA00039556760600000616
Figure FDA00039556760600000617
W1,W2为可训练的参数矩阵;
步骤B23:将边权值矩阵Ma与步骤B14得到的句法结构依赖邻接矩阵A进行点乘操作,得到具有边权重的的句法结构依赖邻接矩阵
Figure FDA0003955676060000071
其计算过程如下:
Figure FDA0003955676060000072
其中,
Figure FDA0003955676060000073
⊙为矩阵按位点乘操作。
5.根据权利要求4所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B3具体包括以下步骤:
步骤B31:将问题-答案的文本特征Eqa作为图节点的初始表征向量,利用K层图卷积网络在邻接矩阵
Figure FDA0003955676060000074
上进行图卷积操作,进行图节点信息的更新;节点i的隐藏状态在第k层图卷积网络的更新过程如下:
Figure FDA0003955676060000075
Figure FDA0003955676060000076
其中k∈[1,K],表示图卷积网络的层数,
Figure FDA0003955676060000077
是节点i在第k层网络输出的隐藏状态Relu()为非线性激活函数,
Figure FDA0003955676060000078
为可训练参数矩阵,
Figure FDA0003955676060000079
为偏置向量,di表示节点i初始表征向量的维度;
步骤B32:将第K层图卷积网络的隐藏状态进行连接,得到问题-答案原始的结构信息特征
Figure FDA00039556760600000710
表示如下:
Figure FDA00039556760600000711
其中,
Figure FDA00039556760600000712
m+n为问题-答案文本序列长度,d为节点初始表征向量的维度;
步骤B33:将问题-答案的文本特征Eqa和问题-答案原始的结构信息特征
Figure FDA00039556760600000713
以注意力计算的方式进行语义增强,得到问题-答案的语义结构信息特征
Figure FDA0003955676060000081
计算公式如下:
Figure FDA0003955676060000082
Figure FDA0003955676060000083
其中,
Figure FDA0003955676060000084
m+n为问题-答案文本序列长度,d为节点初始表征向量的维度,
Figure FDA0003955676060000085
W4,W5为可训练的参数矩阵。
6.根据权利要求5所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B4具体包括以下步骤:
步骤B41:将步骤B13得到的问题、答案文本内容的初始特征Eq、Ea和步骤B15得到问题、答案的知识扩展序列特征Cq、Ca,输入到两个基于文本语义指导的注意力计算机制,获得问题q和答案a的语义引导知识特征
Figure FDA0003955676060000086
其中
Figure FDA0003955676060000087
计算公式如下:
αq=softmax(tanh(EqW6×(CqW) T))
Figure FDA0003955676060000088
其中,
Figure FDA0003955676060000089
l2为知识扩展序列特征Cq的长度,
Figure FDA00039556760600000810
Figure FDA00039556760600000811
W6,W7为可训练的参数矩阵;同理可以获得答案的语义引导知识表征
Figure FDA00039556760600000812
步骤B42:问题q和答案a的语义引导知识表征
Figure FDA00039556760600000813
分别输入到两个不同的多头注意力机制中,得到问题和答案的自注意力知识特征
Figure FDA00039556760600000814
其中,
Figure FDA00039556760600000815
的计算公式如下:
Figure FDA00039556760600000816
Figure FDA0003955676060000091
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key),V(value)均为语义引导的问题知识特征
Figure FDA0003955676060000092
Figure FDA0003955676060000093
为可训练的参数矩阵,,headi表示第i个注意力函数的输出,i∈[1,num];同理获得答案的自注意力知识特征
Figure FDA0003955676060000094
步骤B43:将问题、答案的自注意力知识特征
Figure FDA0003955676060000095
和语义引导知识特征
Figure FDA0003955676060000096
输入到两个线性前馈层网络进行融合,得到知识的上下文特征Hq、Ha
其中Hq的计算公式如下:
Figure FDA0003955676060000097
其中,
Figure FDA0003955676060000098
为可训练的参数矩阵,
Figure FDA0003955676060000099
Figure FDA00039556760600000910
为偏置向量;
步骤B45:将问题与答案的知识上下文特征Hq、Ha输入到一个门控机制当中进行过滤融合,从而达到抑制知识噪声,得到问题-答案的知识上下文特征Hqa
其中Hqa的计算公式如下:
g=sigmoid(HqW15:HaW16)
Hqa=(1-g)⊙Hq+gt⊙Ha
其中
Figure FDA00039556760600000911
l2为Cq长度,l3为Ca长度;
Figure FDA00039556760600000912
为可训练参数,“:”为连接操作。
7.根据权利要求6所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B5具体包括以下步骤:
步骤B51:将问题-答案的知识上下文特征Hqa和问题-答案的语义结构信息特征
Figure FDA0003955676060000101
以注意力计算的方式进行知识增强,得到知识增强的问题答案对的语义结构信息特征
Figure FDA0003955676060000102
计算公式如下:
Figure FDA0003955676060000103
Figure FDA0003955676060000104
其中,
Figure FDA0003955676060000105
m+n为问题答案对的文本序列Xqa的长度,
Figure FDA0003955676060000106
为可训练参数;
步骤B52:将步骤B1得到的全局语义特征Ecls,输入到一个多尺寸的卷积神经网络之中,得到多粒度的全局语义特征
Figure FDA0003955676060000107
表示为:
Figure FDA0003955676060000108
其中MCNN()表示多尺寸CNN。
8.根据权利要求7所述的一种基于知识增强图卷积网络的答案选择方法,其特征在于,所述步骤B6具体包括以下步骤:
步骤B61:将知识增强的问题答案对的语义结构信息特征
Figure FDA0003955676060000109
输入到一个双向GRU网络的前向层和反向层之中,分别得到前向隐层的状态特征
Figure FDA00039556760600001010
和反向隐层的状态特征
Figure FDA00039556760600001011
Figure FDA00039556760600001012
其中
Figure FDA00039556760600001013
步骤B62:将
Figure FDA00039556760600001014
Figure FDA00039556760600001015
拼接,并通过一个线性层,得到问题答案对的BiGRU的输出特征Egru;对Egru进行平均池化,得到问题-答案的聚合特征
Figure FDA00039556760600001016
计算公式如下:
Figure FDA00039556760600001017
Figure FDA00039556760600001018
其中,
Figure FDA0003955676060000111
为可训练参数,
Figure FDA0003955676060000112
meanpool()为平均池化函数;
步骤B63:将问题-答案的聚合特征
Figure FDA0003955676060000113
和多粒度的全局语义特征
Figure FDA0003955676060000114
进行连接,得到最终的问答特征表示Efinal;Efinal表示如下:
Figure FDA0003955676060000115
步骤B64:将最终的问答特征Efinal输入到一个线性分类层并使用softmax函数进行归一化处理,生成问题-答案之间的相关性分数f(q,a)∈[0,1],计算公式如下:
f(q,a)=softamx(EfinalW19+b4)
其中,
Figure FDA0003955676060000116
为可训练的参数矩阵,
Figure FDA0003955676060000117
为偏置向量:
步骤B65:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;最小化损失函数L的计算公式如下:
Figure FDA0003955676060000118
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
9.一种基于知识增强图卷积网络的答案选择系统,其特征在于采用了上述权利要求1至8中任意一项所述的一种基于知识增强图卷积网络的答案选择方法,包括:
数据收集模块,在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案的真实标签,以此构建训练集DS;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词;
文本编码模块,对训练数据集DS中的所有训练样本进行初始编码,从而得到问题,答案文本内容的初始特征、问答对全局语义特征序列,问题-答案的句法结构依赖邻接矩阵,同时从知识图谱ConceptNet对问题,答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问题-答案全局语义特征,问题-答案对的句法结构依赖邻接矩阵以及问题和答案是知识扩展序列特征输入到深度学习网络中,得到问答对的最终特征,利用利用该问答对的最终特征预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于知识增强图卷积网络的深度学习网络模型;
答案选择模块,为给定问题选择一个正确答案,利用知识增强图卷积网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
CN202211464352.3A 2022-11-22 2022-11-22 一种基于知识增强图卷积网络的答案选择方法及系统 Pending CN116028604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211464352.3A CN116028604A (zh) 2022-11-22 2022-11-22 一种基于知识增强图卷积网络的答案选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211464352.3A CN116028604A (zh) 2022-11-22 2022-11-22 一种基于知识增强图卷积网络的答案选择方法及系统

Publications (1)

Publication Number Publication Date
CN116028604A true CN116028604A (zh) 2023-04-28

Family

ID=86078491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211464352.3A Pending CN116028604A (zh) 2022-11-22 2022-11-22 一种基于知识增强图卷积网络的答案选择方法及系统

Country Status (1)

Country Link
CN (1) CN116028604A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595158A (zh) * 2023-07-18 2023-08-15 山东鲁商通科技有限公司 一种基于Transformer模型的用户交互方法及系统
CN116992007A (zh) * 2023-09-28 2023-11-03 北京致远互联软件股份有限公司 基于问题意图理解的限定问答系统
CN117764085A (zh) * 2024-01-11 2024-03-26 华中师范大学 一种基于跨图协同建模的机器阅读理解方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595158A (zh) * 2023-07-18 2023-08-15 山东鲁商通科技有限公司 一种基于Transformer模型的用户交互方法及系统
CN116595158B (zh) * 2023-07-18 2023-09-05 山东鲁商通科技有限公司 一种基于Transformer模型的用户交互方法及系统
CN116992007A (zh) * 2023-09-28 2023-11-03 北京致远互联软件股份有限公司 基于问题意图理解的限定问答系统
CN116992007B (zh) * 2023-09-28 2023-12-08 北京致远互联软件股份有限公司 基于问题意图理解的限定问答系统
CN117764085A (zh) * 2024-01-11 2024-03-26 华中师范大学 一种基于跨图协同建模的机器阅读理解方法

Similar Documents

Publication Publication Date Title
CN108256065B (zh) 基于关系检测和强化学习的知识图谱推理方法
CN110222163B (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN116028604A (zh) 一种基于知识增强图卷积网络的答案选择方法及系统
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN112667818A (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法
CN116361438A (zh) 基于文本-知识扩展图协同推理网络的问答方法及系统
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115510226A (zh) 一种基于图神经网络的情感分类方法
CN109766546A (zh) 一种基于神经网络的自然语言推理方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索系统
CN114238649B (zh) 一种常识概念增强的语言模型预训练方法
CN114492459A (zh) 基于知识图谱与交互图卷积的评论情感分析方法及系统
CN110297894A (zh) 一种基于辅助网络的智能对话生成方法
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN117235216A (zh) 一种基于异构知识融合的知识推理方法
CN115374281B (zh) 基于多粒度融合和图卷积网络的会话情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination