CN114706983B - 一种基于图注意力机制的深度学习问答推理方法及装置 - Google Patents
一种基于图注意力机制的深度学习问答推理方法及装置 Download PDFInfo
- Publication number
- CN114706983B CN114706983B CN202210336298.8A CN202210336298A CN114706983B CN 114706983 B CN114706983 B CN 114706983B CN 202210336298 A CN202210336298 A CN 202210336298A CN 114706983 B CN114706983 B CN 114706983B
- Authority
- CN
- China
- Prior art keywords
- entity
- representation
- question
- reasoning
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于图注意力机制的深度学习问答推理方法及装置。本发明提出了一种基于图点乘注意力算法的推理模型AGTF,针对问答中的多跳问题,提出了融合ALBERT与图注意力机制(GAT)的混合模型,该模型包含了编解码层和图神经网络预测层,经过实验结果表明,与现有的多跳问答推理算法相比,AGTF模型有效的提高了多跳问答的推理能力。
Description
技术领域
本发明属于计算机应用技术领域,涉及一种融合ALBERT与图注意力机制的问答推理方法。
背景技术
对自然语言进行推理和推理的能力是人工智能的重要方面。自动问答任务提供了一种可量化的客观方法来测试人工智能系统的推理能力,正逐渐成为一种人与机器进行自然交互的新趋势,能够更准确地理解以自然语言描述的用户问题,并依据用户的真实意图返回给用户更精准的答案,它将成为下一代搜索引擎的新形态。
问答一直是自然语言处理领域的热门话题,QA为评估NLP系统在语言理解和推理方面的能力提供了一种量化的方法,深度学习模型的发展使得机器阅读理解领域和问答领域取得了长足的进步,甚至在包括SQuad在内的单段问答基准上超过了人类,但是以前的大多数工作都集中在从单一段落中寻找证据和答案,很少测试底层模型的深层推理能力,若要跨越机器和人类之间的问答鸿沟,面临着提升模型推理能力的挑战,单段问答模型倾向于在与问题匹配的句子中寻找答案,不涉及复杂的推理并且当单个文档不足以找到正确答案时,仍然缺乏对多个文档进行推理的能力。因此,多跳问答成为下一个需要攻克的前沿。
图神经网络已经成为深度学习领域最炽手可热的方向之一。作为一种代表性的图卷积网络,图注意力机制引入了注意力算法来实现更好的结点聚合,在图注意力机制中,模型会通过线性变换来获得表达能力更强的特征,以满足深度学习中的各项下游任务。原始的图注意力机制(GAT)通过由a∈R2F+1参数化的单层前馈网络来计算系数。而点积注意力机制是通过图中各个节点表示学习后所获取的,采用了与注意力机制相同的推理公式。通过学习邻居的权重,图注意力机制(GAT)可以实现对邻居的加权聚合。因此,图注意力机制(GAT)不仅能处理带噪声的邻接点,注意力机制也赋予了模型可解释性。
发明内容
本发明的目的旨在针对现有问答模型的不足,提供一种能有效应用于多条问答的问答推理模方法。
为了实现上述目的,本发明提供的技术是基于图注意力机制的深度学习问答推理方法,包括以下步骤:
步骤1、对数据进行表征抽取:
BERT模型凭借MASKED LM、双向Transformer encoder和句子级负采样获得了一个深度双向编码的描述了字符级、词级、句子级甚至句间关系的特征的预训练模型,而ALBERT模型的参数相比BERT而言小了很多,相反地,准确率比BERT高,所以使用ALBERT模型进行表征抽取。部分输入的是问题Q和相关的段落P,输出的是对应问题Q和段落的词向量P,以及从中提取出的语义向量(SEMANTIC)。首先,将问题[Q1,Q2...Qn]和段落[P1,P2...Pm]输入模型。然后,ALBERT基于词元(token)、类别(type)和位置(position)的嵌入为每个词元生成表示,输出的表示Q=[q1,q2...qn]∈Rm×d,P=[p1,p2...pm]∈Rn×d,同时语义向量(semantic)也随表示输出。在附图2中演示了模型的架构。
步骤2、提取输入句子的实体:
通过ALBERT获取到表征之后,本步骤使用斯坦福科伦普工具包从Q和P中识别命名实体,提取的实体的数量表示为N。实体嵌入Et-1=[et-1,1,...,Et-1,N]。ET-1的大小为2d×N,其中N是实体的数量,d是维度,此模块为T2G。
步骤3、进行实体计算推理过程:
在经过步骤1,步骤2后,模型用图神经网络将结点信息传播到每一个邻结点。如附图3所示为本方法所采用的一种动态的图注意力机制来实现推理过程。在推理过程中,图中每个结点都与邻结点进行信息的交互,与实体信息关联越多的结点接受到的信息越多。本发明通过在实体上关联问题来查询相关的节点,使用查询问题嵌入和实体嵌入之间的联系,把问题的输出表示和实体表示相结合,再乘以抽取出的语义向量,其目的是表示第t个推理步骤中的开始实体E(t-1)
Q′(t-1)=MeanPooling(Q(t-1))#(1)
E′(t-1)=[Q′(t-1)ei (t-1)s…Q′(t-1)eN (t-1)s]#(2)
其中Q(t-1)是问题表示,ei (t-1)是第i个实体表示。通过将问题表示Q(t-1)和初实体表示ei (t-1)以及语义向量s嵌入相乘,将期望的开始实体突显,而其他实体弱化。
步骤4、在获得实体之后,下一步是在动态图中传播信息:
本发明受图注意力机制(GAT)的启发通过以下公式计算实体间的关联程度βi,j:
hi (t)=Utei′(t-1)+bt#(3)
αi,j (t)=(Wthi t-1)T Wthj t-1#(4)
Ut、Wt是线性参数。这里,β的第i行表示将被分配给实体i的邻居的信息的比例。
本模型中的信息流不同于大多数以前的图注意力机制(GAT)。在点乘图注意力机制中,每个结点通过与邻结点相关联,求邻结点信息的加权和,与邻结点相关联的信息会更新到结点。
接着就能得到信息更新后的实体E(t)=(e1 (t)…eN (t))
步骤5、进行结果预测:
5-1在经过上面的步骤之后,利用实体抽取和图注意力机制,实现了实体的推理。然而,实体过于复杂不利于答案的追溯。为了解决这个问题,本发明开发了一个Graph2Doc模块来保持信息从实体流回到上下文中的向量。因此,与答案有关的文本可以在上下文中定位到。
5-2本方法使用的预测层结构框架有四个输出维度,包括1.支持句,2.答案的开始位置,3.答案的结束位置,4.答案的类型。本研究使用连续的结构来保证输出结果的相关联性,其中四个LSTM Fi是逐层相关联的。最后融合块的上下文表示被发送到第一LSTM F0。每个Fi输出Logit O∈Rm×D2,并计算这些Logit上的交叉熵损失。
本发明的另一个目的是提供一种新的用以解决大规模的多跳问答的推理装置,包括:
ALBERT表征抽取模块,用于对数据集进行表征抽取,ALBERT基于词元(token)、类别(type)和位置(position)的嵌入为每个词元生成表示,输出的表示Q=[q1,q2...qn]∈Rm ×d,P=[p1,p2...pm]∈Rn×d,同时语义向量(semantic)也随表示输出。
2T2G模块,使用斯坦福科伦普工具包从Q和P中识别命名实体,提取的实体的数量表示为N。实体嵌入Et-1=[et-1,1,...,Et-1,N]。ET-1的大小为2d×N,其中N是实体的数量,d是维度。
点乘注意力机制的图注意力机制(GAT)模块,采用的是一种动态的图注意力机制来实现推理过程的方法。通过在实体上关联问题来查询相关的节点,使用查询问题嵌入和实体嵌入之间的联系,把问题的输出表示和实体表示相结合,再乘以抽取出的语义向量,其目的是表示第t个推理步骤中的开始实体E(t-1)。
Graph2Doc模块,用于结果预测,保持信息从实体流回到上下文中的向量。
本发明的又一个目的是一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的方法。
本发明的再一个目的是一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。
本发明具有以下优势:本发明得益于图注意力机制的结构,能在对话式问答和推荐系统的应用上大有可为,图注意力机制(GAT)中的结点循环可通过加入逻辑性变量来提高可靠性。此外,通过优化系统之间的交互,结合微调和基于特征的表征抽取将提高Albert的容量。可以推广到其他智能对话任务和顺序推荐。
附图说明
图1为模型的总体架构图;
图2为用于表征提取的ALBERT示意图;
图3为动态图注意力机制推理过程图。
具体实施方式
下面结合具体实施例对本发明做进一步的分析。
本发明的基于图注意力机制的深度学习问答推理方法,包括以下步骤:
步骤1、对数据进行表征抽取:
先使用ALBERT模型进行表征抽取,BERT模型凭借MASKED LM、双向Transformerencoder和句子级负采样获得了一个深度双向编码的描述了字符级、词级、句子级甚至句间关系的特征的预训练模型,而ALBERT模型的参数相比BERT而言小了很多,相反地,准确率比BERT高,所以使用ALBERT模型进行表征抽取。部分输入的是问题Q和相关的段落P,输出的是对应问题Q和段落的词向量P,以及从中提取出的语义向量SEMANTIC。首先,将问题[Q1,Q2...Qn]和段落[P1,P2...Pm]输入模型。然后,ALBERT基于词元(token)、类别(type)和位置(position)的嵌入为每个词元生成表示,输出的表示Q=[q1,q2...qn]∈Rm×d,P=[p1,p2...pm]∈Rn×d,同时语义向量(semantic)也随表示输出。在附图2中演示了模型的架构。
步骤2、提取输入句子的实体:
通过ALBERT获取到表征之后,本步骤使用斯坦福科伦普工具包从Q和P中识别命名实体,提取的实体的数量表示为N。实体嵌入Et-1=[et-1,1,...,Et-1,N]。ET-1的大小为2d×N,其中N是实体的数量,d是维度,此模块为T2G。
步骤3、进行实体计算推理过程:
在经过步骤1,步骤2后,模型用图神经网络将结点信息传播到每一个邻结点。如附图3所示为本方法所采用的一种动态的图注意力机制来实现推理过程。在推理过程中,图中每个结点都与邻结点进行信息的交互,与实体信息关联越多的结点接受到的信息越多。本发明通过在实体上关联问题来查询相关的节点,使用查询问题嵌入和实体嵌入之间的联系,把问题的输出表示和实体表示相结合,再乘以抽取出的语义向量,其目的是表示第t个推理步骤中的开始实体E(t-1)
Q′(t-1)=MeanPooling(Q(t-1))#(1)
E′(t-1)=[Q′(t-1)ei (t-1)s…Q′(t-1)eN (t-1)s]#(2)
其中Q(t-1)是问题表示,ei (t-1)是第i个实体表示。通过将问题表示Q(t-1)和初实体表示ei (t-1)以及语义向量s嵌入相乘,将期望的开始实体突显,而其他实体弱化。
步骤4、在获得实体之后,下一步是在动态图中传播信息:
本发明受图注意力机制(GAT)的启发通过以下公式计算实体间的关联程度βi,j:
hi (t)=Utei′(t-1)+bt#(3)
ai,j (t)=(Wthi t-1)T Wthj t-1#(4)
Ut、Wt是线性参数。这里,β的第i行表示将被分配给实体i的邻居的信息的比例。
本模型中的信息流不同于大多数以前的图注意力机制(GAT)。在点乘图注意力机制中,每个结点通过与邻结点相关联,求邻结点信息的加权和,与邻结点相关联的信息会更新到结点。
接着就能得到信息更新后的实体E(t)=(e1 (t)…eN (t))
步骤5、进行结果预测:
5-1在经过上面的步骤之后,利用实体抽取和图注意力机制,实现了实体的推理。然而,实体过于复杂不利于答案的追溯。为了解决这个问题,本发明开发了一个Graph2Doc模块来保持信息从实体流回到上下文中的向量。因此,与答案有关的文本可以在上下文中定位到。
5-2本方法使用的预测层结构框架有四个输出维度,包括1.支持句,2.答案的开始位置,3.答案的结束位置,4.答案的类型。本研究使用连续的结构来保证输出结果的相关联性,其中四个LSTM Fi是逐层相关联的。最后融合块的上下文表示被发送到第一LSTM F0。每个Fi输出Logit O∈Rm×D2,并计算这些Logit上的交叉熵损失。
实验过程:
本实验使用的HotpotQA数据集由11.3万个人工设计的问题组成,每个问题都可以用两篇维基百科文章中的段落来回答。在构建数据集的过程中,研究人员从维基百科中选择到问题的二元语法TF-IDF距离最短的前8个文档作为干扰项,形成总共10个文档的上下文段落。HotpotQA中有两种不同的设置,其中在干扰项设置中,每个例子包含从维基百科检索到的2个黄金段落和8个干扰项段落。在完整的维基设置中,模型被要求从整个维基百科中检索黄金段落。在发明中,所有的实验都是在干扰项的设置下进行的。
表1:模型在HotpotQA测试集fullwiki设置下的实验结果。
在表1中,与给出了不同模型在HotpotQA测试集上的性能比较。通过对比可知本AGTF模型取得了先进的结果。
表2:HotpotQA测试集在干扰器(distractor)设置下的实验结果。
截至2020年12月,使用ALBERT做上下文编码以及使用图注意力机制(GAT)做推理的AGTF取得了优异的结果。
表3:HotpotQA测试集在fullwiki设置下的实验结果。
截至2020年12月,使用ALBERT做上下文编码以及使用图注意力机制(GAT)做推理的AGTF取得了优异的结果。
表2和表3总结了HotpotQA的隐藏测试集上的结果。在干扰器(Distractor)设置中,AGTF在每个指标上的表现均优于其他模型,EM/F1联合得分达到42.4/70.4。在Fullwiki设置中,尽管使用了劣质的预测器,但AGTF仍在联合EM/F1上获得了最新的结果。当使用与(Yang et al.,2018)中相同的预测器时,本方法明显优于其他方法,证明了本发明的多跳推理方法的有效性。本模型在所有指标上的表现都超过所有基线。性能的飞跃主要源于模型框架相对于传统方法而言较大的优势。
为了验证预训练语言模型的效果,将AGTF与使用相同预训练语言模型的现有技术进行了比较。表4中的结果表明,AGTF胜过DFGN和SAE,良好的模型设计使得性能得到了提高。
表4:HotpotQA测试集上使用不同的预训练语言模型得到的结果。
因此可以得出,本发明具有以下优势:提出的基于图点乘注意力算法的推理模型AGTF,针对问答中的多跳问题,提出了融合ALBERT与图注意力机制(GAT)的混合模型,该模型包含了编解码层和图神经网络预测层,经过实验结果表明,AGTF模型有效的提高了多跳问答的推理能力。
Claims (6)
1.一种基于图注意力机制的深度学习问答推理方法,其特征在于包括以下步骤:
步骤1、对数据进行表征抽取;
表征抽取部分输入问题Q和相关的段落P,输出对应问题Q和段落的词向量P,以及从中提取出的语义向量;首先,将问题[Q1,Q2...Qn]和段落[P1,P2...Pm]输入模型;然后,ALBERT基于词元、类别和位置的嵌入为每个词元生成表示,输出的表示Q=[q1,q2...qn]∈Rm×d,P=[p1,p2...pm]∈Rn×d,同时语义向量也随表示输出;
步骤2、提取输入句子的实体;
通过ALBERT获取到表征之后,使用斯坦福科伦普工具包从Q和P中识别命名实体,提取的实体的数量表示为N;实体嵌入Et-1=[et-1,1,...,Et-1,N];ET-1的大小为2d×N,其中N是实体的数量,d是维度,此模块为T2G;
步骤3、进行实体计算推理过程;
用图神经网络将结点信息传播到每一个邻结点;采用动态的图注意力机制来实现推理过程;
步骤4、在动态图中传播信息,得到信息更新后的实体E(t)=(e1 (t)…eN (t));
步骤5、进行结果预测:
5-1使用Graph2Doc模块来保持信息从实体流回到上下文中的向量,与答案有关的文本在上下文中定位到;
5-2使用四个输出维度的预测层结构框架,包括支持句,答案的开始位置,答案的结束位置,答案的类型;使用连续的结构来保证输出结果的相关联性,其中四个LSTM Fi是逐层相关联的;融合块的上下文表示被发送到第一LSTM F0;每个Fi输出Logit O∈Rm×D2,并计算Logit上的交叉熵损失,最后输出预测的结果。
2.如权利要求1所述的一种基于图注意力机制的问答推理方法,其特征在于步骤3中通过在实体上关联问题来查询相关的节点,使用查询问题嵌入和实体嵌入之间的联系,把问题的输出表示和实体表示相结合,再乘以抽取出的语义向量,其目的是表示第t个推理步骤中的开始实体E(t-1)
Q′(t-1)=MeanPooling(Q(t-1))#(1)
E′(t-1)=[Q′(t-1)ei (t-1)s…Q′(t-1)eN (t-1)s]#(2)
其中Q(t-1)是问题表示,ei (t-1)是第i个实体表示;通过将问题表示Q(t-1)和初实体表示ei (t-1)以及语义向量s嵌入相乘。
3.如权利要求1或2所述的一种基于图注意力机制的问答推理模型,其特征在于步骤4中通过以下公式计算实体间的关联程度βi,j:
hi (t)=Utei′(t-1)+bt#(3)
ai,j (t)=(Wthi t-1)T Wthj t-1#(4)
Ut、Wt是线性参数;这里,β的第i行表示将被分配给实体i的邻居的信息的比例;在点乘图注意力机制中,每个结点通过与邻结点相关联,求邻结点信息的加权和,与邻结点相关联的信息会更新到结点;
接着就能得到信息更新后的实体E(t)=(e1 (t)…eN (t))。
4.一种实现权利要求1所述的基于图注意力机制的深度学习问答推理方法的基于图注意力机制的问答推理装置,包括ALBERT表征抽取模块、2T2G模块、点乘注意力机制的GAT模块、Graph2Doc模块,其特征在于:
所述ALBERT表征抽取模块,用于对数据集进行表征抽取,ALBERT基于词元、类别和位置的嵌入为每个词元生成表示,输出的表示Q=[q1,q2...qn]∈Rm×d,P=[p1,p2...pm]∈Rn×d,同时语义向量也随表示输出;
2T2G模块,使用斯坦福科伦普工具包从Q和P中识别命名实体,提取的实体的数量表示为N,实体嵌入Et-1=[et-1,1,...,Et-1,N],ET-1的大小为2d×N,其中N是实体的数量,d是维度;
点乘注意力机制的GAT模块,采用动态的图注意力机制来实现推理过程;通过在实体上关联问题来查询相关的节点,使用查询问题嵌入和实体嵌入之间的联系,把问题的输出表示和实体表示相结合,再乘以抽取出的语义向量,其目的是表示第t个推理步骤中的开始实体E(t-1);
Graph2Doc模块,用于结果预测,保持信息从实体流回到上下文中的向量。
5.一种计算机可读存储介质,其特征在于其上存储计算机程序,当上述程序在计算机中执行时,令计算机执行权利要求1-4任一所述的方法。
6.一种计算设备,其特征在于包括存储器和处理器,所述存储器中存储有代码,所述处理器执行上述代码时,实现权利要求1-4任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210336298.8A CN114706983B (zh) | 2022-03-31 | 2022-03-31 | 一种基于图注意力机制的深度学习问答推理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210336298.8A CN114706983B (zh) | 2022-03-31 | 2022-03-31 | 一种基于图注意力机制的深度学习问答推理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114706983A CN114706983A (zh) | 2022-07-05 |
CN114706983B true CN114706983B (zh) | 2024-04-19 |
Family
ID=82169809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210336298.8A Active CN114706983B (zh) | 2022-03-31 | 2022-03-31 | 一种基于图注意力机制的深度学习问答推理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114706983B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
CN111814982A (zh) * | 2020-07-15 | 2020-10-23 | 四川大学 | 面向多跳问答的动态推理网络及方法 |
CN112417104A (zh) * | 2020-12-04 | 2021-02-26 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
WO2021184311A1 (zh) * | 2020-03-19 | 2021-09-23 | 中山大学 | 一种自动生成可推理问答的方法和装置 |
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
-
2022
- 2022-03-31 CN CN202210336298.8A patent/CN114706983B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021184311A1 (zh) * | 2020-03-19 | 2021-09-23 | 中山大学 | 一种自动生成可推理问答的方法和装置 |
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
CN111814982A (zh) * | 2020-07-15 | 2020-10-23 | 四川大学 | 面向多跳问答的动态推理网络及方法 |
CN112417104A (zh) * | 2020-12-04 | 2021-02-26 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
Non-Patent Citations (1)
Title |
---|
面向社区问答匹配的混合神经网络模型;张衍坤;陈羽中;刘漳辉;;小型微型计算机系统;20200904(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114706983A (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134771B (zh) | 一种基于多注意力机制融合网络问答系统的实现方法 | |
WO2021184311A1 (zh) | 一种自动生成可推理问答的方法和装置 | |
CN108647233B (zh) | 一种用于问答系统的答案排序方法 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN109558576B (zh) | 一种基于自注意力机制的标点符号预测方法 | |
CN108875074A (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN113743099B (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN111079409A (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN115964459B (zh) | 基于食品安全认知图谱的多跳推理问答方法及系统 | |
CN112215017A (zh) | 一种基于伪平行语料库构造的蒙汉机器翻译方法 | |
Yuan | Design of an Intelligent Dialogue System Based on Natural Language Processing | |
Thomas et al. | Chatbot using gated end-to-end memory networks | |
Goyal et al. | A Systematic survey on automated text generation tools and techniques: application, evaluation, and challenges | |
CN112989024B (zh) | 文本内容的关系提取方法、装置、设备及存储介质 | |
CN112732879B (zh) | 一种问答任务的下游任务处理方法及模型 | |
CN103150329A (zh) | 双语文本的词语对齐方法及装置 | |
CN114706983B (zh) | 一种基于图注意力机制的深度学习问答推理方法及装置 | |
Lu et al. | Weakly supervised concept map generation through task-guided graph translation | |
CN115796187A (zh) | 一种基于对话结构图约束的开放域对话方法 | |
CN112579775B (zh) | 非结构化文本的分类方法及计算机可读存储介质 | |
Zhang et al. | Probabilistic verb selection for data-to-text generation | |
CN109815323B (zh) | 一种人机交互训练问答生成算法 | |
Afrae et al. | Smart Sustainable Cities: A Chatbot Based on Question Answering System Passing by a Grammatical Correction for Serving Citizens | |
Reshmi et al. | Textual entailment based on semantic similarity using wordnet | |
Zhu et al. | Natural Language Processing and Chinese Computing: 9th CCF International Conference, NLPCC 2020, Zhengzhou, China, October 14–18, 2020, Proceedings, Part I |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |