CN116361438A - 基于文本-知识扩展图协同推理网络的问答方法及系统 - Google Patents

基于文本-知识扩展图协同推理网络的问答方法及系统 Download PDF

Info

Publication number
CN116361438A
CN116361438A CN202310333880.3A CN202310333880A CN116361438A CN 116361438 A CN116361438 A CN 116361438A CN 202310333880 A CN202310333880 A CN 202310333880A CN 116361438 A CN116361438 A CN 116361438A
Authority
CN
China
Prior art keywords
knowledge
answer
questions
answers
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310333880.3A
Other languages
English (en)
Inventor
陈羽中
万祯
郑超凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202310333880.3A priority Critical patent/CN116361438A/zh
Publication of CN116361438A publication Critical patent/CN116361438A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本‑知识扩展图协同推理网络的问答方法及系统,该方法包括以下步骤:步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题‑答案对的真实标签,以此构建训练集DS;步骤B:使用训练集DS以及知识图谱,训练基于文本‑知识扩展图协同推理网络的深度学习网络模型M,以通过模型M来分析给定问题并给出相对应的答案;步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。该方法及系统有利于提高对给定问题选择答案的准确性。

Description

基于文本-知识扩展图协同推理网络的问答方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于文本-知识扩展图协同推理网络的问答方法及系统。
背景技术
答案选择是智能问答领域的一个重要子任务,旨在利用算法使得计算机能够理解人们输入的问题语义并返回最合适的候选答案,该任务的核心在于问答对之间的语义匹配问题。随着互联网科技水平的提高,通过访问互联网获取知识的方式也在不断的发生改变。从1994年雅虎推出世界上第一个基于目录的检索引擎,为人们提供了一个便捷的方式从互联网获取所需的知识开始,在接下来的二十年里,谷歌、百度、Bing等在线搜索引擎如春笋般涌现。通过问答检索框,人们可以查询到自己想要的问题答案。但是,由于人们对于获取信息的需求日益增长,传统的搜索引擎通过问题关键字匹配来检索相关答案并返回给用户的方式很容易出现信息过载、搜索结果不准确等问题,越来越难以满足用户对于具体问题的解答以及深入交流的需求。
近年来,基于深度学习尤其是基于预训练语言模型的模型方法凭借其端对端的训练和强大的特征提取能力广泛的应用于答案选择任务。通过海量的无标注文本,预训练能够帮助模型学习到潜在的通用语言表征。并且只需要在预训练语言模型的输出之后增加特定的网络层与分类层,并对模型局部微调,便可以直接作用于NLP下游任务,避免了重新训练整个模型,造成资源浪费。目前,研究人员便将研究的重心转移至使用预训练语言模型应用于答案选择任务,提出了MFIN,BERT-GSAMN以及BERT-BIG等模型,这些模型的共同之处都是在利用预训练语言模型得到丰富语义信息的基础上,做进一步的精细语义特征的提取,均取得不错的效果。
图神经网络,一种作用于图域的深度学习方法,由于其出色的性能以及较高的可解释性,近年来也受到了广泛的关注。通过构造图数据结构,表示不同单词之间的连接关系,进行图节点信息的传播与更新。在Tian等人的研究工作中,利用GCN对通过句子距离、单词共现,语义匹配度以及动态注意力等不同视角构造的问答关系图进行建模编码,最后获得聚合多种视角的问答特征表示。
基于知识图谱的答案选择研究工作也取得很多的进展,Yang等人提出一种知识丰富的层次化注意力机制。引入外部知识,语义特征引导生成知识特征,然后渐进式的生成词级、段落级、文档级别的语义特征和知识特征并进行交互融合,但是,知识图谱本质上可以抽象理解为一种图数据结构,依赖图谱中大量结构化知识实体间各种节点关系相连接,因此十分适用于图神经网络来进行知识图谱信息的捕获。同时,现有模型通常都是将文本语义表示和知识实体进行独立的建模,缺少知识与文本之间的交互,导致彼此之间的参数信息无法及时共享,使得文本,知识特征信息存在一定的语义鸿沟,影响模型精度。
发明内容
本发明的目的在于提供一种基于文本-知识扩展图协同推理网络的问答方法及系统,该方法及系统有利于提高对给定问题选择答案的准确性。
为实现上述目的,本发明采用的技术方案是:一种基于文本-知识扩展图协同推理网络的问答方法,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练集DS以及知识图谱,训练基于文本-知识扩展图协同推理网络的深度学习网络模型M,以通过模型M来分析给定问题并给出相对应的答案;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。
进一步地,所述步骤B具体包括以下步骤:
步骤B1:对训练集DS中的所有训练样本进行初始编码,从而得到问题、答案文本内容的初始特征Hq、Ha,问题和答案的全局语义特征Hcls,同时从知识图谱对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到问题和答案的知识扩展序列Nq和Na,并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq、Ca
步骤B2:将步骤B1中得到的问题和答案的知识扩展序列Nq和Na按照节点的连接关系构成问题和答案的知识匹配-扩展结点结构子图,并转换成对应的l2阶邻接矩阵
Figure BDA0004155738490000021
和l3阶矩阵
Figure BDA0004155738490000022
接着利用K层图注意力网络评估知识匹配-扩展结点结构子图中各节点对语义的理解程度,并将各个节点的特征状态信息进行拼接,得到问题的知识匹配-扩展节点语义特征
Figure BDA0004155738490000023
步骤B3:将步骤B1中得到的问题和答案的知识扩展序列Nq和Na通过外部解析工具分别构建相应的句法依赖树,并转换为对应的l2阶邻接矩阵
Figure BDA0004155738490000031
和l3阶矩阵
Figure BDA0004155738490000032
接着利用K层图注意力网络得到问题和答案的知识匹配节点上下文语义特征
Figure BDA0004155738490000033
并对特征进行掩码操作以减少语义噪声;
步骤B4:将步骤B1中得到的问题和答案的初始特征Hq、Ha分别利用BiGRU网络进行序列融合得到问题和答案的序列语义特征
Figure BDA0004155738490000034
Figure BDA0004155738490000035
将步骤B3中得到的问题和答案的知识匹配节点上下文语义特征
Figure BDA0004155738490000036
分别与对应的序列语义特征
Figure BDA0004155738490000037
Figure BDA0004155738490000038
经过交互注意力机制获得问题和答案的文本注意力特征表示
Figure BDA0004155738490000039
Figure BDA00041557384900000310
以及知识注意力特征表示
Figure BDA00041557384900000311
Figure BDA00041557384900000312
接着将文本注意力特征
Figure BDA00041557384900000313
Figure BDA00041557384900000314
与步骤B1中得到的初始特征Hq、Ha,知识注意力特征
Figure BDA00041557384900000315
Figure BDA00041557384900000316
与步骤B3中得到的知识匹配节点上下文语义特征
Figure BDA00041557384900000317
两两分别进行残差连接并分别通过前向反馈神经网络得到最终问题和答案的文本协同推理特征
Figure BDA00041557384900000318
Figure BDA00041557384900000319
知识协同推理特征
Figure BDA00041557384900000320
Figure BDA00041557384900000321
步骤B5:将步骤B4中得到的问题和答案的文本协同推理特征
Figure BDA00041557384900000322
Figure BDA00041557384900000323
分别通过一个多头自注意力机制得到问题和答案的自注意力语义特征
Figure BDA00041557384900000324
Figure BDA00041557384900000325
接着通过交互注意力机制将得到的自注意力语义特征
Figure BDA00041557384900000326
Figure BDA00041557384900000327
彼此融合得到问题和答案的交互注意力语义特征
Figure BDA00041557384900000328
Figure BDA00041557384900000329
之后通过门控机制将问题和答案的交互注意力语义特征
Figure BDA00041557384900000330
Figure BDA00041557384900000331
分别与问题和答案的全局语义特征Hcls进行过滤融合,得到问题和答案的多粒度语义特征
Figure BDA00041557384900000332
Figure BDA00041557384900000333
步骤B6:将步骤B5得到的问题和答案的多粒度语义特征
Figure BDA00041557384900000334
Figure BDA00041557384900000335
和步骤B4得到的知识协同推理特征
Figure BDA00041557384900000336
Figure BDA00041557384900000337
进行连接,得到问题和答案的最终表示特征
Figure BDA00041557384900000338
Figure BDA00041557384900000339
并将其进行连接得到最终的答案对特征表示Hfinal
步骤B7:将B6中得到的最终的答案对特征表示Hfinal通过softmax函数得到问题-答案对之间的相关性匹配分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;
步骤B8:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值,或者达到最大迭代次数,终止深度学习网络模型的训练过程。
进一步地,所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应的候选答案的文本内容;p为问题与答案是否正确对应的标签,p∈[0,1],0表示候选答案为错误答案,1表示候选答案为正确答案;
问题q表示为:
Figure BDA0004155738490000041
其中,
Figure BDA0004155738490000042
为问题q中的第i个词,i=1,2,…,m,m为问题q的文本长度;
答案a表示为:
Figure BDA0004155738490000043
其中,
Figure BDA0004155738490000044
为答案a中的第i个词,i=1,2,…,n,n为答案a的文本长度;
步骤B12:对步骤B11得到的问题
Figure BDA0004155738490000045
和答案
Figure BDA0004155738490000046
进行拼接,并在问题q的前面插入[CLS]标标记,答案a的前后插入[SEP]标记,构造BERT编码模型的问答输入序列Xs
问答输入序列表示为:
Figure BDA0004155738490000047
其中,m和n分别表示问题q和答案a的文本长度;
步骤B13:将Xs输入到BERT模型中,得到BERT模型的第i层输出序列
Figure BDA0004155738490000048
模型最后一层输出序列Hs;根据[CLS]和[SEP]标签在Hs序列中的位置,对问题、答案的初始特征进行切分,从而分别获得问题、答案的初始特征Hq和Ha;将BERT输出的[CLS]标签对应的特征向量视为问题与答案的全局语义
Figure BDA0004155738490000049
d为特征向量的维度;
其中,
Figure BDA00041557384900000410
表示为:
Figure BDA00041557384900000411
问题q的初始特征
Figure BDA00041557384900000412
表示为:
Figure BDA00041557384900000413
其中,
Figure BDA00041557384900000414
为第i词
Figure BDA00041557384900000415
对应的词向量,m为答案q的文本长度,d为特征向量的维度;
答案a的初始特征
Figure BDA00041557384900000416
表示为:
Figure BDA00041557384900000417
其中
Figure BDA00041557384900000418
为第i词
Figure BDA00041557384900000419
对应的词向量,
Figure BDA00041557384900000420
n为答案a的文本长度,d为特征向量的维度;
问题与答案的全局语义Hcls表示为:
Hcls=[CLS]
其中
Figure BDA0004155738490000051
d为特征向量的维度;
步骤B14:将问题q和答案a中的每一个单词在知识图谱中进行问文本-知识匹配和多跳节点扩展;首先对问题q中的每一个词
Figure BDA0004155738490000052
在知识图谱中进行文本-知识匹配,获得其对应的知识节点
Figure BDA0004155738490000053
同理获得答案a中每一个词
Figure BDA0004155738490000054
对应的知识节点
Figure BDA0004155738490000055
其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点
Figure BDA0004155738490000056
和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选择权重最大的max_n个扩展知识节点;扩展节点和文本匹配知识节点进行连接,形成知识扩展序列;利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca
其中,问题q知识扩展序列特征Cq表示为:
Figure BDA0004155738490000057
其中,
Figure BDA0004155738490000058
为问题知识扩展序列的长度,d为特征向量的维度;
Figure BDA0004155738490000059
Figure BDA00041557384900000510
的扩展知识节点,max_n为设定的扩展节点个数;
答案a知识扩展序列特征Ca表示为:
Figure BDA00041557384900000511
其中,
Figure BDA00041557384900000512
为答案知识扩展序列的长度,d为特征向量的维度;
Figure BDA00041557384900000513
Figure BDA00041557384900000514
的扩展知识节点,max_n为设定的扩展节点个数。
进一步地,所述步骤B2具体包括以下步骤:
步骤B21:将问题和答案的知识扩展序列Nq和Na按照节点之间是否存在连接关系分别构成问题和答案的知识匹配-扩展节点结构子图以获取知识扩展节点和知识匹配节点间的融合信息,并转换为对应的l2阶邻接矩阵
Figure BDA00041557384900000515
和l3阶矩阵
Figure BDA00041557384900000516
其中
Figure BDA00041557384900000517
的表示如下:
Figure BDA00041557384900000518
在邻接矩阵
Figure BDA00041557384900000519
中,矩阵元素
Figure BDA00041557384900000520
为0表示知识节点
Figure BDA00041557384900000521
和知识节点
Figure BDA00041557384900000522
之间不存在节点连接关系;矩阵元素
Figure BDA0004155738490000061
为1表示单词
Figure BDA0004155738490000062
和单词
Figure BDA0004155738490000063
之间存在节点连接关系即
Figure BDA0004155738490000064
Figure BDA0004155738490000065
的扩展知识节点,且双方互为邻接矩阵节点;
其中
Figure BDA0004155738490000066
的表示如下:
Figure BDA0004155738490000067
在邻接矩阵
Figure BDA0004155738490000068
中,矩阵元素
Figure BDA0004155738490000069
为0表示知识节点
Figure BDA00041557384900000610
和知识节点
Figure BDA00041557384900000611
之间不存在节点连接关系;矩阵元素
Figure BDA00041557384900000612
为1表示单词
Figure BDA00041557384900000613
和单词
Figure BDA00041557384900000614
之间存在节点连接关系即
Figure BDA00041557384900000615
Figure BDA00041557384900000616
的扩展知识节点,且双方互为邻接矩阵节点;
步骤B22:将问题q的知识扩展序列特征Cq作为图的节点特征,利用K层图注意力网络在邻接矩阵
Figure BDA00041557384900000617
上进行图注意力计算,进行图节点信息的更新;其中每一层图注意力网络包含X个注意力头;
则在每一层图注意力网络中,图节点i的计算更新过程如下:
Figure BDA00041557384900000618
Figure BDA00041557384900000619
Figure BDA00041557384900000620
Figure BDA00041557384900000621
其中
Figure BDA00041557384900000622
d为特征向量的维度,W1,W2为共享参数矩阵,“:”为拼接操作,σ(·)为激活函数;
步骤B23:将经过第K层图注意力网络的图中各个节点的特征信息进行拼接,得到问题的知识匹配-扩展节点语义特征
Figure BDA00041557384900000623
Figure BDA00041557384900000624
的计算公式如下:
Figure BDA00041557384900000625
其中
Figure BDA00041557384900000626
为问题知识扩展序列的长度,d为特征向量的维度,同理,获得答案的知识匹配-扩展节点语义特征
Figure BDA0004155738490000071
进一步地,所述步骤B3具体包括以下步骤:
步骤B31:对于问题和答案的知识扩展序列Nq和Na,使用外部解析工具进行句法依赖关系解析,并获得对应的句法依赖树;分别构造问题和答案的知识匹配节点句法依赖子图,并转换为对应的l2阶邻接矩阵
Figure BDA0004155738490000072
和l3阶矩阵
Figure BDA0004155738490000073
其中
Figure BDA0004155738490000074
的表示如下:
Figure BDA0004155738490000075
在邻接矩阵
Figure BDA0004155738490000076
中,矩阵元素
Figure BDA0004155738490000077
为0表示知识节点
Figure BDA0004155738490000078
和知识节点
Figure BDA0004155738490000079
之间不存在句法结构依赖关系;矩阵元素
Figure BDA00041557384900000710
为1表示单词
Figure BDA00041557384900000711
和单词
Figure BDA00041557384900000712
之间存在着一定的句法结构依赖关系,且双方互为邻接矩阵节点;同理邻接矩阵
Figure BDA00041557384900000713
的定义与
Figure BDA00041557384900000714
一致;
其中
Figure BDA00041557384900000715
的表示如下:
Figure BDA00041557384900000716
在邻接矩阵
Figure BDA00041557384900000717
中,矩阵元素
Figure BDA00041557384900000718
为0表示知识节点
Figure BDA00041557384900000719
和知识节点
Figure BDA00041557384900000720
之间不存在句法结构依赖关系;矩阵元素
Figure BDA00041557384900000721
为1表示单词
Figure BDA00041557384900000722
和单词
Figure BDA00041557384900000723
之间存在着一定的句法结构依赖关系,且双方互为邻接矩阵节点;
步骤B32:将问题q的知识扩展序列特征Cq中的扩展节点的特征做一个掩码操作,即将扩展节点进行遮蔽,不参与计算;然后将经过掩码操作的知识扩展序列特征Cq作为图的节点特征,利用K层图注意力网络在邻接矩阵
Figure BDA00041557384900000724
上进行图注意力计算,进行图节点特征信息的更新,其中每一层图注意力网络包含X个注意力头;
则在每一层图注意力网络中,图节点i的计算更新过程如下:
Figure BDA00041557384900000725
Figure BDA00041557384900000726
Figure BDA00041557384900000727
Figure BDA0004155738490000081
其中
Figure BDA0004155738490000082
d为特征向量的维度,W3,W4为共享参数矩阵,“:”为拼接操作,σ(·)为激活函数;
步骤B33:将经过第K层图注意力网络的图中各个节点的特征状态信息进行拼接,得到问题的知识匹配节点上下文语义特征
Figure BDA0004155738490000083
Figure BDA0004155738490000084
的表示如下:
Figure BDA0004155738490000085
其中
Figure BDA0004155738490000086
为问题知识扩展序列的长度,d为特征向量的维度;同理,获得答案的知识匹配节点上下文语义特征
Figure BDA0004155738490000087
步骤B34:对问题和答案的知识匹配节点上下文语义特征
Figure BDA0004155738490000088
进行扩展节点剪枝操作,则剪枝之后
Figure BDA0004155738490000089
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度。
进一步地,所述步骤B4具体包括以下步骤:
步骤B41:将预训练语言模型输出问题和答案文本的初始特征Hq、Ha分别利用BiGRU网络进行序列融合,得到问题和答案的序列语义特征
Figure BDA00041557384900000810
Figure BDA00041557384900000811
计算公式如下:
Figure BDA00041557384900000812
Figure BDA00041557384900000813
其中
Figure BDA00041557384900000814
m为问题q的文本长度,n为答案a的文本长度;d为特征向量的维度;
步骤B42:利用交互注意力机制,将步骤B34得到的问题和答案的知识匹配节点上下文语义特征
Figure BDA00041557384900000815
Figure BDA00041557384900000816
分别与步骤B41得到的序列语义特征
Figure BDA00041557384900000817
Figure BDA00041557384900000818
计算相关性矩阵,分别得到问题和答案的文本注意力特征表示
Figure BDA00041557384900000829
Figure BDA00041557384900000830
以及知识注意力特征表示
Figure BDA00041557384900000819
Figure BDA00041557384900000820
Figure BDA00041557384900000821
Figure BDA00041557384900000822
Figure BDA00041557384900000823
Figure BDA00041557384900000824
的计算公式如下所示:
Figure BDA00041557384900000825
Figure BDA00041557384900000826
Figure BDA00041557384900000827
Figure BDA00041557384900000828
其中
Figure BDA0004155738490000091
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度;W3,W4,W5,W6为可训练的注意力矩阵参数;
步骤B43:将问题和答案的文本注意力特征
Figure BDA0004155738490000092
Figure BDA0004155738490000093
与步骤B13得到问题和答案的初始特征Hq、Ha,问题和答案的知识注意力特征
Figure BDA0004155738490000094
Figure BDA0004155738490000095
与问题和答案的知识匹配节点上下文语义特征
Figure BDA0004155738490000096
两两分别进行残差连接,并通过一个前向反馈神经网络对其进行线性变换,从而得到最终问题和答案的文本协同推理特征
Figure BDA0004155738490000097
Figure BDA0004155738490000098
知识协同推理特征
Figure BDA0004155738490000099
Figure BDA00041557384900000910
Figure BDA00041557384900000911
Figure BDA00041557384900000912
的计算公式如下所示:
Figure BDA00041557384900000913
Figure BDA00041557384900000914
其中
Figure BDA00041557384900000915
m为问题q的文本长度,d为特征向量的维度;W9,W10,W11,W12为可训练的线性变换参数,b1,b2,b3,b4为偏置向量;同理计算
Figure BDA00041557384900000916
Figure BDA00041557384900000917
Figure BDA00041557384900000918
n为答案a的文本长度。
进一步地,所述步骤B5具体包括以下步骤:
步骤B51:对步骤B43得到的问题和答案的文本协同推理特征
Figure BDA00041557384900000919
Figure BDA00041557384900000920
分别利用一个多头自注意力机制,通过权重计算得到句子单词之间的上下文语义关系,从而得到问题和答案的自注意力语义特征
Figure BDA00041557384900000921
Figure BDA00041557384900000922
Figure BDA00041557384900000923
的计算公式如下所示:
Figure BDA00041557384900000924
Figure BDA00041557384900000925
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key)、V(value)均为问题和答案的文本协同推理特征
Figure BDA00041557384900000926
Figure BDA00041557384900000927
m为问题q的文本长度;W13,W14,W15,W16为可训练的注意力参数,headi表示第i个注意力函数的输出,i∈[1,num];同理获得答案的自注意力语义特征
Figure BDA00041557384900000928
n为答案a的文本长度;
步骤B52:采用交互注意力机制,对问题和答案的自注意力特征
Figure BDA00041557384900000929
Figure BDA00041557384900000930
进行一个乘法操作并利用softmax函数进行归一化处理,得到感知答案语义的问题交互注意力语义特征
Figure BDA00041557384900000931
和感知问题语义的答案交互注意力语义特征
Figure BDA00041557384900000932
Figure BDA0004155738490000101
的计算公式如下所示:
Figure BDA0004155738490000102
Figure BDA0004155738490000103
其中,
Figure BDA0004155738490000104
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度;W17,W18为可训练的注意力矩阵参数;
步骤B53:分别将细粒度的问题和答案的交互注意力语义特征
Figure BDA0004155738490000105
Figure BDA0004155738490000106
与粗粒度的问题和答案的全局语义特征Hcls进行过滤融合,得到语义表征精确的问题和答案的多粒度语义特征
Figure BDA0004155738490000107
Figure BDA0004155738490000108
Figure BDA0004155738490000109
Figure BDA00041557384900001010
的计算公式如下所示:
Figure BDA00041557384900001011
Figure BDA00041557384900001012
Figure BDA00041557384900001013
Figure BDA00041557384900001014
其中,
Figure BDA00041557384900001015
d为特征向量的维度;为了保证特征尺寸一致,对
Figure BDA00041557384900001016
Figure BDA00041557384900001017
进行平均池化操作,avg_pooling(·)为平均池化函数,
Figure BDA00041557384900001018
Figure BDA00041557384900001019
W19,W20,W21,W22为可训练门控网络参数。
进一步地,所述步骤B6具体包括以下步骤:
步骤B61:分别将问题和答案的多粒度语义特征
Figure BDA00041557384900001020
Figure BDA00041557384900001021
与步骤B43得到的知识协同推理特征
Figure BDA00041557384900001022
Figure BDA00041557384900001023
进行拼接,得到问题和答案的最终特征
Figure BDA00041557384900001024
Figure BDA00041557384900001025
Figure BDA00041557384900001026
Figure BDA00041557384900001027
的表示如下:
Figure BDA00041557384900001028
Figure BDA00041557384900001029
步骤B62:将问题最终表示特征
Figure BDA00041557384900001030
和答案最终特征
Figure BDA00041557384900001031
进行连接,得到最终的问答对特征表示Hfinal
Hfinal表示如下:
Figure BDA0004155738490000111
进一步地,所述步骤B7具体包括以下步骤:
步骤B71:利用一个softmax函数对最终的问答特征表示Hfinal进行归一化处理,得到问题-答案对之间的相关性匹配分数f(q,a)∈[0,1];
f(q,a)的计算公式如下所示:
f(q,a)=softmax(HfinalW23+b5)
其中,
Figure BDA0004155738490000112
为可训练的参数矩阵,
Figure BDA0004155738490000113
为偏置向量;
步骤B72:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
最小化损失函数L的计算公式如下:
Figure BDA0004155738490000114
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
本发明还提供了一种采用上述方法的基于文本-知识扩展图协同推理网络的问答系统,包括:
数据收集模块,用于在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案的真实标签,以此构建训练集DS;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词;
文本编码模块,用于对训练集DS中的所有训练样本进行初始编码,从而得到问题和答案文本内容的初始特征、问答对全局语义特征,同时从知识图谱对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问题-答案全局语义特征、问题-答案对的知识匹配节点上下文语义特征以及问题和答案的知识扩展序列特征输入到深度学习网络模型中,得到问答对的最终特征,利用该问答对的最终特征预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于文本-知识扩展图协同推理网络的深度学习网络模型;
答案选择模块,用于为给定问题选择一个正确答案,利用文本-知识扩展图协同推理网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
与现有技术相比,本发明具有以下有益效果:提供了一种基于文本-知识扩展图协同推理网络的问答方法及系统,该方法及系统构建了基于文本-知识扩展图协同推理网络的深度学习网络模型来对输入的问题进行分析处理,以选择输出匹配的答案,提高了对给定问题选择对应答案的准确性,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图;
图2是本发明实施例中基于文本-知识扩展图协同推理网络的深度学习网络模型的架构图;
图3是本发明实施例的系统结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于文本-知识扩展图协同推理网络的问答方法,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS。
步骤B:使用训练集DS以及知识图谱,训练基于文本-知识扩展图协同推理网络的深度学习网络模型M,模型架构如图2所示,以通过模型M来分析给定问题并给出相对应的答案。
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。
在本实施例中,所述步骤B具体包括以下步骤:
步骤B1:对训练集DS中的所有训练样本进行初始编码,从而得到问题、答案文本内容的初始特征Hq、Ha,问题和答案的全局语义特征Hcls,同时从知识图谱对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到问题和答案的知识扩展序列Nq和Na,并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq、Ca
在本实施例中,所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应的候选答案的文本内容;p为问题与答案是否正确对应的标签,p∈[0,1],0表示候选答案为错误答案,1表示候选答案为正确答案。
问题q表示为:
Figure BDA0004155738490000131
其中,
Figure BDA0004155738490000132
为问题q中的第i个词,i=1,2,…,m,m为问题q的文本长度。
答案a表示为:
Figure BDA0004155738490000133
其中,
Figure BDA0004155738490000134
为答案a中的第i个词,i=1,2,…,n,n为答案a的文本长度。
步骤B12:对步骤B11得到的问题
Figure BDA0004155738490000135
和答案
Figure BDA0004155738490000136
进行拼接,并在问题q的前面插入[CLS]标标记,答案a的前后插入[SEP]标记,构造BERT编码模型的问答输入序列Xs
问答输入序列表示为:
Figure BDA0004155738490000137
其中,m和n分别表示问题q和答案a的文本长度。
步骤B13:将Xs输入到BERT模型中,得到BERT模型的第i层输出序列
Figure BDA0004155738490000138
模型最后一层输出序列Hs;根据[CLS]和[SEP]标签在Hs序列中的位置,对问题、答案的初始特征进行切分,从而分别获得问题、答案的初始特征Hq和Ha;将BERT输出的[CLS]标签对应的特征向量视为问题与答案的全局语义
Figure BDA0004155738490000139
d为特征向量的维度。
其中,
Figure BDA00041557384900001310
表示为:
Figure BDA0004155738490000141
问题q的初始特征
Figure BDA0004155738490000142
表示为:
Figure BDA0004155738490000143
其中,
Figure BDA0004155738490000144
为第i词
Figure BDA0004155738490000145
对应的词向量,m为答案q的文本长度,d为特征向量的维度。
答案a的初始特征
Figure BDA00041557384900001422
表示为:
Figure BDA0004155738490000146
其中
Figure BDA0004155738490000147
为第i词
Figure BDA0004155738490000148
对应的词向量,
Figure BDA0004155738490000149
n为答案a的文本长度,d为特征向量的维度。
问题与答案的全局语义Hcls表示为:
Hcls=[CLS]
其中
Figure BDA00041557384900001410
d为特征向量的维度。
步骤B14:将问题q和答案a中的每一个单词在知识图谱中进行问文本-知识匹配和多跳节点扩展;首先对问题q中的每一个词
Figure BDA00041557384900001411
在知识图谱中进行文本-知识匹配,获得其对应的知识节点
Figure BDA00041557384900001412
同理获得答案a中每一个词
Figure BDA00041557384900001413
对应的知识节点
Figure BDA00041557384900001414
其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点
Figure BDA00041557384900001415
和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选择权重最大的max_n个扩展知识节点;扩展节点和文本匹配知识节点进行连接,形成知识扩展序列;利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca
其中,问题q知识扩展序列特征Cq表示为:
Figure BDA00041557384900001416
其中,
Figure BDA00041557384900001417
为问题知识扩展序列的长度,d为特征向量的维度;
Figure BDA00041557384900001418
Figure BDA00041557384900001419
的扩展知识节点,max_n为设定的扩展节点个数。
答案a知识扩展序列特征Ca表示为:
Figure BDA00041557384900001420
其中,
Figure BDA00041557384900001421
为答案知识扩展序列的长度,d为特征向量的维度;
Figure BDA0004155738490000151
Figure BDA0004155738490000152
的扩展知识节点,max_n为设定的扩展节点个数。
步骤B2:将步骤B1中得到的问题和答案的知识扩展序列Nq和Na按照节点的连接关系构成问题和答案的知识匹配-扩展结点结构子图,并转换成对应的l2阶邻接矩阵
Figure BDA0004155738490000153
和l3阶矩阵
Figure BDA0004155738490000154
接着利用K层图注意力网络评估知识匹配-扩展结点结构子图中各节点对语义的理解程度,并将各个节点的特征状态信息进行拼接,得到问题的知识匹配-扩展节点语义特征
Figure BDA0004155738490000155
在本实施例中,所述步骤B2具体包括以下步骤:
步骤B21:将问题和答案的知识扩展序列Nq和Na按照节点之间是否存在连接关系分别构成问题和答案的知识匹配-扩展节点结构子图以获取知识扩展节点和知识匹配节点间的融合信息,并转换为对应的l2阶邻接矩阵
Figure BDA0004155738490000156
和l3阶矩阵
Figure BDA0004155738490000157
其中
Figure BDA0004155738490000158
的表示如下:
Figure BDA0004155738490000159
在邻接矩阵
Figure BDA00041557384900001510
中,矩阵元素
Figure BDA00041557384900001511
为0表示知识节点
Figure BDA00041557384900001512
和知识节点
Figure BDA00041557384900001513
之间不存在节点连接关系;矩阵元素
Figure BDA00041557384900001514
为1表示单词
Figure BDA00041557384900001515
和单词
Figure BDA00041557384900001516
之间存在节点连接关系即
Figure BDA00041557384900001517
Figure BDA00041557384900001518
的扩展知识节点,且双方互为邻接矩阵节点。
其中
Figure BDA00041557384900001519
的表示如下:
Figure BDA00041557384900001520
在邻接矩阵
Figure BDA00041557384900001521
中,矩阵元素
Figure BDA00041557384900001522
为0表示知识节点
Figure BDA00041557384900001523
和知识节点
Figure BDA00041557384900001524
之间不存在节点连接关系;矩阵元素
Figure BDA00041557384900001525
为1表示单词
Figure BDA00041557384900001526
和单词
Figure BDA00041557384900001527
之间存在节点连接关系即
Figure BDA00041557384900001528
Figure BDA00041557384900001529
的扩展知识节点,且双方互为邻接矩阵节点。
步骤B22:以问题q为例,将问题q的知识扩展序列特征Cq作为图的节点特征,利用K层图注意力网络在邻接矩阵
Figure BDA00041557384900001530
上进行图注意力计算,进行图节点信息的更新;其中每一层图注意力网络包含X个注意力头。
则在每一层图注意力网络中,图节点i的计算更新过程如下:
Figure BDA00041557384900001531
Figure BDA0004155738490000161
Figure BDA0004155738490000162
Figure BDA0004155738490000163
其中
Figure BDA0004155738490000164
d为特征向量的维度,W1,W2为共享参数矩阵,“:”为拼接操作,σ(·)为激活函数。
步骤B23:将经过第K层图注意力网络的图中各个节点的特征信息进行拼接,得到问题的知识匹配-扩展节点语义特征
Figure BDA0004155738490000165
Figure BDA0004155738490000166
的计算公式如下:
Figure BDA0004155738490000167
其中
Figure BDA0004155738490000168
为问题知识扩展序列的长度,d为特征向量的维度,同理,可以获得答案的知识匹配-扩展节点语义特征
Figure BDA0004155738490000169
步骤B3:将步骤B1中得到的问题和答案的知识扩展序列Nq和Na通过外部解析工具分别构建相应的句法依赖树,并转换为对应的l2阶邻接矩阵
Figure BDA00041557384900001610
和l3阶矩阵
Figure BDA00041557384900001611
接着利用K层图注意力网络得到问题和答案的知识匹配节点上下文语义特征
Figure BDA00041557384900001612
并对特征进行掩码操作以减少语义噪声。
在本实施例中,所述步骤B3具体包括以下步骤:
步骤B31:对于问题和答案的知识扩展序列Nq和Na,使用外部解析工具进行句法依赖关系解析,并获得对应的句法依赖树;分别构造问题和答案的知识匹配节点句法依赖子图,并转换为对应的l2阶邻接矩阵
Figure BDA00041557384900001613
和l3阶矩阵
Figure BDA00041557384900001614
其中
Figure BDA00041557384900001615
的表示如下:
Figure BDA00041557384900001616
在邻接矩阵
Figure BDA00041557384900001617
中,矩阵元素
Figure BDA00041557384900001618
为0表示知识节点
Figure BDA00041557384900001619
和知识节点
Figure BDA00041557384900001620
之间不存在句法结构依赖关系;矩阵元素
Figure BDA00041557384900001621
为1表示单词
Figure BDA00041557384900001622
和单词
Figure BDA00041557384900001623
之间存在着一定的句法结构依赖关系,且双方互为邻接矩阵节点;同理邻接矩阵
Figure BDA0004155738490000171
的定义与
Figure BDA0004155738490000172
一致。
其中
Figure BDA0004155738490000173
的表示如下:
Figure BDA0004155738490000174
在邻接矩阵
Figure BDA0004155738490000175
中,矩阵元素
Figure BDA0004155738490000176
为0表示知识节点
Figure BDA0004155738490000177
和知识节点
Figure BDA0004155738490000178
之间不存在句法结构依赖关系;矩阵元素
Figure BDA0004155738490000179
为1表示单词
Figure BDA00041557384900001710
和单词
Figure BDA00041557384900001711
之间存在着一定的句法结构依赖关系,且双方互为邻接矩阵节点。
步骤B32:以问题q为例,将问题q的知识扩展序列特征Cq中的扩展节点的特征做一个掩码操作,即将扩展节点进行遮蔽,不参与计算;然后将经过掩码操作的知识扩展序列特征Cq作为图的节点特征,利用K层图注意力网络在邻接矩阵
Figure BDA00041557384900001712
上进行图注意力计算,进行图节点特征信息的更新,其中每一层图注意力网络包含X个注意力头。
则在每一层图注意力网络中,图节点i的计算更新过程如下:
Figure BDA00041557384900001713
Figure BDA00041557384900001714
Figure BDA00041557384900001715
Figure BDA00041557384900001716
其中
Figure BDA00041557384900001717
d为特征向量的维度,W3,W4为共享参数矩阵,“:”为拼接操作,σ(·)为激活函数。
步骤B33:将经过第K层图注意力网络的图中各个节点的特征状态信息进行拼接,得到问题的知识匹配节点上下文语义特征
Figure BDA00041557384900001718
Figure BDA00041557384900001719
的表示如下:
Figure BDA00041557384900001720
其中
Figure BDA00041557384900001721
为问题知识扩展序列的长度,d为特征向量的维度;同理,可以获得答案的知识匹配节点上下文语义特征
Figure BDA00041557384900001722
步骤B34:对问题和答案的知识匹配节点上下文语义特征
Figure BDA00041557384900001723
进行扩展节点剪枝操作,则剪枝之后
Figure BDA0004155738490000181
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度。
步骤B4:将步骤B1中得到的问题和答案的初始特征Hq、Ha分别利用BiGRU网络进行序列融合得到问题和答案的序列语义特征
Figure BDA0004155738490000182
Figure BDA0004155738490000183
将步骤B3中得到的问题和答案的知识匹配节点上下文语义特征
Figure BDA0004155738490000184
分别与对应的序列语义特征
Figure BDA0004155738490000185
Figure BDA0004155738490000186
经过交互注意力机制获得问题和答案的文本注意力特征表示
Figure BDA0004155738490000187
Figure BDA0004155738490000188
以及知识注意力特征表示
Figure BDA0004155738490000189
Figure BDA00041557384900001810
接着将文本注意力特征
Figure BDA00041557384900001811
Figure BDA00041557384900001812
与步骤B1中得到的初始特征Hq、Ha,知识注意力特征
Figure BDA00041557384900001813
Figure BDA00041557384900001814
与步骤B3中得到的知识匹配节点上下文语义特征
Figure BDA00041557384900001815
两两分别进行残差连接并分别通过前向反馈神经网络得到最终问题和答案的文本协同推理特征
Figure BDA00041557384900001816
Figure BDA00041557384900001817
知识协同推理特征
Figure BDA00041557384900001818
Figure BDA00041557384900001819
在本实施例中,所述步骤B4具体包括以下步骤:
步骤B41:将预训练语言模型输出问题和答案文本的初始特征Hq、Ha分别利用BiGRU网络进行序列融合,得到问题和答案的序列语义特征
Figure BDA00041557384900001820
Figure BDA00041557384900001821
计算公式如下:
Figure BDA00041557384900001822
Figure BDA00041557384900001823
其中
Figure BDA00041557384900001824
m为问题q的文本长度,n为答案a的文本长度;d为特征向量的维度。
步骤B42:利用交互注意力机制,将步骤B34得到的问题和答案的知识匹配节点上下文语义特征
Figure BDA00041557384900001825
Figure BDA00041557384900001826
分别与步骤B41得到的序列语义特征
Figure BDA00041557384900001827
Figure BDA00041557384900001828
计算相关性矩阵,分别得到问题和答案的文本注意力特征表示
Figure BDA00041557384900001829
Figure BDA00041557384900001830
以及知识注意力特征表示
Figure BDA00041557384900001831
Figure BDA00041557384900001832
Figure BDA00041557384900001833
Figure BDA00041557384900001834
Figure BDA00041557384900001835
Figure BDA00041557384900001836
的计算公式如下所示:
Figure BDA00041557384900001837
Figure BDA00041557384900001838
Figure BDA00041557384900001839
Figure BDA00041557384900001840
其中
Figure BDA00041557384900001841
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度;W3,W4,W5,W6为可训练的注意力矩阵参数。
步骤B43:将问题和答案的文本注意力特征
Figure BDA0004155738490000191
Figure BDA0004155738490000192
与步骤B13得到问题和答案的初始特征Hq、Ha,问题和答案的知识注意力特征
Figure BDA0004155738490000193
Figure BDA0004155738490000194
与问题和答案的知识匹配节点上下文语义特征
Figure BDA0004155738490000195
两两分别进行残差连接,并通过一个前向反馈神经网络对其进行线性变换,从而得到最终问题和答案的文本协同推理特征
Figure BDA0004155738490000196
Figure BDA0004155738490000197
知识协同推理特征
Figure BDA0004155738490000198
Figure BDA0004155738490000199
Figure BDA00041557384900001910
Figure BDA00041557384900001911
的计算公式如下所示:
Figure BDA00041557384900001912
Figure BDA00041557384900001913
其中
Figure BDA00041557384900001914
m为问题q的文本长度,d为特征向量的维度;W9,W10,W11,W12为可训练的线性变换参数,b1,b2,b3,b4为偏置向量;同理计算
Figure BDA00041557384900001915
Figure BDA00041557384900001916
Figure BDA00041557384900001917
n为答案a的文本长度。
步骤B5:将步骤B4中得到的问题和答案的文本协同推理特征
Figure BDA00041557384900001918
Figure BDA00041557384900001919
分别通过一个多头自注意力机制得到问题和答案的自注意力语义特征
Figure BDA00041557384900001920
Figure BDA00041557384900001921
接着通过交互注意力机制将得到的自注意力语义特征
Figure BDA00041557384900001922
Figure BDA00041557384900001923
彼此融合得到问题和答案的交互注意力语义特征
Figure BDA00041557384900001924
Figure BDA00041557384900001925
之后通过门控机制将问题和答案的交互注意力语义特征
Figure BDA00041557384900001926
Figure BDA00041557384900001927
分别与问题和答案的全局语义特征Hcls进行过滤融合,得到问题和答案的多粒度语义特征
Figure BDA00041557384900001928
Figure BDA00041557384900001929
在本实施例中,所述步骤B5具体包括以下步骤:
步骤B51:对步骤B43得到的问题和答案的文本协同推理特征
Figure BDA00041557384900001930
Figure BDA00041557384900001931
分别利用一个多头自注意力机制,通过权重计算得到句子单词之间的上下文语义关系,从而得到问题和答案的自注意力语义特征
Figure BDA00041557384900001932
Figure BDA00041557384900001933
Figure BDA00041557384900001934
的计算公式如下所示:
Figure BDA00041557384900001935
Figure BDA00041557384900001936
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key)、V(value)均为问题和答案的文本协同推理特征
Figure BDA00041557384900001937
Figure BDA00041557384900001938
m为问题q的文本长度;W13,W14,W15,W16为可训练的注意力参数,headi表示第i个注意力函数的输出,i∈[1,num];同理可以获得答案的自注意力语义特征
Figure BDA00041557384900001939
n为答案a的文本长度。headi为多头注意力机制中每一个头的计算公式,Q、K,V为headi计算过程中需要传入的参数。而
Figure BDA0004155738490000201
则表示传入的参数。
步骤B52:采用交互注意力机制,对问题和答案的自注意力特征
Figure BDA0004155738490000202
Figure BDA0004155738490000203
进行一个乘法操作并利用softmax函数进行归一化处理,得到感知答案语义的问题交互注意力语义特征
Figure BDA0004155738490000204
和感知问题语义的答案交互注意力语义特征
Figure BDA0004155738490000205
Figure BDA0004155738490000206
的计算公式如下所示:
Figure BDA0004155738490000207
Figure BDA0004155738490000208
其中,
Figure BDA0004155738490000209
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度;W17,W18为可训练的注意力矩阵参数。
步骤B53:分别将细粒度的问题和答案的交互注意力语义特征
Figure BDA00041557384900002010
Figure BDA00041557384900002011
与粗粒度的问题和答案的全局语义特征Hcls进行过滤融合,得到语义表征精确的问题和答案的多粒度语义特征
Figure BDA00041557384900002012
Figure BDA00041557384900002013
Figure BDA00041557384900002014
Figure BDA00041557384900002015
的计算公式如下所示:
Figure BDA00041557384900002016
Figure BDA00041557384900002017
Figure BDA00041557384900002018
Figure BDA00041557384900002019
其中,
Figure BDA00041557384900002020
d为特征向量的维度;为了保证特征尺寸一致,对
Figure BDA00041557384900002021
Figure BDA00041557384900002022
进行平均池化操作,avg_pooling(·)为平均池化函数,
Figure BDA00041557384900002023
Figure BDA00041557384900002024
W19,W20,W21,W22为可训练门控网络参数。
步骤B6:将步骤B5得到的问题和答案的多粒度语义特征
Figure BDA00041557384900002025
Figure BDA00041557384900002026
和步骤B4得到的知识协同推理特征
Figure BDA00041557384900002027
Figure BDA00041557384900002028
进行连接,得到问题和答案的最终表示特征
Figure BDA00041557384900002029
Figure BDA00041557384900002030
并将其进行连接得到最终的答案对特征表示Hfinal
在本实施例中,所述步骤B6具体包括以下步骤:
步骤B61:分别将问题和答案的多粒度语义特征
Figure BDA00041557384900002031
Figure BDA00041557384900002032
与步骤B43得到的知识协同推理特征
Figure BDA00041557384900002033
Figure BDA00041557384900002034
进行拼接,得到问题和答案的最终特征
Figure BDA00041557384900002035
Figure BDA00041557384900002036
Figure BDA0004155738490000211
Figure BDA0004155738490000212
的表示如下:
Figure BDA0004155738490000213
Figure BDA0004155738490000214
步骤B62:将问题最终表示特征
Figure BDA0004155738490000215
和答案最终特征
Figure BDA0004155738490000216
进行连接,得到最终的问答对特征表示Hfinal
Hfinal表示如下:
Figure BDA0004155738490000217
步骤B7:将B6中得到的最终的答案对特征表示Hfinal通过softmax函数得到问题-答案对之间的相关性匹配分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数。
在本实施例中,所述步骤B7具体包括以下步骤:
步骤B71:利用一个softmax函数对最终的问答特征表示Hfinal进行归一化处理,得到问题-答案对之间的相关性匹配分数f(q,a)∈[0,1]。
f(q,a)的计算公式如下所示:
f(q,a)=softamx(HfinalW23+b5)
其中,
Figure BDA0004155738490000218
为可训练的参数矩阵,
Figure BDA0004155738490000219
为偏置向量。
步骤B72:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型。
最小化损失函数L的计算公式如下:
Figure BDA00041557384900002110
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
步骤B8:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值,或者达到最大迭代次数,终止深度学习网络模型的训练过程。
如图3所示,本实施例还提供了采用上述方法的基于文本-知识扩展图协同推理网络的问答系统,包括:数据收集模块、文本预处理模块、文本编码模块、网络模型训练模块和答案选择模块。
所述数据收集模块用于在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案的真实标签,以此构建训练集DS。
所述文本预处理模块用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词。
所述文本编码模块用于对训练集DS中的所有训练样本进行初始编码,从而得到问题和答案文本内容的初始特征、问答对全局语义特征,同时从知识图谱对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征。
所述网络模型训练模块用于将问题和答案文本的初始特征、问题-答案全局语义特征、问题-答案对的知识匹配节点上下文语义特征以及问题和答案的知识扩展序列特征输入到深度学习网络模型中,得到问答对的最终特征,利用该问答对的最终特征预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于文本-知识扩展图协同推理网络的深度学习网络模型。
所述答案选择模块用于为给定问题选择一个正确答案,利用文本-知识扩展图协同推理网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (10)

1.一种基于文本-知识扩展图协同推理网络的问答方法,其特征在于,包括以下步骤:
步骤A:在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案对的真实标签,以此构建训练集DS;
步骤B:使用训练集DS以及知识图谱,训练基于文本-知识扩展图协同推理网络的深度学习网络模型M,以通过模型M来分析给定问题并给出相对应的答案;
步骤C:将用户的问题输入到训练好的深度学习网络模型M中,输出匹配的答案。
2.根据权利要求1所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B具体包括以下步骤:
步骤B1:对训练集DS中的所有训练样本进行初始编码,从而得到问题、答案文本内容的初始特征Hq、Ha,问题和答案的全局语义特征Hcls,同时从知识图谱对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询,将文本匹配的知识节点和扩展节点相连接,得到问题和答案的知识扩展序列Nq和Ha,并将知识扩展序列中的每一个知识节点信息映射为连续的低维向量,最终形成问题和答案的知识扩展序列特征Cq、Ca
步骤B2:将步骤B1中得到的问题和答案的知识扩展序列Nq和Na按照节点的连接关系构成问题和答案的知识匹配-扩展结点结构子图,并转换成对应的l2阶邻接矩阵
Figure FDA0004155738480000011
和l3阶矩阵
Figure FDA0004155738480000012
接着利用K层图注意力网络评估知识匹配-扩展结点结构子图中各节点对语义的理解程度,并将各个节点的特征状态信息进行拼接,得到问题的知识匹配-扩展节点语义特征
Figure FDA0004155738480000013
步骤B3:将步骤B1中得到的问题和答案的知识扩展序列Nq和Na通过外部解析工具分别构建相应的句法依赖树,并转换为对应的l2阶邻接矩阵
Figure FDA0004155738480000014
和l3阶矩阵
Figure FDA0004155738480000015
接着利用K层图注意力网络得到问题和答案的知识匹配节点上下文语义特征
Figure FDA0004155738480000016
并对特征进行掩码操作以减少语义噪声;
步骤B4:将步骤B1中得到的问题和答案的初始特征Hq、Ha分别利用BiGRU网络进行序列融合得到问题和答案的序列语义特征
Figure FDA0004155738480000017
Figure FDA0004155738480000018
将步骤B3中得到的问题和答案的知识匹配节点上下文语义特征
Figure FDA0004155738480000019
分别与对应的序列语义特征
Figure FDA00041557384800000110
Figure FDA00041557384800000111
经过交互注意力机制获得问题和答案的文本注意力特征表示
Figure FDA00041557384800000112
Figure FDA00041557384800000113
以及知识注意力特征表示
Figure FDA00041557384800000114
Figure FDA00041557384800000115
接着将文本注意力特征
Figure FDA00041557384800000116
Figure FDA00041557384800000117
与步骤B1中得到的初始特征Hq、Ha,知识注意力特征
Figure FDA0004155738480000021
Figure FDA0004155738480000022
与步骤B3中得到的知识匹配节点上下文语义特征
Figure FDA0004155738480000023
两两分别进行残差连接并分别通过前向反馈神经网络得到问题和答案的文本协同推理特征
Figure FDA0004155738480000024
Figure FDA0004155738480000025
知识协同推理特征
Figure FDA0004155738480000026
Figure FDA0004155738480000027
步骤B5:将步骤B4中得到的问题和答案的文本协同推理特征
Figure FDA0004155738480000028
Figure FDA0004155738480000029
分别通过一个多头自注意力机制得到问题和答案的自注意力语义特征
Figure FDA00041557384800000210
Figure FDA00041557384800000211
接着通过交互注意力机制将得到的自注意力语义特征
Figure FDA00041557384800000212
Figure FDA00041557384800000213
彼此融合得到问题和答案的交互注意力语义特征
Figure FDA00041557384800000214
Figure FDA00041557384800000215
之后通过门控机制将问题和答案的交互注意力语义特征
Figure FDA00041557384800000216
Figure FDA00041557384800000217
分别与问题和答案的全局语义特征Hcls进行过滤融合,得到问题和答案的多粒度语义特征
Figure FDA00041557384800000218
Figure FDA00041557384800000219
步骤B6:将步骤B5得到的问题和答案的多粒度语义特征
Figure FDA00041557384800000220
Figure FDA00041557384800000221
和步骤B4得到的知识协同推理特征
Figure FDA00041557384800000222
Figure FDA00041557384800000223
进行连接,得到问题和答案的最终表示特征
Figure FDA00041557384800000224
Figure FDA00041557384800000225
并将其进行连接得到最终的答案对特征表示Hfinal
步骤B7:将B6中得到的最终的答案对特征表示Hfinal通过softmax函数得到问题-答案对之间的相关性匹配分数f(q,a)∈[0,1];然后根据目标损失函数loss,通过反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新各参数;
步骤B8:当深度学习网络模型每次迭代产生的损失值变化小于所给定阈值,或者达到最大迭代次数,终止深度学习网络模型的训练过程。
3.根据权利要求2所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11:对训练集DS进行遍历,对其中的问题和候选答案文本进行分词处理并去除停用词之后,DS中的每一个训练样本表示为ds=(q,a,p);其中,q为问题的文本内容,a为问题对应的候选答案的文本内容;p为问题与答案是否正确对应的标签,p∈[0,1],0表示候选答案为错误答案,1表示候选答案为正确答案;
问题q表示为:
Figure FDA00041557384800000226
其中,
Figure FDA00041557384800000227
为问题q中的第i个词,i=1,2,…,m,m为问题q的文本长度;
答案a表示为:
Figure FDA00041557384800000228
其中,
Figure FDA00041557384800000229
为答案a中的第i个词,o=1,2,…,n,n为答案a的文本长度;
步骤B12:对步骤B11得到的问题
Figure FDA0004155738480000031
和答案
Figure FDA0004155738480000032
进行拼接,并在问题q的前面插入[CLS]标标记,答案a的前后插入[SEP]标记,构造BERT编码模型的问答输入序列Xs
问答输入序列表示为:
Figure FDA0004155738480000033
其中,m和n分别表示问题q和答案a的文本长度;
步骤B13:将Xs输入到BERT模型中,得到BERT模型的第i层输出序列
Figure FDA0004155738480000034
模型最后一层输出序列Hs;根据[CLS]和[SEP]标签在Hs序列中的位置,对问题、答案的初始特征进行切分,从而分别获得问题、答案的初始特征Hq和Ha;将BERT输出的[CLS]标签对应的特征向量视为问题与答案的全局语义
Figure FDA0004155738480000035
d为特征向量的维度;
其中,
Figure FDA0004155738480000036
表示为:
Figure FDA0004155738480000037
问题q的初始特征
Figure FDA0004155738480000038
表示为:
Figure FDA0004155738480000039
其中,
Figure FDA00041557384800000310
为第i词
Figure FDA00041557384800000311
对应的词向量,m为答案q的文本长度,d为特征向量的维度;
答案a的初始特征
Figure FDA00041557384800000312
表示为:
Figure FDA00041557384800000313
其中,
Figure FDA00041557384800000314
为第i词
Figure FDA00041557384800000315
对应的词向量,n为答案a的文本长度,d为特征向量的维度;
步骤B14:将问题q和答案a中的每一个单词在知识图谱中进行问文本-知识匹配和多跳节点扩展;首先对问题q中的每一个词
Figure FDA00041557384800000316
在知识图谱中进行文本-知识匹配,获得其对应的知识节点
Figure FDA00041557384800000317
同理获得答案a中每一个词
Figure FDA00041557384800000318
对应的知识节点
Figure FDA00041557384800000319
其次,在多跳扩展知识节点的过程中,根据文本匹配知识节点
Figure FDA00041557384800000320
和知识图谱中节点之间的关系进行多跳的节点选择;将多跳选择的知识节点按照其在知识图谱中的初始化权重大小进行排序,从中选择权重最大的max_n个扩展知识节点;扩展节点和文本匹配知识节点进行连接,形成知识扩展序列;利用知识嵌入将知识扩展序列中的每个知识节点映射为连续的低维向量,最终形成问题q和答案a的知识扩展序列特征Cq,Ca
其中,问题q知识扩展序列特征Cq表示为:
Figure FDA0004155738480000041
其中,
Figure FDA0004155738480000042
l2=(m+max_n×m)为问题知识扩展序列的长度,d为特征向量的维度;
Figure FDA0004155738480000043
Figure FDA0004155738480000044
的扩展知识节点,max_n为设定的扩展节点个数;
答案a知识扩展序列特征Ca表示为:
Figure FDA0004155738480000045
其中,
Figure FDA0004155738480000046
l3=(n+max_n×n)为答案知识扩展序列的长度,d为特征向量的维度;
Figure FDA0004155738480000047
Figure FDA0004155738480000048
的扩展知识节点,max_n为设定的扩展节点个数。
4.根据权利要求3所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21:将问题和答案的知识扩展序列Nq和Na按照节点之间是否存在连接关系分别构成问题和答案的知识匹配-扩展节点结构子图以获取知识扩展节点和知识匹配节点间的融合信息,并转换为对应的l2阶邻接矩阵
Figure FDA0004155738480000049
和l3阶矩阵
Figure FDA00041557384800000410
其中
Figure FDA00041557384800000411
的表示如下:
Figure FDA00041557384800000412
在邻接矩阵
Figure FDA00041557384800000413
中,矩阵元素
Figure FDA00041557384800000414
为0表示知识节点
Figure FDA00041557384800000415
和知识节点
Figure FDA00041557384800000416
之间不存在节点连接关系;矩阵元素
Figure FDA00041557384800000417
为1表示单词
Figure FDA00041557384800000418
和单词
Figure FDA00041557384800000419
之间存在节点连接关系即
Figure FDA00041557384800000420
Figure FDA00041557384800000421
的扩展知识节点,且双方互为邻接矩阵节点;
其中
Figure FDA00041557384800000422
的表示如下:
Figure FDA00041557384800000423
在邻接矩阵
Figure FDA00041557384800000424
中,矩阵元素
Figure FDA00041557384800000425
为0表示知识节点
Figure FDA00041557384800000426
和知识节点
Figure FDA00041557384800000427
之间不存在节点连接关系;矩阵元素
Figure FDA00041557384800000428
为1表示单词
Figure FDA00041557384800000429
和单词
Figure FDA00041557384800000430
之间存在节点连接关系即
Figure FDA00041557384800000431
Figure FDA00041557384800000432
的扩展知识节点,且双方互为邻接矩阵节点;
步骤B22:将问题q的知识扩展序列特征Cq作为图的节点特征,利用K层图注意力网络在邻接矩阵
Figure FDA0004155738480000051
上进行图注意力计算,进行图节点信息的更新;其中每一层图注意力网络包含X个注意力头;
则在每一层图注意力网络中,图节点i的计算更新过程如下:
Figure FDA0004155738480000052
Figure FDA0004155738480000053
Figure FDA0004155738480000054
Figure FDA0004155738480000055
其中
Figure FDA0004155738480000056
d为特征向量的维度,W1,W2为共享参数矩阵,“:”为拼接操作,σ(·)为激活函数;
步骤B23:将经过第K层图注意力网络的图中各个节点的特征信息进行拼接,得到问题的知识匹配-扩展节点语义特征
Figure FDA0004155738480000057
Figure FDA0004155738480000058
的计算公式如下:
Figure FDA0004155738480000059
其中
Figure FDA00041557384800000510
l2=(m+max_n×m)为问题知识扩展序列的长度,d为特征向量的维度,同理,获得答案的知识匹配-扩展节点语义特征
Figure FDA00041557384800000511
5.根据权利要求4所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B3具体包括以下步骤:
步骤B31:对于问题和答案的知识扩展序列Nq和Na,使用外部解析工具进行句法依赖关系解析,并获得对应的句法依赖树;分别构造问题和答案的知识匹配节点句法依赖子图,并转换为对应的l2阶邻接矩阵
Figure FDA00041557384800000512
和l3阶矩阵
Figure FDA00041557384800000513
其中
Figure FDA00041557384800000514
的表示如下:
Figure FDA00041557384800000515
在邻接矩阵
Figure FDA00041557384800000516
中,矩阵元素
Figure FDA00041557384800000517
为0表示知识节点
Figure FDA00041557384800000518
和知识节点
Figure FDA00041557384800000519
之间不存在句法结构依赖关系;矩阵元素
Figure FDA0004155738480000061
为1表示单词
Figure FDA0004155738480000062
和单词
Figure FDA0004155738480000063
之间存在着一定的句法结构依赖关系,且双方互为邻接矩阵节点;同理邻接矩阵
Figure FDA0004155738480000064
的定义与
Figure FDA0004155738480000065
一致;
其中
Figure FDA0004155738480000066
的表示如下:
Figure FDA0004155738480000067
在邻接矩阵
Figure FDA0004155738480000068
中,矩阵元素
Figure FDA0004155738480000069
为0表示知识节点
Figure FDA00041557384800000610
和知识节点
Figure FDA00041557384800000611
之间不存在句法结构依赖关系;矩阵元素
Figure FDA00041557384800000612
为1表示单词
Figure FDA00041557384800000613
和单词
Figure FDA00041557384800000614
之间存在着一定的句法结构依赖关系,且双方互为邻接矩阵节点;
步骤B32:将问题q的知识扩展序列特征Cq中的扩展节点的特征做一个掩码操作,即将扩展节点进行遮蔽,不参与计算;然后将经过掩码操作的知识扩展序列特征Cq作为图的节点特征,利用K层图注意力网络在邻接矩阵
Figure FDA00041557384800000615
上进行图注意力计算,进行图节点特征信息的更新,其中每一层图注意力网络包含X个注意力头;
则在每一层图注意力网络中,图节点i的计算更新过程如下:
Figure FDA00041557384800000616
Figure FDA00041557384800000617
Figure FDA00041557384800000618
Figure FDA00041557384800000619
其中
Figure FDA00041557384800000620
d为特征向量的维度,W3,W4为共享参数矩阵,“:”为拼接操作,σ(·)为激活函数;
步骤B33:将经过第K层图注意力网络的图中各个节点的特征状态信息进行拼接,得到问题的知识匹配节点上下文语义特征
Figure FDA00041557384800000621
Figure FDA00041557384800000622
的表示如下:
Figure FDA00041557384800000623
其中
Figure FDA00041557384800000624
l2=(m+max_n×m)为问题知识扩展序列的长度,d为特征向量的维度;同理,获得答案的知识匹配节点上下文语义特征
Figure FDA00041557384800000625
步骤B34:对问题和答案的知识匹配节点上下文语义特征
Figure FDA0004155738480000071
进行扩展节点剪枝操作,则剪枝之后
Figure FDA0004155738480000072
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度。
6.根据权利要求5所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B4具体包括以下步骤:
步骤B41:将预训练语言模型输出问题和答案文本的初始特征Hq、Ha分别利用BiGRU网络进行序列融合,得到问题和答案的序列语义特征
Figure FDA0004155738480000073
Figure FDA0004155738480000074
计算公式如下:
Figure FDA0004155738480000075
Figure FDA0004155738480000076
其中
Figure FDA0004155738480000077
m为问题q的文本长度,n为答案a的文本长度;d为特征向量的维度;
步骤B42:利用交互注意力机制,将步骤B34得到的问题和答案的知识匹配节点上下文语义特征
Figure FDA0004155738480000078
Figure FDA0004155738480000079
分别与步骤B41得到的序列语义特征
Figure FDA00041557384800000710
Figure FDA00041557384800000711
计算相关性矩阵,分别得到问题和答案的文本注意力特征表示
Figure FDA00041557384800000712
Figure FDA00041557384800000713
以及知识注意力特征表示
Figure FDA00041557384800000714
Figure FDA00041557384800000715
Figure FDA00041557384800000716
Figure FDA00041557384800000717
Figure FDA00041557384800000718
Figure FDA00041557384800000719
的计算公式如下:
Figure FDA00041557384800000720
Figure FDA00041557384800000721
Figure FDA00041557384800000722
Figure FDA00041557384800000723
其中
Figure FDA00041557384800000724
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度;W3,W4,W5,W6为可训练的注意力矩阵参数;
步骤B43:将问题和答案的文本注意力特征
Figure FDA00041557384800000725
Figure FDA00041557384800000726
与步骤B13得到问题和答案的初始特征Hq、Ha,问题和答案的知识注意力特征
Figure FDA00041557384800000727
Figure FDA00041557384800000728
与问题和答案的知识匹配节点上下文语义特征
Figure FDA00041557384800000729
两两分别进行残差连接,并通过一个前向反馈神经网络对其进行线性变换,从而得到最终问题和答案的文本协同推理特征
Figure FDA00041557384800000730
Figure FDA00041557384800000731
知识协同推理特征
Figure FDA00041557384800000732
Figure FDA00041557384800000733
Figure FDA00041557384800000734
Figure FDA00041557384800000735
的计算公式如下所示:
Figure FDA0004155738480000081
Figure FDA0004155738480000082
其中
Figure FDA0004155738480000083
m为问题q的文本长度,d为特征向量的维度;W9,W10,W11,W12为可训练的线性变换参数,b1,b2,b3,b4为偏置向量;同理计算
Figure FDA0004155738480000084
Figure FDA0004155738480000085
Figure FDA0004155738480000086
n为答案a的文本长度。
7.根据权利要求6所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B5具体包括以下步骤:
步骤B51:对步骤B43得到的问题和答案的文本协同推理特征
Figure FDA0004155738480000087
Figure FDA0004155738480000088
分别利用一个多头自注意力机制,通过权重计算得到句子单词之间的上下文语义关系,从而得到问题和答案的自注意力语义特征
Figure FDA0004155738480000089
Figure FDA00041557384800000810
Figure FDA00041557384800000811
的计算公式如下所示:
Figure FDA00041557384800000812
Figure FDA00041557384800000813
其中,MHA表示多头注意力机制,num为并行的头数,Q(query)、k(key)、V(value)均为问题和答案的文本协同推理特征
Figure FDA00041557384800000814
m为问题q的文本长度;
W13,W14,W15,W16为可训练的注意力参数,headi表示第i个注意力函数的输出,i∈[1,num];同理获得答案的自注意力语义特征
Figure FDA00041557384800000815
n为答案a的文本长度;
步骤B52:采用交互注意力机制,对问题和答案的自注意力特征
Figure FDA00041557384800000816
Figure FDA00041557384800000817
进行一个乘法操作并利用softmax函数进行归一化处理,得到感知答案语义的问题交互注意力语义特征
Figure FDA00041557384800000818
和感知问题语义的答案交互注意力语义特征
Figure FDA00041557384800000819
Figure FDA00041557384800000820
的计算公式如下所示:
Figure FDA00041557384800000821
Figure FDA00041557384800000822
其中,
Figure FDA00041557384800000823
m为问题q的文本长度,n为答案a的文本长度,d为特征向量的维度;W17,W18为可训练的注意力矩阵参数;
步骤B53:分别将细粒度的问题和答案的交互注意力语义特征
Figure FDA00041557384800000824
Figure FDA00041557384800000825
与粗粒度的问题和答案的全局语义特征Hcls进行过滤融合,得到语义表征精确的问题和答案的多粒度语义特征
Figure FDA0004155738480000091
Figure FDA0004155738480000092
Figure FDA0004155738480000093
Figure FDA0004155738480000094
的计算公式如下所示:
Figure FDA0004155738480000095
Figure FDA0004155738480000096
Figure FDA0004155738480000097
Figure FDA0004155738480000098
其中,
Figure FDA0004155738480000099
d为特征向量的维度;为了保证特征尺寸一致,对
Figure FDA00041557384800000910
Figure FDA00041557384800000911
进行平均池化操作,avg_pooling(·)为平均池化函数,
Figure FDA00041557384800000912
Figure FDA00041557384800000913
W19,W20,W21,W22为可训练门控网络参数。
8.根据权利要求7所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B6具体包括以下步骤:
步骤B61:分别将问题和答案的多粒度语义特征
Figure FDA00041557384800000914
Figure FDA00041557384800000915
与步骤B43得到的知识协同推理特征
Figure FDA00041557384800000916
Figure FDA00041557384800000917
进行拼接,得到问题和答案的最终特征
Figure FDA00041557384800000918
Figure FDA00041557384800000919
Figure FDA00041557384800000920
Figure FDA00041557384800000921
的表示如下:
Figure FDA00041557384800000922
Figure FDA00041557384800000923
步骤B62:将问题最终表示特征
Figure FDA00041557384800000924
和答案最终特征
Figure FDA00041557384800000925
进行连接,得到最终的问答对特征表示Hfinal
Hfinal表示如下:
Figure FDA00041557384800000926
9.根据权利要求8所述的基于文本-知识扩展图协同推理网络的问答方法,其特征在于,所述步骤B7具体包括以下步骤:
步骤B71:利用一个softmax函数对最终的问答特征表示Hfinal进行归一化处理,得到问题-答案对之间的相关性匹配分数f(q,a)∈[0,1];
f(q,a)的计算公式如下所示:
f(q,a)=softamx(HfinalW23+b5)
其中,
Figure FDA0004155738480000101
为可训练的参数矩阵,
Figure FDA0004155738480000102
为偏置向量;
步骤B72:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam对学习率进行更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
最小化损失函数L的计算公式如下:
Figure FDA0004155738480000103
其中f(q,a)i∈[0,1]是由softmax分类器计算出的问题-答案的相关性分数,yi∈[0,1]是二元分类标签。
10.一种采用如权利要求1-9任一项所述方法的基于文本-知识扩展图协同推理网络的问答系统,其特征在于,包括:
数据收集模块,用于在问答平台中收集用户的问题以及回答记录,并标注每一个问题-答案的真实标签,以此构建训练集DS;
文本预处理模块,用于对训练集中的训练样本进行预处理,包括分词处理、去除停用词;
文本编码模块,用于对训练集DS中的所有训练样本进行初始编码,从而得到问题和答案文本内容的初始特征、问答对全局语义特征,同时从知识图谱对问题、答案文本进行文本-知识匹配以及多跳知识节点扩展查询得到问题和答案的知识扩展序列特征;
网络模型训练模块,用于将问题和答案文本的初始特征、问题-答案全局语义特征、问题-答案对的知识匹配节点上下文语义特征以及问题和答案的知识扩展序列特征输入到深度学习网络模型中,得到问答对的最终特征,利用该问答对的最终特征预测答案正确性的概率,并通过与训练集中的真实类别标注作为对比计算损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于文本-知识扩展图协同推理网络的深度学习网络模型;
答案选择模块,用于为给定问题选择一个正确答案,利用文本-知识扩展图协同推理网络的深度学习网络模型对输入的问题进行分析处理,输出问答对相关性分数最高的候选答案,表示该问题所选择到的正确答案。
CN202310333880.3A 2023-03-31 2023-03-31 基于文本-知识扩展图协同推理网络的问答方法及系统 Pending CN116361438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310333880.3A CN116361438A (zh) 2023-03-31 2023-03-31 基于文本-知识扩展图协同推理网络的问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310333880.3A CN116361438A (zh) 2023-03-31 2023-03-31 基于文本-知识扩展图协同推理网络的问答方法及系统

Publications (1)

Publication Number Publication Date
CN116361438A true CN116361438A (zh) 2023-06-30

Family

ID=86906631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310333880.3A Pending CN116361438A (zh) 2023-03-31 2023-03-31 基于文本-知识扩展图协同推理网络的问答方法及系统

Country Status (1)

Country Link
CN (1) CN116361438A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610663A (zh) * 2023-10-19 2024-02-27 合肥工业大学 基于企业披露报告的创新文本特征构造方法和系统
CN117764085A (zh) * 2024-01-11 2024-03-26 华中师范大学 一种基于跨图协同建模的机器阅读理解方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610663A (zh) * 2023-10-19 2024-02-27 合肥工业大学 基于企业披露报告的创新文本特征构造方法和系统
CN117764085A (zh) * 2024-01-11 2024-03-26 华中师范大学 一种基于跨图协同建模的机器阅读理解方法

Similar Documents

Publication Publication Date Title
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
Abu-El-Haija et al. Watch your step: Learning node embeddings via graph attention
CN110826336B (zh) 一种情感分类方法、系统、存储介质及设备
CN111538848B (zh) 一种融合多源信息的知识表示学习方法
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
Perez-Martin et al. Improving video captioning with temporal composition of a visual-syntactic embedding
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN108229582A (zh) 一种面向医学领域的多任务命名实体识别对抗训练方法
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN111639252A (zh) 一种基于新闻-评论关联性分析的虚假新闻识别方法
CN116361438A (zh) 基于文本-知识扩展图协同推理网络的问答方法及系统
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN109063164A (zh) 一种基于深度学习的智能问答方法
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
Zhao et al. Graph convolutional network based on multi-head pooling for short text classification
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
CN116028604A (zh) 一种基于知识增强图卷积网络的答案选择方法及系统
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及系统
CN117235216A (zh) 一种基于异构知识融合的知识推理方法
CN117763363A (zh) 基于知识图谱与提示学习的跨网络学术社区资源推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination