CN112632250A - 一种多文档场景下问答方法及系统 - Google Patents
一种多文档场景下问答方法及系统 Download PDFInfo
- Publication number
- CN112632250A CN112632250A CN202011539038.8A CN202011539038A CN112632250A CN 112632250 A CN112632250 A CN 112632250A CN 202011539038 A CN202011539038 A CN 202011539038A CN 112632250 A CN112632250 A CN 112632250A
- Authority
- CN
- China
- Prior art keywords
- question
- document
- answered
- target
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000000547 structure data Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种多文档场景下问答方法,所述方法包括:对多个文档的文本信息进行编码,获得各所述文档的特征向量;对待回答问题进行编码,获得所述待回答问题的特征向量;根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;从N个所述目标文档中抽取SPO三元组;根据所述SPO三元组构建知识图谱;根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;利用分类器从所述证据图集合中获取目标证据图;根据所述目标证据图的节点获得待回答问题的目标答案。本发明提高了问答系统的准确性和稳定性。
Description
技术领域
本发明涉及语言处理技术领域,特别是涉及一种多文档场景下问答方法及系统。
背景技术
智能问答系统的目的是自动为人们提供所需的信息,目前广泛应用于许多领域,如医疗、金融和电子商务中。大多数方法都集中在简单问题上,而对于复杂问题的解决一直是问答系统的挑战之一。随着互联网的广泛使用,大数据的应用成为可能,它成为了获取信息的最佳来源之一,并加速了多种问答系统的开发。目前准确高效的问答系统可以根据人们的日常需求智能提出多种解决方案并让用户进行选择,对于个人、企业和政府来说都有积极意义。
随着深度学习的快速发展,近年来出现了基于文本的端到端问答系统,该系统在回答复杂问题方面取得了较好的性能,具有良好的鲁棒性。该系统通常可以分解为三个子任务:问题分析、文档重新溯源和答案生成:在问题分析上,目前常用的思路是依靠大规模的监督阅读理解数据,这些数据可以学习阅读真实的文档和回答复杂的问题,而事先对语言结构几乎一无所知。而在选取文档和答案生成方面,目前主要采取的方案是基于循环神经网络对文章进行语义概括并从中选取和问题有关的文章作为知识来源,然后通过比较与问题的语义相似度来得出答案。然而,基于文本的端到端问答系统也有一个很明显的弱点,即缺乏可解释性,即当问答系统根据训练好的模型给出答案时并不能同时给出推导过程,这一点对于某些精密性要求很高的领域如医学来说是不可接受的。
近些年,随着知识图谱概念的流行,许多基于知识图谱的问答系统构造也被提出。这类问答系统对于一个给定的自然语言问题,主要通过语义解析来解决该问题,然后利用构建好的知识图谱进行查询和推理以得到答案。该类方法根据知识图谱的结构特点,通过输出与问题和答案相关的子图来提供答案的可解释性。基于知识图谱的问答系统可分为三类。第一种基于语义解析,其主要思想是将自然语言转换为一系列逻辑形式,将整个问题表达为语义,然后通过查询语言在知识图中查询,找到答案。这些方法依赖于从自然语言到逻辑形式的语义解析的第一步,存在错误传递的问题,导致模型性能差,召回率低。同时,这些方法的精确匹配降低了反射系数。第二种基于信息提取,该方法提取问题中的实体,并查询知识图谱,得到以该实体为中心的子图。子图中的每个节点或边都可以用作候选答案。虽然这种方法可以提高召回率,但由于依赖于自然语言与知识图谱之间的映射,仍然受到图谱不完备性的限制。第三种基于向量建模,问题和候选答案嵌入在分布式表示中。通过训练数据对分布的代表进行训练,使问题的向量表示和正确答案的得分尽可能高。这种类型的方法有效地避免了语义解析中的错误,提高了模型的性能。然而,这些方法仍然受到图谱不完备性的限制,降低了模型的可解释性。
近年来,大数据正逐渐普及,并且人们对于便利获取信息的需求不断增长,智能问答系统变得越来越重要。目前,大部分的手机平台和大型互联网企业都在研发智能化的问答系统,智能问答系统可以根据人们的输入自动分析问题并且为人们找到理想化的答案,大大地减少人们在办公中的时间成本。对于问答系统而言,其最重要的工作主要分为两个方面:对于用户需求的分析以及根据需求对于信息源的抽取。对于用户提问的分析主要依靠的是自然语言处理方面的知识,而近些年对于符合需求的信息的抽取则主要采用深度学习等方法。随着模型的进步,在问答方面的准确率也在逐渐提高,但是如今深度学习问答最大的问题就是对于推导过程的模糊性,导致相关模型一直收到质疑。
发明内容
基于此,本发明的目的是提供一种多文档场景下问答方法及系统,提高了问答系统的准确性和稳定性。
为实现上述目的,本发明提供了如下方案:
一种多文档场景下问答方法,所述方法包括:
对多个文档的文本信息进行编码,获得各所述文档的特征向量;
对待回答问题进行编码,获得所述待回答问题的特征向量;
根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;
从N个所述目标文档中抽取SPO三元组;
根据所述SPO三元组构建知识图谱;
根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;
利用分类器从所述证据图集合中获取目标证据图;
根据所述目标证据图的节点获得待回答问题的目标答案。
可选地,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量之前,所述方法还包括:
获得多个文档的半结构数据;
对多个文档的半结构数据进行处理获得多个文档的文本信息。
可选地,所述方法还包括:将所述目标证据图作为所述目标答案的可解释性来源。
可选地,所述方法具体还包括:
利用HEAD-QA数据集中数据训练基于注意力的图神经网络,获得所述分类器。
可选地,所述从N个所述目标文档中抽取SPO三元组,具体包括:
对N个所述目标文档进行词性标记,提取词组;
对N个所述目标文档进行命名实体识别;
将所述命名实体和所述词组作为SPO三元组的实体对象。
可选地,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
采用TF-IDF方法对各所述文档的文本信息进行编码,获得各所述文档的特征向量。
可选地,所述采用TF-IDF方法各所述文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
剔除各所述文档的文本信息中的停用词,获得各处理后文档;
将每个词在所述处理后文档中出现的频率除以每个词在所有文档中出现的总频率,获得每个词在各所述处理后文档中词频;
根据各处理后文档中每个词的词频确定各所述文档的特征向量。
可选地,所述对待回答问题进行编码,获得所述待回答问题的特征向量,具体包括:
采用TF-IDF方法对待回答问题进行编码,获得所述待回答问题的特征向量。
本发还提供了一种多文档场景下问答系统,所述系统包括:
文档的特征向量确定获取模块,用于对多个文档的文本信息进行编码,获得各所述文档的特征向量;
待回答问题的特征向量获取模块,用于对待回答问题进行编码,获得所述待回答问题的特征向量;
目标文档确定模块,用于根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;
SPO三元组抽取模块,用于从N个所述目标文档中抽取SPO三元组;
知识图谱构建模块,用于根据所述SPO三元组构建知识图谱;
证据图集合确定模块,用于根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;
目标证据图获取模块,用于利用分类器从所述证据图集合中获取目标证据图;
目标答案获取模块,用于根据所述目标证据图的节点获得待回答问题的目标答案。
可选地,所述系统还包括:
将所述目标证据图作为所述目标答案的可解释性来源。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种多文档场景下问答方法及系统,从多个文档的特征向量中确定与所述待回答问题接近的N个目标文档,从N个所述目标文档中抽取SPO三元组,并根据所述SPO三元组构建知识图谱,根据待回答问题中实体与知识图谱中各节点之间的相似度确定证据图集合,然后利用分类器从证据图集合中获得目标答案,提高了问答的准确性和稳定性。另外,目标证据图作为目标答案的可解释性来源,提高了目标答案的可解释性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种多文档场景下问答方法流程示意图;
图2为本发明实施例一种多文档场景下问答方法整体流程示意图;
图3为不同问题复杂度下不同方法回答问题准确度的效果图;
图4为本发明一种多文档场景下问答系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多文档场景下问答方法及系统,提高了问答系统的准确性和稳定性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种多文档场景下问答方法流程示意图,如图1所示,一种多文档场景下问答方法包括:
步骤101:对多个文档的文本信息进行编码,获得各所述文档的特征向量。
其中,步骤101之前所述方法还包括:获得多个文档的半结构数据;对多个文档的半结构数据进行处理获得多个文档的文本信息。具体包括:采用wikiextractor包对维基百科的半结构数据进行处理。
其中,步骤101具体包括:
采用TF-IDF方法对多个文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
剔除各所述文档的文本信息中的停用词,获得各处理后文档。
将每个词在所述处理后文档中出现的频率除以每个词在所有文档中出现的总频率,获得每个词在各所述处理后文档中词频。
根据各处理后文档中每个词的词频确定各所述文档的特征向量。即将所有词频组成的结果向量作为文章的特征。
步骤102:对待回答问题进行编码,获得所述待回答问题的特征向量。
其中,步骤102具体包括:
采用TF-IDF方法对待回答问题进行编码,获得所述待回答问题的特征向量。
步骤103:根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档。本实施例中N取值为5。
步骤104:从N个所述目标文档中抽取SPO三元组。
其中,步骤104具体包括:
用NLTK包对N个所述目标文档进行词性标记,提取词组。
用NLTK包对N个所述目标文档进行命名实体识别。
将所述命名实体和所述词组作为SPO三元组的实体对象。
步骤105:根据所述SPO三元组构建知识图谱。
使用图的形式来表示问题所涉及到的相关知识,根据从问题相关文章中所提取的SPO三元组来构成一个庞大的原始图(知识图谱),然后再从中提取出可能的候选证据图。原始图由节点和边组成:G=(V,E),其中G表示原始图,V表示原始图中节点的集合,E表示原始图中边的集合。
知识图谱主要包括以下内容:
由SPO三元组中的信息提取出节点,还有连接各节点的有向边,其中S和O赋予entity(实体)属性,P则赋予predicate(谓语)属性。
与Entity节点相连的属性节点还有连接彼此的有向边,主要依靠维基百科中大量关于文章主题的is-a句式来进行提取。
连接具有相同含义的实体节点或关系节点的双向边。
知识图谱建立的具体过程为:
S1:采用开放信息提取来提取三元组,即在关系未知的情况下,输入语料和少量的独立于关系的经验规则,抽取出需要的实体和关系。
S2:在预处理过程中使用NLTK包对提取的文章进行词性标记和命名实体识别,在处理SPO三元组信息时,将命名实体和提取出的词组分别作为实体对象。
S3:提取三元组的过程中,将三元组各部分(实体)之间的成对距离作为每个三元组关系的置信指数。
S4:将三元组中的谓语和其他两个实体间的关系作为边,同时谓语作为一个单独的节点,即每一个SPO三元组可以在知识图谱中形成两个实体节点和一个谓词节点,置信指数作为对应节点的权重。
S5:采用了一个语义词典,该词典由大型知识库整理而成,包括了同一文本形式指向不同标准实体的概率,通过这个语义词典可以计算两个节点的相似度并合并相似度高于阈值的实体。
S6:将已经处理完毕的三元组建立成图,构成知识图谱。
整个原始图的建立过程如算法1所示,在建立原始图时,没有将SPO三元组中的谓语作为一条边而是作为一个单独的节点,即每一个SPO的三元组可以在知识图谱中形成两个实体节点和谓语节点。如果其中的S、O节点在图中已经存在则会在原来三元组的基础上扩展出一条边连接新的节点。同时本发明计算了各个文本形式指向同一实体的概率,将相似度超过阈值的两个节点通过双向边进行连接。
步骤106:根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合。
其中,步骤106具体包括将知识图谱中与待回答问题中关键词相对应的目标节点作为锚点,从原始的知识图谱中抽取若干的子图作为候选证据图的集合。其中,关键词相为待回答问题中剔除代词、语气词和停用词后的词语。
步骤107:利用分类器从所述证据图集合中获取目标证据图。
所述方法具体还包括:
利用HEAD-QA数据集中数据训练基于注意力的图神经网络(Attention-basedGraph Neural Network,AGNN),获得所述分类器。
训练基于注意力的图神经网络的过程为:
S1:在求取问题本身的向量表示过程中,采用TextCNN模型,并将其维度设置为和后续图向量相等。
S2:对于每一个证据图,从中提取所有节点和边,其中边以COO格式进行编码,即设置两个列表,第一个列表包含源节点的索引,而目标节点的索引在第二个列表中指定,节点方面使用训练维基数据得到的向量经过一个线性层作为每一个节点的初始化状态。
S3:训练的过程中,提取候选证据图时,检验每个候选证据图的非锚节点,出现与真实答案十分接近的节点时则设为正面,否则为负面。在每一轮训练中,通过将每个证据图输出的向量Vg与问题向量Vq的余弦相似度作为激励参数来计算图的特征。
S4:使用Adam optimizer来训练模型,其学习率定为0.01。为了防止模型的过拟合,在模型的中间使用了一个Dropout层对于向量的某些维度进行主动遗忘,遗忘率定为30%。由于节点的向量维度为300,还添加了两层linear层来对向量进行压缩。
步骤108:根据所述目标证据图的节点获得待回答问题的目标答案。
所述方法还包括:将所述目标证据图作为所述目标答案的可解释性来源。
在训练中采用TextCNN来得到一个问题的向量表示。它首先将问题编码为一个具有各个特征的集合,然后将每一个特征转化为向量。这些词向量组成的集合在经过一维卷积层的提取特征后会再进入一个MaxPolling(最大值池化)层以使得到的句子向量长度统一,这样最终提取的向量可以作为之后训练候选图时的问题表示Vq。而在图的输入方面,则将节点代表的语义信息和边所代表的空间信息同时输入进AGNN中,通过自定义的损失函数来进行迭代。
下面以具体实施例详细说明本发明一种多文档场景下问答方法。
(1)建立文章词频特征
本发明将维基的所有文章转换为TF-IDF权重的向量,假设m篇文档构成一个文档集合:N={N1,N2,...,Nm},而Ni文章由中词组j在这篇文章中的出现次数则表示为Cij,则j词的tf(Term frequency,词频)和idf(Inverse Document Frequency,逆文本频率指数)为:
其中n为Ni文章中词组的数目,h为包含词组j的文档总数,由此可以计算出词组j在Ni文章中的综合频率:
TF-IDF=TF*IDF。其中,TF-IDF表示综合频率。
关于词语的计数采用双重计数,同时计算两个前后两个词语的综合频率,然后用散列的哈希表使每个词组对应一个哈希值,由此可以将每篇文档编码为一个包含各个词组频率的字典,通过比较文档和待回答问题中的词组可以选出最接近的五篇文章。
(2)构建原始图谱
文档中的每一组信息被定义为由两个实体和一个关系组成的三元组,它们被表示为(S,P,O)。本发明采用开放信息提取来提取三元组,即在关系未知的情况下,输入语料和少量的独立于关系的经验规则,抽取出需要的实体和关系。在预处理过程中使用NLTK包对提取的文章进行词性标记和命名实体识别,在处理SPO三元组信息时,将命名实体和提取出的词组分别作为实体对象。关于SPO三元组,主要基于依存句法来进行抽取,首先对于每个实体对象生成一个该词的依存句法的儿子节点,主要存储关系和对应儿子词的位置,然后生成一个该词的父子数组的依存结构,主要是记录该词的词性、父节点的词性以及他们之间的关系,在对每个实体的循环过程中,找到动宾关系、定语后置动宾关系等关系并进行提取,在剔除不具有依存结构的无关词后,将依存句法分析结果和具体语句一起分析以生成SPO三元组。
在提取SPO三元组的过程中,本发明将SPO三元组各部分之间的成对距离作为每个SPO三元组关系的置信指数。假设一个SPO三元组中,S和P、P和O的距离分别为d1、d2,则S-P、P-O的置信指数分别为:
当同一对SPO三元组出现在不同的文档中{Si}时,则它们共同的置信指数为
在构建原始知识图谱时,需要同时利用多个文档中的三元组(SPO三元组),同时为了确定不同节点的重要性,在构建过程中为节点和边赋予了不同权重。权重主要基于这样一个前提确定:与问题所提及的实体越相关的事物对于解决问题越重要。本发明中的图谱没有仅仅将三元组中的谓语作为一条边而是作为一个单独的节点,即每一个SPO三元组可以在知识图谱中形成两个实体节点和谓词节点。如果其中的S、O节点在图中已经存在则会在原来三元组的基础上扩展出一条边连接新的节点。由于同一节点可能在多个三元组中以不同的形式出现,本发明采用了一个语义词典,该词典由大型知识库整理而成,包括了同一文本形式指向不同标准实体的概率。通过这个词典可以计算两个节点的相似度,即当两个节点i,j存在同一个标准实体e时,则概率之差为相似度,否则相似度为0:
设定每个节点的权重时,首先观察是否存在问题词组和节点共同指向的标准实体e,如果存在且相似度高于阈值则采用其作为权重,否则置为0:
关于三元组中边,本发明采用之前提取三元组过程中得到的置信指数作为权重。
We=bv1-v2
其中v1,v2为边e所连的两个节点。
(3)抽取证据图集合
为了从原始知识图谱中抽取合适的证据图,本发明首先根据之前锚点的定义从问题中确定若干个锚,然后采用这样一种算法:将每一个锚节点作为一棵树的初始状态开始同步增长,每一步选择权重较大的边和节点,当两棵树相遇时则将两者合并,当任何一颗树涵盖了每一个锚节点集合中的至少一个节点时该树就停止增长并作为一个候选证据图存在,本发明设定了一个最大值以限制候选证据图的数目,在出现大于限定值个数的候选结果时选取综合权重较大的图。采用这种算法可以在有限的时间复杂度内获得若干个候选证据图,而答案节点大概率就隐藏在证据图的非锚的节点中。
(4)训练AGNN分类器
在训练证据图的模型时需要证据图的输出结果即向量表示要尽可能地接近问题本身,因此需要一个标准值和证据图的输出结果构成损失函数,本发明在训练中采用TextCNN来得到一个问题的向量表示。Attention-based Graph Neural Network(AGNN)是基于GNN的基础上提出来的处理图上具有先进效果的模型。它以注意力机制代替了原来的全连接层,注意力机制可以使得图中每一个节点在传播的过程中动态地、自适应地学习相邻节点的特征,同时也可以减少许多参数从而提高效率。AGNN在图节点每一次的迭代过程中学习哪个邻居节点与该节点更相关,并据此衡量其贡献。
对于每一个证据图,从中提取所有节点和边,其中边以COO格式进行编码,即设置两个列表,第一个列表包含源节点的索引,而目标节点的索引在第二个列表中指定,节点方面使用训练维基数据得到的向量经过一个线性层作为每一个节点的初始化状态:
本发明应用了AGNN基于注意力的传播层实现节点之间信息的交汇,与之前的GNN不同的是,AGNN在每个传播中间层用标量来进行节点与相邻节点的传递:
H(t+1)=P(t)H(t)
其中P(t)是一个n*n的矩阵,n则代表节点的数目,该矩阵中每一个元素代表两个节点的传递参数,对于不相邻的节点用0来表示。
每一层的传播方式如下:
其中cos代表计算两个向量的余弦相似度,N(i)代表i节点在图中的邻节点。
在输出方面取锚节点在模型中的输出向量经过之前的TextCNN,将其在隐藏层中的表示作为最后图的向量表示。在得到目标证据图后,选择证据图中除去锚节点后的实体节点作为候选答案,然后通过分析候选答案的节点类型与问题的答案类型将候选答案进行排序以得到答案。
在AGNN的训练过程中,将一部分数据用作训练集,剩余问题则用作测试集。在训练的过程中,需要一个问题的正面证据图和负面证据图。因此,在每个问题的文档中提取候选证据图时,检验每个候选证据图的非锚节点,出现与真实答案十分接近的节点时则该证据图为正面,否则为负面。在每一轮训练中,通过将每个证据图输出的向量Vg与问题向量Vq的余弦相似度作为激励参数来计算图的特征,其损失函数采用MultiMarginLoss设定为:
其中x为一个问题的所有证据图经过reward function(将励函数)后组成的集合,y为集合x中positive图的分布,i则为剩余negative图的标签分布。通过对于损失函数计算,可以同时对于TextCNN和AGNN实现参数更新。本发明使用Adam optimizer来训练模型,其学习率定为0.01。为了防止模型的过拟合,还在模型的中间使用了一层Dropout对于向量的某些维度进行主动遗忘,遗忘率定为30%。由于节点的向量维度为300,还添加了两层linear层来对向量进行压缩。
本发明在解答问题的同时提供答案的辅助证据,补足了问答系统的可解释性。图3为不同问题复杂度下不同方法回答问题准确度的效果图,横坐标为问题实体数,纵坐标为准确率,图3中给出了QUEST(Question answering with Steiner Trees,应用斯坦纳树的问答系统)、DrQA(Document Retriever Question Answering,应用文档提取的问答系统)、STAGG(Staged query graph generation,应用阶段语义图的问答系统)、OQA(Open QA,开放领域问答系统)和本发明一种多文档场景下问答方法在问题实体数与目标答案准确度之间的关系曲线。图3中不同问题复杂度下不同方法回答问题准确度的相关参数如表1所示。
表1
其中,MRR为所有问题的回答中正确答案的排名的得分之和,Precision@1为第一答案的准确率,Hits@5为问题前5个答案中包含正确答案的概率。
图4为本发明一种多文档场景下问答系统结构示意图,如图4所示,一种多文档场景下问答系统包括:
文档的特征向量确定获取模块201,用于对各所述文档的文本信息进行编码,获得各所述文档的特征向量。
待回答问题的特征向量获取模块202,用于对待回答问题进行编码,获得所述待回答问题的特征向量。
目标文档确定模块203,用于根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档。
SPO三元组抽取模块204,用于从N个所述目标文档中抽取SPO三元组。
知识图谱构建模块205,用于根据所述SPO三元组构建知识图谱。
证据图集合确定模块206,用于根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合。
目标证据图获取模块207,用于利用分类器从所述证据图集合中获取目标证据图。
目标答案获取模块208,用于根据所述目标证据图的节点获得待回答问题的目标答案。
所述系统还包括:将所述目标证据图作为所述目标答案的可解释性来源。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种多文档场景下问答方法,其特征在于,所述方法包括:
对多个文档的文本信息进行编码,获得各所述文档的特征向量;
对待回答问题进行编码,获得所述待回答问题的特征向量;
根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;
从N个所述目标文档中抽取SPO三元组;
根据所述SPO三元组构建知识图谱;
根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;
利用分类器从所述证据图集合中获取目标证据图;
根据所述目标证据图的节点获得待回答问题的目标答案。
2.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量之前,所述方法还包括:
获得多个文档的半结构数据;
对多个文档的半结构数据进行处理获得多个文档的文本信息。
3.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述方法还包括:将所述目标证据图作为所述目标答案的可解释性来源。
4.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述方法具体还包括:
利用HEAD-QA数据集中数据训练基于注意力的图神经网络,获得所述分类器。
5.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述从N个所述目标文档中抽取SPO三元组,具体包括:
对N个所述目标文档进行词性标记,提取词组;
对N个所述目标文档进行命名实体识别;
将所述命名实体和所述词组作为SPO三元组的实体对象。
6.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对多个文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
采用TF-IDF方法对各所述文档的文本信息进行编码,获得各所述文档的特征向量。
7.根据权利要求6所述的多文档场景下问答方法,其特征在于,所述采用TF-IDF方法各所述文档的文本信息进行编码,获得各所述文档的特征向量,具体包括:
剔除各所述文档的文本信息中的停用词,获得各处理后文档;
将每个词在所述处理后文档中出现的频率除以每个词在所有文档中出现的总频率,获得每个词在各所述处理后文档中词频;
根据各处理后文档中每个词的词频确定各所述文档的特征向量。
8.根据权利要求1所述的多文档场景下问答方法,其特征在于,所述对待回答问题进行编码,获得所述待回答问题的特征向量,具体包括:
采用TF-IDF方法对待回答问题进行编码,获得所述待回答问题的特征向量。
9.一种多文档场景下问答系统,其特征在于,所述系统包括:
文档的特征向量确定获取模块,用于对多个文档的文本信息进行编码,获得各所述文档的特征向量;
待回答问题的特征向量获取模块,用于对待回答问题进行编码,获得所述待回答问题的特征向量;
目标文档确定模块,用于根据各所述文档的特征向量和所述待回答问题的特征向量,确定与所述待回答问题接近的N个目标文档;
SPO三元组抽取模块,用于从N个所述目标文档中抽取SPO三元组;
知识图谱构建模块,用于根据所述SPO三元组构建知识图谱;
证据图集合确定模块,用于根据所述待回答问题中实体与所述知识图谱中各节点之间的相似度,从所述知识图谱中抽取M个子图,所述M个子图构成证据图集合;
目标证据图获取模块,用于利用分类器从所述证据图集合中获取目标证据图;
目标答案获取模块,用于根据所述目标证据图的节点获得待回答问题的目标答案。
10.根据权利要求9所述的多文档场景下问答系统,其特征在于,所述系统还包括:
将所述目标证据图作为所述目标答案的可解释性来源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011539038.8A CN112632250A (zh) | 2020-12-23 | 2020-12-23 | 一种多文档场景下问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011539038.8A CN112632250A (zh) | 2020-12-23 | 2020-12-23 | 一种多文档场景下问答方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632250A true CN112632250A (zh) | 2021-04-09 |
Family
ID=75321783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011539038.8A Pending CN112632250A (zh) | 2020-12-23 | 2020-12-23 | 一种多文档场景下问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632250A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342952A (zh) * | 2021-06-16 | 2021-09-03 | 上海电气集团股份有限公司 | 一种基于问题图迭代检索的知识图谱问答方法 |
CN113434692A (zh) * | 2021-06-22 | 2021-09-24 | 上海交通大学医学院附属仁济医院 | 图神经网络模型构建、诊疗方案推荐方法、系统及设备 |
CN117609440A (zh) * | 2023-10-27 | 2024-02-27 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的文档级智能问答实现方法 |
CN117648444A (zh) * | 2024-01-30 | 2024-03-05 | 广东省华南技术转移中心有限公司 | 基于图卷积属性聚合的专利聚类方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014208213A1 (ja) * | 2013-06-27 | 2014-12-31 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システムおよび方法 |
CN110390003A (zh) * | 2019-06-19 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗的问答处理方法及系统、计算机设备及可读介质 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
-
2020
- 2020-12-23 CN CN202011539038.8A patent/CN112632250A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014208213A1 (ja) * | 2013-06-27 | 2014-12-31 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システムおよび方法 |
CN110390003A (zh) * | 2019-06-19 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗的问答处理方法及系统、计算机设备及可读介质 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342952A (zh) * | 2021-06-16 | 2021-09-03 | 上海电气集团股份有限公司 | 一种基于问题图迭代检索的知识图谱问答方法 |
CN113434692A (zh) * | 2021-06-22 | 2021-09-24 | 上海交通大学医学院附属仁济医院 | 图神经网络模型构建、诊疗方案推荐方法、系统及设备 |
CN113434692B (zh) * | 2021-06-22 | 2023-08-01 | 上海交通大学医学院附属仁济医院 | 图神经网络模型构建、诊疗方案推荐方法、系统及设备 |
CN117609440A (zh) * | 2023-10-27 | 2024-02-27 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的文档级智能问答实现方法 |
CN117648444A (zh) * | 2024-01-30 | 2024-03-05 | 广东省华南技术转移中心有限公司 | 基于图卷积属性聚合的专利聚类方法和系统 |
CN117648444B (zh) * | 2024-01-30 | 2024-04-30 | 广东省华南技术转移中心有限公司 | 基于图卷积属性聚合的专利聚类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Knowledge-based question answering by tree-to-sequence learning | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
Xie et al. | Topic enhanced deep structured semantic models for knowledge base question answering | |
CN110706807B (zh) | 一种基于本体语义相似度的医学问答方法 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN111428443B (zh) | 一种基于实体上下文语义交互的实体链接方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN111339269A (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN113407697A (zh) | 深度百科学习的中文医疗问句分类系统 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
Chai | Design and implementation of English intelligent communication platform based on similarity algorithm | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN116842126B (zh) | 一种利用llm实现知识库精准输出的方法、介质及系统 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN107562907B (zh) | 一种智能律师专家案件应答装置 | |
CN116662502A (zh) | 基于检索增强的金融问答文本生成方法、设备及存储介质 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
CN111767388B (zh) | 一种候选池生成方法 | |
CN114154496A (zh) | 基于深度学习bert模型的煤监类案对比方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |