CN111488460B - 数据处理方法、装置和计算机可读存储介质 - Google Patents
数据处理方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111488460B CN111488460B CN201910361342.9A CN201910361342A CN111488460B CN 111488460 B CN111488460 B CN 111488460B CN 201910361342 A CN201910361342 A CN 201910361342A CN 111488460 B CN111488460 B CN 111488460B
- Authority
- CN
- China
- Prior art keywords
- candidate answer
- entity
- feature vector
- answer
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 236
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 230000000306 recurrent effect Effects 0.000 claims description 30
- 238000003062 neural network model Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 230000008447 perception Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种数据处理方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:获取与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,其中,实体是从问题对应的支持文档中提取的;根据实体的特征向量构建图,其中,图包括与各个实体对应的节点,和反映各实体之间的关系的各节点之间的边;将图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为问题的答案。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种数据处理方法、装置和计算机可读存储介质。
背景技术
针对给出的问题和相关的支持文档,使计算机理解相关支持文档,并输出正确的答案,通常称为机器阅读理解或机器问答,是自然语言处理(Natural LanguageProcessing,NLP)领域非常重要和具有挑战的任务。
目前,跨文档的多跳(Multi-Hop)阅读理解对于机器阅读理解或机器问答又提出了新的挑战,计算机需要学习对问题对应的多个支持文档进行跨文档推理的能力,从而得到正确的答案。
已知的跨文档多跳阅读理解的方法有基于注意力机制阅读理解系统,将文档级信息和实体级信息输入该系统,输出的答案可以达到较高的准确率。
发明内容
本公开所要解决的一个技术问题是:提出一种新的数据处理方法,可以实现跨文档的多跳阅读理解,针对问题可以得到较高准确率的答案。
根据本公开的一些实施例,提供的一种数据处理方法,包括:获取与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,其中,实体是从问题对应的支持文档中提取的;根据实体的特征向量构建图,其中,图包括与各个实体对应的节点,和反映各实体之间的关系的各节点之间的边;将图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为问题的答案。
在一些实施例中,该方法还包括:获取候选答案的特征向量;根据实体的特征向量构建图包括:根据候选答案的特征向量以及实体的特征向量构建图;其中,图还包括与候选答案对应的节点,反映候选答案和实体之间的关系的边,以及反映候选答案之间的关系的边。
在一些实施例中,该方法还包括:获取支持文档的特征向量;根据实体的特征向量构建图包括:根据支持文档的特征向量、候选答案的特征向量以及实体的特征向量构建图;其中,图还包括与支持文档对应的节点,反映支持文档和实体之间的关系的边,以及反映支持文档和候选答案之间的关系的边。
在一些实施例中,对问题、支持文档、候选答案和实体分别进行初始编码;将支持文档的初始编码、候选答案的初始编码或实体的初始编码的至少一项与问题的初始编码,输入协同注意力模型,得到输出的支持文档相对于问题的协同注意力编码,候选答案相对于问题的协同注意力编码,或实体相对于问题的协同注意力编码中至少一项;根据支持文档的协同注意力编码,候选答案的协同注意力编码,或者,根据实体的协同注意力编码,分别确定支持文档的特征向量,候选答案的特征向量,或者,实体的特征向量。
在一些实施例中,分别确定支持文档的特征向量,候选答案的特征向量,或者,实体的特征向量包括:将支持文档的协同注意力编码,候选答案的协同注意力编码或实体的协同注意力编码中至少一项,输入自注意力模型,得到输出的支持文档的自注意力编码,候选答案的自注意力编码,或实体的自注意力编码中至少一项,分别作为支持文档的特征向量,候选答案的特征向量,或实体的特征向量。
在一些实施例中,将图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为问题的答案包括:将图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量;将候选答案更新后的特征向量和候选答案对应的实体更新后的特征向量输入分类模型,得到输出的各个候选答案以及候选答案对应的实体的得分;根据各个候选答案以及各个候选答案对应的实体的得分,选取一个候选答案作为问题的答案。
在一些实施例中,根据各个候选答案以及各个候选答案对应的实体的得分,选取一个候选答案作为问题的答案包括:将分类器输出的各个候选答案的得分,记为各个候选答案的第一得分;根据同一候选答案对应的多个实体的得分,确定该候选答案的第一得分;根据同一候选答案的第一得分和第二得分,确定候选答案的最终得分;选取最终得分最高的候选答案作为问题的答案。
在一些实施例中,各实体之间的关系包括:同一支持文档中提取的两个实体之间的第一关系,一个候选答案对应的两个实体之间的第二关系;不满足第一关系和第二关系两实体之间的第三关系;支持文档和实体之间的关系包括:支持文档与从该支持文档中提取的实体之间的第四关系;支持文档和候选答案之间的关系包括:支持文档与在该支持文档中出现的候选答案之间的第五关系;候选答案和实体之间的关系包括:候选答案与对应的实体之间的第六关系;候选答案之间的关系包括:任意两个候选答案之间的第七关系;其中,图包括反映第一关系至第七关系的不同类型的边。
在一些实施例中,采用循环神经网络模型对问题、支持文档、候选答案进行初始编码;根据与问题对应的实体和与候选答案对应的实体在支持文档中的位置,从支持文档的初始编码中提取实体的初始编码。
在一些实施例中,将图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量包括:针对一个节点,在图神经网络的当前层,根据该节点的邻居节点的特征向量,以及该节点与各个邻居节点之间边对应的转换函数,确定该节点在图神经网络的下一层的特征向量,直至确定该节点图神经网络的最后一层的特征向量,完成对该节点对应的特征向量的更新。
根据本公开的另一些实施例,提供的一种数据处理装置,包括:向量获取模块,用于获取与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,其中,实体是从问题对应的支持文档中提取的;图构建模块,用于根据实体的特征向量构建图,其中,图包括与各个实体对应的节点,和反映各实体之间的关系的各节点之间的边;答案输出模块,用于将图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为问题的答案。
在一些实施例中,向量获取模块还用于获取候选答案的特征向量;图构建模块还用于根据候选答案的特征向量以及实体的特征向量构建图;其中,图还包括与候选答案对应的节点,反映候选答案和实体之间的关系的边,以及反映候选答案之间的关系的边。
在一些实施例中,向量获取模块还用于获取支持文档的特征向量;图构建模块还用于根据支持文档的特征向量、候选答案的特征向量以及实体的特征向量构建图;其中,图还包括与支持文档对应的节点,反映支持文档和实体之间的关系的边,以及反映支持文档和候选答案之间的关系的边。
在一些实施例中,向量获取模块还用于对问题、支持文档、候选答案和实体分别进行初始编码;将支持文档的初始编码、候选答案的初始编码或实体的初始编码的至少一项与问题的初始编码,输入协同注意力模型,得到输出的支持文档相对于问题的协同注意力编码,候选答案相对于问题的协同注意力编码,或实体相对于问题的协同注意力编码中至少一项;根据支持文档的协同注意力编码,候选答案的协同注意力编码,或者,根据实体的协同注意力编码,分别确定支持文档的特征向量,候选答案的特征向量,或者,实体的特征向量。
在一些实施例中,向量获取模块还用于将支持文档的协同注意力编码,候选答案的协同注意力编码或实体的协同注意力编码中至少一项,输入自注意力模型,得到输出的支持文档的自注意力编码,候选答案的自注意力编码,或实体的自注意力编码中至少一项,分别作为支持文档的特征向量,候选答案的特征向量,或实体的特征向量。
在一些实施例中,答案输出模块用于将图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量;将候选答案更新后的特征向量和候选答案对应的实体更新后的特征向量输入分类模型,得到输出的各个候选答案以及候选答案对应的实体的得分;根据各个候选答案以及各个候选答案对应的实体的得分,选取一个候选答案作为问题的答案。
在一些实施例中,答案输出模块用于将分类器输出的各个候选答案的得分,记为各个候选答案的第一得分;根据同一候选答案对应的多个实体的得分,确定该候选答案的第一得分;根据同一候选答案的第一得分和第二得分,确定候选答案的最终得分;选取最终得分最高的候选答案作为问题的答案。
在一些实施例中,各实体之间的关系包括:同一支持文档中提取的两个实体之间的第一关系,一个候选答案对应的两个实体之间的第二关系;不满足第一关系和第二关系两实体之间的第三关系;支持文档和实体之间的关系包括:支持文档与从该支持文档中提取的实体之间的第四关系;支持文档和候选答案之间的关系包括:支持文档与在该支持文档中出现的候选答案之间的第五关系;候选答案和实体之间的关系包括:候选答案与对应的实体之间的第六关系;候选答案之间的关系包括:任意两个候选答案之间的第七关系;其中,图包括反映第一关系至第七关系的不同类型的边。
在一些实施例中,向量获取模块还用于采用循环神经网络模型对问题、支持文档、候选答案进行初始编码;根据与问题对应的实体和与候选答案对应的实体在支持文档中的位置,从支持文档的初始编码中提取实体的初始编码。
在一些实施例中,答案输出模块用于针对一个节点,在图神经网络的当前层,根据该节点的邻居节点的特征向量,以及该节点与各个邻居节点之间边对应的转换函数,确定该节点在图神经网络的下一层的特征向量,直至确定该节点图神经网络的最后一层的特征向量,完成对该节点对应的特征向量的更新。
根据本公开的又一些实施例,提供的一种数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行如前述任意实施例的数据处理方法。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的数据处理方法。
本公开中根据与问题对应的实体的特征向量和与候选答案对应的实体的特征向量构建图,其中实体是从问题对应的支持文档中提取的,包含支持文档的信息。构建图来表示问题、候选答案对应的实体之间的关系。进而将图的表示矩阵输入预先训练的机器学习模型,对图中的关系进行推理,相当于对问题、候选答案和支持文档的关系进行理解,从而得到问题的答案,并且能够实现较高的问答准确率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的数据处理方法的流程示意图。
图2示出本公开的另一些实施例的数据处理方法的流程示意图。
图3示出本公开的又一些实施例的数据处理方法的流程示意图。
图4示出本公开的一些实施例的网络结构的示意图。
图5示出本公开的一些实施例的数据处理装置的结构示意图。
图6示出本公开的另一些实施例的数据处理装置的结构示意图。
图7示出本公开的又一些实施例的数据处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提出一种新的数据处理方法,可以使计算机能够进行跨文档的多跳阅读理解,针对问题实现自动回答。下面结合图1描述本公开的数据处理方法的一些实施例。
图1为本公开数据处理方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S106。
在步骤S102中,获取与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,实体是从问题对应的支持文档中提取的。
针对一个问题可以利用现有的算法获取一定数量的候选答案和支持文档。
例如,问题(Query/Question):“准备好了(Get Ready)”的唱片公司。
支持文档(Support Document)1:梅森·杜雷尔·贝卡(Mason Durell Betha),1977年8月27日出生,以艺名梅斯(Mase)而闻名,是美国嘻哈歌手。他因与“吹牛老爹”肖恩·康姆斯(Sean“Diddy”Combs)旗下的品牌坏男孩唱片(Bad Boy Records)签约而闻名……
支持文档2:“准备好了”是梅斯第二张专辑“翻倍(Double Up)”发行的唯一单曲。它于1999年5月25日发行,由“吹牛老爹”肖恩·康姆斯等共同制作……
支持文档3:坏男孩唱片是由肖恩·康姆斯于1993年创立的美国唱片公司……
候选答案(Candidates):坏男孩唱片,唱片公司,摇滚音乐……
现有的WiKiHop数据集就是一个包含问题,对应的多个候选答案和对应的多个支持文档的数据集(参考上述示例)。可以采用与WiKiHop数据集相同的生成方式,针对问题获取对应的候选答案和支持文档,在此不再赘述。
针对问题可以采用现有的方法(例如命名实体识别技术)来确定该问题中的主题词(Subject)。可以根据问题的主题词和候选答案在支持文档中进行匹配(例如采用精确匹配算法),找到支持文档中对问题的主题词和候选答案每一处提及(Mention),将支持文档中每一处问题的主题词和候选答案的提及作为一个实体。即本公开中将支持文档中每一处问题的主题词的提及称为与问题对应的实体,每一处候选答案的提及,称为与候选答案对应的实体。
获得了与问题对应的实体和与候选答案对应的实体之后,可以对实体进行编码,获取实体的特征向量。为了使实体的编码包含其上下文信息,可以首先对支持文档进行编码,进而根据实体在支持文档中的位置,从支持文档中对应的位置提取实体的编码。在一些实施例中,可以采用循环神经网络对支持文档进行初始编码,进而根据与问题对应的实体和与候选答案对应的实体在支持文档中的位置,从支持文档的编码中提取实体的编码,作为实体的特征向量。循环神经网络例如为带有门控递归单元的循环神经网络(GRU-RNN),长短期记忆循环神经网络(LSTM-RNN)等,不限于所举示例。采用循环神经网络对支持文档的上下文信息进行编码可以使每个词的编码携带上下文信息。
可以首先利用词嵌入模型(词向量模型)将支持文档由词序列转换为向量序列;再将向量序列输入循环神经网络获得支持文档的初始编码,词嵌入模型也有助于增强初始编码中携带的上下文信息。词嵌入模型例如为GLoVe模型、N-gram模型等,不限于所举示例。在一些实施例中,也可以直接利用一些现有词嵌入模型对支持文档直接进行初始编码,例如直接采用ELMo(Embedding from Language Models,从语言模型得到的嵌入方法)算法得到支持文档的初始编码,进而根据实体在支持文档中的位置,获得实体的编码作为特征向量。
在一些实施例中,可以采用循环神经网络对支持文档进行初始编码,进而根据与问题对应的实体和与候选答案对应的实体在支持文档中的位置,从支持文档的编码中提取实体的初始编码。再将实体的初始编码和问题的初始编码输入预先训练好的协同注意力(Co-attention)模型,得到实体相对于问题的协同注意力编码,作为该实体的特征向量。可以首先利用词嵌入模型(词向量模型)将支持文档由词序列转换为向量序列;再将向量序列输入循环神经网络获得支持文档的初始编码。
协同注意力机制相当于带着问题去阅读实体的信息寻找答案。对实体和问题进行协同注意力编码,可以生成实体对应的注意力权重,反映实体与问题的相关信息,进而使实体的编码能够反映实体与问题的相关信息,便于后续找到正确的答案。
例如,支持文档的集合用Sq表示,经过词嵌入模型和循环神经网络模型之后,输出的支持文档的初始编码可以表示为i为正整数,表示支持文档的序号,表示第i篇支持文档的初始编码,表示第i篇支持文档的词的个数,h表示循环神经网络输出的维数。从中提取的实体的初始编码可以表示为k为正整数,表示实体的序号,Mk表示第k个实体的初始编码,lm表示实体中词的个数。问题可以用q表示,经过词嵌入模型和循环神经网络模型之后,输出的问题的初始编码可以表示为Hq表示问题的初始编码,lq表示问题的词的个数,h表示循环神经网络输出的维数。
进一步,实体相对于问题的协同注意力编码可以采用以下公式计算。首先,问题和实体的关联矩阵可以采用公式(1)计算。
其中,softmax(·)表示按列归一化。进一步,采用协同注意力模型中的循环神经网络模块对协同注意的实体上下文进行编码,如公式(4)。
其中,f(·)表示循环神经网络模块对应的函数,循环神经网络模块例如为带有GRU的双向RNN。进一步,实体的协同注意力编码可以采用公式(5)表示。
其中,[Ce;De]表示Ce和De的列级联。最终得到的Eca携带了实体的问题感知(Query-aware)的上下文信息。由于实体中包含问题主题词对应的实体,对于这类实体可以不计算协同注意力编码,只针对候选答案对应的实体进行协同注意力编码。为了保持特征向量维数的一致性,针对问题主题词对应的实体可以使用一个带有激活函数(tanh)的单层多层感知器(MLP)来将问题主题词对应的实体编码的维数增加到2h。MLP可以通过对模型的训练得到。
在一些实施例中,可以采用循环神经网络对支持文档进行初始编码,进而根据与问题对应的实体和与候选答案对应的实体在支持文档中的位置,从支持文档的编码中提取实体的初始编码。再将实体的初始编码和问题的初始编码输入预先训练好的协同注意力(Co-attention)模型,得到实体相对于问题的协同注意力编码。将实体的协同注意力编码输入自注意力(Self-attention)模型,得到输出的实体的自注意力编码,作为该实体的特征向量。可以首先利用词嵌入模型(词向量模型)将支持文档由词序列转换为向量序列;再将向量序列输入循环神经网络获得支持文档的初始编码。
对实体的协同注意力编码进一步进行自注意力的计算。自注意力机制的设计可以计算中每个词的得分来确定协同注意力编码中重要的问题感知信息。自注意力机制可以根据实体中词的重要性来对实体进行进一步编码。可以采用以下公式表示Self-attention的过程。
其中,MLP(·)可以是带有激活函数tanh的双层MLP,可以在训练过程得到其参数。
上述实施例中,通过循环神经网络对支持文档进行初始编码,初始编码信息反映了支持文档上下文的信息,从支持文档的初始编码中提取的实体的初始编码也携带了上下文信息。进而对获得实体相对于问题的协同注意力编码,协同注意力编码反映了实体感知问题的上下文信息,实体与问题关联的上下文信息。进一步,获得实体的自注意力编码,自注意力编码反映了实体中各个词的重要性信息。经过上述的一系列处理后,实体的特征向量包含了多种信息,对后续选取正确答案提供了帮助。
步骤S104,根据实体的特征向量构建图。图包括与各个实体对应的节点,和反映各实体之间的关系的各节点之间的边。
图中的节点可以用实体的特征向量进行表示。不同节点之间的边可以根据对应的实体之间关系的不同而设置不同的类型。例如,各实体之间的关系包括:同一支持文档中提取的两个实体之间的第一关系,一个候选答案对应的两个实体之间的第二关系;不满足第一关系和第二关系两实体之间的第三关系。则图中可以包括对应于第一关系,第二关系和第三关系的三种类型的边。
步骤S106,将图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为问题的答案。
在一些实施例中,将图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量。将实体更新后的特征向量输入分类模型,得到输出的各个实体的得分,根据候选答案对应的实体的得分,选取一个候选答案作为问题的答案。图的表示矩阵可以包括图的节点对应的特征向量组成的矩阵,以及表示不同类型的边的不同的邻接矩阵等。图神经网络模型例如为GCN(卷积图神经网络)。
采用图神经网络模型对图的信息进行多跳推理,使节点的信息在不同类型的边上进行传播,从而更新各个节点的表示即对应的实体的特征向量。图神经网络中信息的传递通过聚合和联合两个步骤来实现,聚合和联合的过程可以进行多次,在图神经网络中通常称每次聚合和联合的过程为一层或者为一跳。例如,针对一个节点,在图神经网络的当前层,根据该节点的邻居节点的特征向量,以及该节点与各个邻居节点之间边对应的转换函数,确定该节点在图神经网络的下一层的特征向量,直至确定该节点图神经网络的最后一层的特征向量,完成对该节点对应的特征向量的更新。
针对每个节点聚合其邻居节点的信息的过程,可以是根据该节点的邻居节点的特征向量,以及该节点与各个邻居节点之间边对应的转换函数确定该节点在当前层的聚合信息,可以采用以下公式表示。
其中,R是边的类型的集合,r表示边的类型的编号,表示与节点i之间的边的类型为r的邻居节点的集合,表示节点j在第k层的表示即对应的特征向量,|·|表示邻居节点集合的大小,fr(·)便是边的类型为r的邻居节点之间的转换函数。fr(·)可以用MLP实现,可以在训练过程确定MLP的参数。表示节点i在第k层的聚合信息。i,j,k,r为正整数。
其中,fs(·)可以用MLP实现,可以在训练过程确定MLP的参数。
其中,sigmoid(·)表示对和的级联进行转换后在应用sigmoid函数。应用于联合信息用来控制计算更新或原始节点的表示的数量信息。tanh()可以是一个非线性激活函数,⊙表示逐个元素的乘法。表示根据聚合信息和联合信息确定的节点i在第k+1层的表示。
上述公式中fr(·),fs(·),fg(·)可以采用不同的单层MLP实现,经过K层的信息传递,节点的表示被更新,即实体的特征向量被更新。通过构建图,利用图神经网络对图进行推理,更新节点的表示信息,使得更新后的节点的表示信息结合了其他节点的特征,由于实体包括问题对应的实体和候选答案对应的实体,通过图中信息的传播,候选答案对应的实体的特征向量进一步对问题进行了感知,增加了问题的相关特征,便于后续选取正确答案。
a=fE(HE) (12)
其中,fE(·)可采用带有激活函数tanh的双层MLP实现。计算出各个实体的得分后,可以从同一候选答案对应的多个实体中,选择一个得分最高的实体的得分,作为该候选答案的得分,再从多个候选答案中选择得分最高的候选答案作为问题的答案。
上述实施例的方法中根据与问题对应的实体和与问题和候选答案对应的实体的特征向量构建图,其中实体是从问题对应的支持文档中提取的,包含支持文档的信息。构建图来表示问题、候选答案对应的实体之间的关系。进而将图的表示矩阵输入预先训练的机器学习模型,对图中的关系进行推理,相当于对问题、候选答案和支持文档的关系进行理解,从而得到问题的答案,并且能够实现较高的问答准确率。
对于上述实施例中的图可以进一步进行改进,提高问答的准确率,下面结合图2描述本公开数据处理方法的另一些实施例。
图2为本公开数据处理方法另一些实施例的流程图。如图2所示,该实施例的方法包括:步骤S202~S206。
在步骤S202中,获取与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,以及候选答案的特征向量。实体是从问题对应的支持文档中提取的。
实体的特征向量的生成方法可以采用前述实施例的方法。针对候选答案可以采用与实体相同或相似的方法生成特征向量,例如,可以采用循环神经网络对候选答案进行初始编码。再将候选答案的初始编码和问题的初始编码输入预先训练好的协同注意力模型,得到候选答案相对于问题的协同注意力编码。将候选答案的协同注意力编码输入自注意力模型,得到输出的候选答案的自注意力编码,作为该候选答案的特征向量。可以首先利用词嵌入模型(词向量模型)将候选答案由词序列转换为向量序列;再将向量序列输入循环神经网络获得候选答案的初始编码。
例如,候选答案的集合用Cq,经过词嵌入模型和循环神经网络模型之后,输出的候选答案的初始编码可以表示为j为正整数,表示候选答案的序号,表示第j个候选答案的初始编码,表示第j个候选答案的词的个数,h表示循环神经网络输出的维数。采用与公式(1)-(5)相似的计算方法,可以得到候选答案的协同注意力编码Cca。进而采用与公式(6)-(7)相似的计算方法,可以得到候选答案的自注意力编码csa。
通过计算候选答案相对于问题的协同注意力编码,协同注意力编码反映了候选答案感知问题的上下文信息,候选答案与问题关联的上下文信息。进一步,获得候选答案的自注意力编码,自注意力编码反映了候选答案中各个词的重要性信息。经过上述的一系列处理后,候选答案的特征向量包含了多种信息,对后续选取正确答案提供了帮助。
在步骤S204中,根据候选答案的特征向量以及实体的特征向量构建图。该图包括:与各个实体对应的节点以及与候选答案对应的节点,反映各实体之间的关系的各节点之间的边,反映候选答案和实体之间的关系的边,以及反映候选答案之间的关系的边。
图中的节点可以用实体和候选答案的特征向量进行表示。候选答案和实体之间的关系包括:候选答案与对应的实体之间的第六关系;任意两个候选答案之间的第七关系中至少一种。则图中可以包括对应于第六关系,第七关系中至少一种类型的边。
在步骤S206中,将图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为问题的答案。
在一些实施例中,将图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量。将候选答案更新后的特征向量和候选答案对应的实体更新后的特征向量输入分类模型,得到输出的各个候选答案以及候选答案对应的实体的得分。根据各个候选答案以及各个候选答案对应的实体的得分,选取一个候选答案作为问题的答案。
在本实施例中,改进后的图为异构图包括候选答案对应的节点以及实体对应的节点。不同节点表示不同粒度级别的问题感知信息。候选答案对问题的感知信息,实体在特定文档的上下文中对问题的感知信息等都体现在节点的表示中。进而基于图神经网络模型对异构图进行多条推理,使节点的信息在不同类型的边上进行传播,从而更新各个节点的表示即对应的实体的特征向量和对应的候选答案的特征向量。参考公式(9)-(11)对节点的表示进行更新。通过图中信息的传播,候选答案对应的实体的特征向量和候选答案的特征向量进一步体现了对问题进行了感知信息,以及相互之间的关联性,便于后续选取正确答案。
在一些实施例中,将候选答案更新后的特征向量和候选答案对应的实体更新后的特征向量输入分类模型,得到输出的各个候选答案以及候选答案对应的实体的得分。将分类器输出的各个候选答案的得分,记为各个候选答案的第一得分;根据同一候选答案对应的多个实体的得分,确定该候选答案的第一得分;根据同一候选答案的第一得分和第二得分,确定候选答案的最终得分;选取最终得分最高的候选答案作为问题的答案。得分可以根据以下公式计算。
a=fC(HC)+ACCmax(fE(HE)) (13)
其中,表示候选答案更新后的特征向量的集合。C表示候选答案的数量。ACCmax表示从同一候选答案对应的多个实体的得分中选取最高的得分,记为该候选答案的第一得分。fC(·)和fE(·)可采用不同的带有激活函数tanh的双层MLP实现。还可以在公式(13)中针对相加的两项设置不同的权重系数。将候选答案和候选答案对应的实体的得分进行综合计算,从多个方面对候选答案进行评价,提高了选取答案的准确性。
上述实施例的方法,根据与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,以及候选答案对应的特征向量构建异构图,表示了问题、候选答案、实体(携带支持文档的上下文信息)等多个主体相互之间的关系,。进而将图的表示矩阵输入预先训练的机器学习模型,对图中的关系进行推理,相当于对问题、候选答案和支持文档的关系进行理解,从而得到问题的答案,并且能够实现较高的问答准确率。
对于上述实施例中的图可以还可以进一步进行改进,提高问答的准确率,下面结合图3和图4描述本公开数据处理方法的又一些实施例。
图3为本公开数据处理方法又一些实施例的流程图。如图3所示,该实施例的方法包括:步骤S302~S310。
在步骤S302中,将问题、候选答案、支持文档输入问答系统。
在步骤S304中,问答系统中的特征向量生成模型,输出与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,候选答案的特征向量以及支持文档对应的特征向量。实体是从问题对应的支持文档中提取的。
实体的特征向量的生成方法可以采用前述实施例的方法。针对候选答案和支持文档可以采用与实体相同或相似的方法生成特征向量,如图4所示。特征向量生成模型例如可以包括:循环神经网络模型,协同注意力模型、自注意力模型。
例如,可以采用循环神经网络对支持文档进行初始编码。再将支持文档的初始编码和问题的初始编码输入预先训练好的协同注意力模型,得到支持文档相对于问题的协同注意力编码。将支持文档的协同注意力编码输入自注意力模型,得到输出的支持文档的自注意力编码,作为该支持文档的特征向量。可以首先利用词嵌入模型(词向量模型)将候选答案由词序列转换为向量序列;再将向量序列输入循环神经网络获得支持文档的初始编码。
通过循环神经网络对支持文档进行初始编发,反映了支持文档中词的上下文信息。通过计算支持文档相对于问题的协同注意力编码,协同注意力编码反映了支持文档感知问题的上下文信息,支持文档与问题关联的上下文信息。进一步,获得支持文档的自注意力编码,自注意力编码反映了支持文档中各个词的重要性信息。经过上述的一系列处理后,支持文档的特征向量包含了多种信息,对后续选取正确答案提供了帮助。
在步骤S306中,问答系统中的图构建模型根据支持文档的特征向量、候选答案的特征向量以及实体的特征向量构建图。图包括:与各个实体对应的节点,与候选答案对应的节点以及与支持文档对应的节点,反映各实体之间的关系的各节点之间的边,反映候选答案和实体之间的关系的边,反映候选答案之间的关系的边,反映支持文档和实体之间的关系的边,以及反映支持文档和候选答案之间的关系的边。
图中的节点可以用实体、候选答案和支持文档的特征向量进行表示。支持文档和实体之间的关系包括:支持文档与从该支持文档中提取的实体之间的第四关系;支持文档和候选答案之间的关系包括:支持文档与在该支持文档中出现的候选答案之间的第五关系。则图中可以包括对应于第四关系,第五关系中至少一种类型的边。最多的情况下,图中可以包括七种类型的边。
在步骤S308中,问答系统中的图神经网络模型,根据输入的图的表示矩阵,输出各个节点更新后的特征向量。
在本实施例中,改进后的图为异构图包括候选答案对应的节点,实体对应的节点,以及支持文档对应的节点。不同节点表示不同粒度级别的问题感知信息。候选答案对问题的感知信息,实体在特定文档的上下文中对问题的感知信息,支持文档对问题感知的全局信息等都体现在节点的表示中。进而基于图神经网络模型对异构图进行多条推理,使节点的信息在不同类型的边上进行传播,从而更新各个节点的表示即对应的实体的特征向量,对应的候选答案的特征向量和对应的支持文档的特征向量。参考公式(9)-(11)对节点的表示进行更新。通过图中信息的传播,候选答案对应的实体的特征向量、候选答案的特征向量和文档的特征向量进一步体现了对问题进行了感知信息,以及相互之间的关联性,便于后续选取正确答案。
在步骤S310中,问答系统的分类模型根据输入的候选答案更新后的特征向量和候选答案对应的实体更新后的特征向量,输出一个候选答案作为问题的答案。
可以参考前述实施例的方法,根据公式(13)计算候选答案的份数,最终选取得分最高的候选答案作为问题的答案。
上述实施例的方法提供了一套完整的机器问答方法。通过对不同的候选答案、实体和支持文档的协同注意力编码、自注意力编码等过程,使得候选答案、实体和支持文档的特征向量能够分别反映不同粒度的问题感知信息,并且体现了不同词的重要程度。进而基于候选答案、实体和支持文档的特征向构建的异构图,进一步体现了候选答案、实体、支持文档以及问题之间的关系,通过图神经网络对图的推理,使得更新后的特征向量,能够进一步反映四者的相关信息,最后基于特征向量对候选答案和实体进行打分,综合两部分打分选取答案。上述实施例的方法,使计算机能够从不同的文本中一步一步地理解上下文的信息,理解候选答案、实体和支持文档与问题的关系,理解候选答案、实体、支持文档和问题之间关系,从而选出与正确答案最接近的答案。发明人经过在WiKiHop数据集上的实验,证明上述方案在提高机器问答准确率上高于已有的现有技术。
上述实施例中问答系统包括多个模型,在训练过程中,可以系统整体进行训练。训练数据包括:问题、支持文档和候选答案,对其中的正确答案进行标注。可以采用交叉损失熵作为训练目标。将问题、支持文档和候选答案输入问答系统,根据输出的结果与标注信息,计算交叉损失熵,根据交叉损失熵调整各个模型的参数,直至满足预设停止条件(例如:交叉损失熵最小),完成对问答系统的训练。具体过程不再赘述。问答系统可以包括后续实施例中的数据处理装置。
本公开还提供一种数据处理装置,下面结合图5进行描述。
图5为本公开数据处理装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:
向量获取模块502,用于获取与问题对应的实体的特征向量和与候选答案对应的实体的特征向量,其中,实体是从问题对应的支持文档中提取的。
图构建模块504,用于根据实体的特征向量构建图,其中,图包括与各个实体对应的节点,和反映各实体之间的关系的各节点之间的边。
答案输出模块506,用于将图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为问题的答案。
进一步,在一些实施例中,向量获取模块502还用于获取候选答案的特征向量。图构建模块504还用于根据候选答案的特征向量以及实体的特征向量构建图。图还包括与候选答案对应的节点,反映候选答案和实体之间的关系的边,以及反映候选答案之间的关系的边。
进一步,在一些实施例中,向量获取模块502还用于获取支持文档的特征向量。图构建模块还用于根据支持文档的特征向量、候选答案的特征向量以及实体的特征向量构建图。图还包括与支持文档对应的节点,反映支持文档和实体之间的关系的边,以及反映支持文档和候选答案之间的关系的边。
在一些实施例中,各实体之间的关系包括:同一支持文档中提取的两个实体之间的第一关系,一个候选答案对应的两个实体之间的第二关系;不满足第一关系和第二关系两实体之间的第三关系;支持文档和实体之间的关系包括:支持文档与从该支持文档中提取的实体之间的第四关系;支持文档和候选答案之间的关系包括:支持文档与在该支持文档中出现的候选答案之间的第五关系;候选答案和实体之间的关系包括:候选答案与对应的实体之间的第六关系;候选答案之间的关系包括:任意两个候选答案之间的第七关系。图包括反映第一关系至第七关系的不同类型的边。
在一些实施例中,向量获取模块502还用于对问题、支持文档、候选答案和实体分别进行初始编码;将支持文档的初始编码、候选答案的初始编码或实体的初始编码的至少一项与问题的初始编码,输入协同注意力模型,得到输出的支持文档相对于问题的协同注意力编码,候选答案相对于问题的协同注意力编码,或实体相对于问题的协同注意力编码中至少一项;根据支持文档的协同注意力编码,候选答案的协同注意力编码,或者,根据实体的协同注意力编码,分别确定支持文档的特征向量,候选答案的特征向量,或者,实体的特征向量。
在一些实施例中,向量获取模块502还用于将支持文档的协同注意力编码,候选答案的协同注意力编码或实体的协同注意力编码中至少一项,输入自注意力模型,得到输出的支持文档的自注意力编码,候选答案的自注意力编码,或实体的自注意力编码中至少一项,分别作为支持文档的特征向量,候选答案的特征向量,或实体的特征向量。
在一些实施例中,向量获取模块502还用于采用循环神经网络模型对问题、支持文档、候选答案进行初始编码;根据与问题对应的实体和与候选答案对应的实体在支持文档中的位置,从支持文档的初始编码中提取实体的初始编码。
在一些实施例中,答案输出模块506用于将图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量;将候选答案更新后的特征向量和候选答案对应的实体更新后的特征向量输入分类模型,得到输出的各个候选答案以及候选答案对应的实体的得分;根据各个候选答案以及各个候选答案对应的实体的得分,选取一个候选答案作为问题的答案。
进一步,在一些实施例中,答案输出模块506用于将分类器输出的各个候选答案的得分,记为各个候选答案的第一得分;根据同一候选答案对应的多个实体的得分,确定该候选答案的第一得分;根据同一候选答案的第一得分和第二得分,确定候选答案的最终得分;选取最终得分最高的候选答案作为问题的答案。
在一些实施例中,答案输出模块506用于针对一个节点,在图神经网络的当前层,根据该节点的邻居节点的特征向量,以及该节点与各个邻居节点之间边对应的转换函数,确定该节点在图神经网络的下一层的特征向量,直至确定该节点图神经网络的最后一层的特征向量,完成对该节点对应的特征向量的更新。
本公开的实施例中的数据处理装置可各由各种计算设备或计算机系统来实现,下面结合图6以及图7进行描述。
图6为本公开数据处理装置的一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行本公开中任意一些实施例中的数据处理方法。
其中,存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图7为本公开数据处理装置的另一些实施例的结构图。如图7所示,该实施例的装置70包括:存储器710以及处理器720,分别与存储器610以及处理器620类似。还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口750为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (20)
1.一种数据处理方法,包括:
获取与问题对应的实体的特征向量和与候选答案对应的实体的特征向量以及所述候选答案的特征向量,其中,所述实体是从所述问题对应的支持文档中提取的;
根据所述候选答案的特征向量以及所述实体的特征向量构建图,其中,所述图包括与各个实体对应的节点,反映各实体之间的关系的各节点之间的边,与所述候选答案对应的节点;
将所述图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为所述问题的答案;
所述将所述图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为所述问题的答案包括:
将所述图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量;
将所述候选答案更新后的特征向量和所述候选答案对应的实体更新后的特征向量输入分类模型,得到输出的各个候选答案的得分以及候选答案对应的实体的得分;
根据各个候选答案的得分以及各个候选答案对应的实体的得分,选取一个候选答案作为所述问题的答案。
2.根据权利要求1所述的数据处理方法,其中,所述图还包括反映所述候选答案和所述实体之间的关系的边,以及反映所述候选答案之间的关系的边。
3.根据权利要求2所述的数据处理方法,还包括:
获取所述支持文档的特征向量;
所述根据所述实体的特征向量构建图包括:
根据所述支持文档的特征向量、所述候选答案的特征向量以及所述实体的特征向量构建图;
其中,所述图还包括与所述支持文档对应的节点,反映所述支持文档和所述实体之间的关系的边,以及反映所述支持文档和所述候选答案之间的关系的边。
4.根据权利要求3所述的数据处理方法,还包括:
对所述问题、所述支持文档、所述候选答案和所述实体分别进行初始编码;
将所述支持文档的初始编码、所述候选答案的初始编码或所述实体的初始编码的至少一项与所述问题的初始编码,输入协同注意力模型,得到输出的所述支持文档相对于所述问题的协同注意力编码,所述候选答案相对于所述问题的协同注意力编码,或所述实体相对于所述问题的协同注意力编码中至少一项;
根据所述支持文档的协同注意力编码,所述候选答案的协同注意力编码,或者,根据所述实体的协同注意力编码,分别确定所述支持文档的特征向量,所述候选答案的特征向量,或者,所述实体的特征向量。
5.根据权利要求4所述的数据处理方法,其中,
所述分别确定所述支持文档的特征向量,所述候选答案的特征向量,或者,所述实体的特征向量包括:
将所述支持文档的协同注意力编码,所述候选答案的协同注意力编码或所述实体的协同注意力编码中至少一项,输入自注意力模型,得到输出的所述支持文档的自注意力编码,所述候选答案的自注意力编码,或所述实体的自注意力编码中至少一项,分别作为所述支持文档的特征向量,所述候选答案的特征向量,或所述实体的特征向量。
6.根据权利要求1所述的数据处理方法,其中,
所述根据各个候选答案的得分以及各个候选答案对应的实体的得分,选取一个候选答案作为所述问题的答案包括:
将分类器输出的各个候选答案的得分,记为各个候选答案的第一得分;
根据同一候选答案对应的多个实体的得分,确定该候选答案的第二得分;
根据同一候选答案的第一得分和第二得分,确定所述候选答案的最终得分;
选取最终得分最高的候选答案作为所述问题的答案。
7.根据权利要求3所述的数据处理方法,其中,
所述各实体之间的关系包括:同一支持文档中提取的两个实体之间的第一关系,一个候选答案对应的两个实体之间的第二关系;不满足第一关系和第二关系两实体之间的第三关系;
所述支持文档和所述实体之间的关系包括:支持文档与从该支持文档中提取的实体之间的第四关系;
所述支持文档和所述候选答案之间的关系包括:支持文档与在该支持文档中出现的候选答案之间的第五关系;
所述候选答案和所述实体之间的关系包括:候选答案与对应的实体之间的第六关系;
所述候选答案之间的关系包括:任意两个候选答案之间的第七关系;
其中,所述图包括反映所述第一关系至第七关系的不同类型的边。
8.根据权利要求4所述的数据处理方法,其中,
采用循环神经网络模型对所述问题、所述支持文档、所述候选答案进行初始编码;
根据与所述问题对应的实体和与所述候选答案对应的实体在所述支持文档中的位置,从所述支持文档的初始编码中提取所述实体的初始编码。
9.根据权利要求1所述的数据处理方法,其中,
所述将所述图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量包括:
针对一个节点,在所述图神经网络的当前层,根据该节点的邻居节点的特征向量,以及该节点与各个邻居节点之间边对应的转换函数,确定该节点在所述图神经网络的下一层的特征向量,直至确定该节点所述图神经网络的最后一层的特征向量,完成对该节点对应的特征向量的更新。
10.一种数据处理装置,包括:
向量获取模块,用于获取与问题对应的实体的特征向量、与候选答案对应的实体的特征向量、所述候选答案的特征向量,其中,所述实体是从所述问题对应的支持文档中提取的;
图构建模块,用于根据所述候选答案的特征向量以及所述实体的特征向量构建图,其中,所述图包括与各个实体对应的节点,反映各实体之间的关系的各节点之间的边,与所述候选答案对应的节点;
答案输出模块,用于将所述图的表示矩阵输入机器学习模型,得到输出的一个候选答案作为所述问题的答案;
所述答案输出模块用于将所述图的表示矩阵输入图神经网络模型,得到输出的各个节点更新后的特征向量;将所述候选答案更新后的特征向量和所述候选答案对应的实体更新后的特征向量输入分类模型,得到输出的各个候选答案的得分以及候选答案对应的实体的得分;根据各个候选答案的得分以及各个候选答案对应的实体的得分,选取一个候选答案作为所述问题的答案。
11.根据权利要求10所述的数据处理装置,其中,所述图还包括反映所述候选答案和所述实体之间的关系的边,以及反映所述候选答案之间的关系的边。
12.根据权利要求11所述的数据处理装置,其中,
所述向量获取模块还用于获取所述支持文档的特征向量;
所述图构建模块还用于根据所述支持文档的特征向量、所述候选答案的特征向量以及所述实体的特征向量构建图;
其中,所述图还包括与所述支持文档对应的节点,反映所述支持文档和所述实体之间的关系的边,以及反映所述支持文档和所述候选答案之间的关系的边。
13.根据权利要求12所述的数据处理装置,其中,
所述向量获取模块还用于对所述问题、所述支持文档、所述候选答案和所述实体分别进行初始编码;将所述支持文档的初始编码、所述候选答案的初始编码或所述实体的初始编码的至少一项与所述问题的初始编码,输入协同注意力模型,得到输出的所述支持文档相对于所述问题的协同注意力编码,所述候选答案相对于所述问题的协同注意力编码,或所述实体相对于所述问题的协同注意力编码中至少一项;根据所述支持文档的协同注意力编码,所述候选答案的协同注意力编码,或者,根据所述实体的协同注意力编码,分别确定所述支持文档的特征向量,所述候选答案的特征向量,或者,所述实体的特征向量。
14.根据权利要求13所述的数据处理装置,其中,
所述向量获取模块还用于将所述支持文档的协同注意力编码,所述候选答案的协同注意力编码或所述实体的协同注意力编码中至少一项,输入自注意力模型,得到输出的所述支持文档的自注意力编码,所述候选答案的自注意力编码,或所述实体的自注意力编码中至少一项,分别作为所述支持文档的特征向量,所述候选答案的特征向量,或所述实体的特征向量。
15.根据权利要求10所述的数据处理装置,其中,
所述答案输出模块用于将分类器输出的各个候选答案的得分,记为各个候选答案的第一得分;根据同一候选答案对应的多个实体的得分,确定该候选答案的第二得分;根据同一候选答案的第一得分和第二得分,确定所述候选答案的最终得分;选取最终得分最高的候选答案作为所述问题的答案。
16.根据权利要求12所述的数据处理装置,其中,
所述各实体之间的关系包括:同一支持文档中提取的两个实体之间的第一关系,一个候选答案对应的两个实体之间的第二关系;不满足第一关系和第二关系两实体之间的第三关系;
所述支持文档和所述实体之间的关系包括:支持文档与从该支持文档中提取的实体之间的第四关系;
所述支持文档和所述候选答案之间的关系包括:支持文档与在该支持文档中出现的候选答案之间的第五关系;
所述候选答案和所述实体之间的关系包括:候选答案与对应的实体之间的第六关系;
所述候选答案之间的关系包括:任意两个候选答案之间的第七关系;
其中,所述图包括反映所述第一关系至第七关系的不同类型的边。
17.根据权利要求13所述的数据处理装置,其中,
所述向量获取模块还用于采用循环神经网络模型对所述问题、所述支持文档、所述候选答案进行初始编码;根据与所述问题对应的实体和与所述候选答案对应的实体在所述支持文档中的位置,从所述支持文档的初始编码中提取所述实体的初始编码。
18.根据权利要求10所述的数据处理装置,其中,
所述答案输出模块用于针对一个节点,在所述图神经网络的当前层,根据该节点的邻居节点的特征向量,以及该节点与各个邻居节点之间边对应的转换函数,确定该节点在所述图神经网络的下一层的特征向量,直至确定该节点所述图神经网络的最后一层的特征向量,完成对该节点对应的特征向量的更新。
19.一种数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-9任一项所述的数据处理方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361342.9A CN111488460B (zh) | 2019-04-30 | 2019-04-30 | 数据处理方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910361342.9A CN111488460B (zh) | 2019-04-30 | 2019-04-30 | 数据处理方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488460A CN111488460A (zh) | 2020-08-04 |
CN111488460B true CN111488460B (zh) | 2021-10-15 |
Family
ID=71811462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910361342.9A Active CN111488460B (zh) | 2019-04-30 | 2019-04-30 | 数据处理方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488460B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784918B (zh) * | 2021-02-01 | 2023-06-30 | 中国科学院自动化研究所 | 基于无监督图表示学习的节点识别方法、系统、装置 |
CN113342944B (zh) * | 2021-04-29 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种语料泛化方法、装置、设备及存储介质 |
CN113553402B (zh) * | 2021-07-28 | 2022-09-20 | 山西大学 | 一种基于图神经网络的考试阅读理解自动问答方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647233A (zh) * | 2018-04-02 | 2018-10-12 | 北京大学深圳研究生院 | 一种用于问答系统的答案排序方法 |
CN108804417A (zh) * | 2018-05-21 | 2018-11-13 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN109376222A (zh) * | 2018-09-27 | 2019-02-22 | 国信优易数据有限公司 | 问答匹配度计算方法、问答自动匹配方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135240B2 (en) * | 2013-02-12 | 2015-09-15 | International Business Machines Corporation | Latent semantic analysis for application in a question answer system |
CN107391906B (zh) * | 2017-06-19 | 2020-04-28 | 华南理工大学 | 基于神经网络和图谱结构的健康饮食知识网络构建方法 |
-
2019
- 2019-04-30 CN CN201910361342.9A patent/CN111488460B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647233A (zh) * | 2018-04-02 | 2018-10-12 | 北京大学深圳研究生院 | 一种用于问答系统的答案排序方法 |
CN108804417A (zh) * | 2018-05-21 | 2018-11-13 | 山东科技大学 | 一种基于特定领域情感词的文档级情感分析方法 |
CN109376222A (zh) * | 2018-09-27 | 2019-02-22 | 国信优易数据有限公司 | 问答匹配度计算方法、问答自动匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111488460A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078836B (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN112487168B (zh) | 知识图谱的语义问答方法、装置、计算机设备及存储介质 | |
CA3022998A1 (en) | Method and device for generative adversarial network training | |
CN111695415A (zh) | 图像识别模型的构建方法、识别方法及相关设备 | |
JP2020523699A (ja) | 関心点コピーの生成 | |
CN111488460B (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
GB2577584A (en) | Utilizing a dynamic memory network to track digital dialog states and generate responses | |
WO2024032096A1 (zh) | 反应物分子的预测方法、训练方法、装置以及电子设备 | |
CN114547267A (zh) | 智能问答模型的生成方法、装置、计算设备和存储介质 | |
CN111966811A (zh) | 意图识别和槽填充方法、装置、可读存储介质及终端设备 | |
KR102697095B1 (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
CN114239675A (zh) | 融合多模态内容的知识图谱补全方法 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN111914553A (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN116992151A (zh) | 一种基于双塔图卷积神经网络的在线课程推荐方法 | |
CN115599984A (zh) | 一种检索方法 | |
CN114065769A (zh) | 情感原因对抽取模型的训练方法、装置、设备及介质 | |
CN113065321A (zh) | 基于lstm模型和超图的用户行为预测方法及系统 | |
CN115487508B (zh) | 游戏战队推荐模型的训练方法和相关装置 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN114936327A (zh) | 元素识别模型的获取方法、装置、计算机设备和存储介质 | |
CN111459990B (zh) | 对象处理方法、系统及计算机可读存储介质和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |