CN111930887A - 基于联合训练方式的多文档多答案机器阅读理解系统 - Google Patents

基于联合训练方式的多文档多答案机器阅读理解系统 Download PDF

Info

Publication number
CN111930887A
CN111930887A CN202010640437.7A CN202010640437A CN111930887A CN 111930887 A CN111930887 A CN 111930887A CN 202010640437 A CN202010640437 A CN 202010640437A CN 111930887 A CN111930887 A CN 111930887A
Authority
CN
China
Prior art keywords
answer
paragraph
document
machine reading
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010640437.7A
Other languages
English (en)
Other versions
CN111930887B (zh
Inventor
孙宁
王彬
韩光洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN202010640437.7A priority Critical patent/CN111930887B/zh
Publication of CN111930887A publication Critical patent/CN111930887A/zh
Application granted granted Critical
Publication of CN111930887B publication Critical patent/CN111930887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种基于联合训练方式的多文档多答案机器阅读理解系统,系统包括:多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解和答案验证模块的联合训练模块;多文档排序选择模块提供了一种多文档的筛选方案,选取与问题相关的段落内容作为机器阅读理解模型的输入;机器阅读理解模型能够从输入的多个段落内容中选取问题的答案;答案验证模块将机器阅读理解模型输出的多答案进行验证,选取正确的答案作为最终的输出;机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式,最优化联合损失函数,得出两个模型的最优化参数。整个系统的算法实现了从多文档中进行检索,最终能输出多答案的功能。

Description

基于联合训练方式的多文档多答案机器阅读理解系统
技术领域
本发明涉及自然语言处理领域,尤其是一种基于联合训练方式的多文档多答案机器阅读理解系统。
背景技术
随着科学技术的发展与进步,智能设备与互联网不断的飞速发展,人们日常生活中产生了大量的电子数据,人类进入了大数据时代。而在这些海量的数据之中,以自然语言形式的保存的数据占据了其中的一部分,而这一部分也是人们获取信息的一个重要来源,人们可以在这些海量数据中搜寻自己需要的信息。但往往在日常的搜索之中需要花费巨大的时间与精力才能找到自己需要的信息。因此,我们对智能问答系统的需求日益增长。
目前能够针对多文本或者海量文本的机器阅读理解系统的研究还不完善,成熟的系统还较少,无法很好的从大量的文本中抽取出有效的信息回复用户。用户在进行提问时,系统无法从网络中提供的大量文本中抽取出正确有效的答案,或者提供一些答非所问的答案,使用户无法从大数据中获取到有用的信息,使得大量的文档失去了应有的价值。所以我们急需一个系统,能够根据用户提出的问题,从大量的文本中获取相关的信息,对于文档进行检索,给出问题的答案。这样能够在最简短的时间内,返回给用户有效的信息。
发明内容
本发明提供了一种基于联合训练方式的多文档多答案机器阅读理解系统,系统包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解模型和答案验证模块的联合训练模块;
所述多文档排序选择模块提供了一种多文档的筛选方案,选取与问题相关的文章作为机器阅读理解模型的输入;
所述机器阅读理解模型能够从输入的多文章中选取问题的答案,该答案可能是多个的;
所述答案验证模块将机器阅读理解模型输出的多答案进行验证,选取正确的答案作为系统最终的输出;
所述机器阅读理解模型和答案验证模块的联合训练模块,使用联合训练的方式训练两个模块中的参数,最优化联合损失函数,得出两个模型的最优化参数。整个系统的算法实现了从多文档中进行检索,最终能输出多答案的功能。
多文档排序选择模块提供了一种文档排序选择功能,能够从大量的文档中选择出与问题相关的文章,并从文章中选取与问题相关的段落,将这些段落内容作为后续机器阅读理解模型的输入。整个多文档排序选择模块分为文档选择子模块与段落选择子模块;多文档排序选择模块的计算步骤如下:
(1-1)将文章输入进文档选择子模块,选择与问题相关的文档,剔除无关的文档,选择相关性最高的前k1篇文档输入段落选择子模块;
(1-2)段落选择子模块将输入的文档的拆分为段落;
(1-3)对这些段落分别使用基于强度排序与基于匹配度排序的方案进行打分,将这两个分数进行加权求和;
(1-4)最后,将这些加权求和的分数进行排序,最终选择排名前k2个段落作为多文档排序选择模块的输出。此处的k1,k2为自定义的超参数,用于控制选择的文章数和段落数。
上述步骤(1-1)中的文档选择子模块使用BM25算法与TF-IDF算法计算出问题与文档的相关性,选择相关性高的前k1篇文档输入段落选择子模块。
上述步骤(1-1)中的段落选择子模块从文档选择子模块输出的文档中选择与问题相关的段落,作为最终多文档排序选择模块的最终输出;段落选择子模块包括基于强度的打分方案,基于匹配度的打分方案。
上述段落选择子模块中的基于强度的打分方案,具体内容为:使用BLEU-4分数计算问句与每个段落的分数,该分数记作score1
上述段落选择子模块中的基于匹配度的打分方案,具体内容为:提供了数量为N的文档,平均每个文档有K个段落,所以设Pi为段落内容,其中i是段落标号,从1到N*K,设问题为Q;将文章
Figure BDA0002570874570000021
与问题
Figure BDA0002570874570000022
中分割好的词语转换为各自的单词级词向量
Figure BDA0002570874570000023
Figure BDA0002570874570000024
将问题与段落的词向量输入双向LSTM网络中进行编码,得到新的编码向量
Figure BDA0002570874570000025
Figure BDA0002570874570000026
uP表示文章内容,uQ表示问题,计算公式为:
Figure BDA0002570874570000027
Figure BDA0002570874570000028
然后计算每个段落中包含问题答案的概率p(Pi|Q),公式为:
Figure BDA0002570874570000031
其中sim(x,y)为相似性函数,用来衡量在段落Pi中包含问题Q的答案的概率,使用简单的评分函数,为两个向量的点积,具体公式为:
sim(x,y)=xT*y (4)
其中x,y为两个向量,代表函数的形参;模型的损失函数具体公式为:
Figure BDA0002570874570000032
其中θ表示该模型可训练参数,最终根据段落中包含问题的概率进行打分,输出基于匹配度的打分分数,该打分分数记为score2
上述步骤(1-3)中的对基于强度和基于匹配度的打分加权求和的具体公式为:
scoresum=λ1*score12*score2 (6)
其中λ12为自定义的超参数,λ12∈(0,1)且λ12=1,表示两种打分方案所占的权重。最终根据总分scorenum进行排序,选择前k2个段落内容进行输出。
上述的机器阅读理解模型采用的是基于注意力机制的机器阅读理解模型,该模型中有五个网络,包括:文章与问题词嵌入层、文章与问题编码层、基于注意力机制的答案搜索层、基于注意力机制的自匹配层、答案输出层;机器阅读理解模型的计算步骤如下:
(2-1)将文章与问题数据输入模型中,对文章与问题内容进行预处理工作;
(2-2)将处理好的词语输入文章与问题词嵌入层,将自然语言的词语转换成词向量形式;
(2-3)将文章词向量与问题词向量输入文章与问题的编码层,生成文章编码向量与问题编码向量;
(2-4)将文章编码向量与问题编码向量输入基于注意力机制的答案搜索层,先计算问题编码向量对于文章编码向量的注意力向量,然后生成基于问题注意力的文章编码向量;
(2-5)将基于问题注意力的文章编码向量输入基于注意力机制的自匹配层,计算基于问题注意力的文章向量与原先的文章向量的注意力向量,然后生成自匹配的文章向量;
(2-6)将自匹配的文章向量输入基于Pointer Networks网络答案输出网络,输出答案的开始位置与结束位置。
(2-7)本模型的损失函数Lanswer为每个单词被选中概率的交叉熵损失函数,具体为:
Figure BDA0002570874570000041
其中ak为段落中的单词,k是单词标号,K是该段落中的总单词数,Pi为段落内容,其中i是段落标号,Q为问题。
上述的所述答案验证模块对于机器阅读理解模型输出的候选答案进行验证,对候选答案的内容进行判断是否应该出现在答案中,并且对候选答案之间进行对比,确认答案的可信度,该模块包括,答案内容验证子模块、答案跨段落验证子模块。
上述的答案验证模块中的答案内容验证子模块,具体内容为:在机器阅读理解模型计算出候选答案之后,计算段落中的每一个词语出现在候选答案中的概率,段落中第k个单词出现概率
Figure BDA0002570874570000042
计算公式为:
Figure BDA0002570874570000043
其中的
Figure BDA0002570874570000044
表示为ReLU函数输出的参数,
Figure BDA0002570874570000045
表示为基于问题注意力的文章编码向量
Figure BDA0002570874570000046
的权重参数。本模块的损失函数设为Lcontent,用于验证文章内容是否应该出现在答案中,计算公式为:
Figure BDA0002570874570000047
其中N为段落数,|P|为单词数量,当该单词在答案中,则
Figure BDA0002570874570000048
否则
Figure BDA0002570874570000049
上述的答案验证模块中的答案跨段落验证子模块,具体内容为:在机器阅读理解模型计算出候选答案之后,每个候选答案需要去各个段落搜集证据,与其他的候选答案交换信息并相互验证,用来确认答案的有效性;给定所有段落
Figure BDA00025708745700000410
每个候选答案会通过注意力机制与其他候选答案一起收集支持性信息,具体公式为:
Figure BDA0002570874570000051
Figure BDA0002570874570000052
Figure BDA0002570874570000053
其中,Si,j为候选答案之前的交叉内容,αi,j为对Si,j使用softmax函数计算的结果,用于表示两者的内容的相关程度,
Figure BDA0002570874570000054
为基于注意力权重从其他段落中搜集到的验证信息,然后将其与原始表示
Figure BDA0002570874570000055
一起输入全连接层,具体公式为:
Figure BDA0002570874570000056
其中
Figure BDA00025708745700000515
为全连接层的输出,wv表示全连接层中的可训练参数,对这些段落分数进行归一化处理,这样可以获得候选答案Ai的验证分数
Figure BDA0002570874570000057
具体公式为:
Figure BDA0002570874570000058
损失函数Lverify可以公式化为正确答案的负对数概率,具体公式为:
Figure BDA0002570874570000059
其中N表示答案的数量,
Figure BDA00025708745700000510
是第i个候选答案在所有答案中的索引。
上述的机器阅读理解模型和答案验证模块的联合训练模块,具体内容为:将机器阅读理解模型的损失函数Lanswer与答案验证系统中答案内容验证的损失函数Lcontent与答案验证系统中答案跨段落验证的损失函数Lverify进行加权求和,具体公式为:
Figure BDA00025708745700000511
其中
Figure BDA00025708745700000512
为自定义的超参数,用于控制权重,
Figure BDA00025708745700000513
Figure BDA00025708745700000514
最后使用总的损失函数进行参数的训练。
附图说明
图1是基于联合训练方式的多文档多答案机器阅读理解系统框架结构图;
图2是基于联合训练方式的多文档多答案机器阅读理解系统的算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理做详细的描述。
如图1所示,一种基于联合训练方式的多文档多答案机器阅读理解系统,包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解和答案验证模块的联合训练模块。
基于联合训练方式的多文档多答案机器阅读理解系统提供了一种多文档多答案输出的机器阅读理解算法,算法能够对处理多文档多答案的情况,根据问题从文本中搜索有效信息,最后将问题的答案输出。
本发明的算法流程如图2所示,首先输入多篇文章,将文章输入多文档选择排序模块,该模块将输入的多文档进行处理,筛选出与问题相关的段落。将段落内容输入机器阅读理解模型中,机器阅读理解模型根据问题从段落内容中找到问题的候选答案,将候选答案输出。候选答案输入答案验证模块,答案验证模块验证候选答案是否有效、可信,验证之后输出最终的答案。其中机器阅读理解和答案验证模块的联合训练模块用于机器阅读理解模型与答案验证模块的参数训练。最后根据真实答案与算法输出答案的比较,看是否满足要求,如果满足就停止训练,否则就继续训练以达到良好的效果。
实施例:
本发明采用了百度Dureader数据集里训练模型,该数据集数据量较大,其中每个问题都提供了多篇文章以供参考,并且数据都是由人进行提供与标注的。本算法的具体实施步骤如下:
(1)数据预处理
对用于训练的文章与问题数据进行预处理,具体操作步骤如下:
(1-1)清除问题中的无效字符,如“_百度知道”、“_百度问答”等与实际问题无关的词语。
(1-2)使用Jieba分词对处理好的文章内容、问题进行分词,生成分词好的文本数据。之后将分词后的文本输入词表生成程序,生成词表。
(1-3)将所有的数据进行划分批次,一个批次(batch)的数据将一起输入模型进行训练。
(1-4)将每一个批次(batch)中的数据内容保持到同样的长度,也就是在小于固定长度的文章与问题内容使用填充符(<pad>)的id进行字符填充。
(1-5)把一个批次(batch)的数据一同输入模型中进行训练。
(2)多文档选择排序模块
多文档选择模块中主要包括文档选择子模块,段落选择子模块,其中文档选择子模块的输出文章数k1设为2,段落选择子模块的输出段落数k2设为1。段落选择子模块中基于强度的打分方案和基于匹配度的打分方案的权重占比λ设为0.6。其中基于匹配度的打分方案中设置了3层的双向LSTM网络,对词向量进行编码。其中使用了Dropout,比例为0.5;LSTM中的隐藏单元数为48。
(3)答案验证模块
答案验证模块中主要包括答案内容验证子模块、答案跨段落验证子模块。答案内容验证子模块、答案跨段落验证子模块中的神经网络都为单层GRU网络。其中使用了Dropout,比例为0.5;GRU中的隐藏单元数为48。答案跨段落验证子模块中的全连接神经网络的层数为3层,隐藏层单元数为48。
(4)机器阅读理解模型与答案验证模块的联合训练模块
该方法中将两个模块的损失函数按权重相加,结合成最终的损失函数。使用AdaDelta作为优化函数,该优化函数可以自动调节学习率,设置初始学习率为0.5。

Claims (9)

1.一种基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于,所述系统包括多文档排序选择模块、机器阅读理解模型、答案验证模块、机器阅读理解模型和答案验证模块的联合训练模块;
所述多文档排序选择模块提供了一种多文档的筛选方案,剔除无关的文章段落,选取与问题相关的段落内容作为机器阅读理解模型的输入;
所述机器阅读理解模型能够从段落内容中寻找问题的答案,该答案并不一定是单一的,而可能是具有多个的;
所述答案验证模块将机器阅读理解模型输出的多答案进行验证,将验证正确的答案进行输出;
所述机器阅读理解模型和答案验证模块的联合训练模块使用联合训练的方式,最优化联合损失函数,得出两个模型的最优化参数。
2.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述多文档排序选择模块能够从大量的文档中选择出与问题相关的文章,并从文章中选取与问题相关的段落,将这些段落内容作为后续机器阅读理解模型的输入;所述多文档排序选择模块系统分为文档选择子模块与段落选择子模块;多文档排序选择模块的计算步骤如下:
(2-1)将文章输入进文档选择子模块,该模块使用BM25算法与TF-IDF算法计算出问题与文档的相关性,剔除无关的文档,选择相关性最高的前k1篇文档输入段落选择子模块;
(2-2)段落选择子模块将输入的文档的拆分为段落;
(2-3)对这些段落分别使用基于强度排序与基于匹配度排序的方案进行打分,最终根据基于强度排序的打分score1和基于匹配度排序的打分score2,进行加权求和,具体公式为:
scoresum=λ1*score12*score2 (1)
其中λ12为自定义的超参数,λ12∈(0,1),且λ12=1,表示两种打分方案所占的权重;
(2-4)最后,将这些加权求和的最终分数scoresum进行排序,最终选择排名前k2个段落作为多文档排序选择模块的输出;上述的k1,k2为自定义的超参数,用于控制选择的文章数和段落数。
3.根据权利要求2中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的基于强度的打分方案的具体内容为:使用BLEU-4分数计算问句与每个段落的分数,这个总分表示了问句中的关键词在每个段落中出现的次数。
4.根据权利要求2中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的基于匹配度的打分方案的具体内容为:提供了数量为N的文档,平均每个文档有K个段落,所以设Pi为段落内容,其中i是段落标号,从1到N*K,设问题为Q;将文章
Figure FDA0002570874560000021
与问题
Figure FDA0002570874560000022
中分割好的词语转换为各自的单词级词向量
Figure FDA0002570874560000023
Figure FDA0002570874560000024
将问题与段落的词向量输入双向LSTM网络中进行编码,得到新的编码向量
Figure FDA0002570874560000025
Figure FDA0002570874560000026
uP表示文章内容,uQ表示问题,计算公式为:
Figure FDA0002570874560000027
Figure FDA0002570874560000028
然后计算每个段落中包含问题答案的概率p(Pi|Q),公式为:
Figure FDA0002570874560000029
其中sim(x,y)为相似性函数,用来衡量在段落Pi中包含问题Q的答案的概率,使用简单的评分函数,为两个向量的点积,具体公式为:
sim(x,y)=xT*y (5)
其中x,y为两个向量,代表函数的形参;模型的损失函数具体公式为:
Figure FDA00025708745600000210
其中θ表示该模型可训练参数,最终根据段落中包含问题的概率进行打分,输出基于匹配度的打分分数。
5.根据权利要求1中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述机器阅读理解模型使用基于门控注意力机制的机器阅读理解模型,该模型对输入的段落进行处理,从中提取出提问问题的答案,返回结果;本模型的损失函数为每个单词被选中概率的交叉熵损失函数Lanswer,计算公式为:
Figure FDA0002570874560000031
其中ak为段落中的单词,k是单词标号,K是该段落中的总单词数,Pi为段落内容,其中i是段落标号,Q为问题。
6.根据权利要求5中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述答案验证模块对于机器阅读理解模型输出的候选答案进行验证,主要对候选答案的内容进行判断,判断这些内容是否应该出现在答案中,并且对候选答案进行跨段落验证是否正确;所述答案验证模块包括,答案内容验证子模块、答案跨段落验证子模块。
7.根据权利要求6中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的答案内容验证子模块的具体内容为:在机器阅读理解模型计算出候选答案之后,计算段落中的每一个词语出现在候选答案中的概率,段落中第k个单词出现概率
Figure FDA0002570874560000032
计算公式为:
Figure FDA0002570874560000033
其中的
Figure FDA0002570874560000034
表示为ReLU函数输出的参数,
Figure FDA0002570874560000035
表示为基于问题注意力的文章编码向量
Figure FDA0002570874560000036
的权重参数。本模块的损失函数设为Lcontent,用于验证文章内容是否应该出现在答案中,计算公式为:
Figure FDA0002570874560000037
其中N为段落数,|P|为单词数量,当该单词在答案中,则
Figure FDA0002570874560000038
否则
Figure FDA0002570874560000039
8.根据权利要求7中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的答案跨段落验证子模块的具体内容为:在机器阅读理解模型计算出候选答案之后,每个候选答案需要去各个段落搜集证据,与其他的候选答案交换信息并相互验证;给定所有段落
Figure FDA00025708745600000310
每个候选答案会通过注意力机制与其他候选答案一起收集支持性信息,具体公式为:
Figure FDA0002570874560000041
Figure FDA0002570874560000042
Figure FDA0002570874560000043
其中,Si,j为候选答案之前的交叉内容,αi,j为对Si,j使用softmax函数计算的结果,用于表示两者的内容的相关程度,
Figure FDA0002570874560000044
为基于注意力权重从其他段落中搜集到的验证信息,然后将其与原始表示
Figure FDA0002570874560000045
一起输入全连接层,具体公式为:
Figure FDA0002570874560000046
其中
Figure FDA0002570874560000047
为全连接层的输出,wv表示全连接层中的可训练参数,对这些段落分数进行归一化处理,获得候选答案Ai的验证分数
Figure FDA0002570874560000048
具体公式为:
Figure FDA0002570874560000049
损失函数Lverify公式化为正确答案的负对数概率,具体公式为:
Figure FDA00025708745600000410
其中N表示答案的数量,
Figure FDA00025708745600000411
是第i个候选答案在所有答案中的索引。
9.根据权利要求8中所述的基于联合训练方式的多文档多答案机器阅读理解系统,其特征在于:所述的机器阅读理解模型和答案验证模块的联合训练模块的具体内容为:将机器阅读理解模型的损失函数Lanswer与答案验证系统中答案内容验证的损失函数Lcontent与答案验证系统中答案跨段落验证的损失函数Lverify进行加权求和,具体公式为:
Figure FDA00025708745600000412
其中
Figure FDA00025708745600000413
为自定义的超参数,用于控制权重,
Figure FDA00025708745600000414
Figure FDA00025708745600000415
最后使用总的损失函数进行参数的训练。
CN202010640437.7A 2020-07-06 2020-07-06 基于联合训练方式的多文档多答案机器阅读理解系统 Active CN111930887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010640437.7A CN111930887B (zh) 2020-07-06 2020-07-06 基于联合训练方式的多文档多答案机器阅读理解系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010640437.7A CN111930887B (zh) 2020-07-06 2020-07-06 基于联合训练方式的多文档多答案机器阅读理解系统

Publications (2)

Publication Number Publication Date
CN111930887A true CN111930887A (zh) 2020-11-13
CN111930887B CN111930887B (zh) 2023-07-21

Family

ID=73312489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010640437.7A Active CN111930887B (zh) 2020-07-06 2020-07-06 基于联合训练方式的多文档多答案机器阅读理解系统

Country Status (1)

Country Link
CN (1) CN111930887B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435213A (zh) * 2021-07-09 2021-09-24 支付宝(杭州)信息技术有限公司 针对用户问题和知识库返回答案的方法和装置
CN113486174A (zh) * 2021-06-15 2021-10-08 北京三快在线科技有限公司 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113627152A (zh) * 2021-07-16 2021-11-09 中国科学院软件研究所 一种基于自监督学习的无监督机器阅读理解训练方法
CN113688876A (zh) * 2021-07-30 2021-11-23 华东师范大学 一种基于lda和bert的金融文本机器阅读理解方法
CN113836893A (zh) * 2021-09-14 2021-12-24 北京理工大学 一种融入多个段落信息的抽取式机器阅读理解方法
CN114416914A (zh) * 2022-03-30 2022-04-29 中建电子商务有限责任公司 一种基于图片问答的处理方法
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9720981B1 (en) * 2016-02-25 2017-08-01 International Business Machines Corporation Multiple instance machine learning for question answering systems
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN110309305A (zh) * 2019-06-14 2019-10-08 中国电子科技集团公司第二十八研究所 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN110334184A (zh) * 2019-07-04 2019-10-15 河海大学常州校区 基于机器阅读理解的智能问答系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9720981B1 (en) * 2016-02-25 2017-08-01 International Business Machines Corporation Multiple instance machine learning for question answering systems
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN110309305A (zh) * 2019-06-14 2019-10-08 中国电子科技集团公司第二十八研究所 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN110334184A (zh) * 2019-07-04 2019-10-15 河海大学常州校区 基于机器阅读理解的智能问答系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘家骅: "基于多篇章多答案的阅读理解系统", 《中文信息学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486174A (zh) * 2021-06-15 2021-10-08 北京三快在线科技有限公司 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113435213B (zh) * 2021-07-09 2024-04-30 支付宝(杭州)信息技术有限公司 针对用户问题和知识库返回答案的方法和装置
CN113435213A (zh) * 2021-07-09 2021-09-24 支付宝(杭州)信息技术有限公司 针对用户问题和知识库返回答案的方法和装置
CN113627152B (zh) * 2021-07-16 2023-05-16 中国科学院软件研究所 一种基于自监督学习的无监督机器阅读理解训练方法
CN113627152A (zh) * 2021-07-16 2021-11-09 中国科学院软件研究所 一种基于自监督学习的无监督机器阅读理解训练方法
CN113688876A (zh) * 2021-07-30 2021-11-23 华东师范大学 一种基于lda和bert的金融文本机器阅读理解方法
CN113688876B (zh) * 2021-07-30 2023-08-22 华东师范大学 一种基于lda和bert的金融文本机器阅读理解方法
CN113836893A (zh) * 2021-09-14 2021-12-24 北京理工大学 一种融入多个段落信息的抽取式机器阅读理解方法
CN114416914B (zh) * 2022-03-30 2022-07-08 中建电子商务有限责任公司 一种基于图片问答的处理方法
CN114416914A (zh) * 2022-03-30 2022-04-29 中建电子商务有限责任公司 一种基于图片问答的处理方法
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
CN115292469B (zh) * 2022-09-28 2023-02-07 之江实验室 一种结合段落搜索和机器阅读理解的问答方法
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法

Also Published As

Publication number Publication date
CN111930887B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111930887A (zh) 基于联合训练方式的多文档多答案机器阅读理解系统
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110032635B (zh) 一种基于深度特征融合神经网络的问题对匹配方法和装置
CN110364251B (zh) 一种基于机器阅读理解的智能交互导诊咨询系统
CN110413785A (zh) 一种基于bert和特征融合的文本自动分类方法
CN110516055A (zh) 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN112364150A (zh) 一种结合检索与生成的智能问答方法和系统
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111428443B (zh) 一种基于实体上下文语义交互的实体链接方法
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN114595306B (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN111666376A (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN114997181A (zh) 一种基于用户反馈修正的智能问答方法及系统
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN111581364A (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN117093692A (zh) 一种基于深度融合的多粒度图像-文本匹配方法及系统
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN112926340B (zh) 一种用于知识点定位的语义匹配模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant