CN111782961B - 一种面向机器阅读理解的答案推荐方法 - Google Patents

一种面向机器阅读理解的答案推荐方法 Download PDF

Info

Publication number
CN111782961B
CN111782961B CN202010775911.7A CN202010775911A CN111782961B CN 111782961 B CN111782961 B CN 111782961B CN 202010775911 A CN202010775911 A CN 202010775911A CN 111782961 B CN111782961 B CN 111782961B
Authority
CN
China
Prior art keywords
sentence
answer
hop
chain
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010775911.7A
Other languages
English (en)
Other versions
CN111782961A (zh
Inventor
赵翔
霍立军
徐浩
谭真
葛斌
肖卫东
黄魁华
李硕豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010775911.7A priority Critical patent/CN111782961B/zh
Publication of CN111782961A publication Critical patent/CN111782961A/zh
Application granted granted Critical
Publication of CN111782961B publication Critical patent/CN111782961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向机器阅读理解的答案推荐方法,包括以下步骤:接受问题q和支持文档集T′;进行句子分割和语义编码,包括文本预处理、词编码和句子编码;根据编码的语义进行推断以构建多跳推理链,包括选择节点和建立跳边;通过挖掘多跳推理链的信息以对候选集进行排序,包括推理链信息的集成和答案概率分布的计算;根据答案概率分布结果,从候选集
Figure DDA0002618395680000011
中预测答案。本发明方法创新性的为机器阅读理解使用了基于句子的推理,在这个过程中,构造了多个逻辑链来连接与问题相关的句子;引入了句子级联,以处理基于上下文的有效共指的潜在问题。最后在流行的多跳机器阅读数据集上获得了具有竞争力的准确性结果。

Description

一种面向机器阅读理解的答案推荐方法
技术领域
本发明属于人工智能中的自然语言处理技术领域,涉及机器自动阅读理解方法,具体涉及一种面向机器阅读理解的答案推荐方法。
背景技术
机器阅读理解(MRC)是自然语言处理(NLP)领域的一个重要任务,其旨在让机器根据给定的问题和文章,抽取相关的信息和知识,从而得到答案。相对于自然语言处理中的命名实体识别(NER),关系抽取等基础任务,MRC是一个更复杂,更高层的任务,其对语义的理解要求更高,抽取的文本信息更多。
近年来,为了机器阅读理解的深入发展,很多数据集被开发出来用于去验证机器阅读理解模型的效果,例如斯坦福大学提出的squad数据集。大多现有的数据集都是针对单文档阅读理解任务,即每个问题对应于一篇文章,解决问题需要的信息集中于一篇文章,不存在文章与文章之间的信息线索跳动。然而,最近一些新的数据集聚焦于多跳阅读理解任务,即一个问题对应于多篇文章的情况,比如WikiHop和MedHop()。多文档阅读理解任务要求阅读理解模型依据问题线索信息在多篇文章之间进行合理跳跃,找到足够的有用知识,最终推理得出答案。
多文档阅读理解相较于单文档阅读理解任务更具有挑战性,主要表现在三个方面。首先,对于每个问题,多文档阅读理解任务都提供了大量的支持文档,但只有一部分文档包含解决问题的信息,其余为干扰文档。大部分现有的阅读理解模型难以处理如此规模的文档,并且不具备抗干扰能力。其次,解决问题的信息分布在多篇文档之中,需要模型的有效推理,形成一个可靠的信息链。然而,大部分模型的推理能力较差,甚至不具备推理能力。最后,推理形成的信息链可能存在多条,需要被二次排序筛选,这给模型的带来了很大的不确定性。
发明内容
有鉴于此,本发明的目的在于提出一种面向机器阅读理解的答案推荐方法,所述方法提出了基于句子推理的递进式阅读理解模型,首先,从问题出发,找到问题中的主要实体,并在支持文档中找到包含该实体的句子,完成推理链初始构建;然后,设计了一个句子选择器用于句子与句子之间的推断,完成推理链的构建;对于已有的推理链,设计一个答案预测器令其使用推理链来找到答案。一个问题可能会存在多个可能的推理链,因此本发明重复这两个模块,对每个问题构建多条推理链。
基于上述目的,一种面向机器阅读理解的答案推荐方法,包括以下步骤:
步骤1,接受问题q和支持文档集T′,问题q以元组(Ie,r,?)的形式提供,其中Ie是左实体,?表示未知右实体,r表示Ie与未知右实体也就是答案之间的关系;
步骤2,进行句子分割和语义编码,包括文本预处理、词编码和句子编码;
步骤3,根据编码的语义进行推断以构建多跳推理链,包括选择节点和建立跳边;
步骤4,通过挖掘多跳推理链的信息以对候选集进行排序,包括推理链信息的集成和答案概率分布的计算;
步骤5,根据答案概率分布结果,从候选集
Figure BDA0002618395660000021
中预测未知右实体即答案。
具体地,步骤2中所述的预处理包括:使用TF-IDF算法来计算问题和每个支持文档之间的余弦相似度并对其进行排名,截取前N个支持文档以获得新的支持文档集
Figure BDA0002618395660000031
所述的词编码,将字符嵌入和预训练的Glove词嵌入结合起来作为初始词嵌入,并将它们输入到一层高速路神经网络(Highway Network)中以获得最终的词表示,使用L′,R′和X′分别表示Ie,r和T的词嵌入,对于语义编码,把L′,R′和X′经过一层带有v个隐藏单元的双向LSTM网络并连接其双向输出,使用
Figure BDA0002618395660000032
Figure BDA0002618395660000033
分别作为Ie,r和T的语义编码,其中QI,Qr,J分别为Ie,r和T的词级长度;每个候选都可以在支持文档集T中找到,在X中取出与c′η相对应的词编码,并在词级别对其求平均,然后获得cη∈Rv作为c′η的语义编码;
所述的句子编码,包括:首先将文档t切成多个句子,以获得单个句子集
Figure BDA0002618395660000034
其中I是包含在t中的单个句子的数量,K是构成一个句子的单词数量,
Figure BDA0002618395660000035
是在X中相应单词的编码;然后,将文档中所有两个相邻的单个句子级联起来,以获得级联句子集
Figure BDA0002618395660000036
可以定义为:
Figure BDA0002618395660000037
其中||用于表示级联;接下来,联合Do和Db以完成t的句子划分并获得句子集D,也就是:
D=Do∪Db,
其中∪指取并集;对所有支持文档采用相同的操作,并获得T的词级句子编码S,即:
S=D1∪D2∪...∪DN={s1,...,sI′},
其中I′是T的单个句子和级联句子的总数,然后应用自我注意机制来实现句子的向量表示,并获得T的句子级编码E,用来将句子si转换成向量
Figure BDA0002618395660000038
的公式如下,K为句子的长度:
aik=tanh(W2tanh(W1sik+b1)+b2)
Figure BDA0002618395660000041
Figure BDA0002618395660000042
其中W1和W2为权重参数,b1和b2为偏移参数。
具体地,步骤3中,使用分层记忆网络模型来构建句子的推理链,在选择节点阶段,模型抽取一个与网络记忆状态m最相关的句子作为当前跳的起始节点,在建立跳边阶段,模型更新m以准备跳到下一个节点,将这一阶段看做生成一个连接相邻节点的边;
在选择节点的过程中,在每跳h,模型会计算E中每个句子编码ei和当前网络记忆状态m的双线性相似度,并获得节点选择分布Psent,然后,选择句子si∈S作为当前跳的起始节点,其中i满足:
Psent(i)=max(Psent)
在建立跳边的过程中,选择了h跳的起始节点后,模型会计算mh和si中每个单词sik的双线性相似度并将其归一化以获得权重μ,使用μ来计算si中所有单词的加权平均值
Figure BDA0002618395660000045
然后将其输入到一个GRU单元中以更新mh,之后,将这两个阶段合并为一个循环单元U,U可以通过更新m来连续选择节点,循环UH次,获得一条有H个节点的推理链Schain={s1,s2,...,sH},其中每个句子sh都由U从S中迭代选择,为了减少推理链生成的偶然性,重复句子选择器M次以生成的M条可能的推理链。
具体地,步骤4中所述推理链的集成包括:计算sH中每个单词和推理链的前H-1跳以及问题之间的注意力σ,σ被用来计算sH的加权平均
Figure BDA0002618395660000043
公式可以表示为:
Figure BDA0002618395660000044
横向拼接链Schain的前H-1个节点以获得sfore,即:
sfore=s1||s2||...||sH-1,
并结合sH中的单词以计算σ,采用具有注意机制的LSTM网络来计算信息向量δk,它集成了sH前k-1个词和sfore的信息,是一个信息高度丰富的向量,计算左实体,关系和δk的α相似度εk,即:
εk=α(δk,I)+α(δk,r)
其中I和r分别是L和R的最后隐状态,而α定义为:
Figure BDA0002618395660000053
其中
Figure BDA0002618395660000054
代表逐元素乘法,Wα1和Wα2为系数,b为偏移量,然后,将整合了Schain信息和问题的信息ε可用于计算注意力σ:
σ=softmax(ε)。
所述的答案概率分布的计算,是在获得了高度集成的推理链和问题信息的向量x之后,使用x来计算候选ci作为答案的概率分布Panswer,为所有推理链计算Panswer,并获得答案概率分布集
Figure BDA0002618395660000051
汇总所有推理链的结果,可以得到候选cη的分数为:
Figure BDA0002618395660000052
具体地,在选择节点阶段,使用左实体作为推理链的起始节点,模型的网络记忆状态m用L的最后隐状态进行初始化,并用一个门控循环单元(GRU)对进行更新。
与现有技术相比,本发明方法以下优点和有益效果:创新性的为机器阅读理解使用了基于句子的推理,在这个过程中,本发明方法构造了多个逻辑推理链来连接与问题相关的句子;引入了句子级联,以处理基于上下文的有效共指的潜在问题。由此预测的答案更接近真实的答案。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例的整体模型结构示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
当人类面对一个多文档阅读理解问题时,他首先会观察问题,找到其中的关键词。然后,他会在支持文档里面找到跟这个关键词相关的句子,并读懂该句子的含义。接下来,他根据当前句子的语义,在支持文档中找到下一个符合逻辑推理的句子,从而完成一跳,最终在支持文档中抽取出来的所有句子构成一个推理链。受到人类这一过程的启发,实施本发明实施例,并进行实验。
在多跳机器阅读理解MRC任务中,通常会给定一个问题q和一个支持文档集T′。特别地,问题q以元组(Ie,r,?)的形式提供,其中Ie是左实体,而r表示Ie与未知右实体也就是答案之间的关系。另外,还存在一个包含正确答案的候选集
Figure BDA0002618395660000061
任务的目标是从C′中预测未知的右实体。
在接下来的内容中,阐述了本发明提出的模型的细节,该模型首先执行句子分割和语义编码,然后根据编码的语义进行推断以构建多跳链,最后通过挖掘多跳推理链的信息以对候选进行排序从而找到答案。
如图1所示,一种面向机器阅读理解的答案推荐方法,包括以下步骤:
步骤1,接受问题q和支持文档集T′,问题q以元组(Ie,r,?)的形式提供,其中Ie是左实体,?表示未知右实体,r表示Ie与未知右实体也就是答案之间的关系;
步骤2,进行句子分割和语义编码,包括文本预处理、词编码和句子编码;
步骤3,根据编码的语义进行推断以构建多跳推理链,包括选择节点和建立跳边;
步骤4,通过挖掘多跳推理链的信息以对候选集进行排序从而找到答案,包括推理链信息的集成和答案概率分布的计算;
步骤5,根据答案概率分布结果,从候选集
Figure BDA0002618395660000071
中预测未知右实体即答案。
具体地,步骤2中所述的预处理包括:使用TF-IDF(term frequency–inversedocument frequency)算法来计算问题和每个支持文档之间的余弦相似度并对其进行排名,截取前N个支持文档以获得新的支持文档集
Figure BDA0002618395660000072
词编码的目的是将问题和支持文档表征为可以输入到神经网络的向量。在本实施例中首先过滤文档,以减少干扰文档的数量和模型占用的计算资源。
所述的词编码,将字符嵌入和预训练的Glove词嵌入结合起来作为初始词嵌入,并将它们输入到一层高速路神经网络Highway Network中以获得最终的词表示,使用L′,R′和X′分别表示Ie,r和T的词嵌入,对于语义编码,把L′,R′和X′经过一层带有v个隐藏单元的双向LSTM网络并连接其双向输出,使用
Figure BDA0002618395660000073
Figure BDA0002618395660000074
分别作为Ie,r和T的语义编码,其中QI,Qr,J分别为Ie,r和T的词级长度;每个候选都可以在支持文档集T中找到,在X中取出与c′η相对应的词编码,并在词级别对其求平均,然后获得cη∈Rv作为c′η的语义编码;
句子编码主要是将每个文档分割为多个句子,然后将每个句子都转换为一个向量。
所述的句子编码,包括:首先将文档t切成多个句子,以获得单个句子集
Figure BDA0002618395660000075
其中I是包含在t中的单个句子的数量,K是构成一个句子的单词数量,
Figure BDA0002618395660000076
是在X中相应单词的编码;然后,将文档中所有两个相邻的单个句子级联起来,以获得级联句子集
Figure BDA0002618395660000077
可以定义为:
Figure BDA0002618395660000078
其中||用于表示级联;接下来,联合Do和Db以完成t的句子划分并获得句子集D,也就是:
D=Do∪Db,
其中∪指取并集;对所有支持文档采用相同的操作,并获得T的词级句子编码S,即:
S=D1∪D2∪...∪DN={s1,...,sI′},
其中I′是T的单个句子和级联句子的总数,然后应用自我注意机制来实现句子的向量表示,并获得T的句子级编码E,用来将句子si转换成向量
Figure BDA0002618395660000081
的公式如下,K为句子的长度:
aik=tanh(W2tanh(W1sik+b1)+b2)
Figure BDA0002618395660000082
Figure BDA0002618395660000083
其中W1和W2为权重,b1和b2为偏移。
在本实施例中,使用一个分层记忆网络来构建基于句子的推理链。
具体地,步骤3中,使用分层记忆网络模型来构建句子的推理链,在选择节点阶段,模型抽取一个与网络记忆状态m最相关的句子作为当前跳的起始节点,在建立跳边阶段,模型更新m以准备跳到下一个节点,将这一阶段看做生成一个连接相邻节点的边;
在选择节点的过程中,在每跳h,模型会计算E中每个句子编码ei和当前网络记忆状态m的双线性相似度,并获得节点选择分布Psent,这个过程可以被描述为:
pi=ei TWPmh
Psent=softmax(p)
其中Wp是可训练的参数矩阵。然后,选择句子si∈S作为当前跳的起始节点,其中i满足:
Psent(i)=max(Psent)
在建立跳边的过程中,选择了h跳的起始节点后,模型会计算mh和si中每个单词sik的双线性相似度并将其归一化以获得权重μ,即:
vk=sik TWmmh,
μ=softmax(v).
其中Wm是可训练的参数矩阵。使用μ来计算si中所有单词的加权平均值
Figure BDA0002618395660000095
然后将其输入到一个GRU单元中以更新mh,这可以描述为:
Figure BDA0002618395660000091
Figure BDA0002618395660000092
之后,将这两个阶段合并为一个循环单元U,即:
(sh+1,mh+1)=U(mh).
U可以通过更新m来连续选择节点,循环UH次,获得一条有H个节点的推理链Schain={s1,s2,...,sH},其中每个句子sh都由U从S中迭代选择,为了减少推理链生成的偶然性,重复句子选择器M次以生成的M条可能的推理链。
模型主要根据句子选择器中获得的H跳推理链预测每个候选作为答案的概率。由于每条链都可能是一个实体到另一个实体的逻辑推理路径,因此模型还将引入问题作为辅助证据,以选择满足问题要求的答案。答案预测器由两部分组成:推理链信息的集成和答案概率分布的计算。
具体地,由于预测答案存在于推理链的最后一跳sH中,步骤4中所述推理链的集成包括:计算sH中每个单词和推理链的前H-1跳以及问题之间的注意力σ,σ被用来计算sH的加权平均
Figure BDA0002618395660000093
公式可以表示为:
Figure BDA0002618395660000094
横向拼接链schain的前H-1个节点以获得sfore,即:
sfore=s1||s2||...||sH-1,
并结合sH中的单词以计算σ,采用具有注意机制的LSTM网络来计算信息向量δk,它集成了sH前k-1个词和sfore的信息,是一个信息高度丰富的向量,公式可被描述为:
Figure BDA0002618395660000101
ck=softmax(ak)
Figure BDA0002618395660000102
Figure BDA0002618395660000103
其中vk是LSTM第k步的隐藏状态,Wa、Wb、b均是可训练的参数。考虑到问题对σ的影响,计算了左实体,关系和δk的α相似度εk,即:
εk=α(δk,I)+α(δk,r)
其中I和r分别是L和R的最后隐状态,而α可以定义为:
Figure BDA0002618395660000106
其中
Figure BDA0002618395660000107
代表逐元素乘法,然后,将整合了schain信息和问题的信息ε可用于计算注意力σ:
σ=softmax(ε)
所述的答案概率分布的计算,是在获得了高度集成的推理链和问题信息的向量x之后,使用x来计算候选ci作为答案的概率分布Panswer,即:
Figure BDA0002618395660000108
Panswer=softmax(θ).
其中Wθ1、Wθ2、bθ1、bθ2均是可训练的参数。为所有推理链计算Panswer,并获得答案概率分布集
Figure BDA0002618395660000104
汇总所有推理链的结果,可以得到候选cη的分数为:
Figure BDA0002618395660000105
具体地,在选择节点阶段,使用左实体作为推理链的起始节点,因此模型的网络记忆状态m用L的最后隐状态进行初始化,并用一个门控循环单元(GRU)对进行更新。
本实施例的实验中使用WikiHop和MedHop数据集来评估本发明方法。WikiHop是一个庞大的多跳MRC数据集,提供约43.8k样本用于训练集,而5.1k样本用于开发集。每个样本平均包含13.7个支持文档,这些文档可以分为大约50个句子,并且文档是从Wikipedia收集的。每个样本的问题包含一个实体和一个关系。算上提供在候选集中的未知答案,它们构成了WikiData知识库的三元组。
MedHop是较小的数据集,由用于训练集的1.6K样本和用于开发集的342个样本组成。它主要关注分子生物学领域,其每个样本包括一个问题,一个文档集和一个候选集,其结构与WikiHop的样本相同。区别在于每个文档集平均包含9.6个支持文档,并且可以分为大约40个句子。
在实验中,使用NLTK按照不同的颗粒度将支持文档集分为词块和句子块,并将候选集和问题分为词块。
使用300维的Glove预训练词嵌入表示初始词块。所有LSTM-RNN的隐藏单元数为100。对于每个可训练层,我们使用dropout概率为0.25。在每个样本中使用TF-IDF算法过滤后,我们选择前10个文档,这些文档平均包含30个单句和20个级联语句。
使用交叉熵损失来衡量模型训练的水平,并使用Adam优化器来训练模型并将学习率设置为0.001。使用四个Nvidia 1080Ti GPU训练20k步。在每个GPU上,批处理大小固定为4,总批处理大小为20。将准确率用作衡量多跳MRC任务的指标。
表1给出了机器阅读理解在WikiHop的验证集和测试集上的结果,并将其与其他的原始论文中报告的结果进行了比较。
表1:WikiHop验证集和测试集的准确率
Figure BDA0002618395660000111
Figure BDA0002618395660000121
可以观察到,在表中所有模型的开发集上,本发明方法达到了68.3的最高准确性。与以前的最佳结果(准确度为67.2)相比,它在验证集上有1.1的准确率提升。值得一提的是,本发明方法没有使用诸如ELMO和Bert之类的预训练语言模型,但这些模型已经被证明可以为MRC模型带来可观的增益。因此,公平地讲,本发明方法的实验结果与使用了预训练语言模型的结果不具有可比性。
表2:MedHop测试集的准确率
模型方法 准确率(%)
Max-mention<sup>*</sup> 9.5
Document-cue<sup>*</sup> 44.9
BiDAF 47.8
Majority-candidate-per-query-type<sup>*</sup> 58.4
EPAr 60.3
SMR(ours) 62.9
表2中还显示了MedHop的结果。在MedHop测试集上的效果有着显着改进。此外,本发明方法的模型更具解释性,因为它生成的句子级推理链符合人类推理的逻辑。
上述实施例为本发明方法的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种面向机器阅读理解的答案推荐方法,其特征在于,包括以下步骤:
步骤1,接受问题q和支持文档集T',问题q以元组(le,r,?)的形式提供,其中le是左实体,?表示未知右实体,r表示le与未知右实体也就是答案之间的关系;
步骤2,进行句子分割和语义编码,包括文本预处理、词编码和句子编码;
步骤3,根据编码的语义进行推断以构建多跳推理链,包括选择节点和建立跳边;
步骤4,通过挖掘多跳推理链的信息以对候选集进行排序,包括推理链信息的集成和答案概率分布的计算;
步骤5,根据答案概率分布结果,从候选集
Figure FDA0003537473230000011
中预测未知右实体即答案;
步骤2中所述的预处理包括:使用TF-IDF算法来计算问题和每个支持文档之间的余弦相似度并对其进行排名,截取前N个支持文档以获得新的支持文档集
Figure FDA0003537473230000012
所述的词编码,将字符嵌入和预训练的Glove词嵌入结合起来作为初始词嵌入,并将它们输入到一层高速路神经网络中以获得最终的词表示,使用L',R'和X'分别表示le,r和T的词嵌入,对于语义编码,把L',R'和X'经过一层带有v个隐藏单元的双向LSTM网络并连接其双向输出,使用
Figure FDA0003537473230000013
分别作为le,r和T的语义编码,其中Ql,Qr,J分别为le,r和T的词级长度;每个候选都在支持文档集T中找到,在X中取出与c'η相对应的词编码,并在词级别对其求平均,然后获得cη∈Rv作为c'η的语义编码;
所述的句子编码,包括:首先将文档t切成多个句子,以获得单个句子集
Figure FDA0003537473230000014
Figure FDA0003537473230000015
其中,I是包含在t中的单个句子的数量,K是构成一个句子的单词数量,
Figure FDA0003537473230000016
是在X中相应单词的编码;然后,将文档中所有两个相邻的单个句子级联起来,以获得级联句子集
Figure FDA0003537473230000021
Figure FDA0003537473230000022
定义为:
Figure FDA0003537473230000023
其中||用于表示级联;接下来,联合Do和Db以完成t的句子划分并获得句子集D,也就是:
D=Do∪Db,
其中∪指取并集;对所有支持文档采用相同的操作,并获得T的词级句子编码S,即:
S=D1∪D2∪…∪DN={s1,…,sI'},
其中I'是T的单个句子和级联句子的总数,然后应用自我注意机制来实现句子的向量表示,并获得T的句子级编码E,用来将句子si转换成向量
Figure FDA0003537473230000024
的公式如下,K为句子的长度:
aik=tanh(W2 tanh(W1sik+b1)+b2)
Figure FDA0003537473230000025
Figure FDA0003537473230000026
其中W1和W2为权重参数,b1和b2为偏移参数;
在步骤3中,使用分层记忆网络模型来构建句子的推理链,在选择节点阶段,模型抽取一个与网络记忆状态m最相关的句子作为当前跳的起始节点,在建立跳边阶段,模型更新m以准备跳到下一个节点,将这一阶段看做生成一个连接相邻节点的边;
在选择节点的过程中,在每跳h,模型会计算E中每个句子编码ei和当前网络记忆状态m的双线性相似度,并获得节点选择分布Psent,然后,选择句子si∈S作为当前跳的起始节点,其中i满足:
Psent(i)=max(Psent)
在建立跳边的过程中,选择了h跳的起始节点后,模型会计算mh和si中每个单词sik的双线性相似度并将其归一化以获得权重μ,使用μ来计算si中所有单词的加权平均值
Figure FDA0003537473230000031
然后将其输入到一个GRU单元中以更新mh,之后,将这两个阶段合并为一个循环单元U,U通过更新m来连续选择节点,循环UH次,获得一条有H个节点的推理链Schain={s1,s2,...,sH},其中每个句子sh都由U从S中迭代选择,为了减少推理链生成的偶然性,重复句子选择器M次以生成的M条可能的推理链。
2.根据权利要求1所述的答案推荐方法,其特征在于,步骤4中所述推理链的集成包括:计算sH中每个单词和推理链的前H-1跳以及问题之间的注意力σ,σ被用来计算sH的加权平均
Figure FDA0003537473230000032
公式表示为:
Figure FDA0003537473230000033
横向拼接链Schain的前H-1个节点以获得sfore,即:
sfore=s1||s2||…||sH-1
并结合sH中的单词以计算σ,采用具有注意机制的LSTM网络来计算信息向量δk,它集成了sH前k-1个词和sfore的信息,是一个信息高度丰富的向量,计算左实体,关系和δk的α相似度εk,即:
εk=α(δk,l)+α(δk,r)
其中l和r分别是L和R的最后隐状态,而α定义为:
Figure FDA0003537473230000035
其中
Figure FDA0003537473230000034
代表逐元素乘法,
Figure FDA0003537473230000037
Figure FDA0003537473230000036
为系数,
Figure FDA0003537473230000038
为偏移量,然后,将整合了Schain信息和问题的信息ε可用于计算注意力σ:
σ=softmax(ε)
所述的答案概率分布的计算,是在获得了高度集成的推理链和问题信息的向量x之后,使用x来计算候选ci作为答案的概率分布Panswer,为所有推理链计算Panswer,并获得答案概率分布集
Figure FDA0003537473230000041
汇总所有推理链的结果,得到候选cη的分数为:
Figure FDA0003537473230000042
3.根据权利要求1或2所述的答案推荐方法,其特征在于,在选择节点阶段,使用左实体作为推理链的起始节点,模型的网络记忆状态m用L的最后隐状态进行初始化,并用一个门控循环单元对进行更新。
CN202010775911.7A 2020-08-05 2020-08-05 一种面向机器阅读理解的答案推荐方法 Active CN111782961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010775911.7A CN111782961B (zh) 2020-08-05 2020-08-05 一种面向机器阅读理解的答案推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010775911.7A CN111782961B (zh) 2020-08-05 2020-08-05 一种面向机器阅读理解的答案推荐方法

Publications (2)

Publication Number Publication Date
CN111782961A CN111782961A (zh) 2020-10-16
CN111782961B true CN111782961B (zh) 2022-04-22

Family

ID=72765342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010775911.7A Active CN111782961B (zh) 2020-08-05 2020-08-05 一种面向机器阅读理解的答案推荐方法

Country Status (1)

Country Link
CN (1) CN111782961B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131370B (zh) * 2020-11-23 2021-03-12 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112417104B (zh) * 2020-12-04 2022-11-11 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法
CN114911894A (zh) * 2021-02-08 2022-08-16 华为技术有限公司 信息检索方法及相关系统、存储介质
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN113239165B (zh) * 2021-05-17 2023-04-18 山东新一代信息产业技术研究院有限公司 基于云化机器人的阅读理解方法、系统及存储介质
CN113420111B (zh) * 2021-06-17 2023-08-11 中国科学院声学研究所 一种用于多跳推理问题的智能问答方法及装置
CN114328883B (zh) * 2022-03-08 2022-06-28 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614473A (zh) * 2018-06-05 2019-04-12 安徽省泰岳祥升软件有限公司 应用于智能交互的知识推理方法及装置
CN111078836A (zh) * 2019-12-10 2020-04-28 中国科学院自动化研究所 基于外部知识增强的机器阅读理解方法、系统、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10182385B2 (en) * 2014-06-09 2019-01-15 Site Pro, LLC Multi-path wireless mesh networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614473A (zh) * 2018-06-05 2019-04-12 安徽省泰岳祥升软件有限公司 应用于智能交互的知识推理方法及装置
CN111078836A (zh) * 2019-12-10 2020-04-28 中国科学院自动化研究所 基于外部知识增强的机器阅读理解方法、系统、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Explore, Propose, and Assemble:An Interpretable Model for Multi-Hop Reading Comprehension;Yichen Jiang等;《Artificial Intelligence》;20190112;全文 *
基于E-Learning的社区监控及个性化推荐系统的实现;王志梅;《计算机系统应用》;20070215;全文 *

Also Published As

Publication number Publication date
CN111782961A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111782961B (zh) 一种面向机器阅读理解的答案推荐方法
CN110377686B (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
Xia et al. Distantly supervised lifelong learning for large-scale social media sentiment analysis
Muhammad et al. SUPERVISED MACHINE LEARNING APPROACHES: A SURVEY.
CN110110080A (zh) 文本分类模型训练方法、装置、计算机设备及存储介质
CN110309195B (zh) 一种基于fwdl模型的内容推荐方法
Wang et al. Cluster-former: Clustering-based sparse transformer for question answering
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN112732888A (zh) 一种基于图推理模型的答案预测方法及装置
Sharma et al. Comparison of neutrosophic approach to various deep learning models for sentiment analysis
CN111986730A (zh) 一种预测siRNA沉默效率的方法
Elayidom et al. A generalized data mining framework for placement chance prediction problems
Soyalp et al. Improving text classification with transformer
Sokkhey et al. Development and optimization of deep belief networks applied for academic performance prediction with larger datasets
Wu et al. An ensemble surrogate-based coevolutionary algorithm for solving large-scale expensive optimization problems
Li et al. Learning policy scheduling for text augmentation
CN117235216A (zh) 一种基于异构知识融合的知识推理方法
Arai et al. Fuzzy genetic algorithm for prioritization determination with technique for order preference by similarity to ideal solution
CN116403231A (zh) 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统
CN116502648A (zh) 一种基于多跳推理的机器阅读理解语义推理方法
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
Siji George Genetic Algorithm Based Hybrid Model Of Convolutional Neural Network And Random Forest Classifier For Sentiment Classification
CN108417204A (zh) 基于大数据的信息安全处理方法
CN108388942A (zh) 基于大数据的信息智能处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant