CN110083682A - 一种基于多轮注意力机制的机器阅读理解答案获取方法 - Google Patents
一种基于多轮注意力机制的机器阅读理解答案获取方法 Download PDFInfo
- Publication number
- CN110083682A CN110083682A CN201910318268.2A CN201910318268A CN110083682A CN 110083682 A CN110083682 A CN 110083682A CN 201910318268 A CN201910318268 A CN 201910318268A CN 110083682 A CN110083682 A CN 110083682A
- Authority
- CN
- China
- Prior art keywords
- text
- semantic vector
- word
- vector
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于多轮注意力机制的机器阅读理解答案获取方法,对所述问题和问题对应的文本分别进行分词处理和向量化处理得到特征向量,选择双向长短时记忆网络对特征向量编码上下文语义信息,使用注意力机制进行问题和文本之间的建模,可以有效地捕捉问题和文本之间的信息交互;通过多轮计算文章关于问题的注意力,并融合上下文语义信息,再使用BLSTM编码上下文语义信息,反复多次得到第n文本语义向量,利用Self‑Attention机制得到问题的一个向量表示,通过计算问题语义向量和自身的相似度,即文章中的每个词在问题空间中的一种表示,可以有效地提高预测答案的准确度,将BLSTM和Attention进行有效的结合,能够提升问题与文本抽取所返回的答案相匹配的精准性。
Description
技术领域
本发明属于电子信息技术领域,具体涉及一种基于多轮注意力机制的机器阅读理解答案获取方法。
背景技术
随着科技与互联网的不断发展以及人工智能时代的到来,数字化信息总量正在呈指数级形式增长,如何理解用户的意图并予以解答是各大互联网公司与研究机构亟待解决的问题。但是,如何在从杂乱无章、海量的数字化信息中,准确快速地找到自己想要的信息资源,最简单直接的办法就是使用例如百度等搜索引擎来去获取想要的答案,随着搜索引擎的发展与进步,这给人们的生活带来了极大的便利。近几年,机器阅读理解任务的研究在国内外获得空前的瞩目,许多著名的研究机构,如斯坦福大学、卡内基梅隆大学、清华大学等,工业界如IBM、Facebook、微软研究院等巨头也纷纷加入到这一任务的研究中来。机器阅读理解技术主要依赖于信息检索技术和自然语言处理技术,它的发展体现了计算机人工智能的快速发展,一直以来都是人类研究的热点。
2015年,Herman发布英文机器阅读理解数据集CNN&Dailymail,它的答案被限定为原文的一个词语。Kadle受到Pointer Network的启发提出ASReader模型,该模型的特点是将原文中每个词的注意力之和作为输出答案的概率,取得了非常好的提升效果。Cui受到ASReader模型的启发提出AoAReader模型,该模型的特点是在注意力的基础上再计算注意力,以此注意力概率分布来确定每个注意力的重要程度。
随后,Rajpurkar发布了英文机器阅读理解数据集SQuAD,它的答案一定是在原文中找到的一段连续文本片段。Wang结合Match-LSTM和Point Network,提出直接预测答案边界要优于直接预测答案。Chen提出DrQA模型,该模型的主要特点是将文档检索与文本的机器阅读理解进行结合,解决大规模机器阅读问题。Wang受到Match的启发提出R-net模型,该模型的主要特点是提出Self-matching来解决循环神经网络长距离依赖问题,该模型对于答案预测的准确度非常高。
综合机器阅读理解的研究现状来说,随着大规模数据集的不断发布,计算机处理数据能力的不断提高,深度学习和神经网络研究的不断深入,机器阅读理解任务已经取得了很大的进展。另一方面,对于不同的数据集,不同的答案类型,没有一个通用的模型可以解决问题,因此这一领域还有很多有意义的工作需要去进行深入研究。
自然语言理解作为一个终极的人工智能目标,极具现实挑战性,而且让机器理解语言的意义也是非常重大的。从学术研究的角度来看,这是学术研究的最前沿,代表着机器在当今时代可能达到的最高智能水平。从工业界的视角来看,对搜索引擎、聊天机器人、私人机器助手等重要产品都有直接的应用创新进展,拥有可产生巨大商业价值的发展空间。得益于各种大规模数据集的发布,研究者们可以训练各种复杂的基于神经网络的机器阅读理解模型。此外,随着attention机制在机器翻译、图像分类等领域取得的巨大成功,该机制同样也被广泛应用在机器阅读理解任务中。
一些早期的机器阅读理解模型大多使用单向的attention机制,并不能很好地获得文档和问题之间的联系。在文档和问题的编码过程中,难免会丢失有效信息。因此在优化短文本答案抽取效果的过程中,这个困难是必须要克服的。
发明内容
本发明的目的在于提供一种基于多轮注意力机制的机器阅读理解答案获取方法,以克服现有技术的不足。
为达到上述目的,本发明采用如下技术方案:
一种基于多轮注意力机制的机器阅读理解答案获取方法,包括以下步骤:
步骤一,获取问题与所述问题对应的文本;
步骤二,对所述问题进行分词处理和向量化处理,选取Embedding特征作为特征向量,得到问题中各个词对应的问题特征向量;
步骤三,对所述文本进行分词处理和向量化处理,选取Embedding、Exact_match、POS、NER和TF五个特征作为特征向量,得到文本中各个词对应的文本特征向量;
步骤四,将所述问题中各个词对应的问题特征向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述问题中融合上下文信息各个词对应的语义向量表示,即问题语义向量;
步骤五,将所述文本中各个词对应的文本特征向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述文本中融合上下文信息各个词对应的语义向量表示,即文本语义向量;
步骤六,通过计算问题语义向量和文本语义向量的相似度,获得问题语义向量和文本语义向量之间的相似度矩阵,所述相似度矩阵表示所述文本中各个词和所述问题中各个词之间的相关程度;对相似度矩阵进行Softmax归一化处理,以获得所述文本中各个词关于问题中各个词的概率分布,即为注意力权重;基于所述文本关于问题的注意力权重和问题语义向量,对问题语义向量进行加权求和,获得融合问题信息的文本的语义向量表示,即增强第一文本语义向量;
步骤七,将所述文本中各个词对应的增强第一文本语义向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述文本中融合上下文信息的各个词对应的语义向量表示,即第一文本语义向量;
步骤八,按照步骤六和步骤七的方法计算问题语义向量和第一文本语义向量的相似度,得到第二文本语义向量,同样按照步骤六和步骤七的方法计算问题语义向量和第二文本语义向量的相似度,得到第三文本语义向量,以此类推得到第n文本语义向量,n为自然数;
步骤九,利用Self-Attention机制得到问题的一个向量表示,通过计算问题语义向量和自身的相似度,获得问题向量;
步骤十,利用线性项计算文本中的各个单词和问题的相似性,即计算第n文本语义向量和问题向量,获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题对应的答案。
进一步的,Embedding选用网站爬取数据的维度为300的Glove词向量;Exact_match采用二元特征来表明文本中的单词是否可以匹配问题q中的任何一个单词,无论是原始、小写或者词条形式,如果匹配上该值为1,否则为0。
进一步的,NER包括实体类、时间类和数字类。
进一步的,NER包括人名、机构名、地名、日期、时间、货币和百分比。
进一步的,将所述文本中对应的文本特征向量序列{P1,...,Pm}作为双向长短期记忆网络模型的输入,获得所述文本中融合上下文信息对应的语义向量序列表示{h1,...,hm},即文本语义向量;具体计算过程见如下公式:
{h1,...,hm}=BiLSTM({P1,...,Pm})。
进一步的,将所述问题中各个词对应的问题特征向量序列{qi,...,ql}作为双向长短期记忆网络模型的输入,获得所述问题中融合上下文信息对应的语义向量序列表示{q1,...,ql},即问题语义向量;具体计算过程见如下公式:
{q1,...,ql}=BiLSTM({q1,...,ql})。
进一步的,利用Self-Attention得到问题的一个向量表示q;通过计算问题语义向量和自身的相似度,获得问题语义向量q,即{q1,...,ql}→q,具体计算过程见如下公式:
q=∑jbjqj
其中bj表示第j个问题词的重要程度,W表示一个需要学习的权重向量。
进一步的,获取增强第一文本语义向量,具体计算过程见如下公式:
si=∑jaijqj
其中aij表示节点i关于节点j的注意力概率权重,即文本中第i个词关于问题中第j个词的注意力权重;hi表示文本中融合上下文信息各个词对应的语义向量,即文本语义向量;qj表示问题中融合上下文信息各个词对应的语义向量,即问题语义向量;si表示融合问题信息的文本的语义向量,即增强第一文本语义向量。
进一步的,将所述文本中各个词对应的增强第一语义向量si作为双向长短期记忆网络模型的输入,获得所述文本中融合上下文信息的各个词对应的语义向量表示Pi,即第一文本语义向量;具体计算过程见如下公式,
{Pi,...,Pm}=BiLSTM({s1,...,sm})。
进一步的,获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率,具体计算公式如下:
Pstart(i)∝exp(PiWsq)
Pend(i)∝exp(PiWeq)
在整个答案预测的过程中,限制答案的跨度不多于15个单词,并使得将起始位置和结束位置的联合分布概率最大,具体计算公式如下:
Pstart(i)×Pend(i)
i≤i′≤i+15
由此可以确定答案的开始和结束位置,直接抽取中间跨度部分作为问题的答案。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于多轮注意力机制的机器阅读理解答案获取方法,对所述问题和问题对应的文本分别进行分词处理和向量化处理得到特征向量,选择双向长短时记忆网络对特征向量编码上下文语义信息,使用注意力机制进行问题和文本之间的建模,可以有效地捕捉问题和文本之间的信息交互;通过多轮计算文章关于问题的注意力,并融合上下文语义信息,再使用BLSTM编码上下文语义信息,反复多次得到第n文本语义向量,利用Self-Attention机制得到问题的一个向量表示,通过计算问题语义向量和自身的相似度,即文章中的每个词在问题空间中的一种表示,可以有效地提高预测答案的准确度,将BLSTM和Attention进行有效的结合,提出了Attention_Bassed LSTM阅读理解模型,能够提升问题与文本抽取所返回的答案相匹配的精准性。
进一步的,综合利用双向长短时记忆网络和多次注意力计算,这样有利于问题与文章内容的多次信息交互,可以不断去锁定答案的位置,提高答案的准确度,通过快速扫描文本和问题,获得需要重点关注的目标区域,也就是所说的注意力焦点,然后对这一区域投入更多的注意力资源,以获取更多所需要关注目标的细节信息,从而抑制其它无用信息。
附图说明
图1为本发明阅读理解模型算法。
图2为本发明阅读理解模型框架图。
图3为本发明所述系统用于抽取SQuAD数据集短文本答案的示例。
具体实施方式
下面结合附图对本发明做进一步详细描述:
一种基于多轮注意力机制的机器阅读理解方法,包括如下步骤,
步骤一,获取问题与所述问题对应的文本;
步骤二,对所述问题进行分词处理和向量化处理,选取Embedding特征作为特征向量,得到问题中各个词对应的问题特征向量;
步骤三,对所述文本进行分词处理和向量化处理,选取Embedding、Exact_match、POS、NER和TF五个特征作为特征向量,得到文本中各个词对应的文本特征向量;
步骤四,将所述问题中各个词对应的问题特征向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述问题中融合上下文信息各个词对应的语义向量表示,即问题语义向量;
步骤五,将所述文本中各个词对应的文本特征向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述文本中融合上下文信息各个词对应的语义向量表示,即文本语义向量;
步骤六,通过计算问题语义向量和文本语义向量的相似度,获得问题语义向量和文本语义向量之间的相似度矩阵,其中,所述相似度矩阵表示所述文本中各个词和所述问题中各个词之间的相关程度;对相似度矩阵进行Softmax归一化处理,以获得所述文本中各个词关于问题中各个词的概率分布,即为注意力权重;基于所述文本关于问题的注意力权重和所述问题语义向量表示(问题语义向量),对问题语义向量进行加权求和,获得融合问题信息的文本的语义向量表示,即增强第一文本语义向量;
步骤七,将所述文本中各个词对应的增强第一语义向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述文本中融合上下文信息的各个词对应的语义向量表示,即第一文本语义向量;
步骤八,按照步骤六和步骤七的方法计算问题语义向量和第一文本语义向量的相似度,得到第二文本语义向量,同样按照步骤六和步骤七的方法计算问题语义向量和第二文本语义向量的相似度,得到第三文本语义向量,以此类推得到第n文本语义向量,n为自然数;此步骤的主要思想是类比到人类真实阅读理解的情形“多次带着问题去阅读文章”,再去计算多轮文本关于问题的注意力,并融合上下文语义信息,得到第n文本语义向量;
在本发明中,n取值3,得到的第三文本语义向量与第二文本语义向量相差值很小;
步骤九,利用Self-Attention得到问题的一个向量表示;通过计算第一问题语义向量和自身的相似度,获得问题语义向量;
步骤十,利用线性项计算文本中的各个单词和问题的相似性,即计算第三文本语义向量和问题语义向量,获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题对应的答案。
下面结合附图对本发明的结构原理和使用步骤作进一步说明:
图3图示了斯坦福公开阅读理解数据集(Stanford Question AnsweringDataset,SQuAD)数据集的一个示例,所述用于机器阅读理解的系统用于对该短文本答案进行抽取。如图3所述,所述短文本数据为文章部分所呈现的内容,所述问题数据为“Who wasTesla influenced by while in school?”,答案为“Martin Sekulic”,此答案为文章的某一连续片段。
本模型的设计主要考虑以下三个方面:一方面,双向长短时记忆网络(BiLSTM)能更完整地对句子的深层语义进行编码,既包含了句首的语义信息,也保留了句尾的语义信息,因此能更好地表征句子的深层含义。另一方面,通过计算注意力概率分布,可以突出重要的输入元素对于输出的影响程度,特别是在Encoder-Decoder模型中,通过回顾整个输入序列元素,输出态序列不仅取决于解码机器最终的状态单元,还取决于所有输入状态的加权组合,这对传统模型有着很好的效果提升。此外,借鉴人类真实阅读理解情形,“带着问题多次阅读文章”,在模型应用中即为多次计算文章关于问题的注意力概率分布。
通过以上的分析,设计了Attention-Based LSTM阅读理解模型,模型的框图如图2所示。由图可以看出,模型的优势是综合利用双向长短时记忆网络(BLSTM)和多次注意力计算,这样有利于问题与文章内容的多次信息交互,可以不断去锁定答案的位置,提高答案的准确度。
问题q有l个单词符号组成{q1,...,ql},文本p有m个单词符号组成{p1,...,pm}。将问题q和文本p应用于Attention-Based BiLSTM阅读理解模型,最后预测答案的开始和结束位置,中间的连续片段即为答案。
Attention-Based LSTM阅读理解模型包括四大部分,分别为文本编码,问题编码,多轮注意力以及答案预测,各部分具体内容如下。
1.文本编码
对所述文本进行分词处理和向量化处理,选取Embedding、Exact_match、POS、NER、TF五个特征作为特征向量,得到文本中各个词对应的文本特征向量Pi;其中,
1)词向量(Embedding)
本发明选择由网站爬取数据的维度为300的Glove词向量。
2)匹配度(Exact_match)
本发明使用简单的二元特征,来表明文本中的单词pi是否可以匹配问题q中的任何一个单词,无论是原始、小写或者词条形式,如果匹配上该值为1,否则为0。
3)词性标注(POS)
是指根据语句的上下文信息,确定它们的词性(parts-of-speech,POS)分类以及相应的标注它们的过程,它具有以下特点:分布特征,单词能够出现在相似的环境中,有相似的功能;形态特征,单词有相同的前缀后缀,在句法结构中有相似的上下文环境;词性无关含义,也无关语法(可以是主语、宾语等等)。
4)命名实体识别(NER)
是指识别文本中具有特定意义的实体,也被称为专名。命名实体识别主要是判断句子中是否含有命名实体。常见的命名实体主要为三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、日期、时间、货币和百分比)命名实体。
5)词频(TF)
主要是指某一个给定的词语在该文件中出现的频率,这对于待处理文本来说是一个很好的特征,可以有效地计算词语的区分能力。
将所述文本中对应的文本特征向量序列{P1,...,Pm}作为双向长短期记忆网络模型的输入,获得所述文本中融合上下文信息对应的语义向量序列表示{h1,...,hm},即文本语义向量;具体计算过程见如下公式:
{h1,...,hm}=BiLSTM({P1,...,Pm})
2.问题编码
对所述问题进行分词处理和向量化处理,选取Embedding特征作为特征向量,得到问题中各个词对应的问题特征向量qi;
将所述问题中各个词对应的问题特征向量序列{qi,...,ql}作为双向长短期记忆网络模型的输入,获得所述问题中融合上下文信息对应的语义向量序列表示{q1,...,ql},即问题语义向量;具体计算过程见如下公式:
{q1,...,ql}=BiLSTM({q1,...,ql})
利用Self-Attention得到问题的一个向量表示q;通过计算问题语义向量和自身的相似度,获得问题语义向量q,即{q1,...,ql}→q,具体计算过程见如下公式:
q=∑jbjqj
其中bj表示第j个问题词的重要程度,W表示一个需要学习的权重向量。
3.多轮注意力
此步骤的主要思想是类比人类真实阅读理解的情形,“多次带着问题去阅读文章”,计算文本关于问题的注意力。通过计算问题语义向量和文本语义向量的相似度,获得问题和文本语义向量表示之间的相似度矩阵,其中,所述相似度矩阵表示所述文本中各个词和所述问题中各个词之间的相关程度;对相似度矩阵进行Softmax归一化处理,以获得所述文本中各个词关于问题中各个词的概率分布,即为注意力权重;基于所述文本关于问题的注意力权重aij和所述问题语义向量表示qj(问题语义向量),对问题语义向量进行加权求和,获得融合问题信息的文本的语义向量表示si,即增强第一文本语义向量;具体计算过程见如下公式:
si=∑jaijqj
其中aij表示节点i关于节点j的注意力概率权重,即文本中第i个词关于问题中第j个词的注意力权重;hi表示文本中融合上下文信息各个词对应的语义向量,即文本语义向量;qj表示问题中融合上下文信息各个词对应的语义向量,即问题语义向量;si表示融合问题信息的文本的语义向量,即增强第一文本语义向量,主要是通过注意力概率权重与问题语义向量乘积的累加得到的,突出关键词的语义信息;
将所述文本中各个词对应的增强第一语义向量si作为双向长短期记忆网络模型的输入,获得所述文本中融合上下文信息的各个词对应的语义向量表示Pi,即第一文本语义向量;具体计算过程见如下公式,
{Pi,...,Pm}=BiLSTM({s1,...,sm})
考虑到人类真实阅读理解的真实情景,“多次带着问题去阅读文章”,所以类比这种思想,按照步骤六和步骤七的方法计算问题语义向量和第一文本语义向量的相似度,得到第二文本语义向量,同样按照步骤六和步骤七的方法计算问题语义向量和第二文本语义向量的相似度,得到第三文本语义向量,以此类推得到第n文本语义向量,n为自然数;此步骤的主要思想是类比到人类真实阅读理解的情形“多次带着问题去阅读文章”,计算多轮文本关于问题的注意力,并融合上下文语义信息,得到文本第n语义向量,在本发明中,n取值3,得到的第三文本语义向量与第二文本语义向量相差值很小,这样可以得到文章关于问题的一个更好的表示,即文章中的每个词在问题空间中的一种表示,可以有效地提高预测答案的准确度。
4.答案预测
在段落级别,目标是预测正确答案的范围,即确定答案的开始和结束的位置,抽取中间的跨度部分即为正确答案。本发明利用线性项计算文本中的各个单词和问题的相似性,即第三文本语义向量P和问题语义向量q,获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率,具体计算公式如下:
Pstart(i)∝exp(PiWsq)
Pend(i)∝exp(PiWeq)
在整个答案预测的过程中,限制答案的跨度不多于15个单词,并使得将起始位置和结束位置的联合分布概率最大,具体计算公式如下:
Pstart(i)×Pend(i)
i≤i′≤i+15
由此可以确定答案的开始和结束位置,直接抽取中间跨度部分作为问题的答案。
Claims (10)
1.一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,包括以下步骤:
步骤一,获取问题与所述问题对应的文本;
步骤二,对所述问题进行分词处理和向量化处理,选取Embedding特征作为特征向量,得到问题中各个词对应的问题特征向量;
步骤三,对所述文本进行分词处理和向量化处理,选取Embedding、Exact_match、POS、NER和TF五个特征作为特征向量,得到文本中各个词对应的文本特征向量;
步骤四,将所述问题中各个词对应的问题特征向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述问题中融合上下文信息各个词对应的语义向量表示,即问题语义向量;
步骤五,将所述文本中各个词对应的文本特征向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述文本中融合上下文信息各个词对应的语义向量表示,即文本语义向量;
步骤六,通过计算问题语义向量和文本语义向量的相似度,获得问题语义向量和文本语义向量之间的相似度矩阵,所述相似度矩阵表示所述文本中各个词和所述问题中各个词之间的相关程度;对相似度矩阵进行Softmax归一化处理,以获得所述文本中各个词关于问题中各个词的概率分布,即为注意力权重;基于所述文本关于问题的注意力权重和问题语义向量,对问题语义向量进行加权求和,获得融合问题信息的文本的语义向量表示,即增强第一文本语义向量;
步骤七,将所述文本中各个词对应的增强第一文本语义向量作为双向长短期记忆网络模型的输入,通过双向长短期记忆网络模型获得所述文本中融合上下文信息的各个词对应的语义向量表示,即第一文本语义向量;
步骤八,按照步骤六和步骤七的方法计算问题语义向量和第一文本语义向量的相似度,得到第二文本语义向量,同样按照步骤六和步骤七的方法计算问题语义向量和第二文本语义向量的相似度,得到第三文本语义向量,以此类推得到第n文本语义向量,n为自然数;
步骤九,利用Self-Attention机制得到问题的一个向量表示,通过计算问题语义向量和自身的相似度,获得问题向量;
步骤十,利用线性项计算文本中的各个单词和问题的相似性,即计算第n文本语义向量和问题向量,获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率,以将起始位置和结束位置的联合分布概率最大的文本片段确定为所述问题对应的答案。
2.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,Embedding选用网站爬取数据的维度为300的Glove词向量;Exact_match采用二元特征来表明文本中的单词是否可以匹配问题q中的任何一个单词,无论是原始、小写或者词条形式,如果匹配上该值为1,否则为0。
3.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,NER包括实体类、时间类和数字类。
4.根据权利要求3所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,NER包括人名、机构名、地名、日期、时间、货币和百分比。
5.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,将所述文本中对应的文本特征向量序列{P1,...,Pm}作为双向长短期记忆网络模型的输入,获得所述文本中融合上下文信息对应的语义向量序列表示{h1,...,hm},即文本语义向量;具体计算过程见如下公式:
{h1,...,hm}=BiLSTM({P1,...,Pm})。
6.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,将所述问题中各个词对应的问题特征向量序列{qi,...,ql}作为双向长短期记忆网络模型的输入,获得所述问题中融合上下文信息对应的语义向量序列表示{q1,...,ql},即问题语义向量;具体计算过程见如下公式:
{q1,...,ql}=BiLSTM({q1,...,ql})。
7.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,利用Self-Attention得到问题的一个向量表示q;通过计算问题语义向量和自身的相似度,获得问题语义向量q,即{q1,...,ql}→q,具体计算过程见如下公式:
q=∑jbjqj
其中bj表示第j个问题词的重要程度,W表示一个需要学习的权重向量。
8.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,获取增强第一文本语义向量,具体计算过程见如下公式:
si=∑jaijqj
其中aij表示节点i关于节点j的注意力概率权重,即文本中第i个词关于问题中第j个词的注意力权重;hi表示文本中融合上下文信息各个词对应的语义向量,即文本语义向量;qj表示问题中融合上下文信息各个词对应的语义向量,即问题语义向量;si表示融合问题信息的文本的语义向量,即增强第一文本语义向量。
9.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,将所述文本中各个词对应的增强第一语义向量si作为双向长短期记忆网络模型的输入,获得所述文本中融合上下文信息的各个词对应的语义向量表示Pi,即第一文本语义向量;具体计算过程见如下公式,
{Pi,...,Pm}=BiLSTM({s1,...,sm})。
10.根据权利要求1所述的一种基于多轮注意力机制的机器阅读理解答案获取方法,其特征在于,获得所述文本中各个单词为所述问题对应答案的起始位置和结束位置的概率,具体计算公式如下:
Pstart(i)∝exp(PiWsq)
Pend(i)∝exp(PiWeq)
在整个答案预测的过程中,限制答案的跨度不多于15个单词,并使得将起始位置和结束位置的联合分布概率最大,具体计算公式如下:
Pstart(i)×Pend(i)
i≤i’≤i+15
由此可以确定答案的开始和结束位置,直接抽取中间跨度部分作为问题的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910318268.2A CN110083682B (zh) | 2019-04-19 | 2019-04-19 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910318268.2A CN110083682B (zh) | 2019-04-19 | 2019-04-19 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083682A true CN110083682A (zh) | 2019-08-02 |
CN110083682B CN110083682B (zh) | 2021-05-28 |
Family
ID=67415564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910318268.2A Active CN110083682B (zh) | 2019-04-19 | 2019-04-19 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083682B (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110597975A (zh) * | 2019-10-18 | 2019-12-20 | 淄博矿业集团有限责任公司 | 基于Self-Attention机制的煤矿物资管理对话方法、系统及其一体机 |
CN110633472A (zh) * | 2019-09-19 | 2019-12-31 | 电子科技大学 | 一种基于注意力与聚合机制的文章与问题的融合方法 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN110795535A (zh) * | 2019-10-28 | 2020-02-14 | 桂林电子科技大学 | 一种深度可分离卷积残差块的阅读理解方法 |
CN110826336A (zh) * | 2019-09-18 | 2020-02-21 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111104492A (zh) * | 2019-09-19 | 2020-05-05 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN111143507A (zh) * | 2019-12-05 | 2020-05-12 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111274995A (zh) * | 2020-02-13 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、设备和计算机可读存储介质 |
CN111291188A (zh) * | 2020-02-20 | 2020-06-16 | 阿基米德(上海)传媒有限公司 | 一种智能信息抽取方法及系统 |
CN111666375A (zh) * | 2020-05-20 | 2020-09-15 | 上海携旅信息技术有限公司 | 文本相似度的匹配方法、电子设备和计算机可读介质 |
CN111680264A (zh) * | 2020-04-20 | 2020-09-18 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN111858879A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN112632216A (zh) * | 2020-12-10 | 2021-04-09 | 深圳得理科技有限公司 | 一种基于深度学习的长文本检索系统及方法 |
CN112685543A (zh) * | 2019-10-18 | 2021-04-20 | 普天信息技术有限公司 | 一种基于文本回答问题的方法及装置 |
CN112784018A (zh) * | 2021-01-28 | 2021-05-11 | 新华智云科技有限公司 | 一种用于人物实体库的文本相似度实体消歧方法和系统 |
CN112966474A (zh) * | 2021-02-20 | 2021-06-15 | 中央民族大学 | 一种基于多级注意力机制的藏文机器阅读理解方法 |
CN112966499A (zh) * | 2021-03-17 | 2021-06-15 | 中山大学 | 一种基于自适应融合多注意力网络的问题和答案匹配方法 |
CN113010662A (zh) * | 2021-04-23 | 2021-06-22 | 中国科学院深圳先进技术研究院 | 一种层次化会话式机器阅读理解系统和方法 |
CN113032572A (zh) * | 2021-04-22 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 基于文本匹配模型的文本分类方法、装置及相关设备 |
WO2021143021A1 (zh) * | 2020-01-14 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于大数据的答案位置获取方法、装置、设备及介质 |
CN113239165A (zh) * | 2021-05-17 | 2021-08-10 | 山东新一代信息产业技术研究院有限公司 | 基于云化机器人的阅读理解方法、系统及存储介质 |
CN113254575A (zh) * | 2021-04-23 | 2021-08-13 | 中国科学院信息工程研究所 | 一种基于多步证据推理的机器阅读理解方法与系统 |
CN113254581A (zh) * | 2021-05-25 | 2021-08-13 | 深圳市图灵机器人有限公司 | 一种基于神经语义解析的金融文本公式抽取方法及装置 |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN113486659A (zh) * | 2021-05-25 | 2021-10-08 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及存储介质 |
CN113535144A (zh) * | 2021-06-15 | 2021-10-22 | 北京彩彻区明科技有限公司 | 自然语言编程方法、装置、设备及存储介质 |
CN116932723A (zh) * | 2023-07-28 | 2023-10-24 | 世优(北京)科技有限公司 | 基于自然语言处理的人机交互系统及其方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
-
2019
- 2019-04-19 CN CN201910318268.2A patent/CN110083682B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
Non-Patent Citations (1)
Title |
---|
顾健伟等: "基于双向注意力流和自注意力结合的机器阅读理解", 《南京大学学报(自然科学)》 * |
Cited By (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110826336A (zh) * | 2019-09-18 | 2020-02-21 | 华南师范大学 | 一种情感分类方法、系统、存储介质及设备 |
CN111104492A (zh) * | 2019-09-19 | 2020-05-05 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN110633472B (zh) * | 2019-09-19 | 2021-03-12 | 电子科技大学 | 一种基于注意力与聚合机制的文章与问题的融合方法 |
CN110633472A (zh) * | 2019-09-19 | 2019-12-31 | 电子科技大学 | 一种基于注意力与聚合机制的文章与问题的融合方法 |
CN111104492B (zh) * | 2019-09-19 | 2023-12-19 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN110688491B (zh) * | 2019-09-25 | 2022-05-10 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN112685543A (zh) * | 2019-10-18 | 2021-04-20 | 普天信息技术有限公司 | 一种基于文本回答问题的方法及装置 |
CN112685543B (zh) * | 2019-10-18 | 2024-01-26 | 普天信息技术有限公司 | 一种基于文本回答问题的方法及装置 |
CN110597975A (zh) * | 2019-10-18 | 2019-12-20 | 淄博矿业集团有限责任公司 | 基于Self-Attention机制的煤矿物资管理对话方法、系统及其一体机 |
CN110795535A (zh) * | 2019-10-28 | 2020-02-14 | 桂林电子科技大学 | 一种深度可分离卷积残差块的阅读理解方法 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN110929515B (zh) * | 2019-11-21 | 2023-04-18 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111143507A (zh) * | 2019-12-05 | 2020-05-12 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN111143507B (zh) * | 2019-12-05 | 2023-05-02 | 重庆兆光科技股份有限公司 | 一种基于复合式问题的阅读理解方法 |
CN111159340B (zh) * | 2019-12-24 | 2023-11-03 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
WO2021143021A1 (zh) * | 2020-01-14 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于大数据的答案位置获取方法、装置、设备及介质 |
CN111274995B (zh) * | 2020-02-13 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、设备和计算机可读存储介质 |
CN111274995A (zh) * | 2020-02-13 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、设备和计算机可读存储介质 |
CN111291188B (zh) * | 2020-02-20 | 2023-06-23 | 阿基米德(上海)传媒有限公司 | 一种智能信息抽取方法及系统 |
CN111291188A (zh) * | 2020-02-20 | 2020-06-16 | 阿基米德(上海)传媒有限公司 | 一种智能信息抽取方法及系统 |
CN111680264B (zh) * | 2020-04-20 | 2023-12-22 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN111680264A (zh) * | 2020-04-20 | 2020-09-18 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN111666375B (zh) * | 2020-05-20 | 2023-07-04 | 上海携旅信息技术有限公司 | 文本相似度的匹配方法、电子设备和计算机可读介质 |
CN111666375A (zh) * | 2020-05-20 | 2020-09-15 | 上海携旅信息技术有限公司 | 文本相似度的匹配方法、电子设备和计算机可读介质 |
CN111858879A (zh) * | 2020-06-18 | 2020-10-30 | 达而观信息科技(上海)有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN111858879B (zh) * | 2020-06-18 | 2024-04-05 | 达观数据有限公司 | 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备 |
CN111783903B (zh) * | 2020-08-05 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112632216A (zh) * | 2020-12-10 | 2021-04-09 | 深圳得理科技有限公司 | 一种基于深度学习的长文本检索系统及方法 |
CN112784018A (zh) * | 2021-01-28 | 2021-05-11 | 新华智云科技有限公司 | 一种用于人物实体库的文本相似度实体消歧方法和系统 |
CN112966474A (zh) * | 2021-02-20 | 2021-06-15 | 中央民族大学 | 一种基于多级注意力机制的藏文机器阅读理解方法 |
CN112966499A (zh) * | 2021-03-17 | 2021-06-15 | 中山大学 | 一种基于自适应融合多注意力网络的问题和答案匹配方法 |
CN113032572A (zh) * | 2021-04-22 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 基于文本匹配模型的文本分类方法、装置及相关设备 |
CN113032572B (zh) * | 2021-04-22 | 2023-09-05 | 中国平安人寿保险股份有限公司 | 基于文本匹配模型的文本分类方法、装置及相关设备 |
CN113254575A (zh) * | 2021-04-23 | 2021-08-13 | 中国科学院信息工程研究所 | 一种基于多步证据推理的机器阅读理解方法与系统 |
CN113010662B (zh) * | 2021-04-23 | 2022-09-27 | 中国科学院深圳先进技术研究院 | 一种层次化会话式机器阅读理解系统和方法 |
CN113254575B (zh) * | 2021-04-23 | 2022-07-22 | 中国科学院信息工程研究所 | 一种基于多步证据推理的机器阅读理解方法与系统 |
CN113010662A (zh) * | 2021-04-23 | 2021-06-22 | 中国科学院深圳先进技术研究院 | 一种层次化会话式机器阅读理解系统和方法 |
CN113239165A (zh) * | 2021-05-17 | 2021-08-10 | 山东新一代信息产业技术研究院有限公司 | 基于云化机器人的阅读理解方法、系统及存储介质 |
CN113486659A (zh) * | 2021-05-25 | 2021-10-08 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及存储介质 |
CN113254581A (zh) * | 2021-05-25 | 2021-08-13 | 深圳市图灵机器人有限公司 | 一种基于神经语义解析的金融文本公式抽取方法及装置 |
CN113486659B (zh) * | 2021-05-25 | 2024-03-15 | 平安科技(深圳)有限公司 | 文本匹配方法、装置、计算机设备及存储介质 |
CN113535144A (zh) * | 2021-06-15 | 2021-10-22 | 北京彩彻区明科技有限公司 | 自然语言编程方法、装置、设备及存储介质 |
CN113312912B (zh) * | 2021-06-25 | 2023-03-31 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN116932723A (zh) * | 2023-07-28 | 2023-10-24 | 世优(北京)科技有限公司 | 基于自然语言处理的人机交互系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110083682B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083682A (zh) | 一种基于多轮注意力机制的机器阅读理解答案获取方法 | |
CN112487820B (zh) | 一种中文医疗命名实体识别方法 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN111581401A (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN111753088A (zh) | 一种自然语言信息的处理方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
Yang et al. | Bidirectional LSTM-CRF for biomedical named entity recognition | |
CN112784602A (zh) | 基于远程监督的新闻情感实体抽取方法 | |
Liu et al. | Improved Chinese sentence semantic similarity calculation method based on multi-feature fusion | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
Shao et al. | Domain-specific Chinese word segmentation based on bi-directional long-short term memory model | |
Wu et al. | One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction | |
Dandwate et al. | Comparative study of Transformer and LSTM Network with attention mechanism on Image Captioning | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
Xin et al. | Automatic annotation of text classification data set in specific field using named entity recognition | |
CN114722818A (zh) | 一种基于对抗迁移学习的命名实体识别模型 | |
Yulin et al. | High school math text similarity studies based on CNN and BiLSTM | |
Wen et al. | Few-shot named entity recognition with joint token and sentence awareness | |
Hu | Survey on Neural Networks in Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |