CN110619123A - 一种机器阅读理解方法 - Google Patents
一种机器阅读理解方法 Download PDFInfo
- Publication number
- CN110619123A CN110619123A CN201910887852.XA CN201910887852A CN110619123A CN 110619123 A CN110619123 A CN 110619123A CN 201910887852 A CN201910887852 A CN 201910887852A CN 110619123 A CN110619123 A CN 110619123A
- Authority
- CN
- China
- Prior art keywords
- vector
- article
- attention model
- obtaining
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种机器阅读理解方法,其包括以下步骤:S1、得到问题和文章的字符级表示向量;S2、得到编码后的问题向量和文章向量;S3、得到双向注意力模型的输出P1和共同注意力模型的输出P2;S4、得到聚合后的向量P3;S5、得到文本编码向量P4;S6、获取文章内部单词之间的全局交互信息;S7、获取使用自注意力模型后的文本向量P5;S8、根据P4和P5得到聚合后的数据P6;S9、根据P6和P得到文章的上下文语境向量;S10、根据文章的上下文语境向量和编码后的问题向量预测答案位置,完成机器阅读理解。本发明可快速进行文章阅读理解,并从文章中给出问题的答案。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种机器阅读理解方法。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
机器阅读理解是认知环节的关键能力之一,机器阅读理解的发展可推进人工智能的发展。
发明内容
针对现有技术中的上述不足,本发明提供的一种机器阅读理解方法可快速进行文章阅读理解,并从文章中给出问题的答案。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种机器阅读理解方法,其包括以下步骤:
S1、分别对问题和文章进行编码,分别得到问题和文章的字符级表示向量;
S2、将问题和文章的字符级表示向量进行编码,分别得到编码后的问题向量和文章向量;
S3、将编码后的文章向量输入双向注意力模型,将编码后的问题向量输入共同注意力模型,分别得到双向注意力模型的输出P1和共同注意力模型的输出P2;
S4、根据聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;
S5、将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;
S6、基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息;
S7、根据全局交互信息和文本编码向量P4获取使用自注意力模型后的文本向量P5;
S8、根据聚合函数将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;
S9、将聚合后的数据P6与编码前的文字向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出作为文章的上下文语境向量;
S10、根据文章的上下文语境向量和编码后的问题向量分别预测文本中每一个位置是起始索引和结束索引的概率,将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解。
进一步地,步骤S1的具体方法包括以下子步骤:
S1-1、将问题和文章中的每一个单词m表示为一个字符序列(c1,...,c|m|),并将词表中的每一个单词表示为dc维的向量;
S1-2、将每一个单词序列应用一个大小为的卷积核,采用公式
fi=tanh(wTci:i+w-1+b)
获取特征向量fi;其中tanh(·)为双曲正切函数;ci:i+w-1为字符序列段;b为偏差参数;(·)T为矩阵的转置;为数域;
S1-3、对所有的特征向量进行最大池化操作,分别得到问题和文章的字符级表示向量。
进一步地,步骤S2的具体方法包括以下子步骤:
S2-1、根据公式
Q'=softmax(Si:)·Q
S=softmax(Q'T W1Q')
Q”=S·Q'
QR=bjQagg
获取编码后的问题向量QR;其中P为文章的字符级表示向量;Q为问题的字符级表示向量;[;]表示将向量按行进行拼接操作;表示P与Q进行点积运算;Ws为学习参数;(·)T为矩阵的转置;Si:、Q'、S、Q”、Qagg和bj均为中间参数;softmax(·)为softmax函数;tanh(·)为双曲正切函数;bf为学习参数;W1为权重;Wf为学习参数;exp(·)为以自然常数e为底的指数函数;表示单一向量元素对应的中间参数;j'为第j'个向量元素;
S2-2、根据公式
αij∝exp(Sij')
得到文章P的输入向量其中为文章P的文章序列;fastText(·)表示由fastText得到的词向量;Sij'、αij、和ui'P均为中间参数;为问题Q的字符向量;exp(·)为以自然常数e为底的指数函数;为问题Q的字符向量;ReLU(·)为激活函数;U和D均为权重;[;]表示将向量按行进行拼接操作;为文章P的文章序列;为文章P的字符向量;Glove(·)表示由Glove得到的词向量;BERT(·)表示将transformer网络的隐藏层输出的特征向量;
S2-3、将输入向量作为双向循环神经网络的输入,得到编码后的文章向量。
进一步地,步骤S4的具体方法为:
根据公式
使用聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P1与P2进行点积运算。
进一步地,步骤S5的具体方法为:
根据公式
将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P与P3进行点积运算。
进一步地,步骤S6的具体方法为:
根据公式
Sij=softmax(P4·W1·(P4)T)
基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息Sij;其中softmax(·)为归一化指数函数;W1为权重;(·)T为矩阵的转置。
进一步地,步骤S7的具体方法为:
根据公式
P5=SijP4
获取使用自注意力模型后的文本向量P5;其中Sij为全局交互信息。
进一步地,步骤S8的具体方法为:
根据公式
将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P5与P4进行点积运算。
进一步地,步骤S9的具体方法为:
根据公式
R=BiGRU([P;P6])
将聚合后的数据P6与编码前的文字向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出R作为文章的上下文语境向量;其中BiGRU(·)为双向GRU网络;[;]表示将向量按行进行拼接操作。
进一步地,步骤S10的具体方法为:
根据公式
通过两个独立的分类器预测文章中每个单词是开始位置的概率Pstart(i)和结束位置的概率Pend(i),将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解;其中OQ为问题向量;Oi P为文章的上下文语境向量;Ws和We均为分类器参数;(·)T为矩阵的转置;softmax(·)为softmax函数;分类器的损失函数为θ为训练参数的集合;ps和pe分别为起始位置和结束位置的概率值;和分别为真实的起始位置和结束位置索引;分类器的训练目标为最小化负似然函数,将损失函数的代价降到最低;log(·)为对数函数;N为文章的上下文语境向量的元素总数。
本发明的有益效果为:本发明先计算问题和文章之间的相似度矩阵得到带有问题影响的文本语境特征,并且将两种注意力模型的结果进行融合,然后使用自注意力模型计算文章内部的词语之间的注意力函数,得到不同词语内部之间的差异。整个过程都使用了聚合机制,将低层次到高层次的特征向量融合,从而抽取不同层面的特征信息,最后得到用于预测答案的语义向量。本发明在作阅读理解时第一次看文章相当于将符号转化为向量,然后通过注意力模型建立文章和问题之间的联系等价于人脑带着问题看文章的过程,最后使用自注意力模型进行有自知的理解等价于精读文章定位答案。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该机器阅读理解方法包括以下步骤:
S1、分别对问题和文章进行编码,分别得到问题和文章的字符级表示向量;
S2、将问题和文章的字符级表示向量进行编码,分别得到编码后的问题向量和文章向量;
S3、将编码后的文章向量输入双向注意力模型,将编码后的问题向量输入共同注意力模型,分别得到双向注意力模型的输出P1和共同注意力模型的输出P2;
S4、根据聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;
S5、将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;
S6、基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息;
S7、根据全局交互信息和文本编码向量P4获取使用自注意力模型后的文本向量P5;
S8、根据聚合函数将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;
S9、将聚合后的数据P6与编码前的文字向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出作为文章的上下文语境向量;
S10、根据文章的上下文语境向量和编码后的问题向量分别预测文本中每一个位置是起始索引和结束索引的概率,将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解。
步骤S1的具体方法包括以下子步骤:
S1-1、将问题和文章中的每一个单词m表示为一个字符序列(c1,...,c|m|),并将词表中的每一个单词表示为dc维的向量;
S1-2、将每一个单词序列应用一个大小为的卷积核,采用公式
fi=tanh(wTci:i+w-1+b)
获取特征向量fi;其中tanh(·)为双曲正切函数;ci:i+w-1为字符序列段;b为偏差参数;(·)T为矩阵的转置;为数域;
S1-3、对所有的特征向量进行最大池化操作,分别得到问题和文章的字符级表示向量。
步骤S2的具体方法包括以下子步骤:
S2-1、根据公式
Q'=softmax(Si:)·Q
S=softmax(Q'T W1Q')
Q”=S·Q'
QR=bjQagg
获取编码后的问题向量QR;其中P为文章的字符级表示向量;Q为问题的字符级表示向量;[;]表示将向量按行进行拼接操作;表示P与Q进行点积运算;Ws为学习参数;(·)T为矩阵的转置;Si:、Q'、S、Q”、Qagg和bj均为中间参数;softmax(·)为softmax函数;tanh(·)为双曲正切函数;bf为学习参数;W1为权重;Wf为学习参数;exp(·)为以自然常数e为底的指数函数;表示单一向量元素对应的中间参数;j'为第j'个向量元素;
S2-2、根据公式
αij∝exp(Sij')
得到文章P的输入向量其中为文章P的文章序列;fastText(·)表示由fastText得到的词向量;Sij'、αij、和均为中间参数;为问题Q的字符向量;exp(·)为以自然常数e为底的指数函数;为问题Q的字符向量;ReLU(·)为激活函数;U和D均为权重;[;]表示将向量按行进行拼接操作;为文章P的文章序列;为文章P的字符向量;Glove(·)表示由Glove得到的词向量;BERT(·)表示将transformer网络的隐藏层输出的特征向量;
S2-3、将输入向量作为双向循环神经网络的输入,得到编码后的文章向量。
步骤S4的具体方法为:根据公式
使用聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P1与P2进行点积运算。
步骤S5的具体方法为:根据公式
将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P与P3进行点积运算。
步骤S6的具体方法为:根据公式
Sij=softmax(P4·W1·(P4)T)
基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息Sij;其中softmax(·)为归一化指数函数;W1为权重;(·)T为矩阵的转置。
步骤S7的具体方法为:根据公式
P5=SijP4
获取使用自注意力模型后的文本向量P5;其中Sij为全局交互信息。
步骤S8的具体方法为:根据公式
将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P5与P4进行点积运算。
步骤S9的具体方法为:根据公式
R=BiGRU([P;P6])
将聚合后的数据P6与编码前的文字向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出R作为文章的上下文语境向量;其中BiGRU(·)为双向GRU网络;[;]表示将向量按行进行拼接操作。
步骤S10的具体方法为:根据公式
通过两个独立的分类器预测文章中每个单词是开始位置的概率Pstart(i)和结束位置的概率Pend(i),将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解;其中OQ为问题向量;为文章的上下文语境向量;Ws和We均为分类器参数;(·)T为矩阵的转置;softmax(·)为softmax函数;分类器的损失函数为θ为训练参数的集合;ps和pe分别为起始位置和结束位置的概率值;和分别为真实的起始位置和结束位置索引;分类器的训练目标为最小化负似然函数,将损失函数的代价降到最低;log(·)为对数函数;N为文章的上下文语境向量的元素总数。
综上所述,本发明先计算问题和文章之间的相似度矩阵得到带有问题影响的文本语境特征,并且将两种注意力模型的结果进行融合,然后使用自注意力模型计算文章内部的词语之间的注意力函数,得到不同词语内部之间的差异。整个过程都使用了聚合机制,将低层次到高层次的特征向量融合,从而抽取不同层面的特征信息,最后得到用于预测答案的语义向量。本发明在作阅读理解时第一次看文章相当于将符号转化为向量,然后通过注意力模型建立文章和问题之间的联系等价于人脑带着问题看文章的过程,最后使用自注意力模型进行有自知的理解等价于精读文章定位答案。
Claims (10)
1.一种机器阅读理解方法,其特征在于,包括以下步骤:
S1、分别对问题和文章进行编码,分别得到问题和文章的字符级表示向量;
S2、将问题和文章的字符级表示向量进行编码,分别得到编码后的问题向量和文章向量;
S3、将编码后的文章向量输入双向注意力模型,将编码后的问题向量输入共同注意力模型,分别得到双向注意力模型的输出P1和共同注意力模型的输出P2;
S4、根据聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;
S5、将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;
S6、基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息;
S7、根据全局交互信息和文本编码向量P4获取使用自注意力模型后的文本向量P5;
S8、根据聚合函数将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;
S9、将聚合后的数据P6与编码前的文字向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出作为文章的上下文语境向量;
S10、根据文章的上下文语境向量和编码后的问题向量分别预测文本中每一个位置是起始索引和结束索引的概率,将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解。
2.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S1的具体方法包括以下子步骤:
S1-1、将问题和文章中的每一个单词m表示为一个字符序列(c1,...,c|m|),并将词表中的每一个单词表示为dc维的向量;
S1-2、将每一个单词序列应用一个大小为的卷积核,采用公式
fi=tanh(wTci:i+w-1+b)
获取特征向量fi;其中tanh(·)为双曲正切函数;ci:i+w-1为字符序列段;b为偏差参数;(·)T为矩阵的转置;为数域;
S1-3、对所有的特征向量进行最大池化操作,分别得到问题和文章的字符级表示向量。
3.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S2的具体方法包括以下子步骤:
S2-1、根据公式
Q'=softmax(Si:)·Q
S=softmax(Q'T W1Q')
Q”=S·Q'
QR=bjQagg
获取编码后的问题向量QR;其中P为文章的字符级表示向量;Q为问题的字符级表示向量;[;]表示将向量按行进行拼接操作;表示P与Q进行点积运算;Ws为学习参数;(·)T为矩阵的转置;Si:、Q'、S、Q”、Qagg和bj均为中间参数;softmax(·)为softmax函数;tanh(·)为双曲正切函数;bf为学习参数;W1为权重;Wf为学习参数;exp(·)为以自然常数e为底的指数函数;表示单一向量元素对应的中间参数;j'为第j'个向量元素;
S2-2、根据公式
αij∝exp(Sij')
得到文章P的输入向量其中为文章P的文章序列;fastText(·)表示由fastText得到的词向量;Sij'、αij、和均为中间参数;为问题Q的字符向量;exp(·)为以自然常数e为底的指数函数;为问题Q的字符向量;ReLU(·)为激活函数;U和D均为权重;[;]表示将向量按行进行拼接操作;为文章P的文章序列;为文章P的字符向量;Glove(·)表示由Glove得到的词向量;BERT(·)表示将transformer网络的隐藏层输出的特征向量;
S2-3、将输入向量作为双向循环神经网络的输入,得到编码后的文章向量。
4.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S4的具体方法为:
根据公式
使用聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P1与P2进行点积运算。
5.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S5的具体方法为:
根据公式
将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P与P3进行点积运算。
6.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S6的具体方法为:
根据公式
Sij=softmax(P4·W1·(P4)T)
基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息Sij;其中softmax(·)为归一化指数函数;W1为权重;(·)T为矩阵的转置。
7.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S7的具体方法为:
根据公式
P5=SijP4
获取使用自注意力模型后的文本向量P5;其中Sij为全局交互信息。
8.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S8的具体方法为:
根据公式
将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;表示P5与P4进行点积运算。
9.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S9的具体方法为:
根据公式
R=BiGRU([P;P6])
将聚合后的数据P6与编码前的文字向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出R作为文章的上下文语境向量;其中BiGRU(·)为双向GRU网络;[;]表示将向量按行进行拼接操作。
10.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S10的具体方法为:
根据公式
通过两个独立的分类器预测文章中每个单词是开始位置的概率Pstart(i)和结束位置的概率Pend(i),将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解;其中OQ为问题向量;为文章的上下文语境向量;Ws和We均为分类器参数;(·)T为矩阵的转置;softmax(·)为softmax函数;分类器的损失函数为θ为训练参数的集合;ps和pe分别为起始位置和结束位置的概率值;和分别为真实的起始位置和结束位置索引;分类器的训练目标为最小化负似然函数,将损失函数的代价降到最低;log(·)为对数函数;N为文章的上下文语境向量的元素总数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887852.XA CN110619123B (zh) | 2019-09-19 | 2019-09-19 | 一种机器阅读理解方法 |
US17/024,726 US11620449B2 (en) | 2019-09-19 | 2020-09-18 | Method for machine reading comprehension |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887852.XA CN110619123B (zh) | 2019-09-19 | 2019-09-19 | 一种机器阅读理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619123A true CN110619123A (zh) | 2019-12-27 |
CN110619123B CN110619123B (zh) | 2021-01-26 |
Family
ID=68923655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910887852.XA Expired - Fee Related CN110619123B (zh) | 2019-09-19 | 2019-09-19 | 一种机器阅读理解方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11620449B2 (zh) |
CN (1) | CN110619123B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274362A (zh) * | 2020-02-01 | 2020-06-12 | 武汉大学 | 一种基于transformer架构的对话生成方法 |
CN111460176A (zh) * | 2020-05-11 | 2020-07-28 | 南京大学 | 一种基于哈希学习的多文档机器阅读理解方法 |
CN112183085A (zh) * | 2020-09-11 | 2021-01-05 | 杭州远传新业科技有限公司 | 机器阅读理解方法、装置、电子设备及计算机存储介质 |
CN112651225A (zh) * | 2020-12-29 | 2021-04-13 | 昆明理工大学 | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
CN113239165A (zh) * | 2021-05-17 | 2021-08-10 | 山东新一代信息产业技术研究院有限公司 | 基于云化机器人的阅读理解方法、系统及存储介质 |
CN113239148A (zh) * | 2021-05-14 | 2021-08-10 | 廖伟智 | 基于机器阅读理解的科技资源检索方法 |
CN113255367A (zh) * | 2021-06-07 | 2021-08-13 | 华南师范大学 | 情感分析方法、装置、设备以及存储介质 |
CN113343645A (zh) * | 2020-03-03 | 2021-09-03 | 北京沃东天骏信息技术有限公司 | 信息提取模型的建立方法及装置、存储介质及电子设备 |
WO2021243828A1 (zh) * | 2020-06-05 | 2021-12-09 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的文本处理方法、装置、计算机设备及介质 |
CN114254107A (zh) * | 2021-11-30 | 2022-03-29 | 重庆邮电大学 | 一种事件抽取系统及方法 |
CN116720008A (zh) * | 2023-08-11 | 2023-09-08 | 之江实验室 | 一种机器阅读方法、装置、存储介质及电子设备 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162604B (zh) * | 2019-01-24 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 语句生成方法、装置、设备及存储介质 |
CN113792121B (zh) * | 2021-04-08 | 2023-09-22 | 北京金山数字娱乐科技有限公司 | 阅读理解模型的训练方法及装置、阅读理解方法及装置 |
CN113010662B (zh) * | 2021-04-23 | 2022-09-27 | 中国科学院深圳先进技术研究院 | 一种层次化会话式机器阅读理解系统和方法 |
CN113297374B (zh) * | 2021-04-29 | 2023-09-12 | 军事科学院系统工程研究院网络信息研究所 | 一种基于bert和字词特征融合的文本分类方法 |
CN113300813B (zh) * | 2021-05-27 | 2022-08-30 | 中南大学 | 基于注意力的针对文本的联合信源信道方法 |
CN113032533B (zh) * | 2021-05-31 | 2021-09-03 | 宏龙科技(杭州)有限公司 | 一种基于稀疏向量匹配的高效检索方法 |
CN113688876B (zh) * | 2021-07-30 | 2023-08-22 | 华东师范大学 | 一种基于lda和bert的金融文本机器阅读理解方法 |
CN113593698B (zh) * | 2021-08-03 | 2023-04-18 | 电子科技大学 | 一种基于图注意网络的中医证型识别方法 |
CN113761936B (zh) * | 2021-08-19 | 2023-04-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN114218365B (zh) * | 2021-11-26 | 2024-04-05 | 华南理工大学 | 一种机器阅读理解方法、系统、计算机及存储介质 |
CN114648005B (zh) * | 2022-03-14 | 2024-07-05 | 山西大学 | 一种多任务联合学习的多片段机器阅读理解方法及装置 |
CN114861627B (zh) * | 2022-04-08 | 2024-07-12 | 清华大学深圳国际研究生院 | 一种基于深度学习的选择题干扰项自动化生成方法及装置 |
CN114818713B (zh) * | 2022-05-11 | 2024-09-06 | 安徽理工大学 | 一种基于边界检测的中文命名实体识别方法 |
CN114925205B (zh) * | 2022-06-09 | 2024-03-05 | 西北工业大学 | 基于对比学习的gcn-gru文本分类方法 |
CN115374285B (zh) * | 2022-10-26 | 2023-02-07 | 思创数码科技股份有限公司 | 政务资源目录主题分类方法及系统 |
CN115934752B (zh) * | 2022-12-09 | 2023-07-14 | 北京中科闻歌科技股份有限公司 | 一种构建检索模型的方法、电子设备和存储介质 |
CN115879647B (zh) * | 2023-02-15 | 2023-06-30 | 深圳市峰和数智科技有限公司 | 一种基于领域知识与深度学习结合的地层岩性预测方法 |
CN117236323B (zh) * | 2023-10-09 | 2024-03-29 | 京闽数科(北京)有限公司 | 一种基于大数据的信息处理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055537A (zh) * | 2016-05-23 | 2016-10-26 | 王立山 | 一种自然语言机器识别方法及系统 |
CN108846063A (zh) * | 2018-06-04 | 2018-11-20 | 北京百度网讯科技有限公司 | 确定问题答案的方法、装置、设备和计算机可读介质 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110096698A (zh) * | 2019-03-20 | 2019-08-06 | 中国地质大学(武汉) | 一种考虑主题的机器阅读理解模型生成方法与系统 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628735B2 (en) * | 2015-06-05 | 2020-04-21 | Deepmind Technologies Limited | Reading comprehension neural networks |
US11068660B2 (en) * | 2016-01-26 | 2021-07-20 | Koninklijke Philips N.V. | Systems and methods for neural clinical paraphrase generation |
US11409749B2 (en) * | 2017-11-09 | 2022-08-09 | Microsoft Technology Licensing, Llc | Machine reading comprehension system for answering queries related to a document |
CN110334184A (zh) * | 2019-07-04 | 2019-10-15 | 河海大学常州校区 | 基于机器阅读理解的智能问答系统 |
-
2019
- 2019-09-19 CN CN201910887852.XA patent/CN110619123B/zh not_active Expired - Fee Related
-
2020
- 2020-09-18 US US17/024,726 patent/US11620449B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055537A (zh) * | 2016-05-23 | 2016-10-26 | 王立山 | 一种自然语言机器识别方法及系统 |
CN108846063A (zh) * | 2018-06-04 | 2018-11-20 | 北京百度网讯科技有限公司 | 确定问题答案的方法、装置、设备和计算机可读介质 |
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110096698A (zh) * | 2019-03-20 | 2019-08-06 | 中国地质大学(武汉) | 一种考虑主题的机器阅读理解模型生成方法与系统 |
Non-Patent Citations (4)
Title |
---|
JIABAO GUO ET.AL: "Multiple Attention Networks with Temporal Convolution for Machine Reading Comprehension", 《2019 IEEE 9TH INTERNATIONAL CONFERENCE ON ELECTRONICS INFORMATION》 * |
YI TAY ET.AL: "Densely Connected Attention Propagation__for Reading Comprehension", 《32ND CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2018)》 * |
孟阳: "基于学科布局的科研机构层次聚类模型构建与实证分析", 《系统科学与数学》 * |
顾健伟等: "基于双向注意力流和自注意力结合的机器阅读理解", 《南京大学学报(自然科学)》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274362B (zh) * | 2020-02-01 | 2021-09-03 | 武汉大学 | 一种基于transformer架构的对话生成方法 |
CN111274362A (zh) * | 2020-02-01 | 2020-06-12 | 武汉大学 | 一种基于transformer架构的对话生成方法 |
CN113343645A (zh) * | 2020-03-03 | 2021-09-03 | 北京沃东天骏信息技术有限公司 | 信息提取模型的建立方法及装置、存储介质及电子设备 |
CN111460176A (zh) * | 2020-05-11 | 2020-07-28 | 南京大学 | 一种基于哈希学习的多文档机器阅读理解方法 |
CN111460176B (zh) * | 2020-05-11 | 2023-11-07 | 南京大学 | 一种基于哈希学习的多文档机器阅读理解方法 |
WO2021243828A1 (zh) * | 2020-06-05 | 2021-12-09 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的文本处理方法、装置、计算机设备及介质 |
CN112183085A (zh) * | 2020-09-11 | 2021-01-05 | 杭州远传新业科技有限公司 | 机器阅读理解方法、装置、电子设备及计算机存储介质 |
CN112651225B (zh) * | 2020-12-29 | 2022-06-14 | 昆明理工大学 | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
CN112651225A (zh) * | 2020-12-29 | 2021-04-13 | 昆明理工大学 | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
CN113239148A (zh) * | 2021-05-14 | 2021-08-10 | 廖伟智 | 基于机器阅读理解的科技资源检索方法 |
CN113239165A (zh) * | 2021-05-17 | 2021-08-10 | 山东新一代信息产业技术研究院有限公司 | 基于云化机器人的阅读理解方法、系统及存储介质 |
CN113239165B (zh) * | 2021-05-17 | 2023-04-18 | 山东新一代信息产业技术研究院有限公司 | 基于云化机器人的阅读理解方法、系统及存储介质 |
CN113255367A (zh) * | 2021-06-07 | 2021-08-13 | 华南师范大学 | 情感分析方法、装置、设备以及存储介质 |
CN113255367B (zh) * | 2021-06-07 | 2021-11-05 | 华南师范大学 | 情感分析方法、装置、设备以及存储介质 |
CN114254107A (zh) * | 2021-11-30 | 2022-03-29 | 重庆邮电大学 | 一种事件抽取系统及方法 |
CN116720008A (zh) * | 2023-08-11 | 2023-09-08 | 之江实验室 | 一种机器阅读方法、装置、存储介质及电子设备 |
CN116720008B (zh) * | 2023-08-11 | 2024-01-09 | 之江实验室 | 一种机器阅读方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110619123B (zh) | 2021-01-26 |
US20210089718A1 (en) | 2021-03-25 |
US11620449B2 (en) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619123B (zh) | 一种机器阅读理解方法 | |
CN110781680B (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113591902A (zh) | 基于多模态预训练模型的跨模态理解与生成方法和装置 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN115115913A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN108763535A (zh) | 信息获取方法及装置 | |
CN110275928B (zh) | 迭代式实体关系抽取方法 | |
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
CN113836866B (zh) | 文本编码方法、装置、计算机可读介质及电子设备 | |
CN112800203A (zh) | 一种融合文本和知识表征的问答匹配方法及系统 | |
CN110211573A (zh) | 一种基于神经网络模型的任务驱动型对话决策方法 | |
CN113641809A (zh) | 一种基于XLNet-BiGRU-CRF的智能问答方法 | |
CN115455985A (zh) | 一种基于机器阅读理解的自然语言系统的处理方法 | |
CN115588193A (zh) | 基于图注意力神经网络与视觉关系的视觉问答方法及装置 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN114780725A (zh) | 一种基于深度聚类的文本分类算法 | |
CN110889276B (zh) | 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN114461779A (zh) | 一种案件笔录要素抽取方法 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210126 Termination date: 20210919 |