CN110619123B - 一种机器阅读理解方法 - Google Patents

一种机器阅读理解方法 Download PDF

Info

Publication number
CN110619123B
CN110619123B CN201910887852.XA CN201910887852A CN110619123B CN 110619123 B CN110619123 B CN 110619123B CN 201910887852 A CN201910887852 A CN 201910887852A CN 110619123 B CN110619123 B CN 110619123B
Authority
CN
China
Prior art keywords
vector
article
attention model
obtaining
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910887852.XA
Other languages
English (en)
Other versions
CN110619123A (zh
Inventor
李建平
顾小丰
胡健
孙睿男
冯文婷
李顺利
蒋胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910887852.XA priority Critical patent/CN110619123B/zh
Publication of CN110619123A publication Critical patent/CN110619123A/zh
Priority to US17/024,726 priority patent/US11620449B2/en
Application granted granted Critical
Publication of CN110619123B publication Critical patent/CN110619123B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种机器阅读理解方法,其包括以下步骤:S1、得到问题和文章的字符级表示向量;S2、得到编码后的问题向量和文章向量;S3、得到双向注意力模型的输出P1和共同注意力模型的输出P2;S4、得到聚合后的向量P3;S5、得到文本编码向量P4;S6、获取文章内部单词之间的全局交互信息;S7、获取使用自注意力模型后的文本向量P5;S8、根据P4和P5得到聚合后的数据P6;S9、根据P6和P得到文章的上下文语境向量;S10、根据文章的上下文语境向量和编码后的问题向量预测答案位置,完成机器阅读理解。本发明可快速进行文章阅读理解,并从文章中给出问题的答案。

Description

一种机器阅读理解方法
技术领域
本发明涉及人工智能领域,具体涉及一种机器阅读理解方法。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
机器阅读理解是认知环节的关键能力之一,机器阅读理解的发展可推进人工智能的发展。
发明内容
针对现有技术中的上述不足,本发明提供的一种机器阅读理解方法可快速进行文章阅读理解,并从文章中给出问题的答案。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种机器阅读理解方法,其包括以下步骤:
S1、分别对问题和文章进行编码,分别得到问题和文章的字符级表示向量;
S2、将问题和文章的字符级表示向量进行编码,分别得到编码后的问题向量和文章向量;
S3、将编码后的文章向量输入双向注意力模型,将编码后的问题向量输入共同注意力模型,分别得到双向注意力模型的输出P1和共同注意力模型的输出P2;
S4、根据聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;
S5、将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;
S6、基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息;
S7、根据全局交互信息和文本编码向量P4获取使用自注意力模型后的文本向量P5;
S8、根据聚合函数将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;
S9、将聚合后的数据P6与编码前的文章向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出作为文章的上下文语境向量;
S10、根据文章的上下文语境向量和编码后的问题向量分别预测文本中每一个位置是起始索引和结束索引的概率,将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解。
进一步地,步骤S1的具体方法包括以下子步骤:
S1-1、将问题和文章中的每一个单词m表示为一个字符序列(c1,...,c|m|),并将词表中的每一个单词表示为dc维的向量;
S1-2、将每一个单词序列应用一个大小为
Figure GDA0002792642880000021
的卷积核,采用公式
fi=tanh(wTci:i+w-1+b)
获取特征向量fi;其中tanh(·)为双曲正切函数;ci:i+w-1为字符序列段;b为偏差参数;(·)T为矩阵的转置;
Figure GDA0002792642880000022
为数域;
S1-3、对所有的特征向量进行最大池化操作,分别得到问题和文章的字符级表示向量。
进一步地,步骤S2的具体方法包括以下子步骤:
S2-1、根据公式
Figure GDA0002792642880000031
Q'=softmax(Si:)·Q
S=softmax(Q'TW1Q')
Q”=S·Q'
Figure GDA0002792642880000038
Figure GDA0002792642880000032
QR=bjQagg
获取编码后的问题向量QR;其中P为文章的字符级表示向量;Q为问题的字符级表示向量;[;]表示将向量按行进行拼接操作;
Figure GDA0002792642880000033
表示P与Q进行点积运算;Ws为学习参数;(·)T为矩阵的转置;Si:、Q'、S、Q”、Qagg和bj均为中间参数;softmax(·)为softmax函数;tanh(·)为双曲正切函数;bf为学习参数;W1为权重;Wf为学习参数;exp(·)为以自然常数e为底的指数函数;
Figure GDA0002792642880000039
表示单一向量元素对应的中间参数;j'为第j'个向量元素;
S2-2、根据公式
Figure GDA0002792642880000034
Figure GDA0002792642880000035
Figure GDA0002792642880000036
αij∝exp(Sij')
Figure GDA0002792642880000037
Figure GDA0002792642880000041
得到编码前的文章向量P的输入向量
Figure GDA0002792642880000042
其中
Figure GDA0002792642880000043
为编码前的文章向量P中的文章序列;fastText(·)表示由fastText得到的词向量;
Figure GDA0002792642880000044
Sij'、αij、和
Figure GDA0002792642880000045
均为中间参数;
Figure GDA0002792642880000046
为问题的字符级表示向量Q中的字符向量;exp(·)为以自然常数e为底的指数函数;
Figure GDA0002792642880000047
为问题的字符级表示向量Q中的字符向量;ReLU(·)为激活函数;U和D均为权重;[;]表示将向量按行进行拼接操作;
Figure GDA0002792642880000048
为编码前的文章向量P中的文章序列;
Figure GDA0002792642880000049
为编码前的文章向量P中的字符向量;Glove(·)表示由Glove得到的词向量;BERT(·)表示transformer网络的隐藏层输出的特征向量;
S2-3、将输入向量
Figure GDA00027926428800000410
作为双向循环神经网络的输入,得到编码后的文章向量。
进一步地,步骤S4的具体方法为:
根据公式
Figure GDA00027926428800000411
使用聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure GDA00027926428800000412
表示P1与P2进行点积运算。
进一步地,步骤S5的具体方法为:
根据公式
Figure GDA00027926428800000413
将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure GDA00027926428800000414
表示P与P3进行点积运算。
进一步地,步骤S6的具体方法为:
根据公式
Sij=softmax(P4·W1·(P4)T)
基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息Sij;其中softmax(·)为归一化指数函数;W1为权重;(·)T为矩阵的转置。
进一步地,步骤S7的具体方法为:
根据公式
P5=SijP4
获取使用自注意力模型后的文本向量P5;其中Sij为全局交互信息。
进一步地,步骤S8的具体方法为:
根据公式
Figure GDA0002792642880000051
将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure GDA0002792642880000052
表示P5与P4进行点积运算。
进一步地,步骤S9的具体方法为:
根据公式
R=BiGRU([P;P6])
将聚合后的数据P6与编码前的文章向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出R作为文章的上下文语境向量;其中BiGRU(·)为双向GRU网络;[;]表示将向量按行进行拼接操作。
进一步地,步骤S10的具体方法为:
根据公式
Figure GDA0002792642880000061
Figure GDA0002792642880000062
通过两个独立的分类器预测文章中每个单词是开始位置的概率Pstart(i)和结束位置的概率Pend(i),将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解;其中OQ为问题向量;
Figure GDA0002792642880000066
为文章的上下文语境向量;Ws和We均为分类器参数;(·)T为矩阵的转置;softmax(·)为softmax函数;分类器的损失函数为
Figure GDA0002792642880000063
θ为训练参数的集合;ps和pe分别为起始位置和结束位置的概率值;
Figure GDA0002792642880000064
Figure GDA0002792642880000065
分别为真实的起始位置和结束位置索引;分类器的训练目标为最小化负似然函数,将损失函数的代价降到最低;log(·)为对数函数;N为文章的上下文语境向量的元素总数。
本发明的有益效果为:本发明先计算问题和文章之间的相似度矩阵得到带有问题影响的文本语境特征,并且将两种注意力模型的结果进行融合,然后使用自注意力模型计算文章内部的词语之间的注意力函数,得到不同词语内部之间的差异。整个过程都使用了聚合机制,将低层次到高层次的特征向量融合,从而抽取不同层面的特征信息,最后得到用于预测答案的语义向量。本发明在作阅读理解时第一次看文章相当于将符号转化为向量,然后通过注意力模型建立文章和问题之间的联系等价于人脑带着问题看文章的过程,最后使用自注意力模型进行有自知的理解等价于精读文章定位答案。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该机器阅读理解方法包括以下步骤:
S1、分别对问题和文章进行编码,分别得到问题和文章的字符级表示向量;
S2、将问题和文章的字符级表示向量进行编码,分别得到编码后的问题向量和文章向量;
S3、将编码后的文章向量输入双向注意力模型,将编码后的问题向量输入共同注意力模型,分别得到双向注意力模型的输出P1和共同注意力模型的输出P2;
S4、根据聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;
S5、将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;
S6、基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息;
S7、根据全局交互信息和文本编码向量P4获取使用自注意力模型后的文本向量P5;
S8、根据聚合函数将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;
S9、将聚合后的数据P6与编码前的文章向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出作为文章的上下文语境向量;
S10、根据文章的上下文语境向量和编码后的问题向量分别预测文本中每一个位置是起始索引和结束索引的概率,将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解。
步骤S1的具体方法包括以下子步骤:
S1-1、将问题和文章中的每一个单词m表示为一个字符序列(c1,...,c|m|),并将词表中的每一个单词表示为dc维的向量;
S1-2、将每一个单词序列应用一个大小为
Figure GDA0002792642880000081
的卷积核,采用公式
fi=tanh(wTci:i+w-1+b)
获取特征向量fi;其中tanh(·)为双曲正切函数;ci:i+w-1为字符序列段;b为偏差参数;(·)T为矩阵的转置;
Figure GDA0002792642880000082
为数域;
S1-3、对所有的特征向量进行最大池化操作,分别得到问题和文章的字符级表示向量。
步骤S2的具体方法包括以下子步骤:
S2-1、根据公式
Figure GDA0002792642880000083
Q'=softmax(Si:)·Q
S=softmax(Q'TW1Q')
Q”=S·Q'
Figure GDA0002792642880000085
Figure GDA0002792642880000084
QR=bjQagg
获取编码后的问题向量QR;其中P为文章的字符级表示向量;Q为问题的字符级表示向量;[;]表示将向量按行进行拼接操作;
Figure GDA0002792642880000091
表示P与Q进行点积运算;Ws为学习参数;(·)T为矩阵的转置;Si:、Q'、S、Q”、Qagg和bj均为中间参数;softmax(·)为softmax函数;tanh(·)为双曲正切函数;bf为学习参数;W1为权重;Wf为学习参数;exp(·)为以自然常数e为底的指数函数;
Figure GDA00027926428800000916
表示单一向量元素对应的中间参数;j'为第j'个向量元素;
S2-2、根据公式
Figure GDA0002792642880000092
Figure GDA0002792642880000093
Figure GDA0002792642880000094
αij∝exp(Sij')
Figure GDA0002792642880000095
Figure GDA0002792642880000096
得到编码前的文章向量P的输入向量
Figure GDA0002792642880000097
其中
Figure GDA0002792642880000098
为编码前的文章向量P中的文章序列;fastText(·)表示由fastText得到的词向量;
Figure GDA0002792642880000099
Sij'、αij、和
Figure GDA00027926428800000910
均为中间参数;
Figure GDA00027926428800000911
为问题的字符级表示向量Q中的字符向量;exp(·)为以自然常数e为底的指数函数;
Figure GDA00027926428800000912
为问题的字符级表示向量Q中的字符向量;ReLU(·)为激活函数;U和D均为权重;[;]表示将向量按行进行拼接操作;
Figure GDA00027926428800000913
为编码前的文章向量P中的文章序列;
Figure GDA00027926428800000914
为编码前的文章向量P中的字符向量;Glove(·)表示由Glove得到的词向量;BERT(·)表示transformer网络的隐藏层输出的特征向量;
S2-3、将输入向量
Figure GDA00027926428800000915
作为双向循环神经网络的输入,得到编码后的文章向量。
步骤S4的具体方法为:根据公式
Figure GDA0002792642880000101
使用聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure GDA0002792642880000102
表示P1与P2进行点积运算。
步骤S5的具体方法为:根据公式
Figure GDA0002792642880000103
将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure GDA0002792642880000104
表示P与P3进行点积运算。
步骤S6的具体方法为:根据公式
Sij=softmax(P4·W1·(P4)T)
基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息Sij;其中softmax(·)为归一化指数函数;W1为权重;(·)T为矩阵的转置。
步骤S7的具体方法为:根据公式
P5=SijP4
获取使用自注意力模型后的文本向量P5;其中Sij为全局交互信息。
步骤S8的具体方法为:根据公式
Figure GDA0002792642880000105
将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure GDA0002792642880000106
表示P5与P4进行点积运算。
步骤S9的具体方法为:根据公式
R=BiGRU([P;P6])
将聚合后的数据P6与编码前的文章向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出R作为文章的上下文语境向量;其中BiGRU(·)为双向GRU网络;[;]表示将向量按行进行拼接操作。
步骤S10的具体方法为:根据公式
Figure GDA0002792642880000111
Figure GDA0002792642880000112
通过两个独立的分类器预测文章中每个单词是开始位置的概率Pstart(i)和结束位置的概率Pend(i),将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解;其中OQ为问题向量;
Figure GDA0002792642880000113
为文章的上下文语境向量;Ws和We均为分类器参数;(·)T为矩阵的转置;softmax(·)为softmax函数;分类器的损失函数为
Figure GDA0002792642880000114
θ为训练参数的集合;ps和pe分别为起始位置和结束位置的概率值;
Figure GDA0002792642880000115
Figure GDA0002792642880000116
分别为真实的起始位置和结束位置索引;分类器的训练目标为最小化负似然函数,将损失函数的代价降到最低;log(·)为对数函数;N为文章的上下文语境向量的元素总数。
综上所述,本发明先计算问题和文章之间的相似度矩阵得到带有问题影响的文本语境特征,并且将两种注意力模型的结果进行融合,然后使用自注意力模型计算文章内部的词语之间的注意力函数,得到不同词语内部之间的差异。整个过程都使用了聚合机制,将低层次到高层次的特征向量融合,从而抽取不同层面的特征信息,最后得到用于预测答案的语义向量。本发明在作阅读理解时第一次看文章相当于将符号转化为向量,然后通过注意力模型建立文章和问题之间的联系等价于人脑带着问题看文章的过程,最后使用自注意力模型进行有自知的理解等价于精读文章定位答案。

Claims (10)

1.一种机器阅读理解方法,其特征在于,包括以下步骤:
S1、分别对问题和文章进行编码,分别得到问题和文章的字符级表示向量;
S2、将问题和文章的字符级表示向量进行编码,分别得到编码后的问题向量和文章向量;
S3、将编码后的文章向量输入双向注意力模型,将编码后的问题向量输入共同注意力模型,分别得到双向注意力模型的输出P1和共同注意力模型的输出P2;
S4、根据聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;
S5、将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;
S6、基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息;
S7、根据全局交互信息和文本编码向量P4获取使用自注意力模型后的文本向量P5;
S8、根据聚合函数将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;
S9、将聚合后的数据P6与编码前的文章向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出作为文章的上下文语境向量;
S10、根据文章的上下文语境向量和编码后的问题向量分别预测文本中每一个位置是起始索引和结束索引的概率,将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解。
2.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S1的具体方法包括以下子步骤:
S1-1、将问题和文章中的每一个单词m表示为一个字符序列(c1,...,c|m|),并将词表中的每一个单词表示为dc维的向量;
S1-2、将每一个单词序列应用一个大小为
Figure FDA0002792642870000021
的卷积核,采用公式
fi=tanh(wTci:i+w-1+b)
获取特征向量fi;其中tanh(·)为双曲正切函数;ci:i+w-1为字符序列段;b为偏差参数;(·)T为矩阵的转置;
Figure FDA0002792642870000022
为数域;
S1-3、对所有的特征向量进行最大池化操作,分别得到问题和文章的字符级表示向量。
3.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S2的具体方法包括以下子步骤:
S2-1、根据公式
Figure FDA0002792642870000023
Q'=softmax(Si:)·Q
S=softmax(Q'T W1Q')
Q”=S·Q'
Figure FDA0002792642870000024
Figure FDA0002792642870000025
QR=bjQagg
获取编码后的问题向量QR;其中P为文章的字符级表示向量;Q为问题的字符级表示向量;[;]表示将向量按行进行拼接操作;
Figure FDA0002792642870000026
表示P与Q进行点积运算;Ws为学习参数;(·)T为矩阵的转置;Si:、Q'、S、Q”、Qagg和bj均为中间参数;softmax(·)为softmax函数;tanh(·)为双曲正切函数;bf为学习参数;W1为权重;Wf为学习参数;exp(·)为以自然常数e为底的指数函数;Qaggj'表示单一向量元素对应的中间参数;j'为第j'个向量元素;
S2-2、根据公式
Figure FDA0002792642870000031
Figure FDA0002792642870000032
Figure FDA0002792642870000033
αij∝exp(Sij')
Figure FDA0002792642870000034
Figure FDA0002792642870000035
得到编码前的文章向量P的输入向量
Figure FDA0002792642870000036
其中
Figure FDA0002792642870000037
为编码前的文章向量P中的文章序列;fastText(·)表示由fastText得到的词向量;
Figure FDA0002792642870000038
Sij'、αij、和ui'P均为中间参数;
Figure FDA0002792642870000039
为问题的字符级表示向量Q中的字符向量;exp(·)为以自然常数e为底的指数函数;
Figure FDA00027926428700000310
为问题的字符级表示向量Q中的字符向量;ReLU(·)为激活函数;U和D均为权重;[;]表示将向量按行进行拼接操作;
Figure FDA00027926428700000311
为编码前的文章向量P中的文章序列;
Figure FDA00027926428700000312
为编码前的文章向量P中的字符向量;Glove(·)表示由Glove得到的词向量;BERT(·)表示transformer网络的隐藏层输出的特征向量;
S2-3、将输入向量
Figure FDA00027926428700000313
作为双向循环神经网络的输入,得到编码后的文章向量。
4.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S4的具体方法为:
根据公式
Figure FDA0002792642870000043
使用聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合,得到聚合后的向量P3;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure FDA0002792642870000044
表示P1与P2进行点积运算。
5.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S5的具体方法为:
根据公式
Figure FDA0002792642870000041
将聚合后的向量P3与编码前的文章向量P进行聚合,得到文本编码向量P4;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure FDA0002792642870000042
表示P与P3进行点积运算。
6.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S6的具体方法为:
根据公式
Sij=softmax(P4·W1·(P4)T)
基于文本编码向量P4,根据自注意力模型获取文章内部单词之间的全局交互信息Sij;其中softmax(·)为归一化指数函数;W1为权重;(·)T为矩阵的转置。
7.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S7的具体方法为:
根据公式
P5=SijP4
获取使用自注意力模型后的文本向量P5;其中Sij为全局交互信息。
8.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S8的具体方法为:
根据公式
Figure FDA0002792642870000051
将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合,得到聚合后的数据P6;其中tanh(·)为双曲正切函数;Wf和bf均为学习参数;[;]表示将向量按行进行拼接操作;
Figure FDA0002792642870000052
表示P5与P4进行点积运算。
9.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S9的具体方法为:
根据公式
R=BiGRU([P;P6])
将聚合后的数据P6与编码前的文章向量P进行拼接,并将拼接后的数据作为输入送入双向GRU网络中,将双向GRU网络的输出R作为文章的上下文语境向量;其中BiGRU(·)为双向GRU网络;[;]表示将向量按行进行拼接操作。
10.根据权利要求1所述的机器阅读理解方法,其特征在于,所述步骤S10的具体方法为:
根据公式
Figure FDA0002792642870000053
Figure FDA0002792642870000054
通过两个独立的分类器预测文章中每个单词是开始位置的概率Pstart(i)和结束位置的概率Pend(i),将起始索引与结束索引概率最大的结果作为答案位置,完成机器阅读理解;其中OQ为问题向量;
Figure FDA0002792642870000055
为文章的上下文语境向量;Ws和We均为分类器参数;(·)T为矩阵的转置;softmax(·)为softmax函数;分类器的损失函数为
Figure FDA0002792642870000061
θ为训练参数的集合;ps和pe分别为起始位置和结束位置的概率值;
Figure FDA0002792642870000062
Figure FDA0002792642870000063
分别为真实的起始位置和结束位置索引;分类器的训练目标为最小化负似然函数,将损失函数的代价降到最低;log(·)为对数函数;N为文章的上下文语境向量的元素总数。
CN201910887852.XA 2019-09-19 2019-09-19 一种机器阅读理解方法 Expired - Fee Related CN110619123B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910887852.XA CN110619123B (zh) 2019-09-19 2019-09-19 一种机器阅读理解方法
US17/024,726 US11620449B2 (en) 2019-09-19 2020-09-18 Method for machine reading comprehension

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910887852.XA CN110619123B (zh) 2019-09-19 2019-09-19 一种机器阅读理解方法

Publications (2)

Publication Number Publication Date
CN110619123A CN110619123A (zh) 2019-12-27
CN110619123B true CN110619123B (zh) 2021-01-26

Family

ID=68923655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910887852.XA Expired - Fee Related CN110619123B (zh) 2019-09-19 2019-09-19 一种机器阅读理解方法

Country Status (2)

Country Link
US (1) US11620449B2 (zh)
CN (1) CN110619123B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN111274362B (zh) * 2020-02-01 2021-09-03 武汉大学 一种基于transformer架构的对话生成方法
CN113343645A (zh) * 2020-03-03 2021-09-03 北京沃东天骏信息技术有限公司 信息提取模型的建立方法及装置、存储介质及电子设备
CN111460176B (zh) * 2020-05-11 2023-11-07 南京大学 一种基于哈希学习的多文档机器阅读理解方法
CN111428021B (zh) * 2020-06-05 2023-05-30 平安国际智慧城市科技股份有限公司 基于机器学习的文本处理方法、装置、计算机设备及介质
CN112651225B (zh) * 2020-12-29 2022-06-14 昆明理工大学 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
CN112800186B (zh) * 2021-04-08 2021-10-12 北京金山数字娱乐科技有限公司 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN113010662B (zh) * 2021-04-23 2022-09-27 中国科学院深圳先进技术研究院 一种层次化会话式机器阅读理解系统和方法
CN113297374B (zh) * 2021-04-29 2023-09-12 军事科学院系统工程研究院网络信息研究所 一种基于bert和字词特征融合的文本分类方法
CN113239148B (zh) * 2021-05-14 2022-04-05 电子科技大学 基于机器阅读理解的科技资源检索方法
CN113239165B (zh) * 2021-05-17 2023-04-18 山东新一代信息产业技术研究院有限公司 基于云化机器人的阅读理解方法、系统及存储介质
CN113300813B (zh) * 2021-05-27 2022-08-30 中南大学 基于注意力的针对文本的联合信源信道方法
CN113032533B (zh) * 2021-05-31 2021-09-03 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
CN113255367B (zh) * 2021-06-07 2021-11-05 华南师范大学 情感分析方法、装置、设备以及存储介质
CN113688876B (zh) * 2021-07-30 2023-08-22 华东师范大学 一种基于lda和bert的金融文本机器阅读理解方法
CN113593698B (zh) * 2021-08-03 2023-04-18 电子科技大学 一种基于图注意网络的中医证型识别方法
CN113761936B (zh) * 2021-08-19 2023-04-07 哈尔滨工业大学(威海) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN114218365B (zh) * 2021-11-26 2024-04-05 华南理工大学 一种机器阅读理解方法、系统、计算机及存储介质
CN114254107B (zh) * 2021-11-30 2023-03-24 重庆邮电大学 一种事件抽取系统及方法
CN114925205B (zh) * 2022-06-09 2024-03-05 西北工业大学 基于对比学习的gcn-gru文本分类方法
CN115374285B (zh) * 2022-10-26 2023-02-07 思创数码科技股份有限公司 政务资源目录主题分类方法及系统
CN115934752B (zh) * 2022-12-09 2023-07-14 北京中科闻歌科技股份有限公司 一种构建检索模型的方法、电子设备和存储介质
CN115879647B (zh) * 2023-02-15 2023-06-30 深圳市峰和数智科技有限公司 一种基于领域知识与深度学习结合的地层岩性预测方法
CN116720008B (zh) * 2023-08-11 2024-01-09 之江实验室 一种机器阅读方法、装置、存储介质及电子设备
CN117236323B (zh) * 2023-10-09 2024-03-29 京闽数科(北京)有限公司 一种基于大数据的信息处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055537A (zh) * 2016-05-23 2016-10-26 王立山 一种自然语言机器识别方法及系统
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统
CN110162749A (zh) * 2018-10-22 2019-08-23 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628735B2 (en) * 2015-06-05 2020-04-21 Deepmind Technologies Limited Reading comprehension neural networks
EP3408755A1 (en) * 2016-01-26 2018-12-05 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
CN108846063B (zh) * 2018-06-04 2020-12-22 北京百度网讯科技有限公司 确定问题答案的方法、装置、设备和计算机可读介质
CN108959246B (zh) * 2018-06-12 2022-07-12 北京慧闻科技(集团)有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN110334184A (zh) * 2019-07-04 2019-10-15 河海大学常州校区 基于机器阅读理解的智能问答系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055537A (zh) * 2016-05-23 2016-10-26 王立山 一种自然语言机器识别方法及系统
CN110162749A (zh) * 2018-10-22 2019-08-23 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Densely Connected Attention Propagation__for Reading Comprehension;Yi Tay et.al;《32nd Conference on Neural Information Processing Systems (NeurIPS 2018)》;20190228;正文第1-12页 *
Multiple Attention Networks with Temporal Convolution for Machine Reading Comprehension;Jiabao Guo et.al;《2019 IEEE 9th International Conference on Electronics Information》;20190714;期刊第546-549页 *
基于双向注意力流和自注意力结合的机器阅读理解;顾健伟等;《南京大学学报(自然科学)》;20190131(第1期);期刊第125-132页 *
基于学科布局的科研机构层次聚类模型构建与实证分析;孟阳;《系统科学与数学》;20180927;期刊第1054-1067页 *

Also Published As

Publication number Publication date
US20210089718A1 (en) 2021-03-25
CN110619123A (zh) 2019-12-27
US11620449B2 (en) 2023-04-04

Similar Documents

Publication Publication Date Title
CN110619123B (zh) 一种机器阅读理解方法
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN108763535A (zh) 信息获取方法及装置
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN110909549A (zh) 对古汉语进行断句的方法、装置以及存储介质
CN110275928B (zh) 迭代式实体关系抽取方法
CN113407660A (zh) 非结构化文本事件抽取方法
CN111859954A (zh) 目标对象识别方法、装置、设备及计算机可读存储介质
CN114297399A (zh) 知识图谱生成方法、系统、存储介质及电子设备
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN110889276B (zh) 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质
CN112905750A (zh) 一种优化模型的生成方法和设备
CN116341646A (zh) Bert模型的预训练方法、装置、电子设备及存储介质
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114780725A (zh) 一种基于深度聚类的文本分类算法
CN114511023A (zh) 分类模型训练方法以及分类方法
CN114510561A (zh) 答案选择方法、装置、设备及存储介质
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
CN114840697B (zh) 一种云服务机器人的视觉问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210126

Termination date: 20210919

CF01 Termination of patent right due to non-payment of annual fee