CN114218365B - 一种机器阅读理解方法、系统、计算机及存储介质 - Google Patents
一种机器阅读理解方法、系统、计算机及存储介质 Download PDFInfo
- Publication number
- CN114218365B CN114218365B CN202111419520.2A CN202111419520A CN114218365B CN 114218365 B CN114218365 B CN 114218365B CN 202111419520 A CN202111419520 A CN 202111419520A CN 114218365 B CN114218365 B CN 114218365B
- Authority
- CN
- China
- Prior art keywords
- text
- biaozheng
- characterization
- duan
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012512 characterization method Methods 0.000 claims abstract description 76
- 239000013598 vector Substances 0.000 claims abstract description 55
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 230000003993 interaction Effects 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 40
- 230000009466 transformation Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种机器阅读理解方法、系统、计算机及存储介质,方法包括:获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;将获得的信息进行向量表征以及向量表征融合;进行层次注意力交互,并将各层的交互结果进行拼接;对交互后的文段表征和交互后的问题表征进行特征提取;进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。本发明以提出的多样性循环单元为核心模块,通过降维自注意力机制与自适应局部信息门控机制提取全局与局部信息,实现了兼顾准确率、计算/参数量的最佳机器阅读理解综合性能。
Description
技术领域
本发明涉及自然语言处理的技术领域,尤其涉及到一种机器阅读理解方法、系统、计算机及存储介质。
背景技术
随着人工智能的高速发展,人机交互的应用场景愈加广泛,如智能客服、聊天机器人、推荐系统等。在优化用户体验的过程中,如何让机器更好地理解人类语言是人机交互技术最核心的问题。
机器阅读理解(Machine Reading Comprehension,MRC)为解决上述问题提供了技术支撑,其通过让计算机阅读文本段落并回答给定问题的任务形式,训练机器理解人类语言,并具备一定的推理能力。近年来,深度神经网络的创新突破以及大规模预训练模型的迭代更新,极大促进了MRC技术的发展,研究者们纷纷投入开发规模更大、层数更深的MRC模型,其参数量从几百兆到几亿甚至上百亿,导致计算开销与训练成本激增,而回答的准确率却趋于饱和。
如今,研究者们开始关注MRC模型的兼顾准确率与计算/参数量的综合性能,提出了各种优化方案,以实现计算/存储开销降低的同时保证准确性。其中一部分研究工作以低计算/参数开销的循环神经网络如LSTM、GRU为基础,通过优化MRC模型架构,提出新颖的计算模块或计算机制来提升模型回答的准确率;另一部分研究则针对高准确率的大规模MRC模型,采用矩阵分解、参数共享、剪枝与量化等方法降低其参数量。
但是,这些方法依然存在三个主要问题:
(1)基于LSTM、GRU的MRC模型在提取当前词的特征时,只能利用单向循环迭代的信息,无法同时兼顾上下文,造成整体模型对上下文信息的提取不够充分,进而影响回答的准确率。
(2)轻量处理后的大规模MRC模型虽然参数量减少,但依然存在大量的平方级复杂度的自注意力运算,因此实际计算开销并未降低,其训练过程难以大批量并行进行,且受到文本长度以及词向量维度的严重限制。
(3)现阶段MRC模型中使用的自注意力机制过于注重全局信息,即每个词都要与整个文段中所有词计算注意力,造成大量计算开销,而多数情况下答案的获取只需关注其所在的一段局部范围。
因此,如何解决上述问题,使MRC模型的兼顾准确率与计算/参数量的综合性能达到最优,是一项重要且具有实际意义的任务。
发明内容
本发明的目的在于克服现有技术的不足,提供一种机器阅读理解方法,以提出的多样性循环单元(Diversity Recurrent Unit,DRU)为核心,将低参数/计算量的循环神经网络与提出的低时间复杂度的降维自注意力机制相结合,对文段与问题进行特征提取,得到充分融合上下文信息的文段与问题表征,然后通过局部信息门控增强二者上下文表征中局部信息的比重,为答案获取提供关注范围,从而在低计算/参数开销的条件下提高了回答的准确率,实现MRC的综合性能最优。
为实现上述目的,本发明所提供的技术方案为:
一种机器阅读理解方法,包括以下步骤:
S1、获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;
S2、将步骤S1获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu;
S3、将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
S4、对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx;
S5、利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
进一步地,所述步骤S2具体包括:
S2-1、使用GloVe和CoVe来表征单词向量,得到wglove∈RL×300以及两层wcove∈RL×600;使用ELMo来表征字符向量,得到wchar∈RL×1024以及两层welmo∈RL×1024;通过特征工程得到特征向量wfeature∈RL×24,将wglove、wchar、wfeature以及wcove与welmo的第一层进行拼接,送入两层一维卷积前馈网络CFF中,得到一度融合后的表征wffn∈RL×256;
S2-2、将wcove与welmo的第一层与wffn拼接得x∈RL×1880,将x送入多样性循环单元DRU中计算,得到二度融合后的表征wdru0∈RL×256;
S2-3、将wglove、welmo的第二层与wdru0进行拼接,再送入一个多样性循环单元DRU中,得到三度融合后的表征wdru1∈RL×256;
S2-4、将wdru0与wdru1进行拼接作为融合后的综合表征u∈RL×512;将wcove、welmo的第二层与wglove进行拼接作为原始表征e∈RL×1924;
S2-5、分别对原始文段文本与原始问题文本执行S2-1~S2-4的过程,得到原始文段表征de、原始问题表征qe、融合后的综合文段表征du以及综合问题表征qu。
进一步地,所述步骤S2-2中,多样性循环单元DRU内的计算包括以下分步骤:
A1)、对x分别进行降维自注意力计算以及可分离卷积计算,得到全局上下文表征h以及局部信息表征xlocal:
h=(W·x+b)T·softmax(x·v+b)
xlocal=SeparableConvlD(x)
其中W、v和b分别为可学习的矩阵、向量和偏置;
A2)、计算局部门控矩阵g并更新x:
g=σ(W·[x|h]+b)
x=g⊙x+(1-g)⊙xlocal
其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算;
A3)、将x与h通过一层双向长短时记忆网络BiLSTM,得到wdru0。
进一步地,所述步骤S3具体包括:
S3-1、将综合文段表征du与原始文段表征de进行拼接,将综合问题表征qu和综合文段表征du进行拼接,通过线性变换降低拼接表征的词向量维数来降低计算开销,得到与/>
dr=ReLU(Wd·[du|de]+bd)
qr=ReLU(Wq·[qu|qe]+bq)
其中Ld与Lq分别为文段和问题的序列长度;ReLU为激活函数;qd和Wq为可学习的矩阵;bd和bq为可学习的偏置;
S3-2、将文段与问题各自的综合表征u拆分为两层wdru0和wdru1,同时将u送入一层多样性循环单元DRU中得到wdru2,将这三层具有递进关系的表征作为层次表征,记文段与问题各自的三个层次表征分别为与/>i=0,1,2;
S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算,得到交互后的各层次文段表征i=0,1,2,将其与文段综合表征du进行拼接作为最终交互后的整体文段表征/>同时将第三层次问题表征q2作为最终交互后的整体问题表征
进一步地,所述步骤S3-3中,的计算步骤包括:
B1)、通过矩阵乘法,矩阵一向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵i=0,1,2;
其中vd、vq为两个可训练向量,分别代表文段和问题的整体信息;
B2)、取出每一行的最大值并进行softmax计算,得到问题到文段的注意力分数
B3)、通过与问题层次表征的矩阵乘法以及/>与文段层次表征的向量-矩阵乘法,得到双向注意力下两个充分信息交互后的文段表征/>与/>
其中为a2在行方向扩展后的结果;
B4)、将交互后的文段表征、文段层次表征及其对应点积进行拼接,通过一次线性变换,得到最终的各层次文段表征
其中Wi、bi分别为可学习的矩阵、偏置。
进一步地,所述步骤S4包括以下分步骤:
S4-1,将交互后的文段表征d经过一层多样性循环单元DRU后得到ddru,将ddru与d进行拼接,经过一层线性变换得到
dsr=ReLU(W·[ddru|d]+b)
计算dsr的自注意力分数
sd=softmax(dsr·(dsr)T)
将sd与ddru进行矩阵相乘,得到
dsa=sd·ddru;
S4-2,将dsa与ddru进行拼接,送入一层多样性循环单元DRU中,得到最终用于多轮回答的文段表征
S4-3,使用一个可训练的向量v作为问题信息的概括,将其与问题表征q进行向量-矩阵乘法,经过softmax后得到自注意力分数sq,
sq=softmax(q·vT+b)
将sq与线性变换后的问题表征进行向量-矩阵相乘,得到自注意力下的问题表征qx∈R256,作为最终用于多轮回答的初始一维问题表征qx0,
qx0=(sq)T·(W·q+b)。
进一步地,所述步骤S5包括以下分步骤:
S5-1、将初始的问题向量表征qx0经过一层线性变换转化为与文段矩阵表征相同的词向量维度,通过矩阵-向量乘法及softmax得到文段与问题的注意力分数,作为初始的答案起始位置的概率分布
ps0=softmax(dx·(W·qx0+b)T),
将ps0与文段的上下文表征dx进行向量-矩阵相乘,得到初始的带有答案起始位置信息的表征hs0∈R256,
hs0=(ps0)T·dx;
S5-2、将hs0作为提示与qx0拼接作为新的初始问题表征,与文段的上下文表征dx进行矩阵-向量注意力计算,得到初始的答案结束位置的概率分布
pe0=softmax(dx·(W·[qx0|hs0]+b)T)
以及初始的带有答案结束位置信息的表征he0∈R256,
he0=(pe0)T·dx,
将he0与hs0进行拼接,作为初始的答案信息表征hans0∈R512;
S5-3、将hans0与gx0进行门控循环单元GRU的一次迭代操作,得到更新后的问题表征qx1,使用qx1重复S5-1与S5-2的步骤得到ps1、hs1、pe1、he1和hans1;
S5-4、重复执行3次S5-3,将各轮结果psi与pei进行随机掩码平均,得到最终的答案起、止位置分布其中ps与pe中最大元素对应的索引即为答案在文段中的起、止位置。
为实现上述目的,本发明另外提供一种机器阅读理解系统,该机器阅读理解系统用于实现上面所述的机器阅读理解方法,其包括:表征融合模块、信息交互模块、特征提取模块、多轮回答模块;
其中,
所述表征融合模块,用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;并将获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu;
所述信息交互模块,用于将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
所述特征提取模块,用于对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx;
所述多轮回答模块,用于利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
为实现上述目的,本发明另外提供一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上面所述的机器阅读理解方法的步骤。
为实现上述目的,本发明另外提供一种存储介质,其存储有计算机程序,该程序被处理器执行时实现上面所述的机器阅读理解方法的步骤。
与现有技术相比,本技术方案的原理及优点如下:
本技术方案以提出的多样性循环单元DRU为核心,将低参数/计算量的循环神经网络与提出的低时间复杂度的降维自注意力机制相结合,来获取充分融合上下文信息的文段与问题表征,并通过局部信息门控增强二者上下文表征中局部信息的比重,从而在低计算/参数开销的条件下提高了回答的准确率,实现MRC的综合性能最优。
本技术方案中,多样性循环单元DRU以及多轮回答模块具有高泛化性,其中多样性循环单元DRU可移植到其他任意MRC模型中作为特征提取器,提升模型的综合性能;而多轮回答模块可移植到相关的MRC以及其他问答相关模型中,提升回答的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一一种机器阅读理解方法的原理流程图;
图2为本发明实施例一一种机器阅读理解方法中多样性循环单元DRU的算法机制图;
图3为本发明实施例一一种机器阅读理解方法中双向交互注意力算法机制图;
图4为本发明实施例一一种机器阅读理解方法中使用的随机掩码平均计算机制图;
图5为本发明实施例二一种机器阅读理解系统的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例一:
如图1所示,本实施例所述的一种机器阅读理解方法,包括以下步骤:
S1、对原始文段文本和原始问题文本进行预处理,获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;
S2、将步骤S1获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu;
具体地说,步骤S2包括以下分步骤:
S2-1、使用GloVe(Global Vectors)和CoVe(Contextualized Vectors)来表征单词向量,得到wgloe∈RL×300以及两层wcove∈RL×600;使用ELMo来表征字符向量,得到wchar∈RL ×1024以及两层welmo∈RL×1024;通过特征工程得到特征向量wfeature∈RL×24,将wglove、wchar、wfeature以及wcove与welmo的第一层进行拼接,送入两层一维卷积前馈网络CFF中,得到一度融合后的表征wffn∈RL×256;
S2-2、将wcove与welmo的第一层与wffn拼接得x∈RL×1880,将x送入多样性循环单元DRU中计算,得到二度融合后的表征wdru0∈RL×256;
具体地,如图2所示,多样性循环单元DRU内的计算包括以下分步骤:
A1)、对x分别进行降维自注意力计算以及可分离卷积计算,得到全局上下文表征h以及局部信息表征xlocal:
h=(W·x+b)T·softmax(x·v+b)
xlocal=SeparableConv1D(x)
其中W、v和b分别为可学习的矩阵、向量和偏置;
A2)、计算局部门控矩阵g并更新x:
g=σ(W·[x|h]+b)
x=g⊙x+(1-g)⊙xlocal
其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算;
A3)、将x与h通过一层双向长短时记忆网络BiLSTM,得到wdru0。
S2-3、将wglove、welmo的第二层与wdru0进行拼接,再送入一个多样性循环单元DRU中,得到三度融合后的表征wdru1∈RL×256;
S2-4、将wdru0与wdru1进行拼接作为融合后的综合表征u∈RL×512;将wcove、welmo的第二层与wglove进行拼接作为原始表征e∈RL×1924;
S2-5、分别对原始文段文本与原始问题文本执行S2-1~S2-4的过程,得到原始文段表征de、原始问题表征qe、融合后的综合文段表征du以及综合问题表征qu。
S3、将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
具体地,步骤S3具体包括:
S3-1、将综合文段表征du与原始文段表征de进行拼接,将综合问题表征qu和综合文段表征du进行拼接,通过线性变换降低拼接表征的词向量维数来降低计算开销,得到与/>
dr=ReLU(Wd·[du|de]+bd)
qr=ReLU(Wq·[qu|qe]+bq)
其中Ld与Lq分别为文段和问题的序列长度;ReLU为激活函数;Wd和Wq为可学习的矩阵;bd和bq为可学习的偏置;
S3-2、将文段与问题各自的综合表征u拆分为两层wdru0和wdru1,同时将u送入一层多样性循环单元DRU中得到wdru2,将这三层具有递进关系的表征作为层次表征,记文段与问题各自的三个层次表征分别为与/>i=0,1,2;
S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算,如图3所示,得到交互后的各层次文段表征i=0,1,2,将其与文段综合表征du进行拼接作为最终交互后的整体文段表征/>同时将第三层次问题表征q2作为最终交互后的整体问题表征/>
具体地,的计算步骤包括:
B1)、通过矩阵乘法,矩阵-向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵i=0,1,2;
其中vd、vq为两个可训练向量,分别代表文段和问题的整体信息;
B2)、取出每一行的最大值并进行softmax计算,得到问题到文段的注意力分擞
B3)、通过与问题层次表征的矩阵乘法以及/>与文段层次表征的向量-矩阵乘法,得到双向注意力下两个充分信息交互后的文段表征/>与/>
其中为a2在行方向扩展后的结果;
B4)、将交互后的文段表征、文段层次表征及其对应点积进行拼接,通过一次线性变换,得到最终的各层次文段表征
其中Wi、bi分别为可学习的矩阵、偏置。
S4、对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx;
具体地,步骤S4包括以下分步骤:
S4-1,将交互后的文段表征d经过一层多样性循环单元DRU后得到ddru,将ddru与d进行拼接,经过一层线性变换得到
dsr=ReLU(W·[ddru|d]+b)
计算dsr的自注意力分数
sd=softmax(dsr·(dsr)T)
将Sd与ddru进行矩阵相乘,得到
dsa=sd·ddru;
S4-2,将dsa与ddru进行拼接,送入一层多样性循环单元DRU中,得到最终用于多轮回答的文段表征
S4-3,使用一个可训练的向量v作为问题信息的概括,将其与问题表征q进行向量-矩阵乘法,经过softmax后得到自注意力分数sq,
sq=softmax(q·vT+b)
将sq与线性变换后的问题表征进行向量-矩阵相乘,得到自注意力下的问题表征qx∈R256,作为最终用于多轮回答的初始一维问题表征qx0,
qx0=(sq)T·(W·q+b)。
S5、利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
具体地,步骤S5包括以下分步骤:
S5-1、将初始的问题向量表征qx0经过一层线性变换转化为与文段矩阵表征相同的词向量维度,通过矩阵-向量乘法及softmax得到文段与问题的注意力分数,作为初始的答案起始位置的概率分布
ps0=softmax(dx·(W·qx0+b)T),
将ps0与文段的上下文表征dx进行向量-矩阵相乘,得到初始的带有答案起始位置信息的表征hs0∈R256,
hs0=(ps0)T·dx;
S5-2、将hs0作为提示与qx0拼接作为新的初始问题表征,与文段的上下文表征dx进行矩阵-向量注意力计算,得到初始的答案结束位置的概率分布
pe0=softmax(dx·(W·[qx0|hs0]+b)T)
以及初始的带有答案结束位置信息的表征he0∈R256,
he0=(pe0)T·dx,
将he0与hs0进行拼接,作为初始的答案信息表征hans0∈R512;
S5-3、将hans0与qx0进行门控循环单元GRU的一次迭代操作,得到更新后的问题表征qx1,使用qx1重复S5-1与S5-2的步骤得到ps1、hs1、pe1、he1和hans1;
S5-4、重复执行3次S5-3,将各轮结果psi与pei(i=0,1,2,3,4)进行随机掩码平均,如图4所示,得到最终的答案起、止位置分布其中ps与pe中最大元素对应的索引即为答案在文段中的起、止位置。
实施例二:
如图5所示,本实施例为一种机器阅读理解系统,所述机器阅读理解系统用于上面所述的机器阅读理解方法,具体包括:表征融合模块1、信息交互模块2、特征提取模块3、多轮回答模块4;
其中,
所述表征融合模块1,用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;并将获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu;
所述信息交互模块2,用于将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
所述特征提取模块3,用于对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx;
所述多轮回答模块4,用于利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
表1是机器阅读理解任务中各模型性能对比,使用的数据集为SQuAD-v1.0,模型性能的评估指标为EM值和F1值,即精准匹配率和宽松匹配率。从实验结果可以看出基于多样性循环单元的模型在机器阅读理解任务上的表现优于传统的逻辑回归(LR)、Bi□LSTM网络以及小规模自注意力网络等模型。
模型 | EM值(%) | F1值(%) |
LR(Rajpurkar et al.,2016) | 40.0 | 51.0 |
BiDAF(Seo et al.,2017) | 69.2 | 77.8 |
EQuANt(Aubet et al.,2019) | 69.3 | 78.8 |
QANet(Yu et al.,2018) | 73.6 | 82.7 |
FusionNet(Huang et al.,2018) | 75.3 | 83.6 |
SAN(Liu et al.,2018) | 76.2 | 84.1 |
VS3-Net(Park et al.,2019) | 76.7 | 84.6 |
Word+BPE-FRQ(Zhang et al.,2019) | 77.8 | 85.5 |
GF-Net(Lee et al.,2019) | 78.7 | 85.8 |
基于DRU的机器阅读理解方法 | 81.0 | 87.2 |
表1实体关系抽取任务各网络性能对比表
实施例三
本实施例为一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上面所述的机器阅读理解方法的步骤。
实施例四
本实施例为一种存储介质,其存储有计算机程序,该程序被处理器执行时实现上面所述的机器阅读理解方法的步骤。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (8)
1.一种机器阅读理解方法,其特征在于,包括以下步骤:
S1、获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;
S2、将步骤S1获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu;
S3、将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
S4、对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx;
S5、利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置;
所述步骤S2具体包括:
S2-1、使用GloVe和CoVe来表征单词向量,得到wglove∈RL×300以及两层wcove∈RL×600;使用ELMo来表征字符向量,得到wchar∈RL×1024以及两层welmo∈RL×1024;通过特征工程得到特征向量wfeature∈RL×24,将wglove、wchar、wfeature以及wcove与welmo的第一层进行拼接,送入两层一维卷积前馈网络CFF中,得到一度融合后的表征wffn∈RL×256;
S2-2、将wcove与welmo的第一层与wffn拼接得x∈RL×1880,将x送入多样性循环单元DRU中计算,得到二度融合后的表征wdru0∈RL×256;
S2-3、将wglove、welmo的第二层与wdru0进行拼接,再送入一个多样性循环单元DRU中,得到三度融合后的表征wdru1∈RL×256;
S2-4、将wdru0与wdru1进行拼接作为融合后的综合表征u∈RL×512;将wcove、welmo的第二层与wglove进行拼接作为原始表征e∈RL×1924;
S2-5、分别对原始文段文本与原始问题文本执行S2-1~S2-4的过程,得到原始文段表征de、原始问题表征qe、融合后的综合文段表征du以及综合问题表征qu;
所述步骤S3具体包括:
S3-1、将综合文段表征du与原始文段表征de进行拼接,将综合问题表征qu和综合文段表征du进行拼接,通过线性变换降低拼接表征的词向量维数来降低计算开销,得到与/>
dr=ReLU(Wd·[du|de]+bd)
qr=ReLU(Wq·[qu|qe]+bq)
其中Ld与Lq分别为文段和问题的序列长度;ReLU为激活函数;Wd和Wq为可学习的矩阵;bd和bq为可学习的偏置;
S3-2、将文段与问题各自的综合表征u拆分为两层wdru0和wdru1,同时将u送入一层多样性循环单元DRU中得到wdru2,将这三层具有递进关系的表征作为层次表征,记文段与问题各自的三个层次表征分别为与/>i=0,1,2;
S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算,得到交互后的各层次文段表征i=0,1,2,将其与文段综合表征du进行拼接作为最终交互后的整体文段表征/>同时将第三层次问题表征q2作为最终交互后的整体问题表征
2.根据权利要求1所述的一种机器阅读理解方法,其特征在于,所述步骤S2-2中,多样性循环单元DRU内的计算包括以下分步骤:
A1)、对x分别进行降维自注意力计算以及可分离卷积计算,得到全局上下文表征h以及局部信息表征xlocal:
h=(W·x+b)T·softmax(x·v+b)
xlocal=SeparableConv1D(x)
其中W、v和b分别为可学习的矩阵、向量和偏置;
A2)、计算局部门控矩阵g并更新x:
g=σ(W·[x|h]+b)
x=g⊙x+(1-g)⊙xlocal
其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算;
A3)、将x与h通过一层双向长短时记忆网络BiLSTM,得到wdru0。
3.根据权利要求1所述的一种机器阅读理解方法,其特征在于,所述步骤S3-3中,的计算步骤包括:
B1)、通过矩阵乘法,矩阵-向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵i=0,1,2;
其中vd、vq为两个可训练向量,分别代表文段和问题的整体信息;
B2)、取出每一行的最大值并进行softmax计算,得到问题到文段的注意力分数i=0,1,2;
B3)、通过与问题层次表征的矩阵乘法以及/>与文段层次表征的向量-矩阵乘法,得到双向注意力下两个充分信息交互后的文段表征/>与/>
其中为a2在行方向扩展后的结果;
B4)、将交互后的文段表征、文段层次表征及其对应点积进行拼接,通过一次线性变换,得到最终的各层次文段表征
其中Wi、bi分别为可学习的矩阵、偏置。
4.根据权利要求1所述的一种机器阅读理解方法,其特征在于,所述步骤S4包括以下分步骤:
S4-1,将交互后的文段表征d经过一层多样性循环单元DRU后得到ddru,将ddru与d进行拼接,经过一层线性变换得到
dsr=ReLU(W·[ddru|d]+b)
计算dsr的自注意力分数
sd=softmax(dsr·(dsr)T)
将sd与ddru进行矩阵相乘,得到
dsa=sd·ddru;
S4-2,将dsa与ddru进行拼接,送入一层多样性循环单元DRU中,得到最终用于多轮回答的文段表征
S4-3,使用一个可训练的向量v作为问题信息的概括,将其与问题表征q进行向量-矩阵乘法,经过softmax后得到自注意力分数sq,
sq=softmax(q·vT+b)
将sq与线性变换后的问题表征进行向量-矩阵相乘,得到自注意力下的问题表征qx∈R256,作为最终用于多轮回答的初始一维问题表征qx0,
qx0=(sq)T·(W·q+b)。
5.根据权利要求4所述的一种机器阅读理解方法,其特征在于,所述步骤S5包括以下分步骤:
S5-1、将初始的问题向量表征qx0经过一层线性变换转化为与文段矩阵表征相同的词向量维度,通过矩阵-向量乘法及softmax得到文段与问题的注意力分数,作为初始的答案起始位置的概率分布
ps0=softmax(dx·(W·qx0+b)f),
将ps0与文段的上下文表征dx进行向量-矩阵相乘,得到初始的带有答案起始位置信息的表征hs0∈R256,
hs0=(ps0)T·dx;
S5-2、将hs0作为提示与qx0拼接作为新的初始问题表征,与文段的上下文表征dx进行矩阵-向量注意力计算,得到初始的答案结束位置的概率分布
pe0=soffmax(dx·(W·[qx0|hs0]+b)T)
以及初始的带有答案结束位置信息的表征he0∈R256,
he0=(pe0)T·dx,
将he0与hs0进行拼接,作为初始的答案信息表征hans0∈R512;
S5-3、将hans0与qx0进行门控循环单元GRU的一次迭代操作,得到更新后的问题表征qx1,使用qxl重复S5-1与S5-2的步骤得到ps1、hs1、pe1、he1和hansl;
S5-4、重复执行3次S5-3,将各轮结果psi与pei进行随机掩码平均,得到最终的答案起、止位置分布其中ps与pe中最大元素对应的索引即为答案在文段中的起、止位置。
6.一种机器阅读理解系统,所述机器阅读理解系统用于实现权利要求1-5任一所述的机器阅读理解方法,其特征在于,包括:表征融合模块(1)、信息交互模块(2)、特征提取模块(3)、多轮回答模块(4);
其中,
所述表征融合模块(1),用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;并将获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu;
所述信息交互模块(2),用于将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
所述特征提取模块(3),用于对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx;
所述多轮回答模块(4),用于利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
7.一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任意一项所述方法的步骤。
8.一种存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419520.2A CN114218365B (zh) | 2021-11-26 | 2021-11-26 | 一种机器阅读理解方法、系统、计算机及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419520.2A CN114218365B (zh) | 2021-11-26 | 2021-11-26 | 一种机器阅读理解方法、系统、计算机及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114218365A CN114218365A (zh) | 2022-03-22 |
CN114218365B true CN114218365B (zh) | 2024-04-05 |
Family
ID=80698485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111419520.2A Active CN114218365B (zh) | 2021-11-26 | 2021-11-26 | 一种机器阅读理解方法、系统、计算机及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218365B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN112579739A (zh) * | 2020-12-23 | 2021-03-30 | 合肥工业大学 | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 |
CN113011571A (zh) * | 2021-03-03 | 2021-06-22 | 华南理工大学 | 基于Transformer模型的INT8离线量化及整数推断方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619123B (zh) * | 2019-09-19 | 2021-01-26 | 电子科技大学 | 一种机器阅读理解方法 |
-
2021
- 2021-11-26 CN CN202111419520.2A patent/CN114218365B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN112579739A (zh) * | 2020-12-23 | 2021-03-30 | 合肥工业大学 | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 |
CN113011571A (zh) * | 2021-03-03 | 2021-06-22 | 华南理工大学 | 基于Transformer模型的INT8离线量化及整数推断方法 |
Non-Patent Citations (1)
Title |
---|
基于时间卷积网络的机器阅读理解;林世平;陈璐;陈开志;吴运兵;廖祥文;;福州大学学报(自然科学版);20200509;第48卷(第3期);第276-282页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114218365A (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Iteratively prompt pre-trained language models for chain of thought | |
Ding et al. | Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models | |
Su et al. | Vitas: Vision transformer architecture search | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN111462750A (zh) | 语义与知识增强的端到端任务型对话系统及方法 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
WO2020143253A1 (zh) | 一种基于Sparse Autoencoder的电力系统运行方式聚类方法 | |
CN111046187A (zh) | 基于对抗式注意力机制的一样本知识图谱关系学习方法及系统 | |
Wang et al. | A deep reinforcement learning based multi-step coarse to fine question answering (mscqa) system | |
CN117058276B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN114462420A (zh) | 一种基于特征融合模型的虚假新闻检测方法 | |
CN116028604A (zh) | 一种基于知识增强图卷积网络的答案选择方法及系统 | |
Zhong et al. | Recurrent attention unit | |
Kumar | Adding binary search connections to improve densenet performance | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
Zhang et al. | Enhanced user interaction in operating systems through machine learning language models | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN114218365B (zh) | 一种机器阅读理解方法、系统、计算机及存储介质 | |
Yang et al. | Learning to generalize provably in learning to optimize | |
CN115564049B (zh) | 一种双向编码的知识图谱嵌入方法 | |
CN114357160B (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 | |
CN108170657A (zh) | 一种自然语言长文本生成方法 | |
Goldfarb | Inductive class representation and its central role in pattern recognition | |
Cui et al. | A Comprehensive Survey on Text Filling Algorithms: A Research Review | |
CN118194042B (zh) | 基于指数记忆增强的片段级循环Transformer模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |