CN114218365A - 一种机器阅读理解方法、系统、计算机及存储介质 - Google Patents

一种机器阅读理解方法、系统、计算机及存储介质 Download PDF

Info

Publication number
CN114218365A
CN114218365A CN202111419520.2A CN202111419520A CN114218365A CN 114218365 A CN114218365 A CN 114218365A CN 202111419520 A CN202111419520 A CN 202111419520A CN 114218365 A CN114218365 A CN 114218365A
Authority
CN
China
Prior art keywords
characterization
representation
segment
text segment
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111419520.2A
Other languages
English (en)
Other versions
CN114218365B (zh
Inventor
姜小波
何昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111419520.2A priority Critical patent/CN114218365B/zh
Publication of CN114218365A publication Critical patent/CN114218365A/zh
Application granted granted Critical
Publication of CN114218365B publication Critical patent/CN114218365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种机器阅读理解方法、系统、计算机及存储介质,方法包括:获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;将获得的信息进行向量表征以及向量表征融合;进行层次注意力交互,并将各层的交互结果进行拼接;对交互后的文段表征和交互后的问题表征进行特征提取;进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。本发明以提出的多样性循环单元为核心模块,通过降维自注意力机制与自适应局部信息门控机制提取全局与局部信息,实现了兼顾准确率、计算/参数量的最佳机器阅读理解综合性能。

Description

一种机器阅读理解方法、系统、计算机及存储介质
技术领域
本发明涉及自然语言处理的技术领域,尤其涉及到一种机器阅读理解方法、系统、计算机及存储介质。
背景技术
随着人工智能的高速发展,人机交互的应用场景愈加广泛,如智能客服、聊天机器人、推荐系统等。在优化用户体验的过程中,如何让机器更好地理解人类语言是人机交互技术最核心的问题。
机器阅读理解(Machine Reading Comprehension,MRC)为解决上述问题提供了技术支撑,其通过让计算机阅读文本段落并回答给定问题的任务形式,训练机器理解人类语言,并具备一定的推理能力。近年来,深度神经网络的创新突破以及大规模预训练模型的迭代更新,极大促进了MRC技术的发展,研究者们纷纷投入开发规模更大、层数更深的MRC模型,其参数量从几百兆到几亿甚至上百亿,导致计算开销与训练成本激增,而回答的准确率却趋于饱和。
如今,研究者们开始关注MRC模型的兼顾准确率与计算/参数量的综合性能,提出了各种优化方案,以实现计算/存储开销降低的同时保证准确性。其中一部分研究工作以低计算/参数开销的循环神经网络如LSTM、GRU为基础,通过优化MRC模型架构,提出新颖的计算模块或计算机制来提升模型回答的准确率;另一部分研究则针对高准确率的大规模MRC模型,采用矩阵分解、参数共享、剪枝与量化等方法降低其参数量。
但是,这些方法依然存在三个主要问题:
(1)基于LSTM、GRU的MRC模型在提取当前词的特征时,只能利用单向循环迭代的信息,无法同时兼顾上下文,造成整体模型对上下文信息的提取不够充分,进而影响回答的准确率。
(2)轻量处理后的大规模MRC模型虽然参数量减少,但依然存在大量的平方级复杂度的自注意力运算,因此实际计算开销并未降低,其训练过程难以大批量并行进行,且受到文本长度以及词向量维度的严重限制。
(3)现阶段MRC模型中使用的自注意力机制过于注重全局信息,即每个词都要与整个文段中所有词计算注意力,造成大量计算开销,而多数情况下答案的获取只需关注其所在的一段局部范围。
因此,如何解决上述问题,使MRC模型的兼顾准确率与计算/参数量的综合性能达到最优,是一项重要且具有实际意义的任务。
发明内容
本发明的目的在于克服现有技术的不足,提供一种机器阅读理解方法,以提出的多样性循环单元(Diversity Recurrent Unit,DRU)为核心,将低参数/计算量的循环神经网络与提出的低时间复杂度的降维自注意力机制相结合,对文段与问题进行特征提取,得到充分融合上下文信息的文段与问题表征,然后通过局部信息门控增强二者上下文表征中局部信息的比重,为答案获取提供关注范围,从而在低计算/参数开销的条件下提高了回答的准确率,实现MRC的综合性能最优。
为实现上述目的,本发明所提供的技术方案为:
一种机器阅读理解方法,包括以下步骤:
S1、获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;
S2、将步骤S1获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu
S3、将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
S4、对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx
S5、利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
进一步地,所述步骤S2具体包括:
S2-1、使用GloVe和CoVe来表征单词向量,得到wglove∈RL×300以及两层wcove∈RL×600;使用ELMo来表征字符向量,得到wchar∈RL×1024以及两层welmo∈RL×1024;通过特征工程得到特征向量wfeature∈RL×24,将wglove、wchar、wfeature以及wcove与welmo的第一层进行拼接,送入两层一维卷积前馈网络CFF中,得到一度融合后的表征wffn∈RL×256
S2-2、将wcove与welmo的第一层与wffn拼接得x∈RL×1880,将x送入多样性循环单元DRU中计算,得到二度融合后的表征wdru0∈RL×256
S2-3、将wglove、welmo的第二层与wdru0进行拼接,再送入一个多样性循环单元DRU中,得到三度融合后的表征wdru1∈RL×256
S2-4、将wdru0与wdru1进行拼接作为融合后的综合表征u∈RL×512;将wcove、welmo的第二层与wglove进行拼接作为原始表征e∈RL×1924
S2-5、分别对原始文段文本与原始问题文本执行S2-1~S2-4的过程,得到原始文段表征de、原始问题表征qe、融合后的综合文段表征du以及综合问题表征qu
进一步地,所述步骤S2-2中,多样性循环单元DRU内的计算包括以下分步骤:
A1)、对x分别进行降维自注意力计算以及可分离卷积计算,得到全局上下文表征h以及局部信息表征xlocal
h=(W·x+b)T·softmax(x·v+b)
xlocal=SeparableConvlD(x)
其中W、v和b分别为可学习的矩阵、向量和偏置;
A2)、计算局部门控矩阵g并更新x:
g=σ(W·[x|h]+b)
x=g⊙x+(1-g)⊙xlocal
其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算;
A3)、将x与h通过一层双向长短时记忆网络BiLSTM,得到wdru0
进一步地,所述步骤S3具体包括:
S3-1、将综合文段表征du与原始文段表征de进行拼接,将综合问题表征qu和综合文段表征du进行拼接,通过线性变换降低拼接表征的词向量维数来降低计算开销,得到
Figure BDA0003376331230000041
Figure BDA0003376331230000042
dr=ReLU(Wd·[du|de]+bd)
qr=ReLU(Wq·[qu|qe]+bq)
其中Ld与Lq分别为文段和问题的序列长度;ReLU为激活函数;qd和Wq为可学习的矩阵;bd和bq为可学习的偏置;
S3-2、将文段与问题各自的综合表征u拆分为两层wdru0和wdru1,同时将u送入一层多样性循环单元DRU中得到wdru2,将这三层具有递进关系的表征作为层次表征,记文段与问题各自的三个层次表征分别为
Figure BDA0003376331230000043
Figure BDA0003376331230000044
i=0,1,2;
S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算,得到交互后的各层次文段表征
Figure BDA0003376331230000045
i=0,1,2,将其与文段综合表征du进行拼接作为最终交互后的整体文段表征
Figure BDA0003376331230000046
同时将第三层次问题表征q2作为最终交互后的整体问题表征
Figure BDA0003376331230000051
进一步地,所述步骤S3-3中,
Figure BDA0003376331230000052
的计算步骤包括:
B1)、通过矩阵乘法,矩阵一向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵
Figure BDA0003376331230000053
i=0,1,2;
Figure BDA0003376331230000054
其中vd、vq为两个可训练向量,分别代表文段和问题的整体信息;
B2)、取出
Figure BDA0003376331230000055
每一行的最大值并进行softmax计算,得到问题到文段的注意力分数
Figure BDA0003376331230000056
Figure BDA0003376331230000057
B3)、通过
Figure BDA0003376331230000058
与问题层次表征的矩阵乘法以及
Figure BDA0003376331230000059
与文段层次表征的向量-矩阵乘法,得到双向注意力下两个充分信息交互后的文段表征
Figure BDA00033763312300000510
Figure BDA00033763312300000511
Figure BDA00033763312300000512
Figure BDA00033763312300000513
其中
Figure BDA00033763312300000514
为a2在行方向扩展后的结果;
B4)、将交互后的文段表征、文段层次表征及其对应点积进行拼接,通过一次线性变换,得到最终的各层次文段表征
Figure BDA00033763312300000515
Figure BDA00033763312300000516
其中Wi、bi分别为可学习的矩阵、偏置。
进一步地,所述步骤S4包括以下分步骤:
S4-1,将交互后的文段表征d经过一层多样性循环单元DRU后得到ddru,将ddru与d进行拼接,经过一层线性变换得到
Figure BDA00033763312300000517
dsr=ReLU(W·[ddru|d]+b)
计算dsr的自注意力分数
Figure BDA00033763312300000518
sd=softmax(dsr·(dsr)T)
将sd与ddru进行矩阵相乘,得到
Figure BDA0003376331230000061
dsa=sd·ddru
S4-2,将dsa与ddru进行拼接,送入一层多样性循环单元DRU中,得到最终用于多轮回答的文段表征
Figure BDA0003376331230000062
S4-3,使用一个可训练的向量v作为问题信息的概括,将其与问题表征q进行向量-矩阵乘法,经过softmax后得到自注意力分数sq
sq=softmax(q·vT+b)
将sq与线性变换后的问题表征进行向量-矩阵相乘,得到自注意力下的问题表征qx∈R256,作为最终用于多轮回答的初始一维问题表征qx0
qx0=(sq)T·(W·q+b)。
进一步地,所述步骤S5包括以下分步骤:
S5-1、将初始的问题向量表征qx0经过一层线性变换转化为与文段矩阵表征相同的词向量维度,通过矩阵-向量乘法及softmax得到文段与问题的注意力分数,作为初始的答案起始位置的概率分布
Figure BDA0003376331230000063
ps0=softmax(dx·(W·qx0+b)T),
将ps0与文段的上下文表征dx进行向量-矩阵相乘,得到初始的带有答案起始位置信息的表征hs0∈R256
hs0=(ps0)T·dx
S5-2、将hs0作为提示与qx0拼接作为新的初始问题表征,与文段的上下文表征dx进行矩阵-向量注意力计算,得到初始的答案结束位置的概率分布
Figure BDA0003376331230000064
pe0=softmax(dx·(W·[qx0|hs0]+b)T)
以及初始的带有答案结束位置信息的表征he0∈R256
he0=(pe0)T·dx
将he0与hs0进行拼接,作为初始的答案信息表征hans0∈R512
S5-3、将hans0与gx0进行门控循环单元GRU的一次迭代操作,得到更新后的问题表征qx1,使用qx1重复S5-1与S5-2的步骤得到ps1、hs1、pe1、he1和hans1
S5-4、重复执行3次S5-3,将各轮结果psi与pei进行随机掩码平均,得到最终的答案起、止位置分布
Figure BDA0003376331230000071
其中ps与pe中最大元素对应的索引即为答案在文段中的起、止位置。
为实现上述目的,本发明另外提供一种机器阅读理解系统,该机器阅读理解系统用于实现上面所述的机器阅读理解方法,其包括:表征融合模块、信息交互模块、特征提取模块、多轮回答模块;
其中,
所述表征融合模块,用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;并将获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu
所述信息交互模块,用于将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
所述特征提取模块,用于对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx
所述多轮回答模块,用于利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
为实现上述目的,本发明另外提供一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上面所述的机器阅读理解方法的步骤。
为实现上述目的,本发明另外提供一种存储介质,其存储有计算机程序,该程序被处理器执行时实现上面所述的机器阅读理解方法的步骤。
与现有技术相比,本技术方案的原理及优点如下:
本技术方案以提出的多样性循环单元DRU为核心,将低参数/计算量的循环神经网络与提出的低时间复杂度的降维自注意力机制相结合,来获取充分融合上下文信息的文段与问题表征,并通过局部信息门控增强二者上下文表征中局部信息的比重,从而在低计算/参数开销的条件下提高了回答的准确率,实现MRC的综合性能最优。
本技术方案中,多样性循环单元DRU以及多轮回答模块具有高泛化性,其中多样性循环单元DRU可移植到其他任意MRC模型中作为特征提取器,提升模型的综合性能;而多轮回答模块可移植到相关的MRC以及其他问答相关模型中,提升回答的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一一种机器阅读理解方法的原理流程图;
图2为本发明实施例一一种机器阅读理解方法中多样性循环单元DRU的算法机制图;
图3为本发明实施例一一种机器阅读理解方法中双向交互注意力算法机制图;
图4为本发明实施例一一种机器阅读理解方法中使用的随机掩码平均计算机制图;
图5为本发明实施例二一种机器阅读理解系统的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例一:
如图1所示,本实施例所述的一种机器阅读理解方法,包括以下步骤:
S1、对原始文段文本和原始问题文本进行预处理,获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;
S2、将步骤S1获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu
具体地说,步骤S2包括以下分步骤:
S2-1、使用GloVe(Global Vectors)和CoVe(Contextualized Vectors)来表征单词向量,得到wgloe∈RL×300以及两层wcove∈RL×600;使用ELMo来表征字符向量,得到wchar∈RL ×1024以及两层welmo∈RL×1024;通过特征工程得到特征向量wfeature∈RL×24,将wglove、wchar、wfeature以及wcove与welmo的第一层进行拼接,送入两层一维卷积前馈网络CFF中,得到一度融合后的表征wffn∈RL×256
S2-2、将wcove与welmo的第一层与wffn拼接得x∈RL×1880,将x送入多样性循环单元DRU中计算,得到二度融合后的表征wdru0∈RL×256
具体地,如图2所示,多样性循环单元DRU内的计算包括以下分步骤:
A1)、对x分别进行降维自注意力计算以及可分离卷积计算,得到全局上下文表征h以及局部信息表征xlocal
h=(W·x+b)T·softmax(x·v+b)
xlocal=SeparableConv1D(x)
其中W、v和b分别为可学习的矩阵、向量和偏置;
A2)、计算局部门控矩阵g并更新x:
g=σ(W·[x|h]+b)
x=g⊙x+(1-g)⊙xlocal
其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算;
A3)、将x与h通过一层双向长短时记忆网络BiLSTM,得到wdru0
S2-3、将wglove、welmo的第二层与wdru0进行拼接,再送入一个多样性循环单元DRU中,得到三度融合后的表征wdru1∈RL×256
S2-4、将wdru0与wdru1进行拼接作为融合后的综合表征u∈RL×512;将wcove、welmo的第二层与wglove进行拼接作为原始表征e∈RL×1924
S2-5、分别对原始文段文本与原始问题文本执行S2-1~S2-4的过程,得到原始文段表征de、原始问题表征qe、融合后的综合文段表征du以及综合问题表征qu
S3、将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
具体地,步骤S3具体包括:
S3-1、将综合文段表征du与原始文段表征de进行拼接,将综合问题表征qu和综合文段表征du进行拼接,通过线性变换降低拼接表征的词向量维数来降低计算开销,得到
Figure BDA0003376331230000101
Figure BDA0003376331230000102
dr=ReLU(Wd·[du|de]+bd)
qr=ReLU(Wq·[qu|qe]+bq)
其中Ld与Lq分别为文段和问题的序列长度;ReLU为激活函数;Wd和Wq为可学习的矩阵;bd和bq为可学习的偏置;
S3-2、将文段与问题各自的综合表征u拆分为两层wdru0和wdru1,同时将u送入一层多样性循环单元DRU中得到wdru2,将这三层具有递进关系的表征作为层次表征,记文段与问题各自的三个层次表征分别为
Figure BDA0003376331230000111
Figure BDA0003376331230000112
i=0,1,2;
S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算,如图3所示,得到交互后的各层次文段表征
Figure BDA0003376331230000113
i=0,1,2,将其与文段综合表征du进行拼接作为最终交互后的整体文段表征
Figure BDA0003376331230000114
同时将第三层次问题表征q2作为最终交互后的整体问题表征
Figure BDA0003376331230000115
具体地,
Figure BDA0003376331230000116
的计算步骤包括:
B1)、通过矩阵乘法,矩阵-向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵
Figure BDA0003376331230000117
i=0,1,2;
Figure BDA0003376331230000118
其中vd、vq为两个可训练向量,分别代表文段和问题的整体信息;
B2)、取出
Figure BDA0003376331230000119
每一行的最大值并进行softmax计算,得到问题到文段的注意力分擞
Figure BDA00033763312300001110
Figure BDA00033763312300001111
B3)、通过
Figure BDA00033763312300001112
与问题层次表征的矩阵乘法以及
Figure BDA00033763312300001113
与文段层次表征的向量-矩阵乘法,得到双向注意力下两个充分信息交互后的文段表征
Figure BDA00033763312300001114
Figure BDA00033763312300001121
Figure BDA00033763312300001116
Figure BDA00033763312300001117
其中
Figure BDA00033763312300001118
为a2在行方向扩展后的结果;
B4)、将交互后的文段表征、文段层次表征及其对应点积进行拼接,通过一次线性变换,得到最终的各层次文段表征
Figure BDA00033763312300001119
Figure BDA00033763312300001120
其中Wi、bi分别为可学习的矩阵、偏置。
S4、对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx
具体地,步骤S4包括以下分步骤:
S4-1,将交互后的文段表征d经过一层多样性循环单元DRU后得到ddru,将ddru与d进行拼接,经过一层线性变换得到
Figure BDA0003376331230000121
dsr=ReLU(W·[ddru|d]+b)
计算dsr的自注意力分数
Figure BDA0003376331230000122
sd=softmax(dsr·(dsr)T)
将Sd与ddru进行矩阵相乘,得到
Figure BDA0003376331230000123
dsa=sd·ddru
S4-2,将dsa与ddru进行拼接,送入一层多样性循环单元DRU中,得到最终用于多轮回答的文段表征
Figure BDA0003376331230000124
S4-3,使用一个可训练的向量v作为问题信息的概括,将其与问题表征q进行向量-矩阵乘法,经过softmax后得到自注意力分数sq
sq=softmax(q·vT+b)
将sq与线性变换后的问题表征进行向量-矩阵相乘,得到自注意力下的问题表征qx∈R256,作为最终用于多轮回答的初始一维问题表征qx0
qx0=(sq)T·(W·q+b)。
S5、利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
具体地,步骤S5包括以下分步骤:
S5-1、将初始的问题向量表征qx0经过一层线性变换转化为与文段矩阵表征相同的词向量维度,通过矩阵-向量乘法及softmax得到文段与问题的注意力分数,作为初始的答案起始位置的概率分布
Figure BDA0003376331230000131
ps0=softmax(dx·(W·qx0+b)T),
将ps0与文段的上下文表征dx进行向量-矩阵相乘,得到初始的带有答案起始位置信息的表征hs0∈R256
hs0=(ps0)T·dx
S5-2、将hs0作为提示与qx0拼接作为新的初始问题表征,与文段的上下文表征dx进行矩阵-向量注意力计算,得到初始的答案结束位置的概率分布
Figure BDA0003376331230000132
pe0=softmax(dx·(W·[qx0|hs0]+b)T)
以及初始的带有答案结束位置信息的表征he0∈R256
he0=(pe0)T·dx
将he0与hs0进行拼接,作为初始的答案信息表征hans0∈R512
S5-3、将hans0与qx0进行门控循环单元GRU的一次迭代操作,得到更新后的问题表征qx1,使用qx1重复S5-1与S5-2的步骤得到ps1、hs1、pe1、he1和hans1
S5-4、重复执行3次S5-3,将各轮结果psi与pei(i=0,1,2,3,4)进行随机掩码平均,如图4所示,得到最终的答案起、止位置分布
Figure BDA0003376331230000133
其中ps与pe中最大元素对应的索引即为答案在文段中的起、止位置。
实施例二:
如图5所示,本实施例为一种机器阅读理解系统,所述机器阅读理解系统用于上面所述的机器阅读理解方法,具体包括:表征融合模块1、信息交互模块2、特征提取模块3、多轮回答模块4;
其中,
所述表征融合模块1,用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;并将获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu
所述信息交互模块2,用于将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
所述特征提取模块3,用于对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx
所述多轮回答模块4,用于利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
表1是机器阅读理解任务中各模型性能对比,使用的数据集为SQuAD-v1.0,模型性能的评估指标为EM值和F1值,即精准匹配率和宽松匹配率。从实验结果可以看出基于多样性循环单元的模型在机器阅读理解任务上的表现优于传统的逻辑回归(LR)、Bi□LSTM网络以及小规模自注意力网络等模型。
模型 EM值(%) F1值(%)
LR(Rajpurkar et al.,2016) 40.0 51.0
BiDAF(Seo et al.,2017) 69.2 77.8
EQuANt(Aubet et al.,2019) 69.3 78.8
QANet(Yu et al.,2018) 73.6 82.7
FusionNet(Huang et al.,2018) 75.3 83.6
SAN(Liu et al.,2018) 76.2 84.1
VS3-Net(Park et al.,2019) 76.7 84.6
Word+BPE-FRQ(Zhang et al.,2019) 77.8 85.5
GF-Net(Lee et al.,2019) 78.7 85.8
基于DRU的机器阅读理解方法 81.0 87.2
表1实体关系抽取任务各网络性能对比表
实施例三
本实施例为一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上面所述的机器阅读理解方法的步骤。
实施例四
本实施例为一种存储介质,其存储有计算机程序,该程序被处理器执行时实现上面所述的机器阅读理解方法的步骤。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (10)

1.一种机器阅读理解方法,其特征在于,包括以下步骤:
S1、获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;
S2、将步骤S1获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu
S3、将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
S4、对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx
S5、利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
2.根据权利要求1所述的一种机器阅读理解方法,其特征在于,所述步骤S2具体包括:
S2-1、使用GloVe和CoVe来表征单词向量,得到wglove∈RL×300以及两层wcove∈RL×600;使用ELMo来表征字符向量,得到wchar∈RL×1024以及两层welmo∈RL×1024;通过特征工程得到特征向量wfeature∈RL×24,将wglove、wchar、wfeature以及wcove与welmo的第一层进行拼接,送入两层一维卷积前馈网络CFF中,得到一度融合后的表征wffn∈RL×256
S2-2、将wcove与welmo的第一层与wffn拼接得x∈RL×1880,将x送入多样性循环单元DRU中计算,得到二度融合后的表征wdru0∈RL×256
S2-3、将wglove、welmo的第二层与wdru0进行拼接,再送入一个多样性循环单元DRU中,得到三度融合后的表征wdru1∈RL×256
S2-4、将wdru0与wdru1进行拼接作为融合后的综合表征u∈RL×512;将wcove、welmo的第二层与wglove进行拼接作为原始表征e∈RL×1924
S2-5、分别对原始文段文本与原始问题文本执行S2-1~S2-4的过程,得到原始文段表征de、原始问题表征qe、融合后的综合文段表征du以及综合问题表征qu
3.根据权利要求2所述的一种机器阅读理解方法,其特征在于,所述步骤S2-2中,多样性循环单元DRU内的计算包括以下分步骤:
A1)、对x分别进行降维自注意力计算以及可分离卷积计算,得到全局上下文表征h以及局部信息表征xlocal
h=(W·x+b)T·softmax(x·v+b)
xlocal=SeparableConvlD(x)
其中W、v和b分别为可学习的矩阵、向量和偏置;
A2)、计算局部门控矩阵g并更新x:
g=σ(W·[x|h]+b)
x=g⊙x+(1-g)⊙xlocal
其中σ与⊙分别表示矩阵元素的sigmoid运算与点积运算;
A3)、将x与h通过一层双向长短时记忆网络BiLSTM,得到wdru0
4.根据权利要求2所述的一种机器阅读理解方法,其特征在于,所述步骤S3具体包括:
S3-1、将综合文段表征du与原始文段表征de进行拼接,将综合问题表征qu和综合文段表征du进行拼接,通过线性变换降低拼接表征的词向量维数来降低计算开销,得到
Figure FDA0003376331220000021
Figure FDA0003376331220000022
dr=ReLU(Wd·[du|de]+bd)
qr=ReLU(Wq·[qu|qe]+bq)
其中Ld与Lq分别为文段和问题的序列长度;ReLU为激活函数;Wd和Wq为可学习的矩阵;bd和bq为可学习的偏置;
S3-2、将文段与问题各自的综合表征u拆分为两层wdru0和wdru1,同时将u送入一层多样性循环单元DRU中得到wdru2,将这三层具有递进关系的表征作为层次表征,记文段与问题各自的三个层次表征分别为
Figure FDA0003376331220000031
Figure FDA0003376331220000032
i=0,1,2;
S3-3、对每个层次i对应的文段与问题表征进行双向注意力交互计算,得到交互后的各层次文段表征
Figure FDA0003376331220000033
将其与文段综合表征du进行拼接作为最终交互后的整体文段表征
Figure FDA0003376331220000034
同时将第三层次问题表征q2作为最终交互后的整体问题表征
Figure FDA0003376331220000035
5.根据权利要求4所述的一种机器阅读理解方法,其特征在于,所述步骤S3-3中,
Figure FDA0003376331220000036
的计算步骤包括:
B1)、通过矩阵乘法,矩阵-向量乘法以及行方向的掩码softmax计算得到文段到问题的注意力分数矩阵
Figure FDA0003376331220000037
Figure FDA0003376331220000038
其中vd、vq为两个可训练向量,分别代表文段和问题的整体信息;
B2)、取出
Figure FDA0003376331220000039
每一行的最大值并进行softmax计算,得到问题到文段的注意力分数
Figure FDA00033763312200000310
Figure FDA00033763312200000311
B3)、通过
Figure FDA00033763312200000312
与问题层次表征的矩阵乘法以及
Figure FDA00033763312200000313
与文段层次表征的向量-矩阵乘法,得到双向注意力下两个充分信息交互后的文段表征
Figure FDA00033763312200000314
Figure FDA00033763312200000315
Figure FDA00033763312200000316
Figure FDA0003376331220000041
其中
Figure FDA0003376331220000042
为a2在行方向扩展后的结果;
B4)、将交互后的文段表征、文段层次表征及其对应点积进行拼接,通过一次线性变换,得到最终的各层次文段表征
Figure FDA0003376331220000043
Figure FDA0003376331220000044
其中Wi、bi分别为可学习的矩阵、偏置。
6.根据权利要求1所述的一种机器阅读理解方法,其特征在于,所述步骤S4包括以下分步骤:
S4-1,将交互后的文段表征d经过一层多样性循环单元DRU后得到ddru,将ddru与d进行拼接,经过一层线性变换得到
Figure FDA0003376331220000045
dsr=ReLU(W·[ddru|d]+b)
计算dsr的自注意力分数
Figure FDA0003376331220000046
sd=softmax(dsr·(dsr)T)
将sd与ddru进行矩阵相乘,得到
Figure FDA0003376331220000047
dsa=sd·ddru
S4-2,将dsa与ddru进行拼接,送入一层多样性循环单元DRU中,得到最终用于多轮回答的文段表征
Figure FDA0003376331220000048
S4-3,使用一个可训练的向量v作为问题信息的概括,将其与问题表征q进行向量-矩阵乘法,经过softmax后得到自注意力分数sq
sq=softmax(q·vT+b)
将sq与线性变换后的问题表征进行向量-矩阵相乘,得到自注意力下的问题表征qx∈R256,作为最终用于多轮回答的初始一维问题表征qx0
qx0=(sq)T·(W·q+b)。
7.根据权利要求6所述的一种机器阅读理解方法,其特征在于,所述步骤S5包括以下分步骤:
S5-1、将初始的问题向量表征qx0经过一层线性变换转化为与文段矩阵表征相同的词向量维度,通过矩阵-向量乘法及softmax得到文段与问题的注意力分数,作为初始的答案起始位置的概率分布
Figure FDA0003376331220000051
ps0=softmax(dx·(W·qx0+b)T),
将ps0与文段的上下文表征dx进行向量-矩阵相乘,得到初始的带有答案起始位置信息的表征hs0∈R256
hs0=(ps0)T·dx
S5-2、将hs0作为提示与qx0拼接作为新的初始问题表征,与文段的上下文表征dx进行矩阵-向量注意力计算,得到初始的答案结束位置的概率分布
Figure FDA0003376331220000053
pe0=soffmax(dx·(W·[qx0|hs0]+b)T)
以及初始的带有答案结束位置信息的表征he0∈R256
he0=(pe0)T·dx
将he0与hs0进行拼接,作为初始的答案信息表征hans0∈R512
S5-3、将hans0与qx0进行门控循环单元GRU的一次迭代操作,得到更新后的问题表征qx1,使用qx1重复S5-1与S5-2的步骤得到ps1、hs1、pe1、he1和hans1
S5-4、重复执行3次S5-3,将各轮结果psi与pei进行随机掩码平均,得到最终的答案起、止位置分布
Figure FDA0003376331220000052
其中ps与pe中最大元素对应的索引即为答案在文段中的起、止位置。
8.一种机器阅读理解系统,所述机器阅读理解系统用于实现权利要求1-7任一所述的机器阅读理解方法,其特征在于,包括:表征融合模块(1)、信息交互模块(2)、特征提取模块(3)、多轮回答模块(4);
其中,
所述表征融合模块(1),用于获取原始文段文本和原始问题文本的单词级信息、字符级信息以及特征信息;并将获得的信息进行向量表征以及向量表征融合,得到原始文段表征de和原始问题表征qe,以及融合后的综合文段表征du和综合问题表征qu
所述信息交互模块(2),用于将原始文段表征de、原始问题表征qe、综合文段表征du、综合问题表征qu进行层次注意力交互,并将各层的交互结果进行拼接,得到交互后的文段表征d和交互后的问题表征q;
所述特征提取模块(3),用于对交互后的文段表征d和交互后的问题表征q进行特征提取,得到文段的上下文表征dx和问题的上下文表征qx
所述多轮回答模块(4),用于利用文段的上下文表征dx和问题的上下文表征qx进行多轮回答,将每轮的生成的双指针分布结果进行汇总,并计算汇总结果的随机掩码平均值,得到最终的双指针分布,分布中最大元素对应的索引即为答案在文段中的起、止位置。
9.一种计算机,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任意一项所述方法的步骤。
10.一种存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN202111419520.2A 2021-11-26 2021-11-26 一种机器阅读理解方法、系统、计算机及存储介质 Active CN114218365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111419520.2A CN114218365B (zh) 2021-11-26 2021-11-26 一种机器阅读理解方法、系统、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111419520.2A CN114218365B (zh) 2021-11-26 2021-11-26 一种机器阅读理解方法、系统、计算机及存储介质

Publications (2)

Publication Number Publication Date
CN114218365A true CN114218365A (zh) 2022-03-22
CN114218365B CN114218365B (zh) 2024-04-05

Family

ID=80698485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111419520.2A Active CN114218365B (zh) 2021-11-26 2021-11-26 一种机器阅读理解方法、系统、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN114218365B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
US20210089718A1 (en) * 2019-09-19 2021-03-25 University Of Electronic Science And Technology Of China Method for machine reading comprehension
CN112579739A (zh) * 2020-12-23 2021-03-30 合肥工业大学 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN113011571A (zh) * 2021-03-03 2021-06-22 华南理工大学 基于Transformer模型的INT8离线量化及整数推断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089718A1 (en) * 2019-09-19 2021-03-25 University Of Electronic Science And Technology Of China Method for machine reading comprehension
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
CN112579739A (zh) * 2020-12-23 2021-03-30 合肥工业大学 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN113011571A (zh) * 2021-03-03 2021-06-22 华南理工大学 基于Transformer模型的INT8离线量化及整数推断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林世平;陈璐;陈开志;吴运兵;廖祥文;: "基于时间卷积网络的机器阅读理解", 福州大学学报(自然科学版), vol. 48, no. 3, 9 May 2020 (2020-05-09), pages 276 - 282 *

Also Published As

Publication number Publication date
CN114218365B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
Raschka et al. Machine Learning with PyTorch and Scikit-Learn: Develop machine learning and deep learning models with Python
Wang et al. Iteratively prompt pre-trained language models for chain of thought
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
Wang et al. A deep reinforcement learning based multi-step coarse to fine question answering (mscqa) system
CN112463987A (zh) 一种中国古典园林知识图谱补全与认知推理方法
Sichao et al. Two‐order graph convolutional networks for semi‐supervised classification
Chairatanakul et al. PGRA: Projected graph relation-feature attention network for heterogeneous information network embedding
CN115545160A (zh) 一种多学习行为协同的知识追踪方法及系统
Wu et al. Self-supervised heterogeneous hypergraph network for knowledge tracing
Tan et al. End-to-end supermask pruning: Learning to prune image captioning models
CN114218365B (zh) 一种机器阅读理解方法、系统、计算机及存储介质
Su et al. A survey based on knowledge graph in fault diagnosis, analysis and prediction: key technologies and challenges
Yang et al. Deep knowledge tracing with learning curves
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN115564049A (zh) 一种双向编码的知识图谱嵌入方法
Yang et al. Learning to generalize provably in learning to optimize
CN116719947A (zh) 一种用于电力巡检缺陷检测的知识处理方法及装置
CN115809322A (zh) 一种基于gpt3的问答系统文本生成方法及装置
CN112766513B (zh) 一种记忆协同的知识追踪方法及系统
Selma et al. Deep learning for recommender systems: Literature review and perspectives
Lin et al. Exploit Domain Knowledge: Smarter Abductive Learning and Its Application to Math Word Problems
Wu et al. A Knowledge Representation Method for Multiple Pattern Embeddings Based on Entity-Relation Mapping Matrix
CN111882124A (zh) 一种基于生成对抗模仿学习的同质平台发展效应预测方法
CN116821712B (zh) 非结构化文本与知识图谱的语义匹配方法及装置
Zhang et al. Reinforced Adaptive Knowledge Learning for Multimodal Fake News Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant