CN114385803A - 一种基于外部知识和片段选择的抽取式阅读理解方法 - Google Patents

一种基于外部知识和片段选择的抽取式阅读理解方法 Download PDF

Info

Publication number
CN114385803A
CN114385803A CN202210034681.8A CN202210034681A CN114385803A CN 114385803 A CN114385803 A CN 114385803A CN 202210034681 A CN202210034681 A CN 202210034681A CN 114385803 A CN114385803 A CN 114385803A
Authority
CN
China
Prior art keywords
knowledge
text
representing
vector
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210034681.8A
Other languages
English (en)
Other versions
CN114385803B (zh
Inventor
张璞
谢陈
金诗鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210034681.8A priority Critical patent/CN114385803B/zh
Publication of CN114385803A publication Critical patent/CN114385803A/zh
Application granted granted Critical
Publication of CN114385803B publication Critical patent/CN114385803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术与机器阅读理解领域,具体涉及一种基于外部知识和片段选择的抽取式阅读理解方法,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;本发明采用SpanBERT模型对文本和问题进行处理,处理后判断问题是否可回答,提高了识别不可回答问题的准确率,减少错误概率,同时在SpanBERT模型中利用了融合外部知识信息的多头注意力机制,丰富了文本和问题的特征表示,使用片段选择方法处理文本中存在多个相同答案内容情况,取得更好的模型抽取效果,提升了出去答案的准确率。

Description

一种基于外部知识和片段选择的抽取式阅读理解方法
技术领域
本发明属于自然语言处理技术与机器阅读理解领域,具体涉及一种基于外部知识和片段选择的抽取式阅读理解方法。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是自然语言处理(NaturalLanguage Processing,NLP)领域的热门研究方向,利用机器对数据集中的文本内容进行理解和分析,回答提出的问题,能够最大程度地评估机器理解语言的能力。抽取式阅读理解的形式是给定文本并提出问题,模型能够根据问题从文本中找出连续的片段作为答案,这也是目前应用领域最广泛,研究方法最多的一种机器阅读理解方式。抽取式阅读理解任务中的问题一般由人工提出,答案可能存在长度上的差距,同时存在问题无答案的可能,这种任务相比机器阅读理解的其它任务类型更加贴合现实生活中的应用场景,所以提高抽取式阅读理解的抽取准确性,是把机器阅读理解技术应用到生活中的必要条件。
目前大多数抽取式阅读理解模型的网络架构由嵌入层、编码层、信息交互层和答案预测层组成。嵌入层主要是把文本和问题映射成包含相关文本信息的向量表示;编码层通常是利用神经网络对文本和问题进行编码,得到一些上下文的信息;信息交互层将文本和问题的编码信息进行融合,最后得到包含了问题信息的文本向量表示;答案预测层根据上一层的交互向量抽取出答案边界,最终得到预测答案。有学者提出通过带有注意力机制的LSTM模型进行文本和问题信息匹配,然后将融合后的向量通过LSTM编码得到新的文本表示;也有部分学长提出了双向注意力机制模型BiDAF,让文本和问题以及问题和文本进行两次注意力计算,使模型更加明确文本中哪些信息是和问题相关的;在双向注意力机制模型BiDAF的基础上,部分学者针对BiDAF模型存在的多段落信息间相关性考虑不充分的问题,提出了PR-BiDAF模型,根据文本和问题的关联匹配度进行排序来选择最有可能存在答案的段落;此外还针对BiDAF模型训练的文本内部语义信息易丢失的问题,提出了BiDAF+模型,该模型利用自注意力机制实现了对文本语义信息的更深层次建模,弥补了使用LSTM所导致的出现遗忘语义信息的缺点。
但是,以上现有技术都无法准确判断问题是否可回答,同时文本和问题的特征表示不够丰富,无法处理文本中存在多个相同答案内容的情况,从而导致抽取答案的准确性较低。
发明内容
为解决上述问题,本发明提供了一种基于外部知识和片段选择的抽取式阅读理解方法,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;
训练抽取式阅读理解模型的过程包括以下步骤:
S1.获取原始阅读理解数据集,对原始阅读理解数据集进行预处理,得到预处理后的文本和问题;
S2.将预处理后的文本和问题输入到SpanBERT编码模块,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答,若可回答,则进入步骤S3,若不可回答,则进入步骤S5;
S3.从外部知识融合模块得到预处理后的问题相关的知识信息向量,并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合,得到融合文本;
S4.根据融合文本,采用全连接操作获取预处理后的问题的答案,若存在多个答案相同的片段,则启用片段选择模块得到抽取结果;设置迭代次数的初始值;
S5.采用交叉熵损失函数对抽取结果计算损失值,根据损失值计算抽取式阅读理解模型的优化结果并反向传播,调整抽取式阅读理解模型的参数;
S6.设置最大迭代次数,判断迭代次数是否达到最大迭代次数,若达到,则完成抽取式阅读理解模型的训练,否则返回步骤S5,且迭代次数加1。
进一步的,对原始阅读理解数据集进行预处理包括:
S11.设定文本长度阈值,判断每个文本的长度是否超过文本长度阈值;
S12.若超过文本长度阈值,则计算文本中的每个句子和问题的相似度;
S13.相似度计算完成后按降序排列,留下和问题最相关的TOP K个句子;
其中相似度计算公式为:
Figure BDA0003467835290000031
Sqp表示问题和文本句的相似度得分,cos(θ)表示余弦相似度计算,Qi表示问题句中的第i个单词,Pi表示文本句中的第i个单词,n表示文本的最大长度。
进一步的,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答的过程为:
S21.将预处理后的的文本和问题进行组合,组合后的格式为:
W(P,Q)=[CLS],P1,…,Pn,[SEP],Q1,…,Qm,[SEPend];
S22.对组合后的文本和问题添加位置信息,得到词嵌入表示序列并输入SpanBERT编码模块,词嵌入表示序列的计算公式为:
Figure BDA0003467835290000032
S23.采用融合外部知识的多头自注意力机制处理词嵌入表示序列,得到包含句子语义的向量序列;
S24.将包含句子语义的向量序列经过多层Transformer编码器提取特征向量;
S25.将特征向量中的第一个标记[CLS]作为分类任务中该向量的总表示,根据[CLS]判断问题是否可回答,若[CLS]=[0],则不可回答,若[CLS]=[1],则可回答;
其中,P=(P1,…,Pi,…,Pn)表示文本句,Q=(Q1,…Qj,…,Qm)表示问题句,Pi表示文本句中的第i个单词,Qj表示问题句中的第j个单词,[CLS]表示分类标志,[SEP]表示分隔标志,[SEPend]表示结尾标志,
Figure BDA0003467835290000041
为词嵌入表示序列中第i个词的词嵌入,
Figure BDA0003467835290000042
为词嵌入表示序列中第i个词的位置嵌入,
Figure BDA0003467835290000043
为词嵌入表示序列中第i个词的段落嵌入。
进一步的,采用融合外部知识的多头自注意力机制处理词嵌入表示序列的过程包括:
S31.根据词嵌入表示序列,从外部知识库中获取候选知识,采用双线性公式计算候选知识与词嵌入表示序列的相关性,双线性公式为:
Figure BDA0003467835290000044
Figure BDA0003467835290000045
S32.引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
Figure BDA0003467835290000046
Figure BDA0003467835290000047
S33.若需要加入,则将候选知识中的知识向量与知识哨兵向量融合,得到知识状态向量,融合公式为:
Figure BDA0003467835290000048
S34.将知识状态向量与词嵌入表示序列进行拼接,得到融合外部知识的词嵌入表示序列,融合公式为:
fi=[hi;ki];
S35.对融合外部知识的词嵌入表示计算多头注意力,计算公式为:
Figure BDA0003467835290000049
Figure BDA00034678352900000410
As=Concat(head1,…,headh)WO
其中,f(·)表示双线性函数,e1表示主体实体向量,e2表示对象实体向量,r表示e1和e2的关系,Mr表示关系的嵌入矩阵,αij表示注意力权重,cj表示候选知识中的第j个知识向量,
Figure BDA0003467835290000051
表示候选知识中第j个知识向量的转置,W表示可训练权重参数,hi为词嵌入表示序列中第i个词的词嵌入向量表示;σ表示sigmoid函数,h表示隐藏层的输出,Wi表示预处理后的文本和问题组合后的序列中第i个词,βi表示注意力权重,
Figure BDA0003467835290000052
表示知识哨兵向量的转置,Wb、U表示可训练权重参数;
Figure BDA0003467835290000053
表示知识哨兵向量,ki表示知识状态向量;fi表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识,[;]表示向量拼接操作;Q表示查询向量、K表示键向量、V表示值向量;headi表示不同头的注意力;Wi Q、Wi K、Wi V和WO表示可训练权重参数;Concat(·)表示将不同的注意力拼接;As表示多头注意力的结果。
进一步的,对答案内容相同的片段进行片段选择的过程包括:
S41.采用全连接操作计算融合后的文本中每个单词作为答案开始和结束位置的概率分布;
S42.根据开始和结束位置的概率分布乘积得到最优的答案边界;
S43.若存在多个相同的最优答案边界,则采用Jacard分别计算每个边界上下文和问题的相关度,选择相关度高的边界为最终抽取的答案。
进一步的,相关度计算公式为:
Figure BDA0003467835290000054
其中,Ps:e表示答案片段,Q表示问题句;len(Ps:e and Q)表示答案片段和问题句中都包含的单词长度;len(Ps:e or Q)表示答案片段和问题句中所有不重复单词的长度;α表示可调整的超参数;abs表示求绝对值函数。
进一步的,交叉熵损失函数为:
Figure BDA0003467835290000055
其中,θ是所有需训练的权重参数的集合,N是训练时每次传进抽取式阅读理解模型的数据大小,P1和P2是文本中开始索引和结束索引的概率分布,
Figure BDA0003467835290000061
Figure BDA0003467835290000062
是第i个样例中正确答案的开始和结束位置。
进一步的,采用Adam算法计算抽取式阅读理解模型的优化结果,Adam算法的优化公式为:
Figure BDA0003467835290000063
θt+1=θt+Δθt
其中,Δθt表示时间步t时的Adam更新值,μ表示步长,
Figure BDA0003467835290000064
表示修正后一阶矩的偏差,
Figure BDA0003467835290000065
表示修正后二阶矩的偏差,δ表示用于数值稳定的小常数,θt+1表示时间步t+1时更新后的值,θt表示时间步t时的值。
本发明的有益效果:
本发明采用SpanBERT模型对文本和问题进行处理,处理后得到文本和问题的上下文特征表示,并根据输出的[CLS]标记判断问题是否可回答,解决了以往方法中无法判断问题是否可回答的情况,提高了识别不可回答问题的准确率,减少错误概率,同时在SpanBERT模型中利用了融合外部知识信息的多头注意力机制,丰富了文本和问题的特征表示,使用片段选择方法处理文本中存在多个相同答案内容情况,对文本中存在多个相同正确答案的片段进行打分选择,取得更好的模型抽取效果,提升了抽取答案精度。
附图说明
图1为本发明的模型训练过程图;
图2为本发明的模型结构图;
图3为SpanBERT模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于外部知识和片段选择的抽取式阅读理解方法,获取数据并对其进行预处理;将预处理后的数据输入到训练好的抽取式阅读理解模型中,并将数据中的每个单词作为答案,预测该答案开始和结束位置的得分,根据得分输出最佳答案;所述抽取式阅读理解模型由SpanBERT编码、外部知识融合以及片段选择模块组成。
在一实施例中,一种基于外部知识和片段选择的抽取式阅读理解方法的具体过程如图2所示,包括:
S1.获取文本和该文本对应的多个问题,对文本和问题进行预处理;
S2.将预处理后的文本和问题输入到SpanBERT编码模块,获取文本和问题的上下文特征表示并判断该问题是否可回答;
S3.若不可回答,则该问题无答案,若可回答,则从外部知识融合模块得到该问题相关的知识信息向量,并将知识信息向量通过哨兵机制和问题的上下文特征表示融合;
S4.融合后,采用全连接操作获取问题答案,若存在多个问题答案相同的片段,则进行片段选择,得到答案抽取结果。
在一实施例中,训练抽取式阅读理解模型的过程如图1所示,包括以下步骤:
S11.获取原始阅读理解数据集,对原始阅读理解数据集进行预处理,得到训练集和测试集;
S12.将训练集输入到SpanBERT编码模块,获取训练集中的文本和问题的上下文特征表示;
S13.判断获取的问题是否可回答,若可回答,则进入步骤S14,若不可回答,则进入步骤S16;
S14.从外部知识融合模块得到训练集中当前问题相关的知识信息向量,并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合;
S15.融合后,采用全连接操作获取问题答案,若存在多个问题答案相同的片段,则进行片段选择,得到抽取结果;设置迭代次数的初始值;
S16.采用交叉熵损失函数对抽取结果计算损失值,根据损失值计算模型性能优化结果并反向传播,训练抽取式阅读理解模型;
S17.设置最大迭代次数,判断迭代次数是否达到最大迭代次数,若达到,则完成抽取式阅读理解模型的训练,否则返回步骤S16,且迭代次数加1。
当训练完成后,采用测试集对训练完成的抽取式阅读理解模型进行性能评估。
优选地,采用F1和EM的评价指标对模型性能进行评价,其中,F1是综合精确率(Precision)和召回率(Recall)两个指标的评估指标,用于综合反映整体的指标,Precision和Recall是广泛应用在信息检索和统计学分类领域的两个度量值,用来评价结果的质量。精确率是指正确预测正样本占实际预测为正样本的比例,其计算公式为:
Figure BDA0003467835290000081
其中,TP表示正确地把正样本预测为正的数目,FP表示错误地把负样本预测为正的数目。
召回率是指正确预测正样本占正样本的比例,其计算公式为:
Figure BDA0003467835290000082
其中,TP表示正确地把正样本预测为正的数目,FN表示错误地把正样本预测为负的数目。
F1能够对Precision和Recall进行整体评价,其计算公式为:
Figure BDA0003467835290000083
EM(Exact Match)是问答系统的一种常见的评价标准,它用来评价预测中匹配到正确答案的百分比,其计算公式为:
Figure BDA0003467835290000084
其中,Nreal代表模型所预测答案与真实答案完全匹配的数目,Nall代表真实答案的总数目。
在一实施例中,采用斯坦福公开的阅读理解数据集SQuAD 2.0作为原始阅读理解数据集,数据集划分为三部分,其中训练集包含130319个问题,验证集包含11873个问题,测试集包含8862个问题。首先对输入数据进行预处理,将每个文本的最大长度设置为500,长度超过500的则将文本中的每个句子和问题进行相似度计算后,留下和问题最相关的TOP K个句子,相似度计算公式如下:
Figure BDA0003467835290000091
Sqp表示问题和文本句的相似度得分,cos(θ)表示余弦相似度计算,Qi表示问题句中的第i个单词,Pi表示文本句中的第i个单词,n表示文本的最大长度。
将预处理过后的文本和问题进行组合,组合后的格式为:
W(P,Q)=[CLS],P1,…,Pn,[SEP],Q1,…,Qm,[SEPend];
其中,P=(P1,…,Pi,…,Pn)表示文本句,Q=(Q1,…Qj,…,Qm)表示问题句,Pi表示文本句中的第i个单词,Qj表示问题句中的第j个单词,[CLS]表示分类标志,[SEP]表示分隔标志,[SEPend]表示结尾标志。
对组合后的文本和问题添加位置信息,得到词嵌入表示序列,将其输入SpanBERT模型,词嵌入表示序列的计算公式为:
Figure BDA0003467835290000092
Figure BDA0003467835290000093
为词嵌入表示序列中第i个词的词嵌入,
Figure BDA0003467835290000094
为词嵌入表示序列中第i个词的位置嵌入,hi为词嵌入表示序列中第i个词的词嵌入向量表示。
SpanBERT模型如图3所示,包括多个Transformer Encoder,对组合后的文本和问题即token embedding添加位置信息position embedding,得到词嵌入表示序列,将词嵌入序列输入SpanBERT编码模块进行编码。
采用融合外部知识的多头自注意力机制处理词嵌入表示序列,得到包含句子语义的向量序列;
具体地,融合外部知识的过程包括:
外部知识库中的知识都是由三元组的形式存储,表示形式为:
(主体,关系,对象)
对于预处理后的文本和问题组合后的序列中每一个词Wi,先获得其词嵌入表示序列中第i个词的词嵌入向量表示hi,并从外部知识库中检索出潜在的知识向量集合,知识检索的方式为:给定文本和问题中的每个词,从知识库中将它的同义词作为候选知识;或者使用命名实体识别方法识别出文本和问题中的每个实体,然后使用字符串匹配的方法根据每个主体分别从知识库中将匹配的结果作为候选知识。
再使用双线性运算来衡量候选知识和词嵌入表示序列的相关性,其公式为:
Figure BDA0003467835290000101
Figure BDA0003467835290000102
其中,f(·)表示双线性函数,e1表示主体实体向量,即词嵌入表示序列,e2表示对象实体向量,即候选知识,r表示e1和e2的关系,Mr表示关系的嵌入矩阵,αij表示注意力权重,
Figure BDA0003467835290000103
表示候选知识中每个知识向量的转置,W表示可训练权重参数。
由于这些潜在的知识不一定和每个单词都相关,所以引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
Figure BDA0003467835290000104
Figure BDA0003467835290000105
其中,σ表示sigmoid函数,h表示隐藏层的输出,Wi表示预处理后的文本和问题组合后的序列中第i个词,βi表示注意力权重,
Figure BDA0003467835290000106
表示知识哨兵向量的转置,Wb、U和W表示可训练权重参数。
具体地,根据这个词的上下文信息来判断是否加入外部知识信息,如果这个词的上下文信息和外部知识信息相关则加入该外部知识,如果不相关就不加入。
将检索得到的候选知识中的知识向量cj和知识哨兵向量
Figure BDA0003467835290000117
根据注意力权重融合,得到知识状态向量ki,其公式为:
Figure BDA0003467835290000111
将知识状态向量和词嵌入表示序列中对应的词嵌入向量拼接,得到融合了外部知识的词嵌入表示,其公式为:
fi=[hi;ki];
其中,fi表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识,[;]表示向量拼接操作。
将f=(f1,…,fm+n)作为输入进行多头自注意力计算,其公式为:
Q、K、V=f;
Figure BDA0003467835290000112
Figure BDA0003467835290000113
As=Concat(head1,…,headh)WO
其中,m表示问题的长度,n表示文本的长度,Q表示查询向量、K表示键向量、V表示值向量;headi表示不同头的注意力;Wi Q、Wi K、Wi V和WO表示可训练权重参数;Concat(·)表示将不同的注意力拼接;As表示多头注意力的结果。
再将上一层Transformer中多头自注意力的输出作为下一层Transformer的输入,一共经过12层Transformer,得到最后的隐藏层输出的特征向量,根据隐藏层输出的特征向量的第一个位置判断该问题是否可回答,Transformer和问题是否可回答的公式如下:
Figure BDA0003467835290000114
Figure BDA0003467835290000115
Figure BDA0003467835290000116
其中,As[0]表示多头自注意力输出中的[CLS],Tanh表示激活函数,Transformer(·)表示不同层的Transformer计算,
Figure BDA0003467835290000121
表示最后一层Transformer的隐藏层输出,T[CLS]表示经过SpanBERT模型后的[CLS]。
如果问题可回答,则融合外部知识来丰富文本和问题的上下文特征表示,其融合外部知识的过程如下:
对于每一个Wi,先获得其特征表示
Figure BDA0003467835290000122
并从外部知识库中检索出潜在的知识向量集合,使用双线性运算来衡量知识和每个单词特征表示的相关性,其公式为:
Figure BDA0003467835290000123
其中,α′ij表示注意力权重,
Figure BDA0003467835290000124
表示每个知识向量的转置,W表示可训练权重参数。
由于这些潜在的知识不一定和每个单词都相关,所以引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
Figure BDA0003467835290000125
其中,β′i表示注意力权重,
Figure BDA0003467835290000126
表示知识哨兵向量的转置,W表示可训练权重参数。
然后将检索得到的知识向量zj和知识哨兵向量
Figure BDA0003467835290000127
根据注意力权重融合,其公式为:
Figure BDA0003467835290000128
其中,k′i表示知识状态向量;
最后将知识状态向量k′i和对应的上下文特征向量拼接,得到加入外部知识的上下文特征表示,其公式为:
Figure BDA0003467835290000129
其中,ui表示加入外部知识后文本和问题的上下文特征表示,[;]表示向量拼接操作。
因为文本中可能存在多个相同的正确答案内容片段,为了提高最后答案抽取的准确性,采用片段选择方法来从多个相同内容片段中选择出正确的答案片段边界,先采用全连接操作计算文本中每个词作为答案开始和结束位置的概率分布,其公式为:
Figure BDA0003467835290000131
其中,向量ui通过全连接操作后会变成一个二维向量,使用split将二维向量分割成两个一维向量,最终计算出来就是两个概率分布,
Figure BDA0003467835290000132
表示文本中每个单词作为答案开始位置的概率,
Figure BDA0003467835290000133
表示文本中每个单词作为答案结束位置的概率,FC(·)表示全连接操作。
然后根据开始位置和结束位置的概率分布乘积得到最优的答案边界得分,其公式为:
Figure BDA0003467835290000134
其中,Score表示文本中第i个单词到第j个单词之间内容作为答案的得分。
如果存在多个相同的最优答案边界,则使用Jacard分别计算每个边界上下文和问题的相关度,选择相关度高的边界为最终抽取的答案,相关度计算公式为:
Figure BDA0003467835290000135
其中,Ps:e表示答案片段,Q表示问题句;len(Ps:e and Q)表示答案片段和问题句中都包含的单词长度;len(Ps:e or Q)表示答案片段和问题句中所有不重复单词的长度;α表示可调整的超参数;abs表示求绝对值函数。
得到最终抽取答案后,将该答案与正确答案进行损失函数计算,来判断模型训练的好坏,损失函数计算公式为:
Figure BDA0003467835290000136
其中,θ是所有需训练的权重参数的集合,N是训练时每次传进抽取式阅读理解模型的数据大小,P1和P2是文本中开始索引和结束索引的概率分布,
Figure BDA0003467835290000137
Figure BDA0003467835290000138
是第i个样例中正确答案的开始和结束位置。
根据损失函数的计算,需要对模型参数进行优化,采用Adam优化算法。Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,Adam通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率,Adam的主要更新公式为:
Figure BDA0003467835290000141
θt+1=θt+Δθt
其中,Δθt表示时间步t时的Adam更新值,μ表示步长,
Figure BDA0003467835290000142
表示修正后一阶矩的偏差,
Figure BDA0003467835290000143
表示修正后二阶矩的偏差,δ表示用于数值稳定的小常数,θt+1表示更新后的值。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;
训练抽取式阅读理解模型的过程包括以下步骤:
S1.获取原始阅读理解数据集,对原始阅读理解数据集进行预处理,得到预处理后的文本和问题;
S2.将预处理后的文本和问题输入到SpanBERT编码模块,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答,若可回答,则进入步骤S3;
S3.从外部知识融合模块得到预处理后的问题相关的知识信息向量,并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合,得到融合文本;
S4.根据融合文本,采用全连接操作获取预处理后的问题的答案,若存在多个答案相同的片段,则启用片段选择模块得到抽取结果;设置迭代次数初始值;
S5.采用交叉熵损失函数对抽取结果计算损失值,根据损失值计算抽取式阅读理解模型的优化结果并反向传播,调整抽取式阅读理解模型的参数;
S6.设置最大迭代次数,判断迭代次数是否达到最大迭代次数,若达到,则完成抽取式阅读理解模型的训练,否则返回步骤S5,且迭代次数加1。
2.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,对原始阅读理解数据集进行预处理包括:
S11.设定文本长度阈值,判断每个文本的长度是否超过文本长度阈值;
S12.若超过文本长度阈值,则计算文本中的每个句子和问题的相似度;
S13.相似度计算完成后按降序排列,留下和问题最相关的TOP K个句子;
其中相似度计算公式为:
Figure FDA0003467835280000021
Sqp表示问题和文本句的相似度得分,cos(θ)表示余弦相似度计算,Qi表示问题句中的第i个单词,Pi表示文本句中的第i个单词,n表示文本的最大长度。
3.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答的过程为:
S21.将预处理后的的文本和问题进行组合,组合后的格式为:
W(P,Q)=[CLS],P1,…,Pn,[SEP],Q1,…,Qm,[SEPend];
S22.对组合后的文本和问题添加位置信息,得到词嵌入表示序列并输入SpanBERT编码模块,词嵌入表示序列的计算公式为:
Figure FDA0003467835280000022
S23.采用融合外部知识的多头自注意力机制处理词嵌入表示序列,得到包含句子语义的向量序列;
S24.将包含句子语义的向量序列经过多层Transformer编码器提取特征向量;
S25.将特征向量中的第一个标记[CLS]作为分类任务中该向量的总表示,根据[CLS]判断问题是否可回答,若[CLS]=[0],则不可回答,若[CLS]=[1],则可回答;
其中,P=(P1,…,Pi,…,Pn)表示文本句,Q=(Q1,…Qj,…,Qm)表示问题句,Pi表示文本句中的第i个单词,Qj表示问题句中的第j个单词,[CLS]表示分类标志,[SEP]表示分隔标志,[SEPend]表示结尾标志,
Figure FDA0003467835280000023
为词嵌入表示序列中第i个词的词嵌入,
Figure FDA0003467835280000024
为词嵌入表示序列中第i个词的位置嵌入。
4.根据权利要求3所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,采用融合外部知识的多头自注意力机制处理词嵌入表示序列的过程包括:
S31.根据词嵌入表示序列,从外部知识库中获取候选知识,采用双线性公式计算候选知识与词嵌入表示序列的相关性,双线性公式为:
Figure FDA0003467835280000031
Figure FDA0003467835280000032
S32.引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
Figure FDA0003467835280000033
Figure FDA0003467835280000034
S33.若需要加入,则将候选知识中的知识向量与知识哨兵向量融合,得到知识状态向量,融合公式为:
Figure FDA0003467835280000035
S34.将知识状态向量与词嵌入表示序列进行拼接,得到融合外部知识的词嵌入表示序列,融合公式为:
fi=[hi;ki];
S35.对融合外部知识的词嵌入表示计算多头注意力,计算公式为:
Figure FDA0003467835280000036
headi=Att(QWi Q,KWi K,VWi V);
As=Concat(head1,…,headh)WO
其中,f(·)表示双线性函数,e1表示主体实体向量,e2表示对象实体向量,r表示e1和e2的关系,Mr表示关系的嵌入矩阵,αij表示注意力权重,cj表示候选知识中的第j个知识向量,
Figure FDA0003467835280000037
表示候选知识中第j个知识向量的转置,W表示可训练权重参数,hi为词嵌入表示序列中第i个词的词嵌入向量表示;σ表示sigmoid函数,h表示隐藏层的输出,Wi表示预处理后的文本和问题组合后的序列中第i个词,βi表示注意力权重,
Figure FDA0003467835280000038
表示知识哨兵向量的转置,Wb、U表示可训练权重参数;
Figure FDA0003467835280000039
表示知识哨兵向量,ki表示知识状态向量;fi表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识,[;]表示向量拼接操作;Q表示查询向量、K表示键向量、V表示值向量;headi表示不同头的注意力;Wi Q、Wi K、Wi V和WO表示可训练权重参数;Concat(·)表示将不同的注意力拼接;As表示多头注意力的结果。
5.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,对答案内容相同的片段进行片段选择的过程包括:
S41.采用全连接操作计算融合文本中每个单词作为答案时,其开始位置和结束位置的概率分布;
S42.根据开始位置和结束位置的概率分布乘积得到最优的答案边界;
S43.若存在多个相同的最优答案边界,则采用Jacard分别计算每个边界上下文和问题的相关度,选择相关度高的边界为最终抽取的答案。
6.根据权利要求5所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,相关度计算公式为:
Figure FDA0003467835280000041
其中,Ps:e表示答案片段,Q表示问题句;len(Ps:eand Q)表示答案片段和问题句中都包含的单词长度;len(Ps:eor Q)表示答案片段和问题句中所有不重复单词的长度;α表示可调整的超参数;abs表示求绝对值函数。
7.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,交叉熵损失函数为:
Figure FDA0003467835280000042
其中,θ是所有需训练的权重参数的集合,N是训练时每次传进抽取式阅读理解模型的数据大小,P1和P2是文本中开始索引和结束索引的概率分布,
Figure FDA0003467835280000043
Figure FDA0003467835280000044
是第i个问题中正确答案的开始和结束位置。
8.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,采用Adam算法计算抽取式阅读理解模型的优化结果,Adam算法的优化公式为:
Figure FDA0003467835280000051
θt+1=θt+Δθt
其中,Δθt表示时间步t时的Adam更新值,μ表示步长,
Figure FDA0003467835280000052
表示修正后一阶矩的偏差,
Figure FDA0003467835280000053
表示修正后二阶矩的偏差,δ表示用于数值稳定的小常数,θt+1表示时间步t+1时更新后的值,θt表示时间步t时的值。
CN202210034681.8A 2022-01-13 2022-01-13 一种基于外部知识和片段选择的抽取式阅读理解方法 Active CN114385803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210034681.8A CN114385803B (zh) 2022-01-13 2022-01-13 一种基于外部知识和片段选择的抽取式阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210034681.8A CN114385803B (zh) 2022-01-13 2022-01-13 一种基于外部知识和片段选择的抽取式阅读理解方法

Publications (2)

Publication Number Publication Date
CN114385803A true CN114385803A (zh) 2022-04-22
CN114385803B CN114385803B (zh) 2024-08-06

Family

ID=81202310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210034681.8A Active CN114385803B (zh) 2022-01-13 2022-01-13 一种基于外部知识和片段选择的抽取式阅读理解方法

Country Status (1)

Country Link
CN (1) CN114385803B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547154A (zh) * 2022-04-26 2022-05-27 成都迈杰世教育咨询有限公司 一种智能交互式英语训练方法、系统及计算机可读介质
CN118132738A (zh) * 2024-05-08 2024-06-04 交通运输部公路科学研究所 针对桥梁检评文本的抽取式问答方法
CN118364813A (zh) * 2024-06-20 2024-07-19 曲阜师范大学 基于机器阅读理解的知识增强方法、系统、装置、介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN113076759A (zh) * 2021-04-25 2021-07-06 昆明理工大学 基于答案类别和句法指导的案情阅读理解方法
US20210240776A1 (en) * 2020-02-04 2021-08-05 Accenture Global Solutions Limited Responding to user queries by context-based intelligent agents
US20210374141A1 (en) * 2020-05-29 2021-12-02 Soco, Inc. Question answering retrieval via sparse transformer matching
CN113742451A (zh) * 2021-09-06 2021-12-03 深圳市广联智通科技有限公司 基于多类型问题和多片段答案抽取的机器阅读理解系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
US20210240776A1 (en) * 2020-02-04 2021-08-05 Accenture Global Solutions Limited Responding to user queries by context-based intelligent agents
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
US20210374141A1 (en) * 2020-05-29 2021-12-02 Soco, Inc. Question answering retrieval via sparse transformer matching
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN113076759A (zh) * 2021-04-25 2021-07-06 昆明理工大学 基于答案类别和句法指导的案情阅读理解方法
CN113742451A (zh) * 2021-09-06 2021-12-03 深圳市广联智通科技有限公司 基于多类型问题和多片段答案抽取的机器阅读理解系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PU ZHANG等: "SpanBERT-based Multilayer Fusion Model for Extractive Reading Comprehension", 《INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE&APPLICATION》, vol. 15, no. 1, 31 January 2024 (2024-01-31), pages 515 - 523 *
盛艺暄;兰曼;: "利用外部知识辅助和多步推理的选择题型机器阅读理解模型", 计算机系统应用, no. 04, 15 April 2020 (2020-04-15), pages 5 - 13 *
谭红叶;李宣影;刘蓓;: "基于外部知识和层级篇章表示的阅读理解方法", 中文信息学报, no. 04, 15 April 2020 (2020-04-15), pages 88 - 94 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547154A (zh) * 2022-04-26 2022-05-27 成都迈杰世教育咨询有限公司 一种智能交互式英语训练方法、系统及计算机可读介质
CN114547154B (zh) * 2022-04-26 2022-08-26 成都迈杰世教育咨询有限公司 一种智能交互式英语训练方法、系统及计算机可读介质
CN118132738A (zh) * 2024-05-08 2024-06-04 交通运输部公路科学研究所 针对桥梁检评文本的抽取式问答方法
CN118364813A (zh) * 2024-06-20 2024-07-19 曲阜师范大学 基于机器阅读理解的知识增强方法、系统、装置、介质

Also Published As

Publication number Publication date
CN114385803B (zh) 2024-08-06

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN114385803B (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN113836269B (zh) 一种基于问答式系统的篇章级核心事件抽取方法
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN112883175B (zh) 结合预训练模型及模板生成的气象服务交互方法及系统
CN113297369A (zh) 基于知识图谱子图检索的智能问答系统
CN113836919A (zh) 一种基于迁移学习的建筑行业文本纠错方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN114970563B (zh) 融合内容和形式多样性的中文问题生成方法和系统
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN114626463A (zh) 语言模型的训练方法、文本匹配方法及相关装置
CN110309515B (zh) 实体识别方法及装置
CN114611520A (zh) 一种文本摘要生成方法
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN111581365B (zh) 一种谓词抽取方法
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN115171870A (zh) 一种基于m-BERT预训练模型的就诊引导提示方法及系统
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant