CN114385803A - 一种基于外部知识和片段选择的抽取式阅读理解方法 - Google Patents
一种基于外部知识和片段选择的抽取式阅读理解方法 Download PDFInfo
- Publication number
- CN114385803A CN114385803A CN202210034681.8A CN202210034681A CN114385803A CN 114385803 A CN114385803 A CN 114385803A CN 202210034681 A CN202210034681 A CN 202210034681A CN 114385803 A CN114385803 A CN 114385803A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- text
- representing
- vector
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 239000012634 fragment Substances 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 96
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 19
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 206010011906 Death Diseases 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000010187 selection method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术与机器阅读理解领域,具体涉及一种基于外部知识和片段选择的抽取式阅读理解方法,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;本发明采用SpanBERT模型对文本和问题进行处理,处理后判断问题是否可回答,提高了识别不可回答问题的准确率,减少错误概率,同时在SpanBERT模型中利用了融合外部知识信息的多头注意力机制,丰富了文本和问题的特征表示,使用片段选择方法处理文本中存在多个相同答案内容情况,取得更好的模型抽取效果,提升了出去答案的准确率。
Description
技术领域
本发明属于自然语言处理技术与机器阅读理解领域,具体涉及一种基于外部知识和片段选择的抽取式阅读理解方法。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是自然语言处理(NaturalLanguage Processing,NLP)领域的热门研究方向,利用机器对数据集中的文本内容进行理解和分析,回答提出的问题,能够最大程度地评估机器理解语言的能力。抽取式阅读理解的形式是给定文本并提出问题,模型能够根据问题从文本中找出连续的片段作为答案,这也是目前应用领域最广泛,研究方法最多的一种机器阅读理解方式。抽取式阅读理解任务中的问题一般由人工提出,答案可能存在长度上的差距,同时存在问题无答案的可能,这种任务相比机器阅读理解的其它任务类型更加贴合现实生活中的应用场景,所以提高抽取式阅读理解的抽取准确性,是把机器阅读理解技术应用到生活中的必要条件。
目前大多数抽取式阅读理解模型的网络架构由嵌入层、编码层、信息交互层和答案预测层组成。嵌入层主要是把文本和问题映射成包含相关文本信息的向量表示;编码层通常是利用神经网络对文本和问题进行编码,得到一些上下文的信息;信息交互层将文本和问题的编码信息进行融合,最后得到包含了问题信息的文本向量表示;答案预测层根据上一层的交互向量抽取出答案边界,最终得到预测答案。有学者提出通过带有注意力机制的LSTM模型进行文本和问题信息匹配,然后将融合后的向量通过LSTM编码得到新的文本表示;也有部分学长提出了双向注意力机制模型BiDAF,让文本和问题以及问题和文本进行两次注意力计算,使模型更加明确文本中哪些信息是和问题相关的;在双向注意力机制模型BiDAF的基础上,部分学者针对BiDAF模型存在的多段落信息间相关性考虑不充分的问题,提出了PR-BiDAF模型,根据文本和问题的关联匹配度进行排序来选择最有可能存在答案的段落;此外还针对BiDAF模型训练的文本内部语义信息易丢失的问题,提出了BiDAF+模型,该模型利用自注意力机制实现了对文本语义信息的更深层次建模,弥补了使用LSTM所导致的出现遗忘语义信息的缺点。
但是,以上现有技术都无法准确判断问题是否可回答,同时文本和问题的特征表示不够丰富,无法处理文本中存在多个相同答案内容的情况,从而导致抽取答案的准确性较低。
发明内容
为解决上述问题,本发明提供了一种基于外部知识和片段选择的抽取式阅读理解方法,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;
训练抽取式阅读理解模型的过程包括以下步骤:
S1.获取原始阅读理解数据集,对原始阅读理解数据集进行预处理,得到预处理后的文本和问题;
S2.将预处理后的文本和问题输入到SpanBERT编码模块,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答,若可回答,则进入步骤S3,若不可回答,则进入步骤S5;
S3.从外部知识融合模块得到预处理后的问题相关的知识信息向量,并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合,得到融合文本;
S4.根据融合文本,采用全连接操作获取预处理后的问题的答案,若存在多个答案相同的片段,则启用片段选择模块得到抽取结果;设置迭代次数的初始值;
S5.采用交叉熵损失函数对抽取结果计算损失值,根据损失值计算抽取式阅读理解模型的优化结果并反向传播,调整抽取式阅读理解模型的参数;
S6.设置最大迭代次数,判断迭代次数是否达到最大迭代次数,若达到,则完成抽取式阅读理解模型的训练,否则返回步骤S5,且迭代次数加1。
进一步的,对原始阅读理解数据集进行预处理包括:
S11.设定文本长度阈值,判断每个文本的长度是否超过文本长度阈值;
S12.若超过文本长度阈值,则计算文本中的每个句子和问题的相似度;
S13.相似度计算完成后按降序排列,留下和问题最相关的TOP K个句子;
其中相似度计算公式为:
Sqp表示问题和文本句的相似度得分,cos(θ)表示余弦相似度计算,Qi表示问题句中的第i个单词,Pi表示文本句中的第i个单词,n表示文本的最大长度。
进一步的,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答的过程为:
S21.将预处理后的的文本和问题进行组合,组合后的格式为:
W(P,Q)=[CLS],P1,…,Pn,[SEP],Q1,…,Qm,[SEPend];
S22.对组合后的文本和问题添加位置信息,得到词嵌入表示序列并输入SpanBERT编码模块,词嵌入表示序列的计算公式为:
S23.采用融合外部知识的多头自注意力机制处理词嵌入表示序列,得到包含句子语义的向量序列;
S24.将包含句子语义的向量序列经过多层Transformer编码器提取特征向量;
S25.将特征向量中的第一个标记[CLS]作为分类任务中该向量的总表示,根据[CLS]判断问题是否可回答,若[CLS]=[0],则不可回答,若[CLS]=[1],则可回答;
其中,P=(P1,…,Pi,…,Pn)表示文本句,Q=(Q1,…Qj,…,Qm)表示问题句,Pi表示文本句中的第i个单词,Qj表示问题句中的第j个单词,[CLS]表示分类标志,[SEP]表示分隔标志,[SEPend]表示结尾标志,为词嵌入表示序列中第i个词的词嵌入,为词嵌入表示序列中第i个词的位置嵌入,为词嵌入表示序列中第i个词的段落嵌入。
进一步的,采用融合外部知识的多头自注意力机制处理词嵌入表示序列的过程包括:
S31.根据词嵌入表示序列,从外部知识库中获取候选知识,采用双线性公式计算候选知识与词嵌入表示序列的相关性,双线性公式为:
S32.引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
S33.若需要加入,则将候选知识中的知识向量与知识哨兵向量融合,得到知识状态向量,融合公式为:
S34.将知识状态向量与词嵌入表示序列进行拼接,得到融合外部知识的词嵌入表示序列,融合公式为:
fi=[hi;ki];
S35.对融合外部知识的词嵌入表示计算多头注意力,计算公式为:
As=Concat(head1,…,headh)WO;
其中,f(·)表示双线性函数,e1表示主体实体向量,e2表示对象实体向量,r表示e1和e2的关系,Mr表示关系的嵌入矩阵,αij表示注意力权重,cj表示候选知识中的第j个知识向量,表示候选知识中第j个知识向量的转置,W表示可训练权重参数,hi为词嵌入表示序列中第i个词的词嵌入向量表示;σ表示sigmoid函数,h表示隐藏层的输出,Wi表示预处理后的文本和问题组合后的序列中第i个词,βi表示注意力权重,表示知识哨兵向量的转置,Wb、U表示可训练权重参数;表示知识哨兵向量,ki表示知识状态向量;fi表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识,[;]表示向量拼接操作;Q表示查询向量、K表示键向量、V表示值向量;headi表示不同头的注意力;Wi Q、Wi K、Wi V和WO表示可训练权重参数;Concat(·)表示将不同的注意力拼接;As表示多头注意力的结果。
进一步的,对答案内容相同的片段进行片段选择的过程包括:
S41.采用全连接操作计算融合后的文本中每个单词作为答案开始和结束位置的概率分布;
S42.根据开始和结束位置的概率分布乘积得到最优的答案边界;
S43.若存在多个相同的最优答案边界,则采用Jacard分别计算每个边界上下文和问题的相关度,选择相关度高的边界为最终抽取的答案。
进一步的,相关度计算公式为:
其中,Ps:e表示答案片段,Q表示问题句;len(Ps:e and Q)表示答案片段和问题句中都包含的单词长度;len(Ps:e or Q)表示答案片段和问题句中所有不重复单词的长度;α表示可调整的超参数;abs表示求绝对值函数。
进一步的,交叉熵损失函数为:
进一步的,采用Adam算法计算抽取式阅读理解模型的优化结果,Adam算法的优化公式为:
θt+1=θt+Δθt;
本发明的有益效果:
本发明采用SpanBERT模型对文本和问题进行处理,处理后得到文本和问题的上下文特征表示,并根据输出的[CLS]标记判断问题是否可回答,解决了以往方法中无法判断问题是否可回答的情况,提高了识别不可回答问题的准确率,减少错误概率,同时在SpanBERT模型中利用了融合外部知识信息的多头注意力机制,丰富了文本和问题的特征表示,使用片段选择方法处理文本中存在多个相同答案内容情况,对文本中存在多个相同正确答案的片段进行打分选择,取得更好的模型抽取效果,提升了抽取答案精度。
附图说明
图1为本发明的模型训练过程图;
图2为本发明的模型结构图;
图3为SpanBERT模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于外部知识和片段选择的抽取式阅读理解方法,获取数据并对其进行预处理;将预处理后的数据输入到训练好的抽取式阅读理解模型中,并将数据中的每个单词作为答案,预测该答案开始和结束位置的得分,根据得分输出最佳答案;所述抽取式阅读理解模型由SpanBERT编码、外部知识融合以及片段选择模块组成。
在一实施例中,一种基于外部知识和片段选择的抽取式阅读理解方法的具体过程如图2所示,包括:
S1.获取文本和该文本对应的多个问题,对文本和问题进行预处理;
S2.将预处理后的文本和问题输入到SpanBERT编码模块,获取文本和问题的上下文特征表示并判断该问题是否可回答;
S3.若不可回答,则该问题无答案,若可回答,则从外部知识融合模块得到该问题相关的知识信息向量,并将知识信息向量通过哨兵机制和问题的上下文特征表示融合;
S4.融合后,采用全连接操作获取问题答案,若存在多个问题答案相同的片段,则进行片段选择,得到答案抽取结果。
在一实施例中,训练抽取式阅读理解模型的过程如图1所示,包括以下步骤:
S11.获取原始阅读理解数据集,对原始阅读理解数据集进行预处理,得到训练集和测试集;
S12.将训练集输入到SpanBERT编码模块,获取训练集中的文本和问题的上下文特征表示;
S13.判断获取的问题是否可回答,若可回答,则进入步骤S14,若不可回答,则进入步骤S16;
S14.从外部知识融合模块得到训练集中当前问题相关的知识信息向量,并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合;
S15.融合后,采用全连接操作获取问题答案,若存在多个问题答案相同的片段,则进行片段选择,得到抽取结果;设置迭代次数的初始值;
S16.采用交叉熵损失函数对抽取结果计算损失值,根据损失值计算模型性能优化结果并反向传播,训练抽取式阅读理解模型;
S17.设置最大迭代次数,判断迭代次数是否达到最大迭代次数,若达到,则完成抽取式阅读理解模型的训练,否则返回步骤S16,且迭代次数加1。
当训练完成后,采用测试集对训练完成的抽取式阅读理解模型进行性能评估。
优选地,采用F1和EM的评价指标对模型性能进行评价,其中,F1是综合精确率(Precision)和召回率(Recall)两个指标的评估指标,用于综合反映整体的指标,Precision和Recall是广泛应用在信息检索和统计学分类领域的两个度量值,用来评价结果的质量。精确率是指正确预测正样本占实际预测为正样本的比例,其计算公式为:
其中,TP表示正确地把正样本预测为正的数目,FP表示错误地把负样本预测为正的数目。
召回率是指正确预测正样本占正样本的比例,其计算公式为:
其中,TP表示正确地把正样本预测为正的数目,FN表示错误地把正样本预测为负的数目。
F1能够对Precision和Recall进行整体评价,其计算公式为:
EM(Exact Match)是问答系统的一种常见的评价标准,它用来评价预测中匹配到正确答案的百分比,其计算公式为:
其中,Nreal代表模型所预测答案与真实答案完全匹配的数目,Nall代表真实答案的总数目。
在一实施例中,采用斯坦福公开的阅读理解数据集SQuAD 2.0作为原始阅读理解数据集,数据集划分为三部分,其中训练集包含130319个问题,验证集包含11873个问题,测试集包含8862个问题。首先对输入数据进行预处理,将每个文本的最大长度设置为500,长度超过500的则将文本中的每个句子和问题进行相似度计算后,留下和问题最相关的TOP K个句子,相似度计算公式如下:
Sqp表示问题和文本句的相似度得分,cos(θ)表示余弦相似度计算,Qi表示问题句中的第i个单词,Pi表示文本句中的第i个单词,n表示文本的最大长度。
将预处理过后的文本和问题进行组合,组合后的格式为:
W(P,Q)=[CLS],P1,…,Pn,[SEP],Q1,…,Qm,[SEPend];
其中,P=(P1,…,Pi,…,Pn)表示文本句,Q=(Q1,…Qj,…,Qm)表示问题句,Pi表示文本句中的第i个单词,Qj表示问题句中的第j个单词,[CLS]表示分类标志,[SEP]表示分隔标志,[SEPend]表示结尾标志。
对组合后的文本和问题添加位置信息,得到词嵌入表示序列,将其输入SpanBERT模型,词嵌入表示序列的计算公式为:
SpanBERT模型如图3所示,包括多个Transformer Encoder,对组合后的文本和问题即token embedding添加位置信息position embedding,得到词嵌入表示序列,将词嵌入序列输入SpanBERT编码模块进行编码。
采用融合外部知识的多头自注意力机制处理词嵌入表示序列,得到包含句子语义的向量序列;
具体地,融合外部知识的过程包括:
外部知识库中的知识都是由三元组的形式存储,表示形式为:
(主体,关系,对象)
对于预处理后的文本和问题组合后的序列中每一个词Wi,先获得其词嵌入表示序列中第i个词的词嵌入向量表示hi,并从外部知识库中检索出潜在的知识向量集合,知识检索的方式为:给定文本和问题中的每个词,从知识库中将它的同义词作为候选知识;或者使用命名实体识别方法识别出文本和问题中的每个实体,然后使用字符串匹配的方法根据每个主体分别从知识库中将匹配的结果作为候选知识。
再使用双线性运算来衡量候选知识和词嵌入表示序列的相关性,其公式为:
其中,f(·)表示双线性函数,e1表示主体实体向量,即词嵌入表示序列,e2表示对象实体向量,即候选知识,r表示e1和e2的关系,Mr表示关系的嵌入矩阵,αij表示注意力权重,表示候选知识中每个知识向量的转置,W表示可训练权重参数。
由于这些潜在的知识不一定和每个单词都相关,所以引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
具体地,根据这个词的上下文信息来判断是否加入外部知识信息,如果这个词的上下文信息和外部知识信息相关则加入该外部知识,如果不相关就不加入。
将知识状态向量和词嵌入表示序列中对应的词嵌入向量拼接,得到融合了外部知识的词嵌入表示,其公式为:
fi=[hi;ki];
其中,fi表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识,[;]表示向量拼接操作。
将f=(f1,…,fm+n)作为输入进行多头自注意力计算,其公式为:
Q、K、V=f;
As=Concat(head1,…,headh)WO;
其中,m表示问题的长度,n表示文本的长度,Q表示查询向量、K表示键向量、V表示值向量;headi表示不同头的注意力;Wi Q、Wi K、Wi V和WO表示可训练权重参数;Concat(·)表示将不同的注意力拼接;As表示多头注意力的结果。
再将上一层Transformer中多头自注意力的输出作为下一层Transformer的输入,一共经过12层Transformer,得到最后的隐藏层输出的特征向量,根据隐藏层输出的特征向量的第一个位置判断该问题是否可回答,Transformer和问题是否可回答的公式如下:
其中,As[0]表示多头自注意力输出中的[CLS],Tanh表示激活函数,Transformer(·)表示不同层的Transformer计算,表示最后一层Transformer的隐藏层输出,T[CLS]表示经过SpanBERT模型后的[CLS]。
如果问题可回答,则融合外部知识来丰富文本和问题的上下文特征表示,其融合外部知识的过程如下:
由于这些潜在的知识不一定和每个单词都相关,所以引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
其中,k′i表示知识状态向量;
最后将知识状态向量k′i和对应的上下文特征向量拼接,得到加入外部知识的上下文特征表示,其公式为:
其中,ui表示加入外部知识后文本和问题的上下文特征表示,[;]表示向量拼接操作。
因为文本中可能存在多个相同的正确答案内容片段,为了提高最后答案抽取的准确性,采用片段选择方法来从多个相同内容片段中选择出正确的答案片段边界,先采用全连接操作计算文本中每个词作为答案开始和结束位置的概率分布,其公式为:
其中,向量ui通过全连接操作后会变成一个二维向量,使用split将二维向量分割成两个一维向量,最终计算出来就是两个概率分布,表示文本中每个单词作为答案开始位置的概率,表示文本中每个单词作为答案结束位置的概率,FC(·)表示全连接操作。
然后根据开始位置和结束位置的概率分布乘积得到最优的答案边界得分,其公式为:
其中,Score表示文本中第i个单词到第j个单词之间内容作为答案的得分。
如果存在多个相同的最优答案边界,则使用Jacard分别计算每个边界上下文和问题的相关度,选择相关度高的边界为最终抽取的答案,相关度计算公式为:
其中,Ps:e表示答案片段,Q表示问题句;len(Ps:e and Q)表示答案片段和问题句中都包含的单词长度;len(Ps:e or Q)表示答案片段和问题句中所有不重复单词的长度;α表示可调整的超参数;abs表示求绝对值函数。
得到最终抽取答案后,将该答案与正确答案进行损失函数计算,来判断模型训练的好坏,损失函数计算公式为:
根据损失函数的计算,需要对模型参数进行优化,采用Adam优化算法。Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,Adam通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率,Adam的主要更新公式为:
θt+1=θt+Δθt;
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;
训练抽取式阅读理解模型的过程包括以下步骤:
S1.获取原始阅读理解数据集,对原始阅读理解数据集进行预处理,得到预处理后的文本和问题;
S2.将预处理后的文本和问题输入到SpanBERT编码模块,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答,若可回答,则进入步骤S3;
S3.从外部知识融合模块得到预处理后的问题相关的知识信息向量,并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合,得到融合文本;
S4.根据融合文本,采用全连接操作获取预处理后的问题的答案,若存在多个答案相同的片段,则启用片段选择模块得到抽取结果;设置迭代次数初始值;
S5.采用交叉熵损失函数对抽取结果计算损失值,根据损失值计算抽取式阅读理解模型的优化结果并反向传播,调整抽取式阅读理解模型的参数;
S6.设置最大迭代次数,判断迭代次数是否达到最大迭代次数,若达到,则完成抽取式阅读理解模型的训练,否则返回步骤S5,且迭代次数加1。
3.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答的过程为:
S21.将预处理后的的文本和问题进行组合,组合后的格式为:
W(P,Q)=[CLS],P1,…,Pn,[SEP],Q1,…,Qm,[SEPend];
S22.对组合后的文本和问题添加位置信息,得到词嵌入表示序列并输入SpanBERT编码模块,词嵌入表示序列的计算公式为:
S23.采用融合外部知识的多头自注意力机制处理词嵌入表示序列,得到包含句子语义的向量序列;
S24.将包含句子语义的向量序列经过多层Transformer编码器提取特征向量;
S25.将特征向量中的第一个标记[CLS]作为分类任务中该向量的总表示,根据[CLS]判断问题是否可回答,若[CLS]=[0],则不可回答,若[CLS]=[1],则可回答;
4.根据权利要求3所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,采用融合外部知识的多头自注意力机制处理词嵌入表示序列的过程包括:
S31.根据词嵌入表示序列,从外部知识库中获取候选知识,采用双线性公式计算候选知识与词嵌入表示序列的相关性,双线性公式为:
S32.引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:
S33.若需要加入,则将候选知识中的知识向量与知识哨兵向量融合,得到知识状态向量,融合公式为:
S34.将知识状态向量与词嵌入表示序列进行拼接,得到融合外部知识的词嵌入表示序列,融合公式为:
fi=[hi;ki];
S35.对融合外部知识的词嵌入表示计算多头注意力,计算公式为:
headi=Att(QWi Q,KWi K,VWi V);
As=Concat(head1,…,headh)WO;
其中,f(·)表示双线性函数,e1表示主体实体向量,e2表示对象实体向量,r表示e1和e2的关系,Mr表示关系的嵌入矩阵,αij表示注意力权重,cj表示候选知识中的第j个知识向量,表示候选知识中第j个知识向量的转置,W表示可训练权重参数,hi为词嵌入表示序列中第i个词的词嵌入向量表示;σ表示sigmoid函数,h表示隐藏层的输出,Wi表示预处理后的文本和问题组合后的序列中第i个词,βi表示注意力权重,表示知识哨兵向量的转置,Wb、U表示可训练权重参数;表示知识哨兵向量,ki表示知识状态向量;fi表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识,[;]表示向量拼接操作;Q表示查询向量、K表示键向量、V表示值向量;headi表示不同头的注意力;Wi Q、Wi K、Wi V和WO表示可训练权重参数;Concat(·)表示将不同的注意力拼接;As表示多头注意力的结果。
5.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,对答案内容相同的片段进行片段选择的过程包括:
S41.采用全连接操作计算融合文本中每个单词作为答案时,其开始位置和结束位置的概率分布;
S42.根据开始位置和结束位置的概率分布乘积得到最优的答案边界;
S43.若存在多个相同的最优答案边界,则采用Jacard分别计算每个边界上下文和问题的相关度,选择相关度高的边界为最终抽取的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210034681.8A CN114385803B (zh) | 2022-01-13 | 2022-01-13 | 一种基于外部知识和片段选择的抽取式阅读理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210034681.8A CN114385803B (zh) | 2022-01-13 | 2022-01-13 | 一种基于外部知识和片段选择的抽取式阅读理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114385803A true CN114385803A (zh) | 2022-04-22 |
CN114385803B CN114385803B (zh) | 2024-08-06 |
Family
ID=81202310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210034681.8A Active CN114385803B (zh) | 2022-01-13 | 2022-01-13 | 一种基于外部知识和片段选择的抽取式阅读理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385803B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547154A (zh) * | 2022-04-26 | 2022-05-27 | 成都迈杰世教育咨询有限公司 | 一种智能交互式英语训练方法、系统及计算机可读介质 |
CN118132738A (zh) * | 2024-05-08 | 2024-06-04 | 交通运输部公路科学研究所 | 针对桥梁检评文本的抽取式问答方法 |
CN118364813A (zh) * | 2024-06-20 | 2024-07-19 | 曲阜师范大学 | 基于机器阅读理解的知识增强方法、系统、装置、介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
CN112328767A (zh) * | 2020-11-11 | 2021-02-05 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN113076759A (zh) * | 2021-04-25 | 2021-07-06 | 昆明理工大学 | 基于答案类别和句法指导的案情阅读理解方法 |
US20210240776A1 (en) * | 2020-02-04 | 2021-08-05 | Accenture Global Solutions Limited | Responding to user queries by context-based intelligent agents |
US20210374141A1 (en) * | 2020-05-29 | 2021-12-02 | Soco, Inc. | Question answering retrieval via sparse transformer matching |
CN113742451A (zh) * | 2021-09-06 | 2021-12-03 | 深圳市广联智通科技有限公司 | 基于多类型问题和多片段答案抽取的机器阅读理解系统 |
-
2022
- 2022-01-13 CN CN202210034681.8A patent/CN114385803B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959246A (zh) * | 2018-06-12 | 2018-12-07 | 北京慧闻科技发展有限公司 | 基于改进的注意力机制的答案选择方法、装置和电子设备 |
US20210240776A1 (en) * | 2020-02-04 | 2021-08-05 | Accenture Global Solutions Limited | Responding to user queries by context-based intelligent agents |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
US20210374141A1 (en) * | 2020-05-29 | 2021-12-02 | Soco, Inc. | Question answering retrieval via sparse transformer matching |
CN112328767A (zh) * | 2020-11-11 | 2021-02-05 | 重庆邮电大学 | 基于bert模型和比较聚合框架的问答匹配方法 |
CN113076759A (zh) * | 2021-04-25 | 2021-07-06 | 昆明理工大学 | 基于答案类别和句法指导的案情阅读理解方法 |
CN113742451A (zh) * | 2021-09-06 | 2021-12-03 | 深圳市广联智通科技有限公司 | 基于多类型问题和多片段答案抽取的机器阅读理解系统 |
Non-Patent Citations (3)
Title |
---|
PU ZHANG等: "SpanBERT-based Multilayer Fusion Model for Extractive Reading Comprehension", 《INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE&APPLICATION》, vol. 15, no. 1, 31 January 2024 (2024-01-31), pages 515 - 523 * |
盛艺暄;兰曼;: "利用外部知识辅助和多步推理的选择题型机器阅读理解模型", 计算机系统应用, no. 04, 15 April 2020 (2020-04-15), pages 5 - 13 * |
谭红叶;李宣影;刘蓓;: "基于外部知识和层级篇章表示的阅读理解方法", 中文信息学报, no. 04, 15 April 2020 (2020-04-15), pages 88 - 94 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547154A (zh) * | 2022-04-26 | 2022-05-27 | 成都迈杰世教育咨询有限公司 | 一种智能交互式英语训练方法、系统及计算机可读介质 |
CN114547154B (zh) * | 2022-04-26 | 2022-08-26 | 成都迈杰世教育咨询有限公司 | 一种智能交互式英语训练方法、系统及计算机可读介质 |
CN118132738A (zh) * | 2024-05-08 | 2024-06-04 | 交通运输部公路科学研究所 | 针对桥梁检评文本的抽取式问答方法 |
CN118364813A (zh) * | 2024-06-20 | 2024-07-19 | 曲阜师范大学 | 基于机器阅读理解的知识增强方法、系统、装置、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114385803B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN114385803B (zh) | 一种基于外部知识和片段选择的抽取式阅读理解方法 | |
CN109492227A (zh) | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN113836269B (zh) | 一种基于问答式系统的篇章级核心事件抽取方法 | |
CN110765254A (zh) | 一种融合多视角答案重排序的多文档问答系统模型 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN112883175B (zh) | 结合预训练模型及模板生成的气象服务交互方法及系统 | |
CN113297369A (zh) | 基于知识图谱子图检索的智能问答系统 | |
CN113836919A (zh) | 一种基于迁移学习的建筑行业文本纠错方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN114970563B (zh) | 融合内容和形式多样性的中文问题生成方法和系统 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN118093834B (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN114626463A (zh) | 语言模型的训练方法、文本匹配方法及相关装置 | |
CN110309515B (zh) | 实体识别方法及装置 | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN113516094A (zh) | 一种用于为文档匹配评议专家的系统以及方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN115171870A (zh) | 一种基于m-BERT预训练模型的就诊引导提示方法及系统 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |