CN113010655B - 一种机器阅读理解的回答与干扰项生成方法、装置 - Google Patents

一种机器阅读理解的回答与干扰项生成方法、装置 Download PDF

Info

Publication number
CN113010655B
CN113010655B CN202110288495.2A CN202110288495A CN113010655B CN 113010655 B CN113010655 B CN 113010655B CN 202110288495 A CN202110288495 A CN 202110288495A CN 113010655 B CN113010655 B CN 113010655B
Authority
CN
China
Prior art keywords
text
interference
answer
neural network
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110288495.2A
Other languages
English (en)
Other versions
CN113010655A (zh
Inventor
蔡毅
吴欣
徐静云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110288495.2A priority Critical patent/CN113010655B/zh
Publication of CN113010655A publication Critical patent/CN113010655A/zh
Application granted granted Critical
Publication of CN113010655B publication Critical patent/CN113010655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种机器阅读理解的回答与干扰项生成方法、装置,方法是将机器阅读理解领域中的干扰项生成与机器问答任务结合起来,通过联合学习机制同时促进生成答案和干扰项这两个任务的性能提升。本发明能实现良好的机器问答,在给定一篇文章和一个关于此文章的问题的情况下,能够准确地回答相关问题并且生成答案对应的干扰项,可广泛应用于机器阅读领域或者智能出题领域。

Description

一种机器阅读理解的回答与干扰项生成方法、装置
技术领域
本发明涉及自然语言处理的机器阅读理解领域,具体涉及一种机器阅读理解的回答与干扰项生成方法、装置。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角。
近年来随着深度学习的不断发展,越来越多的机器阅读理解算法开始采用基于深度神经网络的模型,通过在可观的样本上训练,算法在一定程度上能够理解人类语言的语义。然而,自然语言中包含的语义复杂多变,想要机器能够完全理解人类语言中的语义并完整正确的回答一个问题还无法彻底实现。所以,目前机器阅读理解领域较多采用选择题的方式对机器的理解能力进行检验。即给定一篇上下文和一个问题,机器要从若干选项中筛选出正确答案。相比于不给选项,完全直接地回答一个问题,选择题的形式可以降低答题的难度。
然而,现有的机器阅读理解技术只关注了文章、问题中的语义信息,忽略了干扰项中的语义信息。而在实际的学习过程中,人们常常提及答题者在做题的时候需要理解出题人的意思,这其实就是说在回答一个问题的时候要揣摩每一个干扰项为什么要这样设置,这样可以帮助答题者更快更准确的找到问题的正确答案。可见,干扰项中的语义信息对于答题而言存在着参考价值,能一定程度上帮助阅读理解。
发明内容
本发明的第一目的在于解决现有技术的不足,提出一种机器阅读理解的回答与干扰项生成方法,能够实现良好的机器问答,可广泛应用于机器阅读领域或者智能出题领域。
本发明的第二目的在于提出一种机器阅读理解的回答与干扰项生成装置。
本发明的第三目的在于提出一种计算机可读存储介质。
本发明的第四目的在于提出一种计算设备。
本发明的第一目的可以通过如下技术方案实现:
一种机器阅读理解的回答与干扰项生成方法,包括以下步骤:
1)、获取预训练语言模型L,该模型用于提取语料的文本特征;
构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成;
2)、将每个样本的文章P与问题Q的文本内容输入到预训练语言模型L中,模型输出对应的文本特征向量F;
3)、将每个样本的文本特征向量F分别输入两个神经网络解码器中,两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
4)、计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练;
5)、对于待回答和生成干扰项的文章和问题,利用预训练语言模型L提取文本特征向量F,再将文本特征向量F分别输入到训练完成的两个神经网络解码器,两个神经网络解码器分别输出该问题的答案和干扰项。
优选的,在步骤1)中,预训练语言模型的类型包括GPT-2、BERT。
更进一步的,预训练语言模型采用已训练完成的现有预训练语言模型,或者利用若干无标注语料,通过自监督的方式训练得到。
优选的,文本特征向量的生成过程如下:
首先,将文章P与问题Q的文本内容进行拼接,得到一条完整的输入文本X:
Figure BDA0002981427560000021
其中,
Figure BDA0002981427560000022
为文本拼接符,把Q的文本内容拼接到P的后面,形成一个更长的文本;
然后,将文本X输入到预训练语言模型L中,输出文本X中每个组成词语对应的特征向量Fi,i∈[1,n],并组成对应的特征向量序列Fall
Fall={F1,F2,...,Fn}
其中,n为文本X的词语个数,即文本X中的每个词语都有一个对应的特征向量;再计算特征序列Fall的平均值,得到文本X的整体特征表示F:
F=mean(Fall)
其中,mean表示平均函数,即对Fall中的所有向量取平均。
优选的,两个神经网络解码器D1和D2均为长短期记忆神经网络,用于根据文本特征输出对应的文本序列;
将文本特征向量F输入到神经网络解码器D1中,得到正确答案的预测结果Ap
AP=D1(F)
将文本特征F向量输入D2到中,得到干扰项的预测结果Op
OP=D2(F)。
优选的,所述步骤4)的具体过程为:
4.1)、计算答案预测结果Ap与正确答案A之间的误差LA
LA=CrossEntropy(A,Ap)
其中,CrossEntropy是误差计算公式,用以计算两个文本序列对应位置的误差;
4.2)、计算答案预测结果Op与正确答案O之间的误差LO
LO=CrossEntropy(O,Op)
4.3)、使用联合学习的方式将LA和LO两个误差结合起来得到最终误差L,并通过梯度下降反向传播的方法对两个神经网络解码器的参数进行更新;
最终误差L的计算公式为:
L=αLA+(1-α)LO
其中,α为调节因子,用于平衡LA和LO在数值上的差异。
本发明的第二目的可以通过如下技术方案实现:
一种机器阅读理解的回答与干扰项生成装置,其特征在于,包括:预训练语言模型获取模块、数据集构建模块、文本特征向量生成模块、预测结果生成模块、解码器训练模块、答案及干扰项生成模块;
其中,预训练语言模型获取模块用于获取预训练语言模型L,该模型用来提取语料的文本特征;
数据集构建模块用于构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成;
文本特征向量生成模块用于将数据集中每个样本的文章P与问题Q的文本内容或者将待回答和生成干扰项的文章和问题的文本内容输入到预训练语言模型L中,由模型输出对应的文本特征向量F;
预测结果生成模块用于将每个样本的文本特征向量F分别输入两个神经网络解码器中,由两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
解码器训练模块用于计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练;
答案及干扰项生成模块用于将待回答和生成干扰项的文章和问题的文本特征向量F分别输入到训练完成的两个神经网络解码器,由两个神经网络解码器分别输出该问题的答案和干扰项。
本发明的第三目的可以通过如下技术方案实现:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现本发明第一目的所述的机器阅读理解的回答与干扰项生成方法。
本发明的第四目的可以通过如下技术方案实现:
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明第一目的所述的机器阅读理解的回答与干扰项生成方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明利用预训练语言模型捕获文本的语义信息,在文章、问题信息的基础上,将干扰项的信息也引入到用于生成回答的网络模型中,让模型能够了解干扰项的生成模式,更好地避开干扰项,提高回答的准确率,实现良好的机器问答,可应用于机器阅读领域。与此同时,本发明也可用于干扰项的生成,可以用在智能出题领域,全自动地生成干扰项,减轻出题者的压力。
(2)本发明将机器阅读理解领域中的干扰项生成与机器问答任务结合起来,通过联合学习机制同时促进生成答案和干扰项这两个任务的性能提升,在给定一篇文章和一个关于此文章的问题的情况下,能够准确地回答相关问题并且生成答案对应的干扰项。
附图说明
图1为本发明机器阅读理解的回答与干扰项生成方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例提供了一种机器阅读理解的回答与干扰项生成方法,可应用于机器阅读领域如智能应答机器人,也可以应用于智能出题领域如考试专用系统,如图1所示,方法包括以下步骤:
1)、获取预训练语言模型L,该模型用于提取语料的文本特征。
构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成。
预训练语言模型的思想是创建一个黑匣子,该黑匣子可以理解输入的语言,然后可以要求使用该语言执行任何特定任务。首先向语言模型提供大量未注释的数据(例如完整的Wikipedia文具),这使模型可以学习各种单词的用法以及该语言的一般编写方式,再将模型转移到NLP任务,在模型中将其馈给另一个较小的任务特定数据集,该任务特定数据集用于微调和创建能够执行特定任务的最终模型。
这里,预训练语言模型可以是常用的语言模型,如GPT-2,BERT等,可直接采用已训练完成的现有模型,也可以利用若干无标注语料,通过自监督的方式训练得到所需模型。数据集可采集语料库(如试题库等)中的相关语料来构建得到。干扰项可以是从输入的文章当中抽取出相关的部分文本,通过随意匹配拼合来构成,其构成的是一个看似合理但错误的回答,可使问题无法真正被回答。
2)、将每个样本的文章P与问题Q的文本内容输入到预训练语言模型L中,模型输出对应的文本特征向量F,过程具体如下:
2.1)、将文章P与问题Q的文本内容进行拼接,得到一条完整的输入文本X:
Figure BDA0002981427560000051
其中,
Figure BDA0002981427560000052
为文本拼接符,把Q的文本内容拼接到P的后面,形成一个更长的文本;
2.2)、将文本X输入到预训练语言模型L中,输出文本X中每个组成词语对应的特征向量Fi,i∈[1,n],并组成对应的特征向量序列Fall
Fall={F1,F2,...,Fn}
其中,n为文本X的词语个数,即文本X中的每个词语都有一个对应的特征向量;
2.3)、计算特征序列Fall的平均值,得到文本X的整体特征表示F:
F=mean(Fall)
其中,mean表示平均函数,即对Fall中的所有向量取平均。
3)、将每个样本的文本特征向量F分别输入两个神经网络解码器中,两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
这里,两个神经网络解码器D1和D2均为长短期记忆神经网络,能够根据文本特征输出对应的文本序列。
将文本特征向量F输入到神经网络解码器D1中,可得到正确答案的预测结果Ap
AP=D1(F)
将文本特征F向量输入D2到中,可得到干扰项的预测结果Op
OP=D2(F)
开始使用D1时Ap可能不理想,因此需要后续通过反向传播的方式训练D1,使得Ap逐渐接近正确答案A。同样,开始使用D2时Op可能不理想,因此也需要后续通过反向传播的方式训练D2,使得Op逐渐接近正确的干扰项O。
4)、计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练,过程如下:
4.1)、计算答案预测结果Ap与正确答案A之间的误差LA
LA=CrossEntropy(A,Ap)
4.2)、计算答案预测结果Op与正确答案O之间的误差LO
LO=CrossEntropy(O,Op)
这里的CrossEntropy是一种常用的误差计算公式,用以计算两个文本序列对应位置的误差。
4.3)、为使两个神经网络解码器同时学习如何预测正确答案与干扰项,并且能够相互促进彼此的训练效果,使用联合学习的方式将LA和LO两个误差结合起来得到最终误差L,并通过梯度下降反向传播的方法对两个神经网络解码器的参数进行更新:
L=αLA+(1-α)LO
其中,α为调节因子,用于平衡LA和LO在数值上的差异。
5)、对于待回答和生成干扰项的文章和问题,按照步骤2),利用预训练语言模型L提取文本特征向量F,再将文本特征向量F分别输入到训练完成的两个神经网络解码器,两个神经网络解码器分别输出该问题的答案和干扰项。
实施例2
本实施例提供了一种机器阅读理解的回答与干扰项生成装置,可实现实施例1所述的机器阅读理解的回答与干扰项生成方法,该装置包括:预训练语言模型获取模块、数据集构建模块、文本特征向量生成模块、预测结果生成模块、解码器训练模块、答案及干扰项生成模块。
预训练语言模型获取模块、数据集构建模块分别连接文本特征向量生成模块,文本特征向量生成模块、预测结果生成模块、解码器训练模块依次连接,数据集构建模块连接解码器训练模块,特征向量生成模块、解码器训练模块分别连接答案及干扰项生成模块。
其中,预训练语言模型获取模块用于获取预训练语言模型L,该模型用来提取语料的文本特征;
数据集构建模块用于构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成;
文本特征向量生成模块用于将数据集中每个样本的文章P与问题Q的文本内容,或者将待回答和生成干扰项的文章和问题的文本内容输入到预训练语言模型L中,由模型输出对应的文本特征向量F;
预测结果生成模块用于将每个样本的文本特征向量F分别输入两个神经网络解码器中,由两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
解码器训练模块用于计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练;
答案及干扰项生成模块用于将待回答和生成干扰项的文章和问题的文本特征向量F分别输入到训练完成的两个神经网络解码器,由两个神经网络解码器分别输出该问题的答案和干扰项。
在此需要说明的是,本实施例的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3
本实施例提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的机器阅读理解的回答与干扰项生成方法,具体如下:
1)、获取预训练语言模型L,该模型用于提取语料的文本特征;
构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成;
2)、将每个样本的文章P与问题Q的文本内容输入到预训练语言模型L中,模型输出对应的文本特征向量F;
3)、将每个样本的文本特征向量F分别输入两个神经网络解码器中,两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
4)、计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练;
5)、对于待回答和生成干扰项的文章和问题,利用预训练语言模型L提取文本特征向量F,再将文本特征向量F分别输入到训练完成的两个神经网络解码器,两个神经网络解码器分别输出该问题的答案和干扰项。
本实施例中的计算机可读存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例提供了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的机器阅读理解的回答与干扰项生成方法,具体如下:
1)、获取预训练语言模型L,该模型用于提取语料的文本特征;
构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成;
2)、将每个样本的文章P与问题Q的文本内容输入到预训练语言模型L中,模型输出对应的文本特征向量F;
3)、将每个样本的文本特征向量F分别输入两个神经网络解码器中,两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
4)、计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练;
5)、对于待回答和生成干扰项的文章和问题,利用预训练语言模型L提取文本特征向量F,再将文本特征向量F分别输入到训练完成的两个神经网络解码器,两个神经网络解码器分别输出该问题的答案和干扰项。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑或其他具有处理器功能的终端设备。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (9)

1.一种机器阅读理解的回答与干扰项生成方法,其特征在于,包括以下步骤:
1)、获取预训练语言模型L,该模型用于提取语料的文本特征;
构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成;
2)、将每个样本的文章P与问题Q的文本内容输入到预训练语言模型L中,模型输出对应的文本特征向量F;
3)、将每个样本的文本特征向量F分别输入两个神经网络解码器中,两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
4)、计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练;
5)、对于待回答和生成干扰项的文章和问题,利用预训练语言模型L提取文本特征向量F,再将文本特征向量F分别输入到训练完成的两个神经网络解码器,两个神经网络解码器分别输出该问题的答案和干扰项。
2.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法,其特征在于,在步骤1)中,预训练语言模型的类型包括GPT-2、BERT。
3.根据权利要求2所述的机器阅读理解的回答与干扰项生成方法,其特征在于,预训练语言模型采用已训练完成的现有预训练语言模型,或者利用若干无标注语料,通过自监督的方式训练得到。
4.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法,其特征在于,文本特征向量的生成过程如下:
首先,将文章P与问题Q的文本内容进行拼接,得到一条完整的输入文本X:
Figure FDA0003725177110000011
其中,
Figure FDA0003725177110000012
为文本拼接符,把Q的文本内容拼接到P的后面,形成一个更长的文本;
然后,将文本X输入到预训练语言模型L中,输出文本X中每个组成词语对应的特征向量Fi,i∈[1,n],并组成对应的特征向量序列Fall
Fall={F1,F2,...,Fn}
其中,n为文本X的词语个数,即文本X中的每个词语都有一个对应的特征向量;
再计算特征向量序列Fall的平均值,得到文本X的整体特征表示F:
F=mean(Fall)
其中,mean表示平均函数,即对Fall中的所有向量取平均。
5.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法,其特征在于,两个神经网络解码器D1和D2均为长短期记忆神经网络,用于根据文本特征输出对应的文本序列;
将文本特征向量F输入到神经网络解码器D1中,得到正确答案的预测结果Ap
AP=D1(F)
将文本特征F向量输入到D2中,得到干扰项的预测结果Op
OP=D2(F)。
6.根据权利要求1所述的机器阅读理解的回答与干扰项生成方法,其特征在于,所述步骤4)的具体过程为:
4.1)、计算答案预测结果Ap与正确答案A之间的误差LA
LA=CrossEntropy(A,Ap)
其中,CrossEntropy是误差计算公式,用以计算两个文本序列对应位置的误差;
4.2)、计算答案预测结果Op与正确答案O之间的误差LO
LO=CrossEntropy(O,Op)
4.3)、使用联合学习的方式将LA和LO两个误差结合起来得到最终误差L,并通过梯度下降反向传播的方法对两个神经网络解码器的参数进行更新;
最终误差L的计算公式为:
L=αLA+(1-α)LO
其中,α为调节因子,用于平衡LA和LO在数值上的差异。
7.一种机器阅读理解的回答与干扰项生成装置,其特征在于,包括:预训练语言模型获取模块、数据集构建模块、文本特征向量生成模块、预测结果生成模块、解码器训练模块、答案及干扰项生成模块;
其中,预训练语言模型获取模块用于获取预训练语言模型L,该模型用来提取语料的文本特征;
数据集构建模块用于构建机器阅读理解数据集,数据集中的每个样本由一篇文章P、一个关于文章的问题Q、正确答案A与干扰项O构成;
文本特征向量生成模块用于将数据集中每个样本的文章P与问题Q的文本内容或者将待回答和生成干扰项的文章和问题的文本内容输入到预训练语言模型L中,由模型输出对应的文本特征向量F;
预测结果生成模块用于将每个样本的文本特征向量F分别输入两个神经网络解码器中,由两个神经网络解码器分别输出文章与问题所对应的答案预测结果Ap、干扰项预测结果Op
解码器训练模块用于计算答案预测结果Ap与对应样本的正确答案A之间的误差LA,干扰项预测结果Op与对应样本的正确干扰项O之间的误差LO,通过联合学习的方式对两个神经网络解码器进行反向传播训练;
答案及干扰项生成模块用于将待回答和生成干扰项的文章和问题的文本特征向量F分别输入到训练完成的两个神经网络解码器,由两个神经网络解码器分别输出该问题的答案和干扰项。
8.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1至6中任一项所述的机器阅读理解的回答与干扰项生成方法。
9.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1至6中任一项所述的机器阅读理解的回答与干扰项生成方法。
CN202110288495.2A 2021-03-18 2021-03-18 一种机器阅读理解的回答与干扰项生成方法、装置 Active CN113010655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288495.2A CN113010655B (zh) 2021-03-18 2021-03-18 一种机器阅读理解的回答与干扰项生成方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110288495.2A CN113010655B (zh) 2021-03-18 2021-03-18 一种机器阅读理解的回答与干扰项生成方法、装置

Publications (2)

Publication Number Publication Date
CN113010655A CN113010655A (zh) 2021-06-22
CN113010655B true CN113010655B (zh) 2022-12-16

Family

ID=76409470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110288495.2A Active CN113010655B (zh) 2021-03-18 2021-03-18 一种机器阅读理解的回答与干扰项生成方法、装置

Country Status (1)

Country Link
CN (1) CN113010655B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657089A (zh) * 2021-08-20 2021-11-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN113706951A (zh) * 2021-08-26 2021-11-26 陕西万唯教育传媒有限公司 线上教育方法、系统及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259940A (ja) * 2001-03-06 2002-09-13 Kddi Corp 出力状態判定機能を有する並列ニューラルネットワーク処理システム
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467302B2 (en) * 2014-02-11 2019-11-05 International Business Machines Corporation Candidate answers for speculative questions in a deep question answering system
US9684876B2 (en) * 2015-03-30 2017-06-20 International Business Machines Corporation Question answering system-based generation of distractors using machine learning
JP2017151860A (ja) * 2016-02-26 2017-08-31 富士通株式会社 検索制御プログラム、検索制御装置及び検索制御方法
CN106409041B (zh) * 2016-11-22 2020-05-19 深圳市鹰硕技术有限公司 一种填空题试题的生成和判卷的方法及系统
KR102100951B1 (ko) * 2017-11-16 2020-04-14 주식회사 마인즈랩 기계 독해를 위한 질의응답 데이터 생성 시스템
US11183274B2 (en) * 2017-12-18 2021-11-23 International Business Machines Corporation Analysis of answers to questions
JP7087938B2 (ja) * 2018-06-07 2022-06-21 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
JP7084617B2 (ja) * 2018-06-27 2022-06-15 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
CN110516059B (zh) * 2019-08-30 2023-06-09 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置
CN111783428B (zh) * 2020-07-07 2024-01-23 杭州叙简科技股份有限公司 基于深度学习的应急管理类客观题自动生成系统
CN112464641B (zh) * 2020-10-29 2023-01-03 平安科技(深圳)有限公司 基于bert的机器阅读理解方法、装置、设备及存储介质
CN112487139B (zh) * 2020-11-27 2023-07-14 平安科技(深圳)有限公司 基于文本的自动出题方法、装置及计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259940A (ja) * 2001-03-06 2002-09-13 Kddi Corp 出力状態判定機能を有する並列ニューラルネットワーク処理システム
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法

Also Published As

Publication number Publication date
CN113010655A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Li et al. Natural language generation using deep learning to support MOOC learners
CN108960407A (zh) 递归神经网路语言模型训练方法、装置、设备及介质
CN113010655B (zh) 一种机器阅读理解的回答与干扰项生成方法、装置
CN109766407A (zh) 数据处理方法和系统
CN107885703A (zh) 数学翻译器、数学翻译设备及平台
US20230342620A1 (en) Method and apparatus for generating q & a model by using adversarial learning
Prabhu et al. A hybrid approach towards automated essay evaluation based on Bert and feature engineering
Bosco et al. Deepeva: a deep neural network architecture for assessing sentence complexity in italian and english languages
CN114492451A (zh) 文本匹配方法、装置、电子设备及计算机可读存储介质
Wang et al. Research and implementation of English grammar check and error correction based on Deep Learning
Tashu et al. Deep Learning Architecture for Automatic Essay Scoring
CN116028613B (zh) 常识问答方法、系统、计算机设备和存储介质
CN116860947A (zh) 面向文本阅读理解的选择题生成方法、系统及存储介质
Singh et al. Encoder-decoder architectures for generating questions
CN111291221A (zh) 对数据源生成语义描述的方法、设备和电子设备
Arifin et al. Automatic essay scoring for Indonesian short answers using siamese Manhattan long short-term memory
CN116822530A (zh) 一种基于知识图谱的问答对生成方法
CN113705251A (zh) 机器翻译模型的训练方法、语言翻译方法及设备
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质
EP3828781A1 (en) Method and apparatus for generating question and answer dataset based on input paragraph
Cheng et al. Automatic Scoring of Spoken Language Based on Basic Deep Learning
CN112434152B (zh) 基于多通道卷积神经网络的教育类选择题解答方法和装置
Aksu et al. Velocidapter: Task-oriented dialogue comprehension modeling pairing synthetic text generation with domain adaptation
Anand et al. Revolutionizing High School Physics Education: A Novel Dataset
Nie et al. Predicting Reading Comprehension Scores of Elementary School Students.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant