CN115033692A - 一种面向机器阅读理解的问题生成方法 - Google Patents

一种面向机器阅读理解的问题生成方法 Download PDF

Info

Publication number
CN115033692A
CN115033692A CN202210648290.5A CN202210648290A CN115033692A CN 115033692 A CN115033692 A CN 115033692A CN 202210648290 A CN202210648290 A CN 202210648290A CN 115033692 A CN115033692 A CN 115033692A
Authority
CN
China
Prior art keywords
model
loss function
classification model
auxiliary classification
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210648290.5A
Other languages
English (en)
Inventor
孙媛
刘思思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN202210648290.5A priority Critical patent/CN115033692A/zh
Publication of CN115033692A publication Critical patent/CN115033692A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向机器阅读理解的问题生成方法,方法包括:使用已经构建的阅读理解数据集,包括问题、段落和答案;对数据集中与答案相关的三元组知识进行提取;使用seq2seq模型,以段落、答案和三元组知识作为模型的输入数据,得到编码向量和问题生成的预测结果;使用问题生成的预测结果计算得出问题生成的损失函数;使用辅助分类模型根据编码向量预测目标问题的疑问词类型,得到疑问词类型与辅助分类模型的预测结果;使用疑问词类型与辅助分类模型的预测结果计算得出辅助分类模型的损失函数;将两个损失函数组合,得到总损失函数,使用总损失函数对seq2seq模型和辅助分类模型进行迭代训练,得到训练完成的seq2seq模型;使用训练完成的seq2seq模型进行问题生成。

Description

一种面向机器阅读理解的问题生成方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种面向机器阅读理解的问题生成方法。
背景技术
近年来,随着人工智能技术的快速发展,自然语言生成的相关研究受到越来越多的关注,其中,问题生成是自然语言生成的一个重要研究方向,目前的问题生成研究主要是有答案的问题生成,根据给定的上下文信息和指定的答案信息,让机器能够理解给定的上下文信息生成针对该指定答案的问题。问题生成技术在学术界和工业界具有广泛的应用,一方面,问题生成可以作为一种数据增强技术为问答系统和阅读理解任务产生训练数据.研究表明,利用自动生成的问题来补充数据,或者同时将答案抽取与问题生成两个任务进行训练可以显著提升问答系统的性能。另一方面,问题生成可以在教育领域模拟用户提问、在对话领域中引导机器主动提问等,在对话系统中嵌入问题生成模型,可以加强系统与人的交互,帮助系统更准确地判断人的意图,从而使人机对话更加流畅。
早期的问题生成研究主要是基于规则和模板的方式,该方法是在语法树上定义一些启发式的规则来将某个句子转换成问题句式,该方法的好处是可以保证生成问题的相关性和流利度,但是这类方法严格依赖于人工设定的转换和生成规则,同时生成问题的多样性在很大程度上受到限制,可移植性差。随着一些大规模的高质量的机器阅读理解数据集的出现,如SQuAD、MARCO,基于神经网络的问题生成取得了很大的进展。在之后的研究当中,基于神经网络的问题生成成为主流的研究方法,并且出现了大量的高质量的研究。目前,面向阅读理解的数据集构建主要采用人工的方式,该方式需要耗费大量的人力和物力资源,人工成本较高。
问题生成任务需要理解上下文并根据答案生成合适的问题,其中,问句的疑问词准确性直接决定了问句的准确性,因此,问句中疑问词的准确率至关重要。对目前问题生成模型生成的问句的准确率进行统计分析发现,生成的问句中有超过半数的问题词与问题类型不匹配,这严重影响了问题生成的效果。同时,生成的问题中还存在和原文以及答案相关性不大的问题。
发明内容
本发明的目的是提供一种面向机器阅读理解的问题生成方法,旨在解决阅读理解数据集匮乏的问题,通过有效利用深度学习的方法和技术,降低人工成本。针对生成的问句中有超过半数的问题词与问题类型不匹配的问题,本发明提出对输入的段落和答案进行分类,将问题类型按照疑问词的类别进行分类。针对生成的问题中存在和原文以及答案相关性不大的问题,本发明根据给定的答案对数据集中的三元组知识进行提取,并将该三元组知识和原始输入融合后一起输入到编码器当中,获得具有答案意识的上下文表示,通过解码器,生成与答案和原文相关的问题。
本发明为解决上述技术问题采用的技术方案为,提供了一种面向机器阅读理解的问题生成方法,方法包括:
使用已经构建的阅读理解数据集,包括问题、段落和答案;
对数据集中与所述答案相关的三元组知识进行提取;
使用seq2seq模型,以所述段落、答案和三元组知识作为模型的输入数据,对所述输入数据进行编码与解码,得到编码向量和问题生成的预测结果;
以所述问题作为标签,使用所述问题生成的预测结果计算得出问题生成的损失函数;
使用辅助分类模型根据所述编码向量预测目标问题的疑问词类型,得到疑问词类型与辅助分类模型的预测结果;
以所述问题作为标签,使用所述疑问词类型与所述辅助分类模型的预测结果计算得出辅助分类模型的损失函数;
将所述问题生成的损失函数与辅助分类模型的损失函数组合,得到总损失函数,使用所述总损失函数对所述seq2seq模型和辅助分类模型进行迭代训练,得到训练完成的seq2seq模型;
使用所述训练完成的seq2seq模型进行问题生成。
在一种可能的实施方式中,所述seq2seq模型,以基于自注意力机制的双向LSTM作为编码器,以基于注意力机制的LSTM作为解码器。
在一种可能的实施方式中,所述辅助分类模型为BERT分类模型,使用交叉熵损失函数计算所述问题生成的损失函数和辅助分类模型的损失函数。
本发明采用seq2seq架构,进行阅读理解数据集的自动构建,根据给定的文本和答案生成针对该答案的问题,同时针对目前问题生成研究中生成的问题存在疑问词不准确或缺失的问题,设计疑问词分类的辅助任务对问句类型进行分类,提高生成的问句中疑问词的准确率,另外,通过对段落和答案中存在的三元组知识进行提取,将其一起输入到模型当中,通过为模型提供更多的信息来提高生成问句的质量。
附图说明
图1为本发明实施例公开的一种面向机器阅读理解的问题生成方法的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
基于seq2seq架构的问题生成的任务定义是:根据给定的段落D和答案A,模型生成一个问题
Figure BDA0003686829340000031
该问题可以根据给定的段落和答案进行回答,如公式(1)所示:
Figure BDA0003686829340000041
图1为本发明实施例公开的一种面向机器阅读理解的问题生成方法的流程图。
在步骤S101,获取训练模型所需要的训练集数据,包括问题、段落和答案。
在步骤S102,对数据集中与答案相关的三元组知识<At,r,e>进行提取,获得与答案At相关的关键词r和e,其中,At为实体一,r为实体关系,e为实体二,通过关键词r和e辅助模型生成与答案相关的问题。通过对原始段落中与答案相关的三元组知识进行提取,可以提高生成问题与答案的相关性。
在步骤S103,使用seq2seq模型,编码器使用双向LSTM,对输入的段落、答案和三元组知识<At,r,e>进行编码,如公式(2)-(3)所示:
ht=LSTM(ht-1,[Dt,At,<At,r,e>]) (2)
Figure BDA0003686829340000042
其中,ht-1为t-1时间步的隐状态,
Figure BDA0003686829340000043
Figure BDA0003686829340000044
分别代表从左向右和从右向左的编码,H为双向LSTM编码后的编码向量。
使用自注意力机制对编码后的信息进行处理,自注意力机制可以让模型为不同的信息动态地分配权重,如公式(4)-(6)所示:
f(H,ht)=HTWaht (4)
αi=softmax(f(H,ht)) (5)
Figure BDA0003686829340000045
其中,Wa为可学习的参数矩阵,αi即为单词对应的权重系数,然后进行加权求和即可得到注意力值at
然后对其进行解码。首先经过LSTM解码,yt-1为上一时刻LSTM的输出结果,st为t时刻的隐状态,Wu为一个可学习的参数矩阵。然后使用注意力机制对解码后的信息进行处理,计算注意力分数ci,对其进行归一化得到注意力值ut,如公式(7)-(10)所示:
st=LSTM(st-1,yt-1) (7)
Figure BDA0003686829340000051
ci=softmax(αt) (9)
Figure BDA0003686829340000052
在步骤S104,使用交叉熵损失函数计算生成每一个词的概率PQG,以问题作为标签,计算问题生成的损失函数,如公式(11)所示,其中,y<t为t时刻之前的输出结果,yt为问题生成的预测结果。
Figure BDA0003686829340000053
在步骤S105-S106,使用辅助分类模型根据编码过程中的隐藏层状态来预测目标问题的疑问词类型,之后该预测将同样使用基于注意力的解码器来指导问题生成。以问题作为标签,使用交叉熵损失函数计算分类模型的辅助分类模型的损失函数Lc,C为分类结果,yi为辅助分类模型的预测结果,计算公式如(12)-(13)所示:
C=softmax(WcH) (12)
Figure BDA0003686829340000054
在步骤S107,将问题生成的损失函数与辅助分类模型的损失函数组合,得到总损失函数Lall,如公式(14)所示。
Lall=LQG+αLc (14)
使用总损失函数对seq2seq模型和辅助分类模型进行迭代训练,得到训练完成的模型。
在步骤S108,使用所述训练完成的seq2seq模型进行问题生成。
同时,问句类型的分类准确率也对问题质量产生正影响,因此选择一个性能好的分类模型也至关重要。本发明采用准确率最高的BERT分类模型作为辅助任务的辅助分类模型,帮助问题生成模型生成疑问词准确的问题。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种面向机器阅读理解的问题生成方法,其特征在于,所述方法包括:
使用已经构建的阅读理解数据集,包括问题、段落和答案;
对数据集中与所述答案相关的三元组知识进行提取;
使用seq2seq模型,以所述段落、答案和三元组知识作为模型的输入数据,对所述输入数据进行编码与解码,得到编码向量和问题生成的预测结果;
以所述问题作为标签,使用所述问题生成的预测结果计算得出问题生成的损失函数;
使用辅助分类模型根据所述编码向量预测目标问题的疑问词类型,得到疑问词类型与辅助分类模型的预测结果;
以所述问题作为标签,使用所述疑问词类型与所述辅助分类模型的预测结果计算得出辅助分类模型的损失函数;
将所述问题生成的损失函数与辅助分类模型的损失函数组合,得到总损失函数,使用所述总损失函数对所述seq2seq模型和辅助分类模型进行迭代训练,得到训练完成的seq2seq模型;
使用所述训练完成的seq2seq模型进行问题生成。
2.根据权利要求1所述的方法,其特征在于,所述seq2seq模型,以基于自注意力机制的双向LSTM作为编码器,以基于注意力机制的LSTM作为解码器。
3.根据权利要求1所述的方法,其特征在于,所述辅助分类模型为BERT分类模型,使用交叉熵损失函数计算所述问题生成的损失函数和辅助分类模型的损失函数。
CN202210648290.5A 2022-06-09 2022-06-09 一种面向机器阅读理解的问题生成方法 Pending CN115033692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210648290.5A CN115033692A (zh) 2022-06-09 2022-06-09 一种面向机器阅读理解的问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210648290.5A CN115033692A (zh) 2022-06-09 2022-06-09 一种面向机器阅读理解的问题生成方法

Publications (1)

Publication Number Publication Date
CN115033692A true CN115033692A (zh) 2022-09-09

Family

ID=83123643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210648290.5A Pending CN115033692A (zh) 2022-06-09 2022-06-09 一种面向机器阅读理解的问题生成方法

Country Status (1)

Country Link
CN (1) CN115033692A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024119831A1 (zh) * 2022-12-08 2024-06-13 浙江极氪智能科技有限公司 问题生成方法、生成装置及计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168749A (zh) * 2021-12-06 2022-03-11 北京航空航天大学 一种基于知识图谱和疑问词驱动的问题生成系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168749A (zh) * 2021-12-06 2022-03-11 北京航空航天大学 一种基于知识图谱和疑问词驱动的问题生成系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUAN SUN 等: "TiBERT: Tibetan Pre-trained Language Model", 《ARXIV》, 31 May 2022 (2022-05-31), pages 1 - 6 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024119831A1 (zh) * 2022-12-08 2024-06-13 浙江极氪智能科技有限公司 问题生成方法、生成装置及计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN111178094B (zh) 一种基于预训练的稀缺资源神经机器翻译训练方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN116596347B (zh) 基于云平台的多学科交互教学系统及教学方法
CN112257465A (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN117236335B (zh) 基于提示学习的两阶段命名实体识别方法
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN116011456A (zh) 基于提示学习的中文建筑规范文本实体识别方法及系统
CN115033692A (zh) 一种面向机器阅读理解的问题生成方法
CN117610562A (zh) 一种结合组合范畴语法和多任务学习的关系抽取方法
CN109446535A (zh) 一种基于三角架构的蒙汉神经机器翻译方法
CN115310429B (zh) 一种多轮倾听对话模型中的数据压缩与高性能计算方法
CN112668344B (zh) 基于混合专家模型的复杂度可控的多样化问题生成方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN114881010A (zh) 一种基于Transformer和多任务学习的中文语法纠错方法
Duan et al. Research on Chinese Text Error Correction Based on Sequence Model
CN118095261B (zh) 一种文本数据处理方法、装置、设备以及可读存储介质
CN118036577B (zh) 一种自然语言处理中的序列标注方法
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质
CN114547256B (zh) 面向消防安全知识智能问答的文本语义匹配方法和装置
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination