CN112307773A - 机器阅读理解系统的自定义问题数据自动生成方法 - Google Patents

机器阅读理解系统的自定义问题数据自动生成方法 Download PDF

Info

Publication number
CN112307773A
CN112307773A CN202011387634.9A CN202011387634A CN112307773A CN 112307773 A CN112307773 A CN 112307773A CN 202011387634 A CN202011387634 A CN 202011387634A CN 112307773 A CN112307773 A CN 112307773A
Authority
CN
China
Prior art keywords
question
answer
data set
difficulty
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011387634.9A
Other languages
English (en)
Other versions
CN112307773B (zh
Inventor
陈旻宇
李国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011387634.9A priority Critical patent/CN112307773B/zh
Publication of CN112307773A publication Critical patent/CN112307773A/zh
Application granted granted Critical
Publication of CN112307773B publication Critical patent/CN112307773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种机器阅读理解系统的自定义问题数据自动生成方法,包括:数据集预处理模块、答案挖掘模块和问题生成模块,数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器‑解码器架构的神经网络得到生成的问题问句和答案。本发明在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上,实现机器阅读理解系统的可控类型和难度的问题数据自动生成。

Description

机器阅读理解系统的自定义问题数据自动生成方法
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种机器阅读理解系统的可控类型和难度的问题数据自动生成方法。
背景技术
现有的阅读理解问题生成技术主要是以给定的答案为目标,上下文作为输入,从文本中提取信息进行问题生成的模式。在生成过程中,由于答案被固定,导致问题的类型被固定,同时需要对合适的答案进行标记;除此之外,在机器阅读理解领域中,模型往往需要对模型而言不同难度的问题作为训练数据,来提升整个阅读理解系统的泛化能力。
发明内容
本发明针对现有技术存在的上述不足,提出一种机器阅读理解系统的自定义问题数据自动生成方法,在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上,实现机器阅读理解系统的可控类型和难度的问题数据自动生成。
本发明是通过以下技术方案实现的:
本发明包括:数据集预处理模块、答案挖掘模块和问题生成模块,其中:数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器-解码器架构的神经网络得到生成的问题问句和答案。
技术效果
本发明整体解决了现有技术中机器阅读理解系统中数据稀少,生成数据方式无法应用于无标记文本,并且缺少控制生成数据的问题类型和难度的手段的问题。
与现有技术相比,本发明能够在无标记文本中自动挖掘问题实体,依据此生成答案;可以控制生成特定类型的问题和对应的答案;可以控制生成特定客观难度的问题和对应的答案。
附图说明
图1为本发明的实施例的技术方案示意图。
图2为本发明的实施例的运行流程示意图。
图3为本发明的实施例中问题生成模型的原理示意图。
具体实施方式
本实施例针对机器阅读理解特性,依据机器阅读模型在问题上的表现,客观定义不同的问题难度。根据机器阅读理解特性,定义不同的问题类型。
本实施例在HotpotQA和SQuAD两个数据集上分别进行难度分类和问题分类,将其作为数据集,在数据集上训练基于Bert的自然语言预训练文本标注模型,得到模型参数,并且利用模型在无标记文档上挖掘答案,将类型和难度分别利用嵌入矩阵进行嵌入表示。对于文档进行命名实体和关系抽取,对于该文档构建小型的语义网络,并且使用双向GRU网络对文档进行表示,利用图神经网络表示基于文档的语义网络。使用Pytorch深度学习框架搭建编码器-解码器架构的序列到序列深度神经网络问题生成模型。聚合图神经网络表示、文档表示和类型难度的嵌入表示作为编码器的输出;使用基于注意力机制和拷贝机制的解码器,得到候选单词的生成概率。在数据集上训练问题生成模型,得到模型参数,并且利用模型在无标记文档上生成问题-答案对。
如图1所示,为本实施例涉及一种类型可选难度可控的英文阅读理解问题自动生成系统,据集预处理模块、答案挖掘模块和问题生成模块,其中:数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器-解码器架构的神经网络得到生成的问题问句和答案。
所述的数据集预处理模块包括:问题难度分类单元、问题类型分类单元、数据集整合切分单元。其中:问题难度分类单元使用机器阅读理解数据集为输入,使用多个机器阅读模型理解模型对数据集进行测试,根据不同模型回答问题的正误打分得到问题难度,输出至问题类型分类单元,问题类型分类单元对使用机器阅读理解数据集为输入,数据集中的问题按照语义进行分类,得到问题类别后输出至数据集切分单元,数据集整合切分单元将问题难度分类单元和问题类型分类单元的输入加入到数据集中,并按照8:1:1的比例切分数据集为训练集、测试集、验证集三部分后输出至答案挖掘模块。
所述的答案挖掘模块包括:问题标注单元、答案生成单元,其中:问题标注单元根据文本中的单词是否为答案进行标记后输出至答案生成单元,答案生成单元根据问题标注单元的输出作为训练集训练模型,将数据集作为输入,得到文档中的问题后输出至问题生成模块。
所述的问题生成模块包括:编码器单元、解码器单元,其中:编码器单元根据文档内容、问题难度、问题类型和问题内容,分别使用神经网络将其嵌入,并且使用图神经网络表示文档语义,使用注意力机制编码为隐藏层,并输出至解码器单元,解码器单元根据隐藏层信息,使用基于GRU神经网络的解码器结合拷贝机制进行解码,得到所生成的问题并输出。
本实施例涉及上述系统的问题生成方法,包括以下步骤:
步骤1、数据集预处理:将数据集处理成为符合深度学习模型开发、训练和测试的样式,并且支持问题难度、问题类型两个维度,具体包括:
1.1)将公开数据集HotpotQA和SQuAD作为数据集,得到<文档,问题,答案>形式的数据。
1.2)使用BERT,ALBERT和RoBERTa三种预训练模型对数据集进行机器阅读理解测试,对于每个问题,得到正确答案将得到1分,每个问题可能得到0-3分中的一个分数作为该问题的难度分数,分数越低表示问题越难。
1.3)对问句的首个单词进行匹配,将问题分类为八种问题类型中的某一类,对于无法分类的问题从数据集中删除。
1.4)对于每个问答对,生成问题的难度和问题的类型,形成新的形式为<文档,问题,答案,难度,类型>的数据集,并且将数据集切分为8:1:1,分别用作训练、测试和开发。
步骤2、答案挖掘:对于无标记的文本,从中挖掘出文本中适合作为问题的答案的实体,以及该实体适合的问题类型,具体包括:
2.1)对于数据集中文档的非答案单词,标注成<N>,答案单词根据问题类型不同分别标注成对应的标签,如将一个“What”类型的问题的答案标注为<WHAT>。
2.2)利用Bert预训练模型,对于文档的词性标注任务进行训练,得到合适的Bert预训练模型参数
2.3)使用训练好的Bert预训练模型,从无标记文本挖掘出答案和对应的问题类型。
2.4)基于生成的答案和对应的问题类型,以及外界输入的难度,构造形为<文档,答案,问题类型,难度>的需要生成问题的样本集合。
步骤3、生成问题:对于无标记的文本,基于答案挖掘得到的答案,基于给定的问题难度和问题类型生成多样化的问题,具体包括:
3.1)将类型和难度分别利用嵌入矩阵进行嵌入表示。将不同的类型、难度分别赋值为0,1,2…以进行独热化,Wt表示类型的嵌入矩阵,Wd表示难度的嵌入矩阵。将独热化的值乘以嵌入矩阵即可得到嵌入值Et,Ed
3.2)对于文档进行命名实体和关系抽取,对于该文档构建小型的语义网络G=(V,E)。网络中包含语义信息、指代信息、和实体关系。
3.3)对于文档使用双向GRU神经网络进行编码,得到文档的嵌入表示X=[x1,x2,…xl],其中
Figure BDA0002811466430000041
表示为两个方向GRU结果的连接。
3.4)从语义网络和文本嵌入表示中生成语义图神经网络,图神经网络的初始状态
Figure BDA0002811466430000042
Figure BDA0002811466430000043
使用使用跨模态注意力机制计算得到,其中:节点v,
Figure BDA0002811466430000044
Figure BDA0002811466430000045
i的取值范围是实体文本所在的文本范围。
3.5)使用门控图注意力神经网络(GGNN)进行图信息传播,在第T轮时传播中止,得到图神经网络在T轮时状态HT
3.6)使用注意力机制聚合图神经网络信息和文本嵌入信息得到全局嵌入信息
Figure BDA0002811466430000046
Figure BDA0002811466430000047
其中:
Figure BDA0002811466430000048
3.7)使用基于GRU的解码器对于全局嵌入信息E进行解码,当解码至第t步,输入全局嵌入,上一步的隐藏状态,上一个生成的单词,难度嵌入和类型嵌入,计算得到当前步的隐藏状态St=GRU([E,Et,Ed,wt-1],St-1)。
3.8)依据隐藏层信息,通过字典模式和拷贝模式两种模式得到对应的生成单词p(yt)=pgenPvocab(yt)+(1-pgen)Pcopy(yt),其中从字典中生成单词的概率pgen=Sigmoid(FFN(St,yt))
3.9字典模式中,使用前馈网络得到从字典中每个单词被选择的概率Pvocab(yt)=softmax(FFN(St,yt))。
3.10)拷贝模式中,使用前馈网络机制从答案的上下文中得到每个单词被选择概率
Figure BDA0002811466430000049
3.11)使用p(y_t)生成问题句子中的每一个单词,将生成的单词拼接从而生成阅读理解问题。
综上,本发明将问题类型和难度融合进入基于神经网络的问题生成的机制,其与现有常规技术手段相比具有显著改进的技术细节具体为:使用了图神经网络以及注意力机制实现了难度与类型可控的问题生成。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (6)

1.一种机器阅读理解系统的自定义问题数据自动生成方法,其特征在于,包括:数据集预处理模块、答案挖掘模块和问题生成模块,其中:数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器-解码器架构的神经网络得到生成的问题问句和答案。
2.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成方法,其特征是,所述的数据集预处理模块包括:问题难度分类单元、问题类型分类单元、数据集整合切分单元;其中:问题难度分类单元使用机器阅读理解数据集为输入,使用多个机器阅读模型理解模型对数据集进行测试,根据不同模型回答问题的正误打分得到问题难度,输出至问题类型分类单元,问题类型分类单元对使用机器阅读理解数据集为输入,数据集中的问题按照语义进行分类,得到问题类别后输出至数据集切分单元,数据集整合切分单元将问题难度分类单元和问题类型分类单元的输入加入到数据集中切分数据集为训练集、测试集、验证集后输出至答案挖掘模块。
3.根据权利要求2所述的机器阅读理解系统的自定义问题数据自动生成方法,其特征是,所述的训练集、测试集、验证集的比例为8:1:1。
4.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成方法,其特征是,所述的答案挖掘模块包括:问题标注单元、答案生成单元,其中:问题标注单元根据文本中的单词是否为答案进行标记后输出至答案生成单元,答案生成单元根据问题标注单元的输出作为训练集训练模型,将数据集作为输入,得到文档中的问题后输出至问题生成模块。
5.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成方法,其特征是,所述的问题生成模块包括:编码器单元、解码器单元,其中:编码器单元根据文档内容、问题难度、问题类型和问题内容,分别使用神经网络将其嵌入,并且使用图神经网络表示文档语义,使用注意力机制编码为隐藏层,并输出至解码器单元,解码器单元根据隐藏层信息,使用基于GRU神经网络的解码器结合拷贝机制进行解码,得到所生成的问题并输出。
6.一种基于权利要求1~5中任一所述系统的问题生成方法,其特征在于,包括以下步骤:
步骤1、数据集预处理:将数据集处理成为符合深度学习模型开发、训练和测试的样式,并且支持问题难度、问题类型两个维度,具体包括:
1.1)将公开数据集HotpotQA和SQuAD作为数据集,得到<文档,问题,答案>形式的数据;
1.2)使用BERT,ALBERT和RoBERTa三种预训练模型对数据集进行机器阅读理解测试,对于每个问题,得到正确答案将得到1分,每个问题可能得到0-3分中的一个分数作为该问题的难度分数,分数越低表示问题越难;
1.3)对问句的首个单词进行匹配,将问题分类为八种问题类型中的某一类,对于无法分类的问题从数据集中删除;
1.4)对于每个问答对,生成问题的难度和问题的类型,形成新的形式为<文档,问题,答案,难度,类型>的数据集,并且将数据集切分为8∶1∶1,分别用作训练、测试和开发;
步骤2、答案挖掘:对于无标记的文本,从中挖掘出文本中适合作为问题的答案的实体,以及该实体适合的问题类型,具体包括:
2.1)对于数据集中文档的非答案单词,标注成<N>,答案单词根据问题类型不同分别标注成对应的标签,如将一个“What”类型的问题的答案标注为<WHAT>;
2.2)利用Bert预训练模型,对于文档的词性标注任务进行训练,得到合适的Bert预训练模型参数;
2.3)使用训练好的Bert预训练模型,从无标记文本挖掘出答案和对应的问题类型;
2.4)基于生成的答案和对应的问题类型,以及外界输入的难度,构造形为<文档,答案,问题类型,难度>的需要生成问题的样本集合;
步骤3、生成问题:对于无标记的文本,基于答案挖掘得到的答案,基于给定的问题难度和问题类型生成多样化的问题,具体包括:
3.1)将类型和难度分别利用嵌入矩阵进行嵌入表示;将不同的类型、难度分别赋值为0,1,2…以进行独热化,Wt表示类型的嵌入矩阵,Wd表示难度的嵌入矩阵;将独热化的值乘以嵌入矩阵即可得到嵌入值Et,Ed
3.2)对于文档进行命名实体和关系抽取,对于该文档构建小型的语义网络
Figure FDA0002811466420000025
网络中包含语义信息、指代信息、和实体关系;
3.3)对于文档使用双向GRU神经网络进行编码,得到文档的嵌入表示x=[x1,x2,…xl],其中
Figure FDA0002811466420000021
表示为两个方向GRU结果的连接;
3.4)从语义网络和文本嵌入表示中生成语义图神经网络,图神经网络的初始状态
Figure FDA0002811466420000022
Figure FDA0002811466420000023
使用使用跨模态注意力机制计算得到,其中:节点v,
Figure FDA0002811466420000024
Figure FDA0002811466420000031
i的取值范围是实体文本所在的文本范围;
3.5)使用门控图注意力神经网络(GGNN)进行图信息传播,在第T轮时传播中止,得到图神经网络在T轮时状态HT
3.6)使用注意力机制聚合图神经网络信息和文本嵌入信息得到全局嵌入信息
Figure FDA0002811466420000032
Figure FDA0002811466420000033
其中:
Figure FDA0002811466420000034
3.7)使用基于GRU的解码器对于全局嵌入信息E进行解码,当解码至第t步,输入全局嵌入,上一步的隐藏状态,上一个生成的单词,难度嵌入和类型嵌入,计算得到当前步的隐藏状态St=GRU([E,Et,Ed,wt-1],St-1);
3.8)依据隐藏层信息,通过字典模式和拷贝模式两种模式得到对应的生成单词p(yt)=pgenPvocab(yt)+(1-pgen)Pcopy(yt),其中从字典中生成单词的概率pgen=Sigmoid(FFN(St,yt));
3.9字典模式中,使用前馈网络得到从字典中每个单词被选择的概率Pvocab(yt)=softmax(FFN(St,yt));
3.10)拷贝模式中,使用前馈网络机制从答案的上下文中得到每个单词被选择概率
Figure FDA0002811466420000035
3.11)使用p(y_t)生成问题句子中的每一个单词,将生成的单词拼接从而生成阅读理解问题。
CN202011387634.9A 2020-12-02 2020-12-02 机器阅读理解系统的自定义问题数据自动生成方法 Active CN112307773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011387634.9A CN112307773B (zh) 2020-12-02 2020-12-02 机器阅读理解系统的自定义问题数据自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011387634.9A CN112307773B (zh) 2020-12-02 2020-12-02 机器阅读理解系统的自定义问题数据自动生成方法

Publications (2)

Publication Number Publication Date
CN112307773A true CN112307773A (zh) 2021-02-02
CN112307773B CN112307773B (zh) 2022-06-21

Family

ID=74487716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011387634.9A Active CN112307773B (zh) 2020-12-02 2020-12-02 机器阅读理解系统的自定义问题数据自动生成方法

Country Status (1)

Country Link
CN (1) CN112307773B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN113094489A (zh) * 2021-05-08 2021-07-09 北京邮电大学 基于疑问词分类器的神经网络问题生成方法及生成系统
CN113657089A (zh) * 2021-08-20 2021-11-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN114495130A (zh) * 2021-12-27 2022-05-13 北京百度网讯科技有限公司 基于跨模态信息的文档阅读理解模型训练方法及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424346A (zh) * 2013-08-28 2015-03-18 UMe世界有限公司 基于互联网采样调节难度指标的云端题库
CN107506346A (zh) * 2017-07-10 2017-12-22 北京享阅教育科技有限公司 一种基于机器学习的中文阅读难度分级方法及系统
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
US20190228099A1 (en) * 2018-01-21 2019-07-25 Microsoft Technology Licensing, Llc. Question and answer pair generation using machine learning
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111563146A (zh) * 2020-04-02 2020-08-21 华南理工大学 一种基于推理的难度可控问题生成方法
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN111639187A (zh) * 2019-03-01 2020-09-08 上海数眼科技发展有限公司 一种基于知识图谱的知识问答验证码生成系统及方法
US20200372341A1 (en) * 2019-05-21 2020-11-26 Salesforce.Com, Inc. Systems and Methods for Reading Comprehension for a Question Answering Task
CN112015883A (zh) * 2020-08-24 2020-12-01 上海松鼠课堂人工智能科技有限公司 英文题目自动生成方法和系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424346A (zh) * 2013-08-28 2015-03-18 UMe世界有限公司 基于互联网采样调节难度指标的云端题库
CN107506346A (zh) * 2017-07-10 2017-12-22 北京享阅教育科技有限公司 一种基于机器学习的中文阅读难度分级方法及系统
US20190228099A1 (en) * 2018-01-21 2019-07-25 Microsoft Technology Licensing, Llc. Question and answer pair generation using machine learning
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109614471A (zh) * 2018-12-07 2019-04-12 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN109684452A (zh) * 2018-12-25 2019-04-26 中科国力(镇江)智能技术有限公司 一种基于答案与答案位置信息的神经网络问题生成方法
CN111639187A (zh) * 2019-03-01 2020-09-08 上海数眼科技发展有限公司 一种基于知识图谱的知识问答验证码生成系统及方法
US20200372341A1 (en) * 2019-05-21 2020-11-26 Salesforce.Com, Inc. Systems and Methods for Reading Comprehension for a Question Answering Task
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN111563146A (zh) * 2020-04-02 2020-08-21 华南理工大学 一种基于推理的难度可控问题生成方法
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN112015883A (zh) * 2020-08-24 2020-12-01 上海松鼠课堂人工智能科技有限公司 英文题目自动生成方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIFAN GAO ET AL.: "Difficulty Controllable Generation of Reading Comprehension Questions", 《ARXIV:1807.03586V5》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN113094489A (zh) * 2021-05-08 2021-07-09 北京邮电大学 基于疑问词分类器的神经网络问题生成方法及生成系统
CN113657089A (zh) * 2021-08-20 2021-11-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN114495130A (zh) * 2021-12-27 2022-05-13 北京百度网讯科技有限公司 基于跨模态信息的文档阅读理解模型训练方法及装置
CN114495130B (zh) * 2021-12-27 2023-03-24 北京百度网讯科技有限公司 基于跨模态信息的文档阅读理解模型训练方法及装置

Also Published As

Publication number Publication date
CN112307773B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN112307773B (zh) 机器阅读理解系统的自定义问题数据自动生成方法
Zheng et al. Characterization inference based on joint-optimization of multi-layer semantics and deep fusion matching network
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN109949637B (zh) 一种客观题目的自动解答方法和装置
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN112364125B (zh) 一种联合阅读课程学习机制的文本信息抽取系统及方法
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN110929714A (zh) 一种基于深度学习的密集文本图片的信息提取方法
CN111553159B (zh) 一种问句生成方法及系统
CN113139054A (zh) 一种基于Transformer的代码编程语言分类方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN113609840B (zh) 一种汉语法律判决摘要生成方法及系统
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN114444481A (zh) 一种新闻评论的情感分析与生成方法
CN114118113A (zh) 一种基于语境识别的机器翻译方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN116304064A (zh) 一种基于抽取式的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant