CN111553159B - 一种问句生成方法及系统 - Google Patents

一种问句生成方法及系统 Download PDF

Info

Publication number
CN111553159B
CN111553159B CN202010330059.2A CN202010330059A CN111553159B CN 111553159 B CN111553159 B CN 111553159B CN 202010330059 A CN202010330059 A CN 202010330059A CN 111553159 B CN111553159 B CN 111553159B
Authority
CN
China
Prior art keywords
question
text
training
question generation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010330059.2A
Other languages
English (en)
Other versions
CN111553159A (zh
Inventor
许光銮
于泓峰
张文凯
田雨
李沛光
姚方龙
武斌
刘那与
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202010330059.2A priority Critical patent/CN111553159B/zh
Publication of CN111553159A publication Critical patent/CN111553159A/zh
Application granted granted Critical
Publication of CN111553159B publication Critical patent/CN111553159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种问句生成方法及系统,包括:基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;将待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对答案的多个问句;对多个问句进行订正后得到待阅读理解文本对应的问句;其中,问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换,提高了生成问句的执行速度和准确度、挺高了扩展性,大幅度减少了人工标注,同时利用已有的对话系统提高了问句生成的可读性及多样性。

Description

一种问句生成方法及系统
技术领域
本发明属于处理自然语言数据技术领域,具体涉及一种问句生成方法及系统。
背景技术
随着网络信息的爆炸式的增长,各种信息充斥着整个网络环境。人们现在已经习惯于去网络上搜寻一些解决问题的方法。当用户并不是十分熟悉一些搜索技巧的时候,他们往往需要花费很多的时间去筛选搜索引擎返回的结果。交互对话系统与阅读理解系统的诞生有效的解决了前面提到的信息烦杂的问题。交互对话系统与阅读理解系统采用自然语言处理的方法将用户提交的问题进行分析,获取相关答案然后返回给用户。
问句自动生成将会在缺少人机交互的情况下为交互式问答系统提供问答对。这些问答对可以根据系统需要限定在某一领域内存在也可以作为通用领域问答对。为交互对话系统与阅读理解系统提供数据支撑。问句的自动生成是一项集自然语言处理与自然语言生成于一体的项目。如何的在没有人参与的情况下机器自动的正确的生成问句,根据一定的文本生成怎样的问句,生成问句的优劣评定是目前问句自动生成研究者共同面对的难题。如果能正确的解决以上三个问题,问句自动生成将会被应用到生活的各个方面。同时,我们发现由于当前对话系统与阅读理解系统由于缺少相关问句的支持,也使得对话系统与阅读理解的内容过于单一,不适合当前人们的需求。目前虽然有一些问句生成方法,但是问句生成采用传统规则的方法同时需要大量的人工标注,因此导致生成问句的过程存在生成性能的不足、可扩展性差、执行速度慢、生成性能较低,不足以满足当前人们的需求。
发明内容
为了解决现有技术中存在的问题,本发明的目的在于提供一种问句生成方法,包括:
基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;
将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句;
对所述多个问句进行订正后得到待阅读理解文本对应的问句;
其中,所述问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换,得到用对话系统表达的问句。
优选的,所述问句生成模型的训练包括:
选择已经标注出问句和答案的阅读理解文本,并进行数据过滤;
对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分;
根据阅读理解文本、答案部分以及注出的问句构建训练数据集,并将所述训练数集据进行多细粒度的分割得到训练集、验证集和测试集;
基于训练集在双向自注意力机制的多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对所述训练数据以及进行训练对话系统进行训练得到问句生成模型;
其中所述属性包括:数据格式和专业方向。
优选的,所述基于训练集使用基于双向自注意力机制的多层多尺度的transformer网络的算法模型对所述训练数据以及进行训练对话系统进行训练得到问句生成模型,包括:
基于占位符机制,利用固定占位符关键字对阅读理解文本包括的篇章段落中的命名实体其进行依次进行记录与替换;
将实体替换后的篇章段落及答案送入transformer编码器之中获得中间层向量;
将编码器输出的中间层向量送入到由自注意力机制与拷贝机制构成的transformer解码器之中生成问句;
利用篇章段落中记录固定占位符关键字标记対生成问句中的占位符进行替换。
优选的,所述问句生成模型的训练还包括:
将所述测试集中的阅读理解文本和答案部分带入训练后的问句生成模型得到答案部分对应的预测问句;
基于所述测试集中的问句与所述预测问句对所述问句生成模型进行优化。
优选的,所述问句生成模型的训练还包括:
利用验证集对优化后的问句生成模型进行优化评估。
优选的,所述对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分,包括:
基于命名实体识别工具对阅读理解文本进行实体标注,将标注后的实体作为答案,拼接到篇章段落后;
所述实体类型包括:人物、组织、时间、地点。
优选的,所述对训练数据进行多细粒度的分割得到训练集、验证集和测试集,包括:
基于实体类型从所述训练数据中随机选取80%个样本作为训练集;选择10%个样本划分为验证集;将所述训练数据中剩余的10%个样本划分为测试集;
且训练集,验证集与测试集中实体类型数据比例相同。
优选的,所述将待阅读理解文本带入预先训练好的问句生成模型中,生成多个问句,之前还包括:
将待识别的待阅读理解文本进行数据处理;
基于现有阅读理解文本格式对待识别的待阅读理解文本的格式进行调整,保证数据属性保持一致。
优选的,所述数据处理包括:
对数据进行分句、分词、词向量嵌入处理、正则化和清洗。
基于同一种发明构思,本发明还提供一种问句生成系统,包括:
数据准备模块,用于基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;
问句生成模块,用于将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句;
问句确定模块,用于对所述多个问句进行订正后得到待阅读理解文本对应的问句;
其中,所述问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换,得到用对话系统表达的问句。
本发明的有益效果是
本发明提供一种问句生成方法及系统,包括:基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句;对所述多个问句进行订正后得到待阅读理解文本对应的问句;其中,所述问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换,得到用对话系统表达的问句,利用在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制提高了生成问句的执行速度和准确度、挺高了扩展性,大幅度减少了人工标注,同时,利用已有的对话系统提高了问句生成的可读性及多样性。
附图说明
图1为本发明的问句生成方法流程图;
图2为本发明基于transformer与命名实体识别的问句生成方法步骤示意图;
图3为本发明的问句生成系统框图。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
实施例1,如图1所示和图2所示,本发明的技术方案如下:
S1基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;
S2将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句;
S3对所述多个问句进行订正后得到待阅读理解文本对应的问句;
其中,所述问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换,得到用对话系统表达的问句。本发明提到的transformer是一种神经网络架构。
其中问句生成模型生成的具体过程如下:
步骤1:选择已有的对话系统与阅读理解文本,选择的对话系统与阅读理解文本具有相同的属性,例如具有相同数据格式、具有相同专业方向等。数据的预处理包括对文本的分句、分词、word embedding、正则化、清洗等,其目的是对已有的数据进行优化和扩充。
步骤2:对处理好的数据采用现有的命名实体识别工具进行处理,获得每个词的实体特征,如人物、组织、时间、地点等实体信息,将其融入到word embedding中。获取更好的预处理结果。
这里命名实体识别工具可以采用现有的统计机器学习模型的命名实体识别工具。
步骤3:根据扩充之后的数据分割训练集和测试集。使用算法对训练集中的数据进行训练,根据测试集性能指标,选择最优的模型。
更进一步,训练算法使用深度学习算法,算法采用基于transformer的语言模型。该模型的transformer龙骨架构由两部分组成,第一部分为transformer的编码层层,第二部分为由自注意力机制与拷贝机制构成的transformer解码层。为了提高模型的在生成问句方面的表现,本发明在transformer架构上加入了拷贝机制和占位符机制这两种机制来弥补词表不足的情况(Out-of-vocabulary)。其中,copy机制从原句中选择要复制的单词,来解决生成未知词和低频词的问题,通过使用两个不同的softmax层来预测模型将要生成词的来源。在模型每一次预测的过程中,均使用多层感知器来决定使用哪个softmax层来生成单词。占位符机制则是由固定占位符关键字对包含答案文档中的命名实体其进行替换:上下文中被命名实体识别模型标记为命名实体的所有单词都被替换为表示其实体的固定占位符关键字,并对其进行记录与排序,映射保存在内存中。比如对于法律文书中的一个片段“李明在华联超市购买了一把水果刀”,其中有两个命名实体“李明”和“华联超市”,通过占位符机制我们将其替换为“Person_1”,“Organization_1”,则原句变为“Person_1在Organization_1购买了一把水果刀”。在训练过程中,模型对目标问题采用相同的步骤。在评测过程中,固定占位符关键字将被相应的命名实体替换,作为后期处理步骤。训练方法采用监督训练和分阶段训练模型。监督训练,预处理后的文本作为训练的输入数据,预处理后的文本的生成结果作为输出参考,根据每次训练的结果优化模型。分阶段训练,调整模型学习率,初始学习率从10-3开始,每次学习率降低10倍,降到10-8停止。每迭代训练一次训练集,进行一次测试集性能指标测试,观察测试集的性能指标变化,当性能指标不再变化时,选择其对应的模型作为最优模型。
以上三步为问句生成模型的方法,当有新的阅读理解文本需要进行问句生成时可以利用已经训练好的问句模型直接生成,也可以为了提高生成的准确度重新训练后,再利用新训练好的问句模型生成问句。
步骤4:对新获取的阅读理解文本,分析其属性是否和步骤1中选择的对话系统与阅读理解文本属性相同,如果属性不同,在后面的预处理操作过程中,尽量让其与步骤1中选择的数据属性保持一致。对文本进行预处理操作。预处理包括对数据进行分句、分词、映射处理word embedding、正则化和清洗,清洗包括对海量网址、图片、脏乱文字进行过滤,
步骤5:对通过步骤4预处理过后的文本,通过现有的命名实体识别工具,查找当前文本中的实体,将其作为预选答案部分,再将其一并送入步骤3中的模型中得到最优模型中进行问句生成操作,预测问句。
步骤6:基于人机交互界面舍弃不正常的生成结果,不用于后面的更新升级。对正常的问句生成结果,对其进行分析,并校正。
步骤7:保存校正后的问句生成结果到数据库。
本实施例进一步的还可以包括:当新获取的对话系统与阅读理解文本数量达到一定规模时,重复上述步骤1中的数据预处理操作、步骤2,对模型进行自动迭代更新升级。
更进一步,模型更新可以选择自动更新升级或者手动一键更新升级。
实施例2:
在本实施例中,设定待阅读理解文本包括一个陈述句,该陈述句可以理解为答案,例如:北京是中国的首都,
首先对该句子进行预处理包括对文本的分句、分词、词向量嵌入、正则化、清洗等得到:分词:<北京><是><中国><的><首都>
然后,对上述处理好的数据采用现有的命名实体识别工具进行处理,获得每个词的实体特征,得到:<北京>与<中国>为地名
最后,利用实施例1步骤3-5的训练方法,将命名实体信息进行编码,同时融入到词嵌入之中;再将融入命名实体信息的词嵌入模型送入到transformer问句生成模型中,得到问句:中国的首都是哪里?
实施例3,
为了实现上述方法,本发明还提供一种问句生成系统,包括:
数据准备模块,用于基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;
问句生成模块,用于将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对答案的多个问句;
问句确定模块,用于对多个问句进行订正后得到待阅读理解文本对应的问句;
其中,问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体其进行替换,得到用对话系统表达的问句。
其中,问句生成模块中问句生成模型的训练包括:
选择已经标注出问句和答案的阅读理解文本,并进行数据过滤;
对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分;
根据阅读理解文本、答案部分以及注出的问句构建训练数据集,并将训练数集据进行多细粒度的分割得到训练集、验证集和测试集;
基于训练集在双向自注意力机制的多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对训练数据以及进行训练对话系统进行训练得到问句生成模型;
其中属性包括:数据格式和专业方向。
基于训练集使用基于双向自注意力机制的多层多尺度的transformer网络的算法模型对训练数据以及进行训练对话系统进行训练得到问句生成模型,包括:
基于占位符机制,利用固定占位符关键字对阅读理解文本包括的篇章段落中的命名实体其进行依次进行记录与替换;
将实体替换后的篇章段落及答案送入由transformer编码器之中;
将解码器输出的隐层向量送入到由自注意力机制与拷贝机制构成的transformer解码器之中生成问句;
利用篇章段落中记录固定占位符关键字标记対生成问句中的占位符进行替换。
问句生成模型的训练还包括:
将测试集中的阅读理解文本和答案部分带入训练后的问句生成模型得到答案部分对应的预测问句;
基于测试集中的问句与预测问句对问句生成模型进行优化。
问句生成模型的训练还包括:
利用验证集对优化后的问句生成模型进行优化评估。
对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分,包括:
基于命名实体识别工具对阅读理解文本进行实体标注,将标注后的实体作为答案,拼接到篇章段落后;
实体类型包括:人物、组织、时间、地点。
对训练数据进行多细粒度的分割得到训练集、验证集和测试集,包括:
基于实体类型从训练数据中随机选取80%个样本作为训练集;选择10%个样本划分为验证集;将训练数据中剩余的10%个样本划分为测试集;
且训练集,验证集与测试集中实体类型数据比例相同。
将待阅读理解文本带入预先训练好的问句生成模型中,生成多个问句,之前还包括:
将待识别的待阅读理解文本进行数据处理;
基于现有阅读理解文本格式对待识别的待阅读理解文本的格式进行调整,保证数据属性保持一致。
数据处理包括:
对数据进行分句、分词、词向量嵌入处理、正则化和清洗。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (6)

1.一种问句生成方法,其特征在于,包括:
基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;
将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句;
对所述多个问句进行订正后得到待阅读理解文本对应的问句;
其中,所述问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体进行替换,得到用对话系统表达的问句;
所述问句生成模型的训练包括:
选择已经标注出问句和答案的阅读理解文本,并进行数据过滤;
对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分;
根据阅读理解文本、答案部分以及标注出的问句构建训练数据集,并将所述训练数据集进行多细粒度的分割得到训练集、验证集和测试集;
基于训练集在双向自注意力机制的多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对所述训练集以及对话系统进行训练得到问句生成模型;
将待阅读理解文本带入预先训练好的问句生成模型中,生成多个问句,之前还包括:
将待识别的待阅读理解文本进行数据处理;
基于现有阅读理解文本格式对待识别的待阅读理解文本的格式进行调整,保证数据属性保持一致;
其中所述属性包括:数据格式和专业方向;
所述基于训练集使用基于双向自注意力机制的多层多尺度的transformer网络的算法模型对所述训练集以及对话系统进行训练得到问句生成模型,包括:
基于占位符机制,利用固定占位符关键字对阅读理解文本包括的篇章段落中的命名实体依次进行记录与替换;
将实体替换后的篇章段落及答案送入transformer编码器之中得到中间向量;
将中间向量输入解码器中生成问句,其中解码器由自注意力机制与拷贝机制构成的transformer解码器构成;
利用篇章段落中记录固定占位符关键字标记対生成问句中的占位符进行替换。
2.如权利要求1所述的问句生成方法,其特征在于,所述问句生成模型的训练还包括:
将所述测试集中的阅读理解文本和答案部分带入训练后的问句生成模型得到答案部分对应的预测问句;
基于所述测试集中的问句与所述预测问句对所述问句生成模型进行优化。
3.如权利要求2所述的问句生成方法,其特征在于,所述问句生成模型的训练还包括:
利用验证集对优化后的问句生成模型进行优化评估。
4.如权利要求1所述的问句生成方法,其特征在于,所述对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分,包括:
基于命名实体识别工具对阅读理解文本进行实体标注,将标注后的实体作为答案,拼接到篇章段落后;
基于实体类型从所述训练数据中随机选取80%个样本作为训练集;选择10%个样本划分为验证集;将所述训练数据中剩余的10%个样本划分为测试集;
且训练集,验证集与测试集中实体类型数据比例相同;
所述实体类型包括:人物、组织、时间、地点。
5.如权利要求1所述的问句生成方法,其特征在于,所述数据处理包括:
对数据进行分句、分词、词向量嵌入处理、正则化和清洗。
6.一种问句生成系统,其特征在于,包括:
数据准备模块,用于基于命名实体识别工具对待阅读理解文本进行识别,得到答案部分;
问句生成模块,用于将所述待阅读理解文本和相应的答案部分带入预先训练好的问句生成模型生成针对所述答案的多个问句;
问句确定模块,用于对所述多个问句进行订正后得到待阅读理解文本对应的问句;
其中,所述问句生成模型,基于已有的对话系统与阅读理解文本在多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对阅读理解文本中的命名实体进行替换,得到用对话系统表达的问句;
其中,问句生成模块中问句生成模型的训练包括:
选择已经标注出问句和答案的阅读理解文本,并进行数据过滤;
对过滤后的阅读理解文本采用命名实体识别工具进行识别得到答案部分;
根据阅读理解文本、答案部分以及标注出的问句构建训练数据集,并将训练数据集进行多细粒度的分割得到训练集、验证集和测试集;
基于训练集在双向自注意力机制的多层多尺度的transformer网络的算法模型中引入拷贝机制和占位符机制对训练集以及对话系统进行训练得到问句生成模型;
将待阅读理解文本带入预先训练好的问句生成模型中,生成多个问句,之前还包括:
将待识别的待阅读理解文本进行数据处理;
基于现有阅读理解文本格式对待识别的待阅读理解文本的格式进行调整,保证数据属性保持一致;
其中属性包括:数据格式和专业方向;
基于训练集使用基于双向自注意力机制的多层多尺度的transformer网络的算法模型对训练集以及对话系统进行训练得到问句生成模型,包括:
基于占位符机制,利用固定占位符关键字对阅读理解文本包括的篇章段落中的命名实体依次进行记录与替换;
将实体替换后的篇章段落及答案送入transformer编码器之中;
将解码器输出的隐层向量送入到由自注意力机制与拷贝机制构成的transformer解码器之中生成问句;
利用篇章段落中记录固定占位符关键字标记対生成问句中的占位符进行替换。
CN202010330059.2A 2020-04-24 2020-04-24 一种问句生成方法及系统 Active CN111553159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010330059.2A CN111553159B (zh) 2020-04-24 2020-04-24 一种问句生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010330059.2A CN111553159B (zh) 2020-04-24 2020-04-24 一种问句生成方法及系统

Publications (2)

Publication Number Publication Date
CN111553159A CN111553159A (zh) 2020-08-18
CN111553159B true CN111553159B (zh) 2021-08-06

Family

ID=72005767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010330059.2A Active CN111553159B (zh) 2020-04-24 2020-04-24 一种问句生成方法及系统

Country Status (1)

Country Link
CN (1) CN111553159B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990290A (zh) * 2021-03-10 2021-06-18 平安科技(深圳)有限公司 样本数据的生成方法、装置、设备和存储介质
CN113268564B (zh) * 2021-05-24 2023-07-21 平安科技(深圳)有限公司 相似问题的生成方法、装置、设备及存储介质
CN113657089B (zh) * 2021-08-20 2024-08-16 西安电子科技大学 一种英语阅读理解辅助出题方法及系统
CN115719368B (zh) * 2022-11-29 2024-05-17 上海船舶运输科学研究所有限公司 一种多目标船舶跟踪方法及系统
CN116089589B (zh) * 2023-02-10 2023-08-29 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN109726274A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 问题生成方法、装置及存储介质
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992657B (zh) * 2019-04-03 2021-03-30 浙江大学 一种基于强化动态推理的对话式问题生成方法
CN110597970B (zh) * 2019-08-19 2023-04-07 华东理工大学 一种多粒度医疗实体联合识别的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN109726274A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 问题生成方法、装置及存储介质
CN110162613A (zh) * 2019-05-27 2019-08-23 腾讯科技(深圳)有限公司 一种问题生成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于数据增广和复制的中文语法错误纠正方法;汪权彬等;《智能系统学报》;20200131;第15卷(第1期);第99-106页 *

Also Published As

Publication number Publication date
CN111553159A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111553159B (zh) 一种问句生成方法及系统
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
WO2022188584A1 (zh) 基于预训练语言模型的相似语句生成方法和装置
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN111144093A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
CN118152547B (zh) 一种根据提问者理解能力的机器人回答方法、介质及系统
CN115563959A (zh) 面向中文拼音拼写纠错的自监督预训练方法、系统及介质
US20230014904A1 (en) Searchable data structure for electronic documents
CN113505589A (zh) 一种基于bert模型的mooc学习者认知行为识别方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
CN117973372A (zh) 一种基于拼音约束的中文语法纠错方法
CN117216008A (zh) 一种基于知识图谱的档案多模态智能编纂方法及系统
CN115906878A (zh) 一种基于提示的机器翻译方法
CN115617959A (zh) 问题解答方法及装置
CN115114396A (zh) 一种语言模型的训练方法、样本数据的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant