CN112487139B - 基于文本的自动出题方法、装置及计算机设备 - Google Patents

基于文本的自动出题方法、装置及计算机设备 Download PDF

Info

Publication number
CN112487139B
CN112487139B CN202011351657.4A CN202011351657A CN112487139B CN 112487139 B CN112487139 B CN 112487139B CN 202011351657 A CN202011351657 A CN 202011351657A CN 112487139 B CN112487139 B CN 112487139B
Authority
CN
China
Prior art keywords
answer
target
text
question
option
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011351657.4A
Other languages
English (en)
Other versions
CN112487139A (zh
Inventor
杨翰章
庄伯金
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011351657.4A priority Critical patent/CN112487139B/zh
Publication of CN112487139A publication Critical patent/CN112487139A/zh
Application granted granted Critical
Publication of CN112487139B publication Critical patent/CN112487139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于文本的自动出题方法、装置及计算机设备,涉及人工智能领域,可以解决目前问题生成存在生成结果受限且准确度低的问题。其中方法包括:基于UniLM模型以及潜在属性解码器构建问题生成模型;利用标注预设问题和对应问题选项的样本文本训练问题生成模型,以使问题生成模型的训练结果符合预设训练标准;将目标文本对应的目标文本段、第一答案选项以及第二答案选项输入至问题生成模型中,获取与第一答案选项匹配的目标问题;输出目标问题,以及与目标问题对应的第一答案选项以及第二答案选项。本申请适用于自动生成与文本内容对应的选择题,可应用于智能问答领域,还可应用在教育实践中,如通过生成与课文相关问题,评估学生学习情况。

Description

基于文本的自动出题方法、装置及计算机设备
技术领域
本申请涉及人工智能领域领域,尤其涉及到一种基于文本的自动出题方法、装置及计算机设备。
背景技术
得益于文本生成领域的研究发展,问题生成任务也能够更有效地投入实际应用中。问题生成的任务是从各种输入,如原始文本、数据库或其他语义表征中自动生成问题以及对应选项的一类任务,它属于自然语言文本生成中的一类任务。人类能够提出丰富的、有启发性的问题。而对于机器来说,在给定特定输入时,要能够提出类似的问题,还是一个具有挑战性的难题。近年来,随着深度学习地快速发展,自然语言文本生成领域的研究也取得了巨大地进步,研究者们从使用编解码器结构的序列到序列模型,逐渐发展为使用基于大量外部数据上预训练的语言模型,来提升文本生成的质量。
目前采用的问题生成方式,主要是针对各类场景预先设置目标问题,通过语义分析筛选出与文本对应匹配的目标问题,然而这种问题生成方式会使结果受制于预先设置的问题模板数量及质量,导致匹配精度较低,且使用户体验不佳。
发明内容
有鉴于此,本申请提供了一种基于文本的自动出题方法、装置及计算机设备,主要解决目前采用的问题生成方式,导致生成结果受限且准确度低的问题。
根据本申请的一个方面,提供了一种基于文本的自动出题方法,该方法包括:
基于UniLM模型以及潜在属性解码器构建问题生成模型;
利用标注预设问题和对应问题选项的样本文本训练所述问题生成模型,以使所述问题生成模型的训练结果符合预设训练标准;
将目标文本对应的目标文本段、第一答案选项以及第二答案选项输入至所述问题生成模型中,获取与所述第一答案选项匹配的目标问题;
输出所述目标问题,以及与所述目标问题对应的所述第一答案选项以及所述第二答案选项。
优选地,所述利用标注预设问题和对应问题选项的样本文本训练所述问题生成模型,以使所述问题生成模型的训练结果符合预设训练标准,包括:
生成所述样本文本对应的特征向量;
利用所述问题生成模型中的编码器和解码器对所述特征向量进行学习,确定所述样本文本中各个字符的目标属性,并基于所述目标属性训练生成预设问题;
利用负对数似然对应的损失函数对所述问题生成模型的训练结果进行验证,当判定所述损失函数的计算结果小于预设阈值时,则判定所述问题生成模型的训练结果符合预设训练标准。
优选地,所述在将目标文本对应的目标文本段、第一答案选项以及第二答案选项输入至所述问题生成模型中,获取与所述第一答案选项匹配的目标问题之前,包括:
基于目标文本提取出第一答案选项以及与所述第一答案选项关联的第二答案选项;
根据所述第一答案选项划分目标文本段。
优选地,所述基于目标文本提取出第一答案选项以及与所述第一答案选项关联的第二答案选项,包括:
提取所述目标文本中的各个命名实体,并利用各个所述命名实体构建答案候选集;
将所述答案候选集中各个所述命名实体分别确定为所述第一答案选项;
基于余弦相似度从所述答案候选集中筛选出预设数量个与所述第一答案选项关联的第二答案选项。
优选地,所述基于余弦相似度从所述答案候选集中筛选出预设数量个与所述第一答案选项关联的第二答案选项,包括:
利用词向量矩阵确定所述第一答案选项对应的第一词向量,以及所述答案候选集中其他各个命名实体对应的第二词向量;
利用余弦相似度算法计算所述第一词向量和所述第二词向量之间的相似度得分;
按照所述相似度得分大小从所述答案候选集中筛选出第一预设数量个第二答案选项。
优选地,所述根据所述第一答案选项划分目标文本段,包括:
对所述目标文本进行预处理,确定所述目标文本对应的句子集合;
在所述句子集合中筛选出包含所述第一答案选项的第一目标句子;
计算所述第一目标句子与所述句子集合中其他句子之间关于相同词语的召回分数;
基于所述召回分数大小从所述句子集合中筛选出第二预设数量个第二目标句子;
按照所述目标文本中的句子排列顺序,将所述第一目标句子和所述第二目标句子拼接为目标文本段。
优选地,所述输出所述目标问题,以及与所述目标问题对应的所述第一答案选项以及所述第二答案选项,包括:
将所述目标问题以及与所述目标问题对应的所述第一答案选项、所述第二答案选项,以选择题形式输出。
根据本申请的另一个方面,提供了一种基于文本的自动出题装置,该装置包括:
构建模块,用于基于UniLM模型以及潜在属性解码器构建问题生成模型;
训练模块,用于利用标注预设问题和对应问题选项的样本文本训练所述问题生成模型,以使所述问题生成模型的训练结果符合预设训练标准;
输入模块,用于将目标文本对应的目标文本段、第一答案选项以及第二答案选项输入至所述问题生成模型中,获取与所述第一答案选项匹配的目标问题;
输出模块,用于输出所述目标问题,以及与所述目标问题对应的所述第一答案选项以及所述第二答案选项。
优选地,所述训练模块具体用于:
生成所述样本文本对应的特征向量;
利用所述问题生成模型中的编码器和解码器对所述特征向量进行学习,确定所述样本文本中各个字符的目标属性,并基于所述目标属性训练生成预设问题;
利用负对数似然对应的损失函数对所述问题生成模型的训练结果进行验证,当判定所述损失函数的计算结果小于预设阈值时,则判定所述问题生成模型的训练结果符合预设训练标准。
优选地,所述装置还包括:提取模块、划分模块;
提取模块,用于基于目标文本提取出第一答案选项以及与所述第一答案选项关联的第二答案选项;
划分模块,用于根据所述第一答案选项划分目标文本段。
优选地,所述提取模块,具体用于:
提取所述目标文本中的各个命名实体,并利用各个所述命名实体构建答案候选集;
将所述答案候选集中各个所述命名实体分别确定为所述第一答案选项;
基于余弦相似度从所述答案候选集中筛选出预设数量个与所述第一答案选项关联的第二答案选项。
优选地,所述提取模块,具体用于:
利用词向量矩阵确定所述第一答案选项对应的第一词向量,以及所述答案候选集中其他各个命名实体对应的第二词向量;
利用余弦相似度算法计算所述第一词向量和所述第二词向量之间的相似度得分;
按照所述相似度得分大小从所述答案候选集中筛选出第一预设数量个第二答案选项。
优选地,所述划分模块,具体用于:
对所述目标文本进行预处理,确定所述目标文本对应的句子集合;
在所述句子集合中筛选出包含所述第一答案选项的第一目标句子;
计算所述第一目标句子与所述句子集合中其他句子之间关于相同词语的召回分数;
基于所述召回分数大小从所述句子集合中筛选出第二预设数量个第二目标句子;
按照所述目标文本中的句子排列顺序,将所述第一目标句子和所述第二目标句子拼接为目标文本段。
优选地,输出模块,具体用于:
将所述目标问题以及与所述目标问题对应的所述第一答案选项、所述第二答案选项,以选择题形式输出。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于文本的自动出题方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于文本的自动出题方法。
借由上述技术方案,本申请提供的一种基于文本的自动出题方法、装置及计算机设备,与目前问题生成方式相比,本申请可以选择题的形式构建智能出题应用,在答案构建方面,本申请可基于命名实体识别功能对用户输入的原文进行实体词抽取。进一步地,基于Word2vec训练专用词向量,对所抽取实体词,寻找与其语义最相关词,共同构建答案选项,即通过识别实体词保证答案贴合原文所要表达的主题,并且通过词向量相似匹配保证不同答案选项间具有语义相似性。在问题生成方面,本申请可利用大型无监督外部数据上学习的语法及语义信息,以及序列到序列的文本自回归生成方法,在生成时综合考虑模型解码器的输入和之前时刻的输出信息。并且,本方案中的问题生成模型在生成每个字时能考虑其在问句中的潜在属性,促使模型在解码时能够更好地基于上下文的语义关联特性,从而生成与用户输入的原文和答案更相关的问题,以此缓解现有模型中普遍存在的生成问题与原文不相关或无意义的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于文本的自动出题方法的流程示意图;
图2示出了本申请实施例提供的另一种基于文本的自动出题方法的流程示意图;
图3示出了本申请实施例提供的一种基于文本的自动出题装置的结构示意图;
图4示出了本申请实施例提供的另一种基于文本的自动出题装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前采用的问题生成方式,导致出题结果受限且准确度低的问题,本申请实施例提供了一种基于文本的自动出题方法,如图1所示,该方法包括:
101、基于UniLM模型以及潜在属性解码器构建问题生成模型。
对于本实施例,在具体的应用场景中,由于在普通的编解码器模式下,解码器往往会产生通用的、缺乏意义的问题,如“怎么了?”和“那又怎样?”,为了生成与原文和答案更相关的问题,本申请对UniLM模型中的解码器结构进行了修改。本申请中假设问题中的每个字在问题中都具有潜在的属性,即每个字都可能带有疑问属性、主题属性、普通属性,其中疑问属性表示该字可能为问题的提问词,如谁,什么等,主题属性表示该字表达了与主题相关的特点,普通属性表示该字的作用是维持问题语句语法通顺。
对于本申请的执行主体可为用于根据文本实现自动出题的系统,在该系统中,可根据接收到的目标文本抽取出潜在的答案,通过将所抽取答案与输入原文进行匹配,生成与抽取答案对应的其他混淆答案。进一步筛选出原文中与答案最相关的部分,形成与答案相关的文本。最后,将筛选后构建的文本与答案输入至训练好的问题生成模型中,生成与文本及答案相关的问题,将生成的问题与答案选项一并返回,作为最终结果输出。
102、利用标注预设问题和对应问题选项的样本文本训练问题生成模型,以使问题生成模型的训练结果符合预设训练标准。
对于本实施例,在具体的应用场景中,在训练问题生成模型时,可首先对样本文本进行处理,为样本文本标注好预设问题和对应的问题选项,以便以样本文本中的预设问题为训练目标,对问题生成模型进行学习训练。
103、将目标文本段、第一答案选项以及第二答案选项输入至符合预设训练标准的问题生成模型中,获取与第一答案选项匹配的目标问题。
对于本申请,在具体的应用场景中,可预先基于修改后的UniLM模型训练得到问题生成模型,在判定问题生成模型符合预设训练标准时,即可将目标文本段、第一答案选项以及第二答案选项拼接为一行输入形式,输入至问题生成模型中,问题生成模型通过特征学习,即可生成与第一答案选项匹配的目标问题。
104、输出目标问题,以及与目标问题对应的第一答案选项以及第二答案选项。
对于本实施例,在基于问题生成模型确定出对应的目标问题后,既完成了针对目标文本的题目生成过程,进一步可将生成的问题与答案选项一并返回,作为最终结果输出。
通过本实施例中基于文本的自动出题方法,在针对目标文本进行自动出题时,可首先提取出目标文本中的各个第一答案选项以及与第一答案选项关联的第二答案选项;并且根据第一答案选项筛选出与目标问题相关的目标文本段,进而将目标文本段、第一答案选项以及第二答案选项输入至符合预设训练标准的问题生成模型中,即可获取得到与第一答案选项匹配的目标问题;最后以选择题的形式将目标问题,以及与目标问题对应的第一答案选项、第二答案选项输出。在本申请中,通过基于UniLM模型以及潜在属性解码器训练的问题生成模型,可充分考虑各个词语的潜在属性,促使模型在解码时能够更好地基于上下文的语义关联特性,生成与用户输入的原文和答案更相关的问题,从而能够保证生成的问题更能与输入文本吻合,进而提高出题的准确性。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于文本的自动出题方法,如图2所示,该方法包括:
201、基于UniLM模型以及潜在属性解码器构建问题生成模型。
对于本实施例,在具体的应用场景中,通过将UniLM模型中的解码器结构进行修改,添加潜在属性解码器。通过这样的方式,可将每个字符的属性视为潜在的,这样便不需要显式地指定每个字符的属性。换句话说,每个字符可以属于这三种属性中的任何一种,但是在给定当前上下文时具有不同的概率。因此只需要改变模型预测每个字符生成的概率分布计算方式,便可以让模型从数据文本中自行学习到每个字符基于上下文时的不同属性,从而让模型在实际应用时学会在上下文条件下的用词用字方法,减少无意义或不相关问题的生成。
202、利用标注预设问题和对应问题选项的样本文本训练问题生成模型,以使问题生成模型的训练结果符合预设训练标准。
相应的,对于本实施例,问题生成模型的训练过程可为:生成样本文本对应的特征向量;利用问题生成模型中的编码器和解码器对特征向量进行学习,确定样本文本中各个字符的目标属性,并基于目标属性训练生成预设问题;利用负对数似然对应的损失函数对问题生成模型的训练结果进行验证,当判定损失函数的计算结果小于预设阈值时,则判定问题生成模型的训练结果符合预设训练标准。
具体训练过程如下:
(1)首先,需要预先处理样本文本,提取出样本文本对应的预设问题以及问题选项,处理后将文本与答案匹配对(contextk,answerk),与样本文本中对应标注的预设问题questionk,拼接为inputk=[CLS]contextk[SEP]answerk[SEP]questionk[EOS]的一行输入形式,将其输入到问题生成模型。其中,[CLS]表示句首标志,[EOS]表示句末标志,[SEP]表示不同段(context、answer、question)间的分割符标志。输入inputk在经过字符编码(Token Embedding)、位置编码(Position Embedding)和段落编码(Segment Embedding)后成为向量xk
(2)其次,输入向量xk经过一个L层(L=12)的Transformer的编码器,进行基于上下文的语义表示编码,在此模型会学习context、answer和question之间每个词相关联的语义信息。在每个Transformer层中,模型使用多头自注意机制对前一层的输出向量进行聚合,最终得到输出表示为hL=UniLM(xk)。
(3)接着,经过了编码器后输出的hL,被送入到修改后的解码器中进行解码,以使问题生成模型从样本文本中自行学习到每个字符基于上下文时的不同属性,从而让模型在实际应用时学会在上下文条件下的用词用字方法,减少无意义或不相关问题的生成。
经过修改后的解码器首先基于hL和解码器的隐藏层状态st预测给定上下文时字符在潜在属性上的概率分布,如公式2-1。
Figure BDA0002801484560000091
其中,
Figure BDA0002801484560000092
表示t时刻待生成的字符yt所具有的属性,st表示解码器在t时刻的隐藏状态,W0表示线性层参数。
然后计算以不同属性为条件时预测单词在整个词汇表上的生成字符的概率分布,如公式2-2。
Figure BDA0002801484560000093
其中,
Figure BDA0002801484560000094
表示线性层的矩阵参数,对于不同的属性,参数矩阵不同。ci表示第i种属性,i=1,2,3。
最终通过解码器生成一个字符的概率分布是不同属性条件下的生成分布的加权平均,其中系数即为类型概率,如公式2-3。
Figure BDA0002801484560000095
(4)最后,本申请使用式2-4的负对数似然作为损失函数,训练问题生成模型。
Figure BDA0002801484560000101
其中
Figure BDA0002801484560000102
表示真实问题questionk的第t个字符,具体可当确定损失函数的计算结果小于预设阈值时,则判定问题生成模型的训练结果符合预设训练标准。预设阈值对应判定问题生成模型符合预设训练标准时的最大损失函数值。
203、基于目标文本提取出第一答案选项以及与第一答案选项关联的第二答案选项。
对于本实施例,在具体的应用场景中,实施例步骤203具体可以包括:提取目标文本中的各个命名实体,并利用各个命名实体构建答案候选集;将答案候选集中各个命名实体分别确定为第一答案选项;基于余弦相似度从答案候选集中筛选出预设数量个与第一答案选项关联的第二答案选项。
其中,在提取目标文本中的各个命名实体,并利用各个命名实体构建答案候选集时,在具体的应用场景中,可采用开源的工具LAC对原文中的命名实体进行识别和提取,分别提取原文中的人名、地名、机构名、时间等实体。同时,为了防止LAC工具识别不准确对结果的干扰,对初步所抽取的实体还可进一步进行筛选,剔除其中包含中英文符号以及非法字符的实体,最终将筛选后的实体作为与原文相关的答案候选集{ansk},k表示候选集中的第k个实体。
相应的,在提取出各个命名实体后,可分别将各个命名实体确定为标准答案选项,进一步依据标准答案选项实现问题以及干扰选项的创建。其中,在基于余弦相似度从答案候选集中筛选出预设数量个与第一答案选项关联的第二答案选项时,具体可以包括:利用词向量矩阵确定第一答案选项对应的第一词向量,以及答案候选集中其他各个命名实体对应的第二词向量;利用余弦相似度算法计算第一词向量和第二词向量之间的相似度得分;按照相似度得分大小从答案候选集中筛选出第一预设数量个第二答案选项。
其中,第一预设数量可根据实际情况进行设定,例如设定答案由4个选项构成,且为单选形式,则此时可提取出1个第一答案选项和3个第二答案选项,即第一预设数量为3。
具体的,在进行第一答案选项与第二答案选项的筛选时,可首先在所需词表(词表包含所需实体词集合)上训练一个基于Word2vec的词向量矩阵We,对于每个第一答案选项ansk,可得到其对应的第一词向量为ek。其次,利用余弦相似度公式,计算词表中其余词对应的第二词向量ei,与第一词向量ek之间的相似性得分。最后选择得分最高的前4位词向量(第一位为自身)对应的词作为答案的四个选项。对每个答案进行上述操作,得到答案选项集合{final_ansk}。
204、根据第一答案选项划分目标文本段。
对于本实施例,在具体的应用场景中,实施例步骤204具体可以包括:对目标文本进行预处理,确定目标文本对应的句子集合;在句子集合中筛选出包含第一答案选项的第一目标句子;计算第一目标句子与句子集合中其他句子之间关于相同词语的召回分数;基于召回分数大小从句子集合中筛选出第二预设数量个第二目标句子;按照目标文本中的句子排列顺序,将第一目标句子和第二目标句子拼接为目标文本段。
具体的,可将实施例步骤203中确定出的答案候选集中的每个第一答案选项ansk,定位其在原文中的句子sentk。接着,将包含答案ansk的sentk与原文句子集中的所有句子senti进行相关性匹配。匹配时采用召回分数作为规则,即计算两个句子中相同词出现的召回率,按照分数的高低对句子集中的句子进行排序,得到排序后的集合{sort_sentj},j表示排序后句子集合中的第j个句子。最后,根据初始时限定的模型最大可接受输入长度(max_src_len)为512个字符,对排序集合{sort_sentj}进行筛选,并按照这些句子在原文中的实际顺序进行重新排序,得到重排句子集合{input_sentm},m表示第m个句子。将重排句子集合拼接起来,得到可用于模型输入的,经过筛选后的目标文本段contextk,k表示和第一答案选项ansk对应的第一目标句子k。
205、将目标文本段、第一答案选项以及第二答案选项输入至符合预设训练标准的问题生成模型中,获取与第一答案选项匹配的目标问题。
在具体的应用场景中,在经过训练、验证及测试后的上述模型,即可作为本方案中的问题生成模型。在实际使用时,可将对目标文本及答案处理后得到匹配对(contextk,answerk)以及答案选项集合{final_ansk}输入问题生成模型中,即可得到模型输出的目标问题。
206、将目标问题以及与目标问题对应的第一答案选项、第二答案选项,以选择题形式输出。
借由上述基于文本的自动出题方法,可基于命名实体识别功能对用户输入的原文进行实体词抽取。进一步地,基于Word2vec训练专用词向量,对所抽取实体词,寻找与其语义最相关词,共同构建答案选项,即通过识别实体词保证答案贴合原文所要表达的主题,并且通过词向量相似匹配保证不同答案选项间具有语义相似性。在问题生成方面,本申请可利用大型无监督外部数据上学习的语法及语义信息,以及序列到序列的文本自回归生成方法,在生成时综合考虑模型解码器的输入和之前时刻的输出信息。并且,本方案中的问题生成模型在生成每个字时能考虑其在问句中的潜在属性,促使模型在解码时能够更好地基于上下文的语义关联特性,从而生成与用户输入的原文和答案更相关的问题,以此缓解现有模型中普遍存在的生成问题与原文不相关或无意义的问题。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种基于文本的自动出题装置,如图3所示,该装置包括:构建模块31、训练模块32、输入模块33、输出模块34;
构建模块31,可用于基于UniLM模型以及潜在属性解码器构建问题生成模型;
训练模块32,可用于利用标注预设问题和对应问题选项的样本文本训练问题生成模型,以使问题生成模型的训练结果符合预设训练标准;
输入模块33,可用于将目标文本段、第一答案选项以及第二答案选项输入至符合预设训练标准的问题生成模型中,获取与第一答案选项匹配的目标问题;
输出模块34,可用于输出目标问题,以及与目标问题对应的第一答案选项以及第二答案选项。
在具体的应用场景中,训练模块31,具体可用于生成样本文本对应的特征向量;利用问题生成模型中的编码器和解码器对特征向量进行学习,确定样本文本中各个字符的目标属性,并基于目标属性训练生成预设问题;利用负对数似然对应的损失函数对问题生成模型的训练结果进行验证,当判定损失函数的计算结果小于预设阈值时,则判定问题生成模型的训练结果符合预设训练标准。
相应的,如图4所示,本装置还包括:提取模块35、划分模块36;
提取模块35,可用于基于目标文本提取出第一答案选项以及与第一答案选项关联的第二答案选项;
划分模块36,可用于根据第一答案选项划分目标文本段。
在具体的应用场景中,为了基于目标文本提取出第一答案选项以及与第一答案选项关联的第二答案选项,提取模块35,具体可用于提取目标文本中的各个命名实体,并利用各个命名实体构建答案候选集;将答案候选集中各个命名实体分别确定为第一答案选项;基于余弦相似度从答案候选集中筛选出预设数量个与第一答案选项关联的第二答案选项。
相应的,为了基于余弦相似度从答案候选集中筛选出预设数量个与第一答案选项关联的第二答案选项,提取模块35,具体可用于利用词向量矩阵确定第一答案选项对应的第一词向量,以及答案候选集中其他各个命名实体对应的第二词向量;利用余弦相似度算法计算第一词向量和第二词向量之间的相似度得分;按照相似度得分大小从答案候选集中筛选出第一预设数量个第二答案选项。
在具体的应用场景中,划分模块36,具体可用于对目标文本进行预处理,确定目标文本对应的句子集合;在句子集合中筛选出包含第一答案选项的第一目标句子;计算第一目标句子与句子集合中其他句子之间关于相同词语的召回分数;基于召回分数大小从句子集合中筛选出第二预设数量个第二目标句子;按照目标文本中的句子排列顺序,将第一目标句子和第二目标句子拼接为目标文本段。
相应的,输出模块34,具体可用于将目标问题以及与目标问题对应的第一答案选项、第二答案选项,以选择题形式输出。
需要说明的是,本实施例提供的一种基于文本的自动出题装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的基于文本的自动出题方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于文本的自动出题方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可以选择题的形式构建智能出题应用,在答案构建方面,本申请可基于命名实体识别功能对用户输入的原文进行实体词抽取。进一步地,基于Word2vec训练专用词向量,对所抽取实体词,寻找与其语义最相关词,共同构建答案选项,即通过识别实体词保证答案贴合原文所要表达的主题,并且通过词向量相似匹配保证不同答案选项间具有语义相似性。在问题生成方面,本申请可利用大型无监督外部数据上学习的语法及语义信息,以及序列到序列的文本自回归生成方法,在生成时综合考虑模型解码器的输入和之前时刻的输出信息。并且,本方案中的问题生成模型在生成每个字时能考虑其在问句中的潜在属性,促使模型在解码时能够更好地基于上下文的语义关联特性,从而生成与用户输入的原文和答案更相关的问题,以此缓解现有模型中普遍存在的生成问题与原文不相关或无意义的问题。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (8)

1.一种基于文本的自动出题方法,其特征在于,包括:
将UniLM模型中的解码器结构进行修改,添加潜在属性解码器,以基于UniLM模型以及潜在属性解码器构建问题生成模型;
生成对应问题选项的样本文本对应的特征向量;
基于所述特征向量确定所述样本文本中各个字符的目标属性,并基于所述目标属性训练生成预设问题,以利用标注预设问题和对应问题选项的样本文本训练所述问题生成模型,以使所述问题生成模型的训练结果符合预设训练标准;
基于目标文本提取出第一答案选项以及与所述第一答案选项关联的第二答案选项;
根据所述第一答案选项划分目标文本段;
将目标文本对应的目标文本段、第一答案选项以及第二答案选项输入至所述问题生成模型中,获取与所述第一答案选项匹配的目标问题;
输出所述目标问题,以及与所述目标问题对应的所述第一答案选项以及所述第二答案选项;
所述基于目标文本提取出第一答案选项以及与所述第一答案选项关联的第二答案选项,包括:
提取所述目标文本中的各个命名实体,并利用各个所述命名实体构建答案候选集;
将所述答案候选集中各个所述命名实体分别确定为所述第一答案选项;
基于余弦相似度从所述答案候选集中筛选出预设数量个与所述第一答案选项关联的第二答案选项。
2.根据权利要求1所述的方法,其特征在于,所述确定所述样本文本中各个字符的目标属性,并基于所述目标属性训练生成预设问题,以利用标注预设问题和对应问题选项的样本文本训练所述问题生成模型,以使所述问题生成模型的训练结果符合预设训练标准,包括:
利用所述问题生成模型中的编码器和解码器对所述特征向量进行学习,确定所述样本文本中各个字符的目标属性,并基于所述目标属性训练生成预设问题;
利用负对数似然对应的损失函数对所述问题生成模型的训练结果进行验证,当判定所述损失函数的计算结果小于预设阈值时,则判定所述问题生成模型的训练结果符合预设训练标准。
3.根据权利要求1所述的方法,其特征在于,所述基于余弦相似度从所述答案候选集中筛选出预设数量个与所述第一答案选项关联的第二答案选项,包括:
利用词向量矩阵确定所述第一答案选项对应的第一词向量,以及所述答案候选集中其他各个命名实体对应的第二词向量;
利用余弦相似度算法计算所述第一词向量和所述第二词向量之间的相似度得分;
按照所述相似度得分大小从所述答案候选集中筛选出第一预设数量个第二答案选项。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一答案选项划分目标文本段,包括:
对所述目标文本进行预处理,确定所述目标文本对应的句子集合;
在所述句子集合中筛选出包含所述第一答案选项的第一目标句子;
计算所述第一目标句子与所述句子集合中其他句子之间关于相同词语的召回分数;
基于所述召回分数大小从所述句子集合中筛选出第二预设数量个第二目标句子;
按照所述目标文本中的句子排列顺序,将所述第一目标句子和所述第二目标句子拼接为目标文本段。
5.根据权利要求4所述的方法,其特征在于,所述输出所述目标问题,以及与所述目标问题对应的所述第一答案选项以及所述第二答案选项,包括:
将所述目标问题以及与所述目标问题对应的所述第一答案选项、所述第二答案选项,以选择题形式输出。
6.一种基于文本的自动出题装置,其特征在于,包括:
构建模块,用于将UniLM模型中的解码器结构进行修改,添加潜在属性解码器,以基于UniLM模型以及潜在属性解码器构建问题生成模型;
训练模块,用于生成对应问题选项的样本文本对应的特征向量;基于所述特征向量确定所述样本文本中各个字符的目标属性,并基于所述目标属性训练生成预设问题,以利用标注预设问题和对应问题选项的样本文本训练所述问题生成模型,以使所述问题生成模型的训练结果符合预设训练标准;
提取模块,用于基于目标文本提取出第一答案选项以及与所述第一答案选项关联的第二答案选项;
划分模块,用于根据所述第一答案选项划分目标文本段;
输入模块,用于将目标文本对应的目标文本段、第一答案选项以及第二答案选项输入至所述问题生成模型中,获取与所述第一答案选项匹配的目标问题;
输出模块,用于输出所述目标问题,以及与所述目标问题对应的所述第一答案选项以及所述第二答案选项;
所述提取模块具体用于:提取所述目标文本中的各个命名实体,并利用各个所述命名实体构建答案候选集;
将所述答案候选集中各个所述命名实体分别确定为所述第一答案选项;
基于余弦相似度从所述答案候选集中筛选出预设数量个与所述第一答案选项关联的第二答案选项。
7.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5中任一项所述的基于文本的自动出题方法。
8.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5中任一项所述的基于文本的自动出题方法。
CN202011351657.4A 2020-11-27 2020-11-27 基于文本的自动出题方法、装置及计算机设备 Active CN112487139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011351657.4A CN112487139B (zh) 2020-11-27 2020-11-27 基于文本的自动出题方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011351657.4A CN112487139B (zh) 2020-11-27 2020-11-27 基于文本的自动出题方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN112487139A CN112487139A (zh) 2021-03-12
CN112487139B true CN112487139B (zh) 2023-07-14

Family

ID=74935577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011351657.4A Active CN112487139B (zh) 2020-11-27 2020-11-27 基于文本的自动出题方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN112487139B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010655B (zh) * 2021-03-18 2022-12-16 华南理工大学 一种机器阅读理解的回答与干扰项生成方法、装置
CN113191159B (zh) * 2021-05-25 2023-01-20 广东电网有限责任公司广州供电局 一种机器阅读理解方法、装置、设备和存储介质
CN113239689B (zh) * 2021-07-07 2021-10-08 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN113743095B (zh) * 2021-07-19 2024-09-20 西安理工大学 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN116415594A (zh) * 2021-12-28 2023-07-11 华为技术有限公司 问答对生成的方法和电子设备
CN114757154B (zh) * 2022-06-13 2022-09-30 深圳市承儒科技有限公司 基于深度学习的作业生成方法、装置、设备及存储介质
CN115600587B (zh) * 2022-12-16 2023-04-07 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 数学应用题生成系统、方法、智能终端及可读存储介质
CN116756340A (zh) * 2023-06-25 2023-09-15 森纵艾数(北京)科技有限公司 一种试题自动生成方法、系统及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109726274A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 问题生成方法、装置及存储介质
CN110543550A (zh) * 2019-09-04 2019-12-06 上海智臻智能网络科技股份有限公司 自动生成试题的方法和装置
CN111428467A (zh) * 2020-02-19 2020-07-17 平安科技(深圳)有限公司 生成阅读理解的问题题目的方法、装置、设备及存储介质
CN111783428A (zh) * 2020-07-07 2020-10-16 杭州叙简科技股份有限公司 基于深度学习的应急管理类客观题自动生成系统
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339453B2 (en) * 2013-12-23 2019-07-02 International Business Machines Corporation Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109726274A (zh) * 2018-12-29 2019-05-07 北京百度网讯科技有限公司 问题生成方法、装置及存储介质
CN110543550A (zh) * 2019-09-04 2019-12-06 上海智臻智能网络科技股份有限公司 自动生成试题的方法和装置
CN111428467A (zh) * 2020-02-19 2020-07-17 平安科技(深圳)有限公司 生成阅读理解的问题题目的方法、装置、设备及存储介质
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111783428A (zh) * 2020-07-07 2020-10-16 杭州叙简科技股份有限公司 基于深度学习的应急管理类客观题自动生成系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Unified Language Model Pre-training for Natural Language Understanding and Generation;Li Dong et al;《arXiv》;第1-14页 *

Also Published As

Publication number Publication date
CN112487139A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112487139B (zh) 基于文本的自动出题方法、装置及计算机设备
CN109003624B (zh) 情绪识别方法、装置、计算机设备及存储介质
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN110797010A (zh) 基于人工智能的问答评分方法、装置、设备及存储介质
CN112951240B (zh) 模型训练、语音识别方法及装置、电子设备及存储介质
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN112397056B (zh) 语音评测方法及计算机存储介质
CN109697988B (zh) 一种语音评价方法及装置
KR101988165B1 (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
CN111597305B (zh) 实体标记方法、装置、计算机设备和存储介质
KR100995847B1 (ko) 인터넷상에서의 소리분석 기반 어학 학습방법 및 시스템
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN110148413B (zh) 语音评测方法及相关装置
CN113486970B (zh) 阅读能力评测方法及装置
CN114743421A (zh) 一种外语学习智慧教学综合考核系统及方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN109697975B (zh) 一种语音评价方法及装置
CN115512692B (zh) 语音识别方法、装置、设备及存储介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN116680379A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116956915A (zh) 实体识别模型训练方法、装置、设备、存储介质及产品
CN113837910B (zh) 试题推荐方法、装置、电子设备和存储介质
CN115116474A (zh) 口语评分模型训练方法、评分方法、装置及电子设备
CN115099222A (zh) 标点符号误用检测纠正方法、装置、设备及存储介质
CN114400006A (zh) 语音识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant