CN115964997A - 选择题的混淆选项生成方法及装置、电子设备、存储介质 - Google Patents

选择题的混淆选项生成方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN115964997A
CN115964997A CN202211563310.5A CN202211563310A CN115964997A CN 115964997 A CN115964997 A CN 115964997A CN 202211563310 A CN202211563310 A CN 202211563310A CN 115964997 A CN115964997 A CN 115964997A
Authority
CN
China
Prior art keywords
mask
vocabulary
word
stem
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211563310.5A
Other languages
English (en)
Inventor
简仁贤
李龙威
马永宁
韩哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202211563310.5A priority Critical patent/CN115964997A/zh
Publication of CN115964997A publication Critical patent/CN115964997A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种选择题的混淆选项生成方法及装置、电子设备、计算机可读存储介质,属于自然语言处理技术领域,方法包括:从目标文档中抽取出至少一个目标词汇,得到选择题的题干;为所述题干的空格位置添加掩词标记,得到指定题干;其中,所述空格位置为抽取掉所述目标词汇的位置;将所述指定题干输入至已训练的掩码语言模型,获得所述掩码语言模型输出的对应于所述掩词标记的多个预测词汇,以及每一预测词汇的预测得分;选择预测得分靠前的若干预测词汇,并从所述若干预测词汇中去除所述目标词汇,得到所述掩词标记所在空格位置的混淆选项。本申请方案,实现了自动化生成选择题的混淆选项。

Description

选择题的混淆选项生成方法及装置、电子设备、存储介质
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种选择题的混淆选项生成方法及装置、电子设备、计算机可读存储介质。
背景技术
陪练系统是通过在线做题的形式,帮助用户掌握业务知识,对用户的掌握情况进行在线考试打分的系统。在为陪练系统出完形填空选择题时,需要人工从知识文档中抽取一个或连续几个字,把抽取的文本作为正确答案,然后人为想出与正确答案近似的混淆选项。这一过程中,需要消耗较多的人工成本和时间成本。
发明内容
本申请实施例的目的在于提供一种选择题的混淆选项生成方法及装置、电子设备、计算机可读存储介质,用于自动化生成选择题的混淆选项。
一方面,本申请提供了一种选择题的混淆选项生成方法,包括:
从目标文档中抽取出至少一个目标词汇,得到选择题的题干;
为所述题干的空格位置添加掩词标记,得到指定题干;其中,所述空格位置为抽取掉所述目标词汇的位置;
将所述指定题干输入至已训练的掩码语言模型,获得所述掩码语言模型输出的对应于所述掩词标记的多个预测词汇,以及每一预测词汇的预测得分;
选择预测得分靠前的若干预测词汇,并从所述若干预测词汇中去除所述目标词汇,得到所述掩词标记所在空格位置的混淆选项。
在一实施例中,所述从目标文档中抽取出至少一个目标词汇,包括:
响应于抽取指令,从所述目标文档中抽取所述抽取指令指示的至少一个目标词汇。
在一实施例中,所述掩码语言模型通过如下方式训练得到:
对样本数据集中的样本文档,抽取出至少一个指定词汇,得到样本题干;
为所述样本题干的空格位置添加掩词标记,得到指定样本题干;
将所述指定样本题干输入至用于预测遮挡词汇的自然语言模型,得到所述自然语言模型的词表中各个词汇在掩词标记对应的预测得分;
针对每一掩词标记,检查所述指定词汇在所述掩词标记对应的预测得分,并根据所述指定词汇的预测得分与默认得分之间的差异,调整所述自然语言模型的模型参数;
重复上述过程,直至所述自然语言模型收敛,得到已训练的掩码语言模型。
在一实施例中,在所述将所述指定样本题干输入至用于预测遮挡词汇的自然语言模型,得到所述自然语言模型的词表中各个词汇在掩词标记对应的预测得分之前,所述方法还包括:
对所述样本数据集中的样本文档进行分词处理,得到多个分词结果;
从所述多个分词结果中滤除停用词和无效词,获得经过滤除处理的分词结果,作为候选词汇;
统计各个候选词汇在所述样本文档中的词频,并选择词频靠前的指定数量的多个候选词汇,构建所述词表。
在一实施例中,所述自然语言模型为BERT模型、Roberta模型、Xlnet模型、MacBert模型、BigBird LongFormer模型中的任意一种。
在一实施例中,所述对样本数据集中的样本文档,抽取出至少一个指定词汇,得到样本题干,包括:
响应于样本抽取指令,确定所述样本抽取指令指示的待抽取词汇的词汇属性;
从所述样本文档中,对与所述词汇属性匹配的指定词汇进行抽取,得到样本题干。
在一实施例中,在所述得到所述掩词标记所在空格位置的混淆选项之后,所述方法还包括:
将所述空格位置对应的若干混淆选项和作为正确选项的目标词汇随机排列,形成所述空格位置的备选项;
根据所述选择题的题干和所述空格位置的备选项,构建完整选择题。
另一方面,本申请提供了一种选择题的混淆选项生成装置,包括:
抽取模块,用于从目标文档中抽取出至少一个目标词汇,得到选择题的题干;
添加模块,用于为所述题干的空格位置添加掩词标记,得到指定题干;其中,所述空格位置为抽取掉所述目标词汇的位置;
预测模块,用于将所述指定题干输入至已训练的掩码语言模型,获得所述掩码语言模型输出的对应于所述掩词标记的多个预测词汇,以及每一预测词汇的预测得分;
选择模块,用于选择预测得分靠前的若干预测词汇,并从所述若干预测词汇中去除所述目标词汇,得到所述掩词标记所在空格位置的混淆选项。
此外,本申请提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述选择题的混淆选项生成方法。
进一步的,本申请提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述选择题的混淆选项生成方法。
本申请方案,在以目标文档生成选择题的题干后,在题干的空格位置添加掩词标记生成指定题干,并将指定题干输入至掩码语言模型,通过掩码语言模型输出与掩词标记对应的多个预测词汇和每一预测词汇对应的预测得分,在选择预测得分靠前的若干预测词汇后,可以得到掩词标记所在空格位置的混淆选项,且混淆选项与正确选项足够近似;这个过程可以自动化实现,极大地降低了人工成本和时间成本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的选择题的混淆选项生成方法的应用场景示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的选择题的混淆选项生成方法的流程示意图;
图4为本申请一实施例提供的选择题的构建方法的整体示意图;
图5为本申请一实施例提供的掩码语言模型的训练方法的流程示意图;
图6为本申请一实施例提供的掩码语言模型的训练方法的示意图;
图7为本申请一实施例提供的词表构建方法的流程示意图;
图8为本申请一实施例提供的选择题的混淆选项生成装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的选择题的混淆选项生成方法的应用场景示意图。如图1所示,该应用场景包括客户端20和服务端30;客户端20可以是主机、手机、平板电脑等用户终端,用于向服务端30发送需要生成混淆选项的文档;服务端30可以是服务器、服务器集群或云计算中心,可以为客户端20发送的文档生成混淆选项,进而构建选择题。
如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是上述服务端30,用于执行选择题的混淆选项生成方法。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的选择题的混淆选项生成方法。
参见图3,为本申请一实施例提供的选择题的混淆选项生成方法的流程示意图,如图3所示,该方法可以包括以下步骤310-步骤340。
步骤310:从目标文档中抽取出至少一个目标词汇,得到选择题的题干。
其中,目标文档为用于生成选择题的知识文档。目标词汇为目标文档中被抽取的词汇。
服务端可以从目标文档中抽取一个或多个目标词汇,得到选择题的题干。题干中被抽取词汇后,产生空格位置,被抽取出的目标词汇即为空格位置对应的正确选项。示例性的,目标文档为语文题,被抽取的目标词汇可以是成语、名著书名、作家名等。
在一实施例中,服务端可以从客户端接收抽取指令,该抽取指令指示需要抽取的目标词汇。服务端可以响应于抽取指令,从目标文档中抽取该抽取指令指示的至少一个目标词汇。通过抽取指令指示目标文档中待考察的知识点,可以选中合理的词汇进行抽取。
步骤320:为题干的空格位置添加掩词标记,得到指定题干;其中,空格位置为目标词汇的位置。
在获得题干之后,服务端可以在题干的空格位置添加掩词标记。该掩词标记用于指示题干中的空格位置,掩词标记的形式可以根据需要自定义,示例性的,掩词标记可以为“[MASK]”。添加掩词标记的题干可以作为指定题干。示例性的,题干“《朝花夕拾》的作者还著有小说集《呐喊》”,添加掩词标记后,可以得到指定题干“《朝花夕拾》的作者[MASK]还著有小说集《呐喊》”。
步骤330:将指定题干输入至已训练的掩码语言模型,获得掩码语言模型输出的对应于掩词标记的多个预测词汇,以及每一预测词汇的预测得分。
其中,掩码语言模型(Masked Language Model,MLM)可以识别指定题干中掩词标记,并基于掩词标记所在空格位置的上下文信息,预测出该空格位置的词汇。
服务端可以将指定题干输入至掩码语言模型,通过掩码语言模型预测指定题干中掩词标记所在空格位置的词汇。针对任一掩词标记,掩码语言模型可以输出多个预测词汇,每一预测词汇对应一个预测得分。该预测得分表示预测词汇是掩词标记所在空格位置上正确词汇的置信度,预测得分在0到1之间。
步骤340:选择预测得分靠前的若干预测词汇,并从若干预测词汇中去除目标词汇,得到掩词标记所在空格位置的混淆选项。
针对任一掩词标记,服务端可以将该掩词标记对应的多个预测词汇依据预测得分的大小顺序进行排序,从而选择预测得分靠前的若干预测词汇。这里,选择的预测词汇数量等同于选择题的选项数量。由于已训练的掩码语言模型通常能够正确预测掩词标记所在空格位置的词汇,因此,服务端选中的预测词汇包含目标词汇,服务端可以从被选中的若干预测词汇中去除目标词汇,从而得到掩词标记所在空格位置的混淆选项。
示例性的,指定题干“《朝花夕拾》的作者[MASK]还著有小说集《呐喊》”在掩词标记的多个预测词汇可以包括鲁迅(预测得分0.9)、沈从文(预测得分0.4)、张爱玲(预测得分0.3)、老舍(预测得分0.3)、巴金(预测得分0.2),从中选择预测得分靠前的四个预测词汇,去除作为正确选项的目标词汇后,得到混淆选项:沈从文、张爱玲、老舍。
通过上述措施,借助掩膜语言模型可以为指定题干的空格位置,自动化生成与正确选项的相关性较大的混淆选项,降低了人工成本和时间成本。
在一实施例中,在获得掩词标记所在空格位置的混淆选项之后,如果目标文本的所有掩词标记对应的混淆选项均已生成,服务端可以针对每一掩词标记所在空格位置,将空格位置对应的若干混淆选项和作为正确选项的目标词汇随机排列,形成空格位置的备选项。进一步的,服务端可以根据选择题的题干和空格位置的备选项,构建完整选择题。
示例性的,题干“《朝花夕拾》的作者还著有小说集《呐喊》”在空格位置对应的混淆选项为“沈从文”、“张爱玲”、“老舍”,正确选项为“鲁迅”,对混淆选项和正确选项进行随机排列:A老舍B鲁迅C张爱玲D沈从文,形成了空格位置的备选项,进而依据备选项和题干构建完整选择题。
参见图4,本申请一实施例提供的选择题的构建方法的整体示意图,如图4所示,服务端可以获取原始知识文档“西游记是明代吴承恩创作的中国古代第一部浪漫主义章回体长篇神魔小说”,作为目标文档。从该目标文档中抽取书名作为指示考察点,得到题干“是明代吴承恩创作的中国古代第一部浪漫主义章回体长篇神魔小说”,空格位置被抽取的目标词汇“西游记”为对应的正确选项。为题干添加掩词标记,得到指定题干“[MASK]是明代吴承恩创作的中国古代第一部浪漫主义章回体长篇神魔小说”。服务端将指定提高输入至掩码语言模型,通过掩码语言模型输出掩词标记对应的预测词汇:西游记(预测得分0.88)、西厢记(预测得分0.10)、水浒传(预测得分0.01)、东游记(预测得分0.01)。从中去除目标词汇后,得到混淆选项:西厢记、水浒传、东游记。将混淆选项和作为正确选项的目标词汇随机排列后,得到备选项,并以备选项和题干构建完整选择题:
____是明代吴承恩创作的中国古代第一部浪漫主义章回体长篇神魔小说
A东游记B西游记C水浒传D西厢记
在一实施例中,在执行本申请混淆选项生成方法之前,需要训练得到用于生成预测词汇的掩码语言模型。参见图5,为本申请一实施例提供的掩码语言模型的训练方法的流程示意图,如图5所示,该方法可以包括如下步骤510至步骤550。
步骤510:对样本数据集中的样本文档,抽取出至少一个指定词汇,得到样本题干。
这里,样本数据集包括大量样本文档,样本文档为用于训练掩码语言模型的知识文档。对于不同知识领域的选择题,需要分别训练相应的掩码语言模型。示例性的,如果要为语文选择题生成混淆选项,则需要通过大量语文文档作为样本文档训练掩码语言模型;如果要为历史选择题生成混淆选项,则需要通过大量历史文档作为样本文档训练掩码语言模型;如果要为金融选择题生成混淆选项,则需要通过大量金融领域文档作为样本文档训练掩码语言模型。
指定词汇为训练过程中从样本文本抽取的词汇。
服务端可以从每一样本文档中抽取一个或多个指定词汇,得到用于训练的样本题干。样本题干被抽取词汇后,产生空格位置,被抽取出的指定词汇即为空格位置对应的正确选项。
在一实施例中,服务端可以从客户端接收样本抽取指令,该样本抽取指令指示样本文档中需要抽取的指定词汇。由于样本文档的数量巨大,如果人工设定各个样本文档中需要抽取的词汇需要耗费大量的人工成本和时间成本,因此,样本抽取指令可以通过待抽取词汇的词汇属性指示服务端对样本文档进行抽取。
这里,词汇属性可以根据需求进行配置,示例性的,词汇属性可以是待抽取词汇的词性,比如,词汇属性可以是名词;或者,词汇属性可以是待抽取词汇所属的实体类型,比如,词汇属性可以包括机构名、人名、书名、日期等。
服务端可以响应于样本抽取指令,确定样本抽取指令指示的待抽取词汇的词汇属性。服务端可以从样本文档中,对与词汇属性匹配的指定词汇进行抽取,从而得到样本题干。示例性的,词汇属性为名词,服务端可以对样本文档进行分词,确定属于名词的分词结果,将其抽取出样本文档。或者,词汇属性为书名,服务端可以对样本文档进行分词,进而对分词结果进行命名实体识别,从而确定属于书名的分词结果,将其抽取出样本文档。
通过该措施,可以对样本文档针对性地抽取需要考察的知识点,从而得到用于训练的样本题干。
步骤520:为样本题干的空格位置添加掩词标记,得到指定样本题干。
在为每一样本文档进行抽取,得到样本题干后,服务端可以在样本题干的每个空格位置上添加掩词标记,从而得到指定样本题干。这里,训练过程中所添加的掩词标记可以与模型应用过程中添加的掩词标记一致,使得经过训练的掩码语言模型能够正常识别掩词标记指示的空格位置。
步骤530:将指定样本题干输入至用于预测遮挡词汇的自然语言模型,得到自然语言模型的词表中各个词汇在掩词标记对应的预测得分。
其中,自然语言模型可以是BERT(Bidirectional Encoder Representation fromTransformers)模型、Roberta模型、Xlnet模型、MacBert模型、BigBird LongFormer模型中的任意一种。这里,在训练过程中,需以掩码语言模型任务对自然语言模型训练,使得经过训练的自然语言模型能够预测被遮挡的词汇。
服务端可以将指定样本题干输入至自然语言模型,通过自然语言模型输出词表中各个词汇在每一掩词标记对应的预测得分。这里,自然语言模型的词表包括大量词汇,词表可根据应用场景预配置。
示例性的,指定题干“《朝花夕拾》的作者[MASK]还著有小说集《呐喊》”,词表中有10000个词汇,通过自然语言模型可以输出在这10000个词汇在掩词标记所在空格位置的预测得分。
步骤540:针对每一掩词标记,检查指定词汇在掩词标记对应的预测得分,并根据指定词汇的预测得分与默认得分之间的差异,调整自然语言模型的模型参数。
步骤550:重复上述过程,直至自然语言模型收敛,得到已训练的掩码语言模型。
在得到指定样本题干中各个掩词标记下多个词汇的预测得分后,对于每个掩词标记,服务端可以在多个词汇的预测得分中确定指定词汇的预测得分,进而通过损失函数评估指定词汇的预测得分和默认得分之间的差异,并以评估出的差异调整自然语言模型的模型参数。这里,默认得分可以为1,表示指定词汇100%是掩词标记所在空格位置的词汇。
在调整模型参数之后,服务端可以返回步骤510或步骤520,重新将指定样本题干输入经过调整的自然语言模型,并在重新得到词表中各个词汇在掩膜标记的预测得分后,重新基于损失函数评估指定词汇的预测得分与默认得分之间的差异,从而调整模型参数。上述过程经过反复迭代,当训练过程中轮询所有样本文档,或者,轮询所有样本文档的次数达到预设次数阈值后,可以确定自然语言模型收敛,此时,得到已训练的掩码语言模型。
通过上述措施,可以训练得到掩码语言模型,用于后续对选择题预测混淆选项。
参见图6,为本申请一实施例提供的掩码语言模型的训练方法的示意图,如图6所示,服务端可以对样本文档“西游记主要讲述了孙悟空出世跟随菩提祖师学艺及大闹天空后,西行取经,一路上历经艰险,降妖除魔,经历了九九八十一难,终于到达西天见到如来佛祖,最终五圣成真的故事。”抽取指定词汇“西游记”、“孙悟空”、“菩提祖师”、“西天”、“如来佛祖”,得到题干,并向题干中空格位置添加掩词标记,得到指定题干“[MASK]主要讲述了[MASK]出世跟随[MASK]学艺及大闹天空后,西行取经,一路上历经艰险,降妖除魔,经历了九九八十一难,终于到达[MASK]见到[MASK],最终五圣成真的故事。”
服务端将指定题干输入至MLM任务下的自然语言模型,使得自然语言模型输出词表中每一词汇在各个掩词标记下的预测得分,进而从每一掩词标记对应的多个预测得分中确定正确选项的预测得分。“西游记”在第一个掩词标记下的预测得分为0.21;“孙悟空”在第二个掩词标记下的预测得分为0.32;“菩提祖师”在第三个掩词标记下的预测得分为0.31;“西天”在第四个掩词标记下的预测得分为0.13;“如来佛祖”在第五个掩词标记下的预测得分为0.11。进一步的,通过损失函数评估各个指定词汇的预测得分与默认得分之间的差异,并以评估的差异对自然语言模型的模型参数进行调整。经过多轮迭代训练,可以得到经过训练的掩码语言模型。
在一实施例中,在训练自然语言模型之前,可以为自然语言模型构建对应的词表。参见图7,为本申请一实施例提供的词表构建方法的流程示意图,如图7所示,该方法可以包括如下步骤710至步骤730。
步骤710:对样本数据集中的样本文档进行分词处理,得到多个分词结果。
服务端可以对多个样本文档分别进行分词处理,从而得到多个分词结果。
步骤720:从多个分词结果中滤除停用词和无效词,获得经过滤除处理的分词结果,作为候选词汇。
在分词出多个分词结果之后,服务端可以根据预设停用词表和预设无效词表对多个分词结果进行过滤,从多个分词结果中滤除已经出现在停用词表和无效词表中的词汇。在经过滤除处理后,可以将剩余的分词结果作为候选词汇。由于停用词表和无效词表中的词汇不会被作为考点,通过停用词表和无效词表对分词结果进行过滤,可以降低后续模型训练的工作量。
步骤730:统计各个候选词汇在样本文档中的词频,并选择词频靠前的指定数量的多个候选词汇,构建词表。
服务端可以对每一候选词汇,技术该候选词汇在所有样本文档中的词频,从而得到所有候选词汇对应的词频。依据词频大小对候选词汇进行排序后,服务端可以选择词频靠前的指定数量的多个候选词汇,构建词表。这里,指定数量可以根据所选用的自然语言模型进行配置,一般,指定数量可以在两万到十万之间。
通过上述措施,可以构建掩码语言模型所需要的词表,从而借助该词表为同领域的题干预测出混淆选项。
图8是本发明一实施例的一种选择题的混淆选项生成装置的框图,如图8所示,该装置可以包括:
抽取模块810,用于从目标文档中抽取出至少一个目标词汇,得到选择题的题干;
添加模块820,用于为所述题干的空格位置添加掩词标记,得到指定题干;其中,所述空格位置为抽取掉所述目标词汇的位置;
预测模块830,用于将所述指定题干输入至已训练的掩码语言模型,获得所述掩码语言模型输出的对应于所述掩词标记的多个预测词汇,以及每一预测词汇的预测得分;
选择模块840,用于选择预测得分靠前的若干预测词汇,并从所述若干预测词汇中去除所述目标词汇,得到所述掩词标记所在空格位置的混淆选项。
上述装置中各个模块的功能和作用的实现过程具体详见上述选择题的混淆选项生成方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种选择题的混淆选项生成方法,其特征在于,包括:
从目标文档中抽取出至少一个目标词汇,得到选择题的题干;
为所述题干的空格位置添加掩词标记,得到指定题干;其中,所述空格位置为抽取掉所述目标词汇的位置;
将所述指定题干输入至已训练的掩码语言模型,获得所述掩码语言模型输出的对应于所述掩词标记的多个预测词汇,以及每一预测词汇的预测得分;
选择预测得分靠前的若干预测词汇,并从所述若干预测词汇中去除所述目标词汇,得到所述掩词标记所在空格位置的混淆选项。
2.根据权利要求1所述的方法,其特征在于,所述从目标文档中抽取出至少一个目标词汇,包括:
响应于抽取指令,从所述目标文档中抽取所述抽取指令指示的至少一个目标词汇。
3.根据权利要求1所述的方法,其特征在于,所述掩码语言模型通过如下方式训练得到:
对样本数据集中的样本文档,抽取出至少一个指定词汇,得到样本题干;
为所述样本题干的空格位置添加掩词标记,得到指定样本题干;
将所述指定样本题干输入至用于预测遮挡词汇的自然语言模型,得到所述自然语言模型的词表中各个词汇在掩词标记对应的预测得分;
针对每一掩词标记,检查所述指定词汇在所述掩词标记对应的预测得分,并根据所述指定词汇的预测得分与默认得分之间的差异,调整所述自然语言模型的模型参数;
重复上述过程,直至所述自然语言模型收敛,得到已训练的掩码语言模型。
4.根据权利要求3所述的方法,其特征在于,在所述将所述指定样本题干输入至用于预测遮挡词汇的自然语言模型,得到所述自然语言模型的词表中各个词汇在掩词标记对应的预测得分之前,所述方法还包括:
对所述样本数据集中的样本文档进行分词处理,得到多个分词结果;
从所述多个分词结果中滤除停用词和无效词,获得经过滤除处理的分词结果,作为候选词汇;
统计各个候选词汇在所述样本文档中的词频,并选择词频靠前的指定数量的多个候选词汇,构建所述词表。
5.根据权利要求3所述的方法,其特征在于,所述自然语言模型为BERT模型、Roberta模型、Xlnet模型、MacBert模型、BigBird LongFormer模型中的任意一种。
6.根据权利要求3所述的方法,其特征在于,所述对样本数据集中的样本文档,抽取出至少一个指定词汇,得到样本题干,包括:
响应于样本抽取指令,确定所述样本抽取指令指示的待抽取词汇的词汇属性;
从所述样本文档中,对与所述词汇属性匹配的指定词汇进行抽取,得到样本题干。
7.根据权利要求1所述的方法,其特征在于,在所述得到所述掩词标记所在空格位置的混淆选项之后,所述方法还包括:
将所述空格位置对应的若干混淆选项和作为正确选项的目标词汇随机排列,形成所述空格位置的备选项;
根据所述选择题的题干和所述空格位置的备选项,构建完整选择题。
8.一种选择题的混淆选项生成装置,其特征在于,包括:
抽取模块,用于从目标文档中抽取出至少一个目标词汇,得到选择题的题干;
添加模块,用于为所述题干的空格位置添加掩词标记,得到指定题干;其中,所述空格位置为抽取掉所述目标词汇的位置;
预测模块,用于将所述指定题干输入至已训练的掩码语言模型,获得所述掩码语言模型输出的对应于所述掩词标记的多个预测词汇,以及每一预测词汇的预测得分;
选择模块,用于选择预测得分靠前的若干预测词汇,并从所述若干预测词汇中去除所述目标词汇,得到所述掩词标记所在空格位置的混淆选项。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的选择题的混淆选项生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的选择题的混淆选项生成方法。
CN202211563310.5A 2022-12-07 2022-12-07 选择题的混淆选项生成方法及装置、电子设备、存储介质 Pending CN115964997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211563310.5A CN115964997A (zh) 2022-12-07 2022-12-07 选择题的混淆选项生成方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211563310.5A CN115964997A (zh) 2022-12-07 2022-12-07 选择题的混淆选项生成方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN115964997A true CN115964997A (zh) 2023-04-14

Family

ID=87359270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211563310.5A Pending CN115964997A (zh) 2022-12-07 2022-12-07 选择题的混淆选项生成方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN115964997A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291184A (zh) * 2023-11-16 2023-12-26 浙江口碑网络技术有限公司 大语言模型的评估方法及装置、存储介质、计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291184A (zh) * 2023-11-16 2023-12-26 浙江口碑网络技术有限公司 大语言模型的评估方法及装置、存储介质、计算机设备
CN117291184B (zh) * 2023-11-16 2024-04-26 浙江口碑网络技术有限公司 大语言模型的评估方法及装置、存储介质、计算机设备

Similar Documents

Publication Publication Date Title
CN107291783B (zh) 一种语义匹配方法及智能设备
CN109766418B (zh) 用于输出信息的方法和装置
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN112069818A (zh) 三元组预测模型生成方法、关系三元组提取方法和装置
CN115964997A (zh) 选择题的混淆选项生成方法及装置、电子设备、存储介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN110633456A (zh) 语种识别方法、装置、服务器及存储介质
CN113901838A (zh) 对话检测方法和装置、电子设备、存储介质
CN113609865A (zh) 文本情感的识别方法、装置、电子设备及可读存储介质
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN112836013A (zh) 一种数据标注的方法、装置、可读存储介质和电子设备
CN116680379A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116795978A (zh) 一种投诉信息处理方法、装置、电子设备及介质
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN115292460A (zh) 一种话题推荐方法、装置、电子设备及存储介质
CN116166858A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN115017906A (zh) 一种针对文本中实体的识别方法、装置及存储介质
CN112308453B (zh) 风险识别模型训练方法、用户风险识别方法及相关装置
CN114780755A (zh) 一种基于知识图谱的播放数据定位方法、装置及电子设备
CN115017886A (zh) 文本匹配方法、文本匹配装置、电子设备及存储介质
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
CN111782601A (zh) 电子文件的处理方法、装置、电子设备及机器可读介质
CN112417876A (zh) 一种文本处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination