CN113239689A - 面向易混淆词考察的选择题干扰项自动生成方法及装置 - Google Patents

面向易混淆词考察的选择题干扰项自动生成方法及装置 Download PDF

Info

Publication number
CN113239689A
CN113239689A CN202110765151.6A CN202110765151A CN113239689A CN 113239689 A CN113239689 A CN 113239689A CN 202110765151 A CN202110765151 A CN 202110765151A CN 113239689 A CN113239689 A CN 113239689A
Authority
CN
China
Prior art keywords
word
candidate
candidate word
similarity
investigation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110765151.6A
Other languages
English (en)
Other versions
CN113239689B (zh
Inventor
殷晓君
别红樱
翟艳
程璐璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202110765151.6A priority Critical patent/CN113239689B/zh
Publication of CN113239689A publication Critical patent/CN113239689A/zh
Application granted granted Critical
Publication of CN113239689B publication Critical patent/CN113239689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向易混淆词考察的选择题干扰项自动生成方法及装置,该方法包括:通过预训练的Word2vec生成词向量,并通过计算相似度选取出N个候选词;将考察词和N个候选词分别代入题干中,通过预训练的BERT模型生成上下文相关的词向量,并排除相似度过高的词,得到M个候选词;对M个候选词进行聚类,然后分别选出每个类簇中与考察词相似度最高的词作为代表,得到Q个候选词,最后根据相似度,在Q个候选词中选取合适数量的干扰项。本发明的方案具有效率高、科学性强以及保证了干扰项的多样性等优点。

Description

面向易混淆词考察的选择题干扰项自动生成方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种面向易混淆词考察的选择题干扰项自动生成方法及装置。
背景技术
在语言教学过程中,选择题是一种重要的考题形式,基于易混淆词考察的题型的干扰项通常就是易混淆词,命题最关键的部分是干扰项的生成。科学高效的干扰项生成是当前语言教学考核的有效支持。
当前采用的技术方案为:(按照技术深度递进)
(1)教师根据经验构造干扰项,是当前的主要工作方式。
(2)收集一个和考察词相关的候选项集合,然后随机选择。
(3)基于词形相似、搭配、图谱,选择干扰项。
(4)基于doc-word矩阵分解,获得词向量,通过词向量计算相似度,根据计算出的相似度确定干扰项。
上述现有技术中,教师根据经验构造干扰项,是当前的主要工作方式。但该方法依赖教师主观经验,质量不可控,且效率非常低。收集一个和考察词相关的候选项集合,然后随机选择的方法,随机选择的过程没有考虑到和题干的关系,而混淆程度是依赖上下文也就是题干的,因此缺乏科学性。基于词形相似、搭配、图谱,选择干扰项的方法,有一定的科学性,但是需要大量的整理过程,成本非常高。基于doc-word矩阵分解,获得词向量,通过词向量计算相似度,获得干扰项的方法,同样存在干扰项和题干无关,科学性不高的问题。
发明内容
本发明提供了一种面向易混淆词考察的选择题干扰项自动生成方法及装置,以解决现有技术存在的效率较低且科学性不高的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种面向易混淆词考察的选择题干扰项自动生成方法,该面向易混淆词考察的选择题干扰项自动生成方法包括:
获取待生成干扰项的选择题的题干和考察词,以及与所述考察词对应的第一候选词集合;其中,所述第一候选词集合中包括多个干扰项候选词;
通过预训练的Word2vec,分别生成所述考察词以及所述第一候选词集合中的每一候选词对应的第一词向量;
基于所述第一词向量,分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度,并在所述第一候选词集合中选出与所述考察词之间的相似度最高的N个词,组成第二候选词集合;其中,N为预设的整数值且N>0;
将所述考察词以及所述第二候选词集合中的每一候选词分别代入所述题干中,然后基于所述题干,通过预训练的BERT模型,分别生成所述考察词以及所述第二候选词集合中的每一候选词对应的上下文相关的第二词向量;
基于所述第二词向量,分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度,并筛选出所述第二候选词集合中与所述考察词之间的相似度不高于预设阈值的词,组成第三候选词集合;
基于所述第二词向量,通过预设的聚类算法,对所述第三候选词集合中的所有候选词进行聚类,得到多个类簇;然后分别选出每个类簇中与所述考察词之间的相似度最高的词,组成第四候选词集合;
根据所述第四候选词集合中的每一候选词与所述考察词之间的相似度,在所述第四候选词集合中选取预设数量的词,作为最终的干扰项。
可选地,基于所述第一词向量,分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第一词向量的余弦相似度,得到所述第一候选词集合中的每一候选词与考察词的相似度。
可选地,基于所述第二词向量,分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第二词向量的余弦相似度,得到所述第二候选词集合中的每一候选词与考察词的相似度。
可选地,所述预设的聚类算法为K-means或GMM算法。
另一方面,本发明还提供了一种面向易混淆词考察的选择题干扰项自动生成装置,该面向易混淆词考察的选择题干扰项自动生成装置包括:
数据获取模块,用于获取待生成干扰项的选择题的题干和考察词,以及与所述考察词对应的第一候选词集合;其中,所述第一候选词集合中包括多个干扰项候选词;
第一筛选模块,用于通过预训练的Word2vec,分别生成所述考察词以及所述第一候选词集合中的每一候选词对应的第一词向量;基于所述第一词向量,分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度,并在所述第一候选词集合中选出与所述考察词之间的相似度最高的N个词,组成第二候选词集合;其中,N为预设的整数值且N>0;
第二筛选模块,用于将所述考察词以及所述第二候选词集合中的每一候选词分别代入所述题干中,然后基于所述题干,通过预训练的BERT模型,分别生成所述考察词以及所述第二候选词集合中的每一候选词对应的上下文相关的第二词向量;基于所述第二词向量,分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度,并筛选出所述第二候选词集合中与所述考察词之间的相似度不高于预设阈值的词,组成第三候选词集合;
第三筛选模块,用于基于所述第二词向量,通过预设的聚类算法,对所述第三候选词集合中的所有候选词进行聚类,得到多个类簇;然后分别选出每个类簇中与所述考察词之间的相似度最高的词,组成第四候选词集合;
第四筛选模块,用于根据所述第四候选词集合中的每一候选词与所述考察词间的相似度,在所述第四候选词集合中选取预设数量的词,作为最终的干扰项。
可选地,所述第一筛选模块计算所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第一词向量的余弦相似度,得到所述第一候选词集合中的每一候选词与考察词的相似度。
可选地,所述第二筛选模块计算所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第二词向量的余弦相似度,得到所述第二候选词集合中的每一候选词与考察词的相似度。
可选地,所述第三筛选模块使用的聚类算法为K-means或GMM算法。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
1、本发明中干扰项的生成完全基于模型,因此非常高效;
2、本发明基于真实大数据和结合题干语义的相似度结果,科学性很高;
3、本发明通过对候选词进行聚类,选择代表性的候选,保证了多样性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向易混淆词考察的选择题干扰项自动生成方法的执行流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种面向易混淆词考察的选择题干扰项自动生成方法,该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该面向易混淆词考察的选择题干扰项自动生成方法的执行流程如图1所示,包括以下步骤:
S1,获取待生成干扰项的选择题的题干和考察词,以及与考察词对应的第一候选词集合;其中,第一候选词集合中包括多个干扰项候选词;
需要说明的是,干扰项候选词是与考察词相关的词,本实施例所提供的选择题干扰项自动生成方法即是通过高效科学的模型从中自动确定出干扰项。
S2,通过预训练的Word2vec,分别生成考察词以及第一候选词集合中的每一候选词对应的第一词向量;
S3,基于第一词向量,分别计算出第一候选词集合中的每一候选词与考察词之间的相似度,并在第一候选词集合中选出与考察词之间的相似度最高的N个词,组成第二候选词集合;其中,N为预设的整数值且N>0;
需要说明的是,上述S2和S3的作用是对候选词进行初步筛选,其目的是降低后续BERT模型的计算量。
S4,将考察词以及第二候选词集合中的每一候选词分别代入题干中,然后基于题干,通过预训练的BERT模型,分别生成考察词以及第二候选词集合中的每一候选词对应的上下文相关的第二词向量;
S5,基于第二词向量,分别计算出第二候选词集合中的每一候选词与考察词之间的相似度,并筛选出第二候选词集合中与考察词之间的相似度不高于预设阈值的词,组成第三候选词集合;
需要说明的是,上述S5的目的是排出相似度过高的词,因为相似度过高,意味着词义完全相同,不适合作为干扰项,因此,需要将与考察词的相似度高于一定阈值的词去掉,最终得到M个候选词,M<N;
S6,基于第二词向量,通过预设的聚类算法,对第三候选词集合中的所有候选词进行聚类,得到多个类簇;然后分别选出每个类簇中与所述考察词之间的相似度最高的词,组成第四候选词集合;
需要说明的是,第三候选词集合中的M个候选词在词义上存在分簇现象,因此可以通过各词的词向量,使用K-means、GMM等聚类算法对M个候选词进行聚类,获得Q个类簇。并在每个聚类簇中选取和考察词向量相似度最高的作为代表,最终得到Q个候选词,Q<M;
S7,根据第四候选词集合中的每一候选词与考察词之间的相似度,在第四候选词集合中选取预设数量的词,作为最终的干扰项。
需要说明的是,此处基于相似度选择干扰项可以是优先选择相似度高的词。
进一步地,上述Word2vec和BERT模型的预训练过程如下:
收集考题相关的大数据,如中学中文选择题的收集对象为:相关课本、练习册、课外读物、学生优秀作文、相当语言能力的网络数据等。
通过收集的上述大数据,预训练Word2vec和BERT模型。
上述计算候选词与考察词之间相似度的方法可以是:通过计算两个词对应的词向量的余弦相似度,得到相应的候选词与考察词之间的相似度。
综上,本实施例的干扰项自动生成方法,基于大数据通过模型高效生成干扰项,相比于传统方法的专家整理知识效率高的多。而且,本实施例的方法使用最新的BERT模型计算题干上下文相关的词向量,科学性更强。此外,本实施例的方法通过对候选项进行聚类,使干扰项具有多样化,保障考题更加科学。
第二实施例
本实施例提供了一种面向易混淆词考察的选择题干扰项自动生成装置,该面向易混淆词考察的选择题干扰项自动生成装置包括以下模块:
数据获取模块,用于获取待生成干扰项的选择题的题干和考察词,以及与所述考察词对应的第一候选词集合;其中,所述第一候选词集合中包括多个干扰项候选词;
第一筛选模块,用于通过预训练的Word2vec,分别生成所述考察词以及所述第一候选词集合中的每一候选词对应的第一词向量;基于所述第一词向量,分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度,并在所述第一候选词集合中选出与所述考察词之间的相似度最高的N个词,组成第二候选词集合;其中,N为预设的整数值且N>0;
第二筛选模块,用于将所述考察词以及所述第二候选词集合中的每一候选词分别代入所述题干中,然后基于所述题干,通过预训练的BERT模型,分别生成所述考察词以及所述第二候选词集合中的每一候选词对应的上下文相关的第二词向量;基于所述第二词向量,分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度,并筛选出所述第二候选词集合中与所述考察词之间的相似度不高于预设阈值的词,组成第三候选词集合;
第三筛选模块,用于基于所述第二词向量,通过预设的聚类算法,对所述第三候选词集合中的所有候选词进行聚类,得到多个类簇;然后分别选出每个类簇中与所述考察词之间的相似度最高的词,组成第四候选词集合;
第四筛选模块,用于根据所述第四候选词集合中的每一候选词与所述考察词间的相似度,在所述第四候选词集合中选取预设数量的词,作为最终的干扰项。
本实施例的面向易混淆词考察的选择题干扰项自动生成装置与上述第一实施例的面向易混淆词考察的选择题干扰项自动生成方法相对应;其中,本实施例的面向易混淆词考察的选择题干扰项自动生成装置中的各功能模块所实现的功能与上述第一实施例的面向易混淆词考察的选择题干扰项自动生成方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (8)

1.一种面向易混淆词考察的选择题干扰项自动生成方法,其特征在于,包括:
获取待生成干扰项的选择题的题干和考察词,以及与所述考察词对应的第一候选词集合;其中,所述第一候选词集合中包括多个干扰项候选词;
通过预训练的Word2vec,分别生成所述考察词以及所述第一候选词集合中的每一候选词对应的第一词向量;
基于所述第一词向量,分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度,并在所述第一候选词集合中选出与所述考察词之间的相似度最高的N个词,组成第二候选词集合;其中,N为预设的整数值且N>0;
将所述考察词以及所述第二候选词集合中的每一候选词分别代入所述题干中,然后基于所述题干,通过预训练的BERT模型,分别生成所述考察词以及所述第二候选词集合中的每一候选词对应的上下文相关的第二词向量;
基于所述第二词向量,分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度,并筛选出所述第二候选词集合中与所述考察词之间的相似度不高于预设阈值的词,组成第三候选词集合;
基于所述第二词向量,通过预设的聚类算法,对所述第三候选词集合中的所有候选词进行聚类,得到多个类簇;然后分别选出每个类簇中与所述考察词之间的相似度最高的词,组成第四候选词集合;
根据所述第四候选词集合中的每一候选词与所述考察词之间的相似度,在所述第四候选词集合中选取预设数量的词,作为最终的干扰项。
2.如权利要求1所述的面向易混淆词考察的选择题干扰项自动生成方法,其特征在于,基于所述第一词向量,分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第一词向量的余弦相似度,得到所述第一候选词集合中的每一候选词与考察词的相似度。
3.如权利要求1所述的面向易混淆词考察的选择题干扰项自动生成方法,其特征在于,基于所述第二词向量,分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第二词向量的余弦相似度,得到所述第二候选词集合中的每一候选词与考察词的相似度。
4.如权利要求1所述的面向易混淆词考察的选择题干扰项自动生成方法,其特征在于,所述预设的聚类算法为K-means或GMM算法。
5.一种面向易混淆词考察的选择题干扰项自动生成装置,其特征在于,包括:
数据获取模块,用于获取待生成干扰项的选择题的题干和考察词,以及与所述考察词对应的第一候选词集合;其中,所述第一候选词集合中包括多个干扰项候选词;
第一筛选模块,用于通过预训练的Word2vec,分别生成所述考察词以及所述第一候选词集合中的每一候选词对应的第一词向量;基于所述第一词向量,分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度,并在所述第一候选词集合中选出与所述考察词之间的相似度最高的N个词,组成第二候选词集合;其中,N为预设的整数值且N>0;
第二筛选模块,用于将所述考察词以及所述第二候选词集合中的每一候选词分别代入所述题干中,然后基于所述题干,通过预训练的BERT模型,分别生成所述考察词以及所述第二候选词集合中的每一候选词对应的上下文相关的第二词向量;基于所述第二词向量,分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度,并筛选出所述第二候选词集合中与所述考察词之间的相似度不高于预设阈值的词,组成第三候选词集合;
第三筛选模块,用于基于所述第二词向量,通过预设的聚类算法,对所述第三候选词集合中的所有候选词进行聚类,得到多个类簇;然后分别选出每个类簇中与所述考察词之间的相似度最高的词,组成第四候选词集合;
第四筛选模块,用于根据所述第四候选词集合中的每一候选词与所述考察词间的相似度,在所述第四候选词集合中选取预设数量的词,作为最终的干扰项。
6.如权利要求5所述的面向易混淆词考察的选择题干扰项自动生成装置,其特征在于,所述第一筛选模块计算所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第一词向量的余弦相似度,得到所述第一候选词集合中的每一候选词与考察词的相似度。
7.如权利要求5所述的面向易混淆词考察的选择题干扰项自动生成装置,其特征在于,所述第二筛选模块计算所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为:通过计算两个词对应的第二词向量的余弦相似度,得到所述第二候选词集合中的每一候选词与考察词的相似度。
8.如权利要求5所述的面向易混淆词考察的选择题干扰项自动生成装置,其特征在于,所述第三筛选模块使用的聚类算法为K-means或GMM算法。
CN202110765151.6A 2021-07-07 2021-07-07 面向易混淆词考察的选择题干扰项自动生成方法及装置 Active CN113239689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110765151.6A CN113239689B (zh) 2021-07-07 2021-07-07 面向易混淆词考察的选择题干扰项自动生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110765151.6A CN113239689B (zh) 2021-07-07 2021-07-07 面向易混淆词考察的选择题干扰项自动生成方法及装置

Publications (2)

Publication Number Publication Date
CN113239689A true CN113239689A (zh) 2021-08-10
CN113239689B CN113239689B (zh) 2021-10-08

Family

ID=77141263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110765151.6A Active CN113239689B (zh) 2021-07-07 2021-07-07 面向易混淆词考察的选择题干扰项自动生成方法及装置

Country Status (1)

Country Link
CN (1) CN113239689B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112764A1 (en) * 2005-03-24 2007-05-17 Microsoft Corporation Web document keyword and phrase extraction
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN108536684A (zh) * 2018-04-18 2018-09-14 深圳市鹰硕技术有限公司 自动生成英语选择题答案选项的方法以及装置
CN109766407A (zh) * 2018-11-28 2019-05-17 科大讯飞股份有限公司 数据处理方法和系统
CN110232180A (zh) * 2019-06-06 2019-09-13 北京师范大学 一种面向古诗词测评的自动命题方法和系统
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
CN110489760A (zh) * 2019-09-17 2019-11-22 达而观信息科技(上海)有限公司 基于深度神经网络文本自动校对方法及装置
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN111625631A (zh) * 2020-04-14 2020-09-04 西南大学 一种选择题选项生成方法
CN111639170A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 答案选择方法、装置、计算机设备及计算机可读存储介质
CN112100382A (zh) * 2020-09-30 2020-12-18 珠海碳云智能科技有限公司 聚类方法及装置、计算机可读存储介质、处理器
WO2021017268A1 (zh) * 2019-07-30 2021-02-04 平安科技(深圳)有限公司 基于双架构的序列标注方法、装置和计算机设备
CN112487139A (zh) * 2020-11-27 2021-03-12 平安科技(深圳)有限公司 基于文本的自动出题方法、装置及计算机设备
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112686025A (zh) * 2021-01-27 2021-04-20 浙江工商大学 一种基于自由文本的中文选择题干扰项生成方法
CN112836043A (zh) * 2020-10-13 2021-05-25 讯飞智元信息科技有限公司 一种基于预训练语言模型的长文本聚类方法及装置
CN112926329A (zh) * 2021-03-10 2021-06-08 招商银行股份有限公司 文本生成方法、装置、设备及计算机可读存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112764A1 (en) * 2005-03-24 2007-05-17 Microsoft Corporation Web document keyword and phrase extraction
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN108536684A (zh) * 2018-04-18 2018-09-14 深圳市鹰硕技术有限公司 自动生成英语选择题答案选项的方法以及装置
CN109766407A (zh) * 2018-11-28 2019-05-17 科大讯飞股份有限公司 数据处理方法和系统
CN110232180A (zh) * 2019-06-06 2019-09-13 北京师范大学 一种面向古诗词测评的自动命题方法和系统
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
WO2021017268A1 (zh) * 2019-07-30 2021-02-04 平安科技(深圳)有限公司 基于双架构的序列标注方法、装置和计算机设备
CN110489760A (zh) * 2019-09-17 2019-11-22 达而观信息科技(上海)有限公司 基于深度神经网络文本自动校对方法及装置
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN111625631A (zh) * 2020-04-14 2020-09-04 西南大学 一种选择题选项生成方法
CN111639170A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 答案选择方法、装置、计算机设备及计算机可读存储介质
CN112100382A (zh) * 2020-09-30 2020-12-18 珠海碳云智能科技有限公司 聚类方法及装置、计算机可读存储介质、处理器
CN112836043A (zh) * 2020-10-13 2021-05-25 讯飞智元信息科技有限公司 一种基于预训练语言模型的长文本聚类方法及装置
CN112487139A (zh) * 2020-11-27 2021-03-12 平安科技(深圳)有限公司 基于文本的自动出题方法、装置及计算机设备
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112686025A (zh) * 2021-01-27 2021-04-20 浙江工商大学 一种基于自由文本的中文选择题干扰项生成方法
CN112926329A (zh) * 2021-03-10 2021-06-08 招商银行股份有限公司 文本生成方法、装置、设备及计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YINGJIE GU 等: "An Empirical Evaluation on Word Embeddings Across Reading Comprehension", 《2019 IEEE 11TH INTERNATIONAL CONFERENCE ON ADVANCED INFOCOMM TECHNOLOGY (ICAIT)》 *
曹剑茹: "基于迷惑度的错误选项自动生成算法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
朱剑 等: "基于BERT-LSTM的答案选择模型", 《南昌大学学报(理科版)》 *
蒋瑞奇: "基于BERT和Citation-LDA的中文社科论文分析系统的设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Also Published As

Publication number Publication date
CN113239689B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN110442718A (zh) 语句处理方法、装置及服务器和存储介质
CN111179675A (zh) 个性化练习题推荐方法、系统、计算机设备以及存储介质
CN110096686B (zh) 基于人工智能的多媒体教材编辑方法及其系统
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN117093699B (zh) 智能问答方法、装置、设备及介质
CN116151235A (zh) 文章生成方法、文章生成模型训练方法及相关设备
CN115358397A (zh) 一种基于数据采样的并行图规则挖掘方法及装置
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN107644094B (zh) 构建精品资源库的方法、装置、服务器及存储介质
CN113239689B (zh) 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN117057414B (zh) 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统
CN116522901B (zh) It社群的关注信息的分析方法、装置、设备和介质
CN110570838B (zh) 语音流处理方法和装置
CN112052686A (zh) 一种用户交互式教育的语音学习资源推送方法
CN111625631A (zh) 一种选择题选项生成方法
CN116485948A (zh) 一种基于推荐算法和扩散模型的文本生成图像方法和系统
CN115878891A (zh) 直播内容生成方法、装置、设备以及计算机存储介质
CN110209895A (zh) 向量检索方法、装置和设备
CN115017886A (zh) 文本匹配方法、文本匹配装置、电子设备及存储介质
CN111339287B (zh) 摘要生成方法及装置
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN114357138A (zh) 一种问答识别的方法、装置、电子设备及可读存储介质
CN112860983B (zh) 一种学习内容推送的方法、系统、设备及可读存储介质
CN110633466B (zh) 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN113837167A (zh) 一种文本图像识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant