CN113239689A

CN113239689A - 面向易混淆词考察的选择题干扰项自动生成方法及装置

Info

Publication number: CN113239689A
Application number: CN202110765151.6A
Authority: CN
Inventors: 殷晓君; 别红樱; 翟艳; 程璐璐
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-08-10
Anticipated expiration: 2041-07-07
Also published as: CN113239689B

Abstract

本发明公开了一种面向易混淆词考察的选择题干扰项自动生成方法及装置，该方法包括：通过预训练的Word2vec生成词向量，并通过计算相似度选取出N个候选词；将考察词和N个候选词分别代入题干中，通过预训练的BERT模型生成上下文相关的词向量，并排除相似度过高的词，得到M个候选词；对M个候选词进行聚类，然后分别选出每个类簇中与考察词相似度最高的词作为代表，得到Q个候选词，最后根据相似度，在Q个候选词中选取合适数量的干扰项。本发明的方案具有效率高、科学性强以及保证了干扰项的多样性等优点。

Description

面向易混淆词考察的选择题干扰项自动生成方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种面向易混淆词考察的选择题干扰项自动生成方法及装置。

背景技术

在语言教学过程中，选择题是一种重要的考题形式，基于易混淆词考察的题型的干扰项通常就是易混淆词，命题最关键的部分是干扰项的生成。科学高效的干扰项生成是当前语言教学考核的有效支持。

当前采用的技术方案为：（按照技术深度递进）

（1）教师根据经验构造干扰项，是当前的主要工作方式。

（2）收集一个和考察词相关的候选项集合，然后随机选择。

（3）基于词形相似、搭配、图谱，选择干扰项。

（4）基于doc-word矩阵分解，获得词向量，通过词向量计算相似度，根据计算出的相似度确定干扰项。

上述现有技术中，教师根据经验构造干扰项，是当前的主要工作方式。但该方法依赖教师主观经验，质量不可控，且效率非常低。收集一个和考察词相关的候选项集合，然后随机选择的方法，随机选择的过程没有考虑到和题干的关系，而混淆程度是依赖上下文也就是题干的，因此缺乏科学性。基于词形相似、搭配、图谱，选择干扰项的方法，有一定的科学性，但是需要大量的整理过程，成本非常高。基于doc-word矩阵分解，获得词向量，通过词向量计算相似度，获得干扰项的方法，同样存在干扰项和题干无关，科学性不高的问题。

发明内容

本发明提供了一种面向易混淆词考察的选择题干扰项自动生成方法及装置，以解决现有技术存在的效率较低且科学性不高的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种面向易混淆词考察的选择题干扰项自动生成方法，该面向易混淆词考察的选择题干扰项自动生成方法包括：

获取待生成干扰项的选择题的题干和考察词，以及与所述考察词对应的第一候选词集合；其中，所述第一候选词集合中包括多个干扰项候选词；

通过预训练的Word2vec，分别生成所述考察词以及所述第一候选词集合中的每一候选词对应的第一词向量；

基于所述第一词向量，分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度，并在所述第一候选词集合中选出与所述考察词之间的相似度最高的N个词，组成第二候选词集合；其中，N为预设的整数值且N>0；

将所述考察词以及所述第二候选词集合中的每一候选词分别代入所述题干中，然后基于所述题干，通过预训练的BERT模型，分别生成所述考察词以及所述第二候选词集合中的每一候选词对应的上下文相关的第二词向量；

基于所述第二词向量，分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度，并筛选出所述第二候选词集合中与所述考察词之间的相似度不高于预设阈值的词，组成第三候选词集合；

基于所述第二词向量，通过预设的聚类算法，对所述第三候选词集合中的所有候选词进行聚类，得到多个类簇；然后分别选出每个类簇中与所述考察词之间的相似度最高的词，组成第四候选词集合；

根据所述第四候选词集合中的每一候选词与所述考察词之间的相似度，在所述第四候选词集合中选取预设数量的词，作为最终的干扰项。

可选地，基于所述第一词向量，分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第一词向量的余弦相似度，得到所述第一候选词集合中的每一候选词与考察词的相似度。

可选地，基于所述第二词向量，分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第二词向量的余弦相似度，得到所述第二候选词集合中的每一候选词与考察词的相似度。

可选地，所述预设的聚类算法为K-means或GMM算法。

另一方面，本发明还提供了一种面向易混淆词考察的选择题干扰项自动生成装置，该面向易混淆词考察的选择题干扰项自动生成装置包括：

数据获取模块，用于获取待生成干扰项的选择题的题干和考察词，以及与所述考察词对应的第一候选词集合；其中，所述第一候选词集合中包括多个干扰项候选词；

第一筛选模块，用于通过预训练的Word2vec，分别生成所述考察词以及所述第一候选词集合中的每一候选词对应的第一词向量；基于所述第一词向量，分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度，并在所述第一候选词集合中选出与所述考察词之间的相似度最高的N个词，组成第二候选词集合；其中，N为预设的整数值且N>0；

第二筛选模块，用于将所述考察词以及所述第二候选词集合中的每一候选词分别代入所述题干中，然后基于所述题干，通过预训练的BERT模型，分别生成所述考察词以及所述第二候选词集合中的每一候选词对应的上下文相关的第二词向量；基于所述第二词向量，分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度，并筛选出所述第二候选词集合中与所述考察词之间的相似度不高于预设阈值的词，组成第三候选词集合；

第三筛选模块，用于基于所述第二词向量，通过预设的聚类算法，对所述第三候选词集合中的所有候选词进行聚类，得到多个类簇；然后分别选出每个类簇中与所述考察词之间的相似度最高的词，组成第四候选词集合；

第四筛选模块，用于根据所述第四候选词集合中的每一候选词与所述考察词间的相似度，在所述第四候选词集合中选取预设数量的词，作为最终的干扰项。

可选地，所述第一筛选模块计算所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第一词向量的余弦相似度，得到所述第一候选词集合中的每一候选词与考察词的相似度。

可选地，所述第二筛选模块计算所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第二词向量的余弦相似度，得到所述第二候选词集合中的每一候选词与考察词的相似度。

可选地，所述第三筛选模块使用的聚类算法为K-means或GMM算法。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

1、本发明中干扰项的生成完全基于模型，因此非常高效；

2、本发明基于真实大数据和结合题干语义的相似度结果，科学性很高；

3、本发明通过对候选词进行聚类，选择代表性的候选，保证了多样性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向易混淆词考察的选择题干扰项自动生成方法的执行流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种面向易混淆词考察的选择题干扰项自动生成方法，该方法可以由电子设备实现，该电子设备可以是终端或者服务器。该面向易混淆词考察的选择题干扰项自动生成方法的执行流程如图1所示，包括以下步骤：

S1，获取待生成干扰项的选择题的题干和考察词，以及与考察词对应的第一候选词集合；其中，第一候选词集合中包括多个干扰项候选词；

需要说明的是，干扰项候选词是与考察词相关的词，本实施例所提供的选择题干扰项自动生成方法即是通过高效科学的模型从中自动确定出干扰项。

S2，通过预训练的Word2vec，分别生成考察词以及第一候选词集合中的每一候选词对应的第一词向量；

S3，基于第一词向量，分别计算出第一候选词集合中的每一候选词与考察词之间的相似度，并在第一候选词集合中选出与考察词之间的相似度最高的N个词，组成第二候选词集合；其中，N为预设的整数值且N>0；

需要说明的是，上述S2和S3的作用是对候选词进行初步筛选，其目的是降低后续BERT模型的计算量。

S4，将考察词以及第二候选词集合中的每一候选词分别代入题干中，然后基于题干，通过预训练的BERT模型，分别生成考察词以及第二候选词集合中的每一候选词对应的上下文相关的第二词向量；

S5，基于第二词向量，分别计算出第二候选词集合中的每一候选词与考察词之间的相似度，并筛选出第二候选词集合中与考察词之间的相似度不高于预设阈值的词，组成第三候选词集合；

需要说明的是，上述S5的目的是排出相似度过高的词，因为相似度过高，意味着词义完全相同，不适合作为干扰项，因此，需要将与考察词的相似度高于一定阈值的词去掉，最终得到M个候选词，M<N；

S6，基于第二词向量，通过预设的聚类算法，对第三候选词集合中的所有候选词进行聚类，得到多个类簇；然后分别选出每个类簇中与所述考察词之间的相似度最高的词，组成第四候选词集合；

需要说明的是，第三候选词集合中的M个候选词在词义上存在分簇现象，因此可以通过各词的词向量，使用K-means、GMM等聚类算法对M个候选词进行聚类，获得Q个类簇。并在每个聚类簇中选取和考察词向量相似度最高的作为代表，最终得到Q个候选词，Q<M；

S7，根据第四候选词集合中的每一候选词与考察词之间的相似度，在第四候选词集合中选取预设数量的词，作为最终的干扰项。

需要说明的是，此处基于相似度选择干扰项可以是优先选择相似度高的词。

进一步地，上述Word2vec和BERT模型的预训练过程如下：

收集考题相关的大数据，如中学中文选择题的收集对象为：相关课本、练习册、课外读物、学生优秀作文、相当语言能力的网络数据等。

通过收集的上述大数据，预训练Word2vec和BERT模型。

上述计算候选词与考察词之间相似度的方法可以是：通过计算两个词对应的词向量的余弦相似度，得到相应的候选词与考察词之间的相似度。

综上，本实施例的干扰项自动生成方法，基于大数据通过模型高效生成干扰项，相比于传统方法的专家整理知识效率高的多。而且，本实施例的方法使用最新的BERT模型计算题干上下文相关的词向量，科学性更强。此外，本实施例的方法通过对候选项进行聚类，使干扰项具有多样化，保障考题更加科学。

第二实施例

本实施例提供了一种面向易混淆词考察的选择题干扰项自动生成装置，该面向易混淆词考察的选择题干扰项自动生成装置包括以下模块：

本实施例的面向易混淆词考察的选择题干扰项自动生成装置与上述第一实施例的面向易混淆词考察的选择题干扰项自动生成方法相对应；其中，本实施例的面向易混淆词考察的选择题干扰项自动生成装置中的各功能模块所实现的功能与上述第一实施例的面向易混淆词考察的选择题干扰项自动生成方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种面向易混淆词考察的选择题干扰项自动生成方法，其特征在于，包括：

2.如权利要求1所述的面向易混淆词考察的选择题干扰项自动生成方法，其特征在于，基于所述第一词向量，分别计算出所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第一词向量的余弦相似度，得到所述第一候选词集合中的每一候选词与考察词的相似度。

3.如权利要求1所述的面向易混淆词考察的选择题干扰项自动生成方法，其特征在于，基于所述第二词向量，分别计算出所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第二词向量的余弦相似度，得到所述第二候选词集合中的每一候选词与考察词的相似度。

4.如权利要求1所述的面向易混淆词考察的选择题干扰项自动生成方法，其特征在于，所述预设的聚类算法为K-means或GMM算法。

5.一种面向易混淆词考察的选择题干扰项自动生成装置，其特征在于，包括：

6.如权利要求5所述的面向易混淆词考察的选择题干扰项自动生成装置，其特征在于，所述第一筛选模块计算所述第一候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第一词向量的余弦相似度，得到所述第一候选词集合中的每一候选词与考察词的相似度。

7.如权利要求5所述的面向易混淆词考察的选择题干扰项自动生成装置，其特征在于，所述第二筛选模块计算所述第二候选词集合中的每一候选词与所述考察词之间的相似度的方法为：通过计算两个词对应的第二词向量的余弦相似度，得到所述第二候选词集合中的每一候选词与考察词的相似度。

8.如权利要求5所述的面向易混淆词考察的选择题干扰项自动生成装置，其特征在于，所述第三筛选模块使用的聚类算法为K-means或GMM算法。