CN113361238B

CN113361238B - 一种语块重组题型的自动命题的方法及装置

Info

Publication number: CN113361238B
Application number: CN202110559261.7A
Authority: CN
Inventors: 殷晓君
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-02-11
Anticipated expiration: 2041-05-21
Also published as: CN113361238A

Abstract

本发明涉及语言教学技术领域，特别是指一种语块重组题型的自动命题的方法及装置，方法包括：获取待切分语句以及切分块数K；通过预设的分词算法对待切分语句进行分词，得到待切分语句对应的M个词语；分别计算每两个词语之间的前链接概率以及后链接概率，计算每个切分位对应的切分合理性得分；将M‑1个切分位分别对应的切分合理性得分进行降序排列，选取前N个切分合理性得分对应的切分位，其中，N大于K‑1；在N个切分合理性得分对应的切分位中选取K‑1个切分位作为最终切分位组合；根据最终切分位组合，对待切分语句进行切分，并将切分后得到的K个语块按乱序程度分取最高得分输出。采用本发明，可以高效率地生成难度可控的、合理的题目。

Description

一种语块重组题型的自动命题的方法及装置

技术领域

本发明涉及语言教学技术领域，特别是指一种语块重组题型的自动命题的方法及装置。

背景技术

当前在对外汉语教学中广泛使用语言教学语块重组题型的题目，如HSK考试。这种题型的题目通常是将原本完整、正确的一句话切分、打乱后生成的语块，由考生通过这多个乱序的语块组合成完整、语法正确的一句话语。目前，这种题型的出题完全依赖于教师的主观判断，效率低下，且缺乏科学性。

发明内容

本发明实施例提供了一种语块重组题型的自动命题的方法及装置。所述技术方案如下：

一方面，提供了一种语块重组题型的自动命题的方法，该方法应用于电子设备，该方法包括：

获取待切分语句以及切分块数K；

通过预设的分词算法对所述待切分语句进行分词，得到所述待切分语句对应的M个词语，所述M个词语对应M-1个切分位，所述M-1大于所述K-1；

分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率，计算所述M-1个切分位中每个切分位对应的切分合理性得分；

将所述M-1个切分位分别对应的切分合理性得分进行降序排列，选取前N个切分合理性得分对应的切分位，其中，所述N大于所述K-1；

在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合；

根据所述最终切分位组合，对所述待切分语句进行切分，并将切分后得到的K个语块乱序输出。

可选地，所述分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率，包括：

获取考试语言能力相关的大数据；

基于所述大数据，统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i)，得到词语之间的前链接概率对照表以及后链接概率对照表；

根据所述前链接概率对照表，确定所述M个词语中每两个词语之间的前链接概率；

根据所述后链接概率对照表，确定所述M个词语中每两个词语之间的后链接概率。

可选地，所述计算所述M-1个切分位中每个切分位对应的切分合理性得分，包括：

对于所述M-1个切分位中每个切分位，基于切分位对应的两个词语的前链接概率以及后链接概率，通过下述公式(1)，确定切分位对应的切分合理性得分：

slot_split_score＝log(1-PLeft)+log(1-PRight)……(1)

其中，slot_split_score表示切分位对应的切分合理性得分，PLeft表示切分位对应的两个词语之间的前链接概率，PRight表示切分位对应的两个词语之间的后链接概率。

可选地，所述在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合，包括：

在所述N个切分合理性得分对应的切分位的词语中不重复地选取K-1个切分位，得到

种切分位的组合；

对于

种切分位的组合中的每种组合，确定对应的选取合理性分数；

确定多个选取合理性分数中的最大值，将所述最大值对应的组合确定为最终切分位组合。

可选地，所述确定对应的选取合理性分数，包括：

计算组合中的所有切分位对应的切分合理性得分的和值split_score；

将组合中的所有切分位输入预设的语言模型，得到多个顺序对应的混淆评分，确定多个混淆评分中的最大值作为组合对应的混淆评分lm_score；

通过下述公式(2)计算组合对应的选取合理性分数：

score＝w1*split_socre+w2*lm_socre……(2)

其中，score表示组合对应的选取合理性分数，w1表示预设的切分合理性得分对应的权重系数，w2表示预设的混淆评分对应的权重系数。

可选地，所述将切分后得到的K个语块乱序输出，包括：

将切分得到的K个语块按照顺序设置对应的序号；

将K个语块进行随机排列，得到

种排列方式；

对于每种排列方式，分别计算任两个相邻语块的序号差值，确定每个序号差值的绝对值减1的数值，得到K-1个数值，计算所述K-1个数值的和值作为乱序程度分数；

确定

种排列方式的乱序程度分数的最大值，按照所述最大值对应的排列方式对所述K个语块进行排列。

一方面，提供了一种语块重组题型的自动命题的装置，该装置应用于电子设备，该装置包括：

获取单元，用于获取待切分语句以及切分块数K；

分词单元，用于通过预设的分词算法对所述待切分语句进行分词，得到所述待切分语句对应的M个词语，所述M个词语对应M-1个切分位，所述M-1大于所述K-1；

计算单元，用于分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率，计算所述M-1个切分位中每个切分位对应的切分合理性得分；

选取单元，用于将所述M-1个切分位分别对应的切分合理性得分进行降序排列，选取前N个切分合理性得分对应的切分位，其中，所述N大于所述K-1；

所述选取单元，用于在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合；

输出单元，用于根据所述最终切分位组合，对所述待切分语句进行切分，并将切分后得到的K个语块乱序输出。

可选地，所述计算单元，进一步用于：

获取考试语言能力相关的大数据；

可选地，所述计算单元，进一步用于：

slot_split_score＝log(1-PLeft)+log(1-PRight)……(1)

可选地，所述选取单元，进一步用于：

在所述N个切分合理性得分对应的切分位中不重复地选取K-1个切分位，得到

种切分位的组合；

对于

可选地，所述选取单元，进一步用于：

通过下述公式(2)计算组合对应的选取合理性分数：

score＝w1*split_socre+w2*lm_socre……(2)

可选地，所述输出单元，进一步用于：

将切分得到的K个语块按照顺序设置对应的序号；

将K个语块进行随机排列，得到

种排列方式；

确定

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述语块重组题型的自动命题的方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述语块重组题型的自动命题的方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，先对待切分语句进行分词，得到多个切分位，然后通过词语之间的前链接概率以及后链接概率，从多个切分位选取出更合理的一部分切分位，再然后，结合合理程度以及易混淆程度，再选取出预设个数的切分位，根据该预设个数的切分位对待切分语句进行切分，最后将切分后的语块乱序输出。这样，可以在出题老师控制难度的情况下，自动生成语言教学语块重组题型的题目，出题效率高，且兼顾考虑了难易程度以及混淆程度，得到的题目难度更符合出题老师的预期，得到更合理的题目。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语块重组题型的自动命题的方法流程图；

图2是本发明实施例提供的一种语块重组题型的自动命题的方法流程图；

图3是本发明实施例提供的一种语块重组题型的自动命题的装置框图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种语块重组题型的自动命题的方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的语块重组题型的自动命题的方法流程图，该方法的处理流程可以包括如下的步骤：

步骤101、获取待切分语句以及切分块数K；

步骤102、通过预设的分词算法对待切分语句进行分词，得到待切分语句对应的M个词语，M个词语对应M-1个切分位，M-1大于K-1；

步骤103、分别计算M个词语中每两个词语之间的前链接概率以及后链接概率，计算M-1个切分位中每个切分位对应的切分合理性得分；

步骤104、将M-1个切分位分别对应的切分合理性得分进行降序排列，选取前N个切分合理性得分对应的切分位，其中，N大于K-1；

步骤105、在N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合；

步骤106、根据最终切分位组合，对待切分语句进行切分，并将切分后得到的K个语块乱序输出。

可选地，分别计算M个词语中每两个词语之间的前链接概率以及后链接概率，包括：

获取考试语言能力相关的大数据；

基于大数据，统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i)，得到词语之间的前链接概率对照表以及后链接概率对照表；

根据前链接概率对照表，确定M个词语中每两个词语之间的前链接概率；

根据后链接概率对照表，确定M个词语中每两个词语之间的后链接概率。

可选地，计算M-1个切分位中每个切分位对应的切分合理性得分，包括：

对于M-1个切分位中每个切分位，基于切分位对应的两个词语的前链接概率以及后链接概率，通过下述公式(1)，确定切分位对应的切分合理性得分：

slot_split_score＝log(1-PLeft)+log(1-PRight)……(1)

可选地，在N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合，包括：

在N个切分合理性得分对应的切分位中不重复地选取K-1个切分位，得到

种切分位的组合；

对于

确定多个选取合理性分数中的最大值，将最大值对应的组合确定为最终切分位组合。

可选地，确定对应的选取合理性分数，包括：

通过下述公式(2)计算组合对应的选取合理性分数：

score＝w1*split_score+w2*lm_score……(2)

可选地，将切分后得到的K个语块乱序输出，包括：

将切分得到的K个语块按照顺序设置对应的序号；

将K个语块进行随机排列，得到

种排列方式；

确定

本发明实施例中，先对待切分语句进行分词，得到多个切分位，然后通过词语之间的前链接概率以及后链接概率，从多个切分位选取出更合理的一部分切分位，再然后，结合合理程度以及易混淆程度，再选取出预设个数的切分位，根据该预设个数的切分位对待切分语句进行切分，最后将切分后的语块乱序输出。这样，可以在出题老师控制难度的情况下，自动生成语言教学语块重组题型的题目，出题效率高，且兼顾考虑了难易程度以及混淆程度，得到的题目难度更符合出题老师的预期，得到更合理的题目。

本发明实施例提供了一种语块重组题型的自动命题的方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图2所示的语块重组题型的自动命题的方法流程图，该方法的处理流程可以包括如下的步骤：

步骤201、获取待切分语句以及切分块数K。

一种可行的实施方式中，待切分语句是完整、正确的一句语句，将待切分语句切分成多块词语，这多块词语即为一道语言教学语块重组题型对应的题目，考生按照语法将这多块词语组合成与待切分语句相同的语句，即为回答了正确答案。

在使用本申请的方法进行自动命题时，先获取待切分语句，待切分语句的获取方式可以有多种，例如，可以是出题老师临时输入的，也可以是从某篇文章中自动截取的一句完整的话语等，本发明实施例对此不作限定。

另外，电子设备还需要获取切分块数K，切分块数用于表示将待切分语句切分后得到的词语的个数，出题老师可以通过设置切分块数K来控制题目的难度，通常来讲，切分块数越大，待切分语句切分后得到的词语越多，难度越大。

步骤202、通过预设的分词算法对待切分语句进行分词，得到待切分语句对应的M个词语。

其中，切分位为相邻的两个切分开的词语对应的切分位置，M个词语对应M-1个切分位，M-1大于K-1。

一种可行的实施方式中，分词算法可以现有技术中常用的分词算法，本发明实施例对此不做详细说明。

通过预设的分词算法对待切分语句进行分词，可以得到切分后的多个词语，这多个词语的顺序保持不变，设得到词语的个数为M个，举例来讲，待切分语句为“请在前台办理入住手续”，通过分词算法切分后得到的多个词语可能是“请、在、前台、办理、入住、手续”。通过这种分词算法切分得到的词语个数不受控，即通过这种方式得到的题目的难度不受控，因此，需要继续对得到词语进行处理。

步骤203、分别计算M个词语中每两个词语之间的前链接概率以及后链接概率。

其中，两个词语W_j与W_i之间的前链接概率PLeft(W_j|W_i)指的是，在获取的大数据中，词语W_j位于词语W_i左边、且两个词语链接出现的概率；两个词语W_j与W_i之间的后链接概率PRight(W_j|W_i)指的是，在获取的大数据中，词语W_j位于词语W_i右边、且两个词语链接出现的概率。

一种可行的实施方式中，可以预先获取考试语言能力相关的大数据，然后，基于获取的大数据，统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i)，得到词语之间的前链接概率对照表以及后链接概率对照表。

然后，在前链接概率对照表中，查找M个词语中每两个词语之间的前链接概率，在后链接概率对照表中查找M个词语中每两个词语之间的后链接概率。

步骤204、计算M-1个切分位中每个切分位对应的切分合理性得分。

一种可行的实施方式中，计算切分位对应的切分合理性得分可以采用下述方式：

slot_split_score＝log(1-PLeft)+log(1-PRight)……(1)

需要说明的是，两个词语的前链接概率和后链接概率表示两个词语相连接的普遍程度，概率大说明两个词语在一起出现的概率大，进而说明，考生在答题时将这两个词语组合在一起的难度小，进而说明，这道题目的难度小，因此，为了适当提升题目的难度，尽量不在链接概率大的两个词语之间切分，切分合理性得分就是用来描述在此处切分生成的题目的难度。由上述公式(1)可以看出，链接概率越大，对应的切分合理性得分越低。

步骤205、将M-1个切分位分别对应的切分合理性得分进行降序排列，选取前N个切分合理性得分对应的切分位。

其中，N大于K-1。

一种可行的实施方式中，在得出多个切分合理性得分后，为了排除掉切分不合理的切分位，可以将切分合理性得分按照从大到小的顺序降序排列，选取分数大的前N个切分合理性得分对应的切分位。

步骤206、在N个切分合理性得分对应的切分位中不重复地选取K-1个切分位，得到

种切分位的组合。

步骤207、计算每个组合中的所有切分位对应的切分合理性得分的和值split_score。

步骤208、将每个组合中的所有切分位对应的词语输入预设的语言模型，得到多个顺序对应的混淆评分，确定多个混淆评分中的最大值作为该组合对应的混淆评分lm_score。

一种可行的实施方式中，为了进一步适当地提高题目的难度，可以将每个组合中的所有切分位对应的词语输入预设的语言模型，该预设的语言模型可以是现有技术中常用的语言模型，该语言模型可以输出多个词语排成正确语句的混淆程度，选取最大值作为该组合对应的混淆评分。

步骤209、通过切分合理性得分的和值以及组合对应的混淆评分，计算每个组合对应的选取合理性分数。

通过下述公式(2)计算组合对应的选取合理性分数：

score＝w1*split_socre+w2*lm_socre……(2)

需要说明的是，通过上述公式(2)可以看出，在混淆评分相同的情况下，切分合理性得分越高，其组合对应的选取合理性分数越高，在切分合理性得分相同的情况下，混淆评分越高，其组合对应的选取合理性分数越高。

步骤210、确定多个组合对应的多个选取合理性分数中的最大值，将最大值对应的组合确定为最终切分位组合。

一种可行的实施方式中，为了适当地提升题目难度，可以在多个选取合理性分数中选取最大值，将最大值对应的组合确定为最终切分位组合，这样，兼顾地保证了所出的题目不易组合且比较易混淆。

步骤211、根据最终切分位组合，对待切分语句进行切分，并将切分后得到的K个语块乱序输出。

一种可行的实施方式中，为了进一步提升题目的难度，可以将切分后得到的K个语块乱序输出，具体地，将切分得到的K个语块按照顺序设置对应的序号，将K个语块进行随机排列，得到

种排列方式，对于每种排列方式，分别计算任两个相邻语块的序号差值，确定每个序号差值的绝对值减1的数值，得到K-1个数值，计算K-1个数值的和值作为乱序程度分数，确定

种排列方式的乱序程度分数的最大值，按照最大值对应的排列方式对K个语块进行排列。这样可以保证题目中的多个语块的排列顺序尽量与语块在待切分语句中的顺序不相同，适当地提高题目难度。

举例来说，设K个语块分别是C1、C2、C3、C4、C5，此时K＝5，则这5个语块打乱后有

种排列方式，选取其中一种排列方式为C2、C4、C3、C1、C5进行说明，结果如下表1所示。

表1

图3是根据一示例性实施例示出的一种语块重组题型的自动命题的装置框图。参照图3，该装置包括：

获取单元310，用于获取待切分语句以及切分块数K；

分词单元320，用于通过预设的分词算法对所述待切分语句进行分词，得到所述待切分语句对应的M个词语，所述M个词语对应M-1个切分位，所述M-1大于所述K-1；

计算单元330，用于分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率，计算所述M-1个切分位中每个切分位对应的切分合理性得分；

选取单元340，用于将所述M-1个切分位分别对应的切分合理性得分进行降序排列，选取前N个切分合理性得分对应的切分位，其中，所述N大于所述K-1；

所述选取单元340，用于在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合；

输出单元350，用于根据所述最终切分位组合，对所述待切分语句进行切分，并将切分后得到的K个语块乱序输出。

可选地，所述计算单元330，进一步用于：

获取考试语言能力相关的大数据；

可选地，所述计算单元330，进一步用于：

slot_split_score＝log(1-PLeft)+log(1-PRight)……(1)

可选地，所述选取单元340，进一步用于：

种切分位的组合；

对于

可选地，所述选取单元340，进一步用于：

通过下述公式(2)计算组合对应的选取合理性分数：

score＝w1*split_score+w2*lm_score……(2)

可选地，所述输出单元350，进一步用于：

将切分得到的K个语块按照顺序设置对应的序号；

将K个语块进行随机排列，得到

种排列方式；

对于每种排列方式，分别计算任两个相邻语块的序号差值，确定每个序号差值的绝对值减1的数值，得到K-1个数值，计算K-1个数值的和值作为乱序程度分数；

确定

种排列方式的乱序程度分数的最大值，按照所述最大值对应的排列方式对K个语块进行排列。

图4是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现下述语块重组题型的自动命题的方法的步骤：

获取待切分语句以及切分块数K；

通过预设的分词算法对待切分语句进行分词，得到待切分语句对应的M个词语，M个词语对应M-1个切分位，M-1大于K-1；

分别计算M个词语中每两个词语之间的前链接概率以及后链接概率，计算M-1个切分位中每个切分位对应的切分合理性得分；

将M-1个切分位分别对应的切分合理性得分进行降序排列，选取前N个切分合理性得分对应的切分位，其中，N大于K-1；

在N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合；

根据最终切分位组合，对待切分语句进行切分，并将切分后得到的K个语块乱序输出。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述语块重组题型的自动命题的方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语块重组题型的自动命题的方法，其特征在于，所述方法包括：

获取待切分语句以及切分块数K；

根据所述最终切分位组合，对所述待切分语句进行切分，并将切分后得到的K个语块乱序输出；

其中，所述计算所述M-1个切分位中每个切分位对应的切分合理性得分，包括：

slot_split_score＝log(1-PLeft)+log(1-PRight)……(1)

其中，slot_split_score表示切分位对应的切分合理性得分，PLeft表示切分位对应的两个词语之间的前链接概率，PRight表示切分位对应的两个词语之间的后链接概率；

其中，所述在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合，包括：

种切分位的组合；

对于

确定多个选取合理性分数中的最大值，将所述最大值对应的组合确定为最终切分位组合；

其中，所述确定对应的选取合理性分数，包括：

通过下述公式(2)计算组合对应的选取合理性分数：

score＝w1*split_score+w2*lm_socre……(2)

2.根据权利要求1所述的方法，其特征在于，所述分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率，包括：

获取考试语言能力相关的大数据；

3.根据权利要求1所述的方法，其特征在于，所述将切分后得到的K个语块乱序输出，包括：

将切分得到的K个语块按照顺序设置对应的序号；

将K个语块进行随机排列，得到

种排列方式；

确定

4.一种语块重组题型的自动命题的装置，其特征在于，所述装置包括：

获取单元，用于获取待切分语句以及切分块数K；

输出单元，用于根据所述最终切分位组合，对所述待切分语句进行切分，并将切分后得到的K个语块乱序输出；

其中，所述计算单元，进一步用于：

slot_split_score＝log(1-PLeft)+log(1-PRight)……(1)

其中，所述选取单元，进一步用于：

种切分位的组合；

对于

其中，所述选取单元，进一步用于：

通过下述公式(2)计算组合对应的选取合理性分数：

score＝w1*split_score+w2*lm_socre……(2)

5.根据权利要求4所述的装置，其特征在于，所述计算单元，进一步用于：

获取考试语言能力相关的大数据；