CN113361238B - 一种语块重组题型的自动命题的方法及装置 - Google Patents

一种语块重组题型的自动命题的方法及装置 Download PDF

Info

Publication number
CN113361238B
CN113361238B CN202110559261.7A CN202110559261A CN113361238B CN 113361238 B CN113361238 B CN 113361238B CN 202110559261 A CN202110559261 A CN 202110559261A CN 113361238 B CN113361238 B CN 113361238B
Authority
CN
China
Prior art keywords
segmentation
words
rationality
score
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110559261.7A
Other languages
English (en)
Other versions
CN113361238A (zh
Inventor
殷晓君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202110559261.7A priority Critical patent/CN113361238B/zh
Publication of CN113361238A publication Critical patent/CN113361238A/zh
Application granted granted Critical
Publication of CN113361238B publication Critical patent/CN113361238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语言教学技术领域,特别是指一种语块重组题型的自动命题的方法及装置,方法包括:获取待切分语句以及切分块数K;通过预设的分词算法对待切分语句进行分词,得到待切分语句对应的M个词语;分别计算每两个词语之间的前链接概率以及后链接概率,计算每个切分位对应的切分合理性得分;将M‑1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,N大于K‑1;在N个切分合理性得分对应的切分位中选取K‑1个切分位作为最终切分位组合;根据最终切分位组合,对待切分语句进行切分,并将切分后得到的K个语块按乱序程度分取最高得分输出。采用本发明,可以高效率地生成难度可控的、合理的题目。

Description

一种语块重组题型的自动命题的方法及装置
技术领域
本发明涉及语言教学技术领域,特别是指一种语块重组题型的自动命题的方法及装置。
背景技术
当前在对外汉语教学中广泛使用语言教学语块重组题型的题目,如HSK考试。这种题型的题目通常是将原本完整、正确的一句话切分、打乱后生成的语块,由考生通过这多个乱序的语块组合成完整、语法正确的一句话语。目前,这种题型的出题完全依赖于教师的主观判断,效率低下,且缺乏科学性。
发明内容
本发明实施例提供了一种语块重组题型的自动命题的方法及装置。所述技术方案如下:
一方面,提供了一种语块重组题型的自动命题的方法,该方法应用于电子设备,该方法包括:
获取待切分语句以及切分块数K;
通过预设的分词算法对所述待切分语句进行分词,得到所述待切分语句对应的M个词语,所述M个词语对应M-1个切分位,所述M-1大于所述K-1;
分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率,计算所述M-1个切分位中每个切分位对应的切分合理性得分;
将所述M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,所述N大于所述K-1;
在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合;
根据所述最终切分位组合,对所述待切分语句进行切分,并将切分后得到的K个语块乱序输出。
可选地,所述分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率,包括:
获取考试语言能力相关的大数据;
基于所述大数据,统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i),得到词语之间的前链接概率对照表以及后链接概率对照表;
根据所述前链接概率对照表,确定所述M个词语中每两个词语之间的前链接概率;
根据所述后链接概率对照表,确定所述M个词语中每两个词语之间的后链接概率。
可选地,所述计算所述M-1个切分位中每个切分位对应的切分合理性得分,包括:
对于所述M-1个切分位中每个切分位,基于切分位对应的两个词语的前链接概率以及后链接概率,通过下述公式(1),确定切分位对应的切分合理性得分:
slot_split_score=log(1-PLeft)+log(1-PRight)……(1)
其中,slot_split_score表示切分位对应的切分合理性得分,PLeft表示切分位对应的两个词语之间的前链接概率,PRight表示切分位对应的两个词语之间的后链接概率。
可选地,所述在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合,包括:
在所述N个切分合理性得分对应的切分位的词语中不重复地选取K-1个切分位,得到
Figure BDA0003078307530000022
种切分位的组合;
对于
Figure BDA0003078307530000023
种切分位的组合中的每种组合,确定对应的选取合理性分数;
确定多个选取合理性分数中的最大值,将所述最大值对应的组合确定为最终切分位组合。
可选地,所述确定对应的选取合理性分数,包括:
计算组合中的所有切分位对应的切分合理性得分的和值split_score;
将组合中的所有切分位输入预设的语言模型,得到多个顺序对应的混淆评分,确定多个混淆评分中的最大值作为组合对应的混淆评分lm_score;
通过下述公式(2)计算组合对应的选取合理性分数:
score=w1*split_socre+w2*lm_socre……(2)
其中,score表示组合对应的选取合理性分数,w1表示预设的切分合理性得分对应的权重系数,w2表示预设的混淆评分对应的权重系数。
可选地,所述将切分后得到的K个语块乱序输出,包括:
将切分得到的K个语块按照顺序设置对应的序号;
将K个语块进行随机排列,得到
Figure BDA0003078307530000021
种排列方式;
对于每种排列方式,分别计算任两个相邻语块的序号差值,确定每个序号差值的绝对值减1的数值,得到K-1个数值,计算所述K-1个数值的和值作为乱序程度分数;
确定
Figure BDA0003078307530000031
种排列方式的乱序程度分数的最大值,按照所述最大值对应的排列方式对所述K个语块进行排列。
一方面,提供了一种语块重组题型的自动命题的装置,该装置应用于电子设备,该装置包括:
获取单元,用于获取待切分语句以及切分块数K;
分词单元,用于通过预设的分词算法对所述待切分语句进行分词,得到所述待切分语句对应的M个词语,所述M个词语对应M-1个切分位,所述M-1大于所述K-1;
计算单元,用于分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率,计算所述M-1个切分位中每个切分位对应的切分合理性得分;
选取单元,用于将所述M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,所述N大于所述K-1;
所述选取单元,用于在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合;
输出单元,用于根据所述最终切分位组合,对所述待切分语句进行切分,并将切分后得到的K个语块乱序输出。
可选地,所述计算单元,进一步用于:
获取考试语言能力相关的大数据;
基于所述大数据,统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i),得到词语之间的前链接概率对照表以及后链接概率对照表;
根据所述前链接概率对照表,确定所述M个词语中每两个词语之间的前链接概率;
根据所述后链接概率对照表,确定所述M个词语中每两个词语之间的后链接概率。
可选地,所述计算单元,进一步用于:
对于所述M-1个切分位中每个切分位,基于切分位对应的两个词语的前链接概率以及后链接概率,通过下述公式(1),确定切分位对应的切分合理性得分:
slot_split_score=log(1-PLeft)+log(1-PRight)……(1)
其中,slot_split_score表示切分位对应的切分合理性得分,PLeft表示切分位对应的两个词语之间的前链接概率,PRight表示切分位对应的两个词语之间的后链接概率。
可选地,所述选取单元,进一步用于:
在所述N个切分合理性得分对应的切分位中不重复地选取K-1个切分位,得到
Figure BDA0003078307530000041
种切分位的组合;
对于
Figure BDA0003078307530000042
种切分位的组合中的每种组合,确定对应的选取合理性分数;
确定多个选取合理性分数中的最大值,将所述最大值对应的组合确定为最终切分位组合。
可选地,所述选取单元,进一步用于:
计算组合中的所有切分位对应的切分合理性得分的和值split_score;
将组合中的所有切分位输入预设的语言模型,得到多个顺序对应的混淆评分,确定多个混淆评分中的最大值作为组合对应的混淆评分lm_score;
通过下述公式(2)计算组合对应的选取合理性分数:
score=w1*split_socre+w2*lm_socre……(2)
其中,score表示组合对应的选取合理性分数,w1表示预设的切分合理性得分对应的权重系数,w2表示预设的混淆评分对应的权重系数。
可选地,所述输出单元,进一步用于:
将切分得到的K个语块按照顺序设置对应的序号;
将K个语块进行随机排列,得到
Figure BDA0003078307530000043
种排列方式;
对于每种排列方式,分别计算任两个相邻语块的序号差值,确定每个序号差值的绝对值减1的数值,得到K-1个数值,计算所述K-1个数值的和值作为乱序程度分数;
确定
Figure BDA0003078307530000044
种排列方式的乱序程度分数的最大值,按照所述最大值对应的排列方式对所述K个语块进行排列。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述语块重组题型的自动命题的方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述语块重组题型的自动命题的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,先对待切分语句进行分词,得到多个切分位,然后通过词语之间的前链接概率以及后链接概率,从多个切分位选取出更合理的一部分切分位,再然后,结合合理程度以及易混淆程度,再选取出预设个数的切分位,根据该预设个数的切分位对待切分语句进行切分,最后将切分后的语块乱序输出。这样,可以在出题老师控制难度的情况下,自动生成语言教学语块重组题型的题目,出题效率高,且兼顾考虑了难易程度以及混淆程度,得到的题目难度更符合出题老师的预期,得到更合理的题目。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语块重组题型的自动命题的方法流程图;
图2是本发明实施例提供的一种语块重组题型的自动命题的方法流程图;
图3是本发明实施例提供的一种语块重组题型的自动命题的装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种语块重组题型的自动命题的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的语块重组题型的自动命题的方法流程图,该方法的处理流程可以包括如下的步骤:
步骤101、获取待切分语句以及切分块数K;
步骤102、通过预设的分词算法对待切分语句进行分词,得到待切分语句对应的M个词语,M个词语对应M-1个切分位,M-1大于K-1;
步骤103、分别计算M个词语中每两个词语之间的前链接概率以及后链接概率,计算M-1个切分位中每个切分位对应的切分合理性得分;
步骤104、将M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,N大于K-1;
步骤105、在N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合;
步骤106、根据最终切分位组合,对待切分语句进行切分,并将切分后得到的K个语块乱序输出。
可选地,分别计算M个词语中每两个词语之间的前链接概率以及后链接概率,包括:
获取考试语言能力相关的大数据;
基于大数据,统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i),得到词语之间的前链接概率对照表以及后链接概率对照表;
根据前链接概率对照表,确定M个词语中每两个词语之间的前链接概率;
根据后链接概率对照表,确定M个词语中每两个词语之间的后链接概率。
可选地,计算M-1个切分位中每个切分位对应的切分合理性得分,包括:
对于M-1个切分位中每个切分位,基于切分位对应的两个词语的前链接概率以及后链接概率,通过下述公式(1),确定切分位对应的切分合理性得分:
slot_split_score=log(1-PLeft)+log(1-PRight)……(1)
其中,slot_split_score表示切分位对应的切分合理性得分,PLeft表示切分位对应的两个词语之间的前链接概率,PRight表示切分位对应的两个词语之间的后链接概率。
可选地,在N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合,包括:
在N个切分合理性得分对应的切分位中不重复地选取K-1个切分位,得到
Figure BDA0003078307530000061
种切分位的组合;
对于
Figure BDA0003078307530000062
种切分位的组合中的每种组合,确定对应的选取合理性分数;
确定多个选取合理性分数中的最大值,将最大值对应的组合确定为最终切分位组合。
可选地,确定对应的选取合理性分数,包括:
计算组合中的所有切分位对应的切分合理性得分的和值split_score;
将组合中的所有切分位输入预设的语言模型,得到多个顺序对应的混淆评分,确定多个混淆评分中的最大值作为组合对应的混淆评分lm_score;
通过下述公式(2)计算组合对应的选取合理性分数:
score=w1*split_score+w2*lm_score……(2)
其中,score表示组合对应的选取合理性分数,w1表示预设的切分合理性得分对应的权重系数,w2表示预设的混淆评分对应的权重系数。
可选地,将切分后得到的K个语块乱序输出,包括:
将切分得到的K个语块按照顺序设置对应的序号;
将K个语块进行随机排列,得到
Figure BDA0003078307530000071
种排列方式;
对于每种排列方式,分别计算任两个相邻语块的序号差值,确定每个序号差值的绝对值减1的数值,得到K-1个数值,计算所述K-1个数值的和值作为乱序程度分数;
确定
Figure BDA0003078307530000072
种排列方式的乱序程度分数的最大值,按照所述最大值对应的排列方式对所述K个语块进行排列。
本发明实施例中,先对待切分语句进行分词,得到多个切分位,然后通过词语之间的前链接概率以及后链接概率,从多个切分位选取出更合理的一部分切分位,再然后,结合合理程度以及易混淆程度,再选取出预设个数的切分位,根据该预设个数的切分位对待切分语句进行切分,最后将切分后的语块乱序输出。这样,可以在出题老师控制难度的情况下,自动生成语言教学语块重组题型的题目,出题效率高,且兼顾考虑了难易程度以及混淆程度,得到的题目难度更符合出题老师的预期,得到更合理的题目。
本发明实施例提供了一种语块重组题型的自动命题的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的语块重组题型的自动命题的方法流程图,该方法的处理流程可以包括如下的步骤:
步骤201、获取待切分语句以及切分块数K。
一种可行的实施方式中,待切分语句是完整、正确的一句语句,将待切分语句切分成多块词语,这多块词语即为一道语言教学语块重组题型对应的题目,考生按照语法将这多块词语组合成与待切分语句相同的语句,即为回答了正确答案。
在使用本申请的方法进行自动命题时,先获取待切分语句,待切分语句的获取方式可以有多种,例如,可以是出题老师临时输入的,也可以是从某篇文章中自动截取的一句完整的话语等,本发明实施例对此不作限定。
另外,电子设备还需要获取切分块数K,切分块数用于表示将待切分语句切分后得到的词语的个数,出题老师可以通过设置切分块数K来控制题目的难度,通常来讲,切分块数越大,待切分语句切分后得到的词语越多,难度越大。
步骤202、通过预设的分词算法对待切分语句进行分词,得到待切分语句对应的M个词语。
其中,切分位为相邻的两个切分开的词语对应的切分位置,M个词语对应M-1个切分位,M-1大于K-1。
一种可行的实施方式中,分词算法可以现有技术中常用的分词算法,本发明实施例对此不做详细说明。
通过预设的分词算法对待切分语句进行分词,可以得到切分后的多个词语,这多个词语的顺序保持不变,设得到词语的个数为M个,举例来讲,待切分语句为“请在前台办理入住手续”,通过分词算法切分后得到的多个词语可能是“请、在、前台、办理、入住、手续”。通过这种分词算法切分得到的词语个数不受控,即通过这种方式得到的题目的难度不受控,因此,需要继续对得到词语进行处理。
步骤203、分别计算M个词语中每两个词语之间的前链接概率以及后链接概率。
其中,两个词语W_j与W_i之间的前链接概率PLeft(W_j|W_i)指的是,在获取的大数据中,词语W_j位于词语W_i左边、且两个词语链接出现的概率;两个词语W_j与W_i之间的后链接概率PRight(W_j|W_i)指的是,在获取的大数据中,词语W_j位于词语W_i右边、且两个词语链接出现的概率。
一种可行的实施方式中,可以预先获取考试语言能力相关的大数据,然后,基于获取的大数据,统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i),得到词语之间的前链接概率对照表以及后链接概率对照表。
然后,在前链接概率对照表中,查找M个词语中每两个词语之间的前链接概率,在后链接概率对照表中查找M个词语中每两个词语之间的后链接概率。
步骤204、计算M-1个切分位中每个切分位对应的切分合理性得分。
一种可行的实施方式中,计算切分位对应的切分合理性得分可以采用下述方式:
对于M-1个切分位中每个切分位,基于切分位对应的两个词语的前链接概率以及后链接概率,通过下述公式(1),确定切分位对应的切分合理性得分:
slot_split_score=log(1-PLeft)+log(1-PRight)……(1)
其中,slot_split_score表示切分位对应的切分合理性得分,PLeft表示切分位对应的两个词语之间的前链接概率,PRight表示切分位对应的两个词语之间的后链接概率。
需要说明的是,两个词语的前链接概率和后链接概率表示两个词语相连接的普遍程度,概率大说明两个词语在一起出现的概率大,进而说明,考生在答题时将这两个词语组合在一起的难度小,进而说明,这道题目的难度小,因此,为了适当提升题目的难度,尽量不在链接概率大的两个词语之间切分,切分合理性得分就是用来描述在此处切分生成的题目的难度。由上述公式(1)可以看出,链接概率越大,对应的切分合理性得分越低。
步骤205、将M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位。
其中,N大于K-1。
一种可行的实施方式中,在得出多个切分合理性得分后,为了排除掉切分不合理的切分位,可以将切分合理性得分按照从大到小的顺序降序排列,选取分数大的前N个切分合理性得分对应的切分位。
步骤206、在N个切分合理性得分对应的切分位中不重复地选取K-1个切分位,得到
Figure BDA0003078307530000091
种切分位的组合。
步骤207、计算每个组合中的所有切分位对应的切分合理性得分的和值split_score。
步骤208、将每个组合中的所有切分位对应的词语输入预设的语言模型,得到多个顺序对应的混淆评分,确定多个混淆评分中的最大值作为该组合对应的混淆评分lm_score。
一种可行的实施方式中,为了进一步适当地提高题目的难度,可以将每个组合中的所有切分位对应的词语输入预设的语言模型,该预设的语言模型可以是现有技术中常用的语言模型,该语言模型可以输出多个词语排成正确语句的混淆程度,选取最大值作为该组合对应的混淆评分。
步骤209、通过切分合理性得分的和值以及组合对应的混淆评分,计算每个组合对应的选取合理性分数。
通过下述公式(2)计算组合对应的选取合理性分数:
score=w1*split_socre+w2*lm_socre……(2)
其中,score表示组合对应的选取合理性分数,w1表示预设的切分合理性得分对应的权重系数,w2表示预设的混淆评分对应的权重系数。
需要说明的是,通过上述公式(2)可以看出,在混淆评分相同的情况下,切分合理性得分越高,其组合对应的选取合理性分数越高,在切分合理性得分相同的情况下,混淆评分越高,其组合对应的选取合理性分数越高。
步骤210、确定多个组合对应的多个选取合理性分数中的最大值,将最大值对应的组合确定为最终切分位组合。
一种可行的实施方式中,为了适当地提升题目难度,可以在多个选取合理性分数中选取最大值,将最大值对应的组合确定为最终切分位组合,这样,兼顾地保证了所出的题目不易组合且比较易混淆。
步骤211、根据最终切分位组合,对待切分语句进行切分,并将切分后得到的K个语块乱序输出。
一种可行的实施方式中,为了进一步提升题目的难度,可以将切分后得到的K个语块乱序输出,具体地,将切分得到的K个语块按照顺序设置对应的序号,将K个语块进行随机排列,得到
Figure BDA0003078307530000101
种排列方式,对于每种排列方式,分别计算任两个相邻语块的序号差值,确定每个序号差值的绝对值减1的数值,得到K-1个数值,计算K-1个数值的和值作为乱序程度分数,确定
Figure BDA0003078307530000102
种排列方式的乱序程度分数的最大值,按照最大值对应的排列方式对K个语块进行排列。这样可以保证题目中的多个语块的排列顺序尽量与语块在待切分语句中的顺序不相同,适当地提高题目难度。
举例来说,设K个语块分别是C1、C2、C3、C4、C5,此时K=5,则这5个语块打乱后有
Figure BDA0003078307530000103
种排列方式,选取其中一种排列方式为C2、C4、C3、C1、C5进行说明,结果如下表1所示。
表1
Figure BDA0003078307530000104
本发明实施例中,先对待切分语句进行分词,得到多个切分位,然后通过词语之间的前链接概率以及后链接概率,从多个切分位选取出更合理的一部分切分位,再然后,结合合理程度以及易混淆程度,再选取出预设个数的切分位,根据该预设个数的切分位对待切分语句进行切分,最后将切分后的语块乱序输出。这样,可以在出题老师控制难度的情况下,自动生成语言教学语块重组题型的题目,出题效率高,且兼顾考虑了难易程度以及混淆程度,得到的题目难度更符合出题老师的预期,得到更合理的题目。
图3是根据一示例性实施例示出的一种语块重组题型的自动命题的装置框图。参照图3,该装置包括:
获取单元310,用于获取待切分语句以及切分块数K;
分词单元320,用于通过预设的分词算法对所述待切分语句进行分词,得到所述待切分语句对应的M个词语,所述M个词语对应M-1个切分位,所述M-1大于所述K-1;
计算单元330,用于分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率,计算所述M-1个切分位中每个切分位对应的切分合理性得分;
选取单元340,用于将所述M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,所述N大于所述K-1;
所述选取单元340,用于在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合;
输出单元350,用于根据所述最终切分位组合,对所述待切分语句进行切分,并将切分后得到的K个语块乱序输出。
可选地,所述计算单元330,进一步用于:
获取考试语言能力相关的大数据;
基于所述大数据,统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i),得到词语之间的前链接概率对照表以及后链接概率对照表;
根据所述前链接概率对照表,确定所述M个词语中每两个词语之间的前链接概率;
根据所述后链接概率对照表,确定所述M个词语中每两个词语之间的后链接概率。
可选地,所述计算单元330,进一步用于:
对于所述M-1个切分位中每个切分位,基于切分位对应的两个词语的前链接概率以及后链接概率,通过下述公式(1),确定切分位对应的切分合理性得分:
slot_split_score=log(1-PLeft)+log(1-PRight)……(1)
其中,slot_split_score表示切分位对应的切分合理性得分,PLeft表示切分位对应的两个词语之间的前链接概率,PRight表示切分位对应的两个词语之间的后链接概率。
可选地,所述选取单元340,进一步用于:
在所述N个切分合理性得分对应的切分位中不重复地选取K-1个切分位,得到
Figure BDA0003078307530000121
种切分位的组合;
对于
Figure BDA0003078307530000122
种切分位的组合中的每种组合,确定对应的选取合理性分数;
确定多个选取合理性分数中的最大值,将所述最大值对应的组合确定为最终切分位组合。
可选地,所述选取单元340,进一步用于:
计算组合中的所有切分位对应的切分合理性得分的和值split_score;
将组合中的所有切分位输入预设的语言模型,得到多个顺序对应的混淆评分,确定多个混淆评分中的最大值作为组合对应的混淆评分lm_score;
通过下述公式(2)计算组合对应的选取合理性分数:
score=w1*split_score+w2*lm_score……(2)
其中,score表示组合对应的选取合理性分数,w1表示预设的切分合理性得分对应的权重系数,w2表示预设的混淆评分对应的权重系数。
可选地,所述输出单元350,进一步用于:
将切分得到的K个语块按照顺序设置对应的序号;
将K个语块进行随机排列,得到
Figure BDA0003078307530000123
种排列方式;
对于每种排列方式,分别计算任两个相邻语块的序号差值,确定每个序号差值的绝对值减1的数值,得到K-1个数值,计算K-1个数值的和值作为乱序程度分数;
确定
Figure BDA0003078307530000124
种排列方式的乱序程度分数的最大值,按照所述最大值对应的排列方式对K个语块进行排列。
本发明实施例中,先对待切分语句进行分词,得到多个切分位,然后通过词语之间的前链接概率以及后链接概率,从多个切分位选取出更合理的一部分切分位,再然后,结合合理程度以及易混淆程度,再选取出预设个数的切分位,根据该预设个数的切分位对待切分语句进行切分,最后将切分后的语块乱序输出。这样,可以在出题老师控制难度的情况下,自动生成语言教学语块重组题型的题目,出题效率高,且兼顾考虑了难易程度以及混淆程度,得到的题目难度更符合出题老师的预期,得到更合理的题目。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现下述语块重组题型的自动命题的方法的步骤:
获取待切分语句以及切分块数K;
通过预设的分词算法对待切分语句进行分词,得到待切分语句对应的M个词语,M个词语对应M-1个切分位,M-1大于K-1;
分别计算M个词语中每两个词语之间的前链接概率以及后链接概率,计算M-1个切分位中每个切分位对应的切分合理性得分;
将M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,N大于K-1;
在N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合;
根据最终切分位组合,对待切分语句进行切分,并将切分后得到的K个语块乱序输出。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述语块重组题型的自动命题的方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种语块重组题型的自动命题的方法,其特征在于,所述方法包括:
获取待切分语句以及切分块数K;
通过预设的分词算法对所述待切分语句进行分词,得到所述待切分语句对应的M个词语,所述M个词语对应M-1个切分位,所述M-1大于所述K-1;
分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率,计算所述M-1个切分位中每个切分位对应的切分合理性得分;
将所述M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,所述N大于所述K-1;
在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合;
根据所述最终切分位组合,对所述待切分语句进行切分,并将切分后得到的K个语块乱序输出;
其中,所述计算所述M-1个切分位中每个切分位对应的切分合理性得分,包括:
对于所述M-1个切分位中每个切分位,基于切分位对应的两个词语的前链接概率以及后链接概率,通过下述公式(1),确定切分位对应的切分合理性得分:
slot_split_score=log(1-PLeft)+log(1-PRight)……(1)
其中,slot_split_score表示切分位对应的切分合理性得分,PLeft表示切分位对应的两个词语之间的前链接概率,PRight表示切分位对应的两个词语之间的后链接概率;
其中,所述在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合,包括:
在所述N个切分合理性得分对应的切分位的词语中不重复地选取K-1个切分位,得到
Figure FDA0003359545690000011
种切分位的组合;
对于
Figure FDA0003359545690000012
种切分位的组合中的每种组合,确定对应的选取合理性分数;
确定多个选取合理性分数中的最大值,将所述最大值对应的组合确定为最终切分位组合;
其中,所述确定对应的选取合理性分数,包括:
计算组合中的所有切分位对应的切分合理性得分的和值split_score;
将组合中的所有切分位输入预设的语言模型,得到多个顺序对应的混淆评分,确定多个混淆评分中的最大值作为组合对应的混淆评分lm_score;
通过下述公式(2)计算组合对应的选取合理性分数:
score=w1*split_score+w2*lm_socre……(2)
其中,score表示组合对应的选取合理性分数,w1表示预设的切分合理性得分对应的权重系数,w2表示预设的混淆评分对应的权重系数。
2.根据权利要求1所述的方法,其特征在于,所述分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率,包括:
获取考试语言能力相关的大数据;
基于所述大数据,统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i),得到词语之间的前链接概率对照表以及后链接概率对照表;
根据所述前链接概率对照表,确定所述M个词语中每两个词语之间的前链接概率;
根据所述后链接概率对照表,确定所述M个词语中每两个词语之间的后链接概率。
3.根据权利要求1所述的方法,其特征在于,所述将切分后得到的K个语块乱序输出,包括:
将切分得到的K个语块按照顺序设置对应的序号;
将K个语块进行随机排列,得到
Figure FDA0003359545690000021
种排列方式;
对于每种排列方式,分别计算任两个相邻语块的序号差值,确定每个序号差值的绝对值减1的数值,得到K-1个数值,计算所述K-1个数值的和值作为乱序程度分数;
确定
Figure FDA0003359545690000022
种排列方式的乱序程度分数的最大值,按照所述最大值对应的排列方式对所述K个语块进行排列。
4.一种语块重组题型的自动命题的装置,其特征在于,所述装置包括:
获取单元,用于获取待切分语句以及切分块数K;
分词单元,用于通过预设的分词算法对所述待切分语句进行分词,得到所述待切分语句对应的M个词语,所述M个词语对应M-1个切分位,所述M-1大于所述K-1;
计算单元,用于分别计算所述M个词语中每两个词语之间的前链接概率以及后链接概率,计算所述M-1个切分位中每个切分位对应的切分合理性得分;
选取单元,用于将所述M-1个切分位分别对应的切分合理性得分进行降序排列,选取前N个切分合理性得分对应的切分位,其中,所述N大于所述K-1;
所述选取单元,用于在所述N个切分合理性得分对应的切分位中选取K-1个切分位作为最终切分位组合;
输出单元,用于根据所述最终切分位组合,对所述待切分语句进行切分,并将切分后得到的K个语块乱序输出;
其中,所述计算单元,进一步用于:
对于所述M-1个切分位中每个切分位,基于切分位对应的两个词语的前链接概率以及后链接概率,通过下述公式(1),确定切分位对应的切分合理性得分:
slot_split_score=log(1-PLeft)+log(1-PRight)……(1)
其中,slot_split_score表示切分位对应的切分合理性得分,PLeft表示切分位对应的两个词语之间的前链接概率,PRight表示切分位对应的两个词语之间的后链接概率;
其中,所述选取单元,进一步用于:
在所述N个切分合理性得分对应的切分位中不重复地选取K-1个切分位,得到
Figure FDA0003359545690000031
种切分位的组合;
对于
Figure FDA0003359545690000032
种切分位的组合中的每种组合,确定对应的选取合理性分数;
确定多个选取合理性分数中的最大值,将所述最大值对应的组合确定为最终切分位组合;
其中,所述选取单元,进一步用于:
计算组合中的所有切分位对应的切分合理性得分的和值split_score;
将组合中的所有切分位输入预设的语言模型,得到多个顺序对应的混淆评分,确定多个混淆评分中的最大值作为组合对应的混淆评分lm_score;
通过下述公式(2)计算组合对应的选取合理性分数:
score=w1*split_score+w2*lm_socre……(2)
其中,score表示组合对应的选取合理性分数,w1表示预设的切分合理性得分对应的权重系数,w2表示预设的混淆评分对应的权重系数。
5.根据权利要求4所述的装置,其特征在于,所述计算单元,进一步用于:
获取考试语言能力相关的大数据;
基于所述大数据,统计两个词语之间的前链接概率PLeft(W_j|W_i)以及后链接概率PRight(W_j|W_i),得到词语之间的前链接概率对照表以及后链接概率对照表;
根据所述前链接概率对照表,确定所述M个词语中每两个词语之间的前链接概率;
根据所述后链接概率对照表,确定所述M个词语中每两个词语之间的后链接概率。
CN202110559261.7A 2021-05-21 2021-05-21 一种语块重组题型的自动命题的方法及装置 Active CN113361238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110559261.7A CN113361238B (zh) 2021-05-21 2021-05-21 一种语块重组题型的自动命题的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110559261.7A CN113361238B (zh) 2021-05-21 2021-05-21 一种语块重组题型的自动命题的方法及装置

Publications (2)

Publication Number Publication Date
CN113361238A CN113361238A (zh) 2021-09-07
CN113361238B true CN113361238B (zh) 2022-02-11

Family

ID=77527131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110559261.7A Active CN113361238B (zh) 2021-05-21 2021-05-21 一种语块重组题型的自动命题的方法及装置

Country Status (1)

Country Link
CN (1) CN113361238B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417838B (zh) * 2022-04-01 2022-06-21 北京语言大学 基于transformer模型提取同义语块对的方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN107133209A (zh) * 2017-03-29 2017-09-05 北京百度网讯科技有限公司 基于人工智能的评论生成方法及装置、设备与可读介质
CN107992570A (zh) * 2017-11-29 2018-05-04 北京小度信息科技有限公司 字符串挖掘方法、装置、电子设备及计算机可读存储介质
CN108109452A (zh) * 2017-12-26 2018-06-01 长沙市慧而乐科技有限公司 一种互动教学中的即时出题方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN110232180A (zh) * 2019-06-06 2019-09-13 北京师范大学 一种面向古诗词测评的自动命题方法和系统
CN110738048A (zh) * 2019-09-30 2020-01-31 平安直通咨询有限公司上海分公司 一种关键词提取方法、装置及终端设备
CN110909165A (zh) * 2019-11-25 2020-03-24 杭州网易再顾科技有限公司 数据处理方法、装置、介质及电子设备
CN111126389A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 文本检测方法、装置、电子设备以及存储介质
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN111897917A (zh) * 2020-07-28 2020-11-06 嘉兴运达智能设备有限公司 基于多模态自然语言特征的轨道交通行业术语提取方法
CN112597771A (zh) * 2020-12-29 2021-04-02 重庆邮电大学 基于前缀树合并的中文文本纠错方法
CN112686023A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 文本数据处理方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516232B (zh) * 2019-07-22 2021-06-22 北京师范大学 一种用于汉语评测的自动命题方法和系统
CN110427621B (zh) * 2019-07-23 2020-11-20 北京语言大学 一种汉语分类词语提取方法及系统
CN111400506B (zh) * 2020-03-13 2022-07-08 思必驰科技股份有限公司 古诗词命题方法及系统
CN112232055B (zh) * 2020-10-28 2023-05-02 中国电子科技集团公司第二十八研究所 一种基于拼音相似度与语言模型的文本检测与纠正方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN105488196A (zh) * 2015-12-07 2016-04-13 中国人民大学 一种基于互联语料的热门话题自动挖掘系统
CN107133209A (zh) * 2017-03-29 2017-09-05 北京百度网讯科技有限公司 基于人工智能的评论生成方法及装置、设备与可读介质
CN107992570A (zh) * 2017-11-29 2018-05-04 北京小度信息科技有限公司 字符串挖掘方法、装置、电子设备及计算机可读存储介质
CN108109452A (zh) * 2017-12-26 2018-06-01 长沙市慧而乐科技有限公司 一种互动教学中的即时出题方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN110210029A (zh) * 2019-05-30 2019-09-06 浙江远传信息技术股份有限公司 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN110232180A (zh) * 2019-06-06 2019-09-13 北京师范大学 一种面向古诗词测评的自动命题方法和系统
CN110738048A (zh) * 2019-09-30 2020-01-31 平安直通咨询有限公司上海分公司 一种关键词提取方法、装置及终端设备
CN110909165A (zh) * 2019-11-25 2020-03-24 杭州网易再顾科技有限公司 数据处理方法、装置、介质及电子设备
CN111126389A (zh) * 2019-12-20 2020-05-08 腾讯科技(深圳)有限公司 文本检测方法、装置、电子设备以及存储介质
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN111897917A (zh) * 2020-07-28 2020-11-06 嘉兴运达智能设备有限公司 基于多模态自然语言特征的轨道交通行业术语提取方法
CN112597771A (zh) * 2020-12-29 2021-04-02 重庆邮电大学 基于前缀树合并的中文文本纠错方法
CN112686023A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 文本数据处理方法、装置、电子设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Concept-based speech-to-speech translation using maximum entropy models for statistical natural concept generation;Liang Gu等;《IEEE Transactions on Audio, Speech, and Language Processing》;20061201;第14卷(第02期);377-392 *
一种基于聚类的微博关键词提取方法的研究与实现;孙兴东等;《信息网络安全》;20141210;27-31 *
基于 LDA 的一体化智能评分系统设计与实现;曹捷等;《电脑编程技巧与维护》;20200418;119-121 *
智能疾病导诊及医疗问答方法研究与应用;李超;《万方数据》;20161114;1-77 *
汉语词汇测试自动命题研究;胡韧奋;《中文信息学报》;20170115;第31卷(第1期);摘要,正文第3.1、4.3、5节 *

Also Published As

Publication number Publication date
CN113361238A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113962315B (zh) 模型预训练方法、装置、设备、存储介质以及程序产品
DE202017105835U1 (de) Neuronale Maschinenübersetzungssysteme
CN108287820B (zh) 一种文本表示的生成方法及装置
CN111177359A (zh) 多轮对话方法和装置
US20210216854A1 (en) Neural network searching method, device and storage medium
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JPH10187754A (ja) ドキュメント分類装置及び方法
CN113361238B (zh) 一种语块重组题型的自动命题的方法及装置
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN109658931B (zh) 语音交互方法、装置、计算机设备及存储介质
US20240028893A1 (en) Generating neural network outputs using insertion commands
CN110348539B (zh) 短文本相关性判别方法
CN110738056A (zh) 用于生成信息的方法和装置
CN113743090A (zh) 一种关键词提取方法及装置
CN117371428A (zh) 基于大语言模型的文本处理方法与装置
CN110413750A (zh) 根据用户问句召回标准问句的方法和装置
GB2622755A (en) Evaluating output sequences using an auto-regressive language model neural network
CN110929085A (zh) 基于元语义分解的电力客服留言生成模型样本处理系统及方法
CN111488448A (zh) 一种机器阅读标注数据的生成方法和装置
CN111581329A (zh) 基于倒排索引的短文本匹配方法及装置
CN110688472A (zh) 一种自动筛选问题答案的方法、终端设备及存储介质
CN108763476A (zh) 一种基于词性权重计算的问答数据清洗系统
CN115188381B (zh) 基于点击排序的语音识别结果优化方法及装置
CN113591492B (zh) 语料生成方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant