CN111369063A

CN111369063A - 组卷模型训练方法、组卷方法及相关装置

Info

Publication number: CN111369063A
Application number: CN202010153410.5A
Authority: CN
Inventors: 何明; 付国为
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-03
Anticipated expiration: 2040-03-06
Also published as: CN111369063B

Abstract

本发明实施例提供了一种组卷模型训练方法，组卷方法及相关装置，组卷模型训练方法包括：获取第一样本试卷数据集和第二样本试卷数据集，其中，第一样本试卷数据集是利用试卷生成模型根据多个训练组卷参数获得的试卷数据的集合，第二样本试卷数据集为教师基于多个训练组卷参数得到的试卷数据的集合；将第一样本试卷数据集以及第二样本试卷数据集中的试卷数据进行融合，得到融合试卷数据集；构建组卷模型，并利用训练组卷参数、第一样本试卷数据集以及融合试卷数据集对组卷模型进行训练。该组卷模型能够为生成优质的且满足用户自身需求的试卷提供基础，在后续采用该组卷模型组卷时，针对性地生成符合其要求的试卷，提高用户使用体验和教学效果。

Description

组卷模型训练方法、组卷方法及相关装置

技术领域

本发明实施例涉及计算机领域，尤其涉及一种组卷模型训练方法、组卷方法及相关装置。

背景技术

在教育领域中，考试是整个教学过程中的重要环节，它是对学生所学知识及能力的一种评价，也是衡量教师教学效果优劣的一种教育测量手段。

然而，现有的智能组卷算法都是采用一个机器学习方法(如遗传算法、粒子群算法等)，基于给定的组卷参数生成一套试卷，但所生成的试卷难以很好地满足用户的实际需求。

因此，如何为生成优质的且满足用户自身需求的试卷提供基础，进而使得最终生成的试卷满足用户自身需求，成为亟需解决的技术问题。

发明内容

有鉴于此，本发明实施例提供一种组卷模型训练方法、组卷方法及相关装置，为生成优质的且满足用户自身需求的试卷提供基础，进而使得最终生成的试卷满足用户自身需求。

为实现上述目的，本发明实施例提供如下技术方案：

为解决前述问题，本发明实施例提供一种组卷模型训练方法，包括：

获取第一样本试卷数据集和第二样本试卷数据集，其中，所述第一样本试卷数据集是利用试卷生成模型根据多个训练组卷参数获得的试卷数据的集合，所述第二样本试卷数据集为教师基于多个所述训练组卷参数得到的试卷数据的集合；

将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合，得到融合试卷数据集；

构建组卷模型，并利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对所述组卷模型进行训练。

为解决前述问题，本发明实施例还提供一种组卷方法，包括：

获取目标组卷参数以及与所述目标组卷参数对应的第一试卷；

根据所述目标组卷参数和所述第一试卷，利用所述组卷模型，得到目标试卷数据。

为解决前述问题，本发明实施例还提供一种组卷模型训练装置，包括：

样本试卷数据获取单元，适于获取第一样本试卷数据集和第二样本试卷数据集，其中，所述第一样本试卷数据集是利用试卷生成模型根据多个训练组卷参数获得的试卷数据的集合，所述第二样本试卷数据集为教师基于多个所述训练组卷参数得到的试卷数据的集合；

融合试卷数据获取单元，适于将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合，得到融合试卷数据集；

训练单元，适于构建组卷模型，并利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对所述组卷模型进行训练。

为解决前述问题，本发明实施例还提供一种组卷装置，包括：

第一试卷获取单元，适于获取目标组卷参数以及与所述目标组卷参数对应的第一试卷；

目标试卷数据获取单元，适于根据所述目标组卷参数和所述第一试卷，利用前述的组卷模型训练方法训练的组卷模型，得到目标试卷数据。

为解决前述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行上述的组卷模型训练方法或者上述的组卷方法。

为解决前述问题，本发明实施例还提供一种存储介质，存储有适于组卷的程序，以实现上述的组卷模型训练方法或者上述的组卷方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的组卷模型训练方法，首先获取第一样本试卷数据集和第二样本试卷数据集，然后将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合，得到融合试卷数据集；再利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对构建的组卷模型进行训练，得到训练后的组卷模型。由于融合试卷数据集是将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合而得到的，从而在对组卷模型进行训练时，组卷模型所生成的预测融合试卷能够结合第一样本试卷数据集的第一样本试卷和第二样本试卷数据集中的第二样本试卷，为生成优质的且满足用户自身需求的试卷提供基础，在后续采用该组卷模型进行组卷时，使得最终生成的组卷数据相当于既考虑了基于算法的第一样本试卷数据集，又结合了基于教师组卷经验的第二样本试卷数据集，可以提高组卷的灵活性和精确性，能够基于用户的实际需求，针对性地生成符合其要求的试卷，提高用户使用体验和教学效果。

可选方案中，本发明实施例所提供的组卷模型训练方法，首先利用所述组卷模型根据每个所述训练组卷参数和所述第一样本试卷数据集中的与所述训练组卷参数相对应的第一样本试卷获取预测融合试卷，再根据所述预测融合试卷和所述融合试卷数据集中与所述训练组卷参数相对应的融合试卷获取组卷损失，之后再根据所述组卷损失调整所述组卷模型的参数，直至所述组卷损失满足损失阈值或所述参数的调整次数达到预定次数，得到训练后的组卷模型，由于融合试卷是结合第一样本试卷和第二样本试卷而得到的，并且组卷损失是根据预测融合试卷和所述融合试卷获取，从而在对组卷模型进行参数调整时，会使调整后的组卷模型所生成的预测融合试卷越来越接近融合试卷数据，即组卷模型所生成的预测融合试卷结合了第一样本试卷和第二样本试卷的组卷数据，从而为生成优质的且满足用户自身需求的试卷提供基础。

附图说明

图1是本发明实施例所提供的组卷模型训练方法的一流程示意图；

图2为本发明实施例提供的组卷模型训练方法的获取融合试卷数据集的流程图；

图3是本发明实施例所提供的组卷模型训练方法的另一流程示意图；

图4是本发明实施例所提供的组卷方法的流程示意图；

图5是本发明实施例所提供的组卷方法的另一流程示意图；

图6是本发明实施例提供的组卷模型训练装置的一种可选框图；

图7是本发明实施例提供的组卷装置的一种可选框图；

图8为本发明实施例提供的设备的硬件结构图。

具体实施方式

现有技术中,在进行组卷时，难以生成能够准确匹配用户实际使用需求的优质试卷。

经分析，现有智能组卷算法，一方面，是采用机器学习方法(如遗传算法、粒子群算法等)基于给定的组卷参数生成一套试卷；另一方面，试卷生成过程不够智能，难以生成能够准确匹配用户实际使用需求的优质试卷。这是由于现有的试卷生成算法都缺乏一个推敲的过程，而推敲这一过程在用户的实际组卷中是非常重要和关键的，主要在于推敲这一过程可以帮助用户更好地从人类的教学经验中对试卷进行完善和优化，从而保证了最终所组试卷的准确性和针对性。

为了生成优质的且满足用户自身需求的试卷提供基础，进而使得最终生成的试卷满足用户自身需求，本发明实施例提供了一种组卷模型训练方法，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为一种可选实现，图1示出了本发明实施例所提供的组卷模型训练方法的一流程示意图。参照图1，该流程可以包括：

步骤S10：获取第一样本试卷数据集和第二样本试卷数据集。

第一样本试卷数据集是利用试卷生成模型根据多个训练组卷参数获得的试卷数据的集合。试卷生成模型是基于给定的由算法所生成的试卷数据训练而得的，该试卷生成模型能够基于一组试卷输入参数，从纯算法的角度生成一套试卷。

第一样本试卷数据集可以记为D₁＝(d₁₁，d₁₂，...，d_1n)。其中，d_1n＝(c_1n，tp_1n)表示利用试卷生成模型基于一训练组卷参数C_1n的第n次组卷。

c_1n表示训练组卷参数，训练组卷参数可以包括以下至少一个子参数：知识点试题比例向量，难度比例向量，题型分布向量，分值分布向量。知识点试题比例向量指的是在各个知识点上的试题比例；难度比例向量指的是在各个难度上的试题比例；题型分布向量指的是在各个题型上的试题比例；分值分布向量指的是在各分值上的试题比例。

知识点试题比例向量可以用kno_n＝(kno_n，1，kno_n，2，…，kno_n，K)表示，其中，kno_n，K表示第K个知识点在整个试卷中涵盖该知识点的试题比例，取值范围为0到1之间；难度比例向量可以用dif_n＝(dif_n，1，dif_n，2，...，dif_n，N)表示，其中，dif_n，N表示难度等级为N的试题在整个试卷中所占的比例。例如，dif_n＝(dif_n，1，dif_n，2，…，dif_n，10)，表示总共将难度分成10个级别，值越大，难度越高，而dif_n，10表示的是难度为10的试题在整个试卷中所占的比例，其他的依次类推，当然具体难度等级的数量可以根据需要确定；题型分布向量可以用type_n＝(type_n，1，type_n，2，...，type_n，t)表示，而type_n，t表示题型为t的题目在本次组卷中所要求的数量；分值分布向量可以用score_n＝(score_n，1，score_n，2，...，score_n，s)表示，其中score_n，s表示分值为s的题目在本次组卷中所占的试题比例，如分值为5的题目所占的比例为20％，分值为10的题目所占的比例为5％等。

当然，每次组卷主要基于这四个维度的组卷参数，若有其他维度类型的组卷参数可以进行扩展，本发明实施例构建的组卷模型训练方法灵活性较大，不局限于这四个维度，并且在一个组卷中，可以根据需要确定具体组卷参数的维度类型。

需要说明的是，训练组卷参数的子参数类型应与后续需要利用训练后的组卷模型进行组卷的组卷参数的子参数类型相同，比如：训练组卷参数包括知识点试题比例向量，难度比例向量，题型分布向量，分值分布向量四个维度，利用训练后的组卷模型进行组卷的组卷参数也包括知识点试题比例向量，难度比例向量，题型分布向量，分值分布向量四个维度；训练组卷参数包括知识点试题比例向量，难度比例向量，题型分布向量三个维度，利用训练后的组卷模型进行组卷的组卷参数也包括知识点试题比例向量，难度比例向量，题型分布向量三个维度。

接下来，介绍利用试卷生成模型基于训练组卷参数c_1n生成第n次试卷tp_1n的过程。tp_1n是指利用给定的训练组卷参数通过试卷生成模型所生成的第一样本试卷，tp_1n是基于训练组卷参数c_1n生成的一试卷中试题ID的集合。比如，当训练组卷参数是C_1n时，c_1n含有知识点试题比例向量kno_1n＝(kno_1n，1，kno_1n，2，...，kno_1n，K)、难度比例向量dif_1n＝(dif_1n，1，dif_1n，2，...，dif_1n，N)、题型分布向量type_1n＝(type_1n，1，type_1n，2，...，type_1n，t)、分值分布向量score_1n＝(score_1n，1，score_1n，2，...，score_1n，s)中的至少一个，基于c_1n可以得到第一样本试卷tp_1n，举例而言，tp_1n＝(1，8，30，75，118，203，236，290，300，900)，表示符合组卷参数的题目集合为试题1、试题8、试题30、试题75、试题118、试题203、试题236、试题290、试题300、试题900这10道题。当然，此处仅以10道题进行举例说明，在其他实施例中，试题数量不限。当然，根据需要向试卷生成模型中输入不同的训练组卷参数，能够生成大量的第一样本试卷。

第二样本试卷数据集为教师基于多个所述训练组卷参数得到的试卷数据的集合。第二样本试卷数据集可以记为D₂＝(d₂₁，d₂₂，...，d_2n)。其中，d_2n＝(c_2n，tp_2n)表示教师基于一训练组卷参数c_2n得到的第n次组卷。当训练组卷参数是c_2n时，c_2n也可以含有知识点试题比例向量kno_2n＝(kno_2n，1，kno_2n，2，...，kno_2n，K)、难度比例向量dif_2n＝(dif_2n，1，dif_2n，2，...，dif_2n，10)、题型分布向量type_2n＝(type_2n，1，type_2n，2，...，type_2n，t)、分值分布向量score_2n＝(score_2n，1，score_2n，2，...，score_2n，s)中的至少一个，基于c_2n可以得到第二样本试卷tp_2n。与第一样本试卷所不同的是，这里tp_2n并非采用试卷生成模型基于训练组卷参数c_2n来生成，而是直接由教师基于训练组卷参数c_2n以自身的教学经验来生成的第二样本试卷。绝大多数时候，输入同一组训练组卷参数C_2n时，基于试卷生成模型所组的试卷tp_1n和基于教师所组的试卷tp_2n会存在较大的不同，因为基于试卷生成模型所组的试卷tp_1n主要用到的是算法，而基于教师经验所组的试卷tp_2n主要用到的是教师自身的教学经验，两者的侧重点会有所不同。另外，基于教师经验的第二样本试卷来源较多，一方面直接对平时教师的组卷数据进行记录，另一方面可以给定一些特定的组卷参数定向邀请教师进行针对性组卷以生成大量的第二样本试卷，还可以对历年的期中、期末等试卷数据进行整理，采用这些各种各样的方式后，对试卷数据进行整理，可获得大量的基于教师经验的第二样本试卷。

步骤S20：将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合，得到融合试卷数据集。

结合第一样本试卷数据集D₁＝(d₁₁，d₁₂，...，d_1n)和第二样本试卷数据集D₂＝(d₂₁，d₂₂，...，d_2n)，将相同训练组卷参数的试卷进行融合，形成融合试卷数据集D₃＝(d₃₁，d₃₂，...，d_3n)。融合试卷数据集D₃为大量融合试卷的集合。其中，d_3n＝(c_3n，tp′_1n，tp′_2n)，tp′_1n表示训练组卷参数为c_3n时基于试卷生成模型的第一样本试卷，tp′_2n表示训练组卷参数为c_3n时基于教师经验的第二样本试卷。

请参考图2，图2是本发明实施例所提供的组卷模型训练方法的获取融合试卷数据集的流程图。

如图2所示，为了获取融合试卷数据集，在一种具体实施例中，针对所述第一样本试卷数据集D₁中的每个第一样本试卷，执行：

步骤S201：根据所述第一样本试卷对应的训练组卷参数，从所述第二样本试卷数据集中获取与所述训练组卷参数匹配的第二样本试卷。

容易理解的是，进行融合的第一样本试卷和第二样本试卷的训练组卷参数相同，以保证后续生成的融合试卷满足组卷参数要求。

步骤S202：从所述第二样本试卷中选择第一预设比例的试题替换所述第一样本试卷中第一预设比例的试题，得到第一融合试卷。

需要说明的是，从所述第二样本试卷中选择的所述第一预设比例的试题的试题参数与从所述第一样本试卷中待替换的所述第一预设比例的试题的试题参数相同。

第一预设比例指的是对第一样本试卷中的试卷初稿融合第二样本试卷进行改动的程度。通过确定第一预设比例，对试卷初稿进行特定优化比例的完善和打磨，实现既考虑基于算法的第一样本试卷，又结合了基于教师组卷经验的第二样本试卷，提高组卷的灵活性和精确性，能够基于用户的实际需求，针对性地生成符合其要求的试卷，更能提高用户使用体验和教学效果。

具体地，设定第一预设比例为S，首先从tp′_1n随机挑选出S*|tp′_1n|个试题进行删除，随后从tp′_2n中随机挑选出与删除掉的试题的试题参数(知识点、难度、分值、题型)相同的S*|tp′_2n|个试题；将挑选出的试题增加到tp′_1n得到新试题集合，记为tp_3n，此时的tp_3n即为联合了算法和教师经验的融合试卷。当基于该融合试卷对组卷模型进行训练时，能够保证最终训练的组卷模型能够以预设比例S的优化程度对第一样本试卷的试卷初稿进行推敲和完善。

需要说明的是，从所述第二样本试卷中选择的所述第一预设比例的试题的试题参数与从所述第一样本试卷中待替换的所述第一预设比例的试题的试题参数相同。例如，若教师组合试题数据的各个试题的组卷参数包含知识点、难度、分值和题型四个维度，则删除试题数据中的各个试题的知识点、难度、分值和题型与教师组合试题数据的试题的试题参数相同。

在实际组卷过程中，在对试卷初稿进行推敲优化的时候，推敲优化的程度也是不同的，有时推敲的程度较高，即将由试卷生成模型生成的试卷初稿进行改动的程度较大。而有时推敲的程度较低，即将由试卷生成模型生成的试卷初稿进行改动的程度较小，几乎不进行改动也是有可能的。基于此，为了更好地满足用户的不同的推敲需求，也为了更好地模拟实际的组卷过程，还可以针对不同的优化比例分别对组卷模型进行训练，以得到对应不同优化比例的多个组卷模型。

因此，本发明实施例所提供的组卷模型训练方法，还可以包括：

获取优化层级。优化层级可以对应一个具体的比例，前述第一预设比例就是所述优化层级对应的一个比例值。例如，优化层级1对应的比例值为1/L；优化层级2对应的比例值为2/L；依此类推，优化层级L对应的比例值为1。当然每个优化层级也可以对应至少两个不同的比例，本发明实施例不做限定。

在一种具体实施例中，组卷模型可以包括至少两个子模型，所述子模型的数量与所述优化层级的比例值的数量相等。

举例而言，有L个优化层级，若每个优化层级对应一个比例值，则组卷模型包括L个子模型；若每个子模型对应两个比例值，则组卷模型包括2L个子模型。子模型1对应的优化比例为1/L；子模型2对应的优化比例为2/L。以此类推，子模型L对应的比例为100％。需要注意的是，这里的比例指的是在试卷优化过程中，基于教师的试题占最终试卷的整体比例，子模型L意味着最终的试卷全部采用教师经验，不考虑任何的基于算法的试题。若推敲的子模型为1，意味着最终的试卷采用教师经验的题目占比为1/L。

通过训练对应不同优化比例的子模型，保证了后续可以选择符合需要的特定优化比例的子模型进行组卷，对试卷初稿进行不同程度的完善和打磨，以融合不同程度的教师经验，从而能够更好地满足用户的实际需求，也能够更好地生成相对应的试卷，既考虑了基于算法的第一样本试卷，又结合了基于教师组卷经验的第二样本试卷，可以提高用户的使用体验和试卷精度。

步骤S30：构建组卷模型，并利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对所述组卷模型进行训练。

根据前述内容可知，组卷模型可以包括单个子模型，也可以包括至少两个子模型。

构建组卷模型的子模型的过程如下：

首先构建组卷模型的子模型的输入层。输入层的神经元的维度数与训练组卷参数的子参数数量以及第一样本试卷关联，具体的，输入层的神经元的维度数是训练组卷参数的子参数数量与第一样本试卷对应的神经元维度之和，针对每个子参数对应的一个维度的神经元，其神经元个数与对应的子参数所包含的元素数量一致，如训练组卷参数c_1n含有以下四个子参数：知识点试题比例向量，难度比例向量，题型分布向量，分值分布向量。则在构建组卷模型的输入层时，同样含有四个维度的神经元：知识点试题比例神经元(具体数量与知识点数量相对应，此处知识点数量即为子参数-知识点试题比例向量所包含的元素数量，其他子参数类似)、难度比例神经元(具体数量与难度类型数量相对应)、题型比例神经元(具体数量与题型类型数量相对应)、分值分布神经元(具体数量与分值类型数量相对应)；针对第一样本试卷对应的神经元，其神经元的个数与第一样本试卷中试题数量一致，如试卷初稿神经元，试卷初稿神经元的具体数量对应第一样本试卷中的试题数量，每个神经元对应一个试题的I D编号。将上述五类神经元拼接成组卷模型的子模型的输入层。

接着构建组卷模型的子模型的隐含层。隐含层的层数和每层的神经元个数主要依据实际的训练结果进行针对性的调整，在这里不做具体限制。

最后构建组卷模型的子模型的输出层，输出层的神经元的数量与生成一套试卷的试题数量关联，具体地，输出层的神经元的数量等于融合试卷中的试题数量，所以将组卷模型的子模型的输出层固定为特定数量的输出神经元，每个神经元对应一道题目的ID，单次组卷的输出为结合了算法和教师经验的融合试卷tp_3n的试题ID的列表。

接着利用训练组卷参数、第一样本试卷数据以及融合试卷数据对构建的组卷模型的子模型进行训练。

需要说明的是，当组卷模型包括至少两个子模型时，各个子模型的训练方法请参考前述一个组卷模型的子模型的训练方法，在此不再赘述。

当完成所有子模型的训练后，即完成组卷模型的训练。

具体地，请参考图3，图3是本发明实施例的组卷模型训练方法的另一流程示意图，如图3所示，对所述组卷模型进行训练的步骤如下：

步骤S301:利用所述组卷模型根据每个所述训练组卷参数和所述第一样本试卷数据集中的与所述训练组卷参数相对应的第一样本试卷获取预测融合试卷。

除了获取融合试卷，为了实现对组卷模型的训练，还需要获取预测融合试卷，为此将所述训练组卷参数和所述第一样本试卷输入待训练的所述组卷模型，得到预测融合试卷，即：对应于每个融合试卷tp_3n，将tp_3n对应的组卷参数c_3n和tp＇_1n输入组卷模型，输出预测融合试卷。

步骤S302：根据所述预测融合试卷和所述融合试卷数据集中与所述训练组卷参数相对应的融合试卷获取组卷损失。

将融合试卷tp_3n作为组卷模型的输出基准，结合输出的预测融合试卷，获取组卷损失。

可以理解的是，组卷损失的获取可以利用损失函数进行计算获取。

步骤S303：判断所述组卷损失是否满足损失阈值或所述参数的调整次数是否达到预定次数，若是，执行步骤S304，若否，执行步骤S305。

当所述组卷损失满足损失阈值或所述参数的调整次数达到预定次数时，即满足二者中的一者时，执行步骤S304，得到训练好的所述优化比例的组卷模型；否则，即组卷损失不满足损失阈值，且所述参数的调整次数未达到预定次数时，执行步骤S305，根据所述组卷损失调整所述组卷模型的参数并调整所述调整次数加1。

具体地，损失阈值可以根据实际业务确定，例如，损失阈值可以设为0.001；当然预定次数也可以根据需要确定。

步骤S304：得到训练好的组卷模型。

当组卷损失满足损失阈值或所述参数的调整次数达到预定次数时，从而完成训练组卷参数下的组卷模型的训练，得到组卷模型。

步骤S305：根据所述组卷损失调整所述组卷模型的参数并调整所述调整次数加1，并转向执行步骤S301。

当组卷损失不满足损失阈值，且所述参数的调整次数未达到预定次数时，表明组卷模型的训练还未达到要求，需要进一步进行训练，为此，首先根据所述组卷损失调整所述组卷模型的参数，并且为实现对于调整次数的统计和判断，需要将所述调整次数加1，并继续执行步骤S301，直至完成在所述优化比例和训练组卷参数下的组卷模型的优化。

本发明实施例所提供的组卷模型训练方法，首先通过将所述训练组卷参数和所述第一样本试卷作为组卷模型的输入，获取预测融合试卷，然后按照确定的所述优化比例结合所述第一样本试卷和所述第二样本试卷获取融合试卷，再根据所述预测融合试卷和所述融合试卷获取组卷损失，之后根据所述组卷损失调整所述组卷模型的参数对组卷模型进行迭代训练，直到组卷损失满足损失阈值或所述参数的调整次数达到预定次数，得到训练后的组卷模型，由于融合试卷是结合第一样本试卷和第二样本试卷而得到的，并且组卷损失是根据预测融合试卷和所述融合试卷获取，从而在对组卷模型进行参数调整时，会使调整后的组卷模型所生成的预测融合试卷越来越接近融合试卷，即组卷模型所生成的预测融合试卷为结合了第一样本试卷和第二样本试卷的组卷数据，从而为生成优质的且满足用户自身需求的试卷提供基础，在后续采用该优化比例的组卷模型进行组卷时，使得最终生成的组卷数据相当于既考虑了基于算法的第一样本试卷，又结合了基于教师组卷经验的第二样本试卷，可以提高组卷的灵活性和精确性，能够基于用户的实际需求，针对性地生成符合其要求的试卷，提高用户使用体验和教学效果。

在本发明另一实施例中，为了实现使最终生成的试卷满足用户自身需求，还提供一种组卷方法，请参考图4，图4为本发明实施例提供的组卷方法的又一流程示意图。

如图中所示，本发明实施例所提供的组卷方法，包括：

步骤S41：获取目标组卷参数以及与所述目标组卷参数对应的第一试卷。

需要说明的是，所述目标组卷参数应与在对组卷模型进行训练时的训练组卷参数的维度一致。

在一种具体实施例中，为了更智能的生成试卷初稿，缩短试卷初稿的组卷时间，可以利用试卷生成模型根据所述训练组卷参数获取第一试卷。与所述目标组卷参数对应的第一试卷指的是利用试卷生成模型生成的试卷初稿，试卷初稿的约束参数为目标组卷参数。当然，在其他实施例中，第一试卷还能够是根据其他机器学习方法(如遗传算法，粒子群算法等)获得。

下面对试卷生成模型的构建及训练进行说明。

首先，构建试卷生成模型的输入层。输入层的神经元的维度数与训练组卷参数的子参数数量关联，具体的，每个维度的神经元个数与对应的子参数所包含的元素数量一致，如训练组卷参数含有以下四个子参数：知识点试题比例向量，难度比例向量，题型分布向量，分值分布向量。则在构建试卷生成模型的输入层时，同样含有四个维度的神经元：知识点试题比例神经元(具体数量与知识点数量相对应，此处知识点数量即为子参数-知识点试题比例向量所包含的元素数量，其他子参数类似)、难度比例神经元(具体数量与难度类型数量相对应)、题型比例神经元(具体数量与题型类型数量相对应)、分值分布神经元(具体数量与分值类型数量相对应)，将此四类神经元拼接成神经网络的输入层。基于此，构建了基于算法的试卷生成模型的输入层。

接着构建试卷生成模型的隐含层。隐含层的层数和每层的神经元个数主要依据实际的训练结果进行针对性的调整，在这里不做具体限制。

最后构建试卷生成模型的输出层，输出层的神经元的数量与生成一套试卷的试题数量关联，所以将试卷生成模型的输出层固定为特定数量的输出神经元，每个神经元对应一道题目的ID，单次组卷的输出为具体的试题ID的列表。

最后对构建好的试卷生成模型进行训练。具体训练方式为，对每个试卷数据d_1n，将d_1n中的训练组卷参数c_1n作为试卷生成模型的输入，将d_1n中的试卷数据tp_1n作为试卷生成模型的输出，对试卷生成模型进行迭代训练，直到收敛为止。收敛的判断条件主要有两种：(1)前后两次的损失函数变化小于人为给定的阈值；(2)达到给定的网络训练迭代次数。

需要说明的是，在对试卷生成模型进行训练时的训练组卷参数也应该与对组卷模型进行训练的训练组卷参数的维度保持一致。

具体地，目标组卷参数可以用c_new表示，将目标组卷参数c_new输入训练好的用于获取第一试卷的试卷生成模型，得到第一试卷

步骤S42：根据所述目标组卷参数和所述第一试卷，利用组卷模型，得到目标试卷数据。

具体地，请参考图5，在一种具体实施例中，组卷方法包括以下步骤：

步骤S401：获取目标优化层级对应的第二预设比例值。

基于本次目标组卷所期望的基于教师经验的试题占最终试卷的比例，获取目标优化层级并确定与目标优化层级相对应的待组卷的第二预设比例值，根据所述第二预设比例值确定与其对应的子模型。

步骤S402，将所述目标组卷参数和所述第一试卷输入所述组卷模型，得到组卷数据。

容易理解的是，在确定子模型后，则利用该子模型来基于目标组卷参数和第一试卷，来得到目标试卷数据。

选取与所确定的优化比例相对应的组卷模型后，将目标组卷参数c_new和第一试卷

输入对应选定第二预设比例值的组卷模型，自动生成能够融合第一样本试卷和第二样本试卷的目标试卷

实现了在保留部分算法的基础之上，融合教师组卷经验对第一试卷

进行推敲，获得结合了算法和教师经验的更为准确的目标试卷

本发明实施例所提供的组卷方法，由于采用的组卷模型所生成的预测融合试卷为结合了第一样本试卷和第二样本试卷的融合组卷数据，从而为生成优质的且满足用户自身需求的试卷提供基础，因而在后续采用该组卷模型进行组卷时，使得最终生成的组卷数据相当于既考虑了基于算法的第一样本试卷，又结合了基于教师组卷经验的第二样本试卷，可以提高组卷的灵活性和精确性，能够基于用户的实际需求，针对性地生成符合其要求的结合了算法和教师经验的更为准确、综合和智能的优质试卷终稿，提高用户使用体验和教学效果。

上文描述了本发明实施例提供的多个实施例方案，各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用，从而延伸出多种可能的实施例方案，这些均可认为是本发明实施例披露、公开的实施例方案。

下面对本发明实施例提供的组卷模型训练装置及组卷装置进行介绍，下文描述的组卷模型训练装置可以认为是，设备为实现本发明实施例提供的组卷模型训练方法所需设置的功能模块；下文描述的组卷装置可以认为是，设备为实现本发明实施例提供的组卷方法所需设置的功能模块。下文描述的装置的内容可与上文描述的方法的内容相互对应参照。

在一种可选实现中，图6示出了本发明实施例提供的组卷模型训练装置的一种可选框图，如图6所示，该组卷模型训练装置可以包括：

样本试卷数据获取单元100，适于获取第一样本试卷数据集和第二样本试卷数据集，其中，所述第一样本试卷数据集是利用试卷生成模型根据多个训练组卷参数获得的试卷数据的集合，所述第二样本试卷数据集为教师基于多个所述训练组卷参数得到的试卷数据的集合；

融合试卷数据获取单元110，适于将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合，得到融合试卷数据集；

训练单元120，适于构建组卷模型，并利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对所述组卷模型进行训练。

第二样本试卷数据集为教师基于多个所述训练组卷参数得到的试卷数据的集合。

在一种具体实施方式中，训练组卷参数可以包括知识点试题比例向量，难度比例向量，题型分布向量，分值分布向量中的至少一个子参数。

其中，知识点试题比例向量指的是在各个知识点上的试题比例；难度比例向量指的是在各个难度上的试题比例；题型分布向量指的是在各个题型上的试题比例；分值分布向量指的是在各分值上的试题比例。

在一种具体实施例中，组卷模型训练装置还包括：优化层级获取单元，适于获取优化层级；

此时，针对所述第一样本试卷数据集中的每个第一样本试卷，融合试卷数据获取单元110适于执行：

根据所述第一样本试卷对应的训练组卷参数，从所述第二样本试卷数据集中获取与所述训练组卷参数匹配的第二样本试卷；

从所述第二样本试卷中选择第一预设比例的试题替换所述第一样本试卷中第一预设比例的试题，得到第一融合试卷，其中，所述第一预设比例是所述优化层级对应的一个比例值。

容易理解的是，进行融合的第一样本试卷和第二样本试卷的组卷参数相同，以保证后续生成的融合试卷满足组卷参数要求。

在一种具体实施例中，训练单元120还适于利用所述组卷模型根据每个所述训练组卷参数和所述第一样本试卷数据集中的与所述训练组卷参数相对应的第一样本试卷获取预测融合试卷，根据所述预测融合试卷和所述融合试卷数据集中与所述训练组卷参数相对应的融合试卷获取组卷损失，根据所述组卷损失调整所述组卷模型的参数，直至所述组卷损失满足损失阈值或所述参数的调整次数达到预定次数。

本发明实施例所提供的组卷模型训练装置，在利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对构建的组卷模型进行训练时，首先获取第一样本试卷数据集和第二样本试卷数据集，然后将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合，得到融合试卷数据集；再利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对构建的组卷模型进行训练，得到训练后的组卷模型。由于融合试卷数据集是将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合而得到的，从而在对组卷模型进行训练时，组卷模型所生成的预测融合试卷能够结合第一样本试卷数据集的第一样本试卷和第二样本试卷数据集中的第二样本试卷，为生成优质的且满足用户自身需求的试卷提供基础，在后续采用该组卷模型进行组卷时，使得最终生成的组卷数据相当于既考虑了基于算法的第一样本试卷数据集，又结合了基于教师组卷经验的第二样本试卷数据集，可以提高组卷的灵活性和精确性，能够基于用户的实际需求，针对性地生成符合其要求的试卷，提高用户使用体验和教学效果。

在一种实施例中，优化层级可以对应一个具体的比例，前述第一预设比例就是所述优化层级对应的一个比例值。例如，优化层级1对应的比例值为1/L；优化层级2对应的比例值为2/L；依此类推，优化层级L对应的比例值为1。当然每个优化层级也可以对应至少两个不同的比例，本发明实施例不做限定。

本发明实施例所提供的组卷模型训练装置，能够得到包括对应不同优化比例的子模型的组卷模型，为生成优质的且满足用户自身需求的试卷提供基础，从而在后续采用该优化比例的组卷模型进行组卷时，使得最终生成的试卷既能考虑了算法，又结合了教师组卷经验，提高了组卷的灵活性和精确性，能够基于用户的实际需求，针对性地生成符合其要求的试卷，从而提高用户使用体验和教学效果。

在一种可选实现中，图7示出了本发明实施例提供的组卷装置的一种可选框图，如图7所示，该组卷装置可以包括：

第一试卷获取单元200，适于获取目标组卷参数以及与所述目标组卷参数对应的第一试卷；

目标试卷数据获取单元210，适于根据所述目标组卷参数和所述第一试卷，利用组卷模型训练方法训练的组卷模型，得到目标试卷数据。

与所述目标组卷参数对应的第一试卷指的是利用智能算法生成的试卷初稿，试卷初稿的约束参数为目标组卷参数。

为了更智能的生成试卷初稿，缩短试卷初稿的组卷时间，在一种具体实施例中，第一试卷获取单元200可以利用试卷生成模型根据所述训练组卷参数获取第一试卷。

在一种具体实施例中，目标试卷数据获取单元210适于获取目标优化层级对应的第二预设比例值。

基于本次组卷期望基于教师经验的试题占最终试卷的比例，确定待组卷的第二预设比例值，根据所述第二预设比例值确定与其对应的子模型。

容易理解的是，所确定的子模型为前述的组卷模型训练方法训练后的组卷模型。

目标试卷数据获取单元210还适于将所述目标组卷参数和所述第一试卷输入所述组卷模型，得到组卷数据。

根据所述第二预设比例值、所述目标组卷参数和所述第一试卷，利用所述组卷模型，得到目标试卷数据。

本发明实施例所提供的组卷装置，能够生成融合算法和教师经验的优质的且满足用户自身需求的试卷，使得最终生成的提高了组卷的灵活性和精确性，能够基于用户的实际需求，针对性地生成符合其要求的试卷，从而提高用户使用体验和教学效果。

本发明实施例还提供一种终端设备，该终端设备可以通过装载程序形式的上述组卷模型训练方法或组卷方法，以实现本发明实施例提供的组卷模型训练方法或组卷方法。本发明实施例提供的终端设备的一种可选硬件结构可以如图8所示，包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为用于进行网络通信的通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储一条或多条计算机指令，所述一条或多条计算机指令被处理器1执行以实现本发明实施例提供的组卷方法。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种存储介质，所述存储介质存储一条或多条计算机指令，所述一条或多条计算机指令用于实现本发明实施例提供的组卷模型训练方法或组卷方法。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种组卷模型训练方法，其特征在于，包括：

2.如权利要求1所述的组卷模型训练方法，其特征在于，所述利用所述训练组卷参数、所述第一样本试卷数据集以及所述融合试卷数据集对所述组卷模型进行训练的步骤包括：

利用所述组卷模型根据每个所述训练组卷参数和所述第一样本试卷数据集中的与所述训练组卷参数相对应的第一样本试卷获取预测融合试卷，根据所述预测融合试卷和所述融合试卷数据集中与所述训练组卷参数相对应的融合试卷获取组卷损失，根据所述组卷损失调整所述组卷模型的参数，直至所述组卷损失满足损失阈值或所述参数的调整次数达到预定次数。

3.如权利要求1所述的组卷模型训练方法，其特征在于，还包括：

获取优化层级；

所述将所述第一样本试卷数据集以及所述第二样本试卷数据集中的试卷数据进行融合的步骤包括：

针对所述第一样本试卷数据集中的每个第一样本试卷，执行：

4.如权利要求3所述的组卷模型训练方法，其特征在于，从所述第二样本试卷中选择的所述第一预设比例的试题的试题参数、与从所述第一样本试卷中待替换的所述第一预设比例的试题的试题参数相同。

5.如权利要求3所述的组卷模型训练方法，其特征在于，所述组卷模型包括至少两个子模型，所述子模型的数量与所述优化层级的比例值的数量相等。

6.如权利要求1-5任一项所述的组卷模型训练方法，其特征在于，所述训练组卷参数包括以下至少一个子参数：知识点试题比例向量，难度比例向量，题型分布向量，分值分布向量。

7.一种组卷方法，其特征在于，包括：

根据所述目标组卷参数和所述第一试卷，利用权利要求1-6任一项所述的组卷模型训练方法训练的组卷模型，得到目标试卷数据。

8.如权利要求7所述的组卷方法，其特征在于，所述组卷方法还包括：

获取目标优化层级对应的第二预设比例值；

所述得到目标试卷数据的步骤包括：

9.如权利要求8所述的组卷方法，其特征在于，所述第一试卷的获取步骤包括：

利用试卷生成模型根据所述目标组卷参数获取第一试卷。

10.一种组卷模型训练装置，其特征在于，包括：

样本试卷数据获取单元，适于获取第一样本试卷数据集和第二样本试卷数据集；其中，所述第一样本试卷数据集是利用试卷生成模型根据多个训练组卷参数获得的试卷数据的集合，所述第二样本试卷数据集为教师基于多个所述训练组卷参数得到的试卷数据的集合；

11.一种组卷装置，其特征在于，包括：

目标试卷数据获取单元，适于根据所述目标组卷参数和所述第一试卷，利用权利要求1-6任一项所述的组卷模型训练方法训练的组卷模型，得到目标试卷数据。

12.一种设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-6任一项所述的组卷模型训练方法或者如权利要求7-9任一项所述的组卷方法。

13.一种存储介质，其特征在于，存储有适于组卷的程序，以实现如权利要求1-6任一项所述的组卷模型训练方法或者如权利要求7-9任一项所述的组卷方法。