CN113495956A

CN113495956A - 组卷方法、装置、存储介质和计算设备

Info

Publication number: CN113495956A
Application number: CN202111040717.5A
Authority: CN
Inventors: 李耀松; 王喆; 朱帅
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-10-12

Abstract

本申请实施例提供了一种组卷方法、装置、存储介质和计算设备。该组卷方法包括：接收组卷指令，所述组卷指令中包括试卷总分、题目数量、期望的知识点覆盖率和期望的题目难度等级分布；基于第一适应度函数计算多张试卷的适应度函数值，所述第一适应度函数包括试卷的知识点覆盖指数和试卷的题目难度等级分布指数，其中所述试卷的题目难度等级分布指数由第一分数分布与第二分数分布的JS散度值确定；使用遗传算法处理所述多张试卷，以优化所述多张试卷的适应度函数值，确定一张目标试卷。利用本申请实施例能够得到高质量的组卷结果。

Description

组卷方法、装置、存储介质和计算设备

技术领域

本申请涉及组卷技术，具体涉及一种组卷方法、装置、存储介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

为促进学校教育教学的发展，学校会在期中、期末等阶段以闭卷考试的方式对学生成绩进行考察，同时也是对教师教学质量的考察，一份高质量的试卷需要参考多种因素（如教学进度、考察难度、知识点覆盖度等）。基于试题题库选题出卷的过程也称“组卷”，如果教师基于主观的专家经验进行组卷，会因缺乏数据支持和统一标准无法保证组卷质量。目前已出现的一些组卷算法可根据组卷需求自动组卷，但是由于算法仍存在缺陷，组卷效果差强人意，举例来说，在基于遗传算法的组卷方案中，如果构造的适应度函数不合理，会导致组卷结果质量不佳；此外在遇到试题题库不满足组卷需求时还可能无法输出组卷结果。当前，如何设计出更加合理有效的组卷方案，减轻教师出题组卷的困扰及负担，是需要继续研究细化的问题。

发明内容

本申请期望提供一种组卷方法、装置、存储介质和计算设备，以解决上述至少一种技术问题。

第一方面，本申请实施例提供一种组卷方法，包括：

接收组卷指令，所述组卷指令中包括试卷总分、题目数量、期望的知识点覆盖率和期望的题目难度等级分布；根据所述组卷指令中的所述试卷总分和所述题目数量，使用题库中的题目组合生成多张试卷，基于第一适应度函数计算所述多张试卷的适应度函数值；其中，所述第一适应度函数包括试卷的知识点覆盖指数和试卷的题目难度等级分布指数，其中所述试卷的题目难度等级分布指数由第一分数分布与第二分数分布的JS散度值确定，所述第一分数分布包括试卷中多个题目难度等级分别对应的题目分数，所述第二分数分布包括期望的所述多个题目难度等级分别对应的题目分数；使用遗传算法处理所述多张试卷，以优化所述多张试卷的适应度函数值，确定一张目标试卷。

第二方面，本申请实施例提供一种组卷装置，所述组卷装置包括：

接收模块，用于接收组卷指令，所述组卷指令中包括试卷总分、题目数量、期望的知识点覆盖率和期望的题目难度等级分布；

适应度函数值计算模块，用于根据所述组卷指令中的所述试卷总分和所述题目数量，使用题库中的题目组合生成多张试卷，基于第一适应度函数计算所述多张试卷的适应度函数值；其中，所述第一适应度函数包括试卷的知识点覆盖指数和试卷的题目难度等级分布指数，其中所述试卷的题目难度等级分布指数由第一分数分布与第二分数分布的JS散度值确定，所述第一分数分布包括试卷中多个题目难度等级分别对应的题目分数，所述第二分数分布包括期望的所述多个题目难度等级分别对应的题目分数；

遗传算法处理模块，用于使用遗传算法处理所述多张试卷，以优化所述多张试卷的适应度函数值，确定一张目标试卷。

第三方面，本申请实施例还提供一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

第四方面，本申请实施例还提供一种非易失性计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如上所述的方法。

本申请实施例通过合理引入JS散度，能够实现对试卷中不同难度等级题目数量分布的控制和优化，可提高组卷结果的质量，提升组卷方案的可用性及合理性。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1是本申请一个实施例的组卷方法的流程框图；

图2是本申请另一实施例的组卷方法的流程框图；

图3是本申请实施例的组卷装置的结构示意图；

图4示意性地示出本申请实施例的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

以下参考本申请若干示例性实施例详细阐释本申请的原理和实施方式。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。以下参考本申请若干实施例详细阐释本申请的原理和实施方式。

图1示意性地示出了本申请实施例的组卷方法的流程框图，该方法包括以下步骤：

S101：接收组卷指令，所述组卷指令中包括试卷总分、题目数量、期望的知识点覆盖率和期望的题目难度等级分布；

S102：根据所述组卷指令中的所述试卷总分和所述题目数量，使用题库中的题目组合生成多张试卷，基于第一适应度函数计算所述多张试卷的适应度函数值；其中，所述第一适应度函数包括试卷的知识点覆盖指数和试卷的题目难度等级分布指数，其中所述试卷的题目难度等级分布指数由第一分数分布与第二分数分布的JS散度值确定，所述第一分数分布包括试卷中多个题目难度等级分别对应的题目分数，所述第二分数分布包括期望的所述多个题目难度等级分别对应的题目分数；

S103：使用遗传算法处理所述多张试卷，以优化所述多张试卷的适应度函数值，确定一张目标试卷。

本申请的实施例首先根据组卷指令生成适应度函数，组卷指令中需包含有用户（例如教师）期望的知识点覆盖率和期望的题目难度等级分布，在构建适应度函数时，需确定两种分数的分布情况，一种分数分布是试卷中多个题目难度等级分别对应的题目分数的分布，另一种分数分布是用户期望的所述多个题目难度等级分别对应的题目分数的分布，然后，由这两种分数分布的JS散度值，可确定试卷的题目难度等级分布指数，基于该试卷的题目难度等级分布指数以及试卷的知识点覆盖指数，可构建适合的适应度函数。

组卷时，先根据组卷指令中的试卷总分和题目数量，使用题库中的题目组合生成多张试卷（例如可在满足试卷总分和题目数量要求的前提下，随机组合生成多张卷子），然后利用构建的适应度函数分别计算每张卷子的适应度函数值；之后利用遗传算法，以优化试卷的适应度函数值为迭代目标，对多张试卷进行迭代处理，可获得较为理想的试卷。

可以看到，本申请的实施例在构建适应度函数时，考虑了两种分布的JS散度值，即：试卷中多个题目难度等级分别对应的题目分数的分布，以及用户期望的所述多个题目难度等级分别对应的题目分数的分布，其中关于JS散度（Jensen–Shannon divergence），其是用来衡量两个分布的接近程度的指标，JS散度值越小代表两个分布越接近（JS散度值为0代表两个分布完全相同）；这里，在计算试卷的题目难度等级分布指数时引入JS散度，能够使构建的适应度函数更为准确地反映一份试卷中题目的实际难度等级分布与组卷指令中要求的（也就是教师期望的）难度等级分布的接近程度，如此，在利用遗传算法迭代处理时，通过对试卷的适应度函数值的不断优化，可以使试卷的难度等级分布不断趋近于教师期望的难度等级分布，从而能够提高组卷结果的质量，得到较为满意的试卷。举例说明，通常，教师希望一份试卷中属于不同难度等级的题目的数量符合预定要求（例如12个3级难度题目，4个5级难度题目，4个1级难度题目），组卷时，有一种情况是，如果题库中3级难度的题目数量不足，则需要用其他难度等级的题目代替3级难度题目，这时，可以用2级难度（或4级难度）的题目替代3级难度题目，或者，可以用1级难度（或5级难度）的题目代替3级难度题目，显然，前者更贴近组卷要求，后者较组卷要求偏离较大，因此应使用2级难度（或4级难度）的题目替代3级难度题目。但是，在一般的基于遗传算法的组卷方案中，原设计中对无序类别变量（如知识点A、知识点B）的处理相对有效，但对有序类别变量（如难度1星、难度2星、难度3星）的处理则无效，因此在迭代过程中没有对难度等级这个有序变量的分布做有效控制，因此在出现上述的题库中3级难度题目数量不足的情况时，并不一定能做到“以2级难度（或4级难度）题目替代3级难度题目”，导致最终的组卷效果差强人意。

本申请的实施例在基于遗传算法的组卷方案中引入JS散度的处理，具体是将JS散度引入适应度函数中，对适应度函数做合理修正，使得算法过程对有序分类变量分布的衡量更加合理，体现为组卷时能使试卷中不同难度等级题目的数量的分布尽量贴合组卷指令中要求的分布，如果出现上述的题库中3级难度题目数量不足的情况，能够在迭代过程中通过优化适应度函数的值从而优化题目的取舍，实现“以2级难度（或4级难度）题目替代3级难度题目”，而不会出现“以1级难度（或5级难度）题目替代3级难度题目”。可见，本申请实施例通过合理引入JS散度，可提升组卷质量，提升组卷方案的可用性及合理性。

在本申请实施例中，可选地，所述第一适应度函数还包括所述试卷的知识点覆盖指数对应的第一权重值和所述试卷的题目难度等级分布指数对应的第二权重值；本申请实施例的组卷方法还可包括以下步骤：

获取所述目标试卷对应的知识点覆盖指数和题目难度等级分布指数；

根据接收到的权重调节指令更新所述第一权重值和/或所述第二权重值，并更新所述第一适应度函数；

基于更新后的第一适应度函数计算所述多张试卷的新的适应度函数值；

使用遗传算法处理所述多张试卷并优化所述多张试卷的新的适应度函数值，以获得一张新的目标试卷。

基于以上处理，可在一定程度上量化组卷效果，并将量化结果反馈给用户，也就是输出目标试卷对应的“知识点覆盖指数”和“题目难度等级分布指数”，供用户参考，用户可根据需求调节权重（即调节上述的第一权重和/或第二权重），调节后的迭代计算会更聚焦于权重大的维度，例如，假设教师对A维度（知识点覆盖）的组卷效果不满意，可修改（例如增大）适应度函数中的A维度的权重，让算法更聚焦A维度的效果的优化，实现有针对性的优化，更好地满足用户多样性的组卷需求。

在本申请实施例中，可选地，本申请实施例的组卷方法还可包括以下步骤：

基于所述组卷指令和所述第一适应度函数再次生成一张目标试卷；

如果第二张目标试卷与第一张目标试卷的相似度小于或等于预定阈值，将所述第二张目标试卷作为所述第一张目标试卷的平行试卷。

基于以上处理，可为用户提供近似的组卷结果（例如在题库不满足组卷需求时，可输出大致满足组卷指令的组卷结果），具体是衡量在各个指标维度上当前组卷结果与组卷指令的相似度，如果相似度符合要求，可作为最终结果输出，供用户选择使用。相较于以往题库不足时可能无法输出组卷结果的情况，本申请实施例可输出符合相似度要求的组卷结果。

此外，利用上述处理，还可为用户提供多个近似的组卷结果，即多张平行试卷，例如A卷和B卷，两者题目不完全相同，但符合相同或相近的组卷要求，具体地，可对考察两个组卷结果的相似度，如果第二张卷子与第一张卷子在各个指标维度上的相似度符合要求，可将第二张卷子确定为第一张卷子的平行试卷，满足用户多样化的组卷需求。

计算第二张目标试卷与第一张目标试卷之间的距离，如果所述距离小于或等于预定阈值，将所述第二张目标试卷作为所述第一张目标试卷的平行试卷。

与上述的衡量两张试卷的相似度确定组卷结果的处理类似，还可以计算两张试卷之间的距离，如果距离足够小，可输出组卷结果，或认为两张试卷互为平行试卷。

在本申请实施例中，可选地，所述第一适应度函数可根据知识点覆盖指数、知识点覆盖指数的权重、题目难度等级分布指数以及题目难度等级分布指数的权重确定。

作为一个示例，所述第一适应度函数F的表达式为：

其中，w_{kn}是知识点覆盖指数

的权重，w_{d}是题目难度等级分布指数

的权重，w_{kn}+w_{d}=1，F的取值范围是[0，1]；其中，所述题目难度等级分布指数R_{d}=1-JS(P||Q)，其中JS(P||Q)表示分布P与分布Q的JS散度值，分布P指的是试卷中每个难度等级的题目总分的分布，分布Q指的是期望的每个难度等级的题目总分的分布，JS散度值的范围是[0，1]。

以上提供了本申请实施例的一种适应度函数的表达式，可以看到，该适应度函数F中包含知识点覆盖指数、题目难度等级分布指数，以及两者的权重，并且，题目难度等级分布指数R_{d}=1-JS(P||Q)，其中JS(P||Q)表示求分布P与分布Q的JS散度值的运算。在每次迭代过程中，按照上式计算当前试卷的适应度函数值F，F的取值范围是[0，1]，F越接近于1代表当前组卷结果越符合组卷期望（也就是越贴近期望的组卷结果，越贴近教师的组卷需求），F越接近于0则表示当前组卷结果越不符合组卷期望，因此迭代优化的目的是使F的值趋近于1；为此，按照F的表达式中各变量之间的关系，迭代的目的是使R_{d}的值接近于1，可使当前试卷中的题目难度等级分布越符合教师的需求（若R_{d}越接近于0说明当前试卷越远离教师需求）。

在本申请实施例中，可选地，所述使用遗传算法处理所述多张试卷并优化所述多张试卷的适应度函数值，以通过如下处理实现：

按照所述组卷指令随机组合生成多张试卷，所述多张试卷作为一个种群，每张试卷为所述种群中的个体；

根据每张试卷对应的适应度函数值的大小选择遗传到下一代的试卷，进行迭代处理，以优化每张试卷的适应度函数值，其中，对遗传到下一代的试卷进行基因交叉处理和基因突变处理；当达到终止条件后停止迭代。

利用本申请实施例构建的适应度函数执行遗传算法的组卷处理，将试卷的适应度函数值作为迭代优化的目标，经过种群初始化、试卷选择、交叉、变异等一系列过程，可得到输出的组卷结果。

在本申请实施例中，可选地，根据以下至少一项题目属性建立所述题库：题目难度等级、题目考察知识点、题型、题目分值、学生对题目的历史作答时间。

在本申请实施例中，可选地，所述组卷指令中还包括以下至少一项：试卷的题目总数、试卷的总分、试卷中各题型考察分数、试卷中各知识点考察分数、试卷中各难度等级的题目考察分数、期望的试卷平均作答时长。

通过合理地构建题库，根据需求准确地设置组卷指令，可进一步提高组卷质量。

根据本申请的以上至少一个实施例，通过合理引入JS散度来评估有序变量的适应度分数，使组卷功能的质量、可用性及合理性得到提升，组卷效果可量化，在题库无法满足组卷需求时可反馈近似结果，还可以产出平行试卷。

以上描述了本申请实施例的多种实现方式，以下通过具体的例子描述本申请实施例的具体处理过程。

示例1

本申请实施例的主要目的在于，利用题目自身的相关属性数据（例如：难度等级、知识点、题型、平均作答时长等），结合JS散度，设计组建适应度函数，通过遗传算法对设计好的适应度函数进行优化，精准地为用户组合产出符合要求的试卷（或作业题），还可产出它们的平行试卷（或平行作业题）。

以下结合图2，详细描述基于本申请实施例的组卷方法进行组卷的操作过程。

●第一步：建立题库。

假设建立的题库中总共有n道题，其中第i题记为：q_i，题目q_i可具有如下至少一种属性：

· 题目q_i的难度等级记为：d_{q_i}；

· 题目q_i所属的知识点记为：kn_{q_i}

· 题目q_i的题型记为：tp_{q_i}

· 题目q_i的分数记为：s_{q_i}

· 题目q_i的学生历史作答时间记为：t_{q_i}。

●第二步：用户输入对组卷结果的期望。

组卷期望可包含以下至少一种条件：

· 条件①：试卷长度为M，即试卷包含M道题目。

· 条件②：试卷总分数为S分。

· 条件③：假设共有a种题型，其中第j类题型组卷要求考察的试题数量为N_{tp_j}，需满足

。

· 条件④：假设共有a种题型，其中第j类题型组卷要求考察的分数总共为S_{tp_j}，需满足

。

· 条件⑤：假设总共考察b个知识点，其中b<=M；第j个知识点kn_j要求考察的分数为S_{kn_j}，需满足

。

· 条件⑥：假设总共考察c个难度等级，第j个难度d_j要求考察的分数为S_{d_j}，需满足

。

· 条件⑦：适应度函数的期望值E，E的取值范围为0到1。

其中，条件①、条件②、条件③和条件④通常必须满足；对于条件⑤、条件⑥或条件⑦，可按照期望（例如考试需求）决定是否需要满足。

●第三步：设计适应度函数。

根据题库中题目属性和用户的输入的组卷要求设计适应度函数。本申请实施例中的适应度函数设计，主要考虑了知识点覆盖率、题目难度等级分布与期望难度等级分布的差异，适应度函数的具体设计过程如下：

1)获得知识点覆盖指数R_{kn}：

首先，令

，

其中，dS_{j}代表组卷中第j个知识点题目的总分与教师期望的第j个知识点总分的差距，则可以得到一个长度为b的向量，如下：

DS= [dS_{1}，dS_{2}，dS_{3}......dS_{j}]，

则知识点覆盖度为R_{kn}=1-sd(DS)，即1减去DS的标准差，R_{kn}取值范围为[0，1]，其中，R_{kn}越接近于1，代表目前试卷中题目知识点覆盖度越好，反之则反，即R_{kn}越接近于0，代表目前试卷中题目知识点覆盖度越差。

2)获得题目难度等级分布指数R_{d}：

在计算难度等级分布指数时引入JS散度，可对不同分布间的相似度加以衡量。JS散度的定义如下：假设存在两个分布p和q，首先计算分布p和分布q的KL散度（Kullback–Leibler divergence），如下：

KL(p||q)=

，

在KL散度的基础上可得分布p和分布q的JS散度，如下：

JS(p||q)=

+

，

JS散度以及KL散度都是用来衡量两个概率分布之间的差异性的指标，两者的数学表达不同。其中，JS散度取值为0到1，JS散度越小代表分布p和分布q越接近，JS(p||q)=0时两个分布完全相同；

令

，

以及

，

其中，分布P代表c个难度等级下，组出的卷子中每个难度等级下的题目总分的分布；分布Q代表c个难度等级下，老师期望的每个难度等级考察的总分的分布。那么，JS(P||Q)可以代表卷子中现有难度等级分布与老师期望的分布之间的接近程度，其中，可以令R_{d}=1-JS(P||Q)，表示题目难度等级分布指数，则R_{d}越接近于1，代表目前试卷中题目难度等级分布越贴近老师的需求，反之则反，即R_{d}越接近于0，代表目前试卷中题目难度等级分布越远离老师的需求。

3)构建适应度函数：

基于知识点覆盖指数R_{kn}和题目难度等级分布指数R_{d}，综合得到适合的适应度函数F，如下：

，

其中，w_{kn}是知识点覆盖指数的权重，w_{d}是题目难度等级分布指数的权重，w_{kn}+w_{d}=1；F的取值范围是[0，1]，F的值越大代表组卷结果越满足组卷的期望，反之则反，即F的值越小代表组卷结果越不符合组卷期望。

其中，两个权重可调节，可根据对组卷中不同因素的重视程度来调整两个权重的大小，例如，如果更重视试卷的知识点覆盖度，可设置w_{kn}>w_{d}，如果更重视试卷中的题目难度等级分布的情况，可设置w_{kn}<w_{d}。可选地，可以在计算之前设置好权重值，也可以在计算过程中调整两个权重的大小，使组出的卷子朝着期望的方向优化，灵活控制组卷效果。

●第四步：通过遗传算法优化适应度函数：

利用遗传算法，对第三步设计的适应度函数进行优化，处理步骤如下：

A. 种群初始化：

首先，需随机组合出多张试卷（记为G张），其中每张试卷均按照用户期望的题目数量、题型等抽取试题进行组卷，使得每张试卷的长度为M且总分数为S。将G张试卷作为一个种群，种群大小为G，每张试卷为一个个体。

B.试卷选择：

根据第三步设计的适应度函数F，计算每个个体i（即第i张试卷）对应的适应度大小，记为f_{i}。假设需从随机组合的G张试卷中选择出g张试卷，其中试卷i被选中的概率为p(f_{i})=

。这里，选择的目的是把优秀的试卷直接遗传到下一代或通过配对交叉产生新的个体之后再遗传到下一代。

C. 终止迭代的条件：

迭代过程中，如果满足终止条件，便可退出迭代，输出结果。本申请实施例中可设置多重退出机制，终止条件可采用以下三种条件中的任一种：

a)挑选选择后的最优个体即种群中适应度函数值f_{i}最高的试卷X，X的适应度函数值f_{X}大于或等于用户期望的适应度值，返回最优试卷X。

b)迭代轮次超过预设的最大迭代轮次I，其中I的预设值例如可为500（可修改），返回当前迭代中适应度最高的试卷，例如为试卷Y。

c)连续i轮迭代的适应度函数值没有变化，其中i的预设值例如为50（可修改），则返回当前迭代中适应度函数值最高的试卷，例如为试卷Z。

D. 交叉：

在遗传算法中，交叉算子是遗传算法的核心，所谓“交叉”指的是把父代个体的部分基因加以替换和重组二产生新个体的操作。针对本申请的组卷算法来说，本质上是题目互换，可采用基因为自然数编码，交叉时可选择分段单点交叉法，即按题型分段进行交叉。其中，交叉过程应注意，需保证试题的卷面总分不变，其次应保证交叉后一份卷子内没有重复的题目。具体操作过程中，在一个个体（即一份试卷）中随机选择一个交叉位置，保证与第一个染色体所交叉位置的题目分数、难度等级等指标相同的情况下，在第二个个体（试卷）中选择交叉位置，互换两个试卷中对应位置后的题目，然后过滤掉重复的个体，从而可得到两个新的个体。

E. 变异：

在遗传算法中，“变异”操作起到防止算法过早陷入最优解的作用，变异的概率一般较小。针对本申请的组卷操作而言，变异就是从题库中选择与原试题的题型相同、考察分数相同并且对应题目考察的知识点属于用户要求的知识点列表中。

l 第五步：量化组卷效果：

将最优试卷X对应的、在适应度函数中计算得到的知识点覆盖指数R_X_{kn}以及难度等级分布指数R_X_{d}，分别反馈给用户；用户可以根据R_X_{kn}以及R_X_{d}这两个值的大小来调整适应度函数中这两个值对应的权重值即

与w_{d}。权重值越大代表用户在组卷过程中更重视该维度与期望分布的符合程度。

l 第六步：生产平行试卷：

在通过遗传算法获得了符合期望的试卷X之后，如果教师还需要另一张与X相似的试卷，则首先可保持与试卷X相同的组卷条件，进行组卷，获得算法返回的最优试卷，记为试卷K，然后计算试卷X与试卷K之间的距离Dis_{XY}，如下：

Dis_{XY}=|R_X_{kn}-R_Y_{kn}|+|R_X_{d}-R_Y_{d}|，

其中，若Dis_{XY}小于或等于预设的距离阈值，则确定试卷K为试卷X的平行试卷；若Dis_{XY}大于预设的距离阈值，则重新利用试卷X的期望条件进行组卷，获得新的最佳试卷K’，重复上述流程，直至Dis_{XY}小于或等于预设的距离阈值，获得平行试卷。

示例2

以下通过示例2详细描述基于本申请实施例的组卷方法进行组卷的操作过程。

假设老师需要组一张包含20道题、满分为100分的卷子，具体的组卷要求表达如下：

a)该卷子总共考察20道题目，卷面总分为100分，每道题目分值皆为5分。

b)该卷子考察5个知识点，分别为{A、B、C、D、E}，对应知识点需要考察的题目分数分别为{15、20、30、25、10}分，其中各题目所属的知识点信息可预先标注。

c)该卷子考察5个难度，分别为{极易、易、中、难、极难}，对应难度需要考察的题目分数分别为{25、30、20、20、5}分，其中各题目所属的难度信息可预先标注。

d)该卷子考察2种题型，分别为{选择、填空}，对应题型需要考察的题目分数分别为{50、50}分，其中各题目上所属的题型信息可由题库的后台数据提供。

e)该卷子的平均作答时间为60分钟。

按照本申请实施例的组卷方法，可以设置适应度函数，其中试卷w对应的适应度值f(w)值越大，试卷w内题目的属性越接近老师的组卷要求，即算法对该试卷w的偏好越大。组卷过程大致如下：

1.从题库中随机初始化100份试卷，每份试卷包含20道非重复的题目，称为第一代种群。

2.计算每份试卷i的适应度值，可得到f_1、f_2、...、f_100共100个适应度值。

3.将上面100个适应度值从大到小排序，从中选择最大的前20个适应度值对应的试卷，共取出20份试卷。

4.将这20份试卷分为两部分，10份作为父代、10份作为母代，父母代随机多次两两配对，并进行随机部分题目的交换（基因重组操作），可形成新的80份试卷（其中有一定的概率如10%的概率会有题库中的新题加入到试卷中，这部分为变异），并将父母代的20份试卷也加入其中，形成新的100份试卷，作为第二代种群，由于父母代也在第二代之中，所以，从第二代中取出的20份试卷（适应度值最大的前20份试卷），其对应位置肯定整体大于或等于第一代的适应度函数f_i。此外，由于父母代也在第二代中，所以最差的情况是，80份换题后的子代试卷都比父母代试卷的适应度值低，发生这种情况的事件概率较小。

然后，不断重复前述的第1-4步，直至连续50代群体中最优个体的适应度值无变化（或者到达最大迭代轮数例如500轮），此时停止迭代，并将最后一代群体中适应度值最高的个体即试卷作为最终的组卷结果。

根据本申请的以上至少一个实施例，通过引入JS散度到适应度函数中，使对有序分类变量分布的衡量更加合理，可产出平行试卷，使组卷系统有潜力为用户提供多份相似平行试卷，因此利用本申请的至少一个实施例，能够做到组卷效果可量化、试卷解释性强、可平行化、可用性高的优势。此外，还可为算法设置多重退出机制，保障系统的组卷速度和成功率。

与上述至少一个实施例的处理方法相对应地，如图3所示，本申请实施例还提供一种组卷装置100，该装置包括：

接收模块110，用于接收组卷指令，所述组卷指令中包括试卷总分、题目数量、期望的知识点覆盖率和期望的题目难度等级分布；

适应度函数值计算模块120，用于根据所述组卷指令中的所述试卷总分和所述题目数量，使用题库中的题目组合生成多张试卷，基于第一适应度函数计算所述多张试卷的适应度函数值；其中，所述第一适应度函数包括试卷的知识点覆盖指数和试卷的题目难度等级分布指数，其中所述试卷的题目难度等级分布指数由第一分数分布与第二分数分布的JS散度值确定，所述第一分数分布包括试卷中多个题目难度等级分别对应的题目分数，所述第二分数分布包括期望的所述多个题目难度等级分别对应的题目分数；

遗传算法处理模块130，用于使用遗传算法处理所述多张试卷，以优化所述多张试卷的适应度函数值，确定一张目标试卷。

可选地，所述第一适应度函数还包括所述试卷的知识点覆盖指数对应的第一权重值和所述试卷的题目难度等级分布指数对应的第二权重值；该组卷装置100还包括：

获取模块，用于获取所述目标试卷对应的知识点覆盖指数和题目难度等级分布指数；

更新模块，用于根据接收到的权重调节指令更新所述第一权重值和/或所述第二权重值，并更新所述第一适应度函数；

其中，所述适应度函数值计算模块还用于基于更新后的第一适应度函数计算所述多张试卷的新的适应度函数值；所述遗传算法处理模块还用于使用遗传算法处理所述多张试卷并优化所述多张试卷的新的适应度函数值，以获得一张新的目标试卷。

可选地，该组卷装置100还包括：平行试卷处理模块，用于基于所述组卷指令和所述第一适应度函数再次生成一张目标试卷；

确定模块，用于在第二张目标试卷与第一张目标试卷的相似度小于或等于预定阈值的情况下，将所述第二张目标试卷确定为所述第一张目标试卷的平行试卷。

计算处理模块，用于计算第二张目标试卷与第一张目标试卷之间的距离，如果所述距离小于或等于预定阈值，将所述第二张目标试卷确定为所述第一张目标试卷的平行试卷。

可选地，所述计算处理模块通过下式计算所述第二张目标试卷与所述第一张目标试卷之间的距离Dis_{XY}：

Dis_{XY}=|R_X_{kn}-R_Y_{kn}|+|R_X_{d}-R_Y_{d}|，

其中，R_X_{kn}表示所述第一张目标试卷的知识点覆盖指数，R_Y_{kn}表示所述第二张目标试卷的知识点覆盖指数，R_X_{d}表示所述第一张目标试卷的难度等级分布指数，R_Y_{d}表示所述第二张目标试卷的难度等级分布指数。

可选地，所述第一适应度函数由知识点覆盖指数、知识点覆盖指数的权重、题目难度等级分布指数以及题目难度等级分布指数的权重确定。

可选地，所述第一适应度函数F的表达式为：

，

其中，w_{kn}是知识点覆盖指数

的权重，w_{d}是题目难度等级分布指数

的权重，w_{kn}+w_{d}=1，F的取值范围是[0，1]；

其中，所述题目难度等级分布指数R_{d}=1-JS(P||Q)，其中JS(P||Q)表示分布P与分布Q的JS散度值，分布P表示试卷中每个难度等级的题目总分的分布，分布Q表示期望的每个难度等级的题目总分的分布。

可选地，所述遗传算法处理模块包括：

种群初始化处理子模块，用于按照所述组卷指令随机组合生成多张试卷，所述多张试卷作为一个种群，每张试卷为所述种群中的个体；

试卷选择处理子模块，用于根据每张试卷对应的适应度函数值的大小选择遗传到下一代的试卷，进行迭代处理，以优化每张试卷的适应度函数值，其中，对遗传到下一代的试卷进行基因交叉处理和基因突变处理；

终止处理子模块，用于当达到终止条件后停止迭代处理。

可选地，该组卷装置100还包括：题库建立模块，用于根据以下至少一项题目属性建立所述题库：题目难度等级、题目考察知识点、题型、题目分值、学生对题目的历史作答时间。

可选地，所述组卷指令中还包括以下至少一项：试卷的题目总数、试卷的总分、试卷中各题型考察分数、试卷中各知识点考察分数、试卷中各难度等级的题目考察分数、期望的试卷平均作答时长。

本申请实施例各装置中的各模块的功能可以参见上述方法实施例中的对应描述的处理，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。如图4所示，是根据本申请实施例的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示图形用户界面（Graphical User Interface，GUI）的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图4中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据搜索结果的分析处理电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至搜索结果的分析处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例的方法对应的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，本申请图4实施例中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与搜索结果的分析处理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（Liquid Crystal Display，LCD）、发光二极管（Light EmittingDiode，LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可在数字电子电路系统、集成电路系统、专用集成电路（Application Specific Integrated Circuits，ASIC）、计算机硬件、固件、软件、和/或它们的组合中实现。这些实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（programmable logic device，PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（Cathode Ray Tube，阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（Local Area Network，LAN）、广域网（Wide Area Network，WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种组卷方法，其特征在于，包括：

接收组卷指令，所述组卷指令中包括试卷总分、题目数量、期望的知识点覆盖率和期望的题目难度等级分布；

根据所述组卷指令中的所述试卷总分和所述题目数量，使用题库中的题目组合生成多张试卷，基于第一适应度函数计算所述多张试卷的适应度函数值；其中，所述第一适应度函数包括试卷的知识点覆盖指数和试卷的题目难度等级分布指数，其中所述试卷的题目难度等级分布指数由第一分数分布与第二分数分布的JS散度值确定，所述第一分数分布包括试卷中多个题目难度等级分别对应的题目分数，所述第二分数分布包括期望的所述多个题目难度等级分别对应的题目分数；

使用遗传算法处理所述多张试卷，以优化所述多张试卷的适应度函数值，确定一张目标试卷。

2.根据权利要求1所述的方法，其特征在于，所述第一适应度函数还包括所述试卷的知识点覆盖指数对应的第一权重值和所述试卷的题目难度等级分布指数对应的第二权重值；所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

计算第二张目标试卷与第一张目标试卷之间的距离，如果所述距离小于或等于预定阈值，将所述第二张目标试卷确定为所述第一张目标试卷的平行试卷。

5.根据权利要求4所述的方法，其特征在于，

通过下式计算所述第二张目标试卷与所述第一张目标试卷之间的距离Dis_{XY}：

Dis_{XY}=|R_X_{kn}-R_Y_{kn}|+|R_X_{d}-R_Y_{d}|，

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述第一适应度函数由知识点覆盖指数、知识点覆盖指数的权重、题目难度等级分布指数以及题目难度等级分布指数的权重确定。

7.根据权利要求1-5中任一项所述的方法，其特征在于，其中，

所述第一适应度函数F的表达式为：

，

其中，w_{kn}是知识点覆盖指数

的权重，w_{d}是题目难度等级分布指数

的权重，w_{kn}+w_{d}=1，F的取值范围是[0，1]；

8.根据权利要求1-5中任一项所述的方法，其特征在于，所述使用遗传算法处理所述多张试卷并优化所述多张试卷的适应度函数值，包括：

根据每张试卷对应的适应度函数值的大小选择遗传到下一代的试卷，进行迭代处理，以优化每张试卷的适应度函数值，其中，对遗传到下一代的试卷进行基因交叉处理和基因突变处理；

当达到终止条件后停止迭代。

9.根据权利要求1-5中任一项所述的方法，其特征在于，还包括：

根据以下至少一项题目属性建立所述题库：题目难度等级、题目考察知识点、题型、题目分值、学生对题目的历史作答时间。

10.根据权利要求1-5中任一项所述的方法，其特征在于，其中，

所述组卷指令中还包括以下至少一项：试卷的题目总数、试卷的总分、试卷中各题型考察分数、试卷中各知识点考察分数、试卷中各难度等级的题目考察分数、期望的试卷平均作答时长。

11.一种组卷装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述第一适应度函数还包括所述试卷的知识点覆盖指数对应的第一权重值和所述试卷的题目难度等级分布指数对应的第二权重值；所述装置还包括：

13.根据权利要求11所述的装置，其特征在于，还包括：

平行试卷处理模块，用于基于所述组卷指令和所述第一适应度函数再次生成一张目标试卷；

14.根据权利要求11所述的装置，其特征在于，还包括：

15.根据权利要求14所述的装置，其特征在于，

所述计算处理模块通过下式计算所述第二张目标试卷与所述第一张目标试卷之间的距离Dis_{XY}：

Dis_{XY}=|R_X_{kn}-R_Y_{kn}|+|R_X_{d}-R_Y_{d}|，

16.根据权利要求11-15中任一项所述的装置，其特征在于，所述第一适应度函数由知识点覆盖指数、知识点覆盖指数的权重、题目难度等级分布指数以及题目难度等级分布指数的权重确定。

17.根据权利要求11-15中任一项所述的装置，其特征在于，其中，

所述第一适应度函数F的表达式为：

，

其中，w_{kn}是知识点覆盖指数

的权重，w_{d}是题目难度等级分布指数

的权重，w_{kn}+w_{d}=1，F的取值范围是[0，1]；

18.根据权利要求11-15中任一项所述的装置，其特征在于，所述遗传算法处理模块包括：

终止处理子模块，用于当达到终止条件后停止迭代处理。

19.根据权利要求11-15中任一项所述的装置，其特征在于，还包括：

题库建立模块，用于根据以下至少一项题目属性建立所述题库：题目难度等级、题目考察知识点、题型、题目分值、学生对题目的历史作答时间。

20.根据权利要求11-15中任一项所述的装置，其特征在于，其中，

21.一种计算设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-10中任一项所述的方法。

22.一种非易失性计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一项所述的方法。