CN114372151B

CN114372151B - 一种个性化出题方法、装置、计算机可读存储介质和电子设备

Info

Publication number: CN114372151B
Application number: CN202111660800.2A
Authority: CN
Inventors: 刘娜
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-04-30
Anticipated expiration: 2041-12-31
Also published as: CN114372151A

Abstract

本申请公开了一种个性化出题方法，包括：在需要为第一学习者在当前题库选择新题目时，将所述新题目的上一题目及所述第一学习者对所述上一题目的实际答题结果，输入预先生成的知识追踪模型；其中，所述知识追踪模型是根据所述当前题库中的题目及多个学习者对相应题目的实际答题结果训练生成的；根据所述第一学习者对所述上一题目的实际答题结果，更新所述知识追踪模型当前使用的值矩阵；将更新后的值矩阵按列求和后得到的向量作为状态，输入训练好的深度强化学习网络，所述深度强化学习网络在当前题库中选择一个题目作为输出，并将输出的题目作为所述新题目。应用本申请，能够针对不同学习者的特点进行出题，提高出题质量。

Description

一种个性化出题方法、装置、计算机可读存储介质和电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种个性化出题方法、装置、一种计算机可读存储介质以及一种电子设备。

背景技术

在各类培训系统中，都会通过多种方式来对学习者进行培训，在经过一定时间的学习后，往往通过测试题的形式对学习者的学习状况进行评测，或者也可以直接通过套题的形式来进行培训。例如，在房地产行业，为了提高经纪人作业水平，可以通过讲盘、VR带看、挖需邀约等多个场景来培训经纪人，并对经纪人的表现进行评价。目前，通常用于训练学习者的测试题都是从题库中随机抽取组成的套题，对于不同学习者的出题策略不做区分。

发明内容

针对上述现有技术，本申请实施例公开一种个性化出题方法、装置、计算机可读存储介质以及电子设备，能够针对不同学习者的特点进行出题，提高出题质量。

为实现上述目的，本申请采用如下技术方案：

一种个性化出题方法，包括：

在需要为第一学习者在当前题库选择新题目时，将所述新题目的上一题目及所述第一学习者对所述上一题目的实际答题结果，输入预先生成的知识追踪模型；其中，所述知识追踪模型是根据所述当前题库中的题目及多个学习者对相应题目的实际答题结果训练生成的；

根据所述第一学习者对所述上一题目的实际答题结果，更新所述知识追踪模型当前使用的值矩阵；

将更新后的值矩阵按列求和后得到的向量作为状态，输入训练好的深度强化学习网络，所述深度强化学习网络在当前题库中选择一个题目作为输出，并将输出的题目作为所述新题目；

其中，将所述知识追踪模型作为训练所述深度强化学习网络的环境；在当前次训练所述深度强化学习网络时，将所述深度强化学习网络前次训练输出的题目作为所述知识追踪模型的输入，根据所述前次训练输出的题目对应的实际答题结果，更新所述知识追踪模型的值矩阵，将更新前的值矩阵按列求和后得到的向量作为旧状态，将更新后的值矩阵按列求和后得到的向量作为新状态，将所述更新后的值矩阵的所有元素之和作为奖励，将所述深度强化学习网络的输出作为动作。

较佳地，在首次为所述第一学习者选择新题目时，根据所述第一学习者在所述当前题库中已完成的题目以及实际答题结果，确定所述知识追踪模型当前使用的值矩阵。

较佳地，所述确定所述知识追踪模型当前使用的值矩阵包括：

当所述已完成的题目不为零时，将所述知识追踪模型的值矩阵中的元素值初始化为随机值，将所述第一学习者在所述当前题库中已完成的题目及相应的实际答题结果，按照答题顺序依次输入所述知识追踪模型，所述知识追踪模型在每次接收输入后更新所述值矩阵，将根据最后一道已完成题目及相应的实际答题结果输入所述知识追踪模型并更新后的所述值矩阵，作为所述知识追踪模型当前使用的值矩阵；

当所述已完成的题目为零时，将所述知识追踪模型当前使用的值矩阵中的元素设定为随机值。

较佳地，在训练所述深度强化学习网络时，若本步训练为首次输入新的学习者的答题数据，则将所述知识追踪模型中值矩阵的各元素初始化为随机值。

较佳地，所述深度强化学习网络为DQN网络或double DQN网络。

较佳地，在训练所述深度强化学习网络时，所述深度强化学习网络中的目标网络在计算损失函数时从经验记忆池中随机选择旧状态S、新状态S'、上一题目、奖励四元组。

较佳地，在所述深度强化学习网络中，评估网络的输出为所述当前题库中每个题目的选择概率，将选择概率最大的题目作为所述深度强化学习网络的输出；

或者，

在所述深度强化学习网络中，评估网络的输出为所述当前题库中每个知识点的选择概率，将选择概率最大的知识点对应的题目作为候选题目；在所有候选题目中，根据所述候选题目的依赖关系和所述候选题目的预期答案选择所述深度强化学习网络本次输出的题目；其中，所述知识点与题目的对应关系和题目间的依赖关系是根据所述知识追踪模型生成的。

较佳地，所述根据候选题目的预期答案选择所述深度强化学习网络本次输出的题目包括：

基于所述上一题目的实际答题结果，若第一候选题目取预期答案的概率超过设定的阈值，则将所述第一候选题目从候选题目中删除。

较佳地，确定所述当前题库中各个题目与知识点的对应关系的方式包括：

利用所述知识追踪模型确定当前题库中的每个题目与所有知识点的相关性；

对于所述每个题目，确定与该题目相关性最大的知识点，在二者间建立对应关系；或者，对于所述每个题目，根据该题目与所有知识点之间的相关性，使用无监督算法确定出该题目对应的知识点。

较佳地，所述知识追踪模型的训练方式包括：

将当前题目表示为题目向量q_t作为所述模型的输入；其中，所述t为当前时刻的索引；

利用嵌入矩阵A对输入的所述题目向量q_t进行维度压缩，得到嵌入向量k_t；

将所述嵌入向量k_t与键矩阵M^k中的每个知识点对应的向量M^k(i)进行点积，再对点积结果利用softmax函数进行激活处理，得到所述当前题目与每个知识点的相关性ω_t(i)构成的向量；其中，i为知识点的索引；

利用所述当前题目与每个知识点的相关性ω_t(i)和前一时刻t-1更新的值矩阵中每个知识点对应的向量计算得到对当前题目的掌握程度r_t；

将所述对当前题目的掌握程度r_t和所述嵌入向量k_t连接起来作为第一神经网络的输入，利用所述第一神经网络对当前题目的答对正确率进行预测，输出答对当前题目的预测概率p_t；

利用所述预测概率p_t、实际答题结果x_t和嵌入矩阵B，确定完成当前题目后的知识增长v_t；

将所述知识增长v_t作为输入生成遗忘门e_t和输入门a_t；

利用所述遗忘门、所述输入门、所述前一时刻t-1更新的值矩阵和所述当前题目与每个知识点的相关性ω_t(i)，确定当前时刻t更新的值矩阵

通过最小化所述预测概率和当前题目的实际答题结果间的标准交叉熵，对所述模型中的嵌入矩阵A、嵌入矩阵B、值矩阵M^v、键矩阵M^k、所述第一神经网络的参数、生成遗忘门的参数和生成输入门的参数进行训练。

较佳地，在得到所述嵌入向量后、将所述嵌入向量与键矩阵M^k中的每个知识点对应的向量进行点积前，该方法进一步包括：

将当前题目内容的句向量连接到所述嵌入向量，得到更新后的嵌入向量。

较佳地，所述第一神经网络为：

其中，Tanh和Sigmoid均为激活函数，和b₁分别为第一个全连接层的权重矩阵和偏移量，和b₂分别为第二个全连接层的权重矩阵和偏移量。

较佳地，生成遗忘门的方式包括：

e_t＝Sigmoid(E^Tv_t+b_e)；

生成输入门的方式包括：a_t＝Tanh(D^Tv_t+b_a)；

其中，E^T和b_e为生成遗忘门时的权重矩阵和偏移量，D^T和b_a为生成遗忘门时的权重矩阵和偏移量。

较佳地，所述题目向量为Q维，对应于题库中的Q道题目，每个元素利用one-hot编码，用于标记当前题目的位置；其中，Q为题库中的题目总数；

所述答题结果利用one-hot编码，用于表示答题分数大于等于得分阈值还是小于所述得分阈值。

较佳地，该方法进一步包括：利用所述知识追踪模型确定当前题库中的每个题目与所有知识点的相关性；具体方式包括：

利用训练好的嵌入矩阵A和每个题目的题目向量q_j，确定对应的嵌入向量k_j；其中，j为题目索引；

将所述嵌入向量k_j与训练好的键矩阵M^k中的每个知识点对应的向量进行点积，再对点积结果利用softmax函数进行激活处理，得到索引为j的题目与每个知识点的相关性ω_j(i)。

较佳地，所述确定各个题目间的依赖关系包括：

在所述知识追踪模型中，在第一时间步输入索引为j的题目对应生成的题目向量q_j以及相应的答题结果为回答正确；在第二时间步输入索引为l的题目对应生成的题目向量q_l，输出该题目的答对概率作为条件概率p(l|j)；

索引为j的题目对索引为l的题目的影响因子为若所述影响因子大于设定的依赖阈值，则确定索引为l的题目对索引为j的题目有依赖性。

一种个性化出题装置，包括：知识追踪模型单元、深度强化学习网络单元和深度强化学习网络训练单元；

所述知识追踪模型单元，用于在需要为第一学习者在当前题库选择新题目时，将所述新题目的上一题目及所述第一学习者对所述上一题目的实际答题结果，输入预先生成的知识追踪模型；根据所述第一学习者对所述上一题目的实际答题结果，更新所述知识追踪模型当前使用的值矩阵；还用于将更新后的值矩阵按列求和后得到的向量作为状态发送给所述深度强化学习网络单元；其中，所述知识追踪模型是根据所述当前题库中的各个题目及多个学习者对所述各个题目的实际答题结果训练生成的；

所述深度强化学习网络单元，用于将接收的所述状态输入训练好的深度强化学习网络，所述深度强化学习网络在当前题库中选择一个题目作为输出，将输出的题目作为所述新题目；

所述深度强化学习网络训练单元，用于训练得到所述深度强化学习网络；

其中，在所述深度强化学习网络训练单元训练所述深度强化学习网络时，将所述知识追踪模型作为所述深度强化学习网络的环境；在所述深度强化学习网络训练单元当前次训练所述深度强化学习网络时，将所述深度强化学习网络前次训练输出的题目作为所述知识追踪模型的输入，根据所述前次训练输出的题目对应的实际答题结果，更新所述知识追踪模型的值矩阵，将更新前的值矩阵按列求和后得到的向量作为旧状态，将更新后的值矩阵按列求和后得到的向量作为新状态，将所述更新后的值矩阵的所有元素之和作为奖励，将所述深度强化学习网络的输出作为动作。

较佳地，在所述知识追踪模型单元中，在首次为所述第一学习者选择新题目时，根据所述第一学习者在所述当前题库中已完成的题目以及实际答题结果，确定所述知识追踪模型当前使用的值矩阵。

较佳地，在所述知识追踪模型单元中，所述确定所述知识追踪模型当前使用的值矩阵包括：

当所述已完成的题目不为零时，将所述知识追踪模型的值矩阵中的元素初始化为随机值，将所述第一学习者在所述当前题库中已完成的题目及相应的实际答题结果，按照答题顺序依次输入所述知识追踪模型，所述知识追踪模型在每次接收输入后更新所述值矩阵，将根据最后一道已完成题目及相应的实际答题结果输入所述知识追踪模型并更新后的所述值矩阵，作为所述知识追踪模型当前使用的值矩阵；

较佳地，所述深度强化学习网络为DQN网络或double DQN网络。

较佳地，在所述深度强化学习网络单元中，评估网络的输出为所述当前题库中每个题目的选择概率，将选择概率最大的题目作为所述深度强化学习网络的输出；

或者，

在所述深度强化学习网络单元中，评估网络的输出为所述当前题库中每个知识点的选择概率，将选择概率最大的知识点对应的题目作为候选题目；在所有候选题目中，根据所述候选题目的依赖关系和所述候选题目的预期答案选择所述深度强化学习网络本次输出的题目；其中，所述知识点与题目的对应关系和题目间的依赖关系是根据所述知识追踪模型生成的。

较佳地，在所述深度强化学习网络单元中，所述根据候选题目的预期答案选择所述深度强化学习网络本次输出的题目包括：

基于所述上一题目的实际答题结果，若第一候选题目取预期答案的概率超过设定的阈值，则将所述任一候选题目从候选题目中删除。

较佳地，所述深度强化学习网络训练单元包括：评估网络子单元、后处理子单元、目标网络子单元和经验记忆池子单元；

所述知识追踪模型单元，用于接收所述后处理子单元输出的题目，将该题目及其实际答题结果输入所述预先生成的所述知识追踪模型，对所述知识追踪模型当前使用的值矩阵进行更新；还用于将更新前的值矩阵按列求和后得到的向量作为旧状态S，将更新后的值矩阵按列求和得到的向量作为新状态S'输入所述评估网络子单元，将更新后的值矩阵的所有元素之和作为奖励，将所述评估网络子单元输出的题目作为动作a；将旧状态、新状态、奖励和动作组成四元组数据存入所述经验记忆池子单元；

所述评估网络子单元，用于根据输入的新状态，利用评估网络输出各题目的选择概率或各知识点的选择概率；还用于根据目标网络输出的损失函数更新所述评估网络的参数；

所述后处理子单元，用于接收所述评估网络输出的各题目的选择概率，将选择概率最大的题目确定为下一个题目输出给所述知识追踪模型单元；或者，用于接收所述评估网络输出的各知识点的选择概率，根据选择概率最大的知识点在当前数据库中选择下一个题目输出给所述知识追踪模型单元；

所述目标网络子单元，用于从经验记忆池子单元选择四元组数据，利用目标网络计算损失函数，将所述损失函数发送给所述评估网络子单元；还用于按照设定的周期将所述目标网络更新为与所述评估网络相同。

较佳地，在所述后处理子单元中，所述根据选择概率最大的知识点在当前数据库中选择下一个题目包括：

将选择概率最大的知识点对应的题目作为候选题目；在所有候选题目中，根据所述候选题目的依赖关系和所述候选题目的预期答案选择所述深度强化学习网络本次输出的题目；其中，所述知识点与题目的对应关系和题目间的依赖关系是根据所述知识追踪模型生成的。

较佳地，在所述后处理子单元中，所述根据候选题目的预期答案选择所述深度强化学习网络本次输出的题目包括：

较佳地，在所述知识追踪模型单元中，确定所述当前题库中各个题目与知识点的对应关系的方式包括：

较佳地，在所述知识追踪模型单元中，所述确定当前题库中的每个题目与所有知识点的相关性包括：

较佳地，所述知识追踪模型单元还用于确定各个题目间的依赖关系；

其中，确定各个题目间的依赖关系的方式包括：

索引为j的题目对索引为l的题目的影响因子为若所述影响因子大于设定的第二阈值，则确定索引为l的题目对索引为j的题目有依赖性。

较佳地，该装置还包括知识追踪模型训练单元，用于进行所述知识追踪模型的训练；

其中，所述知识追踪模型的训练方式包括：

将所述知识增长v_t作为输入生成遗忘门e_t和输入门a_t；

较佳地，在所述知识追踪模型训练单元中进行所述知识追踪模型的训练时，在得到所述嵌入向量后、将所述嵌入向量与键矩阵M^k中的每个知识点对应的向量进行点积前，进一步将当前题目内容的句向量连接到所述嵌入向量，得到更新后的嵌入向量。

较佳地，在所述知识追踪模型训练单元中，所述第一神经网络为：

较佳地，在所述知识追踪模型训练单元中，生成遗忘门的方式包括：

e_t＝Sigmoid(E^Tv_t+b_e)；

生成输入门的方式包括：a_t＝Tanh(D^Tv_t+b_a)；

较佳地，在所述知识追踪模型训练单元中，

所述题目向量为Q维，对应于题库中的Q道题目，每个元素利用one-hot编码，用于标记当前题目的位置；其中，Q为题库中的题目总数；

所述答题结果利用one-hot编码，用于表示答题分数是否小于所述得分阈值。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现上述个性化出题方法。

一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述个性化出题方法。

在上述技术方案中，预先训练生成知识追踪模型和深度强化学习网络。在当前次训练深度强化学习网络时，将知识追踪模型作为所述深度强化学习网络的环境，将深度强化学习网络前次训练输出的题目作为知识追踪模型的输入，根据前次训练输出的题目对应的实际答题结果，更新知识追踪模型的值矩阵，将更新前的值矩阵按列求和后得到的向量作为旧状态，将更新后的值矩阵按列求和后得到的向量作为新状态，将更新后的值矩阵的所有元素之和作为奖励。在生成深度强化学习网络后，在需要为第一学习者在当前题库选择新题目时，将新题目的上一题目及第一学习者对上一题目的实际答题结果，输入预先生成的知识追踪模型；根据第一学习者对上一题目的实际答题结果，更新知识追踪模型当前使用的值矩阵；将更新后的值矩阵按列求和后得到的向量作为状态，输入训练好的深度强化学习网络，深度强化学习网络在当前题库中选择一个题目作为输出，并将输出的题目作为新题目，提供给第一学习者。通过上述方式，利用深度强化学习网络，可以根据第一学习者对当前题库知识掌握的能力成长轨迹，针对学习者的特点进行出题，提高出题质量。

附图说明

图1为本申请中个性化出题方法的整体架构示意图；

图2为本申请中个性化出题的基本方法流程图；

图3为本申请实施例中个性化出题方法的流程示意图；

图4为本申请实施例中训练知识追踪模型的架构示意图；

图5为题目与知识点对应关系的示意图；

图6为利用有向图表示题目间相互依赖关系的示例图；

图7为评估网络的基本结构；

图8为个性化出题装置的基本结构示意图；

图9为深度强化学习网络训练单元的基本结构示意图；

图10为本申请中电子设备的基本结构示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

背景技术介绍的出题方法无法根据学习者的特点、基础、学习进度以及知识盲区定值个性化的学习路径和方法，从而做到因材施教。基于此，本申请的基本思想在于：构建一个模型，对学习者对当前题库的知识掌握程度进行实时追踪；再根据学习者的知识掌握水平进行个性化题目推荐。

本申请中个性化出题方法的整体架构如图1所示，个性化的基本方法流程如图2所示，具体包括：

步骤201，在需要为第一学习者在当前题库选择新题目时，将新题目的上一题目及第一学习者对上一题目的实际答题结果，输入预先生成的知识追踪模型。

其中，知识追踪模型是将题库中的若干题目和若干学习者对相应题目的答题结果作为训练数据进行训练生成的。具体地，可以通过整理题库和学习者对于题库中各个题目的历史作答情况构建数据集，然后使用数据集训练知识追踪模型。该知识追踪模型能够对学习者对知识掌握程度进行实时追踪。

步骤202，根据第一学习者对上一题目的实际答题结果，更新知识追踪模型当前使用的值矩阵。

在知识追踪模型中包括值矩阵，用于反映对于各个知识点的掌握程度。因此，在每次输入一个题目及其实际答题结果后，都需要基于输入的题目和答题结果对这个值矩阵进行更新，也就是将本次输入所隐含的对相关知识点的掌握程度更新到值矩阵中。

步骤203，将更新后的值矩阵按列求和后得到的向量作为状态，输入训练好的深度强化学习网络，深度强化学习网络在当前题库中选择一个题目作为输出，并将输出的题目作为新题目。

其中，深度强化学习网络是将深度神经网络与强化学习算法相结合的神经网络，该网络能够在与环境的交互中根据获得的奖励不断的学习和泛化知识，更加适应环境。本申请中，知识追踪模型作为训练深度强化学习网络的环境；在每次训练深度强化学习网络时，将深度强化学习网络前次训练输出的题目作为知识追踪模型的输入，根据前次训练输出的题目对应的实际答题结果，更新知识追踪模型的值矩阵，将更新前的值矩阵按列求和后得到的向量作为旧状态，将更新后的值矩阵按列求和后得到的向量作为新状态，将更新后的值矩阵的所有元素之和作为奖励，将深度强化学习网络的输出作为动作。通过上述方式，将对于学习者知识掌握程度的实时追踪用于深度强化学习网络，使深度强化学习网络选择的下一个题目是根据对学习者的当前知识掌握水平来进行的。

至此，本申请中最基本的个性化出题方法流程结束。下面通过具体实施例介绍上述个性化出题方法的具体实现。

图3为本申请实施例中个性化出题方法的流程示意图。由图2的描述可见，本申请中个性化出题方法需要基于两个神经网络模型：知识追踪模型和深度强化学习网络；这两个神经网络都需要提前训练生成，在图3所示的实施例中将两个网络的训练过程和利用训练好的两个神经网络进行个性化出题的过程一起介绍。其中，以房地产行业中的经纪人培训出题为例进行说明。如图3所示，该方法包括：

步骤301，预先构造训练数据集。

对于题库中的题目，经纪人在答完每道题后都会获得一个相应的分数，系统按照统一的标准将经纪人的得分表示为一个数据，将其称为经纪人的答题结果。本实施例中，将经纪人的得分进行one-hot编码，编码结果就是答题结果。具体地，可以设定一个得分阈值，当经纪人的得分大于或等于该得分阈值时，编码结果为1，可以表示题目回答正确；当经纪人的得分小于该得分阈值时，编码结果为0，可以表示题目回答错误。将经纪人的答题结果与相应题目对应保存。

题库中的各个题目可以通过Q维向量q_j来表示，其中，j为题目索引，Q为题库中的题目总数。向量中每个元素对应题库中的一个题目位置，q_j中与该题目相应位置的元素取1，其余位置的元素取0。例如，对于题库中的第一个题目，该题目向量中第一个元素为1，其余元素均为0。

通过上述方式能够将每个题目和经纪人对题目的答题结果表示出来，将每个题目和任一经纪人对于该题目的答题结果构成一个二元组{q_j,x_j,m}，将所有题目和所有作答结果形成的二元组组成训练数据集。其中，x_j,m表示索引为m的经纪人对于索引为j的题目的答题结果。

步骤302，预先利用步骤301的训练数据集训练生成知识追踪模型。

知识追踪通过对学习者的知识进行建模，一般用来预测学习者在未来的互动中将如何表现。本申请中主要用来构建题库对应的知识体系。

本实施例使用如图4所示的模型从经纪人与出题系统交互的数据中学习知识体系。在每个时间步，将题目标记q_t作为输入，输出结果为相应题目回答正确的预测概率p₅。然后使用题目和实际的答题情况(q₅，r₅)来更新记忆矩阵M^v。所有练习对应的潜在知识点存储在键矩阵M^k中，每个知识点的掌握程度存储在值矩阵即记忆矩阵M^v中，通过输入题目与键矩阵的相关性对值矩阵进行读写。下面对具体训练过程进行详细描述：

1)将当前题目表示为题目向量q_t作为模型的输入；

其中，t为当前时刻的索引；这里的题目向量q_t也就是前述步骤301训练数据集中的题目向量q_j，只是这里下角标用于标记该题目向量是在索引为t的时刻进行的模型输入。

2)利用嵌入矩阵A对输入的题目向量q_t进行维度压缩，得到嵌入向量k_t；

通过一个嵌入(embedding)矩阵A(Q*d_k)进行维度压缩得到embedding向量k_t。其中，d_k表示嵌入向量k_t的维度。为更好地体现题目，可选地，还可以将题目内容的句向量连接到k_t，形成更新后的k₅，增强表征能力。在后续的各种处理中，可以都使用初始的嵌入向量k₅，也可以都使用连接题目内容句向量进行更新后的嵌入向量k₅。

3)将嵌入向量k_t与键矩阵M^k中的每个知识点对应的向量M^k(i)进行点积，再对点积结果利用softmax函数进行激活处理，得到当前题目与每个知识点的相关性ω_t(i)构成的向量；

使用经过embedding处理之后的只带有题目概念的输入数据k_t与知识记忆矩阵中的每个向量M^k(i)进行点积，得到一个向量W，该向量W的长度等同于矩阵M^k(i)中的向量个数，该向量W经过Softmax层之后即是权重向量。Softmax作为激活函数，使输出的权重向量中各元素之和为1。权重向量中的每个元素ω_t(i)表示了当前题目与每个潜在知识点的相关性，即其中，i为知识点索引。

通过上述1)～3)的处理计算出值矩阵的读取和写入向量，即权重向量。

4)利用当前题目与每个知识点的相关性ω_t(i)和前一时刻t-1更新的值矩阵中每个知识点对应的向量计算得到对当前题目的掌握程度r_t；

当题目q₅到来时，根据步骤3)得到的ω_t(i)，通过每个值矩阵中记忆块的加权和表示要读取的内容。如下：

计算得到的r₅可以看做学习者对当前题目的整体掌握程度(一个题目可能涉及到多个知识点)。其中，N表示知识点的个数。

5)将对当前题目的掌握程度r_t和嵌入向量k_t连接起来作为第一神经网络的输入，利用第一神经网络对当前题目回答正确的概率进行预测，输出答对当前题目的预测概率p_t；

由于每个题目都有自己的难度，可以将r₅与k₅连接起来表示学习者的掌握水平和当前题目的难度，利用连接后的向量作为输入经过第一神经网络预测当前题目回答正确的概率。具体神经网络的架构可以根据需要进行选择。下面给出一个示例：

首先，将r₅与k₅连接起来传递给全连接层来获取总体向量f₅，其中包含了学习者的掌握水平和当前题目的难度，即其中，和b₁分别为全连接层的权重矩阵和偏移量，Tanh为权重为的全连接层之后的激活函数；

接下来，利用f₅预测学习者的表现，即其中，和b₂分别为全连接层的权重矩阵和偏移量，Sigmoid为权重为的全连接层之后的激活函数。

至此，可以得到对于时刻t的输入题目q₅的预测结果p_t。接下来，在学习者回答问题q₅后，模型将根据经纪人对于当前题目q_t的实际答题结果x_t更新值矩阵。

通过上述4)～5)的处理实现了值矩阵的读过程。

6)利用预测概率p_t、实际答题结果x_t和嵌入矩阵B，确定完成当前题目后的知识增长v_t；

联合嵌入(q_t；x_t)将被写入记忆缓存的值矩阵部分，所使用的权重与值矩阵读过程的权重相同。将元组(q_t，x_t)中的元素进行one-hot编码，利用大小为2Q×dv的嵌入矩阵B进行维度压缩，得到向量v_t，以在完成当前题目后获得学习者的知识增长v_t。

7)将知识增长v_t作为输入生成遗忘门e_t和输入门a_t；

当将经纪人的知识增长v_t写入值矩阵时，要先擦除值矩阵中不必要的信息，然后再添加新信息，也就是LSTM的遗忘门和输入门。

擦除向量e_t(也就是遗忘门)可以这样计算：e_t＝Sigmoid(E^Tv_t+b_e)；

添加向量a_t(也就是输入门)用来更新每个记忆块，可以这样计算：a_t＝Tanh(D^Tv_t+b_a)；

8)利用遗忘门、输入门、前一时刻t-1更新的值矩阵和当前题目与每个知识点的相关性ω_t(i)，确定当前时刻t更新的值矩阵

利用进行擦除的处理和利用进行添加的处理都需要用到写入向量。如前所述，写入向量与前述步骤4)中读取值矩阵的权重向量是相同的。

首先利用写入向量和遗忘门计算上一个时间步的值矩阵被更新如下：

再利用写入向量、输入门和上一个时间步更新后的值矩阵计算当前时刻t更新后的值矩阵

通过上述6)～8)的处理实现了值矩阵的写过程。

9)通过最小化预测概率和当前题目的实际答题结果间的标准交叉熵，对所述模型中的嵌入矩阵A、嵌入矩阵B、值矩阵M^v、键矩阵M^k、所述第一神经网络的参数、生成遗忘门的参数和生成输入门的参数进行训练。

在训练期间，通过最小化p_t和真实答题结果r_t之间的标准交叉熵损失来共同学习嵌入矩阵A、B、M^k、M^v及其他参数。其中，训练过程的损失函数为：

L＝-∑_t(r_tlogp_t+(1-r_t)log(1-p_t))。

根据损失函数值确定训练过程是否结束，若未结束，则更新模型的上述各参数，重复前述过程，直到训练结束为止。

步骤303，利用预先生成的知识追踪模型，生成知识体系。

本步骤是本申请实施例中的可选步骤。在后续深度强化学习网络中，如果评估网络输出的是题库中所有题目的选择概率，那么本步骤可以不包括在图3所示的流程中；如果评估网络输出的是题库中所有知识点的选择概率，那么本步骤需要包括在图3所示的流程中。

具体地，知识体系包括知识点发现和题目间依赖关系的生成。

1)知识点发现

利用训练好的嵌入矩阵A和每个题目的题目向量q_j，确定对应的嵌入向量k_j；将嵌入向量k_j与训练好的键矩阵M^k中的每个知识点对应的向量M^k(i)进行点积，再对点积结果利用softmax函数进行激活处理，得到索引为j的题目与每个知识点的相关性ω_j(i)，即

这里，嵌入向量是对应某个题目的，为区分不同题目对应的嵌入向量，将嵌入向量角标设定为题目索引j，实际上该嵌入向量k_j也就是前述的嵌入向量k_t。这样就得到了每个题目与各个知识点的相关性。然后，基于上述题目与知识点的相关性确定题目与知识点的对应关系。本实施例中，一个题目对应一个知识点，当然本申请的实现可以不限制于此。具体地，本实施例中，确定题目与知识点对应关系的方式可以包括：

对于每个题目，可以在与该题目相关的所有知识点中确定出相关性最大的知识点，在二者间建立对应关系；

或者，对于每个题目，可以根据该题目与所有知识点之间的相关性，使用无监督算法(例如t-SNE)确定出该题目对应的知识点。

图5给出了题目与知识点对应关系的示意图。其中，每组图像代表一个知识点，带编号的圆圈表示题目，圆圈中的数字代表题号，圆圈之间的连线代表。。

2)题目间的依赖关系

确定各个题目间的依赖关系的具体方式可以包括：

在知识追踪模型中，在第一时间步输入索引为j的题目对应生成的题目向量q_j以及相应的答题结果为回答正确，即(q_G,1)作为输入；在第二时间步输入索引为l的题目对应生成的题目向量q_l，输出该题目的答对概率作为条件概率p(l|j)；索引为j的题目对索引为l的题目的影响因子为若影响因子大于设定的依赖阈值，则确定索引为l的题目对索引为j的题目有依赖性。

其中，确定依赖关系时，知识追踪模型的值矩阵为知识追踪模型训练完成时最后更新的值矩阵。

通过上述方式可以得到各个题目间的相互影响因子，构成邻接矩阵，表征所有题目间的相互依赖关系，可以通过有向图来表示。图6给出了一个利用有向图表示题目间相互依赖关系的示例，其中，带编号的圆圈表示题目，圆圈中的数字代表题号，编号i的圆圈指向编号j的圆圈表示题目j对题目i有依赖性，圆圈间连线的粗细表示依赖关系的轻重。

步骤304，利用步骤302训练生成的知识追踪模型作为深度强化学习网络的环境，训练深度强化学习网络。

本申请实施例中，将步骤302训练生成的知识追踪模型作为深度强化学习网络的环境来模拟经纪人，与深度强化学习网络进行交互，从而完成深度强化学习网络的训练。本实施例中，以double DQN网络结构作为深度强化学习网络为例，来说明深度强化学习网络的训练过程。当然，本申请中的深度强化学习网络不仅限于double DQN网络，还可以是其他深度强化学习网络结构，例如DQN网络，本申请对此不作限定。

在介绍深度强化学习网络的训练过程之前，首先介绍一下深度强化学习网络的几个要素：

1)智能体

智能体对应深度强化学习网络中的强化学习部分(如图1所示的doubleDQN部分)，由神经网络中的参数进行隐式表示。智能体主要有两方面作用：根据环境(本申请中的知识追踪模型)状态进行动作选择(本申请中的选择下一个题目)；根据经验记忆池中的数据优化动作选择策略(本申请中的题目选择策略)；

2)环境

环境是智能体作用的对象，即本申请中的知识追踪模型，该环境通过模拟经纪人实现与智能体之间的交互。环境的作用主要是根据智能体的动作做出反馈，反应的结果主要有：新状态、奖励、训练是否结束标识。其中，新状态——由原状态经过某动作过渡到新状态；奖励——动作的输入或者状态改变带来的标量反馈；结束标识——训练过程到达设定的结束状态或达到一定训练次数；

3)状态

状态用于描述环境的情况，本申请中，对知识追踪模型的记忆内存M^v(即值矩阵)按列求和得到一个N维向量，使用该向量来表示状态，向量的维度N等于隐含知识点的个数，状态中包含了经纪人对知识的当前掌握程度；

4)动作

深度强化学习网络利用状态作为输入进行动作选择，即输出下一个问题。

5)奖励

智能体的动作带来的实时收益，这个收益本身也取决于环境的设计。本实施例中的奖励设置为经纪人答完某个问题之后，对全部知识点的掌握程度，这个奖励可以对应为记忆内存M^v全部元素之和。

下面介绍深度强化学习网络的具体训练过程。

深度强化学习网络的训练仍然使用多个学习者对当前题库的作答情况进行。在每步训练开始前，若本步训练为首次输入新的学习者的答题数据，也就是本步训练开始启用新的学习者的数据，那么首先使用一定范围的随机值初始化环境状态，目的是模拟学生对知识掌握程度的差异。也就是说，在训练开始前，将知识追踪模型的值矩阵中的元素初始化为一定范围内的随机值。然后智能体根据环境的状态(S)进行动作选择，推荐下一个问题(a)，此时环境(知识追踪模型)通过这个动作a过渡到一个新的状态(S’)(即通过动作a输入知识追踪模型)，计算出一个奖励值(r)，同时输出是否结束的标识。如果未结束，则将旧状态、新状态、动作和奖励合并为一个四元组(S，S'，a，r)加入到经验记忆池用于智能体的训练。之后，智能体会根据新状态进行下一个动作的选择。如此交替训练，直到训练达到结束状态。另外，整个训练是一个连续的过程，原状态和新状态之间往往存在关联，并不相互独立。为了消除训练数据之间的联系，经常使用的技术就是经验回放，对经验记忆池中的四元组数据进行打乱并随机抽取，用于计算是否结束训练。

具体地，在本实施例中，强化学习部分选择doubleDQN网络。doubleDQN网络的结构示意图如图1的虚线框内部分所示，具体包括一个经验记忆池和两个结构、参数均相同的神经网络，其中一个是评估网络，另一个是目标网络，结构如图7所示。评估网络，负责接收状态作为输入，输出动作；目标网络用于降低过拟合。评估网络和目标网络可以是单层或多层神经网络。doubleDQN通过目标网络作为优化目标，实现网络参数的更新。评估网络每一步训练都要进行参数更新，目标网络不随评估网络进行同步更新，而是在训练一定步数之后更新一次，更新方式为复制评估网络的参数。利用目标网络计算目标Q值的方式为：

将上述doubleDQN网络结合到前述训练过程中，则完整的训练包括：在单步训练中，评估网络接收知识追踪模型输入的状态S，输出所有问题或所有知识点的选择概率，后处理单元根据评估网络输出的所有选择概率选择下一个题目a，反馈给知识追踪模型；知识追踪模型根据选择的题目a，更新值矩阵得到新的状态S'和奖励值r，目标网络从经验记忆池中随机选择若干四元组，计算损失函数L和目标Q值，并判断是否结束训练，若未结束训练，将旧状态、新状态、动作和奖励合并为一个四元组(S，S'，a，r)加入到经验记忆池，更新评估网络参数，将新状态输入评估网络，继续进行下一步训练。在此过程中，每完成若干步训练，在进行评估网络参数更新后，将目标网络更新为与评估网络相同。

另外，在上述处理中提到评估网络的输出可以是所有题目的选择概率，也可以是所有知识点的选择概率。对于这两种不同的输出，后续根据输出的选择概率选择下一个题目a的处理也会有所不同。

具体地，当评估网络输出所有题目的选择概率(通常针对当前题库中题目数量较少的情况)时，评估网络的输出层节点个数等于所有题目的个数。这种情况下，直接将选择概率最大的题目作为深度强化学习网络输出的题目，也就是下一个题目。

当评估网络输出所有知识点的选择概率(通常针对当前题库中题目数量较多的情况)时，评估网络的输出层节点个数等于所有知识点的个数。这种情况下，需要使用前述步骤303得到的知识体系来选择下一个题目。更详细地，可以确定评估网络输出的选择概率最大的知识点，将该知识点对应的题目作为候选题目；在所有候选题目中，根据候选题目的依赖关系和候选题目的预期答案选择深度强化学习网络本次输出的题目。一般地，候选题目对其他题目的依赖性越强，该候选题目被选中的优先级可以越低。

根据预期答案选择输出题目的具体方式可以包括：基于上一题目的实际答题结果，若第一候选题目取预期答案的概率超过设定的阈值，则将第一候选题目从候选题目中删除。例如，根据知识体系可知上一题A答错的前提下题目B答错的概率为90％，大于设定的阈值85％，也就是说如果题目A答错那么题目B答错的概率非常大，那么如果上一题A的实际答题结果为错误、且候选题目中包括题目B，则将题目B从候选题目中删除，下一题不会选择题目B。

步骤305，在需要为第一学习者在当前题库选择新题目时，将新题目的上一题目及第一学习者对上一题目的实际答题结果，输入预先生成的知识追踪模型。

这里开始为实际的某个学习者(称为第一学习者)进行个性化出题。在给出新题目前，将该第一学习者回答的上一题目及其答题结果输入知识追踪模型，以更新当前使用的值矩阵。

如果不存在上一题目，也就是本次出题为利用本申请的方法首次为第一学习者出题，那么可以根据该第一学习者在当前题库中已完成的题目以及实际答题结果，确定知识追踪模型当前使用的值矩阵。具体确定当前使用的值矩阵的方式可以包括：当第一学习者在当前题库中已完成的题目不为零时，将知识追踪模型的值矩阵中的元素设置为随机值，将第一学习者在当前题库中已完成的题目及相应的实际答题结果，按照答题顺序依次输入知识追踪模型，知识追踪模型在每次接收输入后更新值矩阵，将根据最后一道已完成题目及相应的实际答题结果输入知识追踪模型并更新后的值矩阵，作为知识追踪模型当前使用的值矩阵；当第一学习者在当前题库中已完成的题目为零时，也就是说没有做过相关训练，则认为第一学习者对于当前题库知识点完全没有掌握，将知识追踪模型当前使用的值矩阵中的元素设置为随机值。

步骤306，根据第一学习者对上一题目的实际答题结果，更新知识追踪模型当前使用的值矩阵。

上一题目及其实际答题结果反映出第一学习者对知识点最新掌握情况的变化，利用其更新知识追踪模型当前使用的值矩阵，确定最新状态。

步骤307，将更新后的值矩阵按列求和后得到的向量作为状态，输入训练好的深度强化学习网络，深度强化学习网络在当前题库中选择一个题目作为输出，并将输出的题目作为第一学习者的新题目。

本步骤中利用步骤304训练得到的深度强化学习网络，为第一学习者输出新题目。

至此，图3所示的方法流程结束。通过上述本申请的具体实现可见，本申请的个性化出题方法能够对学习者的知识掌握程度进行实时追踪，并根据学习者自身的知识掌握水平进行个性化题目推荐。

本申请还提供了一种个性化出题装置，可以用于实现上述本申请中个性化出题方法。图8为智能生成套题装置的基本结构示意图。如图8所示，最简单地，该装置包括：知识追踪模型单元、深度强化学习网络单元和深度强化学习网络训练单元。

其中，知识追踪模型单元，用于在需要为第一学习者在当前题库选择新题目时，将新题目的上一题目及第一学习者对上一题目的实际答题结果，输入预先生成的知识追踪模型；根据第一学习者对上一题目的实际答题结果，更新知识追踪模型当前使用的值矩阵；还用于将更新后的值矩阵按列求和后得到的向量作为状态发送给深度强化学习网络单元；其中，知识追踪模型是根据当前题库中的各个题目及多个学习者对各个题目的实际答题结果训练生成的。

深度强化学习网络单元，用于将接收的状态输入训练好的深度强化学习网络，深度强化学习网络在当前题库中选择一个题目作为输出，将输出的题目作为新题目。

深度强化学习网络训练单元，用于训练得到所述深度强化学习网络。其中，在训练深度强化学习网络时，将知识追踪模型作为深度强化学习网络的环境；在每次训练深度强化学习网络时，将深度强化学习网络前次训练输出的题目作为知识追踪模型的输入，根据前次训练输出的题目对应的实际答题结果，更新知识追踪模型的值矩阵，将更新前的值矩阵按列求和后得到的向量作为旧状态，将更新后的值矩阵按列求和后得到的向量作为新状态，将更新后的值矩阵的所有元素之和作为奖励，将深度强化学习网络的输出作为动作。

可选地，在知识追踪模型单元中，在首次为第一学习者选择新题目时，根据第一学习者在所述当前题库中已完成的题目以及实际答题结果，确定知识追踪模型当前使用的值矩阵。

可选地，在知识追踪模型单元中，确定知识追踪模型当前使用的值矩阵可以包括：

当已完成的题目不为零时，将知识追踪模型的值矩阵中的元素值初始化为随机值，将第一学习者在当前题库中已完成的题目及相应的实际答题结果，按照答题顺序依次输入知识追踪模型，知识追踪模型在每次接收输入后更新值矩阵，将根据最后一道已完成题目及相应的实际答题结果输入所述知识追踪模型并更新后的值矩阵，作为知识追踪模型当前使用的值矩阵；当已完成的题目为零时，将知识追踪模型当前使用的值矩阵中的元素设定为随机值。

可选地，深度强化学习网络为DQN网络或double DQN网络。

可选地，在深度强化学习网络单元中，评估网络的输出可以为当前题库中每个题目的选择概率，将选择概率最大的题目作为深度强化学习网络的输出；或者，

在深度强化学习网络单元中，评估网络的输出为当前题库中每个知识点的选择概率，将选择概率最大的知识点对应的题目作为候选题目；在所有候选题目中，根据所述候选题目的依赖关系和所述候选题目的预期答案选择所述深度强化学习网络本次输出的题目；其中，知识点与题目的对应关系和题目间的依赖关系是根据知识追踪模型生成的。

可选地，在深度强化学习网络单元中，根据候选题目的预期答案选择深度强化学习网络本次输出的题目的方式可以包括：基于上一题目的实际答题结果，若第一候选题目取预期答案的概率超过设定的阈值，则将任一候选题目从候选题目中删除。

为实现知识追踪模型和深度强化学习神经网络的训练，图8所示的出题装置还可以包括深度强化学习网络训练单元，图9为该深度强化学习网络训练单元的结构示意图。如图9所示，该深度强化学习网络训练单元包括：评估网络子单元、后处理子单元、目标网络子单元和经验记忆池子单元；

其中，知识追踪模型单元，用于接收后处理子单元输出的题目，将该题目及其实际答题结果输入所述预先生成的所述知识追踪模型，对所述知识追踪模型当前使用的值矩阵进行更新；还用于将更新前的值矩阵按列求和后得到的向量作为旧状态S，将更新后的值矩阵按列求和得到的向量作为新状态S'输入所述评估网络子单元，将更新后的值矩阵的所有元素之和作为奖励，将所述评估网络子单元输出的题目作为动作a；将旧状态、新状态、奖励和动作组成四元组数据存入所述经验记忆池子单元。

评估网络子单元，用于根据输入的新状态，利用评估网络输出各题目的选择概率或各知识点的选择概率；还用于根据目标网络输出的损失函数更新所述评估网络的参数。

后处理子单元，用于接收所述评估网络输出的各题目的选择概率，将选择概率最大的题目确定为下一个题目输出给所述知识追踪模型单元；或者，用于接收所述评估网络输出的各知识点的选择概率，根据选择概率最大的知识点在当前数据库中选择下一个题目输出给所述知识追踪模型单元。

目标网络子单元，用于从经验记忆池子单元选择四元组数据，利用目标网络计算损失函数，将所述损失函数发送给评估网络子单元；还用于按照设定的周期将目标网络更新为与评估网络相同。

可选地，在后处理子单元中，根据选择概率最大的知识点在当前数据库中选择下一个题目的方式可以包括：

将选择概率最大的知识点对应的题目作为候选题目；在所有候选题目中，根据候选题目的依赖关系和候选题目的预期答案选择所述深度强化学习网络本次输出的题目；其中，知识点与题目的对应关系和题目间的依赖关系是根据知识追踪模型生成的。

可选地，在后处理子单元中，根据候选题目的预期答案选择深度强化学习网络本次输出的题目的方式包括：基于上一题目的实际答题结果，若第一候选题目取预期答案的概率超过设定的阈值，则将任一候选题目从候选题目中删除。

可选地，在知识追踪模型单元中，确定当前题库中各个题目与知识点的对应关系的方式可以包括：利用知识追踪模型确定当前题库中的每个题目与所有知识点的相关性；对于每个题目，确定与该题目相关性最大的知识点，在二者间建立对应关系；或者，对于每个题目，根据该题目与所有知识点之间的相关性，使用无监督算法确定出该题目对应的知识点。

可选地，在知识追踪模型单元中，确定当前题库中的每个题目与所有知识点的相关性的方式可以包括：利用训练好的嵌入矩阵A和每个题目的题目向量q_j，确定对应的嵌入向量k_j；其中，j为题目索引；将嵌入向量k_j与训练好的键矩阵M^k中的每个知识点对应的向量进行点积，再对点积结果利用softmax函数进行激活处理，得到索引为j的题目与每个知识点的相关性ω_j(i)。

可选地，知识追踪模型单元还用于确定各个题目间的依赖关系；

其中，确定各个题目间的依赖关系的方式包括：

在知识追踪模型中，在第一时间步输入索引为j的题目对应生成的题目向量q_j以及相应的答题结果为回答正确；在第二时间步输入索引为l的题目对应生成的题目向量q_l，输出该题目的答对概率作为条件概率p(l|j)；

可选地，该装置还可以包括知识追踪模型训练单元，用于进行知识追踪模型的训练。其中，知识追踪模型的训练方式可以包括：

将当前题目表示为题目向量q_t作为所述模型的输入；其中，t为当前时刻的索引；

将嵌入向量k_t与键矩阵M^k中的每个知识点对应的向量M^k(i)进行点积，再对点积结果利用softmax函数进行激活处理，得到当前题目与每个知识点的相关性ω_t(i)构成的向量；其中，i为知识点的索引；

利用当前题目与每个知识点的相关性ω_t(i)和前一时刻t-1更新的值矩阵中每个知识点对应的向量计算得到对当前题目的掌握程度r_t；

将对当前题目的掌握程度r_t和所述嵌入向量k_t连接起来作为第一神经网络的输入，利用所述第一神经网络对当前题目的答对正确率进行预测，输出答对当前题目的预测概率p_t；

利用预测概率p_t、实际答题结果x_t和嵌入矩阵B，确定完成当前题目后的知识增长v_t；

将知识增长v_t作为输入生成遗忘门e_t和输入门a_t；

利用遗忘门、输入门、前一时刻t-1更新的值矩阵和当前题目与每个知识点的相关性ω_t(i)，确定当前时刻t更新的值矩阵

通过最小化预测概率和当前题目的实际答题结果间的标准交叉熵，对模型中的嵌入矩阵A、嵌入矩阵B、值矩阵M^v、键矩阵M^k、第一神经网络的参数、生成遗忘门的参数和生成输入门的参数进行训练。

可选地，在知识追踪模型训练单元中进行知识追踪模型的训练时，在得到嵌入向量后、将嵌入向量与键矩阵M^k中的每个知识点对应的向量进行点积前，进一步将当前题目内容的句向量连接到嵌入向量，得到更新后的嵌入向量。

可选地，在知识追踪模型训练单元中，第一神经网络为：

可选地，在所述知识追踪模型训练单元中，生成遗忘门的方式包括：

e_t＝Sigmoid(E^Tv_t+b_e)；

生成输入门的方式包括：a_t＝Tanh(D^Tv_t+b_a)；

可选地，在知识追踪模型训练单元中，所述题目向量为Q维，对应于题库中的Q道题目，每个元素利用one-hot编码，用于标记当前题目的位置；其中，Q为题库中的题目总数；所述答题结果利用one-hot编码，用于表示答题分数是否小于得分阈值。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述个性化出题方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例各设备/装置/系统所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。其中，在计算机可读存储介质中存储指令，其存储的指令在由处理器执行时可执行如上所述个性化出题方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时可以实现如上所述个性化出题方法中的步骤。

如图10所示，本发明实施例还提供一种电子设备。如图10所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器1002的程序时，可以实现个性化出题方法。

具体的，实际应用中，该电子设备还可以包括电源1003、输入输出单元1004等部件。本领域技术人员可以理解，图10中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器1002可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

该电子设备还包括给各个部件供电的电源1003，可以通过电源管理系统与处理器1001逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入输出单元1004，该输入单元输出1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出1004还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种个性化出题方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在首次为所述第一学习者选择新题目时，根据所述第一学习者在所述当前题库中已完成的题目以及实际答题结果，确定所述知识追踪模型当前使用的值矩阵。

3.根据权利要求2所述的方法，其特征在于，所述确定所述知识追踪模型当前使用的值矩阵包括：

4.根据权利要求1所述的方法，其特征在于，在训练所述深度强化学习网络时，若本步训练为首次输入新的学习者的答题数据，则将所述知识追踪模型中值矩阵的各元素初始化为随机值。

5.根据权利要求1所述的方法，其特征在于，所述深度强化学习网络为DQN网络或double DQN网络。

6.根据权利要求5所述的方法，其特征在于，在训练所述深度强化学习网络时，所述深度强化学习网络中的目标网络在计算损失函数时从经验记忆池中随机选择旧状态S、新状态S'、上一题目、奖励四元组。

7.根据权利要求5所述的方法，其特征在于，在所述深度强化学习网络中，评估网络的输出为所述当前题库中每个题目的选择概率，将选择概率最大的题目作为所述深度强化学习网络的输出；

或者，

8.根据权利要求7所述的方法，其特征在于，所述根据候选题目的预期答案选择所述深度强化学习网络本次输出的题目包括：

9.根据权利要求6所述的方法，其特征在于，确定所述当前题库中各个题目与知识点的对应关系的方式包括：

10.根据权利要求1所述的方法，其特征在于，所述知识追踪模型的训练方式包括：

将所述知识增长v_t作为输入生成遗忘门e_t和输入门a_t；

11.根据权利要求10所述的方法，其特征在于，在得到所述嵌入向量后、将所述嵌入向量与键矩阵M^k中的每个知识点对应的向量进行点积前，该方法进一步包括：

12.根据权利要求10所述的方法，其特征在于，所述第一神经网络为：

13.根据权利要求10所述的方法，其特征在于，生成遗忘门的方式包括：

e_t＝Sigmoid(W^Tv_t+b_e)；

生成输入门的方式包括：a_t＝Tanh(D^Tv_t+b_a)；

其中，W^T和b_e为生成遗忘门时的权重矩阵和偏移量，D^T和b_a为生成遗忘门时的权重矩阵和偏移量。

14.根据权利要求10所述的方法，其特征在于，所述题目向量为Q维，对应于题库中的Q道题目，每个元素利用one-hot编码，用于标记当前题目的位置；其中，Q为题库中的题目总数；

15.根据权利要求10所述的方法，其特征在于，该方法进一步包括：利用所述知识追踪模型确定当前题库中的每个题目与所有知识点的相关性；具体方式包括：

16.根据权利要求7所述的方法，其特征在于，所述确定各个题目间的依赖关系包括：

索引为j的题目对索引为l的题目的影响因子为若所述影响因子大于设定的依赖阈值，则确定索引为l的题目对索引为j的题目有依赖性；其中，Q为所述题目向量的维度。

17.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现权利要求1～16任一项所述个性化出题方法。

18.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1～16任一项所述个性化出题方法。