CN112184089B

CN112184089B - 试题难度预测模型的训练方法、装置、设备及存储介质

Info

Publication number: CN112184089B
Application number: CN202011351167.4A
Authority: CN
Inventors: 何明; 周清; 陈晓倩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09
Anticipated expiration: 2040-11-27
Also published as: CN112184089A

Abstract

本申请提出试题难度预测模型的训练方法、装置、设备及存储介质，其中方法包括：确定试题库中各个试题的试题价值；根据试题价值，从试题库中选取训练样本集合；将训练样本集合划分为第一集合和第二集合；获取第一集合中各个试题的专家标记难度，并获取第二集合中各个试题的算法学习难度；根据专家标记难度和算法学习难度，确定训练样本集合中各个试题的最终难度；利用训练样本集合中各个试题的最终难度及特征向量，训练试题难度预测模型。本申请实施例能够融合专家知识和数据知识，降低计算量，并提高试题难度预测模型的准确性。

Description

试题难度预测模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及试题难度预测模型的训练方法、装置、设备及存储介质。

背景技术

在学习/教学过程中，试题是其中最为重要的学习资源之一，而随着试题库中试题数量的海量增长，带来一个极为重要的问题，即大多数试题缺乏难度信息，导致在实际学习和应用中难以为学生选择和推荐适当的题目，难以很好地保证学生的学习效果。目前为止，虽然存在一些试题难度自动预测或学习方案，但都存在这样或那样的问题，如计算量过大、准确性不足、无法有效地融合专家知识和数据知识等，使得实际的应用过程中，难以较好地满足实际的用户和产品需求，限制了既有方案的适用场景和使用范围。

发明内容

本申请实施例提供一种试题难度预测模型的训练方法、装置、设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种试题难度预测模型的训练方法，包括：

确定试题库中各个试题的试题价值；

根据试题价值，从试题库中选取训练样本集合；

将训练样本集合划分为第一集合和第二集合；

获取第一集合中各个试题的专家标记难度，并获取第二集合中各个试题的算法学习难度；

根据专家标记难度和算法学习难度，确定训练样本集合中各个试题的最终难度；

利用训练样本集合中各个试题的最终难度及特征向量，训练试题难度预测模型。

在一种实施方式中，确定试题的试题价值，包括：

确定试题的全局重要性分值和质量分值；其中，全局重要性分值指示试题对试题多样性的贡献程度，质量分值指示试题的质量；

利用全局重要性分值和质量分值计算试题的试题价值。

在一种实施方式中，确定试题的全局重要性分值，包括：

针对预定知识点，挑选包含预定知识点的多个试题；

从至少一个维度，确定多个试题在维度上的不同类别的分布情况；并针对多个试题中的特定试题，确定特定试题在维度上所属的类别；

根据特定试题在维度上所属的类别、以及维度的不同类别的分布情况，确定特定试题在维度上对试题多样性的贡献程度；

根据特定试题在所有维度上对试题多样性的贡献程度，确定特定试题的全局重要性分值。

在一种实施方式中，维度包括题型、知识点数量、考察层级中的至少一项；其中，

题型的类别包括单选题、多选题、填空题及问答题；

知识点数量的类别包括一个、两个、三个及至少四个；

考察层级的类别包括识记、理解、综合及应用。

在一种实施方式中，确定试题的质量分值，包括：

确定试题的特征向量；

将试题的特征向量输入预先训练的试题质量标注模型，得到试题的质量分值。

在一种实施方式中，试题质量标注模型的训练方式包括：

获取多个样本试题的质量分值标记及特征向量；

采用逻辑斯蒂回归模型学习多个样本试题的质量分值标记与特征向量之间的函数关系，得到试题质量标注模型。

在一种实施方式中，其中，样本试题的质量分值标记与题目类型相关；

题目类型包括中高考试题、名校试题、普通学校期中或期末试题、以及一般练习题中的至少一项。

在一种实施方式中，其中，试题的特征向量的确定方式包括：

将试题的文本信息输入预先训练的来自变换器的双向编码器表征量（BERT）模型；

获取BERT模型输出的试题的特征向量。

在一种实施方式中，根据试题价值，从试题库中选取训练样本集合，包括：

根据试题价值对试题库中的试题进行排序；

选取试题价值最大的多个试题组成训练样本集合。

在一种实施方式中，将训练样本集合划分为第一集合和第二集合，包括：

确定第一模型的使用要求，其中，第一模型能够提供试题的算法学习难度；

将训练样本集合中不符合使用要求的试题划分至第一集合，将训练样本集合中符合使用要求的试题划分至第二集合。

在一种实施方式中，第一模型包括项目反应理论（IRT）模型，第一模型的使用要求包括：试题的作答次数大于或等于预定阈值。

在一种实施方式中，获取第二集合中各个试题的算法学习难度，包括：

将第二集合中的各个试题分别输入第一模型；

获取第一模型输出的各个试题的算法学习难度。

在一种实施方式中，根据专家标记难度和算法学习难度，确定训练样本集合中各个试题的最终难度，包括：

将专家标记难度的难度划分标准与算法学习难度的难度划分标准进行统一，得到训练样本集合中各个试题的最终难度。

在一种实施方式中，将专家标记难度的难度划分标准与算法学习难度的难度划分标准进行统一，得到训练样本集合中各个试题的最终难度，包括：

将第一集合中各个试题的专家标记难度映射到算法学习的难度维度上，得到第一集合中各个试题的最终难度；将第二集合中各个试题的算法学习难度作为第二集合中各个试题的最终难度；

或者，将第二集合中各个试题的算法学习难度映射到专家标记的难度维度上，得到第二集合中各个试题的最终难度；将第一集合中各个试题的专家标记难度作为第一集合中各个试题的最终难度。

在一种实施方式中，还包括，确定映射的映射关系；

确定映射关系的方式包括：

确定与预定试题相似的多个相似试题；

获取预定试题的第一难度、预定试题的第二难度、以及各个相似试题的第一难度；其中，第一难度为根据映射前的难度维度确定出的试题难度，第二难度为根据映射后的难度维度确定出的试题难度；

根据获取的内容确定映射关系。

在一种实施方式中，还包括：

分别对训练样本集合和试题库进行聚类操作；

针对聚类操作后的各个类别，在类别的训练样本数量不满足预定条件的情况下，扩充类别的训练样本；

采用扩充后的训练样本重新训练试题难度预测模型。

在一种实施方式中，还包括：

将待预测试题的特征向量输入试题难度预测模型，得到待预测试题的难度。

第二方面，本申请实施例提供了一种试题难度预测方法，包括：

确定待预测试题的特征向量；

将待预测试题的特征向量输入预先训练的试题难度预测模型；其中，试题难度预测模型采用上述各方面任一种实施方式中的方法训练得到；

获取试题难度预测模型输出的待预测试题的难度。

在一种实施方式中，确定待预测试题的特征向量，包括：

将待预测试题的文本信息输入预先训练的BERT模型；

获取BERT模型输出的待预测试题的特征向量。

第三方面，本申请实施例提供了一种试题难度预测模型的训练装置，包括：

样本自动挑选模块，用于确定试题库中各个试题的试题价值，根据试题价值，从试题库中选取训练样本集合；

试题难度专家标注模块，用于将训练样本集合划分为第一集合和第二集合；获取第一集合中各个试题的专家标记难度；

试题难度算法学习模块，用于获取第二集合中各个试题的算法学习难度；

难度对齐模块，用于根据专家标记难度和算法学习难度，确定训练样本集合中各个试题的最终难度；

难度自动学习网络模块，用于利用训练样本集合中各个试题的最终难度及特征向量，训练试题难度预测模型。

在一种实施方式中，样本自动挑选模块包括试题质量评估函数计算模块；

试题质量评估函数计算模块用于：

利用全局重要性分值和质量分值计算试题的试题价值。

在一种实施方式中，试题质量评估函数计算模块用于：

针对预定知识点，挑选包含预定知识点的多个试题；

题型的类别包括单选题、多选题、填空题及问答题；

知识点数量的类别包括一个、两个、三个及至少四个；

考察层级的类别包括识记、理解、综合及应用。

在一种实施方式中，试题质量评估函数计算模块用于：

确定试题的特征向量；

在一种实施方式中，试题质量评估函数计算模块用于：

获取多个样本试题的质量分值标记及特征向量；

在一种实施方式中，还包括试题特征提取模块；

试题特征提取模块用于：

将试题的文本信息输入预先训练的BERT模型；

获取BERT模型输出的试题的特征向量。

在一种实施方式中，样本自动挑选模块用于：

根据试题价值对试题库中的试题进行排序；

选取试题价值最大的多个试题组成训练样本集合。

在一种实施方式中，试题难度专家标注模块用于：

在一种实施方式中，第一模型包括IRT模型，第一模型的使用要求包括：试题的作答次数大于或等于预定阈值。

在一种实施方式中，试题难度算法学习模块，用于：

将第二集合中的各个试题分别输入第一模型；

获取第一模型输出的各个试题的算法学习难度。

在一种实施方式中，难度对齐模块，用于：

在一种实施方式中，难度对齐模块还用于：确定映射的映射关系；

确定映射关系的方式包括：

确定与预定试题相似的多个相似试题；

根据获取的内容确定映射关系。

在一种实施方式中，难度自动学习网络模块，还用于：

分别对训练样本集合和试题库进行聚类操作；

采用扩充后的训练样本重新训练试题难度预测模型。

在一种实施方式中，还包括：

第一难度自动学习模块，用于将待预测试题的特征向量输入试题难度预测模型，得到待预测试题的难度。

第四方面，本申请实施例提供了一种试题难度预测装置，包括：

提取模块，用于确定待预测试题的特征向量；

第二难度自动学习模块，用于将待预测试题的特征向量输入预先训练的试题难度预测模型；获取试题难度预测模型输出的待预测试题的难度；其中，试题难度预测模型采用上述各方面任一种实施方式中的方法训练得到。

在一种实施方式中，提取模块用于：

将待预测试题的文本信息输入预先训练的BERT模型；

获取BERT模型输出的待预测试题的特征向量。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：本申请实施例根据试题价值从试题库中选取训练样本集合，获取训练样本集合中的部分试题的专家标记难度、以及另外部分试题的算法学习难度，并根据获取的难度及试题的特征向量训练试题难度预测模型，从而能够很好地融合专家知识和数据知识，降低计算量，并提高试题难度预测模型预测试题难度的准确性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为本申请实施例提出的一种试题难度预测模型的训练方法实现流程图；

图2为本申请实施例提出的一种试题难度预测方法实现流程图；

图3为本申请实施例提出的基于混合知识的实体难度高精度自动计算方案的实现流程图；

图4为采用本申请实施例提出的融合置信度计算的难度自动学习网络模块进行模型训练的过程示意图；

图5为本申请实施例的一种试题难度预测模型的训练装置500的结构示意图；

图6为本申请实施例的一种试题难度预测装置600的结构示意图；

图7为本申请实施例的一种电子设备结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

为了解决现有试题难度学习方案的问题，本申请实施例提出了一种能够融合专家和数据知识且准确度和自动化程度都较高、计算量相对较低的试题难度预测方案。采用本申请实施例提出的方案能够提高实际的用户和产品学习体验，进而提高实际的学习效果。

本申请实施例提出一种试题难度预测模型的训练方法，该试题难度预测模型用于学习或预测试题的难度标签。在以下实施例中，用于训练试题难度预测模型的训练样本（即试题）称为样本试题、试题样本或样本。需要进行预测的数据（即试题）作为学习样本；举例而言，一道具有难度标签的试题，可以认为这道题是训练样本，而一道没有难度标签的试题，可以认为这道题是学习样本，因为它的难度是需要进行学习或预测才能得到的。

图1为本申请实施例提出的一种试题难度预测模型的训练方法实现流程图，包括：

步骤S101：确定试题库中各个试题的试题价值；

步骤S102：根据试题价值，从试题库中选取训练样本集合；

步骤S103：将训练样本集合划分为第一集合和第二集合；

步骤S104：获取第一集合中各个试题的专家标记难度，并获取第二集合中各个试题的算法学习难度；

步骤S105：根据专家标记难度和算法学习难度，确定训练样本集合中各个试题的最终难度；

步骤S106：利用训练样本集合中各个试题的最终难度及特征向量，训练试题难度预测模型。

在本申请实施例中，对试题价值的评估可以包含全局和自身两个维度。例如，上述步骤S101中，确定试题的试题价值包括以下步骤：

利用全局重要性分值和质量分值计算试题的试题价值。

具体地，上述确定试题的全局重要性分值可以包括：

针对预定知识点，挑选包含该预定知识点的多个试题；

从至少一个维度，确定多个试题在该维度上的不同类别的分布情况；并针对多个试题中的特定试题，确定该特定试题在该维度上所属的类别；

根据特定试题在该维度上所属的类别、以及该维度的不同类别的分布情况，确定该特定试题在该维度上对试题多样性的贡献程度；

根据该特定试题在所有维度上对试题多样性的贡献程度，确定该特定试题的全局重要性分值。

其中，上述维度可以包括题型、知识点数量、考察层级中的至少一项；其中，

题型的类别可以包括单选题、多选题、填空题及问答题；

知识点数量的类别可以包括一个、两个、三个及至少四个；

考察层级的类别可以包括识记、理解、综合及应用。

具体地，上述质量分值指的是试题本身的质量。确定试题的质量分值可以包括：

确定试题的特征向量；

其中，上述试题质量标注模型可以是预先训练的，其训练过程可以包括：

获取多个样本试题的质量分值标记及特征向量；

采用逻辑斯蒂回归模型学习所述多个样本试题的质量分值标记与特征向量之间的函数关系，得到所述试题质量标注模型。

具体地，上述样本试题的质量分值标记可以与题目类型相关；

该题目类型包括中高考试题、名校试题、普通学校期中或期末试题、以及一般练习题中的至少一项。

上述试题向量的确定方式可以包括：

将试题的文本信息输入预先训练的来自变换器的双向编码器表征量（BERT，Bidirectional Encoder Representations from Transformer）模型；

获取该BERT模型输出的试题的特征向量。

可选地，上述步骤S102中，根据试题价值，从试题库中选取训练样本集合，包括：

根据试题价值对试题库中的试题进行排序；

选取试题价值最大的多个试题组成训练样本集合。

可选地，上述步骤S103中，第一集合和第二集合的划分标准可以是第一模型的使用要求；其中，第一模型能够提供试题的算法学习难度。

具体划分方式可以包括：将训练样本集合中不符合上述使用要求的试题划分至第一集合，将训练样本集合中符合上述使用要求的试题划分至第二集合。

上述第一模型可以包括项目反应理论（IRT，Item Response Theory）模型。项目反应理论又称题目反应理论、潜在特质理论。IRT模型一类的模型对参与学习的试题的作答次数有一定的要求。因此，上述第一模型的使用要求可以包括：试题的作答次数大于或等于预定阈值。

上述步骤S103中，专家标记难度是由专家标记的试题的难度，算法学习难度是由第一模型给出的试题的难度，由于二者的难度划分标准不同，直接采用专家标记难度和算法学习难度进行训练可能导致模型的训练结果不理想。因此，上述步骤S104可以包括：

具体可以采用以下几种方式：

第一种，将第一集合中各个试题的专家标记难度映射到算法学习的难度维度上，得到第一集合中各个试题的最终难度；将第二集合中各个试题的算法学习难度作为第二集合中各个试题的最终难度；或者，

第二种，将第二集合中各个试题的算法学习难度映射到专家标记的难度维度上，得到第二集合中各个试题的最终难度；将第一集合中各个试题的专家标记难度作为第一集合中各个试题的最终难度；或者，

第三种，将第一集合中各个试题的专家标记难度以及第二集合中各个试题的算法学习难度都映射到另一个统一的难度维度上，得到第一集合和第二集合中各个试题的最终难度。

为了实现上述映射，需要确定相应的映射关系。

可选地，确定映射关系的方式可以包括：

针对预定题目，获取根据映射前的难度维度确定出的第一难度；

确定与该预定题目相似的多个相似题目，针对各个相似题目，获取根据映射后的难度维度确定出的第二难度；并针对该预定题目，获取根据映射后的难度维度确定出的第二难度；

根据该预定题目的第一难度、预定题目的第二难度、以及多个相似题目的第二难度，确定该映射关系。

上述映射关系的生成方式示例将在后续实施例中详细介绍。

采用上述方式训练完成试题难度预测模型之后，为了避免模型过时，本申请实施例可以根据置信度不断更新试题难度预测模型。例如，上述模型训练步骤之后，本申请实施例可以进一步包括：

分别对训练样本集合和试题库进行聚类操作；

针对聚类操作后的各个类别，在一个类别的训练样本数量不满足预定条件的情况下，扩充该类别的训练样本；

采用扩充后的训练样本重新训练该试题难度预测模型。

采用这种方式，一方面可以确保最终预测难度的精度，另一方面降低了计算资源和工作量，因为网络可以自动判断是否需要重新获得新训练样本，如果既有训练样本是足够的，就无需对网络重新进行训练，直接用旧网络即可。除非是试题样本的分布发生了较大变化，导致某个聚类中试题的训练样本不足，才会触发需要新训练样本，随后基于新训练样本对网络重新进行训练。因此，本申请智能化和自动化程度更高，并且需要标记的样本更少，无需对所有类别中的样本进行标记，只需要获得部分类别中训练样本不足的新训练样本即可。

采用训练完成的试题难度预测模型，可以对试题进行难度预测（或称难度学习）。图2为本申请实施例提出的一种试题难度预测方法实现流程图，包括：

步骤S201：确定待预测试题的特征向量；

步骤S202：将该待预测试题的特征向量输入预先训练的试题难度预测模型；其中，该试题难度预测模型可以采用上述方法训练得到；

步骤S203：获取该试题难度预测模型输出的待预测试题的难度。

其中，步骤S201中确定待预测试题的特征向量的可以包括：

将待预测试题的文本信息输入预先训练的BERT模型；

获取该BERT模型输出的待预测试题的特征向量。

综合上述模型训练方法和试题难度预测方法，本申请实施例提出的方案首先采用BERT模型对试题的特征向量进行学习和表征，获得较为准确的试题特征向量。随后，构建试题自动挑选模块，其中包含全局和自身两个维度的试题质量评估函数，能够对试题的价值进行准确且全面地评估，可以系统性地解决样本挑选的问题；同时也是为了更好地保证最终模型的训练效果，一方面能够对样本（即试题）进行自动评估和挑选，另一方面能够自动决定哪些样本需要专家进行标记，从而既提升了精度，又降低了专家的工作量，专家无需对所有样本都进行难度标记。接下来，为了解决专家难度和算法学习出的难度可能存在不一致导致后续模型学习的准确性存在不足的问题，设计了难度对齐模块，可基于实际的需要来决定专家标记难度和算法学习难度之间的映射关系，确保最终的训练样本的难度空间在一个尺度上。最后，为了解决现有方案中网络训练频率和精度之间难以调和的问题，设计融合了置信度计算单元的难度自动学习网络模块，该模块一方面可以确保最终预测难度的精度，另一方面降低了计算资源和工作量。因为网络可以自动判断是否需要重新获得新训练样本，如果既有训练样本是足够的，就无需对网络重新进行训练，直接用旧网络即可；并且需要标记的样本更少，因为无需对所有类别中的样本进行标记，只需要获得部分类别中训练样本不足的新训练样本即可。总结而言，本申请实施例的试题难度学习方案，通过样本质量计算模块、样本挑选模块、难度对齐函数、融合了置信度的试题难度网络学习模块等在降低计算量和样本量的前提下，显著提升了试题难度的计算精度，并提升了方案的智能化和自动化程度，可以明显地提升实际业务中试题难度预测的准确度和可用性。

以下结合附图3，对本申请实施例提出的技术方案进行详细介绍。图3为本申请实施例提出的基于混合知识的实体难度高精度自动计算方案的实现流程图，具体步骤如下所示：

步骤1：采用试题特征提取模块提取试题特征。

为了更为准确地获得试题的特征信息，现有技术一般采用使用试题的人为特征信息（如使用次数等），或采用循环神经网络（RNN，Recurrent Neural Network）或者多模态的方法进行特征的抽取。这些方法能够一定程度上抽取出试题的特征信息，但精度仍然存在不足。为了更为准确地获取试题的特征信息，本申请实施例采用目前在文本处理领域表现极为优异的BERT模型对试题进行特征提取。简单来说，将试题的文本信息作为BERT模型的输入，试题的知识点作为BERT的学习目标，通过对BERT模型进行简单的微调训练后，将BERT模型隐层的向量作为第

道试题的特征向量，记为

。BERT模型的训练和学习过程在此不进行过多阐述。

步骤2：采用样本自动挑选模块挑选用于训练试题难度预测模型的样本。

由于现有技术在样本选择方案中存在以下两个方面的问题：（1）挑选的方案过于简单粗暴，如直接根据试题的做题次数挑选，当大于某个值时就选择该试题，小于某个值时就舍弃该试题，导致最终挑选样本的质量和针对性都存在着严重的不足；（2）没有很好地结合数据知识和专家知识，从而导致最终训练得到的模型的精度存在不足。为了系统性地解决样本挑选的问题，同时也是为了更好地保证最终模型的训练效果，本申请实施例设计了一套系统性的样本自动挑选模块，一方面能够对样本（即试题）进行自动评估和挑选，另一方面能够自动决定哪些样本需要专家进行标记，从而既提升了精度，又降低了专家的工作量，专家无需对所有样本进行难度标记。具体而言，步骤2可以包括以下几个步骤：

步骤2-1：采用试题质量评估函数计算模块评估试题的质量。

为了更好地挑选试题样本，最为重要的是需要对试题的质量进行自动评估；为了准确评估出每道试题的质量，本申请实施例采用两个试题质量评估函数：（1）多样性评估函数，主要用于评估某道题对集合多样性的影响，影响越大，说明这道题越为重要；影响越小，表明这道题越不重要。该函数主要侧重于试题对全局层面影响的评估。因为在模型的训练过程中，需要尽量保证训练样本的分布是均匀的，避免过于集中在某一个区域内，这样会导致训练学习出的模型比较有偏，不具有泛化性，精度也难以保证；（2）纯质量评估函数，该函数主要用于评估试题自身质量如何，偏向于试题个体层面的评估。步骤2-1可以包括以下几个步骤：

步骤2-1-1：采用多样性评估函数，评估试题

对全局层面的影响。具体而言：

首先，针对知识点

，挑选出包含该知识点

的

道试题；

随后，分别统计出以下几个属性上试题的覆盖度：题型（

）、知识点数量(

)、考察层级(

)。其中，

中的各个元素分别表示在包含知识点

的

道题中，单选题、多选题、填空题、问答题这四种题型各自的试题覆盖度；

中的各个元素分别表示在包含知识点

的

道题中，只包含一个知识点、只包含两个知识点、只包含三个知识点、大于等于四个知识点的题目的各自覆盖度；

分别表示在包含知识点

的

道题中，考察识记、理解、综合、应用这四种层级的各自覆盖度。

以上覆盖度的计算方法可以为满足该条件的试题数量除以总试题数量

。

接下来，计算某道试题

对试题多样性的贡献值。基于试题

在题型、知识点数量、考察层级三个维度的取值，得到试题

在这三个属性所对应的试题覆盖度，并根据覆盖度的大小来得到

多试题多样性的贡献值

。

计算方式可以为，当试题

的题型

所对应的覆盖度

时，则试题

在题型多样性上的贡献值为0，因为在整个试题集合中，说明题型

的题目的覆盖度超过了均值，也就是多余的题目价值不会太大，删掉一道这个题型的题目对整个集合多样性的影响不大；反过来，当试题

的题型

所对应的覆盖度

时，则试题

在题型多样性上的贡献值为1，因为在整个试题集合中，说明题型

的题目的覆盖度小于均值，也就是删掉一道这个题型的题目对整个集合多样性的影响较大，因为本身这种题型的题目数量占比就比较少。以此类推，可以得到试题

在题型、知识点数量以及考察等级三个属性上对试题多样性的贡献值，将这三个贡献值进行加和并进行归一化，如采用以下式子（1）：

, (1)

其中，

表示试题

在题型上对试题多样性的贡献值，

表示试题

在知识点数量上对试题多样性的贡献值，

表示试题

在考察层级上对试题多样性的贡献值。

最后，基于以上步骤得到了试题

在知识点

所包含的

道题目上的全局层面的贡献度/价值。

步骤2-1-1：采用纯质量评估函数，评估试题

自身的质量。

直观地，不同的试题的质量自身存在着较大的差异，有些题目质量较高，而有些题目质量较差。但在实际应用中，缺乏一些具有试题质量的标记数据。若引入专家进行标记，所需要的人力成本非常高。本申请实施例采取一种较为准确且不损失可信度的方案对试题的质量进行自动学习和标注，最为核心的思想是引入题目的类型。易于理解地，中/高考、名校所出的试题、期中期末所考的试题等的质量概率意义上来说质量应会大于平时的练习题等。基于此观察，引入一种自动的试题质量学习算法方案。具体而言：

首先，基于题目类型对题目质量进行分档，例如，历年中、高考题的分值记为1、名校所出的试题分值记为0.75、普通学校的期中/期末试题质量分值记为0.5、一般的练习题分值记为0.25。从而，构建了用于学习试题质量的有标记数据；

随后，基于步骤1所学习出的每个试题的特征向量以及上述步骤所构建的有标记数据，采用逻辑斯蒂回归模型学习试题特征与试题质量分值之间的函数关系，得到试题质量标注模型，该模型的函数如式子（2）所示：

,（2）

其中，

为试题特征的相应权重。

最后，基于上述步骤所学习出的试题质量标注模型对将大多数没有标记质量分值的试题的质量进行学习，得到第

道试题的质量分值，记为

。

步骤2-1-3：基于步骤2-1-1和步骤2-1-2的试题全局重要性分值和自身的质量分值，可以得到第

道题的价值大小，如采用如下式子（3）确定：

(3)

其中，

为第

道题的试题价值，

为试题全局重要性分值对应的权重，

为试题自身质量分值对应的权重。可以基于实际的业务需求进行针对性的调整，例如，假如认为全局重要性更重要，可以设置

；若需要两者一样重要，则可设置

。

步骤2-2：采用试题挑选模块挑选用于训练试题难度预测模型的样本。具体地：

基于步骤2-1可以得到每道题目的价值大小

。基于题目价值大小进行排序，挑选一定数量的题目（如挑选的题目的数量为

，可基于实际需求进行调整）组成训练样本集合，用于训练试题难度预测模型。显而易见，基于步骤2-1的质量评估模块，可以更为系统、更为精确地挑选出高质量的试题，可以保证后续试题难度的学习更为准确、更为有效；

步骤2-3：采用试题难度专家标注模块，对训练样本集合中的部分试题进行专家标注。具体而言：

由于在接下来的步骤3中需要采用IRT一类的模型对试题的难度参数进行学习，而IRT一类的模型对参与学习的试题的作答次数有一定的要求。由于价值大的题目的作答次数不一定满足IRT模型的需求，因此需要对这部分高价值的题目进行专家标记。具体地，可以统计步骤2-2所选择的每道题目的作答次数，记为

。其中，

为第t道题的作答次数。挑选出作答次数小于阈值

的题目，并由专家对这部分题目的难度进行专家标注，记为

。可见，相比于传统的试题难度学习方法，本申请实施例一方面经过价值函数评估和作答次数两次挑选后，可以大规模地降低专家的人力成本，无需针对所有的题目进行专家标记，只需要对一小部分题目进行标记即可，既节省了成本，又提高了效率；另一方面，相比于现有的试题难度学习方案，要么是求助专家对所有题目进行标记，要么直接采用某个算法对难度进行学习，不管是哪种方案都存在着一定的不足，纯算法方案没有很好地融合专家领域知识，而且不具有针对性，学习出的难度很多时候难以直接使用。纯专家标记既面临着工作量过大，也面临着人为主观的影响。而本申请实施例很好地融合了专家知识和数据知识，即部分题目由专家来标记，另一部分题目可以基于学生实际作答情况来进行学习（该部分将在后续步骤3中详细介绍）。

步骤3：采用试题难度算法学习模型预测另外一部分试题的算法学习难度。具体而言：

在步骤2-3中，从挑选出的作答集合

中挑选出作答次数>=

的题目，记为

。由于作答次数满足IRT一类算法的训练要求，故而可以直接采用IRT模型对集合

中的试题难度参数进行学习，学习到的难度记为

。相比于直接采用IRT模型对试题难度进行学习，本方案的优势在于参与训练的试题样本的多样性和质量都是经过自动化方法挑选而出，能够避免参与学习的训练数据质量不高、有偏等问题，提升了难度学习的准确度。

步骤4：采用难度对齐模块将上述步骤2-3中专家标记难度的难度划分标准与上述步骤2中算法学习难度的难度划分标准进行统一，得到训练样本集合中各个试题的最终难度。

具体地，基于步骤2-3和步骤3可以得到所选择的高质量试题集合

中所有试题对应的难度。如果直接将专家标记的试题难度和算法学习出的试题难度进行结合，作为后续的训练学习样本，这种方法虽然简单，但精度和可信程度存在一定的不足。自然地，专家标记的难度和算法学习出的难度并不能一一对应，因为两者虽然都输出了试题的难度信息，但人与算法在标记过程中难免存在差异。为了进一步提升后续难度算法学习的精度，本申请实施例特设计了难度对齐模块，将专家标记的难度映射到算法学习的难度上，或者将算法学习的难度映射到专家标记的难度维度上，从而保证了后续参与训练的样本数据的难度在同一个尺度上，避免既存在人工标记的难度维度、又存在算法学习出的难度维度，对模型学习带来干扰。具体是采用将专家标记的难度映射到算法学习的难度上，还是将算法学习出的难度映射到专家标记的难度上，可基于实际情况确定。

具体地，可以预先确定出上述映射的映射关系；之后在进行难度对齐采用该映射关系进行映射。

确定映射关系的方式可以包括以下步骤：

（1）确定与预定试题相似的多个相似试题；

（2）获取该预定试题的第一难度、预定试题的第二难度、以及各个相似试题的第一难度；其中，该第一难度为根据映射前的难度维度确定出的试题难度，第二难度为根据映射后的难度维度确定出的试题难度；

（3）根据获取的内容确定该映射关系。

在进行难度对齐时，可以使用上述映射关系进行难度映射，例如包括以下步骤：

（1）针对预定题目，确定与该预定试题相似的多个相似试题；

（2）获取该预定题目的第一难度、各个相似试题的第一难度，并采用上述映射关系确定该预定题目的第二难度。

上述第一难度为根据映射前的难度维度确定出的试题难度，第二难度为根据映射后的难度维度确定出的试题难度。因此，针对算法学习难度到专家标记难度的映射关系，一个试题的第一难度是指由上述试题难度算法学习模型预测出的算法学习难度，第二难度是指专家标记难度。反之，针对专家标记难度到算法学习难度的映射关系，一个试题的第一难度是指由专家给出的专家标记难度，第二难度是指算法学习难度。

接下来，具体介绍上述两种难度对齐方案：

步骤4-1：将专家标记难度映射到算法学习出的难度。具体地，基于步骤1学习出的试题的特征向量，计算由专家标记的试题与由算法学习的试题t之间的余弦相似度，选择专家标记的试题中与试题t的相似度最大的5个试题（具体数量可基于实际情况调整），记为

，这5个试题与试题t的相似度分别为

。这5个试题的专家标记难度分别为

，则专家标记的试题t的难度映射到算法难度上的值采用以下式子（4）计算：

(4)

其中，

表示由专家标记的题目

映射到算法难度上的值，

到

分别表示各个值上的权重，用于学习专家标记难度和算法学习难度之间的映射关系。需要特别注意的是，为了进一步提升映射学习的精度，本申请实施例将第

道题自身的专家标记难度

也作为一个维度的输入，以更好地学习两个难度之间的映射关系。为了获得有监督的算法训练数据，可以由专家对部分由算法学习出的题目的难度再进行一次专家标注，从而形成了可进行模型训练的学习样本。该映射方案实现了以下两个方面的目标：（1）通过考虑试题特征自身的信息以及试题之间的相似度，并将相似度作为一种权重引入到映射函数中，提升了映射的精度；（2）通过同时引入最为相似的多道题，而非一道题，再次提升了映射的精度和泛化性，因为只用一道相似题有可能会使得学习结果有偏差。

步骤4-2：将算法学习出的难度映射到专家标记的难度。与步骤4-1类似，只需要在选择试题的时候反向操作即可。具体而言，基于步骤1学习出的试题特征向量计算由算法学习的试题与由专家标记难度的试题之间的余弦相似度，从算法学习难度的试题中选择与试题t的相似度最大的5个试题（具体数量可基于实际情况调整），记为

，这5个试题与试题t相似度分别为

。这5个试题的算法学习难度分别为

，则试题t的算法学习难度映射到专家标记难度上的值采用以下式子（5）计算：

, (5)

其中，

表示由算法学习出难度的题目

映射到专家标记难度上的值，

到

分别表示各个值上的权重，

为试题t的算法学习难度。

步骤4-3：基于上述的难度映射函数（公式4或5，具体选择哪个可基于实际业务来定，本申请实施例假设将专家标记的难度映射到算法学习的难度空间上），将所有专家标记试题的难度映射到算法学习的难度空间上，则可以得到所有挑选出的高质量试题所对应的算法难度，记为

。

本申请实施例的难度对齐函数可以自动将由专家标记的难度或算法学习的难度映射到另一个难度尺度上，一方面提升了灵活性，可基于实际的业务需求选择是以专家难度为主还是以算法难度为主；另一方面，提升了后续模型学习的精度，避免了同时存在算法学习难度和专家标记难度，给模型学习带来干扰，导致精度不足的问题；再者，可以使得统一后的难度既融合了专家知识又融合了数据知识，再次提升了模型的可拓展性和精确性。

步骤5：采用融合置信度计算的难度自动学习网络模块，对试题难度预测模型进行训练。具体而言：

基于步骤1获得的试题特征向量和步骤4获得的高质量试题难度对齐后的难度信息，可得到训练样本集合：

。

相比于现有的神经网络学习方案，本申请实施例提供的难度自动学习网络模块中融合了置信度计算单元，主要用于评估训练样本是否足以学习无标签（即没有难度信息）试题。自然地，在实际的应用中，一个网络训练好后，会用来对没有标签的样本进行学习和训练。但是这个使用的过程中会存在一个挑战，即由于试题库的不断扩充，固定的网络难以满足不断出现的试题的难度预测需求。为了应对这一问题，现有技术一般采用两种解决方式：第一种，定时采用一些新的有监督样本对网络重新进行训练；第二种，较长时间都采用同一个训练好的模型，对参数不进行更新。这两种方案都存在一定的不足，第一种方案需要较大的计算量和计算资源，也不够智能，很多时候并没有必要更新那么频繁；第二种方案会导致模型过时，在新样本的学习上可能会存在精度不足的问题。基于此，本申请实施例设计了融合置信度计算的难度自动学习网络模块，图4为采用本申请实施例提出的融合置信度计算的难度自动学习网络模块进行模型训练的过程示意图，具体可以包括以下步骤：

步骤5-1：基于训练样本集合：

对神经网络DiffNN进行学习，将特征

作为输入，难度

作为输出，得到训练好的神经网络DiffNN。

步骤5-2：将所有训练样本和待学习的样本进行聚类，得到

个聚类结果。聚类方法可采用已有的聚类方法，这里不进行过多阐述。

步骤5-3：统计每个聚类结果中训练样本的数量，假如训练样本的数量小于某个阈值

，则较大概率表明这个类别中的训练样本不足，也就会导致最终训练得到的试题难度预测模型可能无法较好地学习出这一类试题的难度；因为参与训练的试题数量不足，即表明对这类试题学习出的难度的置信度不够高。为了提高这类试题的难度预测置信度，需要增加这类试题的训练样本数量。此时，可直接从这类试题样本中基于试题质量挑选出一定数量的题目，重新进行步骤2、步骤3和步骤4，即增加这类试题的训练样本数量，提高这类样本的难度预测精度。假如某个聚类中的训练样本数量大于或等于阈值

，则表明这类试题的训练样本足以保证训练的试题难度预测模型可以很好地捕捉这类试题的特征与难度之间的映射关系，即能够确保这类试题难度的最终预测精度。

步骤5-4：基于步骤5-3的逻辑，对每个聚类进行判断，条件满足的聚类可以不做任何处理，条件不满足的聚类需要进行训练样本补充。

步骤5-5：基于步骤5-4之后，可以确保每个聚类中的训练样本数量都是足够的，可以保证最终无难度标记题目的预测精度。

基于本申请实施例提出的融合了置信度计算的难度自动学习网络，一方面可以确保最终预测难度的精度，另一方面降低了计算资源和工作量；因为网络可以自动判断是否需要重新获得新训练样本，如果既有训练样本是足够的，就无需对网络重新进行训练，直接用旧网络即可。除非是试题样本的分布发生了较大变化，导致某个聚类中试题的训练样本不足，才会触发需要新训练样本，随后基于新训练样本对网络重新进行训练。据此可知，该方案的智能化和自动化程度更高，并且需要标记的样本更少，因为无需对所有类别中的样本进行标记，只需要获得部分类别中训练样本不足的新训练样本即可。

步骤6：采用难度自动学习模块学习（或称预测）试题的难度。具体地：

针对一道没有难度标签的试题，将通过步骤1所获得的该试题的特征向量直接作为步骤5中训练得到的试题难度预测模型的输入内容，可直接输出该试题的难度信息。

综上可见，本申请实施例的试题难度学习方案，通过样本质量计算模块、样本挑选模块、难度对齐函数、融合了置信度的试题难度网络学习模块等模块，在降低计算量和样本量的前提下，显著提升了试题难度的计算精度，并提升了方案的智能化和自动化程度，可以较好地应用于实际工作中。此外，通过有机地融合专家知识和算法知识，进一步提升了方案的可扩展性和精确性。

本申请实施例还提出一种试题难度预测模型的训练装置，图5为本申请实施例的一种试题难度预测模型的训练装置500的结构示意图，包括：

样本自动挑选模块501，用于确定试题库中各个试题的试题价值，根据试题价值，从试题库中选取训练样本集合；

试题难度专家标注模块502，用于将训练样本集合划分为第一集合和第二集合；获取第一集合中各个试题的专家标记难度；

试题难度算法学习模块503，用于获取第二集合中各个试题的算法学习难度；

难度对齐模块504，用于根据专家标记难度和算法学习难度，确定训练样本集合中各个试题的最终难度；

难度自动学习网络模块505，用于利用训练样本集合中各个试题的最终难度及特征向量，训练试题难度预测模型。

可选地，样本自动挑选模块501包括试题质量评估函数计算模块；

试题质量评估函数计算模块用于：

利用全局重要性分值和质量分值计算试题的试题价值。

可选地，试题质量评估函数计算模块用于：

针对预定知识点，挑选包含预定知识点的多个试题；

可选地，维度包括题型、知识点数量、考察层级中的至少一项；其中，

题型的类别包括单选题、多选题、填空题及问答题；

知识点数量的类别包括一个、两个、三个及至少四个；

考察层级的类别包括识记、理解、综合及应用。

可选地，试题质量评估函数计算模块用于：

确定试题的特征向量；

可选地，试题质量评估函数计算模块用于：

获取多个样本试题的质量分值标记及特征向量；

可选地，其中，样本试题的质量分值标记与题目类型相关；

可选地，还包括试题特征提取模块；

试题特征提取模块用于：

将试题的文本信息输入预先训练的BERT模型；

获取BERT模型输出的试题的特征向量。

可选地，样本自动挑选模块501用于：

根据试题价值对试题库中的试题进行排序；

选取试题价值最大的多个试题组成训练样本集合。

可选地，试题难度专家标注模块502用于：

可选地，第一模型包括IRT模型，第一模型的使用要求包括：试题的作答次数大于或等于预定阈值。

可选地，试题难度算法学习模块503，用于：

将第二集合中的各个试题分别输入第一模型；

获取第一模型输出的各个试题的算法学习难度。

可选地，难度对齐模块504，用于：

可选地，难度对齐模块504还用于：确定映射的映射关系；

确定映射关系的方式包括：

确定与预定试题相似的多个相似试题；

根据获取的内容确定映射关系。

可选地，难度自动学习网络模块505，还用于：

分别对训练样本集合和试题库进行聚类操作；

采用扩充后的训练样本重新训练试题难度预测模型。

可选地，还包括：

本发明实施例各装置中的各模块的功能可以参见上述试题难度预测模型的训练方法中的对应描述，在此不再赘述。

本申请实施例还提出一种试题难度预测装置，图6为本申请实施例的一种试题难度预测装置600的结构示意图，包括：

提取模块601，用于确定待预测试题的特征向量；

第二难度自动学习模块602，用于将待预测试题的特征向量输入预先训练的试题难度预测模型；获取试题难度预测模型输出的待预测试题的难度；其中，试题难度预测模型采用上述各方面任一种实施方式中的方法训练得到。

可选地，提取模块601用于：

将待预测试题的文本信息输入预先训练的BERT模型；

获取BERT模型输出的待预测试题的特征向量。

本发明实施例各装置中的各模块的功能可以参见上述试题难度预测方法中的对应描述，在此不再赘述。

图7为本申请实施例的一种电子设备结构示意图，包括：存储器710和处理器720，存储器710内存储有可在处理器720上运行的计算机程序。处理器720执行该计算机程序时实现上述实施例中的汉字拼音转换方法或汉字拼音转换模型的训练方法。存储器710和处理器720的数量可以为一个或多个。

该自动评分设备还包括：

通信接口730，用于与外界设备进行通信，进行数据交互传输。

如果存储器710、处理器720和通信接口730独立实现，则存储器710、处理器720和通信接口730可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器710、处理器720及通信接口730集成在一块芯片上，则存储器710、处理器720及通信接口730可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory ，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种试题难度预测模型的训练方法，其特征在于，包括：

确定试题库中各个试题的试题价值；其中，确定所述试题的试题价值，包括：确定所述试题的全局重要性分值和质量分值；其中，所述全局重要性分值指示所述试题对试题多样性的贡献程度，所述质量分值指示所述试题的质量；利用所述全局重要性分值和所述质量分值计算所述试题的试题价值；

根据所述试题价值，从所述试题库中选取训练样本集合；

将所述训练样本集合划分为第一集合和第二集合；

获取所述第一集合中各个试题的专家标记难度，并获取所述第二集合中各个试题的算法学习难度；

根据所述专家标记难度和算法学习难度，确定所述训练样本集合中各个试题的最终难度；

利用所述训练样本集合中各个试题的最终难度及特征向量，训练所述试题难度预测模型。

2.根据权利要求1所述的方法，其特征在于，确定所述试题的全局重要性分值，包括：

针对预定知识点，挑选包含所述预定知识点的多个试题；

从至少一个维度，确定所述多个试题在所述维度上的不同类别的分布情况；并针对所述多个试题中的试题，确定所述试题在所述维度上所属的类别；

根据所述试题在所述维度上所属的类别、以及所述维度的不同类别的分布情况，确定所述试题在所述维度上对试题多样性的贡献程度；

根据所述试题在所有维度上对试题多样性的贡献程度，确定所述试题的全局重要性分值。

3.根据权利要求2所述的方法，其特征在于，所述维度包括题型、知识点数量、考察层级中的至少一项；其中，

所述题型的类别包括单选题、多选题、填空题或问答题；

所述知识点数量的类别包括一个、两个、三个或至少四个；

所述考察层级的类别包括识记、理解、综合或应用。

4.根据权利要求1所述的方法，其特征在于，确定所述试题的质量分值，包括：

确定所述试题的特征向量；

将所述试题的特征向量输入预先训练的试题质量标注模型，得到所述试题的质量分值。

5.根据权利要求4所述的方法，其特征在于，所述试题质量标注模型的训练方式包括：

获取多个样本试题的质量分值标记及特征向量；

6.根据权利要求5所述的方法，其特征在于，其中，所述样本试题的质量分值标记与题目类型相关；

所述题目类型包括中高考试题、名校试题、普通学校期中或期末试题、以及一般练习题中的至少一项。

7.根据权利要求1至6任一所述的方法，其特征在于，其中，所述试题的特征向量的确定方式包括：

将所述试题的文本信息输入预先训练的来自变换器的双向编码器表征量BERT模型；

获取所述BERT模型输出的所述试题的特征向量。

8.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述试题价值，从所述试题库中选取训练样本集合，包括：

根据所述试题价值对试题库中的试题进行排序；

选取试题价值最大的多个试题组成所述训练样本集合。

9.根据权利要求1至6任一所述的方法，其特征在于，所述将所述训练样本集合划分为第一集合和第二集合，包括：

确定第一模型的使用要求，其中，所述第一模型能够提供试题的算法学习难度；

将所述训练样本集合中不符合所述使用要求的试题划分至第一集合，将所述训练样本集合中符合所述使用要求的试题划分至第二集合。

10.根据权利要求9所述的方法，其特征在于，所述第一模型包括项目反应理论IRT模型，所述第一模型的使用要求包括：试题的作答次数大于或等于预定阈值。

11.根据权利要求9所述的方法，其特征在于，所述获取所述第二集合中各个试题的算法学习难度，包括：

将所述第二集合中的各个试题分别输入所述第一模型；

获取所述第一模型输出的各个试题的算法学习难度。

12.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述专家标记难度和算法学习难度，确定所述训练样本集合中各个试题的最终难度，包括：

将所述专家标记难度的难度划分标准与所述算法学习难度的难度划分标准进行统一，得到所述训练样本集合中各个试题的最终难度。

13.根据权利要求12所述的方法，其特征在于，所述将所述专家标记难度的难度划分标准与所述算法学习难度的难度划分标准进行统一，得到所述训练样本集合中各个试题的最终难度，包括：

将所述第一集合中各个试题的专家标记难度映射到算法学习的难度维度上，得到所述第一集合中各个试题的最终难度；将所述第二集合中各个试题的算法学习难度作为所述第二集合中各个试题的最终难度；

或者，将所述第二集合中各个试题的算法学习难度映射到专家标记的难度维度上，得到所述第二集合中各个试题的最终难度；将所述第一集合中各个试题的专家标记难度作为所述第一集合中各个试题的最终难度。

14.根据权利要求13所述的方法，其特征在于，还包括，确定所述映射的映射关系；

确定映射关系的方式包括：

确定与预定试题相似的多个相似试题；

获取所述预定试题的第一难度、所述预定试题的第二难度、以及各个所述相似试题的第一难度；其中，所述第一难度为根据映射前的难度维度确定出的试题难度，所述第二难度为根据映射后的难度维度确定出的试题难度；

根据获取的内容确定所述映射关系。

15.根据权利要求1至6任一所述的方法，其特征在于，还包括：

分别对所述训练样本集合和试题库进行聚类操作；

针对聚类操作后的各个类别，在所述类别的训练样本数量不满足预定条件的情况下，扩充所述类别的训练样本；

采用扩充后的训练样本重新训练所述试题难度预测模型。

16.根据权利要求1至6任一所述的方法，其特征在于，还包括：

将待预测试题的特征向量输入所述试题难度预测模型，得到所述待预测试题的难度。

17.一种试题难度预测方法，其特征在于，包括：

确定待预测试题的特征向量；

将所述待预测试题的特征向量输入预先训练的试题难度预测模型；其中，所述试题难度预测模型采用权利要求1至15任一所述的方法训练得到；

获取所述试题难度预测模型输出的待预测试题的难度。

18.根据权利要求17所述的方法，其特征在于，所述确定待预测试题的特征向量，包括：

将所述待预测试题的文本信息输入预先训练的BERT模型；

获取所述BERT模型输出的所述待预测试题的特征向量。

19.一种试题难度预测模型的训练装置，其特征在于，包括：

样本自动挑选模块，用于确定试题库中各个试题的试题价值，根据所述试题价值，从所述试题库中选取训练样本集合；

试题难度专家标注模块，用于将所述训练样本集合划分为第一集合和第二集合；获取所述第一集合中各个试题的专家标记难度；

试题难度算法学习模块，用于获取所述第二集合中各个试题的算法学习难度；

难度对齐模块，用于根据所述专家标记难度和算法学习难度，确定所述训练样本集合中各个试题的最终难度；

难度自动学习网络模块，用于利用所述训练样本集合中各个试题的最终难度及特征向量，训练所述试题难度预测模型；

所述样本自动挑选模块包括试题质量评估函数计算模块；

所述试题质量评估函数计算模块用于：

确定所述试题的全局重要性分值和质量分值；其中，所述全局重要性分值指示所述试题对试题多样性的贡献程度，所述质量分值指示所述试题的质量；

利用所述全局重要性分值和所述质量分值计算所述试题的试题价值。

20.根据权利要求19所述的装置，其特征在于，所述试题质量评估函数计算模块用于：

针对预定知识点，挑选包含所述预定知识点的多个试题；

21.根据权利要求20所述的装置，其特征在于，所述维度包括题型、知识点数量、考察层级中的至少一项；其中，

所述题型的类别包括单选题、多选题、填空题或问答题；

所述知识点数量的类别包括一个、两个、三个或至少四个；

所述考察层级的类别包括识记、理解、综合或应用。

22.根据权利要求19所述的装置，其特征在于，所述试题质量评估函数计算模块用于：

确定所述试题的特征向量；

23.根据权利要求22所述的装置，其特征在于，所述试题质量评估函数计算模块用于：

获取多个样本试题的质量分值标记及特征向量；

24.根据权利要求23所述的装置，其特征在于，其中，所述样本试题的质量分值标记与题目类型相关；

25.根据权利要求19至24任一所述的装置，其特征在于，还包括试题特征提取模块；

所述试题特征提取模块用于：

将所述试题的文本信息输入预先训练的BERT模型；

获取所述BERT模型输出的所述试题的特征向量。

26.根据权利要求19至24任一所述的装置，其特征在于，所述样本自动挑选模块用于：

根据所述试题价值对试题库中的试题进行排序；

选取试题价值最大的多个试题组成所述训练样本集合。

27.根据权利要求19至24任一所述的装置，其特征在于，所述试题难度专家标注模块用于：

28.根据权利要求27所述的装置，其特征在于，所述第一模型包括IRT模型，所述第一模型的使用要求包括：试题的作答次数大于或等于预定阈值。

29.根据权利要求27所述的装置，其特征在于，所述试题难度算法学习模块，用于：

将所述第二集合中的各个试题分别输入所述第一模型；

获取所述第一模型输出的各个试题的算法学习难度。

30.根据权利要求19至24任一所述的装置，其特征在于，所述难度对齐模块，用于：

31.根据权利要求30所述的装置，其特征在于，所述难度对齐模块，用于：

32.根据权利要求31所述的装置，其特征在于，所述难度对齐模块还用于：确定所述映射的映射关系；

确定映射关系的方式包括：

确定与预定试题相似的多个相似试题；

根据获取的内容确定所述映射关系。

33.根据权利要求19至24任一所述的装置，其特征在于，所述难度自动学习网络模块，还用于：

分别对所述训练样本集合和试题库进行聚类操作；

采用扩充后的训练样本重新训练所述试题难度预测模型。

34.根据权利要求19至24任一所述的装置，其特征在于，还包括：

第一难度自动学习模块，用于将待预测试题的特征向量输入所述试题难度预测模型，得到所述待预测试题的难度。

35.一种试题难度预测装置，其特征在于，包括：

提取模块，用于确定待预测试题的特征向量；

第二难度自动学习模块，用于将所述待预测试题的特征向量输入预先训练的试题难度预测模型；获取所述试题难度预测模型输出的待预测试题的难度；其中，所述试题难度预测模型采用权利要求1至15任一所述的方法训练得到。

36.根据权利要求35所述的装置，其特征在于，所述提取模块用于：

将所述待预测试题的文本信息输入预先训练的BERT模型；

获取所述BERT模型输出的所述待预测试题的特征向量。

37.一种电子设备，其特征在于，包括：包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至18任一项所述的方法。

38.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-18中任一项所述的方法。