CN113988044B

CN113988044B - 错题原因类别的判定方法

Info

Publication number: CN113988044B
Application number: CN202111594231.6A
Authority: CN
Inventors: 何贵甲; 张奎; 李贵宾
Original assignee: Hangzhou Zhihuixue Technology Co ltd
Current assignee: Hangzhou Knowledge Jumping Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12
Anticipated expiration: 2041-12-24
Also published as: CN113988044A

Abstract

本申请提出了一种错题原因类别的判定方法，所述方法针对目前无法对错题原因类别进行自动判断的问题，通过从基础数据中提取出不同粒度的基础特征，并训练多个基础模型将不同粒度的基础特征转换为相同尺度的错因类别概率特征，再输入到综合分类模型中得到错因类别，从而实现针对知识性错误或非知识性错误进行分类的有益效果。

Description

错题原因类别的判定方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种错题原因类别的判定方法。

背景技术

随着计算机软件和硬件技术的发展，现代教育朝着在线化、智能化的方向发展。学生可以通过在线学习平台或智能硬件等载体进行学习和答题练习。同时，老师也可以通过这些平台或载体对学生的答题结果进行判定、批改和分析。智能教育系统为了实现自适应学习，需要分析学生的学情以及错题的原因；而老师为了了解学生的学习情况，也需要分析学生错题的原因，从而进行有效的干预。学生错题的原因可以分为两大类：知识性错误和非知识性错误。知识性错误主要是解题所依赖的关键知识点未掌握或理解偏差，导致不会解题或者解题错误。非知识性错误指的是知识点以外的原因导致的错误，包括马虎、误操作、蒙答案等。在传统的以纸为媒介的答题模式下，学生呈现出的只是答题结果的快照，如解题步骤、答案等静态数据，所以对学生错题的原因分析几乎只能归纳到知识性错误上。而在智能教育系统中，系统可以采集到学生从开始答题到提交答案的全部过程和结果数据，这就为非知识性错误识别提供了数据基础。

然而，几乎所有公开的错因分析技术都是在特定错因类别的基础上进行的。例如，通过分析题目内容，找到学生不会的知识点，就是在假定错误原因是知识性错误的前提下进行的。又如，先预设非知识性错误规则，再对学生答题行为数据进行检测，从而识别出特定的非知识性错误，这也是在明确错误类别后才能进行的。不幸的是，迄今为止没有任何公开的技术来判断错误的原因是知识性错误还是非知识性错误。之所以要先判断错误原因的类别，是因为知识性错误和非知识性错误的内部细分错因种类非常多，如果简单的将所有非知识性错误种类与知识性错误种类合并起来一起进行分类或判断，准确率会非常低。这主要是因为合并后的错误种类数量非常多，相应的对训练数据的需求也是几何级增长，通常基于专家标注的数据量很难达到这种量级要求。同时，知识性错误的模式和特征主要蕴含在题目数据、知识数据中，而非知识性错误的模式和特征主要蕴含在学生数据、答题数据中，如果将这些数据混在一起作为训练数据，不但会互相成为噪音，降低分类准确率，甚至可能由于数据过于稀疏，导致梯度消失，无法训练出正确的分类模型。而先对问题定性，再进行定量，是解决问题的基本方法。因此，若想准确的找出题目错误的具体原因，首先需要对错误原因作出知识性和非知识性的基本判定。

现有技术的主要缺陷在于：

1.专利CN110414837A公开了一种基于错因分析的人机交互系统，目标是采集学生在答题过程中的真实错因，没有提出对错题原因进行自动判定的方法。

2.专利CN109977230A公开了一种针对选择题的错因分析方法，通过分析题干及选项中的知识点，在知识点方面分析错误的原因，是基于错误原因属于知识性错误的假设下进行的。

3.专利CN112016607A公开了一种针对书写答案的错因分析方法，用于解决对书写答案进行自动错因分析的问题，同样是将错误原因限定在了知识性错误内。

4.专利CN109598994A公开了一种非知识性错误的识别方法，通过预设非知识性的触发条件，对学习行为数据进行检测，从而识别出特定的非知识性错误。该专利的局限点在于只能识别出预设的特定非知识性错误，一来可被识别的错误数量有限，二来对于同时包含知识性错误和非知识性错误的错题，没有权重概念即无法判断出真正的错因。另外该方法完全依赖规则设定，而忽略了学生和题目本身的基本情况。

5.专利CN112016603A公开了一种基于预设的可解释错因信息集合生成的错因图神经网络模型，并根据当前的错因信息搜索出具有最高相关度的可解释错因信息。该模型的目标并非对错因进行判定，而是基于错因信息找到合理的解释。同时，该模型的本质也不是用于预测的分类模型，而是基于文本相似度匹配的语义模型。

6.专利CN112632233A公开了一种提升学生解题能力的方法，基于学生的历史错题，针对性的进行自动推题、批改、错因分析等。类似地，该方法提到的错因分析范围也是知识性错误，没有涉及对知识性错误与非知识性错误的判定。

7.专利CN106503074A公开了一种题目细化分类方法，基于学生自己对是否掌握知识点进行记录，从而区分错题是知识性错误还是非知识性错误。该方法可被识别的错误数量有限，无法针对海量错题实现快速、自动错因分析。

基于此，亟需一种错题原因类别的判定方法，实现根据错题信息能自动判断出学生错题的原因是知识性错误还是非知识性错误的目的。

发明内容

本申请实施例提供了一种错题原因类别的判定方法，针对目前无法对错题原因类别进行自动判断的问题，通过从基础数据中提取出不同粒度的基础特征，并训练多个基础模型将不同粒度的基础特征转换为相同尺度的错因类别概率特征，再输入到综合分类模型中得到错因类别，从而实现针对知识性错误或非知识性错误进行分类的有益效果。

第一方面，本申请实施例提供了一种错题原因类别的判定方法，所述方法包括：根据基础模型对基础数据进行特征识别和错因分类，得到知识点错因概率和非知识点错因概率，其中知识点错因概率和非知识点错因概率的获取步骤包括：

针对答题者的学习数据和答题数据的汇总信息提取出综合能力评价；根据综合能力评价对当前错题进行错因分类，得到群组类知识点错因概率与群组类非知识点错因概率；和/或

针对当前错题在总体答题记录中的偏离程度提取出错题分布信息；根据错题分布信息对当前错题进行错因分类，得到统计类知识点错因概率与统计类非知识点错因概率；和/或

针对解题过程中的时间信息和动作信息提取出解题过程信息；根据解题过程信息对当前错题进行错因分类，得到过程类知识点错因概率与过程类非知识点错因概率；和/或

针对错题所反映的答题者对解题所需具备能力的掌握程度得到解题能力因素；根据解题能力因素对当前错题进行错因分类，得到能力类知识点错因概率与能力类非知识点错因概率；和/或

针对错题所反映的答题者对解题所涉及知识点的掌握程度得到知识掌握层次；根据知识掌握层次对当前错题进行错因分类，得到知识类知识点错因概率与知识类非知识点错因概率；和/或

针对错题答案内容中的语义描述信息得到答案内容描述；根据答案内容描述对当前错题进行错因分类，得到答案类知识点错因概率与答案类非知识点错因概率；和/或

针对答题过程或者答案内容有无触发预设的异常解题触发规则得到异常解题信息；根据异常解题信息对当前错题进行错因分类得到规则类知识点错因概率与规则类非知识点错因概率；

将知识点错因概率与非知识点错因概率输入综合分类模型预测错因类别概率，根据错因类别概率确定错因类别，其中，错因类别包括：知识点错误或非知识点错误。

第二方面，本申请实施例提供了一种错题原因类别的判定装置，包括：基础分类模块，用于根据基础模型对基础数据进行特征识别和错因分类，得到知识点错因概率和非知识点错因概率，其中知识点错因概率和非知识点错因概率的获取步骤包括：

综合分类模块，用于将知识点错因概率与非知识点错因概率输入综合分类模型预测错因类别概率，根据错因类别概率确定错因类别，其中，错因类别包括：知识点错误或非知识点错误。

第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行第一方面任一项所述的错题原因类别的判定方法。

第四方面，本申请实施例提供了一种计算机程序产品，包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行根据第一方面任一项所述的错题原因类别的判定方法。

第五方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据第一方面任一项所述的错题原因类别的判定方法。

本申请实施例的主要贡献和创新点如下：

本方案的基础模型在判定错因时并非基于专家定义的规则来分类，而是通过研究错题的本质：学生的自身解题模式与题目的求解模式存在不一致。基于此本方案从不同类型的基础数据中提取基础特征，并基于基础特征对模型进行训练，得到基础模型，通过训练基础模型找到答题潜在模式，从而准确判定错因。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的错题原因类别的判定方法的主要步骤流程图。

图2是根据本申请第一实施例的错因判定模型架构图。

图3是根据本申请第一实施例的模型训练流程图。

图4是根据本申请第二实施例的错题原因类别的判定装置的结构框图。

图5是根据本申请第三实施例的的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

相关技术大多采用先预设非知识性错误规则，再对学生错题进行检测，当检测出非知识性错误，才能判断出具体错因的方法。这种方法只能建立在明确了非知识性错误包含哪些具体错误类型的基础上实现，然而实际上非知识性错误的分布细分错因种类非常多，基于专家预设错误规则的方式难以达到训练模型所需的样本量级要求。为解决目前无法自动识别错因类别的问题，本方案先通过基础模型对基础数据进行分类，从基础数据中得到的不同粒度的基础特征，经基础模型分类后能得到相同粒度的分类结果。换言之，即使不同基础模型输入的数据的粒度不同，但是输出的都是针对错题原因类别的知识性错误概率或者非知识性错误概率。因此采用基础模型能够将不同粒度的基础特征转换为相同粒度的错因类别概率特征。本方案区别于相关技术的点在于：本方案的基础模型在判定错因时并非基于专家定义的规则来分类，而是通过研究错题的本质：学生的自身解题模式与题目的求解模式存在不一致。基于此本方案从不同类型的基础数据中提取基础特征，并基于基础特征对模型进行训练，得到基础模型，通过训练基础模型找到答题潜在模式，从而准确判定错因。也就是说：相关技术中通过预设非知识性错误规则来判断错因类别的方式会因为错因种类数量繁多而无法达到预期准确率。而本方案基于分析学生自身解题模式与题目求解模式存在不一致从而准确判定错因是知识性错误还是非知识性错误。因此在本方案中不需要将非知识性错误进行细分，那么在训练模型的标注量相对而言是非常少的，且错因判定结果是根据数据所得到，与专家经验阈值无关，因此可靠性更高。

在阐释本方案的具体方法之前，首先解释本方案可能涉及的概念：

基础数据：从各个数据源中采集到的与题目或者答题者有关的数据，基础数据又分为样本数据以及待识别数据；样本数据用于训练基础模型，待识别数据用于输入训练好的基础模型中进行错因判定。基础数据的获取方式有多种：例如答题者在在线教育平台做题，平台可以记录下答题者的做题时间、正确率、题目名称、题型、题目知识点等数据；再比如答题者纸质做题，则可以收集题目信息，通过图像处理等技术识别数据内容，得到基础数据。

基础特征：利用特征工程技术，从基础数据中提取出的可能包含错题模式的特征。在本方案中从数据中提取的特征主要包含以下几类：画像类特征、统计类特征、过程类特征、能力类特征、知识类特征、答案类特征、规则类特征等。

综合能力评价：结合做题者预设时段内的做题数据以及题目数据综合对学生做出的能力评价，通过综合能力评价能够得到做题者目前的整体答题能力。其中，预设时间段可以是：做题者自使用在线教育平台以来的时间；或者是做题者某一特定学习时期，例如初一学习时段；或者是人为设置的时长。

错题分布信息：描述当前错题在总体分布中的偏离情况。示例性的，包括当前错题与该生历史答题记录中的纵向分布情况；或者针对当前错题该生与其他学生相比较得到的答题记录的横向分布情况。

解题过程信息：描述答题过程的概括信息。可以包括时间类信息和动作类信息。例如，针对学生答题的过程特征可以包括读题时长、解题时长、输入时长、输入次数、删除次数、选项切换次数等；针对题目的过程特征可以包括老师的解题过程数据，或者使用全体学生过程数据的中位数或均值。

解题能力因素：用于对答题者是否掌握题目所需考察的解题思路或者解题技巧进行评价。例如题目考察归纳法或者假设法或者辅助线或者分类讨论，答题者对题目考察内容的掌握情况可以通过解题能力因素表示。

知识掌握层次：用于对答题者是否掌握题目所涉及知识点进行评价。例如题目知识点涉及考察向量、矩阵的定义、矩阵的秩，答题者对知识点的掌握情况可以通过知识掌握层次表示。

答案内容描述：表示答案的语义特征，语义特征分为错题答案中的错题语义特征，或者标准答案中的标准语义特征。语义特征可以是答案中提取的文字类、图表类、数字类、公式类、符号类等信息。

异常解题信息：由教学领域的专家依据行业经验和基本认知设定规则。例如，求解题目A需要学生具备归纳能力，题目难度为0.8的四则运算题求解耗时不应该少于30秒等；当检测到答题者做题时间只有几秒后，判定为异常解题信息。

为实现该目的，如图1所示，错题原因类别的判定方法主要包括如下的步骤S10至步骤S20。

步骤S10、根据基础模型对基础数据进行特征识别和错因分类，得到知识点错因概率和非知识点错因概率。

在本步骤中先进行初步错因分类，目的是通过各个维度的特征识别将粒度不同的基础数据转换成粒度相同的概率。

具体地，采集到的基础数据以各种形式表示，例如图表、视频帧、文字、统计分布、正确率、时间等等，基础模型作用就是将不同颗粒度、不同模式的特征转换到统一尺度的空间中。例如，输入画像类特征，输出错因类别概率；输入答案类特征，也输出错因类别概率。

举例而非限制，在本方案中选取七个维度特征向量，因此基于特征向量的数量构建了七个基础模型，如图2所示，分别是群组模型、统计模型、过程模型、能力模型、知识模型、答案模型、规则模型。

值得注意的是，本实施例给出的只是部分优选的基础模型，在实际情况中，可以通过对特征的自由组合训练出任意个基础模型。

对于学生A在题目B上答错的原因，不同基础模型的判断依据有所不同：

群组模型的依据是参考与学生A相似的其他学生在题目B或者与题目B相似题目上答错的原因。可以通过聚类算法寻找相似度最高的N个学生，也可以通过分类算法对学生进行分类，如优、良、中、差等。

统计模型的依据是特征数据的联合概率分布偏差，过程模型的依据是答题过程与标准过程或大众过程的差距。

知识模型关注解题所必需的知识点掌握情况。

能力模型则认为题目的求解条件除了掌握知识点外，还有某些特定的能力要求。

答案模型会从解题步骤和结果等内容方面计算与正确答案的一致程度，从而判断是由于知识点不会导致的错误，还是由于非知识性的马虎导致的错误。

规则模型是从专家经验、基本认知的角度来设计完备的规则条件，从而发现专家经验与错因类型的关联关系。

基于上述模型本方案针对七个维度特征向量进行分类的步骤如下：

S11、针对答题者的学习数据和答题数据的汇总信息提取出综合能力评价；根据综合能力评价对当前错题进行错因分类，得到群组类知识点错因概率与群组类非知识点错因概率；

S12、针对当前错题在总体答题记录中的偏离程度提取出错题分布信息；根据错题分布信息对当前错题进行错因分类，得到统计类知识点错因概率与统计类非知识点错因概率；

S13、针对解题过程中的时间信息和动作信息提取出解题过程信息；根据解题过程信息对当前错题进行错因分类，得到过程类知识点错因概率与过程类非知识点错因概率；

S14、针对错题所反映的答题者对解题所需具备能力的掌握程度得到解题能力因素；根据解题能力因素对当前错题进行错因分类，得到能力类知识点错因概率与能力类非知识点错因概率；

S15、针对错题所反映的答题者对解题所涉及知识点的掌握程度得到知识掌握层次；根据知识掌握层次对当前错题进行错因分类，得到知识类知识点错因概率与知识类非知识点错因概率；

S16、针对错题答案内容中的语义描述信息得到答案内容描述；根据答案内容描述对当前错题进行错因分类，得到答案类知识点错因概率与答案类非知识点错因概率；

S17、针对答题过程或者答案内容有无触发预设的异常解题触发规则得到异常解题信息；根据异常解题信息对当前错题进行错因分类得到规则类知识点错因概率与规则类非知识点错因概率。

针对步骤S11，方案包括：从学生数据、题目数据、知识数据中提取学生掌握程度信息，得到学生画像特征；

获取每一题目所涉及知识内容，得到知识画像特征；

对学生画像特征、知识画像特征进行特征合并得到画像类特征信息；

将画像类特征信息作为综合能力评价。

具体而言，可以采用最邻近算法针对学生综合数据对学生能力进行分类，例如分为优、良、中、差，其中“优”或“良”或“中”或“差”表示答题者的画像类特征，用于作为学生的综合能力评价。

针对步骤S12、方案包括：针对当前错题在答题者的个人答题记录的偏离程度计算得到第一偏离值；

针对当前错题在所有学生的集体答题记录的偏离程度计算得到第二偏离值；

对第一偏离值、第二偏离值进行特征合并得到统计类特征向量；

统计类特征向量作为错题分布信息。

其中，总体答题记录包括针对答题者的个人答题记录以及其他学生的答题记录。通过当前错题在个人答题记录中的分布可以评价答题者与自身答题情况相比的纵向分布情况；通过当前错题与其他学生对该题的答题记录中的分布可以评价答题者与其他学生相比的横向分布情况。

具体而言，可以采用逻辑回归算法得到错因分类结果，逻辑回归算法将偏离值作为输入，其中偏离值可以是标准差偏离度、聚类的中心距离、马氏距离等。本实施例采用偏离值表示统计类特征向量，用于表征答题者的错题分布信息。

针对S13，方案包括：采集针对当前错题的时间类数据以及动作类数据；

获取对应当前错题的标准答题时间以及标准答题动作；

对时间类数据以及动作类数据与准答题时间以及标准答题动作进行第一相似度计算，得到过程类特征向量；

将过程类特征向量作为解题过程信息。

具体地，第一相似度可以是汉明距离。解题过程信息反映的是答题过程与标准过程或大众过程的相似程度，可以采用深度神经网络算法得到错因分类结果，深度神经网络算法将汉明距离作为输入，其中汉明距离通过学生的各个过程特征值与题目的对应过程特征值进行汉明距离计算得到。例如：大众过程的答题时间为30秒，答题者对错题进行解答的时间为2分钟，则反应答题者的答题过程与大众过程存在不一致。本实施例将答题过程与大众过程的相似程度作为能力类特征向量，用于表征答题者的解题过程信息。深度神经网络算法可以通过自动学习造成答题过程不一致的原因是知识性错误导致还是非知识性错误导致从而得到分类结果。

针对S14，方案包括：获取当前错题涉及的解题技巧所要求的技巧能力阈值；

采集答题者针对涉及解题技巧的答题数据中所达到的技巧掌握情况，其中，技巧掌握情况包括解题技巧答题正确率；

对技巧能力阈值以及解题技巧答题正确率进行第一相似度计算，得到能力类特征向量；

将能力类特征向量作为解题能力因素。

具体地，第一相似度可以是汉明距离。解题能力因素反应的是答题者的作答情况与大众作答情况针对解题技巧的相似程度，可以采用决策树算法得到错因分类结果，决策树算法将汉明距离作为输入，其中汉明距离可以通过学生的各个能力特征值与题目的对应能力特征值进行汉明距离计算得到。可以通过技巧能力阈值表示大众作答情况或者标准作答情况。举例而非限定，在本实施例中采集相同或相似解题技巧的做题准确率，与技巧能力阈值进行比对，得到做题者对解题技巧的掌握情况，将掌握情况作为能力类特征向量，用于表征答题者的解题能力因素。

针对S15，方案包括：获取当前错题涉及的相关知识点所要求的答题正确率阈值；

采集答题者针对涉及相关知识点的答题数据中所达到的掌握层次，其中，掌握层次包括知识点答题正确率；

对答题正确率阈值以及知识点答题正确率进行第一相似度计算，得到知识类特征向量；

将知识类特征向量作为知识掌握层次。

具体地，第一相似度可以是汉明距离。知识掌握层次反应的是答题者的知识掌握情况与大众知识掌握情况的相似程度，可以采用GBDT算法得到错因分类结果，GBDT算法将汉明距离作为输入，其中，汉明距离可以通过学生的各个知识特征值与题目的对应知识特征值进行汉明距离计算得到。可以通过答题正确率阈值表示大众知识掌握情况或者标准知识掌握情况。举例而非限制，在本实施例中采集相同或相似或存在关联性的知识点的做题准确率，与技巧能力阈值进行比对，得到做题者对知识点的掌握情况，将掌握情况作为知识类特征向量，用于表征答题者的知识掌握层次。

针对S16，方案包括：采集当前错题的答案信息中的错题语义特征；

获取对应当前错题的标准答案中的标准语义特征；

对错题语义特征以及标准语义特征进行第二相似度计算，得到答案类特征向量；

将答案类特征向量作为答案内容描述。

具体地，第二相似度可以是余弦相似度。答案内容描述用于从解题步骤和结果等内容方面计算与正确答案的一致程度，从而判断是由于知识点不会导致的错误，还是由于非知识性的马虎导致的错误。可以采用循环神经网络算法进行错因分类，循环神经网络算法将余弦相似度作为输入，其中余弦相似度可以通过学生答案特征与题目答案特征进行余弦相似度计算得到，通过余弦相似度表征表示知识点标准掌握程度。举例而非限制，从学生提交的答案/选项提取错题语义信息，从标准答案/选项中提取题目答案特征，将错题语义信息与题目答案特征进行余弦相似度计算，得到余弦相似度，将余弦相似度作为答案类特征向量，用于表征答案内容描述。

针对S17、方案包括：以规则作用对象对异常解题触发规则分为学生规则特征和题目规则特征，其中，提取答题过程中的行为数据，当行为数据符合预设异常行为，触发学生特征规则；提取错题答案内容中的内容数据，当内容数据符合异常数据内容，触发题目规则特征；

对学生特征规则、题目规则特征进行特征合并得到规则类特征向量；

将规则类特征向量作为异常解题信息。

具体地，根据规则作用的对象，分为学生规则特征和题目规则特征。例如，“选择题切换选项次数不应该超过3次”属于学生规则，而“一元二次方程的非零实数解数量有两个”属于题目规则。这些规则会通过语义理解转化为判定条件，并通过检测学生答题数据（包括过程和结果）来判断是否满足条件。将所有规则组合成规则类特征向量，如果检测到满足条件的规则，则对应规则的特征值设为1，否则为0。例如，如果学生在选择题的解题过程中将ABCD四个选项都点了一遍，则会触发上述的学生规则条件，对应规则的特征值为1。在本实施例中可以采用XGBoost算法进行错因分类，XGBoost算法以特征值作为输入，其中特征值根据是否满足异常解题触发规则分为1或者0。

针对上述步骤S11至步骤S17，每个基础模型输出对错题原因所述类别的概率值，概率值的取值范围[0，1]，概率值的和等于1。输出结果如表1所示：

[表1] 各个基础模型对某错题的输出结果

将各模型输出的概率合并起来，生成该题错因类别的联合概率特征，如表2所示。其中，联合概率特征是以不同的模式视角对错题的高度抽象，与基础特征相比，联合概率特征的优点有三：一是颗粒度一致（都是类别概率），二是数值尺度一致（都是0到1的分布），三是非稀疏性（没有空值）。因此在联合概率特征基础上再进行综合分类模型的训练，可以提高模型的训练效率和预测准确率。

[表2] 基于基础模型生成的联合概率特征

步骤20、将知识点错因概率与非知识点错因概率输入综合分类模型预测错因类别概率，根据错因类别概率确定错因类别，其中，错因类别包括：知识点错误或非知识点错误。

基于错题的联合概率特征，综合分类模型可以预测出该错题的最终错因类别概率。在本发明的一个实施例中，综合分类模型使用的是逻辑回归算法。逻辑回归算法可以很好的处理尺度一致、连续型数值类的特征，并获得优秀的预测准确率。在另一实施例中，综合分类模型可以不采用分类算法，而是采用投票或线性加权机制。采用分类算法的优点是可以训练出一个非线性模型，并自动求出各个主题模型的最优权重参数，从而获得更好的分类效果。

综合分类模型的输出结果是对当前错题原因类别的预测概率，两个类别的概率总和为100%，判定的错因类别为概率值最大的类别。表3给出了综合分类模型的预测结果及错因判定的示例。

[表3] 综合分类模型输出结果及错因判定示例

以下举一示例对本方案提供的模型的训练方法进行说明。

如图3所示，先采集基础数据，将基础数据分为样本数据以及待识别数据，对样本数据进行分类，得到标签数据。样本包括：知识数据、题目数据、学生数据、答题数据、规则数据的至少一种，其中，知识数据包括对知识点的描述信息；题目数据包括题干信息、答案信息；学生数据包括答题者的学情信息；答题数据包括答题时间信息、答题动作信息和答题场景信息；规则数据包括针对答题数据和题目数据预设的异常答题事件触发规则。

分别从样本数据中提取画像类特征信息、统计类特征向量、过程类特征向量、能力类特征向量、知识类特征向量、答案类特征向量以及规则类特征向量，对应特征种类获取对应的错因类别标签，例如：将画像类特征信息与对应错因类别标签输入群组模型中，得到已训练的群组模型，将统计类特征信息与对应错因类别标签输入统计模型中，得到已训练的统计模型，等等。得到由七个基础模型输出的联合概率特征，将联合概率特征与对应的错因类别标签输入综合分类模型中，得到已训练的综合分类模型。

基于训练好的模型进行错题原因类别识别时只需输入对应的特征向量，模型自动基于特征向量对错因进行分类，得到非知识性错误概率与知识性错误概率，并基于概率判定得到错因类别。

图4是根据本申请的第二实施例的错题原因类别的判定装置的结构框图。

如图4所示，本申请的第二实施例提出了一种错题原因类别的判定装置，包括：

基础分类模块401，用于根据基础模型对基础数据进行特征识别和错因分类，得到知识点错因概率和非知识点错因概率，其中知识点错因概率和非知识点错因概率的获取步骤包括：

综合分类模块402，用于将知识点错因概率与非知识点错因概率输入综合分类模型预测错因类别概率，根据错因类别概率确定错因类别，其中，错因类别包括：知识点错误或非知识点错误；

其中，基础分类模块401内置基础模型，综合分类模型402内置综合分类模型，关于模型的架构与训练方式如实施例一所述。另，该装置采用以上介绍的方法进行运行，因此重复的内容也不进行累赘说明。

图5是根据本申请第三实施例的电子装置的硬件结构示意图。

如图5所示，本申请一个实施例的电子装置，包括存储器504和处理器502，该存储器504中存储有计算机程序，该处理器502被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器502可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器504可以包括用于数据或指令的大容量存储器504。举例来说而非限制，存储器504可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器504可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器504可在数据处理装置的内部或外部。在特定实施例中，存储器504是非易失性（Non-Volatile）存储器。在特定实施例中，存储器504包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器504（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器504可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器502所执行的可能的计算机程序指令。

处理器502通过读取并执行存储器504中存储的计算机程序指令，以实现上述实施例中的任意一种错题原因类别的判定方法。

可选地，上述电子装置还可以包括传输设备506以及输入输出设备508，其中，该传输设备506和上述处理器502连接，该输入输出设备508和上述处理器502连接。

传输设备506可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备506可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备508用于输入或输出信息。在本实施例中，输入的信息可以是基础数据等，输出的信息可以是知识点错因概率或非知识点错因概率或者错因类别等。

可选地，在本实施例中，上述处理器502可以被设置为通过计算机程序执行以下步骤：

S10、根据基础模型对基础数据进行特征识别和错因分类，得到知识点错因概率和非知识点错因概率，其中知识点错因概率和非知识点错因概率的获取步骤包括：

针对答题过程或者答案内容有无触发预设的异常解题触发规则得到异常解题信息；根据异常解题信息对当前错题进行错因分类得到规则类知识点错因概率与规则类非知识点错因概率。

S20、将知识点错因概率与非知识点错因概率输入综合分类模型预测错因类别概率，根据错因类别概率确定错因类别，其中，错因类别包括：知识点错误或非知识点错误。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种错题原因类别的判定方法，其特征在于，包括以下步骤：

采集基础数据，其中，基础数据包括：知识数据、题目数据、学生数据、答题数据、规则数据；将基础数据分为样本数据以及待识别数据，对样本数据进行分类，得到标签数据，其中，样本数据用于训练基础模型，待识别数据用于输入训练好的基础模型；根据训练好的基础模型对待识别数据进行特征识别和错因分类，得到知识点错因概率和非知识点错因概率，其中知识点错因概率和非知识点错因概率的获取步骤包括：

针对答题者的学习数据和答题数据的汇总信息提取出综合能力评价；根据综合能力评价对当前错题进行错因分类，得到群组类知识点错因概率与群组类非知识点错因概率；

针对当前错题在总体答题记录中的偏离程度提取出错题分布信息；根据错题分布信息对当前错题进行错因分类，得到统计类知识点错因概率与统计类非知识点错因概率；

针对解题过程中的时间信息和动作信息提取出解题过程信息；根据解题过程信息对当前错题进行错因分类，得到过程类知识点错因概率与过程类非知识点错因概率；

针对错题所反映的答题者对解题所需具备能力的掌握程度得到解题能力因素；根据解题能力因素对当前错题进行错因分类，得到能力类知识点错因概率与能力类非知识点错因概率；

针对错题所反映的答题者对解题所涉及知识点的掌握程度得到知识掌握层次；根据知识掌握层次对当前错题进行错因分类，得到知识类知识点错因概率与知识类非知识点错因概率；

针对错题答案内容中的语义描述信息得到答案内容描述；根据答案内容描述对当前错题进行错因分类，得到答案类知识点错因概率与答案类非知识点错因概率；

2.根据权利要求1所述的错题原因类别的判定方法，其特征在于，“针对答题者的学习数据和答题数据的汇总信息提取出综合能力评价”包括：

从学生数据、题目数据、知识数据中提取学生掌握程度信息，得到学生画像特征；

获取每一题目所涉及知识内容，得到知识画像特征；

将画像类特征信息作为综合能力评价。

3.根据权利要求1所述的错题原因类别的判定方法，其特征在于，

总体答题记录包括针对答题者的个人答题记录以及针对当前错题的所有学生的集体答题记录；

“针对当前错题在总体答题记录中的偏离程度提取出错题分布信息”包括：

针对当前错题在答题者的个人答题记录的偏离程度计算得到第一偏离值；

统计类特征向量作为错题分布信息。

4.根据权利要求1所述的错题原因类别的判定方法，其特征在于，“针对解题过程中的时间信息和动作信息提取出解题过程信息”包括

采集针对当前错题的时间类数据以及动作类数据；

获取对应当前错题的标准答题时间以及标准答题动作；

将过程类特征向量作为解题过程信息。

5.根据权利要求1所述的错题原因类别的判定方法，其特征在于，“针对当前错题所反映的答题者对解题所需具备能力的掌握程度得到解题能力因素”包括：

获取当前错题涉及的解题技巧所要求的技巧能力阈值；

将能力类特征向量作为解题能力因素。

6.根据权利要求1所述的错题原因类别的判定方法，其特征在于，“针对错题所反映的答题者对解题所涉及知识点的掌握程度得到知识掌握层次”包括：

获取当前错题涉及的相关知识点所要求的答题正确率阈值；

将知识类特征向量作为知识掌握层次。

7.根据权利要求1所述的错题原因类别的判定方法，其特征在于，“针对错题答案内容中的语义描述信息得到答案内容描述”包括：

采集当前错题的答案信息中的错题语义特征；

获取对应当前错题的标准答案中的标准语义特征；

将答案类特征向量作为答案内容描述。

8.根据权利要求1所述的错题原因类别的判定方法，其特征在于，“针对答题过程和答案内容有无触发预设的异常解题触发规则得到异常解题信息”包括：

以规则作用对象对异常解题触发规则分为学生规则特征和题目规则特征，其中，提取答题过程中的行为数据，当行为数据符合预设异常行为，触发学生特征规则；提取错题答案内容中的内容数据，当内容数据符合异常数据内容，触发题目规则特征；

将规则类特征向量作为异常解题信息。

9.根据权利要求1所述的错题原因类别的判定方法，其特征在于，知识数据包括对知识点的描述信息；题目数据包括题干信息、答案信息；学生数据包括答题者的学情信息；答题数据包括答题时间信息、答题动作信息和答题场景信息；规则数据包括针对答题数据和题目数据预设的异常答题事件触发规则。

10.根据权利要求9所述的错题原因类别的判定方法，其特征在于，将知识数据、题目数据、学生数据、答题数据、规则数据的任一种与标签数据输入模型中，训练得到基础模型，其中，标签数据包括针对训练数据集的错题原因类别的标注标签。