CN107967254B

CN107967254B - 知识点预测方法及装置、存储介质、电子设备

Info

Publication number: CN107967254B
Application number: CN201711048333.1A
Authority: CN
Inventors: 张丹; 苏喻; 李佳; 高明勇; 刘青文; 王瑞; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2021-05-04
Anticipated expiration: 2037-10-31
Also published as: CN107967254A

Abstract

本公开提供一种知识点预测方法及装置、存储介质、电子设备。该方法利用预先构建的知识点预测模型确定待预测试题q_t含有的知识点，包括：提取待预测试题q_t的深层语义信息QD_qt、以及知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj，所述知识点的教研经验为该知识点在试题中的描述，1≤j≤m，m为所述知识点集合包括的知识点的数目；通过注意力机制获得QD_qt与JD_kj之间的相似度W_qtkj，并基于JD_kj与W_qtkj得到教研经验对所述待预测试题q_t的重要程度C_qt；利用所述QD_qt与所述C_qt预测所述待预测试题q_t含有的知识点。如此方案，有助于提高知识点预测的准确率。

Description

知识点预测方法及装置、存储介质、电子设备

技术领域

本公开涉及人工智能技术领域，具体地，涉及一种知识点预测方法及装置、存储介质、电子设备。

背景技术

随着大数据和人工智能的发展，个性化学习模式得以广泛应用，它能够为学生提供个性化诊断报告和个性化资源推荐，帮助学生了解自己，并运用大数据和人工智能为学生规划个性化的学习路径，推荐个性化的学习资源，使学习变得简单高效。

在个性化学习模式中，无论是个性化诊断报告的生成，还是个性化资源推荐，行之有效的方法是从知识点的维度构建结构化题库，进而结合学生的学习历史生成个性化诊断报告和推荐资源。

试题的知识点可以描述一道试题涉及的知识，例如，数学学科的知识点可以有：函数的基本概念、函数定义域与值域，等等。根据学生的做题历史，可以分析出学生对各个知识点的掌握程度，进而准确定位学生需要学习提高的地方，实现个性化学习。如何准确的对试题进行知识点标注，成为题库构建和个性化学习首要解决的问题。

目前，常用的知识点标注方法主要有两种：

一种是人工标注方法。即，由教研人员或一线教师，为每一道试题标注合适的知识点。该方法对标注人员的要求较高，耗时耗力，且随着新试题的加入需要持续投入人力进行标注，可实施性较差；此外，人工标注的主观性较强，针对同一试题，很容易出现不同标注人员的标注结果不一致的情况。

一种是机器学习方法。通常，一道试题对应一个或多个知识点，一个知识点可以视为一个标签类别，故可以通过模型来预测试题对应的标签类别，即，将知识点预测转换为多标签分类问题解决。目前常用的机器学习方法有传统机器学习方法、普通的深度学习方法，均存在预测准确率低的问题。

发明内容

本公开的主要目的是提供一种知识点预测方法及装置、存储介质、电子设备，有助于提高知识点预测的准确率。

为了实现上述目的，本公开提供一种知识点预测方法，利用预先构建的知识点预测模型确定待预测试题q_t含有的知识点，所述方法包括：

所述知识点预测模型提取所述待预测试题q_t的深层语义信息QD_qt、以及知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj，所述知识点的教研经验为该知识点在试题中的描述，1≤j≤m，m为所述知识点集合包括的知识点的数目；

通过注意力机制获得所述QD_qt与所述JD_kj之间的相似度W_qtkj，并基于所述JD_kj与所述W_qtkj计算教研经验对所述待预测试题q_t的重要程度C_qt；

利用所述QD_qt与所述C_qt预测所述待预测试题q_t含有的知识点。

可选地，所述知识点在试题中的描述包括词语、短句、公式中的至少一种。

可选地，所述提取待预测试题q_t的深层语义信息QD_qt，包括：

从所述待预测试题q_t的题面和/或答案和/或解析中提取文本信息F_qt；

将所述F_qt的向量化表示作为输入，经由带卷积和池化的深层神经网络后提取出所述QD_qt。

可选地，所述从所述待预测试题q_t的题面和/或答案和/或解析中提取文本信息F_qt，包括：

切割所述待预测试题q_t的题面和/或答案和/或解析中的文字和公式；

利用带有学科词典和停用词的分词器，对切割得到的文字进行分词处理，并将切割得到的公式解析成为树状结构，从所述树状结构中抽取公式特征；

按照在所述待预测试题q_t中的位置，将所述分词处理的结果和所述公式特征顺序组合，得到所述文本信息F_qt。

可选地，所述知识点k_j的教研经验的深层语义信息JD_kj，包括：

获取针对所述知识点k_j预先标注的教研经验J_kj；

将所述J_kj的向量化表示作为输入，经由带卷积和池化的深层神经网络后提取出所述JD_kj。

可选地，所述通过注意力机制获得所述QD_qt与所述JD_kj之间的相似度W_qtkj，包括：

通过带有注意力机制的前向神经网络获得所述QD_qt与所述JD_kj之间的相似度W_qtkj。

可选地，按照以下方式构建所述知识点预测模型：

获取样本试题q_i以及样本试题真实含有的知识点S_qi；

提取所述样本试题q_i的深层语义信息QD_qi、以及所述知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj；

通过注意力机制获得所述QD_qi与所述JD_kj之间的相似度W_qikj，并基于所述JD_kj与所述W_qikj得到教研经验对所述样本试题q_i的重要程度C_qi；

利用所述QD_qi与所述C_qi得到所述样本试题q_i预测含有的知识点，直至所述知识点预测模型的损失函数满足预设条件。

可选地，所述知识点预测模型的损失函数为：

P_qikj与T_qikj之间的距离；或者；

P_qikj与T_qikj之间的距离、W_qikj与T_qikj之间的距离，二者的距离之和；

其中，P_qikj为所述知识点预测模型得到的样本试题q_i预测含有知识点k_j的概率，T_qikj为根据所述S_qi确定的样本试题q_i真实含有知识点k_j的概率，λ、η为损失函数的超参。

本公开提供一种知识点预测装置，用于利用预先构建的知识点预测模型确定待预测试题q_t含有的知识点，所述装置包括：

试题深层语义信息提取模块，用于提取所述待预测试题q_t的深层语义信息QD_qt；

教研经验深层语义信息提取模块，用于提取知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj，所述知识点的教研经验为该知识点在试题中的描述，1≤j≤m，m为所述知识点集合包括的知识点的数目；

相似度获得模块，用于通过注意力机制获得所述QD_qt与所述JD_kj之间的相似度W_qtkj；

重要程度计算模块，用于基于所述JD_kj与所述W_qtkj计算教研经验对所述待预测试题q_t的重要程度C_qt；

知识点预测模块，用于利用所述QD_qt与所述C_qt预测所述待预测试题q_t含有的知识点。

可选地，所述试题深层语义信息提取模块，包括：

文本信息提取模块，用于从所述待预测试题q_t的题面和/或答案和/或解析中提取文本信息F_qt；

试题深层语义信息提取子模块，用于将所述F_qt的向量化表示作为输入，经由带卷积和池化的深层神经网络后提取出所述QD_qt。

可选地，所述文本信息提取模块，用于切割所述待预测试题q_t的题面和/或答案和/或解析中的文字和公式；利用带有学科词典和停用词的分词器，对切割得到的文字进行分词处理，并将切割得到的公式解析成为树状结构，从所述树状结构中抽取公式特征；按照在所述待预测试题q_t中的位置，将所述分词处理的结果和所述公式特征顺序组合，得到所述文本信息F_qt。

可选地，所述教研经验深层语义信息提取模块，用于获取针对所述知识点k_j预先标注的教研经验J_kj；将所述J_kj的向量化表示作为输入，经由带卷积和池化的深层神经网络后提取出所述JD_kj。

可选地，所述相似度获得模块，用于通过带有注意力机制的前向神经网络获得所述QD_qt与所述JD_kj之间的相似度W_qtkj。

可选地，所述装置还包括：

知识点预测模型构建模块，用于获取样本试题q_i以及样本试题真实含有的知识点S_qi；提取所述样本试题q_i的深层语义信息QD_qi、以及所述知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj；通过注意力机制获得所述QD_qi与所述JD_kj之间的相似度W_qikj，并基于所述JD_kj与所述W_qikj得到教研经验对所述样本试题q_i的重要程度C_qi；利用所述QD_qi与所述C_qi得到所述样本试题q_i预测含有的知识点，直至所述知识点预测模型的损失函数满足预设条件。

可选地，所述知识点预测模型的损失函数为：

P_qikj与T_qikj之间的距离；或者；

其中，P_qikj为所述知识点预测模型输出的样本试题q_i预测含有知识点k_j的概率，T_qikj为根据所述S_qi确定的样本试题q_i真实含有知识点k_j的概率，λ、η为损失函数的超参。

本公开提供一种存储介质，其中存储有多条指令，所述指令由处理器加载，执行上述知识点预测方法的步骤。

本公开提供一种电子设备，所述电子设备包括；

上述的存储介质；以及

处理器，用于执行所述存储介质中的指令。

本公开方案中，知识点预测模型可以先进行深层语义处理，得到待预测试题的深层语义信息、知识点集合中每个知识点的教研经验的深层语义信息，然后可以在深层语义处理的基础上，通过注意力机制计算教研经验对待预测试题的重要程度，最后利用待预测试题的深层语义信息、教研经验对待预测试题的重要程度预测出待预测试题含有的知识点。如此方案，在知识点预测时加入知识点的教研经验，有助于进行领域知识融合，提高知识点预测的准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本公开方案知识点预测方法的流程示意图；

图2为本公开方案中公式的树状结构的示意图；

图3为本公开方案中构建知识点预测模型的流程示意图；

图4为本公开方案中一级知识点的预测效果对比图；

图5为本公开方案中二级知识点的预测效果对比图；

图6为本公开方案中三级知识点的预测效果对比图；

图7为本公开方案中预测效果与样本试题数量的变化趋势图；

图8为本公开方案中相似度最大的15维知识点的示意图；

图9为本公开方案中知识点预测结果和教研经验的相互约束对预测效果的影响的示意图；

图10为本公开方案知识点预测装置的构成示意图；

图11为本公开方案用于知识点预测的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

参见图1，示出了本公开知识点预测方法的流程示意图。可以利用预先构建的知识点预测模型确定待预测试题q_t含有的知识点，包括以下步骤：

S101，提取所述待预测试题q_t的深层语义信息QD_qt。

本公开方案中，知识点预测模型可以通过深层语义分析，提取出待预测试题q_t在词、词的上下文、句子词序或者篇章结构等方面的语义信息。

作为一种示例，可以从待预测试题q_t的题面和/或答案和/或解析中提取文本信息F_qt；并将文本信息F_qt的向量化表示作为输入，经由带卷积和池化Pooling的深层神经网络后提取出深层语义信息QD_qt。

可以理解地，对于选择题、判断题来说，可能答案中只包括选项、对错结果，针对于此，为了从答案中提取到有效的文本信息，可以先从题中读取选项、对错结果对应的文字表述，再从文字表述中提取文本信息，本公开方案对此可不做具体限定。

下面结合表1所示待预测试题q_t，对提取QD_qt的过程进行解释说明。

表1

首先，可以按照以下方式提取待预测试题q_t的文本信息F_qt。

(1)提取题面的文本信息F_qtc

可以切割待预测试题q_t的题面中的文字和公式；然后利用带有学科词典和停用词的分词器，对切割得到的文字进行分词处理，同时，还可以将切割得到的公式解析成为树状结构，从树状结构中抽取公式特征；最后按照在题面中的位置，将分词处理的结果和公式特征顺序组合，得到题面的文本信息F_qtc，可体现为下表2所示的unigram特征。其中，“/”为分隔符，可以据此确定出题面包含的unigram特征的个数。

表2

可以理解地，学科词典指的是含有学科专有词的词典，例如，数学学科词典含有函数、定义域、单调递增等数学专有词。停用词指的是在分词过程中会被过滤掉的无用词，例如，的、若等。在实际应用过程中，可以直接使用现有的学科词典、停用词提取文本信息；或者，也可以结合使用需求构建学科词典、停用词，本公开方案对此可不做具体限定。

需要说明的是，将公式解析成为树状结构，从树状结构中抽取公式特征的过程，可以参照相关技术实现，本公开方案对此可不做详述。以数学学科为例，从公式树上抽取出的公式特征的种类可以有269类，下表3示出了部分公式特征的示例。

以公式x·f(x)＜0为例，可以先解析为图2所示树状结构，再结合表3所举公式特征的示例，可以得到公式x·f(x)＜0的公式特征。

表3

公式特征	含义
		FUN_VALUE_VAR	带变量的函数
INTEVAL	区间
		NINF	负无穷
FUN_VALUE	函数
		EQUAL	等于
NUM	数字
		VARx	变量x
CDOT	乘
		TARGET	求解目标

(2)提取答案、解析的文本信息F_qts、F_qta

具体实现过程，可参照上文(1)处所做介绍，此处不再赘述。

至此，可以合并F_qtc、F_qts、F_qta，得到待预测试题q_t的文本信息F_qt＝{f₁，f₂，…，f_u}，其中，u表示待预测试题q_t包含的unigram特征的个数。

其次，可以按照以下方式获得待预测试题q_t的深层语义信息QD_qt。

具体地，可以获得待预测试题q_t的文本信息F_qt的向量化表示，举例来说，可以使用google开源的word2vec转换为word embedding(中文：词嵌入或者词向量)，不仅可以降低维度，还能够抽取到当前词的上下文信息。例如，上文的F_qt＝{f₁，f₁，…，f_u}经过wordembedding后，可以向量化表示为QE_qt＝{qe₁，qe₂，…，qe_u}，将QE_qt作为输入，经由带卷积和Pooling的深层神经网络后，可以提取出待预测试题q_t的深层语义信息QD_qt。若用g(·)表示多层卷积和pooling的非线性变换，上述过程可以表示为：QD_qt＝g(QE_qt)。

其中，QE_qt∈R^d×u，QD_qt∈R^d，d表示深层神经网络的隐层的节点数，如果隐层是多层，则为最后一层的节点数，也即做完池化后出来的节点个数。可以根据使用需求设置d的取值，通常，d越大知识点预测的效果越好，计算量也随之增大，本公开方案对d的取值可不做具体限定。

作为一种示例，深层神经网络可以体现为CNN(英文：Convolutional NeuralNetworks，中文：卷积神经网络)、RNN(英文：Recurrent Neural Networks，中文：循环神经网络)、DNN(英文：Deep Neural Networks，中文：深度神经网络)等，本公开方案对此可不做具体限定。

S102，提取知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj。

本公开方案涉及的知识点预测，通常是针对教育学知识，现有技术的机器学习方法只是通过文本分类实现知识点预测，并未针对教育学领域进行特殊设计，对应于此，本公开方案可以通过教研经验进行领域知识融合。

本公开方案中，知识点的教研经验可以为该知识点在试题中的描述，在实际应用过程中，可以体现为词语、短句、公式中的至少一种。例如，知识点“增函数与减函数”的教研经验可以如下表4所示。

表4

可以理解地，针对同一学科而言，教研经验通常是固定不变的，即，每个学科可以只制作一份教研经验信息表，然后再根据需要，获得各知识点对应的教研经验。作为一种示例，可以通过人工方式制作学科的教研经验信息表，以及通过人工方式标注知识点对应的教研经验。

通常，一个学科的知识点是相对固定的，例如，针对某知名教育机构的题库数据抽取出的高中数学试题中，一级知识点为12个，二级知识点为48个，三级知识点为361个。可以预先建立知识点集合K＝{k₁，k₂，…，k_m}，并为每个知识点k_j标注上对应的教研经验，相对于现有技术通过人工方式为海量试题标注知识点，本公开方案为有限的知识点标注教研经验，需要消耗的人力、时间都相对较少。此外，对于同一学科来说，教研经验信息表、知识点对应的教研经验，对于不同的试题都是可以通用的，不需要如现有技术每出现一道新的试题，都需要进行一次人工标注。

作为一种示例，知识点预测模型可以按照以下方法提取知识点k_j的教研经验的深层语义信息JD_kj：

具体地，可以获取针对知识点k_j预先标注的教研经验J_kj＝{j₁，j₁，…，j_h}，并进行向量化表示，例如，可以对J_kj进行word2vec转换，经过word embedding后，向量化表示为JE_kj＝{je₁，je₂，…，je_h}，将JE_kj作为输入，经由带卷积和Pooling的深层神经网络后，可以提取出知识点k_j的教研经验的深层语义信息JD_kj。若用f(·)表示多层卷积和pooling的非线性变换，上述过程可以表示为：JD_kj＝f(JE_kj)。

其中，

h表示知识点k_j的教研经验的个数，d表示深层神经网络的隐层的节点数，与待预测试题q_t的深层语义信息QD_qt中的d值相同。

按照上文所做介绍，可以提取出知识点集合中m个知识点的教研经验的深层语义信息，表示为：JD＝{JD_k1，JD_k2，…，JD_kj，…，JD_km}。上文所举示例中，对于一级知识点集合来说，m＝12；对于二级知识点集合来说，m＝48；对于三级知识点集合来说，m＝361。

由上文介绍可知，对于同一学科来说，教研经验信息表、知识点对应的教研经验通常固定不变，故，本公开方案可以预先按照上述方法提取每个知识点k_j的教研经验的深层语义信息JD_kj，并在需要时由知识点预测模型直接调用；或者，也可以在需要时由知识点预测模型按照上述方法实时提取JD_kj，本公开方案对此可不做具体限定。

S103，通过注意力机制获得所述QD_qt与所述JD_kj之间的相似度W_qtkj，并基于所述JD_kj与所述W_qtkj计算教研经验对所述待预测试题q_t的重要程度C_qt。

可以理解地，m个知识点的教研经验对试题并不是同等重要的，故，本公开方案可以通过注意力机制attention，计算教研经验对试题的重要程度。

具体地，对于知识点k_j的教研经验的深层语义信息JD_kj，可以使用基于注意力机制的前向神经网络，计算QD_qt与JD_kj之间的相似度W_qtkj，若用σ(·)表示前向神经网络的非线性变换，上述过程可以表示为：W_qtkj＝σ(QD_qt，JD_kj)。

如此，可以计算出QD_qt与知识点集合中m个知识点的教研经验的深层语义信息之间的相似度，表示为：W_qt＝{W_qtk1，W_qtk2，…，W_qtkm}，然后便可基于JD_kj与W_qt计算教研经验对待预测试题q_t的重要程度C_qt。作为一种示例，可以通过计算加权和的方式得到重要程度C_qt，

其中，W_qt∈R^m，C_qt∈R^d。

作为一种示例，可以利用带有注意力机制的单层前向神经网络计算相似度，也可以利用带有注意力机制的多层前向神经网络计算相似度。通常，层数越多，知识点预测的效果越好，计算量越大，本公开方案对前向神经网络的层数可不做具体限定。

S104，利用所述QD_qt与所述C_qt预测所述待预测试题q_t含有的知识点。

本公开方案可以将QD_qt与C_qt拼接起来，经前向神经网络后预测输出待预测试题q_t含有的知识点。具体地，经前向神经网络可以输出待预测试题q_t含有每个知识点的概率，如此，便可根据概率值高低选取出待预测试题q_t含有的知识点。例如，可以将概率值最高的前Z个知识点，确定为q_t含有的知识点；或者，可以将概率值超过预设数值的知识点，确定为q_t含有的知识点，本公开方案对此可不做具体限定。

本公开方案中，能够提取待预测试题、知识点的教研经验的深度语义信息，并基于注意力机制计算教研经验对待预测试题的重要程度，如此方案，既融合了领域知识，又可在一定程度上缓解样本分布失衡导致识别准确率低的问题，具体可参见下文图7处所做介绍。

作为一种示例，本公开方案的知识点预测可以不区分主次，即，知识点预测的结果可以是单层次的。例如，可以只利用一级知识点集合预测得到q_t含有的一级知识点；或者，可以只利用二级知识点集合预测得到q_t含有的二级知识点；或者，可以只利用三级知识点集合预测得到q_t含有的三级知识点。

作为一种示例，本公开方案的知识点预测可以区分主次，即，知识点预测的结果可以是多层次的。

例如，可以先利用一级知识点集合预测得到q_t含有的一级知识点S_qt1，并以S_qt1为限定条件，对二级知识点集合的预测结果进行约束，得到q_t含有的二级知识点S_qt2，再以S_qt2为限定条件，对三级知识点集合的预测结果进行约束，得到q_t含有的三级知识点S_qt3。如此，可以将S_qt3确定为q_t含有的知识点。或者，可以将S_qt1、S_qt2、S_qt3确定为q_t含有的知识点，此外，还可以根据S_qt1、S_qt2、S_qt3中各知识点的概率值高低进行排序，从中选取部分知识点作为q_t含义的知识点。

例如，可以先分别利用一级知识点集合、二级知识点集合、三级知识点集合对q_t进行知识点预测，再结合使用需求设置三个级别的预测结果的权重值，例如，一级知识点集合包括的知识点个数较少，预测的准确率相对较高，故可将一级知识点的预测结果的权重值设置的稍大些，如此，可以利用权重值对各知识点的概率值进行加权处理，再按照加权处理后的概率值高低进行排序，从中选取部分知识点作为q_t含有的知识点。

作为一种示例，本公开提供一种构建知识点预测模型的方案，具体可参见图3所示流程图，可以包括以下步骤：

S201，获取样本试题q_i以及样本试题真实含有的知识点S_qi。

S202，提取所述样本试题q_i的深层语义信息QD_qi、以及所述知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj。

S203，通过注意力机制获得所述QD_qi与所述JD_kj之间的相似度W_qikj，并基于所述JD_kj与所述W_qikj得到教研经验对所述样本试题q_i的重要程度C_qi。

本公开方案，可以预先获取样本试题q_i、样本试题真实含有的知识点S_qi。作为一种示例，可以采集获得样本试题集合Q＝{q₁，q₂，…，q_i，…，q_r}、知识点集合S＝{S_q1，S_q2，…，S_qi，…，S_qr}，r表示样本试题的个数，S_qr表示样本试题q_r真实含有的知识点。本公开方案对样本试题、样本试题真实含有的知识点，可不做具体限定，可以理解地，待预测试题q_t不属于样本试题集合Q。

采集到集合Q后，可以训练模型提取样本试题q_i的深层语义信息QD_qi，并通过注意力机制得到QD_qi与JD_kj之间的相似度W_qikj，进而基于JD_kj与W_qikj计算得到教研经验对样本试题q_i的重要程度C_qi，1≤i≤r。可以理解地，获取QD_qi、JD_kj、W_qikj、C_qi的过程，可参照上文S101～S103处所做介绍，此处不再赘述。

S204，利用所述QD_qi与所述C_qi得到所述样本试题q_i预测含有的知识点，直至所述知识点预测模型的损失函数满足预设条件。

经S201～S203得到样本试题q_i的QD_qi、C_qi后，可以训练模型基于二者进行知识点预测，直至知识点预测模型的损失函数满足预设条件。

作为一种示例，知识点预测模型的损失函数满足预设条件，可以为损失函数达到最小；或者，损失函数不大于预设值，本公开方案对此可不做具体限定。损失函数满足预设条件，则表示知识点预测模型训练完成。

作为一种示例，知识点预测模型的损失函数可以为：

(1)P_qikj与T_qikj之间的距离

作为一种示例，P_qikj与T_qikj之间的距离可以体现为：

各知识点的概率偏差的绝对值之和，即，

或者，

各知识点的概率偏差的平方和，即，

本公开方案对P_qikj与T_qikj之间的距离的具体表现形式可不做限定。

其中，P_qikj为样本试题q_i预测含有知识点k_j的概率，可以直接由知识点预测模型输出得到。

T_qikj为样本试题q_i真实含有知识点k_j的概率，可以根据S_qi确定。例如，S_q1表示样本试题q₁真实含有1个知识点，则该知识点对应的概率为1，其余(m-1)个知识点对应的概率为0；S_qr表示样本试题q_r真实含有2个知识点，则这2个知识点对应的概率分别为0.5，其余(m-2)个知识点对应的概率为0。也即，对于样本试题q_i真实含有的g个知识点来说，T_qikj＝1/g；对于剩余的(m-g)个知识点来说，T_qikj＝0。

(2)为了进一步提高预测准确率，还可以在P_qikj与T_qikj之间的距离的基础上，加入知识点预测结果和教研经验的相互约束，使二者相互补充、相互制约，提升泛化能力。

其中，知识点预测结果和教研经验的相互约束可以体现为：W_qikj与T_qikj之间的距离。同样地，W_qikj与T_qikj之间的距离可以体现为：

W_qikj与T_qikj二者偏差的绝对值之和，即，

或者

W_qikj与T_qikj二者偏差之平方和，即，

作为一种示例，本公开方案中的知识点预测模型的损失函数可以体现为：

其中，λ、η为损失函数的超参。

下面对本公开方案的有益效果作进一步的解释说明。

1.预测效果的评价指标，可以体现为精准率(precision)、召回率(recall)和F1指标(F1score)。

(1)整体效果的评价指标，即所有试题的预测效果。

精准率可以体现为：

召回率可以体现为：

F1指标可以体现为：

其中，n为试题总量，TP_i为试题q_i所含知识点被预测出的数量，FP_i为试题q_i预测出的知识点不是试题q_i所含知识点的数量，FN_i为试题q_i所含知识点未被预测出的数量。

(2)单知识点效果的评价指标。

知识点k_j的精准率可以体现为：

知识点k_j的召回率可以体现为：

知识点k_j的F1指标可以体现为：

其中，TP_kj为含有知识点k_j且预测出知识点k_j的试题数量；FP_kj为不含知识点k_j且预测出知识点k_j的试题数量；FN_kj为含有知识点k_j且未预测出知识点k_j的试题数量。

2.可以结合现有技术，对本公开方案的知识点预测效果进行对比说明。

以某知名教育机构的题库数据抽取出的高中数学试题为例，可参见图4、图5、图6所示一级知识点、二级知识点、三级知识点的预测效果对比图。

由图可知，本公开方案的教研知识强化的卷积神经网络(英文：Expertise-Enriched Convolutional Neural Network，简称：ECNN)方法优于现有的机器学习方法，且与人工标注的效果基本持平，即，达到了一线数学老师的人工标注水平。

其中，图4、图5、图6中参与比对的现有的机器学习方法有：

(1)kNN(英文：k-Nearest Neighbor，中文：K最近邻)协同过滤方法：可以基于题面的文本信息，计算待预测试题、已标注知识点试题间的cosine相似度，确定出k个最相似的已标注知识点试题，利用最相似的k个试题的知识点确定待预测试题含有的知识点。例如，k＝2，第一个已标注知识点试题与待预测试题的相似度为0.9，且该试题含有知识点：A、B；第二个已标注知识点试题与待预测试题的相似度为0.8，且该试题含有知识点：A、C；则知识点A的得分为(0.9+0.8)/(0.9+0.8)，知识点B的得分为0.9/(0.9+0.8)，知识点C的得分为0.8/(0.9+0.8)，可以根据得分值高低确定待预测试题含有的知识点。

(2)传统机器学习方法，可以基于题面的文本信息，训练朴素贝叶斯(英文：NaiveBayesian，简称：NB)、支持向量机(英文：Support Vector Machine，简称：SVM)的分类模型：提取待预测试题题面的文本信息，并据此对每个知识点进行二分类，通过多个二分类结果，得到待预测试题含有的知识点。

(3)普通的深度学习方法，通常待预测试题题面的文本较短，用RNN训练模型的效果略差，故可选择DNN、CNN进行模型训练：提取待预测试题题面的文本信息，通过word2vec进行向量化表示后，作为DNN或者CNN的输入，进行知识点预测。

3.样本试题的数量对预测效果的影响

知识点对应的样本试题的数量由小到大排序，可以得到图7所示单个知识点的预测效果的变化趋势图。其中，横坐标为单个知识点对应的样本试题的数量，纵坐标为单个知识点的预测效果对应的F1值。

由图可知，当样本试题的数量很小时，ECNN方法的预测效果远优于传统机器学习方法和普通的深度学习方法；随着样本试题数量的不断增加，ECNN方法的预测效果增大较快；此外，在样本试题数量较大时，ECNN方法和普通的深度学习方法的预测效果，依然能随着样本试题数量的增加而变好。

4.教研经验对预测效果的影响

举例来说，随机抽取到下表5所示试题q_i，针对三级知识点，知识点的教研经验与试题q_i的相似度W_qi共361维，若其中相似度最大的15维知识点如图8所示，图中所示K₁～K₁₅知识点表示的含义如下表6所示。

表5

表6

由图可知，根据知识点的教研经验与试题q_i的相似度W_qi，确定出的对试题q_i最重要的知识点为：等差数列的通项公式、等差数列的性质、等差数列的判定与证明，其中，前两个知识点为试题本身所含有的知识点，第三个知识点为同一个二级知识点下的相邻知识点，即兄弟节点。由此可知，进行知识点预测时，加入教研经验的合理性以及重要性。

5.知识点预测结果和教研经验的相互约束对预测效果的影响

由图9可知，若损失函数中加入知识点预测结果和教研经验的互相约束，预测效果有所上升。其中，纵坐标为知识点预测的准确率。

需要说明的是，表5所示示例，在加入知识点预测结果和教研经验的互相约束后，知识点“等差数列的判定与证明在决策”会被去除，最终输出结果与S_qi相同，由此亦可证明知识点预测结果和教研经验互相约束对预测效果的影响。

参见图10，示出了本公开知识点预测装置的构成示意图。用于利用预先构建的知识点预测模型确定待预测试题q_t含有的知识点，所述装置可以包括：

试题深层语义信息提取模块301，用于提取所述待预测试题q_t的深层语义信息QD_qt；

教研经验深层语义信息提取模块302，用于提取知识点集合中每个知识点k_j的教研经验的深层语义信息JD_kj，所述知识点的教研经验为该知识点在试题中的描述，1≤j≤m，m为所述知识点集合包括的知识点的数目；

相似度获得模块303，用于通过注意力机制获得所述QD_qt与所述JD_kj之间的相似度W_qtkj；

重要程度计算模块304，用于基于所述JD_kj与所述W_qtkj计算教研经验对所述待预测试题q_t的重要程度C_qt；

知识点预测模块305，用于利用所述QD_qt与所述C_qt预测所述待预测试题q_t含有的知识点。

可选地，所述试题深层语义信息提取模块，包括：

可选地，所述装置还包括：

可选地，所述知识点预测模型的损失函数为：

P_qikj与T_qikj之间的距离；或者；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参见图11，示出了本公开用于知识点预测的电子设备400的结构示意图。参照图11，电子设备400包括处理组件401，其进一步包括一个或多个处理器，以及由存储介质402所代表的存储设备资源，用于存储可由处理组件401的执行的指令，例如应用程序。存储介质402中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件401被配置为执行指令，以执行上述知识点预测方法。

电子设备400还可以包括一个电源组件403，被配置为执行电子设备400的电源管理；一个有线或无线网络接口406，被配置为将电子设备400连接到网络；和一个输入输出(I/O)接口405。电子设备400可以操作基于存储在存储介质402的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种知识点预测方法，其特征在于，利用预先构建的知识点预测模型确定待预测试题q_t含有的知识点，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述知识点在试题中的描述包括词语、短句、公式中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述提取待预测试题q_t的深层语义信息QD_qt，包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述待预测试题q_t的题面和/或答案和/或解析中提取文本信息F_qt，包括：

5.根据权利要求1所述的方法，其特征在于，所述知识点k_j的教研经验的深层语义信息JD_kj，包括：

获取针对所述知识点k_j预先标注的教研经验J_kj；

6.根据权利要求1所述的方法，其特征在于，所述通过注意力机制获得所述QD_qt与所述JD_kj之间的相似度W_qtkj，包括：

7.根据权利要求1所述的方法，其特征在于，按照以下方式构建所述知识点预测模型：

获取样本试题q_i以及样本试题真实含有的知识点S_qi；

8.根据权利要求7所述的方法，其特征在于，所述知识点预测模型的损失函数为：

P_qikj与T_qikj之间的距离；或者；

其中，P_qikj为所述知识点预测模型得到的样本试题q_i预测含有知识点k_j的概率，T_qikj为根据所述S_qi确定的样本试题q_i真实含有知识点k_j的概率。

9.一种知识点预测装置，其特征在于，利用预先构建的知识点预测模型确定待预测试题q_t含有的知识点，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，

所述教研经验深层语义信息提取模块，用于获取针对所述知识点k_j预先标注的教研经验J_kj；将所述J_kj的向量化表示作为输入，经由带卷积和池化的深层神经网络后提取出所述JD_kj。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述知识点预测模型的损失函数为：

P_qikj与T_qikj之间的距离；或者；

其中，P_qikj为所述知识点预测模型输出的样本试题q_i预测含有知识点k_j的概率，T_qikj为根据所述S_qi确定的样本试题q_i真实含有知识点k_j的概率。

13.一种存储介质，其中存储有多条指令，其特征在于，所述指令由处理器加载，执行权利要求1至8任一项所述方法的步骤。

14.一种电子设备，其特征在于，所述电子设备包括：

权利要求13所述的存储介质；以及

处理器，用于执行所述存储介质中的指令。