CN110309300A

CN110309300A - 一种识别理科试题知识点的方法

Info

Publication number: CN110309300A
Application number: CN201810969655.8A
Authority: CN
Inventors: 周鹏飞; 马亮
Original assignee: Jiangsu Biaozhong Education Technology Co Ltd; Beijing Huijing Zhixing Information Technology Co Ltd
Current assignee: Jiangsu Biaozhong Education Technology Co Ltd; Beijing Huijing Zhixing Information Technology Co Ltd
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-10-08
Anticipated expiration: 2038-08-23
Also published as: CN110309300B

Abstract

本发明公开了一种识别理科试题知识点的方法，该方法适用的学科为理科(如数学、物理、化学等)学科。该方法的步骤包括：建立各学科知识体系库，根据学科、教育阶段整理知识体系；按照知识体系建立各学科题库；结合知识体系、学科题库构建层次化知识点识别模型。本发明模型结构和参数能够很好地利用各学科知识点之间的关联，学习试题文字内关于知识点的上下文特征，能够根据上下文准确得出对应的知识点信息，在实验测试数据上取得了较好的性能，具有较好的推广性和适应性，识别效果具有客观、可靠、全面的特点。

Description

一种识别理科试题知识点的方法

技术领域

本发明涉及互联网领域、教育领域，更具体地说，它涉及一种识别中小学理科学科试题知识点的自动化方法。

背景技术

1.教育服务电子化

随着教育电子化的持续发展，各类数据持续增长，分析、利用这些数据能够提高教学水平。然而目前对于这些数据的分析利用方法很少，仅存在一些比较基础的应用，如错题本、拍照搜题等。如何深入分析挖掘这些数据对于教育教学具有非常重大的社会价值。

2.知识体系与知识点

教育教学中最核心的内容是知识体系，由层次化的知识点组成；目前对于知识体系的构建大多基于标签的思路，将每个知识点作为一个标签；这种方法忽略了知识点之间的联系，各个标签完全孤立。本方法构建了完整的知识体系，为知识点之间建立了上下级、依赖等多种关系，是教学数据分析的基础。

3.试题知识点的识别

试题所属的知识点识别，主要用来分析每道题目所包含的知识点信息，通过挖掘题目背后的知识点信息就可以评估学生对相应学科知识体系的掌握程度、分析其薄弱点、有针对性地进行试题推荐等。如何识别题目的具体知识点对于挖掘教学数据是一个核心问题。

目前题目知识识别主要通过以下方法：

(1)基于教师经验通过人工分析试题标注所属知识点信息。

(2)基于关键词匹配的题目知识点分析：对各个知识点标注一些相应的关键字，如果题目中出现该某知识点对应的关键字，则认为该题目包含该知识点。

(3)基于试题库试题进行匹配的方法，从试题库内查找与待识别题目相似的题目，将相似题目的知识点信息作为题目知识点信息。

(4)基于SVM的传统机器学习方法，构造分类模型，判别题目属于哪个知识点。

以上各种知识点分析方法存在各种缺陷和不足：方法(1)需要花费大量的人力资源，很难快速进行大规模试题分析，对于大规模的题目数据不适应，同时也存在教师个人标注的主观性问题；方法(2)不可能对每个知识点标注出所有可能的关键字、不能处理关键字出现在多个知识点内的情况且错误率较高；方法(3)对于试题库内没有的新试题无法识别；方法(4)对教育背景知识的特征工程依赖很高，识别结果为孤立的知识点，忽视了知识点内在的依赖、相关等联系，且标注出的知识点为独占式，非此即彼，不能满足一道题目存在多个知识点的实际情况。

本方法通过构建完善的各学科知识体系，实现层次化的知识点识别模型，并通过细化的知识点单独建模方法，高效准确、全面地识别理科试题的知识点，识别出的知识点相互之间保持上下级、相关性等关系。通过识别题目知识点能够将教学、练习、考试中的各种题目信息归结到知识体系中，为进一步的学生能力点分析、试题推荐等应用提供可靠依据。

发明内容

本发明的目的在于针对现有教学数据知识点分析方法的不足，提出一种识别理科试题知识点的方法。该方法基于完善的知识体系，结合大规模的题库数据基础，结合包括词嵌入、神经网络、提升方法等技术构造层次化知识点识别模型。与现有算法相比，本发明建立知识点之间的关系、利用知识点之间关系建立层次化知识点识别模型，识别得到的知识点相互间有依赖、相关等联系，识别结果更加全面、准确，同时在识别过程中利用识别概率实时进行剪枝提升系统识别速度。

为实现上述目的，本发明提供如下技术方案：

一种识别理科试题知识点的方法，包括以下步骤：

1、建立各学科知识体系

各学科知识体系，为树状结构，主要包括基础知识点信息、知识点所属学科信息、知识点所属教育阶段信息、知识点之间关系信息(包括上下级关系、相关关系、依赖关系等)。

本方法所构建知识点之间的关系通过树状结构表示，例如初中数学的知识体系为：

第一层包括“方程与不等式”、“函数”、“立体几何”、“统计与概率”等知识点；

“方程与不等式”下面包括“一元一次方程”、“二元一次方程”、“一元二次方程”、“不等式与不等式组”等细分知识点，“函数”下面包括“一次函数”、“二次函数”、等细分知识点；

再往下一层，“一元一次方程”下面包括“一元一次方程的定义”、“解一元一次方程”、“一元一次方程的应用”等细分知识点，“一次函数”下面包括“一次函数的定义”、“一次函数的图像”、“一次函数的性质”等细分知识点。

2、建立各学科题库

各学科题库均为真实题目，每个题目对应一个或者多个知识点，题库由考试、教学中真实题目积累形成。

3、构造各学科术语库

各学科术语表征了题目的关键信息，对于识别知识点十分重要；基于各学科题库通过新词识别算法结合专家获得大量高质量各学科术语。

4、构建层次化理科题目知识点识别模型

本方法通过利用步骤1、2建立的知识体系和各学科题库，构造层次化知识点识别模型：每个知识点分别训练识别模型；每个知识点识别模型由多种策略生成的多个模型综合而来；每个知识点的模型的识别结果依赖上级知识点识别的结果；一道题目最终识别结果由所有层次知识点的识别结果合并得到。本方法较之前各种方法存在以下特点：

(1)对一个知识点的层次化子知识点，不是用该知识点的标准多分类模型(单一多分类器)识别多个子知识点，而是通过每个对每个子知识点单独识别建模(多个子分类的二分类器)来细化知识点。

(2)利用知识点之间的层次化信息来训练每个知识点的识别模型，例如对于知识点K，所有该知识点下级知识点对应题目均认为是该知识点对应的题目，一道题目包括K知识点时才可能包括K知识点的下级知识点。

(3)每个知识点识别模型内部使用混合策略生成多个识别模型，最终识别结果由多个识别模型根据其识别效果的影响力的进行正规化处理得到。

例如对于某题目，假设在某个层次使用多种策略生成三个识别模型A、B、C，三个模型的权重分别为Wa＝0.3、Wb＝0.5、Wc＝0.2(其中Wa+Wb+Wc＝1必须成立，其权重由模型在评测数据上的表现决定)，三个模型识别该题目包含某知识点K的概率分别为Pa＝0.7、Pb＝0.9、Pc＝0.8，则最终综合得到该题目包含K知识点的概率为Pk＝Pa*Wa+Pb*Wb+Pc*Wc为0.82。

(4)一道题目包括某个知识点的最终概率，由该层知识点识别模型识别的结果以及其上层知识点概率值共同决定。

例如知识点A、B、C、D，知识点A为一级节点，B为A的下级节点，C、D为B的下级节点，对某道题进行知识点识别时，在三个层次识别得到知识点的概率分别为A:0.9,B:0.8,C:0.8,D:0.3则最终包含A知识点的概率为Pa＝0.9，包含B知识点的概率为Pb＝Pa*0.8为0.72，包含C知识点的概率为Pc＝Pb*0.8为0.576，包含D知识点的概率为Pd＝Pb*0.3为0.216。

(5)一道题目的最终识别结果由所有层次知识点的识别结果综合加权合并得到。

一道题目在各个层次上的识别结果可能包括0个知识点，也可能包括1个或多个知识点。具体识别深度取决于题目涉及的知识点。每道题目的识别结果会包含各个层次识别到的全部知识点。

知识点识别过程中，每个层次的知识点识别的结果根据概率值进行动态剪枝，减少整体搜索代价。

综上所述，本发明与现有技术相比具有以下有益效果：

本发明能够利用知识点之间的关系信息来构建层次化知识点识别模型，各层模型仅仅关注如何识别该层知识点；识别过程中利用知识点层次关系进行识别；模型识别出的知识点之间有上下级、相似等关系。算法准确率高、稳定性好，在实验测试数据上取得了较好的知识点识别效果。本发明具有较好的推广性和适应性，识别效果具有客观、可靠、全面的特点，具有良好的应用前景。

为更清楚地阐述本发明的结构特征和功效，下面结合附图与具体实施例来对本发明进行详细说明。

附图说明

图1为本发明的实际的识别模型训练、使用过程图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是在计算机上完成的，依次含有如下步骤：

步骤1、建立各学科知识体系数据库

各学科知识体系是本方法中用于识别知识点及知识点之间关系的集合，来自人工(优秀教师)得到。相关的工作包括：

步骤1.1：创建知识体系的科目、学习阶段定义库，定义涉及的所有科目、学习阶段的基本属性。

科目的属性如表1所示。

表1

名称	属性含义	说明
			Subject	科目的编码，如“1”
Name	科目的名称，如“数学”

学习阶段的属性如表2所示。

表2

名称	属性含义	说明
			Studylevel	学习阶段编码，如“1”
Name	学习阶段的名称，如“初中”

步骤1.2：创建知识体系的知识点定义库，定义涉及的所有知识点的基本属性。

知识点的定义如表3。

表3

名称	含义	说明
			Kpointid	知识点编码如“1001”
Subject	知识点所属科目(来自表1定义)
			Studylevel	该知识点所属的学习阶段(来自表2定义)
Name	知识点的名称(如“函数”)

步骤1.3：创建知识点关系定义库，定义涉及的所有知识点之间的关系，上下级关系、依赖关系等。

知识点关系的定义如表4。

表4

步骤2、建立各学科题库

步骤2.1建立题目信息表，定义涉及题目的所有属性信息。

题目信息表如表5。

表5

名称	含义	说明
			Questionuid	题目编码如“1”
Content	题目信息文本
			Subject	题目所属科目(来自表1定义)
Studylevel	题目所属学习阶段(来自表1定义)
			Questiontype	题目类型	选择、填空等
Answer	题目对应答案

步骤2.2建立题目知识点表，定义题目对应的知识点信息。

题目对应知识点表如表6。

表6

名称	含义	说明
			Questionuid	题目编码如(来自表5)
Kpointid	题目对应知识点(来自表3定义)
			Score	给定题目该知识点置信度	0到1之间

步骤3、建立各学科术语库

各学科术语表征了知识点的关键信息，对于识别知识点起着重要作用，基于步骤2建立的各学科题库，通过新词发现技术能得到大量学科术语，结合专家(优秀教师)少量参与完成高质量的各学科术语库构建。

各学科术语为列表形式，最终每个学科对应一个该学科的术语词典。

步骤4、构建层次化理科题目知识点识别模型

本方法通过利用题库和知识点的树状层级关系，构造层次化分类模型，每个知识点分别训练识别模型；每个知识点的模型仅仅用来识别题目内是否包括该知识点，其识别结果依赖上级知识点识别的概率值。

使用层次化知识点识别模型，层次化知识点识别模型按照知识体系层次构建，每个知识点对应一个单独的识别模型，而非多个知识点共享一个识别分类模型，每个知识点识别模型仅关注该知识点与相关知识点的差异，上一层知识点为同一个知识点；

每个知识点的识别模型并非一个简单的识别模型，而是由多个识别模型混合得到，单个知识点的多个混合模型使用多种策略训练生成，可以使用相同的模型使用不同的训练数据得到不同的模型，也可以使用相同的数据给训练数据不同的权重得到不同的模型，也可以使用不同的算法生成多个模型；对每个模型使用测试数据进行评价，得出其准确性评分；

对一道题目识别其知识点的过程，自顶层知识点开始依次识别，只有当一个知识点被判定为该题目的知识点时，才会继续识别其下级知识点；

对于一道题目识别其是否包括某个知识点时，使用该知识点所对应混合模型内的所有模型共同识别，该知识点最终识别结果由多个模型的识别结果加权；题目最终包含知识点的概率由该知识点识别概率和包含上级知识点的概率决定。

例如对于知识点K构建知识点识别模型的具体实现步骤：

(1)结合知识体系确定知识点K及其所有下级知识点(一直到底层知识点)，得到知识点集合Sk；结合知识体系确定所有与K知识同级知识点集合Sr；结合知识体系确定所有Sr集合及其所有下级知识点(一直到底层知识点)为集合Ss。

(2)根据题目对应知识点信息筛选所有集合Sk对应题目集合Qk；根据题目对应知识点信息筛选所有集合Ss对应题目集合Qs。

(3)将Qk部分数据作为正例训练数据、部分作为测试数据，将Qs部分作为负例训练数据、部分作为测试数据，使用训练数据训练模型M1，使用测试数据验证模型可靠性P1。

(4)使用步骤(3)对训练数据识别结果，调整训练数据权重，加大错误数据权重，重新训练模型得到模型M2及其可靠性TP2，重复此步骤N次得到N个模型(M1、M2...Mn)及其可靠性(TP1、TP2...TPn)。

对于某道题目Q使用知识点识别模型识别知识点的具体步骤：

(1)结合知识体系，确定该题目对应学科知识体系顶层知识点集合St，及St内每个知识点的概率P(0到1之间)。

题目包括St内第m个知识点的概率Pm由该知识点对应的N个模型预测值PPn及其可靠性值PTn综合得出。

(2)St内所有概率Pm大于阈值(默认0.5可以根据具体情况调节)的知识点集合为Sl，Sl及其对应概率为本层识别结果。

(3)对于集合Sl内每个知识点，得到其下级知识点集合Ss，对于Ss集合内所有知识点使用步骤(1)所述方法得到该层识别得到的知识点集合Sts及对应概率；对知识点集合Sts内的概率进行更新，如第m个知识点识别出的概率为Ptm，而Sl中其上层知识点概率为Plm则更新后的概率为P＝Ptm*Plm。

(4)使用步骤(2)、(3)逐层识别，直到叶子节点，各层识别得到的知识点集合及对应概率值的并集为最终的识别结果。

相关分析算法通过教育分析软件完成了实施。该软件由python语言开发，编程实现了本发明方法的相关算法，完成了基于新方法从理科试题中识别知识点的全部处理过程。

为了验证本发明方法的有效性和通用性，进行了相关试验。

选择两种数据进行验证：数据库内精品题库、实际教学中真实试卷来进行试验。对选择的全部数据集：1万道精品题库、2000道真实考试题目。

通过相关软件对相关数据进行了实际测试。最后用测试结果与该批数据基于SVM方法得到的知识点识别结果进行了比较。结果如下：

知识点识别能力：对题目识别出的正确知识点个数，较传统方法提高了30％以上。

知识点识别度：对两种方法共识别出的知识点结果，经过了专家判别。随机抽样1000道分析结果，由专家评判，新方法可能性结果，精度要比传统方法高17％。

本方法通过利用题库和知识点的树状层级关系，构造层次化知识点识别模型，每个非叶子节点知识点分别训练识别模型，下级知识点个数大于0，每个知识点的模型仅仅用来识别题目内是否包括其下级知识点，其识别结果为当前题目包括对应下级知识点的概率值，超过设定阈值的下级知识点会被加入到识别结果内继续处理；

一道题目所包含的知识点最终由所有层次知识点的识别结果合并得到，下级知识点的概率值为上级知识点的概率值乘以该知识点的概率值，最终识别的知识点为0个或多个，每个知识点的概率值为0到1之间。

以上结合具体实施例描述了本发明的技术原理，仅是本发明的优选实施方式。本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种识别理科试题知识点的方法，其特征在于，包括以下步骤：

1)建立各学科知识体系

各学科知识体系，为树状结构，自顶向下包含该学科的所有知识点；

每个知识点的下级知识点为该知识点的一个细分知识点；

每个知识点的同级知识点为该知识点相关知识点；

2)建立各学科题库

各学科题库均为真实题目，每个题目对应一个或者多个知识点；

3)构造各学科术语库

各学科术语表征了题目的关键信息，对于识别知识点十分重要；

基于各学科题库和知识体系通过特征词语选择算法和新词识别算法能够得到大量各学科术语；

4)构建层次化理科题目知识点识别模型

2.根据权利要求1所述的一种识别理科试题知识点的方法，其特征在于，步骤1)中为各学科按照学习阶段分别建设知识体系，有效涵盖各学科各教育阶段知识点信息；

创建知识体系的科目、学习阶段定义库，定义涉及的所有科目、学习阶段的基本属性；

创建知识体系的知识点定义库，定义涉及的所有知识点的基本属性；

各学科按照各个学习阶段建设术语库、题库，题库内题目要与相应知识体系内一个或多个知识点相对应；

创建知识点关系定义库，定义涉及的所有知识点之间的关系，上下级关系、依赖关系。

3.根据权利要求1或2所述的一种识别理科试题知识点的方法，其特征在于，步骤2)中各学科题库均为真实题目，每个题目对应一个或者多个知识点，题库由考试、教学中真实题目积累形成；

建立题目信息表，定义涉及题目的所有属性信息；

建立题目知识点表，定义题目对应的知识点信息。

4.根据权利要求3所述的一种识别理科试题知识点的方法，其特征在于，步骤3)中各学科术语表征了知识点的关键信息，对于识别知识点起着重要作用，基于步骤2建立的各学科题库，通过新词发现技术能得到大量学科术语，各学科术语为列表形式，最终每个学科对应一个该学科的术语词典。

5.根据权利要求1所述的一种识别理科试题知识点的方法，其特征在于，步骤4)中使用层次化知识点识别模型，层次化知识点识别模型按照知识体系层次构建，每个知识点对应一个单独的识别模型，而非多个知识点共享一个识别分类模型，每个知识点识别模型仅关注该知识点与相关知识点的差异，上一层知识点为同一个知识点；

6.根据权利要求1所述的一种识别理科试题知识点的方法，其特征在于，骤4)中对一个知识点的层次化子知识点是通过每个对每个子知识点单独识别建模来细化知识点；

利用知识点之间的层次化信息来训练每个知识点的识别模型；

每个知识点识别模型内部使用混合策略生成多个识别模型，最终识别结果由多个识别模型根据其识别效果的影响力的进行正规化处理得到；

一道题目包括某个知识点的最终概率，由该层知识点识别模型识别的结果以及其上层知识点概率值共同决定；

一道题目的最终识别结果由所有层次知识点的识别结果综合加权合并得到；