CN114528333A

CN114528333A - 基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法及系统

Info

Publication number: CN114528333A
Application number: CN202210065549.3A
Authority: CN
Inventors: 张磊; 李星辰; 沈夏炯; 韩道军; 贾培艳; 史先进; 丁文珂
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-24

Abstract

本发明属于教育数据挖掘技术领域，公开一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法及系统，该方法包括：构建学生对错误题目集合的形式背景：对学生题目作答记录源数据进行预处理，之后结合标注的题目中所包含的知识属性集合，过滤出学生的错误应答信息；使用属性探索知识属性挖掘算法对当前形式背景进行探索，得到通过任一学生错误应答信息得出的知识属性蕴含关联集合与非冗余试题集合；利用概念格相似度分析计算试题之间的相似度，寻找含有与练习错题相似知识点的题目，选择满足阈值最近似的若干个相关试题进行推送。本发明解决了传统分析模式中学生模糊判断缺失属性带来的弊端，能够为学生提供针对性试题推荐。

Description

基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法及系统

技术领域

本发明属于教育数据挖掘技术领域，尤其涉及一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法及系统。

背景技术

属性探索是基于形式概念分析理论对属性之间的蕴含关系进行获取的方法，属性之间的蕴含可以表示个体集合间包含关系的知识。属性探索算法是通过询问领域专家一系列问题，从而挖掘出当前背景下所有的内涵和主基，进而对能够根据探索结果进行进一步分析，领域专家可以是数据库也可以是一个人。

聚类是将大量的数据聚集到不同的群或者簇的一个过程，使得相同簇中的对象极其相似，不同簇之间的对象则存在较大的相异性。聚类分析也可以将数据中的对象个体根据某种或多种属性分类在一起，根据不同类的特征进行数据分析。

形式概念分析又称为概念格，它作为一种聚类的方法，可以将满足某个属性集合与拥有这些属性的对象集合通过“概念”的形式表示，通过“概念”的形式将满足某种属性的对象进行归类，通过Hasse图可以直观的表示概念之间的层次关系以及概念之间的泛化和例化关系。通过概念格不仅可以将教育数据进行聚类分析，而Hasse图更可以直观的表示题目与知识点属性之间、具有不同属性的概念之间的关系。因此概念格相对于其他一些通过二维表进行数据挖掘的方法更能够将结果更加直观的展示出来。

在传统的教育模式中，学生在学习过程中往往会积累大量练习题目和考试题目，而这些题目往往不能被学生充分挖掘从而发现自身的薄弱之处，对试题中错误的知识属性的关联敏感性较为薄弱，进而会导致学生在下一步工作中大量问题被堆积从而陷入无从下手的局面。

发明内容

本发明针对“在传统的教育模式中，学生在学习过程中往往会积累大量练习题目和考试题目，而这些题目往往不能被学生充分挖掘从而发现自身的薄弱之处，对试题中错误的知识属性的关联敏感性较为薄弱，进而会导致学生在下一步工作中大量问题被堆积从而陷入无从下手的局面”的问题，提出一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法及系统，学生在对试题练习或者测试过程中会留下答题痕迹，根据学生对试题的应答记录，筛选出学生练习过程中的错误题目，结合领域专家标注的试题与知识属性的关联表(该表表示每道试题所考察的知识属性)得到学生在每道错误题目中的关联知识属性，形成该生的形式背景。在本发明中只考虑客观题目，即学生的答题记录只有正确和错误，而不考虑主观题目多值情况的下的分析。

为了实现上述目的，本发明采用以下技术方案：

本发明一方面提出一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法，包括：

步骤A，构建学生对错误题目集合的形式背景K：对学生题目作答记录源数据进行预处理，之后结合标注的题目中所包含的知识属性集合，过滤出学生的错误应答信息，所述错误应答信息由学生的错误作答题目及每道题目所包含的知识属性集合组成；

步骤B，使用属性探索知识属性挖掘算法对当前形式背景进行探索，得到通过步骤A中任一学生错误应答信息得出的知识属性蕴含关联集合与非冗余试题集合；

步骤C，利用概念格相似度分析计算试题之间的相似度，寻找含有与练习错题相似知识点的题目，选择满足阈值最近似的若干个相关试题进行推送。

进一步地，所述步骤A包括：

步骤A1，对已有的学生题目作答记录源数据进行预处理；包括：对源数据进行清洗，删除源数据中的无关属性，得到只含有某一学生对象及其回答题目正误的二值作答信息数据；同时将学生应答记录中正确作答的题目进行删除，保留学生的错误应答记录；

步骤A2，对预处理过的数据融合知识属性关联矩阵；包括：将标注的知识属性集合通过矩阵表示，将每行表示题目，每列代表知识属性，如果题目含有该知识属性则用1表示否则为0，得到知识属性关联矩阵；将预处理后数据与知识属性关联矩阵相结合，得到每道错误作答题目与知识属性融合的错误应答信息矩阵，即得到当前学生对错误题目集合的试题知识属性形式背景K。

进一步地，所述步骤B包括：

步骤B1，构建知识属性集合的字典序集合Z，取出字典序集合中的末位知识属性集合Z_i，并在当前形式背景、即非冗余试题集合K_e中计算出

其中

表示拥有Z_i知识属性集合中所有属性的试题集合，

表示

所有试题元素集合中所共同拥有的知识属性集合；

步骤B2，在预处理后的数据、即形式背景K中，计算

是否成立；如果不成立则执行步骤B3，否则执行步骤B4；其中D_K(Z_i)表示在形式背景K中计算拥有Z_i知识属性集合中所有属性的试题集合，

表示两个集合的差集；

步骤B3，在形式背景K中查找不满足条件的一项试题加入到非冗余试题集合K_e中，并更新K_e作为新的非冗余试题集合；返回步骤B2；

步骤B4，判断在形式背景K中，包含Z_i知识属性集合的非冗余试题集合所共同含有的对象是否等于Z_i知识属性集合，如果不相等则将知识属性蕴含关系式

加入知识属性蕴含关联集合Y中；其中

表示学生在回答错误含有知识属性集合Z_i的试题的同时也会将含有

属性的试题一同作答错误；

步骤B5，计算字典序集合Z中下一个知识属性集合Z_i+1；判断当前字典序集合中知识属性集合Z_i＜_jY_*∪(Z_i∩{e₁，e₂，...e_j-1}∪(e_j))是否成立，如果条件成立则字典序集合下一位为Z_i+1＝Y_*∪(Z_i∩{e₁，e₂，...e_j-1}∪(e_j))，进入步骤B1；否则j＝j-1，并继续在当前步骤计算直至j＝0，终结程序；其中Y_*表示Y中最后一个知识属性蕴含关系式的后件元素集合，集合E＝{e₁，e₂，...e_j}表示知识属性集合，j为标注的知识属性个数；

步骤B6，对知识属性蕴含关联集合进行清洗，如果知识属性蕴含关系式中

集合为

则认为该知识属性蕴含关系式为冗余条件，并进行删除；

步骤B7，通过步骤B1至步骤B6的属性探索知识属性挖掘算法最终得到非冗余试题集合K_e和知识属性蕴含关联集合Y。

进一步地，所述步骤C包括：

步骤C1，按照步骤A方式构建当前学生未练习过的试题库的试题知识属性形式背景L；

步骤C2，采用bordat概念格构造算法构建当前学生未练习过的试题库概念格，通过输入步骤C1得出的形式背景L，构造出试题库的概念格；概念格由概念节点和节点之间的偏序关系表示，概念格中每个节点由二元关系(U，S)表示，U代表当前学生未练习过的试题集合，S代表知识属性集合，概念节点表示试题集合U具有S集合的知识属性；

步骤C3，基于步骤B得到的知识属性蕴含关联集合，通过遍历概念格的所有概念节点，通过余弦相似度计算公式计算概念节点与知识属性蕴含关系式的相似度；

C4，根据余弦相似度计算结果对相关试题的题目进行排序，设置阈值，筛选出大于阈值的结果，并选择top-n个试题题目进行推送，如果筛选出的试题题目数量较少，则降低阈值。

本发明另一方面提出一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送系统，包括：

错题形式背景构建模块，用于构建学生对错误题目集合的形式背景K：对学生题目作答记录源数据进行预处理，之后结合标注的题目中所包含的知识属性集合，过滤出学生的错误应答信息，所述错误应答信息由学生的错误作答题目及每道题目所包含的知识属性集合组成；

非冗余试题集合和知识属性蕴含关联集合得出模块，用于使用属性探索知识属性挖掘算法对当前形式背景进行探索，得到通过错题形式背景构建模块中任一学生错误应答信息得出的知识属性蕴含关联集合与非冗余试题集合；

相关试题题目推送模块，用于利用概念格相似度分析计算试题之间的相似度，寻找含有与练习错题相似知识点的题目，选择满足阈值最近似的若干个相关试题的题目进行推送。

进一步地，所述错题形式背景构建模块具体用于：

步骤A2，对预处理过的数据融合知识属性关联矩阵；包括：将标注的知识属性集合通过矩阵表示，将每行表示题目，每列代表知识属性，如果题目含有该知识属性则用1表示否则为0，得到知识属性关联矩阵；将预处理后数据与知识属性关联矩阵相结合，得到每道错误作答题目与知识属性融合的错误应答信息矩阵，得到当前学生对错误题目集合的试题知识属性形式背景K。

进一步地，所述非冗余试题集合和知识属性蕴含关联集合得出模块具体用于：

其中

表示拥有Z_i知识属性集合中所有属性的试题集合，

表示

所有试题元素集合中所共同拥有的知识属性集合；

步骤B2，在预处理后的数据、即形式背景K中，计算

表示两个集合的差集；

加入知识属性蕴含关联集合Y中；其中

属性的试题一同作答错误；

集合为

则认为该知识属性蕴含关系式为冗余条件，并进行删除；

进一步地，所述相关试题题目推送模块具体用于：

与现有技术相比，本发明具有的有益效果：

本发明所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法及系统在具体操作时，通过步骤B能够探索出试题集的非冗余集合，尤其是能够通过属性探索算法在学生的错误知识点习题集合中挖掘知识属性间的蕴含关系，将错题集中的相关联知识属性表示出来。之后通过步骤C2构造出未练习题目概念格，此步骤能够通过概念格中概念集合的方式，将不同属性组合拥有的题目二元关系组清晰的表示出来，步骤C3采用余弦相似度计算方式，计算概念二元集合中属性与蕴含中属性相似度，以获取与错误知识属性相关联的试题集合，实现基于隐式关联属性和相关联题目的推荐，解决了传统分析模式中学生模糊判断缺失属性带来的弊端，能够为学生提供针对性试题推荐。

附图说明

图1为本发明实施例一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法的基本流程图；

图2为本发明实施例一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送系统的架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法，包括：

进一步地，所述步骤A包括：

步骤A1，对已有的学生题目作答记录源数据进行预处理。学生题目作答记录源数据中可能会包含多个对象信息，以及对象所具有的多种属性，其中的一些属性特征，例如学生的性别、学号等信息在本发明中为无关属性，故对数据进行清洗，删除源数据中的无关属性，得到只含有某一学生对象及其回答题目正误的二值作答信息数据。同时将学生应答记录中正确作答的题目进行删除，保留学生的错误应答记录。

步骤A2，对预处理过的数据融合知识属性关联矩阵。将领域专家标注的知识属性集合通过矩阵表示，将每行表示题目，每列代表特定的知识属性，如果题目含有某种知识属性则用1表示否则为0。例如，某道题目为5*5+6，则可将对应的知识属性乘法、加法置为1。将预处理数据与专家给定的题目所包含的知识属性的数据信息(知识属性关联矩阵)相结合，得到每道错误作答题目与知识属性融合的错误应答信息矩阵，即得到当前学生对错误题目集合的试题知识属性形式背景K。

进一步地，所述步骤B包括：

步骤B1，步骤A中领域专家所标注的试题知识属性集合P＝(P₁，P₂，P₃，...P_n)，并且在初始状态知识属性蕴含关联集合

非冗余试题集合

构建知识属性集合的字典序集合

取出字典序集合中的末位知识属性集合Z_i(初始时，

)，并在当前形式背景、即非冗余试题集合K_e中计算出

计算完毕后进入步骤B2；其中

表示拥有Z_i知识属性集合中所有属性的试题集合，

表示

所有试题元素集合中所共同拥有的知识属性集合。

步骤B2，在预处理后的数据、即形式背景K中，计算

是否成立，即在形式背景K中，拥有属性集合Z_i的试题集是否包含于

属性集合在形式背景K中的试题集合中；如果上述判定成立则执行步骤B4，如果上述判定不成立则执行步骤B3；其中D_K(Z_i)表示在形式背景K中计算拥有Z_i知识属性集合中所有属性的试题集合，

表示两个集合的差集。

步骤B3，在形式背景K中查找不满足

的一行信息加入到非冗余试题集合K_e中，即将不满足条件的一条数据插入非冗余试题集合中，并更新K_e作为新的非冗余试题集合；返回步骤B2。

加入知识属性蕴含关联集合Y中；即表示该学生在回答错误含有属性集合Z_i的试题的同时也会将含有

属性的试题一同作答错误；其中

属性的试题一同作答错误。进入步骤B5；

步骤B5，该步骤用于计算字典序集合Z中下一个知识属性集合Z_i+1。

判断当前字典序集合中知识属性集合Z_i＜_jY_*∪(Z_i∩{e₁，e₂，...e_j-1}∪(e_j))是否成立，如果条件成立则字典序集合下一位为Z_i+1＝Y_*∪(Z_i∩{e₁，e₂，...e_j-1}∪(e_j))，进入步骤B1；否则j＝j-1即判断e_j的前一位元素，并继续在当前步骤计算直至j＝0即知识属性集合已全部遍历，终结程序；其中Y_*表示Y中最后一个知识属性蕴含关系式的后件元素集合，集合E＝{e₁，e₂，...e_j}表示知识属性集合，j为领域专家标注的知识属性个数，Z₁＜_jZ₂成立则当且仅当e_j∈Z₂-Z₁，并且Z₁∩{e₁，e₂，...e_j-1}＝Z₂∩{e₁，e₂，...e_j-1}，具体地，对于Z_i＜_jY_*∪(Z_i∩{e₁，e₂，...e_j-1}∪(e_j))来说，Z₁代表Z_i，Z₂代表Y_*∪(Z_i∩{e₁，e₂，…e_j-1}∪(e_j))。

集合为

则认为该知识属性蕴含关系式为冗余条件，并进行删除，步骤完毕后进入步骤B7。

进一步地，所述步骤C包括：

步骤C1，按照步骤A方式构建当前学生未练习过的试题库的试题知识属性形式背景L。具体地，在该学生未练习过的试题题库中，同样有领域专家通过标注得到的试题与知识属性之间的关联矩阵。形式背景构建步骤与A相同，此处不再赘述。

步骤C2，构建试题库概念格，本步骤采用bordat概念格构造算法，通过输入步骤C1得出的形式背景L，构造出试题库的概念格。概念格由概念节点和节点之间的偏序关系表示，概念格中每个节点由二元关系(U，S)表示，U代表试题集合，S代表知识属性集合，概念节点表示试题集合U具有S集合的知识属性。

步骤C3，通过步骤B得到的蕴含式集合Y，蕴含式中A→B在本发明中表示具有学生缺失A知识属性集合的同时也会缺失B知识属性集合。通过遍历概念格的所有概念节点，通过余弦相似度计算公式计算概念节点与蕴含式A→B的相似度。

属性集合P＝A∪B，int(c)表示概念节点c的内涵集合，即概念节点(U，S)的属性集合S。

C4，根据余弦相似度计算结果对相关试题的题目进行排序，设置阈值，筛选出大于阈值的结果，并选择top-n个试题题目进行推送，如果筛选出的试题题目数量较少，则降低阈值。作为一种可实施方式，设置阈值θ为0.8，筛选出大于阈值的结果，并选择top5个题目进行推送，如果筛选出的题目数量少于3，则依次对阈值降低0.05，并且最终不少于0.6。

在上述实施例的基础上，本发明还提出一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送系统，包括：

错题形式背景构建模块，用于构建学生对错误题目集合的形式背景K：对学生题目作答记录源数据进行预处理，之后结合标注的题目中所包含的知识属性集合，过滤出学生的错误应答信息，所述错误应答信息由学生的错误作答题目及每道题目所包含的知识属性集合组成，并对错误应答信息进行封装处理；

进一步地，所述错题形式背景构建模块具体用于：

步骤A1：对已有的学生题目作答记录源数据进行预处理；包括：对源数据进行清洗，删除源数据中的无关属性，得到只含有某一学生对象及其回答题目正误的二值作答信息数据；同时将学生应答记录中正确作答的题目进行删除，保留学生的错误应答记录；

步骤A2，对预处理过的数据融合知识属性关联矩阵；包括：将标注的知识属性集合通过矩阵表示，将每行表示题目，每列代表知识属性，如果题目含有该知识属性则用1表示否则为0，得到知识属性关联矩阵；将预处理后数据与知识属性关联矩阵相结合，得到每道错误作答题目与知识属性融合的错误应答信息矩阵，即得到当前学生对错误题目集合的试题知识属性形式背景K；

步骤A3，数据封装；包括：将所述错误应答信息矩阵、即形式背景K导入概念格生成系统Conexp中，将待挖掘的数据以数据框的形式进行保存，完成数据的封装。

其中

表示拥有Z_i知识属性集合中所有属性的试题集合，

表示

所有试题元素集合中所共同拥有的知识属性集合；

步骤B2，在预处理后的数据、即形式背景K中，计算

表示两个集合的差集；

加入知识属性蕴含关联集合Y中；其中

属性的试题一同作答错误；

集合为

则认为该知识属性蕴含关系式为冗余条件，并进行删除；

步骤B7，最终得到非冗余试题集合K_e和知识属性蕴含关联集合Y。

进一步地，所述相关试题题目推送模块具体用于：

综上，本发明所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法及系统在具体操作时，通过步骤B能够探索出试题集的非冗余集合，尤其是能够通过属性探索算法在学生的错误知识点习题集合中挖掘知识属性间的蕴含关系，将错题集中的相关联知识属性表示出来。之后通过步骤C2构造出未练习题目概念格，此步骤能够通过概念格中概念集合的方式，将不同属性组合拥有的题目二元关系组清晰的表示出来，步骤C3采用余弦相似度计算方式，计算概念二元集合中属性与蕴含中属性相似度，以获取与错误知识属性相关联的试题集合，实现基于隐式关联属性和相关联题目的推荐，解决了传统分析模式中学生模糊判断缺失属性带来的弊端，能够为学生提供针对性试题推荐。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法，其特征在于，包括：

2.根据权利要求1所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法，其特征在于，所述步骤A包括：

3.根据权利要求1所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法，其特征在于，所述步骤B包括：

其中

表示拥有Z_i知识属性集合中所有属性的试题集合，

表示

所有试题元素集合中所共同拥有的知识属性集合；

步骤B2，在预处理后的数据、即形式背景K中，计算

表示两个集合的差集；

加入知识属性蕴含关联集合Y中；其中

属性的试题一同作答错误；

步骤B5，计算字典序集合Z中下一个知识属性集合Z_i+1；判断当前字典序集合中知识属性集合Z_i<_jY_*∪(Z_i∩{e₁,e₂,…e_j-1}∪(e_j))是否成立，如果条件成立则字典序集合下一位为Z_i+1＝Y_*∪(Z_i∩{e₁,e₂,…e_j-1}∪(e_j))，进入步骤B1；否则j＝j-1，并继续在当前步骤计算直至j＝0，终结程序；其中Y_*表示Y中最后一个知识属性蕴含关系式的后件元素集合，集合E＝{e₁,e₂,…e_j}表示知识属性集合，j为标注的知识属性个数；

集合为

则认为该知识属性蕴含关系式为冗余条件，并进行删除；

4.根据权利要求1所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送方法，其特征在于，所述步骤C包括：

步骤C2，采用bordat概念格构造算法构建当前学生未练习过的试题库概念格，通过输入步骤C1得出的形式背景L，构造出试题库的概念格；概念格由概念节点和节点之间的偏序关系表示，概念格中每个节点由二元关系(U,S)表示，U代表当前学生未练习过的试题集合，S代表知识属性集合，概念节点表示试题集合U具有S集合的知识属性；

5.一种基于属性探索的试题隐含知识属性关联挖掘及相关试题推送系统，其特征在于，包括：

6.根据权利要求5所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送系统，其特征在于，所述错题形式背景构建模块具体用于：

7.根据权利要求5所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送系统，其特征在于，所述非冗余试题集合和知识属性蕴含关联集合得出模块具体用于：

其中

表示拥有Z_i知识属性集合中所有属性的试题集合，

表示

所有试题元素集合中所共同拥有的知识属性集合；

步骤B2，在预处理后的数据、即形式背景K中，计算

表示两个集合的差集；

加入知识属性蕴含关联集合Y中；其中

属性的试题一同作答错误；

步骤B5，计算字典序集合Z中下一个知识属性集合Z_i+1；判断当前字典序集合中知识属性集合Z_i<_jY_*∪(Zi∩{e₁,e₂,…e_j-1}∪(e_j))是否成立，如果条件成立则字典序集合下一位为Z_i+1＝Y_*∪(Z_i∩{e₁,e₂,…e_j-1}∪(e_j))，进入步骤B1；否则j＝j-1，并继续在当前步骤计算直至j＝0，终结程序；其中Y_*表示Y中最后一个知识属性蕴含关系式的后件元素集合，集合E＝{e₁,e₂,…e_j}表示知识属性集合，j为标注的知识属性个数；

集合为

则认为该知识属性蕴含关系式为冗余条件，并进行删除；

8.根据权利要求5所述的基于属性探索的试题隐含知识属性关联挖掘及相关试题推送系统，其特征在于，所述相关试题题目推送模块具体用于：