CN107506359B - 试题高阶属性挖掘方法及系统 - Google Patents

试题高阶属性挖掘方法及系统 Download PDF

Info

Publication number
CN107506359B
CN107506359B CN201610425977.7A CN201610425977A CN107506359B CN 107506359 B CN107506359 B CN 107506359B CN 201610425977 A CN201610425977 A CN 201610425977A CN 107506359 B CN107506359 B CN 107506359B
Authority
CN
China
Prior art keywords
order
student
attribute
low
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610425977.7A
Other languages
English (en)
Other versions
CN107506359A (zh
Inventor
苏喻
张丹
刘青文
邓晓栋
陈志刚
魏思
胡郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610425977.7A priority Critical patent/CN107506359B/zh
Publication of CN107506359A publication Critical patent/CN107506359A/zh
Application granted granted Critical
Publication of CN107506359B publication Critical patent/CN107506359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种试题高阶属性挖掘方法及系统,该方法包括:获取试题的低阶属性及学生历史答题信息,所述低阶属性包括试题的知识点或技能;对不同低阶属性进行组合,形成预估高阶属性;基于所述低阶属性及学生历史答题信息,确定学生能力;根据所述学生能力和学生历史答题信息,确定各预估高阶属性上的学生能力在每个试题中的权重;统计权重大于设定阈值的学生能力对应的各预估高阶属性的个数;如果所述个数大于设定值,则将对应的预估高阶属性作为试题的高阶属性。利用本发明,可以高效、准确地确定试题的高阶属性。

Description

试题高阶属性挖掘方法及系统
技术领域
本发明涉及数据挖掘领域,具体涉及一种试题高阶属性挖掘方法及系统。
背景技术
近年来,随着计算机技术和教育信息化的不断推进发展,计算机和人工智能技术已经逐步应用于日常的教育教学各项活动中。试题的高阶属性作为试题低阶属性(主要指知识点,如三角函数、二次方程等)的补充、上位,其在题库构建、以及学生能力评估、个性化学习等方面起着重要的作用。
现有的试题属性信息多是基于人工专家标注的低阶属性,即通过此试题所在领域的人工专家制定领域下的标注体系,再对此试题进行主观评价,从而获取试题的低阶属性标注。现有的人工专家标注的方法具有以下缺点:对标注人员的要求较高,需要相关领域的专家,并且在标注之前需要事先定义合理的标注体系;此外,这种人工标注的方法成本较高,且受主观因素影响,容易出现不同专家标准不一致的情况。
发明内容
本发明提供一种试题高阶属性挖掘方法及系统,以高效、准确地确定试题的高阶属性。
为此,本发明提供如下技术方案:
一种试题高阶属性挖掘方法,包括:
获取试题的低阶属性及学生历史答题信息,所述低阶属性包括试题的知识点或技能;
对不同低阶属性进行组合,形成预估高阶属性;
基于所述低阶属性及学生历史答题信息,确定学生能力;
根据所述学生能力和学生历史答题信息,确定各预估高阶属性上的学生能力在每个试题中的权重;
统计权重大于设定阈值的学生能力对应的各预估高阶属性的个数;
如果所述个数大于设定值,则将对应的预估高阶属性作为试题的高阶属性。
优选地,所述方法还包括:
根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果;
所述对不同低阶属性进行组合,形成预估高阶属性包括:
根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性。
优选地,所述根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果包括:
根据学生历史答题信息获取每个学生在各知识点上的得分,得到得分矩阵;
根据不同低阶属性在所述得分矩阵上的相似度对所述低阶属性进行聚类,得到多次聚类集合,并记录不同低阶属性存在于同一个类中的次数;
如果在所述多次聚类集合中不同低阶属性存在于同一集合中的次数大于或等于设定阈值,则确定所述不同低阶属性具有高关联度。
优选地,利用余弦距离或欧氏距离计算不同低阶属性在得分矩阵上的相似度。
优选地,所述根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性包括:
将具有高关联度的低阶属性进行设定阶数范围内的任意组合,形成预估高阶属性。
优选地,所述基于所述低阶属性及学生历史答题信息,确定学生能力包括:
分别基于经典测量理论和认知诊断模型确定学生能力诊断向量;
对基于经典测量理论确定的学生能力诊断向量和基于认知诊断模型确定的学生能力诊断向量进行融合,得到学生能力向量。
优选地,所述根据所述学生能力和学生历史答题信息,确定各预估高阶属性上的学生能力在每个试题中的权重包括:
构建回归模型,每个试题对应一个回归模型,所述回归模型的输入为以所述预估高阶属性为标注的做过所述试题的学生能力,输出为学生做所述试题的历史答题信息,所述以预估高阶属性为标注的学生能力为对应的以低阶属性为标注的学生能力的均值;
训练所述回归模型,得到每个试题对应的一个权重集合,所述权重集合中的每个权重对应一个在所述预估高阶属性上的学生能力,表示在已知答题结果下,在预估高阶属性上的学生能力对所述答题结果的重要性。
一种试题高阶属性挖掘系统,包括:
信息获取模块,用于获取试题的低阶属性及学生历史答题信息,所述低阶属性包括试题的知识点或技能;
属性组合模块,用于对不同低阶属性进行组合,形成预估高阶属性;
学生能力确定模块,用于基于所述低阶属性及学生历史答题信息,确定学生能力;
权重确定模块,用于根据所述学生能力和学生历史答题信息,确定各预估高阶属性上的学生能力在每个试题中的权重;
统计模块,用于统计权重大于设定阈值的学生能力对应的各预估高阶属性的个数;
判断模块,用于判断所述个数是否大于设定值,并且在所述个数大于设定值时,将对应的预估高阶属性作为试题的高阶属性。
优选地,所述系统还包括:
评估模块,用于根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果;
所述属性组合模块具体用于根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性。
优选地,所述评估模块包括:
得分矩阵生成单元,用于根据学生历史答题信息获取每个学生在各知识点上的得分,得到得分矩阵;
聚类单元,用于根据不同低阶属性在所述得分矩阵上的相似度对所述低阶属性进行聚类,得到多次聚类集合,并记录不同低阶属性存在于同一个类中的次数;
关联度确定单元,用于在所述多次聚类集合中不同低阶属性存在于同一集合中的次数大于或等于设定阈值时,确定所述不同低阶属性具有高关联度。
优选地,所述聚类单元利用余弦距离或欧氏距离计算不同低阶属性在得分矩阵上的相似度。
优选地,所述属性组合模块具体用于将具有高关联度的低阶属性进行设定阶数范围内的任意组合,形成预估高阶属性。
优选地,所述学生能力确定模块包括:
第一诊断单元,用于基于经典测量理论确定学生能力诊断向量;
第二诊断单元,用于基于认知诊断模型确定学生能力诊断向量;
融合单元,用于对基于经典测量理论确定的学生能力诊断向量和基于认知诊断模型确定的学生能力诊断向量进行融合,得到学生能力向量。
优选地,所述权重确定模块包括:
模型构建单元,用于构建回归模型,每个试题对应一个回归模型,所述回归模型的输入为以所述预估高阶属性为标注的做过所述试题的学生能力,输出为学生做所述试题的历史答题信息,所述以预估高阶属性为标注的学生能力为对应的以低阶属性为标注的学生能力的均值;
训练单元,用于训练所述回归模型,得到每个试题对应的一个权重集合,所述权重集合中的每个权重对应一个在所述预估高阶属性上的学生能力,表示在已知答题结果下,在预估高阶属性上的学生能力对所述答题结果的重要性。
本发明实施例提供的试题高阶属性挖掘方法及系统,通过大量的用户历史答题信息、以及试题的低阶属性标注,自动挖掘试题的高阶属性,大大降低了人工标注的难度,减少了试题标注受主观因素的影响。而且,基于低阶属性及学生历史答题信息,确定学生能力,然后根据学生能力及历史答题信息,确定预估高阶属性的合理性,从而使最终确定的高阶属性更准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例试题高阶属性挖掘方法的流程图;
图2是本发明实施例试题高阶属性挖掘系统的一种结构示意图;
图3是本发明实施例试题高阶属性挖掘系统的另一种结构示意图;
图4是本发明实施例中评估模块的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例提供一种试题高阶属性挖掘方法及系统,利用大量的用户历史答题信息、以及试题的低阶属性标注信息,首先对不同低阶属性进行组合,形成预估高阶属性,然后基于所述低阶属性及学生历史答题信息,确定学生能力,利用学生能力和学生历史答题信息,确定预估高阶属性是否合理,从而自动挖掘出试题的高阶属性。
如图1所示,是本发明实施例试题高阶属性挖掘方法的流程图,包括以下步骤:
步骤101,获取试题的低阶属性及学生历史答题信息,所述低阶属性包括试题的知识点或技能。
具体地,试题的低阶属性可以直接从题库的标注信息中获取,一个试题可以有一个或多个低阶属性。比如,试题j有如下K个低阶属性,可以表示为:
Ij=(t1,t2…tk…tK) (1)
其中,tk代表试题的第k个低阶属性。
所述标注信息可以是参考考试大纲采用人工标注方式进行标注的,也可以是在知识点或技能的标注允许一定误差的基础上采用机器标注的,对此本发明实施例不作限定。
具体地,可以用Q矩阵描述试题知识点或技能考查情况。所述Q矩阵可以是一次考试的试题知识点或技能考察情况,也可以是多次考试的试题知识点或技能考察情况。对于后一种情况,可以将所有数据合在一起作为一次考试数据。所述Q矩阵表示如下:
Figure BDA0001016675030000061
其中,m表示考试试题的数量,n表示试题所涉及的知识点或技能的数目。
步骤102,对不同低阶属性进行组合,形成预估高阶属性。
具体地,可以由人工或系统自动来完成不同低阶属性的组合。在理论上,不同低阶属性可以自由组合形成高阶属性,比如试题j的二阶组合属性为:
Figure BDA0001016675030000063
但在实际应用中,考虑到自由组合不仅会使得产生的高阶属性阶数较多,而且有些组合也是不合理的,比如,随机事件和立体几何,这两个低阶属性的组合并没有合理的物理意义。因此,在对不同低阶属性进行组合时,可以限定高阶属性的阶数。另外,考虑到不同低阶属性得到的高阶属性的合理性,在由系统自动完成不同低阶属性的组合时,还可以先根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果,然后再根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性。具体过程如下:
1)根据学生的历史答题信息获取每个学生在各知识点或技能上的得分,具体可以表示为如下得分矩阵:
tk=(x1k,x2k…xik…xIk) (3)
其中,xik表示学生i在知识点/技能k上的平均得分。
2)根据不同低阶属性在所述得分矩阵上的相似度对所述低阶属性进行聚类,得到多次聚类集合。
相似度的计算可以采用余弦距离或欧氏距离等,以余弦距离为例,具体如下:
Figure BDA0001016675030000071
其中,||tk||表示tk的模。
在进行聚类时,可以采用K-means算法,尝试不同的类中心初始值和初始类别数,得到多次聚类集合,获得一阶属性间的类别矩阵,利用该类别矩阵可以方便记录不同低阶属性存在于同一个类中的次数。
3)如果在所述多次聚类集合中不同低阶属性存在于同一集合中的次数大于或等于设定阈值,则确定所述不同低阶属性具有高关联度。如果在所述多次聚类集合中不同低阶属性存在于同一个类中的次数小于设定阈值(根据实际应用情况、大量实验、经验等预先设定),则认为所述不同低阶属性不具有高关联度,其高阶组合属性没有数据支持,在后续的挖掘中难以发挥作用,因此将不对这两个低阶属性进行组合。
4)将具有高关联度的低阶属性进行设定阶数范围内的任意组合,形成预估高阶属性。
步骤103,基于所述低阶属性及学生历史答题信息,确定学生的能力。
具体地,可以采用基于CTT(经典测量理论)的学生能力诊断、或者基于CDM(认知诊断模型)的学生能力诊断。下面分别对这两种方法进行说明。
1)基于CTT的学生能力诊断:
学生i的能力诊断向量为Uccti=(xi1,xi2…xik),其中xik表示学生i在低阶属性k上的平均得分,由下式计算得出:
xik=avgitme j contains konwledge k(sij) (5)
其中,sij表示学生i在包含低阶属性k的试题j上的得分,该信息由试题低阶属性(即Q矩阵)和学生历史答题信息(即答题矩阵)获取。
2)基于CDM的学生能力诊断:
以教育领域中的IRT(Item Response Theory,项目反应理论)为例,首先将题目集合按照低阶属性划分为若干个子集合,在一个子集合上,利用IRT模型,获得学生在该低阶属性上的能力值。
具体地,IRT模型的输入为学生的历史答题信息(即答题矩阵),基于极大似然估计算法,估计出试题参数(试题难度系数、试题区分度系数)和用户参数(用户能力参数),公式如下所示:
pji)=1/(1+exp[-aji-bj)]) (6)
其中,pji)表示整体能力为θ的学生i在试题j上的正确作答概率,参数bj为试题难度系数,aj为试题区分度系数,θi为学生i的在某一低阶属性上的能力参数。
利用IRT模型得到的试题难度区间在+∞和-∞之间,需要做归一化处理。
最终,得到基于IRT的学生能力诊断向量如下:
Uirti=(θi1i2…θik…θiK) (7)
其中,θik表示学生i在第k个低阶属性上的能力。
在实际应用中,还可以结合上述两种方法,充分利用这两种方法各自的优点,将Uccti和Uirti进行融合,得到学生能量向量Ui。所述融合可以是线性或非线性加权。
步骤104,根据所述学生能力和学生历史答题信息,确定对应各预估高阶属性的学生能力在每个试题中的权重。
具体地,可以根据预估高阶属性、学生能力以及学生历史答题信息,构建回归模型,以l2norm为正则项的岭回归模型为例,每一个试题构建一个回归模型,输入为以预估高阶(n≥2)属性为标注的做过该试题的学生能力
Figure BDA0001016675030000094
,输出为学生做该试题的历史答题信息(即历史答题矩阵)。所述以预估高阶属性为标注的学生能力
Figure BDA0001016675030000095
为相应低阶属性为标注的学生能力Ui的均值,例如试题j包括K个低阶属性,其中低阶属性k-1和k+1、k-3和k可以组合成2阶属性,则以高阶属性为标注的学生能力
Figure BDA0001016675030000097
岭回归模型训练的目标函数为:
Figure BDA0001016675030000098
其中,sij表示第i个学生在第j试题上的得分,
Figure BDA0001016675030000099
表示以阶数为n的预估高阶属性为标注的学生能力,||.||2表示l2norm,式中的ω表示学生能力重要程度,λ为正则惩罚系数。
通过上述回归模型,对于每一个试题都可以获得一个权重集合
Figure BDA0001016675030000093
权重集合
Figure BDA0001016675030000092
中的每个权重对应一个在所述预估高阶属性上的学生能力,表示在已知答题结果下,在预估高阶属性上的学生能力对所述答题结果的重要性,其数值越大,说明对应相应预估高阶属性上的学生能力对于做对该试题越重要。
步骤105,统计权重大于设定阈值的学生能力对应的各预估高阶属性的个数。
步骤106,如果所述个数大于设定值,则将对应的预估高阶属性作为试题的高阶属性。
对于所有试题,统计权重高过设定阈值的学生能力对应的各预估高阶属性的个数。如果某个高阶属性,在多题中,其对应的权重都很大,那么说明这个高阶组合特征(预估高阶属性)具有普适性,蕴含有一种高层抽象的能力。因此,将这样的高阶组合特征作为试题的高阶属性。
提取出这样的高阶属性,可以进一步对所有高权重高频的高阶特征组合进行解释化处理,比如:空间坐标和立体几何组合在一起,可能代表了一种从空间转换到解析式的能力。
本发明实施例提供的试题高阶属性挖掘方法,通过大量的用户历史答题信息、以及试题的低阶属性标注,自动挖掘试题的高阶属性,大大降低了人工标注的难度,减少了试题标注受主观因素的影响。而且,基于低阶属性及学生历史答题信息,确定学生能力,然后根据学生能力及历史答题信息,确定预估高阶属性的合理性,从而使最终确定的高阶属性更准确。
试题的高阶属性作为试题低阶属性,比如知识点(如三角函数、二次方程等)等的补充、上位,其在题库构建以及学生能力评估、个性化学习等方面起着重要的作用。比如,在实际应用中,可以将挖掘出来的高阶属性回标到题库中,用于试题推荐、学生诊断,对于更深层次的辅助教学,也会起到一定的作用。
相应地,本发明实施例还提供一种试题高阶属性挖掘系统,如图2所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
信息获取模块201,用于获取试题的低阶属性及学生历史答题信息,所述低阶属性包括试题的知识点或技能;
属性组合模块202,用于对不同低阶属性进行组合,形成预估高阶属性;
学生能力确定模块203,用于基于所述低阶属性及学生历史答题信息,确定学生能力;
权重确定模块204,用于根据所述学生能力和学生历史答题信息,确定各预估高阶属性上的学生能力在每个试题中的权重;
统计模块205,用于统计权重大于设定阈值的学生能力对应的各预估高阶属性的个数;
判断模块206,用于判断所述个数是否大于设定值,并且在所述个数大于设定值时,将对应的预估高阶属性作为试题的高阶属性。
实际应用中,可以设定高阶属性的阶数,上述属性组合模块202可以对设定除数范围内对各低阶属性进行任意组合。进一步地,为了减少后续挖掘中的运算量、并提高不同低阶属性组合的合理性,如图3所示,在所述系统另一实施例中,还可包括:评估模块301,用于根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果。相应地,在该实施例中,所述属性组合模块202需要根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性。
如图4所示,是本发明实施例中评估模块的一种结构示意图,包括:
得分矩阵生成单元41,用于根据学生历史答题信息获取每个学生在各知识点上的得分,得到得分矩阵;
聚类单元42,用于根据不同低阶属性在所述得分矩阵上的相似度对所述低阶属性进行聚类,得到多次聚类集合,并记录不同低阶属性存在于同一个类中的次数;
关联度确定单元43,用于在所述多次聚类集合中不同低阶属性存在于同一集合中的次数大于或等于设定阈值时,确定所述不同低阶属性具有高关联度。
具体地,上述聚类单元42可以利用余弦距离或欧氏距离计算不同低阶属性在得分矩阵上的相似度。在进行聚类时,可以采用K-means算法,尝试不同的类中心初始值和初始类别数,得到多次聚类集合,获得一阶属性间的类别矩阵,利用该类别矩阵记录不同低阶属性存在于同一个类中的次数。
相应地,所述属性组合模块202可以将具有高关联度的低阶属性进行设定阶数范围内的任意组合,形成预估高阶属性。
所述学生能力确定模块203的一种实施例可以包括以下各单元:
第一诊断单元,用于基于经典测量理论确定学生能力诊断向量;
第二诊断单元,用于基于认知诊断模型确定学生能力诊断向量;
融合单元,用于对基于经典测量理论确定的学生能力诊断向量和基于认知诊断模型确定的学生能力诊断向量进行融合(比如线性或非线性加权),得到学生能力向量。
当然,在实际应用中,所述学生能力确定模块203也可以只包括上述第一诊断单元或第二诊断单元,也就是说,单纯基于CTT或CDM进行学生能力诊断。
所述权重确定模块204具体可以利用回归模型(比如岭回归模型)确定对应各预估高阶属性的学生能力在每个试题中的权重。该模块可以包括以下各单元:
模型构建单元,用于构建回归模型,每个试题对应一个回归模型,所述回归模型的输入为以所述预估高阶属性为标注的做过所述试题的学生能力,输出为学生做所述试题的历史答题信息,所述以预估高阶属性为标注的学生能力为对应的以低阶属性为标注的学生能力的均值;
训练单元,用于训练所述回归模型,得到每个试题对应的一个权重集合,所述权重集合中的每个权重对应一个在所述预估高阶属性上的学生能力,表示在已知答题结果下,在预估高阶属性上的学生能力对所述答题结果的重要性。
本发明实施例提供的试题高阶属性挖掘系统,通过大量的用户历史答题信息、以及试题的低阶属性标注,自动挖掘试题的高阶属性,大大降低了人工标注的难度,减少了试题标注受主观因素的影响。而且,基于低阶属性及学生历史答题信息,确定学生能力,然后根据学生能力及历史答题信息,确定预估高阶属性的合理性,从而使挖掘出的高阶属性更准确。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种试题高阶属性挖掘方法,其特征在于,包括:
获取试题的低阶属性及学生历史答题信息,所述低阶属性包括试题的知识点或技能;
对不同低阶属性进行组合,形成预估高阶属性;
基于所述低阶属性及学生历史答题信息,确定学生能力;
根据以所述预估高阶属性为标注的所述学生能力和学生历史答题信息构建回归模型,训练该回归模型以确定各预估高阶属性上的学生能力在每个试题中的权重;
统计权重大于设定阈值的学生能力对应的各预估高阶属性的个数;
如果所述个数大于设定值,则将对应的预估高阶属性作为试题的高阶属性。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果;
所述对不同低阶属性进行组合,形成预估高阶属性包括:
根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性。
3.根据权利要求2所述的方法,其特征在于,所述根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果包括:
根据学生历史答题信息获取每个学生在各知识点上的得分,得到得分矩阵;
根据不同低阶属性在所述得分矩阵上的相似度对所述低阶属性进行聚类,得到多次聚类集合,并记录不同低阶属性存在于同一个类中的次数;
如果在所述多次聚类集合中不同低阶属性存在于同一集合中的次数大于或等于设定阈值,则确定所述不同低阶属性具有高关联度。
4.根据权利要求3所述的方法,其特征在于,利用余弦距离或欧氏距离计算不同低阶属性在得分矩阵上的相似度。
5.根据权利要求3所述的方法,其特征在于,所述根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性包括:
将具有高关联度的低阶属性进行设定阶数范围内的任意组合,形成预估高阶属性。
6.根据权利要求1所述的方法,其特征在于,所述基于所述低阶属性及学生历史答题信息,确定学生能力包括:
分别基于经典测量理论和认知诊断模型确定学生能力诊断向量;
对基于经典测量理论确定的学生能力诊断向量和基于认知诊断模型确定的学生能力诊断向量进行融合,得到学生能力向量。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据以所述预估高阶属性为标注的所述学生能力和学生历史答题信息构建回归模型,训练该回归模型以确定各预估高阶属性上的学生能力在每个试题中的权重包括:
构建回归模型,每个试题对应一个回归模型,所述回归模型的输入为以所述预估高阶属性为标注的做过所述试题的学生能力,输出为学生做所述试题的历史答题信息,所述以预估高阶属性为标注的学生能力为对应的以低阶属性为标注的学生能力的均值;
训练所述回归模型,得到每个试题对应的一个权重集合,所述权重集合中的每个权重对应一个在所述预估高阶属性上的学生能力,表示在已知答题结果下,在预估高阶属性上的学生能力对所述答题结果的重要性。
8.一种试题高阶属性挖掘系统,其特征在于,包括:
信息获取模块,用于获取试题的低阶属性及学生历史答题信息,所述低阶属性包括试题的知识点或技能;
属性组合模块,用于对不同低阶属性进行组合,形成预估高阶属性;
学生能力确定模块,用于基于所述低阶属性及学生历史答题信息,确定学生能力;
权重确定模块,用于根据以所述预估高阶属性为标注的所述学生能力和学生历史答题信息构建的回归模型,训练该回归模型以确定各预估高阶属性上的学生能力在每个试题中的权重;
统计模块,用于统计权重大于设定阈值的学生能力对应的各预估高阶属性的个数;
判断模块,用于判断所述个数是否大于设定值,并且在所述个数大于设定值时,将对应的预估高阶属性作为试题的高阶属性。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括:
评估模块,用于根据学生历史答题信息对不同低阶属性间的关联度进行评估,得到评估结果;
所述属性组合模块具体用于根据所述评估结果对不同低阶属性进行组合,形成预估高阶属性。
10.根据权利要求9所述的系统,其特征在于,所述评估模块包括:
得分矩阵生成单元,用于根据学生历史答题信息获取每个学生在各知识点上的得分,得到得分矩阵;
聚类单元,用于根据不同低阶属性在所述得分矩阵上的相似度对所述低阶属性进行聚类,得到多次聚类集合,并记录不同低阶属性存在于同一个类中的次数;
关联度确定单元,用于在所述多次聚类集合中不同低阶属性存在于同一集合中的次数大于或等于设定阈值时,确定所述不同低阶属性具有高关联度。
11.根据权利要求10所述的系统,其特征在于,所述聚类单元利用余弦距离或欧氏距离计算不同低阶属性在得分矩阵上的相似度。
12.根据权利要求10所述的系统,其特征在于,所述属性组合模块具体用于将具有高关联度的低阶属性进行设定阶数范围内的任意组合,形成预估高阶属性。
13.根据权利要求8所述的系统,其特征在于,所述学生能力确定模块包括:
第一诊断单元,用于基于经典测量理论确定学生能力诊断向量;
第二诊断单元,用于基于认知诊断模型确定学生能力诊断向量;
融合单元,用于对基于经典测量理论确定的学生能力诊断向量和基于认知诊断模型确定的学生能力诊断向量进行融合,得到学生能力向量。
14.根据权利要求8至13任一项所述的系统,其特征在于,所述权重确定模块包括:
模型构建单元,用于构建回归模型,每个试题对应一个回归模型,所述回归模型的输入为以所述预估高阶属性为标注的做过所述试题的学生能力,输出为学生做所述试题的历史答题信息,所述以预估高阶属性为标注的学生能力为对应的以低阶属性为标注的学生能力的均值;
训练单元,用于训练所述回归模型,得到每个试题对应的一个权重集合,所述权重集合中的每个权重对应一个在所述预估高阶属性上的学生能力,表示在已知答题结果下,在预估高阶属性上的学生能力对所述答题结果的重要性。
CN201610425977.7A 2016-06-14 2016-06-14 试题高阶属性挖掘方法及系统 Active CN107506359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610425977.7A CN107506359B (zh) 2016-06-14 2016-06-14 试题高阶属性挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610425977.7A CN107506359B (zh) 2016-06-14 2016-06-14 试题高阶属性挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN107506359A CN107506359A (zh) 2017-12-22
CN107506359B true CN107506359B (zh) 2020-02-07

Family

ID=60678370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610425977.7A Active CN107506359B (zh) 2016-06-14 2016-06-14 试题高阶属性挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN107506359B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211441A (zh) * 2019-05-31 2019-09-06 上海乂学教育科技有限公司 自动标记试题难度自动标记、推送方法及系统
CN110399558B (zh) * 2019-07-26 2021-09-14 江苏曲速教育科技有限公司 一种试题推荐方法和系统
CN111310463B (zh) * 2020-02-10 2022-08-05 清华大学 试题难度预估方法、装置、电子设备和存储介质
CN117556381B (zh) * 2024-01-04 2024-04-02 华中师范大学 一种面向跨学科主观试题的知识水平深度挖掘方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1776724A (zh) * 2005-11-25 2006-05-24 南京师范大学 基于网络的工程制图自动评判方法
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN103971555A (zh) * 2013-01-29 2014-08-06 北京竞业达数码科技有限公司 多层次自动化评估训练综合服务方法及系统
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN104820843A (zh) * 2015-05-29 2015-08-05 常熟苏大低碳应用技术研究院有限公司 一种基于优化高斯混合模型的图像语义标注的方法
CN105512780A (zh) * 2014-09-25 2016-04-20 克拉玛依红有软件有限责任公司 协同资源管理工作平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1776724A (zh) * 2005-11-25 2006-05-24 南京师范大学 基于网络的工程制图自动评判方法
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN103971555A (zh) * 2013-01-29 2014-08-06 北京竞业达数码科技有限公司 多层次自动化评估训练综合服务方法及系统
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN105512780A (zh) * 2014-09-25 2016-04-20 克拉玛依红有软件有限责任公司 协同资源管理工作平台
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN104820843A (zh) * 2015-05-29 2015-08-05 常熟苏大低碳应用技术研究院有限公司 一种基于优化高斯混合模型的图像语义标注的方法

Also Published As

Publication number Publication date
CN107506359A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN109919810B (zh) 在线学习系统中的学生建模与个性化课程推荐方法
CN105069294B (zh) 一种用于认知能力值测试的计算和分析方法
CN107230174A (zh) 一种基于网络的在线互动学习系统和方法
Loveday et al. An objective approach to identifying diagnostic expertise among power system controllers
CN107506359B (zh) 试题高阶属性挖掘方法及系统
Liu et al. The use of data science for education: The case of social-emotional learning
Liu et al. Collaborative learning team formation: a cognitive modeling perspective
JP6835204B2 (ja) 学習材推薦方法、学習材推薦装置および学習材推薦プログラム
Grice Observation oriented modeling: preparing students for research in the 21st century
CN109472305A (zh) 答案质量确定模型训练方法、答案质量确定方法及装置
CN109754349B (zh) 一种在线教育智能师生匹配系统
Wu et al. Knowledge or gaming? Cognitive modelling based on multiple-attempt response
Maraza-Quispe et al. A predictive model implemented in knime based on learning analytics for timely decision making in virtual learning environments
Tlili et al. A smart educational game to model personality using learning analytics
Zhang et al. [Retracted] Decision Tree Algorithm‐Based Model and Computer Simulation for Evaluating the Effectiveness of Physical Education in Universities
Ni et al. Deepqr: Neural-based quality ratings for learnersourced multiple-choice questions
Herlambang et al. Intelligent computing system to predict vocational high school student learning achievement using Naï ve Bayes algorithm
CN110648086A (zh) 一种线上教学学生分组方法和装置
Nawang et al. Classification model and analysis on students’ performance
Huang et al. A discussion on the user intention of golfers toward golf GPS navigation
Omae et al. Data mining for discovering effective time-series transition of learning strategies on mutual viewing-based learning
Groß et al. On permissible attribute classes in noncompensatory cognitive diagnosis models
Chen et al. Design of Assessment Judging Model for Physical Education Professional Skills Course Based on Convolutional Neural Network and Few‐Shot Learning
Chamorro-Atalaya et al. Supervised learning through classification learner techniques for the predictive system of personal and social attitudes of engineering students
Luger et al. Two methods for measuring question difficulty and discrimination in incomplete crowdsourced data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant