CN104217013B

CN104217013B - 基于项加权和项集关联度的课程正负模式挖掘方法及系统

Info

Publication number: CN104217013B
Application number: CN201410486033.1A
Authority: CN
Inventors: 黄名选; 韦吉锋
Original assignee: GUANGXI COLLEGE OF EDUCATION
Current assignee: GUANGXI COLLEGE OF EDUCATION
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2017-06-13
Anticipated expiration: 2034-09-22
Also published as: CN104217013A

Abstract

一种基于项加权和项集关联度的课程正负关联模式挖掘方法及挖掘系统，利用教育数据预处理模块对教务数据预处理；利用课程项集模式生成模块生成课程候选项集，计算其支持度，由此得到课程频繁项集和负项集，根据课程频繁项集和负项集的关联度进行项集剪枝，得到有趣的课程频繁项集和负项集；利用课程正负关联规则模式生成模块计算课程关联规则兴趣度和置信度，从课程频繁项集和负项集挖掘矩阵加权课程强正负关联规则；课程正负关联模式显示模块将课程模式显示给用户，供用户分析和使用。本发明方法挖掘的课程候选项集和挖掘时间明显减少，避免了无效的课程关联模式出现，挖掘效率得到极大提高，其模式可为教务管理、决策以及教改提供科学依据。

Description

基于项加权和项集关联度的课程正负模式挖掘方法及系统

技术领域

本发明属于教育数据挖掘领域，具体是一种基于项加权和项集关联度的课程正负模式挖掘方法及系统，适用于教务数据课程正负关联模式发现，其模式可为教学改革和教育管理、决策提供科学的依据。该发明运用于高校教务管理系统，可以扩展教务管理功能，其关联模式可以有助于教师改善和调整方法，提高教学质量，同时，可以帮助学生提高学习效果。

背景技术

教育数据无加权关联模式挖掘方法、教育数据加权关联规则挖掘方法和教育数据矩阵加权关联规则挖掘方法是目前常见的教育数据关联规则挖掘方法。教育数据无加权关联规则挖掘方法是传统的关联规则挖掘方法在教育信息化领域的具体应用。该方法的特点是各个项目按平等一致的方式处理，只考虑项目频度，其缺陷是：在挖掘时只考虑课程的选修关联，没有考虑课程之间具有不同的重要性，更没有考虑学生选修课程后的教学效果(即课程考试成绩)。典型的教育数据无加权关联规则挖掘方法是Apriori方法(R.Agrawal,T.Imielinski,A.Swami.Mining association rules between sets of items in largedatabase[C].In Proceeding of 1993ACM SIGMOD International Conference onManagement of Data,Washington D.C.,1993,(5):207-216.)及其改进方法(董辉.基于兴趣度的高职课程关联规则挖掘[J].吉首大学学报(自然科学版),2012,33(3):41-46.李忠哗,王凤利,何丕廉.关联规则挖掘在课程相关分析中的应用[J].河北农业大学学报,2010,33(3):116-119.)。

针对传统关联规则挖掘的缺陷，教育数据加权关联规则挖掘方法不仅考虑课程的选修关联，还给每门课程赋予一定的权值，以体现课程之间具有不同的重要性。典型的教育数据加权关联规则挖掘方法有Cai等(C.H.Cai,A.da,W.C.Fu,et al.Mining AssociationRules with Weighted Items[C]//Proceedings of IEEE International databaseEngineering and Application Symposiums,1998:68-77.)提出的加权关联规则挖掘方法(即MINWAL方法)及其改进方法(刘建炜,张颖.基于加权关联规则算法的学生成绩数据挖掘研究[J].福建教育学院学报,2012(3):123-125.)。教育数据加权关联规则挖掘方法的缺陷是：只考虑课程之间的重要性，没有考虑课程考试成绩的影响。

针对上述缺陷，教育数据矩阵加权关联规则挖掘方法引入项目权值，考虑了考虑学生所选修课程的教学效果，即考虑课程考试成绩，其典型的矩阵加权关联规则挖掘方法是谭义红等提出的向量空间模型中完全加权关联规则的挖掘方法(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)。当前，矩阵加权关联规则挖掘方法在教育数据分析中的典型应用是余如等(余如,黄丽霞,黄名选.教育信息化中课程考试成绩数据关联模式的发现.计算机与现代化,2014(2):10-14.)提出的课程成绩数据关联模式发现方法，获得了显著的效果。现有的教育数据完全加权关联规则挖掘方法的缺陷是：现有的方法只能挖掘完全加权正关联规则模式，没有解决矩阵加权负关联模式挖掘问题，另外，现有方法其所挖掘的关联模式数量仍然很庞大，增加用户选择所需模式的难度，无趣的、虚假的和无效的关联模式还很多，很难将其技术上升到应用层面。

针对上述问题，本发明根据教育数据的特点，提出一种新的基于项加权和项集关联度的课程正负模式挖掘方法及系统。该发明方法克服了现有矩阵加权模式挖掘方法的不足，不仅能挖掘矩阵加权课程正负关联规则模式，还能够有效地减少无趣的和无效的课程关联模式出现，其课程候选项集和挖掘时间明显减少，提高了挖掘效率，其课程关联规则模式更接近实际，可为教学改革和教育管理、决策提供科学的依据，在教育信息化教务数据分析与挖掘领域具有重要的应用价值和广阔的应用前景。

发明内容

本发明的目的在于，针对教育数据课程正负关联模式挖掘进行深入探索，提出一种基于项加权和项集关联度的课程正负模式挖掘方法及系统，应用于教育数据挖掘领域，为教育数据课程正负关联模式挖掘与分析提供新的挖掘方法，通过课程正负关联规则模式分析发现教育领域潜在的教育、教学规律和教育发展趋势，提高任课教师提高教学质量和学生的学习效果。

本发明所采取的技术方案是：一种基于项加权和项集关联度的课程正负模式挖掘方法，包括如下步骤：

(1)教育数据预处理：待处理的教育数据进行如下的预处理：将课程当作项目，课程成绩当作项目权值，课程权值规范化为0至1之间，提取学生课程信息及其成绩，构建课程信息库和课程项目库。

(2)挖掘教育数据课程矩阵加权频繁1-项集L₁：从课程项目库中提取课程候选1-项集C₁，累加C₁项集权值w(C₁)，计算其支持度cisup(C₁)，与ms比较，从C₁中挖掘课程矩阵加权频繁1-项集L₁加入ciPIS。候选1-项集C₁支持度cisup(C₁)公式如下：

其中，n为课程信息数据库的记录总数。

(3)挖掘有趣的矩阵加权课程频繁i-项集L_i和负i-项集N_i(所述的i≥2)，包括以下(3.1)步至(3.3)步：

(3.1)候选i_项集C_i由课程频繁(i-1)-项集L_i-1进行Apriori连接，然后累加C_i的权值，计算其cisup(C_i)。cisup(C_i)计算公式如下：

(3.2)对于课程候选i_项集C_i支持度cisup(C_i)≥最小支持度阈值ms，计算课程频繁项集关联度ciFIR(C_i)，如果其ciFIR(C_i)≥最小频繁关联度阈值mFr，则该C_i为有趣的矩阵加权课程频繁i-项集L_i，并加入课程频繁项集集合ciPIS。课程频繁项集关联度ciFIR(C_i)计算公式如下：

其中，为C_i的子项集集合。

(3.3)对于课程候选i_项集C_i支持度cisup(C_i)<ms，计算课程负项集关联度ciNIR(C_i)，若其ciNIR(C_i)≥最小负项集关联度阈值mNr，则该C_i为有趣矩阵加权课程负i-项集N_i，并加入课程负项集集合ciNIS。课程负项集关联度ciNIR(C_i)计算公式如下：

其中，为C_i的子项集集合。

(4)从课程频繁项集集合ciPIS中挖掘有效的矩阵加权课程正负关联规则模式，包括以下(4.1)步至(4.6)步：

(4.1)从课程频繁项集集合ciPIS中取出课程频繁项集L_i，找出L_i的所有真子集.

(4.2)从L_i的真子集集合中任意取出两个真子集I₁和I₂，当cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁∪I₂＝L_i，计算矩阵加权课程频繁项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)。cisup(I₁)、cisup(I₂)和课程频繁项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)的计算公式如下：

其中，i₁和i₂为I₁和I₂的项目个数，即维数。

其中，cisup(*)>0,cisup(*)≠1。

(4.3)当ciPCC(I₁,I₂)≥相关系数阈值β时，计算VMWAR(I₁,I₂,mc,mi)的值，若其值等于1，则得出矩阵加权课程强关联规则I₁→I₂，加入ciPAR；计算的值，若其值等于1，则得出矩阵加权课程强负关联规则加入ciNAR。VMWAR(I₁,I₂,mc,mi)和的计算公式如下：

其中，

(4.4)当矩阵加权课程项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)≤－β，计算的值，若其值等于1，则得出矩阵加权课程强负关联规则加入ciNAR；计算的值，若其值等于1，则得出矩阵加权课程强负关联规则加入ciNAR。和的计算公式如下：

其中，

(4.5)继续(4.2)步骤，当课程频繁项集L_i的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤(4.6)步；

(4.6)继续(4.1)步骤，当课程频繁项集集合中每个频繁项集L_i都被取出一次，而且仅能取出一次，则(4)步运行结束，转入(5)步；

(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式，包括以下(5.1)步至(5.6)步：

(5.1)从课程负项集集合ciNIS中取出课程负项集N_i，找出N_i的所有真子集.

(5.2)从N_i的真子集集合中任意取出两个真子集I₁和I₂，当cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁∪I₂＝N_i，计算矩阵加权课程负项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)。ciPCC(I₁,I₂)的计算公式同(4.2)步的。

(5.3)当矩阵加权课程负项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)≥β，计算的值，若其值等于1，则得出矩阵加权课程强负关联规则加入ciNAR。的计算公式同(4.3)步的。

(5.4)当矩阵加权课程负项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)≤－β，计算的值，若其值等于1，则得出矩阵加权课程强负关联规则加入ciNAR；计算的值，若其值等于1，则得出矩阵加权课程强负关联规则加入ciNAR。和的计算公式同(4.4)步的。

(5.5)继续(5.2)步骤，当课程负项集N_i的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤(5.6)步；

(5.6)继续(5.1)步骤，当课程频繁项集集合中每个负项集N_i都被取出一次，而且仅能取出一次，则(5)步运行结束；

至此，矩阵加权课程正负关联模式挖掘结束。所述的ms为最小支持度阈值，mc为最小置信度阈值，mi为最小兴趣度阈值，β为相关系数阈值。

一种适用于上述基于项加权和项集关联度的课程正负关联模式挖掘方法的挖掘系统，其特征在于，包括以下4个模块：

教育数据预处理模块：将待处理的教育数据进行预处理，提取学生课程信息及其成绩，将课程成绩权值规范化为0至1之间，构建课程信息库和课程项目库。

课程项集模式生成模块：该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集，计算其支持度，与支持度阈值比较得到课程频繁1-项集，从i-项集(i≥2)起，频繁(i-1)-项集通过Apriori连接生成课程候选i-项集；计算课程候选i-项集支持度，与最小支持度阈值比较得到课程频繁i-项集和负i-项集；计算课程频繁项集的关联度，与课程频繁项集关联度阈值比较得到有趣的课程频繁项集；计算课程负项集关联度，与负项集关联度阈值比较得到有趣的课程负项集。

课程正负关联规则模式生成模块：该模块生成课程频繁项集的真子集，计算课程关联规则模式的相关系数、兴趣度和置信度，与相关系数阈值、兴趣度阈值和置信度阈值比较，从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式；然后生成课程负项集的真子集，计算课程负关联规则模式的相关系数、兴趣度和置信度，与相关系数阈值、兴趣度阈值和置信度阈值比较，从课程负项集中挖掘有效的矩阵加权课程强负关联规则模式；

课程正负关联模式显示模块：该模块将有效的矩阵加权课程正负关联规则模式显示给用户，供用户分析和使用。

所述的课程项集模式生成模块包括以下3个模块：

课程候选项集生成模块：该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集，计算其支持度，与支持度阈值比较得到课程频繁1-项集，从i-项集(i≥2)起，频繁(i-1)-项集通过Apriori连接生成课程候选i-项集，并计算其项集支持度；

课程频繁项集生成模块：该模块对于其支持度大于或者等于支持度阈值的课程候选项集，计算其课程频繁项集的关联度，与其关联度阈值比较得到有趣的矩阵加权课程频繁项集。

课程负项集生成模块：该模对于其支持度小于支持度阈值的课程候选项集，计算其课程负项集的关联度，与其关联度阈值比较得到有趣的矩阵加权课程负项集。

所述的课程正负关联规则模式生成模块包括以下2个模块：

来自课程频繁项集的强正负关联规则模式生成模块：该模块生成课程频繁项集的真子集，计算课程关联规则模式的相关系数、兴趣度和置信度，与相关系数阈值、兴趣度阈值和置信度阈值比较，从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式。

来自课程负项集的强负关联规则模式生成模块：该模块生成课程负项集的真子集，计算课程负关联规则模式的相关系数、兴趣度和置信度，与相关系数阈值、兴趣度阈值和置信度阈值比较，从课程负项集中挖掘有效的矩阵加权强负关联规则模式。

所述的挖掘系统中的支持度阈值ms，置信度阈值mc，兴趣度阈值mi，相关系数阈值β由用户输入。

与现有技术相比，本发明具有以下有益效果：

(1)本发明提出一种新的教育数据矩阵加权课程频繁项集剪枝方法，基于该剪枝方法提出一种基于项加权和项集关联度的课程正负模式挖掘方法及系统。该发明能避免无效的课程关联模式产生，提高了挖掘效率，其课程正负关联模式更加接近实际情况。与现有挖掘方法比较，本发明的课程候选数量明显减少，其挖掘性能优于现有无加权关联模式挖掘方法，在教育信息化教育数据分析与挖掘领域有较高的应用价值和广阔的应用前景。该发明运用于高校教务管理系统，可以扩展教务管理功能，其关联模式可以有助于教师改善和调整方法，提高教学质量，同时，可以帮助学生提高学习效果。因此，该发明在教育信息化数据分析以及教育数据模式挖掘有重要的应用价值和广阔的应用前景。

(2)以真实的高校课程考试成绩作为本发明实验数据测试集，将本发明与现有的无加权模式挖掘方法进行实验比较和分析，实验结果表明，无论在支持度阈值或者置信度阈值变化的情况下，本发明的挖掘方法所挖掘的课程候选项集和挖掘时间都比对比挖掘方法的少，挖掘效率得到了极大提高。

附图说明

图1是本发明所述的基于项加权和项集关联度的课程正负模式挖掘方法的框图。

图2是本发明所述的基于项加权和项集关联度的课程正负模式挖掘方法的整体流程图。

图3是本发明所述的基于项加权和项集关联度的课程正负模式挖掘系统的结构框图。

图4是本发明所述的课程项集模式生成模块的结构框图。

图5是本发明所述的课程正负关联规则模式生成模块的结构框图。

具体实施方式

为了更好地说明本发明的技术方案，下面将本发明涉及的教育数据模型和相关的概念介绍如下：

一、基本概念

设教育数据学生课程数据库SCD＝{r₁,r₂,…,r_n}，其中学生信息记录数为n，I＝{i₁,i₂,…,i_m}表示SCD中所有课程项目集合，课程项目数为m，i_j(1≦j≦m)表示SCD中第j个课程项目，在学生信息记录r_i中的课程成绩权值为w[r_i][i_j]。设I₁,I₂是I的子项集，I₁∪I₂＝I且，给出如下基本定义。

定义1矩阵加权课程项集支持度(Course itemset support,cisup)：矩阵加权课程项集支持度cisup(I)的计算公式(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)如式(1)所示，其中，k为项集I的长度(即I的项目个数)。

矩阵加权课程负项集和负关联规则支持度如式(2)至式(5)所示。

定义2矩阵加权课程频繁项集和负项集：对于矩阵加权课程项集I，若cisup(I)≥ms，则称项集I为矩阵加权课程频繁项集；当I₁和I₂都是矩阵加权课程频繁项集，若cisup(I₁,I₂)<ms，则项集(I₁,I₂)称为矩阵加权课程负项集，其中ms为最小支持度阈值。

定义3矩阵加权课程关联规则置信度(ciconf)：矩阵加权正负关联规则置信度计算公式如式(6)至(10)：

定义4矩阵加权模式相关系数(ciPCC)：矩阵加权课程关联模式(I₁,I₂)相关系数ciPCC(I₁,I₂)的计算公式，如式(10)所示。

其中，cisup(*)>0,cisup(*)≠1。

定义5矩阵加权课程频繁项集关联度(ciFIR)对于矩阵加权课程频繁项集FI＝(i₁,i₂,…,i_m)(m>1)，其子项集集合为将支持度最大的子项集发生时该频繁项集FI发生的条件概率作为FI的关联度，给出矩阵加权课程频繁项集FI子项集间关联度ciFIR(FI)的计算公式如式(11)所示。

定义6矩阵加权课程负项集关联度(ciNIR)对于矩阵加权课程负项集NI＝(i₁,i₂,…,i_r)(r>1)，其子项集集合为将支持度最大的子项集不发生时该负项集NI发生的条件概率作为NI的关联度，给出矩阵加权课程负项集NI子项集间关联度ciNIR(NI)的计算公式如式(12)所示。

定义7矩阵加权课程正负关联规则兴趣度(ciARI)：矩阵加权正负关联规则兴趣度计算公式如式(13)至式(16)所示。

二、有效的矩阵加权课程正负关联规则挖掘思想

假设最小置信度阈值为mc，最小兴趣度阈值为mi，相关系数阈值为β(β∈(0,1])，有效的矩阵加权课程关联规则挖掘基本思想：

(1)对于有趣的矩阵加权课程频繁项集(I₁,I₂)，项集I₁和I₂均为频繁项集，若ciPCC(I₁,I₂)≥β，VMWAR(I₁,I₂,mc,mi)＝1和则I₁→I₂和是个有效的矩阵加权课程正负关联规则；若ciPCC(I₁,I₂)≤－β，当和时，则和是个有效的矩阵加权课程负规则。

其中，VMWAR(I₁,I₂,mc,mi)、和的计算公式如式(17)至式(20)所示。

(2)对于有趣的矩阵加权课程负项集(I₁,I₂)，项集I₁和I₂均为课程频繁项集，若ciPCC(I₁,I₂)≥β，时，则是个有效的矩阵加权课程负关联规则；若ciPCC(I₁,I₂)≤－β，时，则是个有效的矩阵加权课程负关联规则。

三、有趣的矩阵加权项集剪枝策略

设最小频繁项集关联度阈值为mFr，最小负项集关联度阈值为mNr。

有趣的矩阵加权课程频繁项集I剪枝策略：当cisup(I)≥ms时，若ciFIR(I)≥mFr，则项集I是一个有趣的矩阵加权课程频繁项集，应该保留，否则，若ciFIR(I)<mFr，那么课程项集I被剪除。

有趣的矩阵加权课程负项集I剪枝策略：当cisup(I)<ms时，若ciNIR(NI)≥mNr，则课程项集I是一个有趣的矩阵加权课程负项集，应该保留，否则，若ciNIR(NI)<mNr，那么课程项集I被剪除。

下面通过具体实施例对本发明的技术方案做进一步的说明。

具体实施例中本发明采取的挖掘方法和系统如图1-图5所示。

实例：表1是一个课程项目库实例，表2是学生选修课程的学生课程信息数据库实例，即有5个课程项目和5个学生信息记录以及各个课程项目的成绩权值，其中成绩权值已经进行规范化处理，使之在0到1之间，没有选修的课程成绩为0，满分的课程成绩为1。

采用本发明挖掘方法对该课程信息数据实例挖掘矩阵加权课程正负关联模式，其挖掘过程如下(ms＝0.50，mc＝0.35,mFr＝0.5,mNr＝0.6,mi＝0.25,β＝0.15)：

1.挖掘矩阵加权特征词频繁1_项集L₁，如表1所示，其中n＝5。

表3：


		3.24	0.648
3.27	0.654
		2.92	0.584
2.28	0.456
		2.89	0.578

由表3可知，L₁＝{(i₁),(i₂),(i₃),(i₅)}，

课程频繁项集集合ciPIS＝{(i₁),(i₂),(i₃),(i₅)}。

2.挖掘矩阵加权课程频繁k_项集L_k和负k-项集N_k，所述的k≥2。

k＝2:

(1)课程频繁1_项集L₁进行Apriori连接，生成课程候选2_项集C₂，并计算w(C₂)、和cisup(C₂)如表4所示。

表4：

对于表4，进行如下操作：

*若cisup(C₂)≥ms，计算ciFIR(C₂)，将ciFIR(C₂)≥mFr的有趣矩阵加权课程频繁2-项集L₂加入频繁项集集合ciPIS，即L₂＝{(i₁,i₂),(i₂,i₃)}，ciPIS＝{(i₁),(i₂),(i₃),(i₅),(i₁,i₂),(i₂,i₃)}

*若cisup(C₂)<ms，计算ciNIR(C₂)，将ciNIR(C₂)≥mNr的有趣矩阵加权负2-项集N₂加入负项集集合ciNIS，即N₂＝{(i₁,i₃),(i₁,i₅),(i₂,i₅),(i₃,i₅)}，mwNIS＝{(i₁,i₃),(i₁,i₅),(i₂,i₅),(i₃,i₅)}k＝3:

*L₂进行Apriori连接生成课程候选3_项集C₃，C₃的结果为空集。

当k＝4时，L₃也为空集，挖掘矩阵加权课程频繁k_项集L_k和负k-项集N_k结束，转入如下3步骤。最终挖掘项集结果为：ciPIS＝{(i₁),(i₂),(i₃),(i₅),(i₁,i₂),(i₂,i₃)}，ciNIS＝{(i₁,i₃),(i₁,i₅),(i₂,i₅),(i₃,i₅)}

3.从课程频繁项集集合ciPIS中挖掘有效的矩阵加权课程正负关联规则模式。

以ciPIS中课程频繁项集(i₂,i₃)为例，给出有效的矩阵加权课程正负关联规则模式挖掘过程如下：

课程频繁项集(i₂,i₃)的真子集集合为{(i₂),(i₃)}，设I₁＝(i₂)，I₂＝(i₃)。

cisup(I₁)＝0.654≥ms，cisup(I₂)＝0.584≥ms，cisup(I₁,I₂)＝0.515

计算:

因为ciPCC(I₁,I₂)>β＝0.1，所以，

(1)

因为VMWAR(I₁,I₂,mc,mi)＝1，所以得出有效的矩阵加权课程关联规则I₁→I₂，即，(i₂)→(i₃)，或者，(数据结构)→(C语言程序设计)。

(2)

由于所以得出有效的矩阵加权课程负关联规则即，或者，

综上所述，对于课程频繁项集(i₂,i₃)，可以挖掘出有效的矩阵加权课程正负关联规则模式(i₂)→(i₃)，或者，(数据结构)→(C语言程序设计)， (ms＝0.15，mc＝0.3,mFr＝0.3,mNr＝0.12,mi＝0.26,β＝0.1)。

4.从课程负项集集合ciNIS中挖掘有效的矩阵加权课程负关联规则模式。

以ciNIS中课程负项集(i₃,i₅)为例，给出有效的矩阵加权课程强负关联规则模式挖掘过程如下：

*负项集(i₃,i₅)的真子集集合为{(i₃),(i₅)}，设I₁＝(i₃)，I₂＝(i₅)。

cisup(I₁)＝0.584≥ms，cisup(I₂)＝0.578≥ms，cisup(I₁,I₂)＝0.478

计算:

因为ciPCC(I₁,I₂)>β＝0.1，所以，

由于所以得出有效的矩阵加权课程负关联规则即，或者，

综上所述，对于课程频繁项集(i₃,i₅)，可以挖掘出有效的矩阵加权课程负关联规则模式或者，(ms＝0.15，mc＝0.3,mFr＝0.3,mNr＝0.12,mi＝0.26,β＝0.1)。

下面通过实验对本发明的有益效果做进一步说明。

数据测试集为英语教育、应用英语、旅游英语和商务英语等英语专业的历届毕业生在校学习成绩，来自本校教务部分真实的课程考试成绩数据。将每个学生信息作为一个学生记录，将学生选修的课程当作课程项目，课程成绩当作权值，将成绩权值规范化为0到1之间，构建课程信息数据库和课程项目库。实验中，学生信息记录数为415，课程项目数为165。

选择经典无加权正负关联规则挖掘方法(WU Xin-dong,ZHANG Cheng-qi andZHANG Shi-chao.Efficient mining of both positive and negative associationrules[J].ACM Transactions on Information Systems,2004,22(3):381–405.)(记为PNARMiner算法)为实验对比方法，编写实验源程序，分别从支持度阈值变化和置信度阈值变化两种情况对本发明和对比方法的挖掘性能进行实验对比和分析。实验参数除了ms、mc、mFr、mNr、mi和β以外，还有：IN:挖掘的课程项目数量，n:学生信息记录数。实验挖掘到4-项集。下列表格中，关联规则(Association Rule,AR)A→B,和分别用AR1，AR2，AR3和AR4表示。

实验1：支持度阈值变化情况下挖掘性能比较

支持度阈值变化时本发明和对比方法(PNARMiner方法)在真实的课程考试成绩数据集中挖掘候选项集(Candidate Itemset,CI)、频繁项集(Frequent Itemset,FI)、负项集(Negative Itemset,NI)和关联规则(Association Rule,AR)数量结果如表5至表6所示。

表5支持度阈值变化时挖掘的项集数量(IN＝35,mc＝0.07,n＝415,mi＝0.01,mFr＝0.06,mNr＝0.001,β＝0.05)

表6支持度阈值变化下挖掘的正负关联规则数量比较(IN＝35,mc＝0.07,n＝415,mi＝0.01,mFr＝0.06,mNr＝0.001,β＝0.05)

实验2：置信度阈值变化时挖掘性能比较

置信度阈值变化时本发明和对比方法在真实的课程考试成绩数据集中挖掘关联规则数量如表7所示。

表7置信度阈值变化下挖掘的正负关联规则数量比较(IN＝35,ms＝0.09,n＝415,mi＝0.01,mFr＝0.06,mNr＝0.001,β＝0.05)

上述实验结果表明，与实验对比相比较，本发明的挖掘性能具有良好的挖掘性能，具体表现为：在支持度阈值变化的情况下，本发明所挖掘的课程候选项集数量都比对比方法挖掘的少55.05％，在支持度阈值变化或者置信度阈值变化的情况下，本发明所挖掘的课程正负关联规则模式A→B,数量比对比方法挖掘的少，而所挖掘的负关联规则模式数量比对比方法多很多，另外，对比算法挖掘的负关联规则模式数量比本发明多得多。这些结果表明本发明方法比对比方法挖掘出更多合理的课程关联规则模式，减少了很多不合理的、无效的课程关联模式出现，因为，在课程关联模式挖掘和分析中，课程规则模式A→B和是合理和有趣的模式，例如，课程规则“(数据结构)→(C语言程序设计)”表明学好《数据结构》课程就能有助于学好《C语言程序设计》课程，课程规则表明学不好《C语言程序设计》课程就难于学好《数据库系统开发》课程，而课程规则模式和是不合理和无趣的模式，例如，课程规则表明学不好《程序设计》课程就能学好《操作系统》课程，显然，这是无趣的、不合理的模式。

Claims

1.一种基于项加权和项集关联度的课程正负模式挖掘方法，其特征在于，包括如下步骤：

(1)教育数据预处理：待处理的教育数据进行如下的预处理：将课程当作项目，课程成绩当作项目权值，课程权值规范化为0至1之间，提取学生课程信息及其成绩，构建课程信息库和课程项目库；

(2)挖掘教育数据课程矩阵加权频繁1-项集L₁：从课程项目库中提取课程候选1-项集C₁，计算其支持度cisup(C₁)，与最小支持度阈值ms比较，从C₁中挖掘课程矩阵加权频繁1-项集L₁加入课程频繁项集集合ciPIS；

(3)挖掘有趣的矩阵加权课程频繁i-项集L_i和负i-项集N_i，所述的i≥2，包括以下(3.1)步至(3.3)步：

(3.1)候选i-项集C_i由课程频繁(i-1)-项集L_i-1进行Apriori连接，然后累加C_i的权值，计算其支持度cisup(C_i)；

(3.2)对于课程候选i-项集C_i支持度cisup(C_i)≥最小支持度阈值ms，计算课程频繁项集关联度ciFIR(C_i)，如果其ciFIR(C_i)≥最小频繁关联度阈值mFr，则该C_i为有趣的矩阵加权课程频繁i-项集L_i，并加入课程频繁项集集合ciPIS，所述的课程频繁项集关联度ciFIR(C_i)计算公式如下式(1)所示：

c i F I R (C_{i}) = \frac{c i \sup (C_{i})}{m a x {c i \sup (I_{k}) | &ForAll; k &Element; 1, ..., q}} - - - (1)

式(1)中，为C_i的子项集集合，所述的cisup(I_k)为C_i的子项集I_k的支持度；

(3.3)对于课程候选i-项集C_i支持度cisup(C_i)<ms，计算课程负项集关联度ciNIR(C_i)，若其ciNIR(C_i)≥最小负项集关联度阈值mNr，则该C_i为有趣矩阵加权课程负i-项集N_i，并加入课程负项集集合ciNIS，所述的课程负项集关联度ciNIR(C_i)计算公式如下式(2)所示：

c i N I R (C_{i}) = \frac{c i \sup (C_{i})}{1 - \max {c i \sup (I_{k}) | &ForAll; k &Element; 1, ..., p}} - - - (2)

式(2)中，为C_i的子项集集合；

(4.1)从课程频繁项集集合ciPIS中取出课程频繁项集L_i，找出L_i的所有真子集；

(4.2)从L_i的真子集集合中任意取出两个真子集I₁和I₂，当cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁∪I₂＝L_i，计算矩阵加权课程频繁项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)，所述的ciPCC(I₁,I₂)计算公式如下式(3)所示：

c i P C C (I_{1}, I_{2}) = \frac{c i \sup (I_{1}, I_{2}) - c i \sup (I_{1}) c i \sup (I_{2})}{\sqrt{c i \sup (I_{1}) c i \sup (I_{2}) (1 - c i \sup (I_{1})) (1 - c i \sup (I_{2}))}} - - - (3)

式(3)中，cisup(I₁,I₂)为矩阵加权课程频繁项集(I₁,I₂)的支持度；

(4.3)当ciPCC(I₁,I₂)≥相关系数阈值β时，计算有效的矩阵加权课程关联规则综合评价VMWAR(I₁,I₂,mc,mi)的值，若其值等于1，则得出矩阵加权课程强关联规则I₁→I₂，加入有效的矩阵加权课程正关联规则集合ciPAR；计算有效的矩阵加权课程关联规则综合评价的值，若其值等于1，则得出矩阵加权课程强负关联规则I₂，加入有效的矩阵加权课程负关联规则集合ciNAR；

所述的VMWAR(I₁,I₂,mc,mi)的计算公式如下式(4)所示：

V M W A R (I_{1}, I_{2}, m c, m i) = \frac{c i \sup (I_{1} &RightArrow; I_{2}) - m c + c i A R I (I_{1} &RightArrow; I_{2}) - m i + 1}{| c i \sup (I_{1} &RightArrow; I_{2}) - m c | + | c i A R I (I_{1} &RightArrow; I_{2}) - m i | + 1} - - - (4)

式(4)中，ciARI(I₁→I₂)为矩阵加权课程正关联规则I₁→I₂的兴趣度，其计算公式如下式(5)所示：

c i A R I (I_{1} &RightArrow; I_{2}) = \frac{c i c o n f (I_{1} &RightArrow; I_{2}) - c i \sup (I_{2})}{m a x (c i c o n f (I_{1} &RightArrow; I_{2}), c i s u p (I_{2}))} - - - (5)

式(5)中，ciconf(I₁→I₂)为矩阵加权课程正关联规则I₁→I₂的置信度，其计算公式如下式(6)所示：

c i c o n f (I_{1} &RightArrow; I_{2}) = \frac{c i \sup (I_{1}, I_{2})}{c i \sup (I_{1})} - - - (6)

所述的的计算公式如下式(7)所示：

式(7)中，为矩阵加权课程负关联规则的兴趣度，其计算公式如下式(8)所示：

式(7)和式(8)中，为矩阵加权课程负关联规则的置信度，其计算公式如下式(9)所示：

(4.4)当矩阵加权课程项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)≤－β，计算有效的矩阵加权课程关联规则综合评价的值，若其值等于1，则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR；计算有效的矩阵加权课程关联规则综合评价的值，若其值等于1，则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR；

所述的的计算公式如下式(10)所示：

式(10)中，为矩阵加权课程负关联规则的兴趣度，其计算公式如下式(11)所示：

式(10)和式(11)中，为矩阵加权课程负关联规则的置信度，其计算公式如下式(12)所示：

所述的的计算公式如下式(13)所示：

式(13)中，为矩阵加权课程负关联规则的兴趣度，其计算公式如下式(14)所示：

式(13)和式(14)中，为矩阵加权课程负关联规则的置信度，其计算公式如下式(15)所示：

(5)从课程负项集集合ciNIS中挖掘有效的矩阵加权课程负关联规则模式，包括以下(5.1)步至(5.6)步：

(5.1)从课程负项集集合ciNIS中取出课程负项集N_i，找出N_i的所有真子集；

(5.2)从N_i的真子集集合中任意取出两个真子集I₁和I₂，当cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁∪I₂＝N_i，计算矩阵加权课程负项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)，所述的ciPCC(I₁,I₂)的计算公式同(4.2)步；

(5.3)当矩阵加权课程负项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)≥β，计算有效的矩阵加权课程关联规则综合评价的值，若其值等于1，则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR，所述的的计算公式同(4.3)步；

(5.4)当矩阵加权课程负项集(I₁,I₂)的相关系数ciPCC(I₁,I₂)≤－β，计算有效的矩阵加权课程关联规则综合评价的值，若其值等于1，则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR；计算有效的矩阵加权课程关联规则综合评价的值，若其值等于1，则得出矩阵加权课程强负关联规则加入ciNAR，所述的和的计算公式同(4.4)步；

至此，矩阵加权课程正负关联模式挖掘结束，所述的ms为最小支持度阈值，mc为最小置信度阈值，mi为最小兴趣度阈值，β为相关系数阈值。

2.一种适用于权利要求1所述的基于项加权和项集关联度的课程正负关联模式挖掘方法的挖掘系统，其特征在于，包括以下4个模块：

教育数据预处理模块：将待处理的教育数据进行预处理，提取学生课程信息及其成绩，将课程成绩权值规范化为0至1之间，构建课程信息库和课程项目库；

课程项集模式生成模块：该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集，计算其支持度，与支持度阈值比较得到课程频繁1-项集，从i-项集起，所述的i≥2，频繁(i-1)-项集通过Apriori连接生成课程候选i-项集；计算课程候选i-项集支持度，与最小支持度阈值比较得到课程频繁i-项集和负i-项集；计算课程频繁项集的关联度，与课程频繁项集关联度阈值比较得到有趣的课程频繁项集；计算课程负项集关联度，与负项集关联度阈值比较得到有趣的课程负项集；

3.根据权利要求2所述的挖掘系统，其特征在于，所述的课程项集模式生成模块包括以下3个模块：

课程候选项集生成模块：该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集，计算其支持度，与支持度阈值比较得到课程频繁1-项集，从i-项集起，所述的i≥2，频繁(i-1)-项集通过Apriori连接生成课程候选i-项集，并计算其项集支持度；

课程频繁项集生成模块：该模块对于其支持度大于或者等于支持度阈值的课程候选项集，计算其课程频繁项集的关联度，与其关联度阈值比较得到有趣的矩阵加权课程频繁项集；

课程负项集生成模块：该模块对于其支持度小于支持度阈值的课程候选项集，计算其课程负项集的关联度，与其关联度阈值比较得到有趣的矩阵加权课程负项集。

4.根据权利要求2所述的挖掘系统，其特征在于，所述的课程正负关联规则模式生成模块包括以下2个模块：

来自课程频繁项集的强正负关联规则模式生成模块：该模块生成课程频繁项集的真子集，计算课程关联规则模式的相关系数、兴趣度和置信度，与相关系数阈值、兴趣度阈值和置信度阈值比较，从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式；

5.根据权利要求2-4中任一项所述的挖掘系统，其特征在于，所述的挖掘系统中的支持度阈值ms，置信度阈值mc，兴趣度阈值mi，相关系数阈值β由用户输入。