CN104217013B - 基于项加权和项集关联度的课程正负模式挖掘方法及系统 - Google Patents

基于项加权和项集关联度的课程正负模式挖掘方法及系统 Download PDF

Info

Publication number
CN104217013B
CN104217013B CN201410486033.1A CN201410486033A CN104217013B CN 104217013 B CN104217013 B CN 104217013B CN 201410486033 A CN201410486033 A CN 201410486033A CN 104217013 B CN104217013 B CN 104217013B
Authority
CN
China
Prior art keywords
course
negative
item
association
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410486033.1A
Other languages
English (en)
Other versions
CN104217013A (zh
Inventor
黄名选
韦吉锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGXI COLLEGE OF EDUCATION
Original Assignee
GUANGXI COLLEGE OF EDUCATION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGXI COLLEGE OF EDUCATION filed Critical GUANGXI COLLEGE OF EDUCATION
Priority to CN201410486033.1A priority Critical patent/CN104217013B/zh
Publication of CN104217013A publication Critical patent/CN104217013A/zh
Application granted granted Critical
Publication of CN104217013B publication Critical patent/CN104217013B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于项加权和项集关联度的课程正负关联模式挖掘方法及挖掘系统,利用教育数据预处理模块对教务数据预处理;利用课程项集模式生成模块生成课程候选项集,计算其支持度,由此得到课程频繁项集和负项集,根据课程频繁项集和负项集的关联度进行项集剪枝,得到有趣的课程频繁项集和负项集;利用课程正负关联规则模式生成模块计算课程关联规则兴趣度和置信度,从课程频繁项集和负项集挖掘矩阵加权课程强正负关联规则;课程正负关联模式显示模块将课程模式显示给用户,供用户分析和使用。本发明方法挖掘的课程候选项集和挖掘时间明显减少,避免了无效的课程关联模式出现,挖掘效率得到极大提高,其模式可为教务管理、决策以及教改提供科学依据。

Description

基于项加权和项集关联度的课程正负模式挖掘方法及系统
技术领域
本发明属于教育数据挖掘领域,具体是一种基于项加权和项集关联度的课程正负模式挖掘方法及系统,适用于教务数据课程正负关联模式发现,其模式可为教学改革和教育管理、决策提供科学的依据。该发明运用于高校教务管理系统,可以扩展教务管理功能,其关联模式可以有助于教师改善和调整方法,提高教学质量,同时,可以帮助学生提高学习效果。
背景技术
教育数据无加权关联模式挖掘方法、教育数据加权关联规则挖掘方法和教育数据矩阵加权关联规则挖掘方法是目前常见的教育数据关联规则挖掘方法。教育数据无加权关联规则挖掘方法是传统的关联规则挖掘方法在教育信息化领域的具体应用。该方法的特点是各个项目按平等一致的方式处理,只考虑项目频度,其缺陷是:在挖掘时只考虑课程的选修关联,没有考虑课程之间具有不同的重要性,更没有考虑学生选修课程后的教学效果(即课程考试成绩)。典型的教育数据无加权关联规则挖掘方法是Apriori方法(R.Agrawal,T.Imielinski,A.Swami.Mining association rules between sets of items in largedatabase[C].In Proceeding of 1993ACM SIGMOD International Conference onManagement of Data,Washington D.C.,1993,(5):207-216.)及其改进方法(董辉.基于兴趣度的高职课程关联规则挖掘[J].吉首大学学报(自然科学版),2012,33(3):41-46.李忠哗,王凤利,何丕廉.关联规则挖掘在课程相关分析中的应用[J].河北农业大学学报,2010,33(3):116-119.)。
针对传统关联规则挖掘的缺陷,教育数据加权关联规则挖掘方法不仅考虑课程的选修关联,还给每门课程赋予一定的权值,以体现课程之间具有不同的重要性。典型的教育数据加权关联规则挖掘方法有Cai等(C.H.Cai,A.da,W.C.Fu,et al.Mining AssociationRules with Weighted Items[C]//Proceedings of IEEE International databaseEngineering and Application Symposiums,1998:68-77.)提出的加权关联规则挖掘方法(即MINWAL方法)及其改进方法(刘建炜,张颖.基于加权关联规则算法的学生成绩数据挖掘研究[J].福建教育学院学报,2012(3):123-125.)。教育数据加权关联规则挖掘方法的缺陷是:只考虑课程之间的重要性,没有考虑课程考试成绩的影响。
针对上述缺陷,教育数据矩阵加权关联规则挖掘方法引入项目权值,考虑了考虑学生所选修课程的教学效果,即考虑课程考试成绩,其典型的矩阵加权关联规则挖掘方法是谭义红等提出的向量空间模型中完全加权关联规则的挖掘方法(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相 关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)。当前,矩阵加权关联规则挖掘方法在教育数据分析中的典型应用是余如等(余如,黄丽霞,黄名选.教育信息化中课程考试成绩数据关联模式的发现.计算机与现代化,2014(2):10-14.)提出的课程成绩数据关联模式发现方法,获得了显著的效果。现有的教育数据完全加权关联规则挖掘方法的缺陷是:现有的方法只能挖掘完全加权正关联规则模式,没有解决矩阵加权负关联模式挖掘问题,另外,现有方法其所挖掘的关联模式数量仍然很庞大,增加用户选择所需模式的难度,无趣的、虚假的和无效的关联模式还很多,很难将其技术上升到应用层面。
针对上述问题,本发明根据教育数据的特点,提出一种新的基于项加权和项集关联度的课程正负模式挖掘方法及系统。该发明方法克服了现有矩阵加权模式挖掘方法的不足,不仅能挖掘矩阵加权课程正负关联规则模式,还能够有效地减少无趣的和无效的课程关联模式出现,其课程候选项集和挖掘时间明显减少,提高了挖掘效率,其课程关联规则模式更接近实际,可为教学改革和教育管理、决策提供科学的依据,在教育信息化教务数据分析与挖掘领域具有重要的应用价值和广阔的应用前景。
发明内容
本发明的目的在于,针对教育数据课程正负关联模式挖掘进行深入探索,提出一种基于项加权和项集关联度的课程正负模式挖掘方法及系统,应用于教育数据挖掘领域,为教育数据课程正负关联模式挖掘与分析提供新的挖掘方法,通过课程正负关联规则模式分析发现教育领域潜在的教育、教学规律和教育发展趋势,提高任课教师提高教学质量和学生的学习效果。
本发明所采取的技术方案是:一种基于项加权和项集关联度的课程正负模式挖掘方法,包括如下步骤:
(1)教育数据预处理:待处理的教育数据进行如下的预处理:将课程当作项目,课程成绩当作项目权值,课程权值规范化为0至1之间,提取学生课程信息及其成绩,构建课程信息库和课程项目库。
(2)挖掘教育数据课程矩阵加权频繁1-项集L1:从课程项目库中提取课程候选1-项集C1,累加C1项集权值w(C1),计算其支持度cisup(C1),与ms比较,从C1中挖掘课程矩阵加权频繁1-项集L1加入ciPIS。候选1-项集C1支持度cisup(C1)公式如下:
其中,n为课程信息数据库的记录总数。
(3)挖掘有趣的矩阵加权课程频繁i-项集Li和负i-项集Ni(所述的i≥2),包括以下(3.1)步至(3.3)步:
(3.1)候选i_项集Ci由课程频繁(i-1)-项集Li-1进行Apriori连接,然后累加Ci的权值,计算其cisup(Ci)。cisup(Ci)计算公式如下:
(3.2)对于课程候选i_项集Ci支持度cisup(Ci)≥最小支持度阈值ms,计算课程频繁项集关联度ciFIR(Ci),如果其ciFIR(Ci)≥最小频繁关联度阈值mFr,则该Ci为有趣的矩阵加权课程频繁i-项集Li,并加入课程频繁项集集合ciPIS。课程频繁项集关联度ciFIR(Ci)计算公式如下:
其中,为Ci的子项集集合。
(3.3)对于课程候选i_项集Ci支持度cisup(Ci)<ms,计算课程负项集关联度ciNIR(Ci),若其ciNIR(Ci)≥最小负项集关联度阈值mNr,则该Ci为有趣矩阵加权课程负i-项集Ni,并加入课程负项集集合ciNIS。课程负项集关联度ciNIR(Ci)计算公式如下:
其中,为Ci的子项集集合。
(4)从课程频繁项集集合ciPIS中挖掘有效的矩阵加权课程正负关联规则模式,包括以下(4.1)步至(4.6)步:
(4.1)从课程频繁项集集合ciPIS中取出课程频繁项集Li,找出Li的所有真子集.
(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当cisup(I1)≥ms,cisup(I2)≥ms,并且I1∪I2=Li,计算矩阵加权课程频繁项集(I1,I2)的相关系数ciPCC(I1,I2)。cisup(I1)、cisup(I2)和课程频繁项集(I1,I2)的相关系数ciPCC(I1,I2)的计算公式如下:
其中,i1和i2为I1和I2的项目个数,即维数。
其中,cisup(*)>0,cisup(*)≠1。
(4.3)当ciPCC(I1,I2)≥相关系数阈值β时,计算VMWAR(I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权课程强关联规则I1→I2,加入ciPAR;计算的值,若其值等于1,则得出矩阵加权课程强负关联规则加入ciNAR。VMWAR(I1,I2,mc,mi)和的计算公式如下:
其中,
其中,
(4.4)当矩阵加权课程项集(I1,I2)的相关系数ciPCC(I1,I2)≤-β,计算的值,若其值等于1,则得出矩阵加权课程强负关联规则加入ciNAR;计算 的值,若其值等于1,则得出矩阵加权课程强负关联规则加入ciNAR。 的计算公式如下:
其中,
其中,
(4.5)继续(4.2)步骤,当课程频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;
(4.6)继续(4.1)步骤,当课程频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;
(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式,包括以下(5.1)步至(5.6)步:
(5.1)从课程负项集集合ciNIS中取出课程负项集Ni,找出Ni的所有真子集.
(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当cisup(I1)≥ms,cisup(I2)≥ms,并且I1∪I2=Ni,计算矩阵加权课程负项集(I1,I2)的相关系数ciPCC(I1,I2)。ciPCC(I1,I2)的计算公式同(4.2)步的。
(5.3)当矩阵加权课程负项集(I1,I2)的相关系数ciPCC(I1,I2)≥β,计算 的值,若其值等于1,则得出矩阵加权课程强负关联规则加入ciNAR。 的计算公式同(4.3)步的。
(5.4)当矩阵加权课程负项集(I1,I2)的相关系数ciPCC(I1,I2)≤-β,计算 的值,若其值等于1,则得出矩阵加权课程强负关联规则加入ciNAR;计算的值,若其值等于1,则得出矩阵加权课程强负关联规则加入ciNAR。的计算公式同(4.4)步的。
(5.5)继续(5.2)步骤,当课程负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;
(5.6)继续(5.1)步骤,当课程频繁项集集合中每个负项集Ni都被取出一次,而且仅能取出一次,则(5)步运行结束;
至此,矩阵加权课程正负关联模式挖掘结束。所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值,β为相关系数阈值。
一种适用于上述基于项加权和项集关联度的课程正负关联模式挖掘方法的挖掘系统,其特征在于,包括以下4个模块:
教育数据预处理模块:将待处理的教育数据进行预处理,提取学生课程信息及其成绩,将课程成绩权值规范化为0至1之间,构建课程信息库和课程项目库。
课程项集模式生成模块:该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集,计算其支持度,与支持度阈值比较得到课程频繁1-项集,从i-项集(i≥2)起,频繁(i-1)-项集通过Apriori连接生成课程候选i-项集;计算课程候选i-项集支持度,与最小支持度阈值比较得到课程频繁i-项集和负i-项集;计算课程频繁项集的关联度,与课程频繁项集关联度阈值比较得到有趣的课程频繁项集;计算课程负项集关联度,与负项集关联度阈值比较得到有趣的课程负项集。
课程正负关联规则模式生成模块:该模块生成课程频繁项集的真子集,计算课程关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式;然后生成课程负项集的真子集,计算课程负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从课程负项集中挖掘有效的矩阵加权课程强负关联规则模式;
课程正负关联模式显示模块:该模块将有效的矩阵加权课程正负关联规则模式显示给用户,供用户分析和使用。
所述的课程项集模式生成模块包括以下3个模块:
课程候选项集生成模块:该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集,计算其支持度,与支持度阈值比较得到课程频繁1-项集,从i-项集(i≥2)起,频繁(i-1)-项集通过Apriori连接生成课程候选i-项集,并计算其项集支持度;
课程频繁项集生成模块:该模块对于其支持度大于或者等于支持度阈值的课程候选项集,计算其课程频繁项集的关联度,与其关联度阈值比较得到有趣的矩阵加权课程频繁项集。
课程负项集生成模块:该模对于其支持度小于支持度阈值的课程候选项集,计算其课程负项集的关联度,与其关联度阈值比较得到有趣的矩阵加权课程负项集。
所述的课程正负关联规则模式生成模块包括以下2个模块:
来自课程频繁项集的强正负关联规则模式生成模块:该模块生成课程频繁项集的真子集,计算课程关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式。
来自课程负项集的强负关联规则模式生成模块:该模块生成课程负项集的真子集,计算课程负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置 信度阈值比较,从课程负项集中挖掘有效的矩阵加权强负关联规则模式。
所述的挖掘系统中的支持度阈值ms,置信度阈值mc,兴趣度阈值mi,相关系数阈值β由用户输入。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出一种新的教育数据矩阵加权课程频繁项集剪枝方法,基于该剪枝方法提出一种基于项加权和项集关联度的课程正负模式挖掘方法及系统。该发明能避免无效的课程关联模式产生,提高了挖掘效率,其课程正负关联模式更加接近实际情况。与现有挖掘方法比较,本发明的课程候选数量明显减少,其挖掘性能优于现有无加权关联模式挖掘方法,在教育信息化教育数据分析与挖掘领域有较高的应用价值和广阔的应用前景。该发明运用于高校教务管理系统,可以扩展教务管理功能,其关联模式可以有助于教师改善和调整方法,提高教学质量,同时,可以帮助学生提高学习效果。因此,该发明在教育信息化数据分析以及教育数据模式挖掘有重要的应用价值和广阔的应用前景。
(2)以真实的高校课程考试成绩作为本发明实验数据测试集,将本发明与现有的无加权模式挖掘方法进行实验比较和分析,实验结果表明,无论在支持度阈值或者置信度阈值变化的情况下,本发明的挖掘方法所挖掘的课程候选项集和挖掘时间都比对比挖掘方法的少,挖掘效率得到了极大提高。
附图说明
图1是本发明所述的基于项加权和项集关联度的课程正负模式挖掘方法的框图。
图2是本发明所述的基于项加权和项集关联度的课程正负模式挖掘方法的整体流程图。
图3是本发明所述的基于项加权和项集关联度的课程正负模式挖掘系统的结构框图。
图4是本发明所述的课程项集模式生成模块的结构框图。
图5是本发明所述的课程正负关联规则模式生成模块的结构框图。
具体实施方式
为了更好地说明本发明的技术方案,下面将本发明涉及的教育数据模型和相关的概念介绍如下:
一、基本概念
设教育数据学生课程数据库SCD={r1,r2,…,rn},其中学生信息记录数为n,I={i1,i2,…,im}表示SCD中所有课程项目集合,课程项目数为m,ij(1≦j≦m)表示SCD中第j个课程项目,在学生信息记录ri中的课程成绩权值为w[ri][ij]。设I1,I2是I的子项集,I1∪I2=I且,给出如下基本定义。
定义1矩阵加权课程项集支持度(Course itemset support,cisup):矩阵加权课程项集支持度cisup(I)的计算公式(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)如式(1)所示,其中,k为项集I的长度(即I的项目个数)。
矩阵加权课程负项集和负关联规则支持度如式(2)至式(5)所示。
定义2矩阵加权课程频繁项集和负项集:对于矩阵加权课程项集I,若cisup(I)≥ms,则称项集I为矩阵加权课程频繁项集;当I1和I2都是矩阵加权课程频繁项集,若cisup(I1,I2)<ms,则项集(I1,I2)称为矩阵加权课程负项集,其中ms为最小支持度阈值。
定义3矩阵加权课程关联规则置信度(ciconf):矩阵加权正负关联规则置信度计算公式如式(6)至(10):
定义4矩阵加权模式相关系数(ciPCC):矩阵加权课程关联模式(I1,I2)相关系数ciPCC(I1,I2)的计算公式,如式(10)所示。
其中,cisup(*)>0,cisup(*)≠1。
定义5矩阵加权课程频繁项集关联度(ciFIR)对于矩阵加权课程频繁项集FI=(i1,i2,…,im)(m>1),其子项集集合为将支持度最大的子项集发生时该频繁项集FI发生的条件概率作为FI的关联度,给出矩阵加权课程频繁项集FI子项集间关联度ciFIR(FI)的计算公式如式(11)所示。
定义6矩阵加权课程负项集关联度(ciNIR)对于矩阵加权课程负项集NI=(i1,i2,…,ir)(r>1),其子项集集合为将支持度最大的子项集不发生时该负项集NI发生的条件概率作为NI的关联度,给出矩阵加权课程负项集NI子项集间关联度ciNIR(NI)的计算公式如式(12)所示。
定义7矩阵加权课程正负关联规则兴趣度(ciARI):矩阵加权正负关联规则兴趣度计算公式如式(13)至式(16)所示。
二、有效的矩阵加权课程正负关联规则挖掘思想
假设最小置信度阈值为mc,最小兴趣度阈值为mi,相关系数阈值为β(β∈(0,1]),有效的矩阵加权课程关联规则挖掘基本思想:
(1)对于有趣的矩阵加权课程频繁项集(I1,I2),项集I1和I2均为频繁项集,若ciPCC(I1,I2)≥β,VMWAR(I1,I2,mc,mi)=1和则I1→I2是个有效的矩阵加权课程正负关联规则;若ciPCC(I1,I2)≤-β,当时,则是个有效的矩阵加权课程负规则。
其中,VMWAR(I1,I2,mc,mi)、的计算公式如式(17)至式(20)所示。
(2)对于有趣的矩阵加权课程负项集(I1,I2),项集I1和I2均为课程频繁项集,若ciPCC(I1,I2)≥β,时,则是个有效的矩阵加权课程负关联规则;若ciPCC(I1,I2)≤-β,时,则 是个有效的矩阵加权课程负关联规则。
三、有趣的矩阵加权项集剪枝策略
设最小频繁项集关联度阈值为mFr,最小负项集关联度阈值为mNr。
有趣的矩阵加权课程频繁项集I剪枝策略:当cisup(I)≥ms时,若ciFIR(I)≥mFr,则项集I是一个有趣的矩阵加权课程频繁项集,应该保留,否则,若ciFIR(I)<mFr,那么课程项集I被剪除。
有趣的矩阵加权课程负项集I剪枝策略:当cisup(I)<ms时,若ciNIR(NI)≥mNr,则课程项集I是一个有趣的矩阵加权课程负项集,应该保留,否则,若ciNIR(NI)<mNr,那么 课程项集I被剪除。
下面通过具体实施例对本发明的技术方案做进一步的说明。
具体实施例中本发明采取的挖掘方法和系统如图1-图5所示。
实例:表1是一个课程项目库实例,表2是学生选修课程的学生课程信息数据库实例,即有5个课程项目和5个学生信息记录以及各个课程项目的成绩权值,其中成绩权值已经进行规范化处理,使之在0到1之间,没有选修的课程成绩为0,满分的课程成绩为1。
采用本发明挖掘方法对该课程信息数据实例挖掘矩阵加权课程正负关联模式,其挖掘过程如下(ms=0.50,mc=0.35,mFr=0.5,mNr=0.6,mi=0.25,β=0.15):
1.挖掘矩阵加权特征词频繁1_项集L1,如表1所示,其中n=5。
表3:
3.24 0.648
3.27 0.654
2.92 0.584
2.28 0.456
2.89 0.578
由表3可知,L1={(i1),(i2),(i3),(i5)},
课程频繁项集集合ciPIS={(i1),(i2),(i3),(i5)}。
2.挖掘矩阵加权课程频繁k_项集Lk和负k-项集Nk,所述的k≥2。
k=2:
(1)课程频繁1_项集L1进行Apriori连接,生成课程候选2_项集C2,并计算w(C2)、和cisup(C2)如表4所示。
表4:
对于表4,进行如下操作:
*若cisup(C2)≥ms,计算ciFIR(C2),将ciFIR(C2)≥mFr的有趣矩阵加权课程频繁2-项集L2加入频繁项集集合ciPIS,即L2={(i1,i2),(i2,i3)},ciPIS={(i1),(i2),(i3),(i5),(i1,i2),(i2,i3)}
*若cisup(C2)<ms,计算ciNIR(C2),将ciNIR(C2)≥mNr的有趣矩阵加权负2-项集N2加入负项集集合ciNIS,即N2={(i1,i3),(i1,i5),(i2,i5),(i3,i5)},mwNIS={(i1,i3),(i1,i5),(i2,i5),(i3,i5)}k=3:
*L2进行Apriori连接生成课程候选3_项集C3,C3的结果为空集。
当k=4时,L3也为空集,挖掘矩阵加权课程频繁k_项集Lk和负k-项集Nk结束,转入如下3步骤。最终挖掘项集结果为:ciPIS={(i1),(i2),(i3),(i5),(i1,i2),(i2,i3)},ciNIS={(i1,i3),(i1,i5),(i2,i5),(i3,i5)}
3.从课程频繁项集集合ciPIS中挖掘有效的矩阵加权课程正负关联规则模式。
以ciPIS中课程频繁项集(i2,i3)为例,给出有效的矩阵加权课程正负关联规则模式挖掘过程如下:
课程频繁项集(i2,i3)的真子集集合为{(i2),(i3)},设I1=(i2),I2=(i3)。
cisup(I1)=0.654≥ms,cisup(I2)=0.584≥ms,cisup(I1,I2)=0.515
计算:
因为ciPCC(I1,I2)>β=0.1,所以,
(1)
因为VMWAR(I1,I2,mc,mi)=1,所以得出有效的矩阵加权课程关联规则I1→I2,即,(i2)→(i3),或者,(数据结构)→(C语言程序设计)。
(2)
由于所以得出有效的矩阵加权课程负关联规则即,或者,
综上所述,对于课程频繁项集(i2,i3),可以挖掘出有效的矩阵加权课程正负关联规则模式(i2)→(i3),或者,(数据结构)→(C语言程序设计), (ms=0.15,mc=0.3,mFr=0.3,mNr=0.12,mi=0.26,β=0.1)。
4.从课程负项集集合ciNIS中挖掘有效的矩阵加权课程负关联规则模式。
以ciNIS中课程负项集(i3,i5)为例,给出有效的矩阵加权课程强负关联规则模式挖掘过程如下:
*负项集(i3,i5)的真子集集合为{(i3),(i5)},设I1=(i3),I2=(i5)。
cisup(I1)=0.584≥ms,cisup(I2)=0.578≥ms,cisup(I1,I2)=0.478
计算:
因为ciPCC(I1,I2)>β=0.1,所以,
由于所以得出有效的矩阵加权课程负关联规则即,或者,
综上所述,对于课程频繁项集(i3,i5),可以挖掘出有效的矩阵加权课程负关联规则模式或者,(ms=0.15,mc=0.3,mFr=0.3,mNr=0.12,mi=0.26,β=0.1)。
下面通过实验对本发明的有益效果做进一步说明。
数据测试集为英语教育、应用英语、旅游英语和商务英语等英语专业的历届毕业生在校学习成绩,来自本校教务部分真实的课程考试成绩数据。将每个学生信息作为一个学生记录,将学生选修的课程当作课程项目,课程成绩当作权值,将成绩权值规范化为0到1之间,构建课程信息数据库和课程项目库。实验中,学生信息记录数为415,课程项目数为165。
选择经典无加权正负关联规则挖掘方法(WU Xin-dong,ZHANG Cheng-qi andZHANG Shi-chao.Efficient mining of both positive and negative associationrules[J].ACM Transactions on Information Systems,2004,22(3):381–405.)(记为PNARMiner算法)为实验对比方法,编写实验源程序,分别从支持度阈值变化和置信度阈值变化两种情况对本发明和对比方法的挖掘性能进行实验对比和分析。实验参数除了ms、mc、mFr、mNr、mi和β以外,还有:IN:挖掘的课程项目数量,n:学生信息记录数。实验挖掘到4-项集。下列表格中,关联规则(Association Rule,AR)A→B,分别用AR1,AR2,AR3和AR4表示。
实验1:支持度阈值变化情况下挖掘性能比较
支持度阈值变化时本发明和对比方法(PNARMiner方法)在真实的课程考试成绩数据集中挖掘候选项集(Candidate Itemset,CI)、频繁项集(Frequent Itemset,FI)、负项集(Negative Itemset,NI)和关联规则(Association Rule,AR)数量结果如表5至表6所示。
表5支持度阈值变化时挖掘的项集数量(IN=35,mc=0.07,n=415,mi=0.01,mFr=0.06,mNr=0.001,β=0.05)
表6支持度阈值变化下挖掘的正负关联规则数量比较(IN=35,mc=0.07,n=415,mi=0.01,mFr=0.06,mNr=0.001,β=0.05)
实验2:置信度阈值变化时挖掘性能比较
置信度阈值变化时本发明和对比方法在真实的课程考试成绩数据集中挖掘关联规则数量如表7所示。
表7置信度阈值变化下挖掘的正负关联规则数量比较(IN=35,ms=0.09,n=415,mi=0.01,mFr=0.06,mNr=0.001,β=0.05)
上述实验结果表明,与实验对比相比较,本发明的挖掘性能具有良好的挖掘性能,具体表现为:在支持度阈值变化的情况下,本发明所挖掘的课程候选项集数量都比对比方法挖掘的少55.05%,在支持度阈值变化或者置信度阈值变化的情况下,本发明所挖掘的课程正负关联规则模式A→B,数量比对比方法挖掘的少,而所挖掘的负关联规则模式数量比对比方法多很多,另外,对比算法挖掘的负关联规则模式 数量比本发明多得多。这些结果表明本发明方法比对比方法挖掘出更多合理的课程关联规则模式,减少了很多不合理的、无效的课程关联模式出现,因为,在课程关联模式挖掘和分析中,课程规则模式A→B和是合理和有趣的模式,例如,课程规则“(数据结构)→(C语言程序设计)”表明学好《数据结构》课程就能有助于学好《C语言程序设计》课程,课程规则表明学不好《C语言程序设计》课程就难于学好《数据库系统开发》课程,而课程规则模式是不合理和无趣的模式,例如,课程规则表明学不好《程序设计》课程就能学好《操作系统》课程,显然,这是无趣的、不合理的模式。

Claims (5)

1.一种基于项加权和项集关联度的课程正负模式挖掘方法,其特征在于,包括如下步骤:
(1)教育数据预处理:待处理的教育数据进行如下的预处理:将课程当作项目,课程成绩当作项目权值,课程权值规范化为0至1之间,提取学生课程信息及其成绩,构建课程信息库和课程项目库;
(2)挖掘教育数据课程矩阵加权频繁1-项集L1:从课程项目库中提取课程候选1-项集C1,计算其支持度cisup(C1),与最小支持度阈值ms比较,从C1中挖掘课程矩阵加权频繁1-项集L1加入课程频繁项集集合ciPIS;
(3)挖掘有趣的矩阵加权课程频繁i-项集Li和负i-项集Ni,所述的i≥2,包括以下(3.1)步至(3.3)步:
(3.1)候选i-项集Ci由课程频繁(i-1)-项集Li-1进行Apriori连接,然后累加Ci的权值,计算其支持度cisup(Ci);
(3.2)对于课程候选i-项集Ci支持度cisup(Ci)≥最小支持度阈值ms,计算课程频繁项集关联度ciFIR(Ci),如果其ciFIR(Ci)≥最小频繁关联度阈值mFr,则该Ci为有趣的矩阵加权课程频繁i-项集Li,并加入课程频繁项集集合ciPIS,所述的课程频繁项集关联度ciFIR(Ci)计算公式如下式(1)所示:
c i F I R ( C i ) = c i sup ( C i ) m a x { c i sup ( I k ) | &ForAll; k &Element; 1 , ... , q } - - - ( 1 )
式(1)中,为Ci的子项集集合,所述的cisup(Ik)为Ci的子项集Ik的支持度;
(3.3)对于课程候选i-项集Ci支持度cisup(Ci)<ms,计算课程负项集关联度ciNIR(Ci),若其ciNIR(Ci)≥最小负项集关联度阈值mNr,则该Ci为有趣矩阵加权课程负i-项集Ni,并加入课程负项集集合ciNIS,所述的课程负项集关联度ciNIR(Ci)计算公式如下式(2)所示:
c i N I R ( C i ) = c i sup ( C i ) 1 - max { c i sup ( I k ) | &ForAll; k &Element; 1 , ... , p } - - - ( 2 )
式(2)中,为Ci的子项集集合;
(4)从课程频繁项集集合ciPIS中挖掘有效的矩阵加权课程正负关联规则模式,包括以下(4.1)步至(4.6)步:
(4.1)从课程频繁项集集合ciPIS中取出课程频繁项集Li,找出Li的所有真子集;
(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当cisup(I1)≥ms,cisup(I2)≥ms,并且I1∪I2=Li,计算矩阵加权课程频繁项集(I1,I2)的相关系数ciPCC(I1,I2),所述的ciPCC(I1,I2)计算公式如下式(3)所示:
c i P C C ( I 1 , I 2 ) = c i sup ( I 1 , I 2 ) - c i sup ( I 1 ) c i sup ( I 2 ) c i sup ( I 1 ) c i sup ( I 2 ) ( 1 - c i sup ( I 1 ) ) ( 1 - c i sup ( I 2 ) ) - - - ( 3 )
式(3)中,cisup(I1,I2)为矩阵加权课程频繁项集(I1,I2)的支持度;
(4.3)当ciPCC(I1,I2)≥相关系数阈值β时,计算有效的矩阵加权课程关联规则综合评价VMWAR(I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权课程强关联规则I1→I2,加入有效的矩阵加权课程正关联规则集合ciPAR;计算有效的矩阵加权课程关联规则综合评价的值,若其值等于1,则得出矩阵加权课程强负关联规则I2,加入有效的矩阵加权课程负关联规则集合ciNAR;
所述的VMWAR(I1,I2,mc,mi)的计算公式如下式(4)所示:
V M W A R ( I 1 , I 2 , m c , m i ) = c i sup ( I 1 &RightArrow; I 2 ) - m c + c i A R I ( I 1 &RightArrow; I 2 ) - m i + 1 | c i sup ( I 1 &RightArrow; I 2 ) - m c | + | c i A R I ( I 1 &RightArrow; I 2 ) - m i | + 1 - - - ( 4 )
式(4)中,ciARI(I1→I2)为矩阵加权课程正关联规则I1→I2的兴趣度,其计算公式如下式(5)所示:
c i A R I ( I 1 &RightArrow; I 2 ) = c i c o n f ( I 1 &RightArrow; I 2 ) - c i sup ( I 2 ) m a x ( c i c o n f ( I 1 &RightArrow; I 2 ) , c i s u p ( I 2 ) ) - - - ( 5 )
式(5)中,ciconf(I1→I2)为矩阵加权课程正关联规则I1→I2的置信度,其计算公式如下式(6)所示:
c i c o n f ( I 1 &RightArrow; I 2 ) = c i sup ( I 1 , I 2 ) c i sup ( I 1 ) - - - ( 6 )
所述的的计算公式如下式(7)所示:
式(7)中,为矩阵加权课程负关联规则的兴趣度,其计算公式如下式(8)所示:
式(7)和式(8)中,为矩阵加权课程负关联规则的置信度,其计算公式如下式(9)所示:
(4.4)当矩阵加权课程项集(I1,I2)的相关系数ciPCC(I1,I2)≤-β,计算有效的矩阵加权课程关联规则综合评价的值,若其值等于1,则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR;计算有效的矩阵加权课程关联规则综合评价的值,若其值等于1,则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR;
所述的的计算公式如下式(10)所示:
式(10)中,为矩阵加权课程负关联规则的兴趣度,其计算公式如下式(11)所示:
式(10)和式(11)中,为矩阵加权课程负关联规则的置信度,其计算公式如下式(12)所示:
所述的的计算公式如下式(13)所示:
式(13)中,为矩阵加权课程负关联规则的兴趣度,其计算公式如下式(14)所示:
式(13)和式(14)中,为矩阵加权课程负关联规则的置信度,其计算公式如下式(15)所示:
(4.5)继续(4.2)步骤,当课程频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;
(4.6)继续(4.1)步骤,当课程频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;
(5)从课程负项集集合ciNIS中挖掘有效的矩阵加权课程负关联规则模式,包括以下(5.1)步至(5.6)步:
(5.1)从课程负项集集合ciNIS中取出课程负项集Ni,找出Ni的所有真子集;
(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当cisup(I1)≥ms,cisup(I2)≥ms,并且I1∪I2=Ni,计算矩阵加权课程负项集(I1,I2)的相关系数ciPCC(I1,I2),所述的ciPCC(I1,I2)的计算公式同(4.2)步;
(5.3)当矩阵加权课程负项集(I1,I2)的相关系数ciPCC(I1,I2)≥β,计算有效的矩阵加权课程关联规则综合评价的值,若其值等于1,则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR,所述的 的计算公式同(4.3)步;
(5.4)当矩阵加权课程负项集(I1,I2)的相关系数ciPCC(I1,I2)≤-β,计算有效的矩阵加权课程关联规则综合评价的值,若其值等于1,则得出矩阵加权课程强负关联规则加入有效的矩阵加权课程负关联规则集合ciNAR;计算有效的矩阵加权课程关联规则综合评价的值,若其值等于1,则得出矩阵加权课程强负关联规则加入ciNAR,所述的的计算公式同(4.4)步;
(5.5)继续(5.2)步骤,当课程负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;
(5.6)继续(5.1)步骤,当课程频繁项集集合中每个负项集Ni都被取出一次,而且仅能取出一次,则(5)步运行结束;
至此,矩阵加权课程正负关联模式挖掘结束,所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值,β为相关系数阈值。
2.一种适用于权利要求1所述的基于项加权和项集关联度的课程正负关联模式挖掘方法的挖掘系统,其特征在于,包括以下4个模块:
教育数据预处理模块:将待处理的教育数据进行预处理,提取学生课程信息及其成绩,将课程成绩权值规范化为0至1之间,构建课程信息库和课程项目库;
课程项集模式生成模块:该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集,计算其支持度,与支持度阈值比较得到课程频繁1-项集,从i-项集起,所述的i≥2,频繁(i-1)-项集通过Apriori连接生成课程候选i-项集;计算课程候选i-项集支持度,与最小支持度阈值比较得到课程频繁i-项集和负i-项集;计算课程频繁项集的关联度,与课程频繁项集关联度阈值比较得到有趣的课程频繁项集;计算课程负项集关联度,与负项集关联度阈值比较得到有趣的课程负项集;
课程正负关联规则模式生成模块:该模块生成课程频繁项集的真子集,计算课程关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式;然后生成课程负项集的真子集,计算课程负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从课程负项集中挖掘有效的矩阵加权课程强负关联规则模式;
课程正负关联模式显示模块:该模块将有效的矩阵加权课程正负关联规则模式显示给用户,供用户分析和使用。
3.根据权利要求2所述的挖掘系统,其特征在于,所述的课程项集模式生成模块包括以下3个模块:
课程候选项集生成模块:该模块从课程项目库和课程信息库挖掘矩阵加权课程候选1-项集,计算其支持度,与支持度阈值比较得到课程频繁1-项集,从i-项集起,所述的i≥2,频繁(i-1)-项集通过Apriori连接生成课程候选i-项集,并计算其项集支持度;
课程频繁项集生成模块:该模块对于其支持度大于或者等于支持度阈值的课程候选项集,计算其课程频繁项集的关联度,与其关联度阈值比较得到有趣的矩阵加权课程频繁项集;
课程负项集生成模块:该模块对于其支持度小于支持度阈值的课程候选项集,计算其课程负项集的关联度,与其关联度阈值比较得到有趣的矩阵加权课程负项集。
4.根据权利要求2所述的挖掘系统,其特征在于,所述的课程正负关联规则模式生成模块包括以下2个模块:
来自课程频繁项集的强正负关联规则模式生成模块:该模块生成课程频繁项集的真子集,计算课程关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从课程频繁项集中挖掘有效的矩阵加权课程强正负关联规则模式;
来自课程负项集的强负关联规则模式生成模块:该模块生成课程负项集的真子集,计算课程负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从课程负项集中挖掘有效的矩阵加权强负关联规则模式。
5.根据权利要求2-4中任一项所述的挖掘系统,其特征在于,所述的挖掘系统中的支持度阈值ms,置信度阈值mc,兴趣度阈值mi,相关系数阈值β由用户输入。
CN201410486033.1A 2014-09-22 2014-09-22 基于项加权和项集关联度的课程正负模式挖掘方法及系统 Expired - Fee Related CN104217013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410486033.1A CN104217013B (zh) 2014-09-22 2014-09-22 基于项加权和项集关联度的课程正负模式挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410486033.1A CN104217013B (zh) 2014-09-22 2014-09-22 基于项加权和项集关联度的课程正负模式挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN104217013A CN104217013A (zh) 2014-12-17
CN104217013B true CN104217013B (zh) 2017-06-13

Family

ID=52098503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410486033.1A Expired - Fee Related CN104217013B (zh) 2014-09-22 2014-09-22 基于项加权和项集关联度的课程正负模式挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN104217013B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598569B (zh) * 2015-01-12 2017-12-29 北京航空航天大学 一种基于关联规则的mbd数据集完整性检查方法
CN105260387B (zh) * 2015-09-10 2018-06-29 中通服咨询设计研究院有限公司 一种面向海量事务数据库的关联规则分析方法
CN105320756B (zh) * 2015-10-15 2018-07-10 中通服咨询设计研究院有限公司 一种基于改进Apriori算法的数据库关联规则挖掘方法
CN106383883B (zh) * 2016-09-18 2019-04-16 广西财经学院 基于矩阵加权关联模式的印尼汉跨语言检索方法及系统
CN108734370A (zh) * 2017-12-27 2018-11-02 上海储翔信息科技有限公司 一种基于机器学习、大数据挖掘的智能课程评分系统
CN108829793B (zh) * 2018-06-01 2021-09-24 杭州电子科技大学 一种组织成员兴趣爱好挖掘方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415287B1 (en) * 2000-01-20 2002-07-02 International Business Machines Corporation Method and system for mining weighted association rule
CN103279570A (zh) * 2013-06-19 2013-09-04 广西教育学院 一种面向文本数据库的矩阵加权负模式挖掘方法
CN103838854A (zh) * 2014-03-14 2014-06-04 广西教育学院 用于发现文本词间关联规则的完全加权模式挖掘方法
CN103955542A (zh) * 2014-05-20 2014-07-30 广西教育学院 文本词间完全加权正负关联模式挖掘方法及其挖掘系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415287B1 (en) * 2000-01-20 2002-07-02 International Business Machines Corporation Method and system for mining weighted association rule
CN103279570A (zh) * 2013-06-19 2013-09-04 广西教育学院 一种面向文本数据库的矩阵加权负模式挖掘方法
CN103838854A (zh) * 2014-03-14 2014-06-04 广西教育学院 用于发现文本词间关联规则的完全加权模式挖掘方法
CN103955542A (zh) * 2014-05-20 2014-07-30 广西教育学院 文本词间完全加权正负关联模式挖掘方法及其挖掘系统

Also Published As

Publication number Publication date
CN104217013A (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN104217013B (zh) 基于项加权和项集关联度的课程正负模式挖掘方法及系统
Hu et al. Incremental attribute reduction based on elementary sets
Cao et al. A behavioral distance for fuzzy-transition systems
Zheng et al. Migo-nas: Towards fast and generalizable neural architecture search
CN103955542B (zh) 文本词间完全加权正负关联模式挖掘方法及其挖掘系统
Ye et al. Population synthesis based on joint distribution inference without disaggregate samples
Wang et al. FP-DARTS: Fast parallel differentiable neural architecture search for image classification
CN104317794B (zh) 基于动态项权值的中文特征词关联模式挖掘方法及其系统
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
Villarroya et al. On the integration of machine learning and array databases
Ding et al. Analysis and prediction of COVID-19 epidemic in South Africa
Wang et al. Objective-hierarchy based large-scale evolutionary algorithm for improving joint sparsity-compression of neural network
Cai Japanese teaching quality satisfaction analysis with improved apriori algorithms under cloud computing platform
CN104239533A (zh) 基于相关性的教务数据矩阵加权正负模式挖掘方法及系统
Slavinskaite et al. Financial innovation management: Impact of fiscal decentralization on economic growth of the Baltic countries
CN104239430B (zh) 基于项权值变化的教育数据关联规则挖掘方法及其系统
Taherinezhad et al. COVID-19 crisis management: Global appraisal using two-stage DEA and ensemble learning algorithms
CN102542335A (zh) 一种混合数据挖掘方法
CN104102716A (zh) 基于聚类分层抽样补偿逻辑回归的失衡数据预测方法
CN104182528B (zh) 基于偏序模式的教育信息化课程关联模式发现方法及系统
Mei et al. An XML plagiarism detection model for C program
Guo et al. Visualization research of college students’ career planning paths integrating deep learning and big data
CN106055543A (zh) 基于Spark的大规模短语翻译模型的训练方法
Zhang Study and analysis of data mining technology in college courses students failed
Vasconcellos-Gaete et al. On the Use of CSP Semantic Information in SAT Models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170613

Termination date: 20170922

CF01 Termination of patent right due to non-payment of annual fee