背景技术
数据挖掘的研究始于20世纪80年代后期,指的是利用各种分析工具在海量数据中发现潜在的、有用的模型和数据间关联的过程,可以预测和帮助决策者寻找数据间潜在的关系,发现被忽略的因素,是解决数据爆炸而信息贫乏问题的一种有效方法。正负模式挖掘作为数据挖掘的一个分支,具有极广泛的应用前景,引起众多专家学者的极大兴趣和研究,已经成为数据挖掘中一个日益流行而重要的研究课题。近20年来,一系列正负模式挖掘技术相继被提出。现有的正负模式挖掘技术主要集中在以下几个方面:
(1)项无加权正模式挖掘技术:只考虑项集在数据库中出现的频度,将数据库中各个项以平等一致的方式处理,不考虑项集在数据库及各个事务中的重要性,其典型的挖掘技术有美国微软研究院的R.Agrawal提出的Apriori方法[见文献:R.Agrawal,T.Imielinski,A.Swami.Mining association rules between sets of items in large database.In Proceeding of 1993ACM SIGMOD International Conference on Management of Data,Washington D.C.,1993,(5):207-216.]。在Apriori算法的基础上,出现了一些改进的挖掘方法,如DHP方法[见文献:J.S.Park,M-s Chen,P.s.Yu.Using a Hash-Based Method with Transaction Trimming for MiningAssociation Rules[J].IEEE Transaction on Knowledge and Data Engineering.1997,9(5):813-825.]等,这些方法需要多次扫描数据库,产生多个候选数据项集,执行效率低,针对这些问题,有关学者提出了一些新的频繁项集产生方法,如FP-growth方法[见文献:J.Han,J.Pei,and YYin.Mining frequent patterns without candidate generation[R].Technical Report TR-99-12,Computing Science Technical Report,Simon Fraser University,1999(10).]以及美国Rensselaer理工学院计算机系的Mohammed J.Zaki提出的方法[见文献:Mohammed J.Zaki.ScalableAlgorithms for association mining.IEEE Transaction on Knowledge and DataEngineering,2000,5,12(3):371_390.],等等。
(2)项无加权负模式挖掘技术:此项技术主要是挖掘项集之间的三种否定联系:A→﹁B、﹁A→B、﹁A→﹁B,其中﹁A、﹁B分别表示交易中不含有A、B。例如,假设在超市里A表示购买咖啡,B表示购买茶叶,则﹁A表示不购买咖啡,﹁B表示不购买茶叶,同理,A→﹁B表示顾客购买咖啡则不会购买茶叶的负关联规则。Sergey Brin[见文献:Sergey Brin,Rajeev Motwani,Craig Silverstein.Beyond market baskets:generalizing association rules tocorrelations[C].Proceedings of 1997 ACM SIGMOD international conference on Management ofdata.Tucson,Arizona.1997.UAS:ACM press,1997:265-276.]等学者在1997年首次提出关联规则中考虑否定关系,此后负模式挖掘技术得到广泛关注和研究,均取得了积极的成果,具有代表性的方法是Xing-dong等学者在2004年提出的一种有效的挖掘正、负关联规则方法[见文献:Xindong Wu,Chengqi Zhang,and Shichao Zhang.Efficient Mining of Both Positive andNegative Association Rules,ACM Transactions on Information Systems,Vol.22,No.3,July2004,Pages 381–405.],以及一些学者Hong Li[见文献:Hong Li,Xuegang Hu.Efficient Mining ofStrong Negative Association Rules in Multi_Database.precceedings of International Conferenceon Computational Intelligence and Software Engineering,2009.]、B.Ramasubbareddy[见文献:B.Ramasubbareddy,A.Govardhan,and A.Ramamohanreddy.Mining Positive and NegativeAssociation Rules,IEEE ICSE 2010,Hefei,China,August 2010.]、B.Kavitha Rani[见文献:B.Kavitha Rani,K.Srinivas,B.Ramasubba Reddy,Dr.A.Govardhan.Mining Negative AssociationRules[J].International Journal of Engineering and Technology Vol.3(2),2011:100-105.]、DavidTaniar[见文献:David Taniar,Wenny Rahayu,Olena Daly,Hong-Quang Nguyen.MiningHierarchical Negative Association Rules[J].International Journal of Computational IntelligenceSystems,Volume 5,Issue 3,2012,pages434-451.]等在2009、2010、2011和2012年从不同角度提出一些有效的正负模式挖掘方法。
(3)项加权正模式挖掘技术:项无加权模式挖掘算法将数据库中各个项目以平等一致的方式处理,但事实上各个项目往往有着不同的重要性,例如超市里,商家更关注的是利润高的商品的模式挖掘。针对这些问题,项加权正模式挖掘算法被提出,算法中引入了项权值,以体现各项目具有不同的重要性,但项权值对各个不同的事务记录是固定不变的。自1998年以来,加权正模式挖掘得到了广泛的重视和研究,其典型的算法有1998年Cai等学者提出的MINWAL方法[见文献:C.H.Cai,A.da,W.C.Fu,C.H.Cheng and W.W.Kwong,MiningAssociation Rules with Weighted Items[C].Proceedings of IEEE International databaseEngineering and Application Symposiums,1998:68-77.],此外,还有WAR方法[见文献:W.Wang,J.Yang,and P.S.Yu.WAR:Weighted Association Rules for Item Intensities[J].KnowledgeInformation and Systems,vol.6,pp.203-229,2004.],以及学者Arumalla Nagaraju[见文献:RusselPears1 and Yun Sing Koh2.Weighted Association Rule Mining Using Particle Swarm Optimization.PAKDD 2011 Workshops,LNAI 7104,2012,pp.327–338,pringer-Verlag Berlin Heidelberg 2012.]和Jun Tan[见文献:Jun Tan.Weighted Association Rules Mining Algorithm Research[J].AppliedMechanics and Materials,Volumes 241-244,2013,pp1598-1601.]提出的方法等。
(4)项加权负模式挖掘技术:加权负模式的作用和加权正模式一样重要,在期望有利因素出现时,是否存在不利因素,通过负模式的分析可以发现可能的不利因素。2008年以来,项加权负模式挖掘得到了重视和研究,一些典型的加权负模式挖掘方法被提出,例如,He Jiang等学者提出基于多支持度的非频繁项集中加权负关联规则挖掘方法[见文献:He Jiang,XiumeiLuan,Xiangjun Dong.Mining Weighted Negative Association Rules from Infrequent ItemsetsBased on Multiple Supports.Proceedings of the 2012 International Conference on IndustrialControl and Electronics Engineering,IEEE Computer Society,2012:89-92.],以及加权项集中正负关联规则挖掘方法[见文献:He Jiang,Yuanyuan Zhao.Mining Positive and Negative AssociationRules with Weighted Items.In:Proceedings of DCABES2008,China,2008:450-454.],Y Y Zhao等学者提出来自非频繁项集得基于相关度的加权负关联规则挖掘方法[Y Y Zhao,H Jiang,RGeng,X Dong.Mining Weighted Negative Association Rules Based on Correlation from InfrequentItems.Proceedings of the 2009 International Conference on Advanced Computer Control,IEEEComputer Society,2009:270-273.]。
(5)项矩阵加权正模式挖掘技术:项矩阵加权也称项完全加权(all-weighted Items)。2003年以来,项矩阵加权模式挖掘开始受到关注和研究。目前对项矩阵加权正模式挖掘的研究不是很多,其典型的方法有谭义红等学者提出的向量空间模型中完全加权关联规则挖掘方法[见文献:谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘.计算机工程与应用,2003(13):208-211.]和本发明人黄名选等提出的完全加权词间关联规则挖掘改进方法[见文献:黄名选,严小卫,张师超.基于文本库的完全加权词间关联规则挖掘算法[J].广西师范大学学报,2007,25(4):24-27;黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.]。这些挖掘方法有效地克服了项加权正负模式挖掘技术中存在的缺陷,但不能解决矩阵加权负模式挖掘问题。
现有的加权正负模式挖掘考虑了项目在数据库中出现的频度,并重视数据库中各项目之间具有不同的重要性,引入项权值,但是该权值相对数据库中各个事务记录固定不变,而且其权值的设定通常由用户根据各项目的重要程度而主观设定。例如,超市里正在销售的打印纸和复印机,由于打印纸成本低,其固有的利润远比复印机的低,使得这两种商品对利润贡献不同,赋予打印纸和复印机不同的权值,复印机由于固有利润大自然被设定较高的权值。打印纸和复印机的权值一旦设定后,就固定不变,对所有购买记录都一样。然而,事实并非如此,打印纸固有的利润虽然不如复印机的,但是,如果打印纸的购买记录很多,销售量很大,而复印机购买记录很少,销售量也很少,此时打印纸的总利润会高于复印机的,这样原来设定的权值就不合理了,主要原因是现有的加权正负模式挖掘没有考虑如下客观事实:项目在数据库中的各个事务记录中也具有不同的重要性。
把项权值随着事务记录不同而变化的数据叫矩阵加权数据(Matrix-weighted data),也叫完全加权数据(All-weighted data)。显而易见,客观现实世界中,存在着大量的矩阵加权数据,其项目权值客观分布于各个事务记录中,不能随意主观设定,例如,海量的文本数据库中各个特征词权值是客观分布于各个文档中,并随着文档的不同而不同。现有的矩阵加权模式挖掘技术有效地解决了矩阵加权正模式挖掘一些问题,但解决不了矩阵加权负模式挖掘问题。然而,矩阵加权负模式和其正模式一样具有同等的重要性,在信息检索、跨语言信息检索、查询扩展、web海量信息处理、文本分类和聚类以及教育信息化信息关联分析等领域中具有重要的应用价值。
随着信息技术的迅猛发展以及信息社会的需要,项矩阵加权负模式的作用日益凸显,越来越受到关注。在挖掘各种有利因素的同时如何才能发现那些不利的因素;在信息检索查询扩展研究中,在通过关联规则搜寻扩展词的同时如何区分那些虚假的扩展词等,这些问题都是现有的矩阵加权正模式无法解决的问题,同时,也是项矩阵加权负模式挖掘中的技术难题。
发明内容
本发明的目的在于针对现有技术存在的不足,提供一种面向文本数据库的矩阵加权负模式挖掘方法,丰富项矩阵加权模式挖掘的技术成果,解决项矩阵加权负模式挖掘中的技术难题。
本发明实现上述目的所采取的技术方案是:一种面向文本数据库的矩阵加权负模式挖掘方法,包括如下步骤:
(1)文本预处理阶段:
将待处理的文本信息进行分词、去除停用词、提取特征词并计算其权值,构建基于向量空间模型的文本数据库和特征词库;特征词权值表明该语词对于其所在文档的重要程度,其权值的计算公式是:
其中,tfj,i表示特征词tj在文档di中的出现次数,dfj表示含有特征词tj的文档数量,N表示文档集合中总的文档数量。
(2)矩阵加权频繁项集和负项集挖掘阶段,包括以下步骤A和步骤B:
A、从文本数据库中提取矩阵加权候选1_项集IawC1,并挖掘矩阵加权频繁1_项集和负1_项集;具体步骤按照A1~A3进行:
A1、从文本数据库中提取矩阵加权候选1_项集mwC1;
A2、累加矩阵加权候选1_项集mwC1在文本数据库(Text Database,简称TD)中的权值总和及其支持数,计算其支持度和矩阵加权1_项集k权值估计mwK(1,2);
mwC1支持度计算公式如下:
矩阵加权1_项集k权值估计(mwK(1,2))的计算公式如下:
mwK(1,2)=N×2×minmwsup-sc(mwC1)×Wr
其中,sc(mwC1)是项集mwC1在文本数据库中的支持数,Wr是除了候选1_项集mwC1权值以外的其他候选1_项集中的最大权值;
A3、将矩阵加权候选1_项集mwC1的支持度大于或等于最小支持度阈值的矩阵加权频繁1_项集加入到频繁项集集合mwPIS;将矩阵加权候选1_项集IawC1的支持度小于最小支持度阈值的矩阵加权负1_项集加入到负项集集合mwNIS;将其权值总和小于矩阵加权1_项集k权值估计mwK(1,2)的矩阵加权候选1_项集mwC1加入到矩阵加权项集k权值估计负1_项集集合mwKItem(1)中;
B、从候选2_项集开始,按照步骤B1~B9进行操作:
B1、将候选(i-1)_项集mwCi-1(i≧2)进行Apriori连接,生成矩阵加权候选i_项集mwCi;
B2、从矩阵加权候选i_项集mwCi提取含有矩阵加权k权值估计负(i-1)_项集mwKItem(i-1)的矩阵加权负i_项集,并在文本数据库中累加其支持数,将其支持数不为0的项集加入负项集集合mwNIS;
B3、从矩阵加权候选i_项集mwCi中删除B2步骤的矩阵加权负i_项集,得到新的矩阵加权候选i_项集mwCi,并判断新的矩阵加权候选i_项集mwCi是否为空集,若为空集,则结束挖掘矩阵加权正负项集模式,并直接进入步骤(3),否则,转入B4步骤;
B4、计算新的矩阵加权候选i_项集mwCi在文本数据库中(TD)的支持数;
B5、删除新的矩阵加权候选i_项集mwCi中支持数为0的项集;
B6、累加新的矩阵加权候选i_项集mwCi中每个候选i_项集在文本数据库(TD)中的权值总和,计算其支持度mwsup(mwCi)和矩阵加权k权值估计mwK(i,i+1);其计算公式如下:
mwK(i,i+1)=N×(i+1)×minmwsup-sc(mwCi)×Wr
其中,k表示候选i_项集mwCi的项目个数,sc(mwCi)是项集mwCi在文本数据库中的支持数,Wr是除了候选i_项集mwCi权值以外的其他候选i_项集中的最大权值。
B7、若新的矩阵加权候选i_项集mwCi中的候选i_项集支持度小于最小支持度阈值mwminsup,提取该候选i_项集为矩阵加权负i_项集加入矩阵加权负项集集合mwNIS中,否则,作为矩阵加权频繁i_项集加入到矩阵加权频繁项集集合mwPIS中;
B8、将mwCi中的候选i_项集权值总和小于mwK(i,i+1)的mwCi加入到矩阵加权项集k权值估计负i_项集集合mwKItem(i)中;
B9、将i的值加1,继续B1~B8步骤,直至项集挖掘完毕;
(3)矩阵加权强负关联规则模式挖掘阶段,包括以下步骤a和步骤b:
a、挖掘矩阵加权频繁项集中的矩阵加权强负关联规则(﹁I1→﹁I2),具体步骤按照a1~a4进行:
a1、求出矩阵加权频繁项集的所有真子集;
a2、当频繁项集的真子集中满足如下两个条件的两个真子集项集I1,I2,则计算它们的矩阵加权相关度mwCorr(I1,I2):①I1,I2的交集为空集,即I1∩I2=φ;②I1,I2的项目个数之和等于其原频繁项集的项目个数,mwCorr(I1,I2)计算公式如下;
其中,k12,k1,k2分别表示项集(I1∪I2)、I1、I2的项目个数。
a3、当矩阵加权相关度mwCorr(I1,I2)<1,并且I1、I2、(I1∪﹁I2)和(﹁I1∪I2)的矩阵加权支持度都不小于矩阵加权最小支持度阈值mwminsup,(I1∪﹁I2)和(﹁I1∪I2)的置信度都不小于矩阵加权最小置信度阈值mwminconf,则得到矩阵加权负关联规则I1→﹁I2和﹁I1→I2;
支持度计算公式如下:
mwsup(I1→﹁I2)=mwsup(I1∪﹁I2)=mwsup(I1)-mwsup(I1∪I2)
mwsup(﹁I1→I2)=mwsup(﹁I1∪I2)=mwsup(I2)-mwsup(I1∪I2)
置信度计算公式如下:
a4、当矩阵加权相关度mwCorr(I1,I2)>1,且I1、I2、(I1∪I2)和(﹁I1∪﹁I2)的矩阵加权支持度都不小于矩阵加权最小支持度阈值mwminsup,(I1∪I2)和(﹁I1∪﹁I2)的置信度都不小于矩阵加权最小置信度阈值mwminconf,则得到矩阵加权正关联规则I1→I2和矩阵加权强负关联规则﹁I1→﹁I2;
支持度计算公式如下:
mwsup(﹁I1∪﹁I2)=1-mwsup(I1)-mwsup(I2)+mwsup(I1∪I2)
置信度的计算公式如下:
b、挖掘矩阵加权负项集中矩阵加权强负关联规则,具体步骤按照b1~b4进行:
b1、求出矩阵加权负项集的所有真子集;
b2、负项集的真子集中满足如下两个条件的两个真子集项集I1,I2,则计算它们的矩阵加权相关度mwCorr(I1,I2):①I1,I2的交集为空集,即I1∩I2=φ;②I1,I2的项目个数之和等于其原负项集的项目个数;
b3、当矩阵加权相关度mwCorr(I1,I2)<1,并且I1、I2、(I1∪﹁I2)和(﹁I1∪I2)的矩阵加权支持度都不小于矩阵加权最小支持度阈值mwminsup,(I1∪﹁I2)和(﹁I1∪T2)的置信度都不小于矩阵加权最小置信度阈值mwminconf,则得到矩阵加权负关联规则I1→﹁I2和﹁I1→I2;
b4、当矩阵加权相关度mwCorr(I1,I2)>1,且I1、I2、和(﹁I1∪﹁I2)的矩阵加权支持度都不小于矩阵加权最小置信度阈值mwminsup,(﹁I1∪﹁I2)的置信度都不小于mwminconf,则得到矩阵加权强负关联规则﹁I1→﹁I2;
至此,正负模式挖掘结束。
本发明与现有技术相比,具有以下有益效果:
(1)针对现有加权正负模式挖掘的缺陷,本发明提出了一种新的矩阵加权负模式挖掘方法,能够解决矩阵加权负模式的挖掘技术问题。本发明不仅考虑各个项目具有不同的重要性,还充分重视每个项目在不同的事务记录中具有不同的权值;不仅能挖掘矩阵加权正模式,更重要的是能挖掘更多的负模式。采用矩阵加权支持度-置信度-相关度框架衡量矩阵加权正负模式,避免了相互矛盾的模式,获得更加实际、合理的矩阵加权正负模式。
(2)给出矩阵加权数据模型及其基本概念,提出矩阵加权强负模式概念,丰富了矩阵挖掘数据挖掘的理论。
(3)通过大量严格而细致的实验,将本发明与传统的项无加权正模式挖掘方法和基于相关性的项无加权正负关联规则挖掘方法进行实验比较,利用这三种方法在模拟数据集和小型真实数据集上进行挖掘正负模式,实验结果表明:本发明挖掘的频繁项集比对比方法都少,而挖掘的负项集比对比方法多,主要原因是本发明不仅考虑了项目的频度,更重要的是考虑了项目在事务记录中具有不同的权值,因而,挖掘比较合理的和实际的正负模式。
(4)通过实验结果分析,发现矩阵加权负模式挖掘的一些规律性的理论,丰富了矩阵加权挖掘理论内容,为后续研究打下扎实的基础。
具体实施例方式
为了更好地说明本发明的技术方案,下面将本发明涉及的矩阵加权数据模型和相关的概念介绍如下:
1、矩阵加权数据模型
矩阵加权数据的典型特征是其项目权值分布在各个事务记录中,并且是随着事务记录的不同而变化。设MWD={d
1,d
2,…,d
n}是矩阵加权数据(MWD:Matrix-Weighted Data)库,d
i(1≦i≦n)表示MWD中的第i条事务记录,I={i
1,i
2,…,i
m}表示MWD中所有项目集合,i
j(1≦j≦m)表示MWD中第j个项目,w[d
i][i
j](1≦i≦n,1≦j≦m))表示项目i
j在事务记录d
i中的权值,如
,则I
j在该事务记录d
i的权值w[d
i][i
j]=0,矩阵加权数据模型可以用如下表表示。很显然,基于向量空间模型(VSM)的文本数据库(Text Database,简称TD)是典型的矩阵加权数据模型。
矩阵加权数据模型(MWD)
2、基本概念
考察矩阵加权数据(MWD)模型,设I
1,I
2是其项集I的两个子项集,
且,
参照传统的支持度和置信度概念,给出如下基本定义:
定义1
矩阵加权正负模式:指的是矩阵加权频繁项集和负项集,以及矩阵加权正关联规则和负关联规则。矩阵加权负项集也即矩阵加权非频繁项集,矩阵加权负关联规则有三种形式:﹁I1→﹁I2,I1→﹁I2和﹁I1→I2。
定义2
矩阵加权项集支持度(Matrix-weighted support,简称mwsup):mwsup(I)指的是矩阵加权项集I在矩阵加权数据库(MWD)各个事务记录中的权值之和与事务记录总数和项集I的项目个数乘积的比值,即
其中,是矩阵加权项集I在矩阵加权数据库(MWD)各个事务记录中的权值之和,sc(I)是矩阵加权项集I在矩阵加权数据库(MWD)中的支持数,k为矩阵加权项集I的项目个数,sup(I)是类似Apriori算法的支持度,n是矩阵加权数据库(MWD)的事务记录总数。
定义3
矩阵加权负项集支持度:mwsup(﹁I):其计算公式如下:
定义4
矩阵加权正关联规则支持度:mwsup(I1→I2)):
其中,
是矩阵加权项集(I
1∪I
2)在矩阵加权数据库(MWD)各个事务中的权值之和,k
12为项集(I
1∪I
2)的项目个数。
定义5
矩阵加权负关联规则支持度:其计算公式如下:
定义6
矩阵加权正负关联规则置信度:其计算公式如下:
定义7
矩阵加权强负模式:矩阵加权强负项集和矩阵加权强负关联规则统称为强负模式。如果负项集(I1∪﹁I2)和负关联规则(I1→﹁I2)满足以下4个条件,就称为矩阵加权强负项集和矩阵加权强负关联规则:(1)mwsup(I1)≧mwminsup;(2)mwsup(I2)≧mwminsup;(3)mwsup(I1∪﹁I2)≧mwminsup;(4)mwconf(I1∪﹁I2)≧mwminconf。
同理,可以定义﹁I1∪I2和﹁I1∪﹁I2的矩阵加权强负项集和矩阵加权强负关联规则。
定义8
矩阵加权项集相关性:(mwcorr(I1,I2):
定义9
矩阵加权k_项集权值估计(mwK(mwCi,k)):即包含i_项集mwCi(i<k)的k-项集权值估计,其计算公式如下:
其中,sc(mwC
i)是项集i_mwC
i在矩阵加权数据库(MWD)中的支持数,
是(k-i)个项目的最大权值之和。
下面通过具体实施例对本发明的技术方案做进一步的说明。
假设文本数据集经过预处理后得到基于向量空间模型的文本数据库TD,如表1所示,即TD={d1,d2,...,d10}是文本数据库(含有10个事务及相应的项权值),如表2所示,T={t1,t2,t3,t4,t5}表示文本数据库TD中所有项目(即特征词)集合,mwminsup=0.1,mwminconf=0.1,则运用本发明的方法挖掘矩阵加权负模式的过程如下。
表1文本数据库TD
1)从TD数据库中提取特征词,并给特征词编上I代号,组成矩阵加权候选1_项集(mwC1),即mwC1={{I1},{I2},{I3},{I4},{I5}},如表2所示。
表2IawC1的各1_项集权值之和、支持数、支持度和k权值估计mwK(1,2)
特征词 |
IawC1 |
∑W(权值总和) |
支持数 |
支持度 |
mwK(1,2) |
t1 |
{I1} |
4.35 |
7 |
0.435 |
-4.02 |
t3 |
{I2} |
3.3 |
7 |
0.330 |
-3.88 |
t4 |
{I3} |
2.92 |
6 |
0.292 |
-3.16 |
t5 |
{I4} |
1.45 |
3 |
0.145 |
-0.58 |
t2 |
{I5} |
0.79 |
3 |
0.079 |
-0.58 |
从表3求出:矩阵加权频繁1_项集(mwPS1):{{I1},{I2},{I3},{I4}},
矩阵加权负1_项集(mwNS1):{{I5}}
mwKItem(1)为:空。
2)挖掘矩阵加权频繁1_项集(mwPS2)、矩阵加权负1_项集(mwNS2)和mwK(2,3)的1_项集。
2.1)mwC1进行Apriori连接生成矩阵加权候选1_项集(mwC2),
mwC2={{I1,I2},{I1,I3},{I1,I4},{I1,I5},{I2,I3},{I2,I4},{I2,I5},{I3,I4},{I3,I5},{I4,I5}}
2.2)由于mwKItem(1)为空,直接累加候选1_项集的权值总和及其支持数,计算支持度和mwK(2,3),如下表3所示。
表3 mwC2的各2_项集权值之和、支持数、支持度和mwK(2,3)权值估计
mwC2 |
∑W(权值总和) |
支持数 |
支持度 |
mwK(2,3) |
{I1,I2} |
5.62 |
5 |
0.281 |
-1.15 |
{I1,I3} |
6.28 |
5 |
0.314 |
-1.3 |
{I1,I4} |
2.01 |
2 |
0.1005 |
-1.28 |
{I1,I5} |
0.55 |
1 |
0.027 |
2.14 |
{I2,I3} |
3.04 |
3 |
0.152 |
0.48 |
{I2,I4} |
2.18 |
3 |
0.109 |
0.48 |
{I2,I5} |
1.27 |
1 |
0.0635 |
2.16 |
{I3,I4} |
0.46 |
1 |
0.023 |
2.14 |
{I3,I5} |
1.41 |
2 |
0.0705 |
1.28 |
{I4,I5} |
0 |
0 |
0 |
|
2.3)剪枝:删除mwC2项集中支持数为0的项集。
2.4)求出:
矩阵加权频繁1_项集(mwPS2):{{I1,I2},{I1,I3},{I1,I4},{I2,I3},{I2,I4}}
矩阵加权负1_项集(mwNS2):{{I1,I5},{I2,I5},{I3,I4},{I3,I5}}
mwK(2,3)的1_项集mwKItem(2):{I1,I5},{I2,I5},{I3,I4}
3)挖掘矩阵加权频繁3-项集(mwPS3)、矩阵加权负3-项集(mwNS3)和mwK(3,4)的3-项集。
3.1)由mwC2连接生成候选3-项集mwC3={{I1,I2,I3},{I1,I2,I4},{I1,I2,I5},{I1,I3,I4},{I1,I3,I5},{I1,I4,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5},{I3,I4,I5}};
3.2)从mwC3提取含有矩阵加权k权值估计1_项集(mwKItem(2))的矩阵加权负3-项集,累加其在TD中的支持数(如表4所示),并将其支持数不为0的项集(mwNS3(1))加入mwNIS;
表4含有mwKItem(2)的矩阵加权负3-项集及其支持数
矩阵加权负3-项集 |
支持数 |
{I1,I2,I5} |
0 |
{I1,I3,I5} |
1 |
{I1,I4,I5} |
0 |
{I2,I3,I5} |
0 |
{I2,I4,I5} |
0 |
{I1,I3,I4} |
1 |
{I2,I3,I4} |
1 |
{I3,I4,I5} |
0 |
mwNS3(1)={{I1,I3,I4},{I1,I3,I5},{I2,I3,I4}};
3.3)剪枝:从mwC3中删除含有mwKItem(2)项集的负3-项集IawNS3(1),得到剪枝后的候选3-项集mwC3;
mwC3={{I1,I2,I3},{I1,I2,I4}}
3.4)判断mwC3的值,没有空,继续下面3.5)步。
3.5)累加mwC3的权值总和及其支持数,计算支持度和mwK(3,4),如下表5所示。
表5 mwC3的各3_项集权值之和、支持数、支持度和mwK(34)权值估计
mwC3 |
∑W(权值总和) |
支持数 |
支持度 |
mwK(3,4) |
{I1,I2,I3} |
5.53 |
3 |
0.184 |
1.57 |
{I1,I2,I4} |
2.64 |
2 |
0.088 |
2.34 |
3.6)从表5求出,矩阵加权频繁3-项集(mwPS3):{{I1,I2,I3}}
矩阵加权负3-项集mwNS3(2):{{I1,I2,I4}}
mwK(3,4)的3-项集mwKItem(3):{}
4)挖掘矩阵加权频繁4-项集(mwPS4)、矩阵加权负4-项集(mwNS4)和mwK(4,5)的4-项集。
4.1)由mwC3连接生成候选4-项集mwC4={{{I1,I2,I3,I4}}
4.2)由于mwKItem(3)为空,直接转入下面4.3)步;
4.3)累加mwC4的权值总和及其支持数,计算支持度和mwK(4,5),如下表6所示。
表6 mwC4的各4_项集权值之和、支持数、支持度和mwK(4,5)权值估计
mwC4 |
∑W(权值总和) |
支持数 |
支持度 |
mwK(4,5) |
{I1,I2,I3,I4} |
1.79 |
1 |
0.045 |
4.59 |
4.4)从表6求出,矩阵加权频繁4-项集(mwPS4):空
矩阵加权负4-项集mwNS4:{{I1,I2,I3,I4}}
mwK(4,5)的4-项集是:{}
矩阵加权频繁项集和矩阵加权负项集的最终挖掘结果:
频繁项集集合mwPIS=mwPS1∪mwPS2∪mwPS3∪mwPS4
={{I1},{I2},{I3},{I4},{I1,I2},{I1,I3},{I1,I4},
{I2,I3},{I2,I4},{I1,I2,I3}};
负项集集合mwNIS=mwNS1∪mwNS2∪mwNS3(1)∪mwNS3(2)∪mwNS4
={{I5},{I1,I5},{I2,I5},{I3,I4},{I3,I5},{I1,I3,I4},{I1,I3,I5},
{I1,I2,I4},{I2,I3,I4},{I1,I2,I3,I4}};
5)由mwC4连接生成候选5-项集mwC5。由于mwC5为已空集,故结束挖掘矩阵加权频繁项集和负项集。
6)挖掘矩阵加权频繁项集mwPIS中的矩阵加权强负关联规则,以频繁项集{I1,I2,I3}为例,其挖掘过程如下:
6.1)求出矩阵加权频繁项集{I1,I2,I3}的真子集={{I1},{I2},{I3},{I1,I2},{I1,I3},{I2,I3}};
6.2)计算满足下列两个条件的两个真子集的矩阵加权相关度:①2个真子集的交集为空集;②2个真子集的项目个数之和等于其原频繁项集的项目个数,如表7所示。
表7频繁项集真子集间的相关度
6.3)由6.2)步知道,2个真子集间的相关度都大于1,并且项集{I1}、{I2}、{I3}、{I1,I2}、{I1,I3}、{I2,I3}的支持度都大于mwminsup,可以得到形如﹁A→﹁B的矩阵加权强负关联规则,如表8所示。
表8频繁项集{I1I2I3}的矩阵加权强负关联规则
7)从矩阵加权负项集IawNS中挖掘矩阵加权强负关联规则,以矩阵加权负项集{}为例,其挖掘过程如下:
7.1)求出矩阵加权负项集{I1,I3,I4}的真子集={{I1},{I3},{I4},{I1,I3},{I1,I4},{I3,I4}};
7.2)计算满足下列两个条件的两个真子集的矩阵加权相关度:①2个真子集的交集为空集;②2个真子集的项目个数之和等于其原频繁项集的项目个数,如表9所示。
表9负项集真子集间的相关度
7.3)由表9知道,{{I1},{I3,I4}}、{{I3},{I1,I4}}项集间的相关度都大于1,但是由于mwsup({I3,I4}=0.023<0.1(mwminsup),故项集{{I1},{I3,I4}}不可能生成形如﹁A→﹁B的矩阵加权强负关联规则,而{I3},{I1,I4}的支持度都大于mwminsup,项集{{I3},{I1,I4}}可以生成形如﹁A→﹁B的矩阵加权强负关联规则,如表10所示。
表10矩阵加权负项集项集{{I3},{I1,I4}}的矩阵加权强负关联规则
7.4)从表9可知,{{I4},{I1,I3}}项集间的相关度<1,并且{I4}和{I1,I3}的矩阵加权支持度都大于mwminsup,故项集{{I3},{I1,I4}}可以生成形如A→﹁B和﹁A→B的矩阵加权强负关联规则,如表11所示。
表11矩阵加权负项集{{I4},{I1,I3}}的矩阵加权强负关联规则
矩阵加权强负关联规则 |
支持度 |
置信度 |
{I4}→﹁{I1,I3} |
0.10 |
0.71 |
﹁{I1,I3}→{I4} |
0.10 |
0.15 |
{I1,I3}→﹁{I4} |
0.27 |
0.86 |
﹁{I4}→{I1,I3} |
0.27 |
0.32 |
下面通过实验对本发明的有益效果做进一步说明。
为了验证本发明的有益效果,发明人将本发明所描述的方法与典型的项无加权正关联规则挖掘方法(Apriori算法,见文献:R.Agrawal,T.Imielinski,A.Swami.Mining association rulesbetween sets of items in large database.In Proceeding of 1993 ACM SIGMODInternational Conference on Management of Data,Washington D.C.,1993,(5):207-216.)和基于相关性的项无加权正负关联规则挖掘方法进行实验比较,验证本发明的有效性。实验数据有2种,一是上述实施例的表1模拟数据集,二是真实的文本数据集。设对比方法1是Apriori算法,对比方法2是基于相关性的项无加权正负关联规则挖掘方法[见文献:黄名选等.面向查询扩展的词间正负关联规则挖掘算法.计算机工程与应用,2011,47(26):151_155,进行该方法的实验时,将查询词设计为空],则三种方法的实验结果如下。
实验一:本发明和对比方法在上述实施例表1模拟数据集上运行,实验结果如表12、13所示。
表12模拟数据集的三种方法的各类项集数量比较
表13模拟数据集的三种方法的正负关联规则数量比较
实验二:本发明和对比方法在真实的文本数据集上运行。从网上下载720篇期刊论文组成小型文本数据集,通过分词、去停用词和提取特征词并计算其权值,建立基于向量空间的文本数据库(事务记录为720)和特征词库。将特征词的df值大于等于13以上(即包含在13篇文档以上)的特征词作为的特征词项目集合,此时项目集合的项目总数为50。本发明和对比方法在真实的文本数据集上挖掘的结果如表14、15所示。
表14真实文本数据库中三种方法的各类项集数量比较
表15真实文本数据库的三种方法的正负关联规则数量比较
实验一和实验二结果汇总如表16、17、18、19所示。
表16模拟数据集的三种方法的各类项集数量汇总比较
表17模拟数据集的三种方法的各类规则数量汇总比较
表18真实文本数据库的三种方法的各类项集数量汇总比较
表19真实文本数据库的三种方法的各类规则数量汇总比较