文本词间完全加权正负关联模式挖掘方法及其挖掘系统
技术领域
本发明属于数据挖掘领域,具体是一种基于权重维数比的文本词间完全加权正负关联模式挖掘方法及其挖掘系统,适用于文本挖掘中特征词关联模式发现以及文本信息检索查询扩展等领域。
背景技术
近20年来,关联模式挖掘技术研究取得了显著的成就,经历了项无加权挖掘技术、项加权挖掘技术和项完全加权挖掘技术等三个研究阶段。
第1阶段:项无加权正负关联模式挖掘研究
项无加权正负关联模式挖掘的主要特点是以项集在数据库中出现的概率为关联模式的支持度,将项集按平等一致的方式处理。早期的项无加权挖掘研究是以正关联模式挖掘研究为主研方向,其典型方法是Apriori方法(R.Agrawal,T.Imielinski,A.Swami.Mining association rulesbetween sets of items in large database[C]//Proceeding of1993ACM SIGMODInternational Conference on Management of Data,Washington D.C.,1993,(5):207-216.)。在此基础上,学者们从不同的角度和方法提出很多新颖的关联模式挖掘方法,旨在提高挖掘效率、减少冗余的和无效的模式产生,例如,Du、Glass、WANG等为了减少无效和无趣的规则,将兴趣度加入关联模式评价框架中,提出了改进的Apriori方法(Du Ping,Gao Yongping.ANew Improvement of Apriori Algorithm for Mining Association Rules[C]//Proceeding of2010International Conference on Computer Application and System Modeling(ICCASM2010),20l0IEEE,ICCASM2010,2010:529-532.D.H.Glass.Confirmation measures of association ruleinterestingness[J].Knowledge-Based Systems,2013(44):65–77.WANG Pei-ji,SHI Lin,BAIJin-niu,ZHAO Yu-lin.Mining Association Rules Based on Apriori Algorithm andApplication[C]//Proceeding of2009International Forum on Computer Science Technology andApplications,2009IEEE,IFCSTA'09,25-27Dec.2009,Chongqing,China,Vo.1,Page:141-143.),宋威、Narmadha等在所提出的挖掘方法(宋威,李晋宏,徐章艳等.一种新的频繁项集精简表示方法及其挖掘算法的研究[J].计算机研究与发展,2010,47(2):277-285.D.Narmadha,G.NaveenSundar,S.Geetha.A Novel Approach to Prune Mined Association Rules in LargeDatabases[C]//Proceeding of20113rd International Conference on Electronics ComputerTechnology(ICECT),2011IEEE,8-10April2011,Kanyakumari,India,Vol.5,Page:409-413.)中采用了新的项集剪枝策略,有效地提高关联模式的挖掘效率。1997年,Brin等人发现在关联规则挖掘中存在有趣的具有否定关系的规则(Sergey Brin,Rajeev Motwani,Craig Silverstein.Beyond market baskets:generalizing association rules to correlations[C].Proceedings of1997ACM SIGMOD international conference on Management of data.Tucson,Arizona.1997.UAS:ACM press,1997:265-276.),即负关联模式,此后,项无加权负关联模式挖掘得到广泛关注和研究,出现了一些典型的关联规则挖掘方法,例如,Li、Piao等人分别提出的在多数据库中挖掘强负关联规则方法(Hong Li,Xuegang Hu.Efficient Mining of Strong NegativeAssociation Rules in Multi-Database[C]//precceedings of International Conference onComputational Intelligence and Software Engineering,11-13Dec.2009,Wuhan,China,page:1-4.)和基于相关性和双置信度的正负关联规则挖掘方法(Xiufeng Piao,Zhanlong Wang,GangLiu.Research on Mining Positive and Negative Association Rules Based on Dual Confidence[C]//Proceedings of20105th International Conference on Internet Computing for Science andEngineering,2010IEEE,page:102-105.)。传统的项无加权关联模式挖掘的不足是:没有考虑存在项目权值的情况,挖掘时常常导致大量冗余的、无趣的和无效的关联模式产生。
第2阶段:项加权关联模式挖掘研究
项加权关联模式挖掘有效地克服了上述传统关联模式挖掘的缺陷,引入了项目权重,以体现项目具有不同的重要性。项加权关联模式挖掘研究起于1998年,其典型方法是香港中文大学的Cai等提出的MINWAL(O)和MINWAL(W)方法(C.H.Cai,A.da,W.C.Fu,et al.Mining Association Rules with Weighted Items[C]//Proceedings of IEEE International databaseEngineering and Application Symposiums,1998:68-77.)。此后,项加权关联模式挖掘研究得到越来越多学者的极大兴趣和研究。有的从项目权值的设置与处理方面进行研究,Kumar等构造一种加权树和加权闭项集树,进而提出了基于加权树的加权频繁项集挖掘方法和加权关联规则挖掘方法(Preetham Kumar,V.S.Ananthanarayana.Discovery of Weighted Association RulesMining[C]//Proceedings of the2nd International Conference on Computer and AutomationEngineering(2010ICCAE),2010IEEE,26-28Feb,2010,Singapore,Vol.5,page:718-722.),其挖掘效率都得到显著提高;有的从挖掘方式方面对传统的加权模式挖掘方法进行改进,Yun等提出了在噪音环境下也能稳定地挖掘出加权频繁项集的挖掘方法(U.Yun,K.H.Ryu.Approximateweighted frequent pattern mining with/without noisy environments[J].Knowledge-Based Systems,2011(24):73–82.),为加权关联模式挖掘提供新的思路和方法,取得良好的挖掘效果。随着实际应用的需要,人们发现加权负关联模式也有着重要的理论和应用价值,因为在期望有利因素的同时也希望发现一些不利因素,加权负关联模式可以有效地发现那些有趣的不利因素,2008年以来,加权负模式挖掘技术得到了关注和研究,Jiang、Zhao等提出了基于相关性的加权负关联规则方法(Y.Y.Zhao,H.Jiang,R.Geng,et al.Mining Weighted Negative AssociationRules Based on Correlation from Infrequent Items[C]//Proceedings of the2009InternationalConference on Advanced Computer Control,IEEE Computer Society,2009:270-273.),均获得了良好的挖掘效果。加权正负关联规则挖掘的缺陷是:虽然重视了项目之间具有不同的重要性,但忽略了项目权值在数据库各个事务记录具有不同权值的情况。
第3阶段:项完全加权关联模式挖掘研究
项完全加权关联模式挖掘技术有效地解决了上述项加权关联模式挖掘的缺陷,考虑了项目在数据库各个事务记录中具有不同重要性(即不同权值)的数据特点,通常将项目权值客观分布于事务记录并随记录变化而变化的数据称为完全加权数据。典型的完全加权关联规则挖掘方法是KWEstimate方法(谭义红,林亚平.向量空间模型中矩阵加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)、方法和方法等,但不能挖掘完全加权负关联规则,目前,对于完全加权负关联规则模式挖掘方法,国外鲜有报道。面对信息时代中的海量完全加权数据,急需一套成熟的完全加权正负模式挖掘技术应用于文本挖掘和信息检索等领域,以发现更加接近实际情况的文本特征词正负关联模式,以及能够在信息检索过程中发现更接近实际的词间关联模式,实现查询扩展,改善信息检索的查准率和查全率。
综上所述,现有技术对项无加权挖掘和项加权挖掘技术研究比较充分,而对项完全加权关联模式挖掘技术研究存在不足,特别是完全加权负模式挖掘技术鲜有报道。完全加权关联模式挖掘在文本挖掘、教育数据挖掘和信息检索查询扩展等领域有着重要的理论和应用价值,因为海量的文本数据和教育系统中课程考试成绩数据都是属于项完全加权数据。传统的项无加权挖掘方法对这些完全加权数据进行挖掘,由于没有考虑完全加权数据固有的特点,只考虑项目频度,常常导致大量冗余的、无效的和虚假的关联模式产生,而现有的项加权挖掘方法不能适用完全加权数据挖掘。因此,完全加权正负关联模式挖掘的深入研究具有重要的现实意义和广阔的应用前景。
发明内容
本发明所要解决的技术问题在于,针对中文文本特征词正负关联模式挖掘进行深入探索,提出一种文本词间完全加权正负关联模式挖掘方法及其挖掘系统,提高挖掘效率,应用于文本挖掘,能够发现更加实际合理的正负特征词关联模式,从而提高文本聚类和分类的精度,以及本文信息检索性能。
本发明解决上述技术问题所采取的技术方案是:一种文本词间完全加权正负关联模式挖掘方法,包括如下步骤:
(1)中文文本数据预处理:将待处理的中文文本数据进行预处理:分词、去除停用词、提取特征词及其权值计算,同时,计算最小项集权重维数比阈值minwdR;中文文本数据预处理的结果是构建基于向量空间模型的中文文本数据库Text database,即TD,以及特征词项目库;
最小项集权重维数比阈值minwdR计算公式是:minwdR=n×minsup,n为中文文本数据库记录数,minsup为最小支持度阈值;
特征词权值计算公式是:wij=(0.5+0.5×tfij/maxj(tfij))×idfi,
其中,wij为第i个特征词在第j篇文档的权值,tfij为第i个特征词在第j篇文档的词频,idfi为第i个特征词的逆向文档频度,其值idfi=log(N/dfi),N为文档集中文档总数,dfi为含有第i个特征词的文档数量;
(2)挖掘完全加权特征词频繁项集和负项集,包括以下步骤2.1和步骤2.2:
2.1、从特征词项目库中提取特征词候选1_项集C1,并挖掘完全加权特征词频繁1_项集L1;具体步骤按照2.1.1~2.1.3进行:
2.1.1、从特征词项目库中提取特征词候选1_项集C1;
2.1.2、累加特征词候选1_项集C1在中文文本数据库TD中的权值总和计算其项集权重维数比wdR(C1);
其中,是特征词候选1_项集C1在TD中的权值总和;
2.1.3、将特征词候选1_项集C1中其项集权重维数比wdR(C1)大于或等于最小项集权重维数比阈值minwdR即wdR(C1)≥minwdR的频繁1_项集L1加入到特征词频繁项集集合termPIS;
2.2、从完全加权特征词候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:
2.2.1、将特征词频繁(i-1)_项集进行Apriori连接,生成特征词候选i_项集Ci;所述的i≥2;
2.2.2、累加特征词候选i_项集Ci在中文文本数据库TD中的权值总和以及计算其项集权重维数比wdR(Ci);
其中,是特征词候选i_项集Ci在TD中的权值总和,k为特征词候选i_项集Ci的项目个数;
2.2.3、特征词候选i_项集的项集权重维数比wdR(Ci)与最小项集权重维数比阈值minwdR比较,将特征词候选i_项集中其项集权重维数比不小于最小项集权重维数比阈值即wdR(Ci)≥minwdR的特征词频繁i-项集Li取出,存入特征词频繁项集集合termPIS,同时,将其项集权重维数小于支最小项集权重维数比阈值即wdR(Ci)<minwdR的特征词负i_项集Ni存入特征词负项集集合termNIS;
2.2.4、将i的值加1,当特征词频繁(i-1)_项集Li-1为空就转入(3)步,否则,继续2.2.1~2.2.3步骤;
(3)特征词频繁项集和负项集剪枝:
3.1、对于特征词频繁项集集合termPIS中的每一个频繁i-项集Li,根据最小频繁项集兴趣度阈值minFIInt,计算InterestingFI(Li,minFIInt)值,剪除其InterestingFI(Li,minFIInt)值为假false的频繁项集,剪枝后得到新的特征词频繁项集集合termPIS;
InterestingFI(Lk,minFIInt)的计算公式如下:
其中,wdR(I1)、wdR(I2)、awPInt(I1,I2)和awPInt(﹁I1,﹁I2)的计算公式如下:
是项集I1在TD中的权值总和,k1为项集I1的项目个数;
是项集I2在TD中的权值总和,k1为项集I2的项目个数;
其中,n为文本数据库TD记录数,是项集Li=(I1∪I2)在TD中的权值总和,k为项集Li=(I1∪I2)的项目个数;
3.2、对于特征词负项集集合termNIS中的每一个负i-项集Ni,根据最小负项集兴趣度阈值minNIInt,计算InterestingNI(Ni,minNIInt)值,剪除其InterestingNI(Ni,minNIInt)值为假false的负项集,剪枝后得到新的特征词负项集集合;InterestingNI(Nk,minNIInt)的计算公式如下:
其中,wdR(I1)、wdR(I2)和awPInt(﹁I1,﹁I2)的计算公式同3.1的,awPInt(I1,﹁I2)和awPInt(﹁I1,I2)的计算公式如下:
(4)从特征词频繁项集集合中挖掘有效的完全加权特征词正负关联规则,包括以下步骤:
4.1、从特征词频繁项集集合termPIS取出特征词频繁项集Li,求出Li的所有真子集,构建Li的真子集集合,然后进行下列操作:
4.2.1、从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2没有交集即并且它们的项目个数之和等于其原频繁项集的项目个数即I1∪I2=Li,则分别计算特征词频繁项集I1∪I2、I1和I2的项集权重维数比wdR(I1∪I2)、wdR(I1)和wdR(I2);
wdR(I1∪I2)、wdR(I1)和wdR(I2)的计算公式同步骤3.1;
4.2.2、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR且wdR(I2)≥minwdR,以及中文文本数据库记录总数n和上述步骤4.2.1的特征词频繁项集I1∪I2的项集权重维数比wdR(I1∪I2)的乘积大于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积时即n×wdR(I1∪I2)>wdR(I1)×wdR(I2),进行如下操作,所述的wdR(I1∪I2)、wdR(I1)和wdR(I2)计算公式同步骤3.1;
4.2.2.1当特征词频繁项集(I1,I2)的兴趣度awAPInt(I1,I2)不小于最小频繁项集兴趣度阈值minFIInt即awAPInt(I1,I2)≥minFIInt,且I1→I2的概率比awARPR(I1→I2)以及I2→I1的概率比awARPR(I2→I1)都不小于置信度阈值minconf即awARPR(I1→I2)≥minconf,awARPR(I2→I1)≥minconf,则挖掘出特征词关联规则I1→I2和I2→I1;
awAPInt(I1,I2)的计算公式同步骤3.1;awARPR(I1→I2)和awARPR(I2→I1)计算公式如下:
4.2.2.2当特征词负项集(﹁I1,﹁I2)的兴趣度awAPInt(﹁I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awPInt(﹁I1,﹁I2)≥minNIInt,并且(﹁I1,﹁I2)的支持度awsup(﹁I1,﹁I2)不小于支持度阈值minsup即awsup(﹁I1∪﹁I2)≥minsup,﹁I1→﹁I2的概率比awARPR(﹁I1→﹁I2)以及﹁I2→﹁I1的概率比awARPR(﹁I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→﹁I2)≥minconf,awARPR(﹁I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→﹁I2和﹁I2→﹁I1;
awARPR(﹁I1→﹁I2)和awARPR(﹁I2→﹁I1)的计算公式如下:
4.2.3、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR,wdR(I2)≥minwdR,以及中文文本数据库中事务记录总数n和上述步骤4.2.1的特征词频繁项集(I1∪I2)的项集权重维数比wdR(I1∪I2)的乘积小于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积时即n×wdR(I1∪I2)<wdR(I1)×wdR(I2),进行如下操作,所述的wdR(I1∪I2)、wdR(I1)和wdR(I2)计算公式同步骤3.1;
4.2.3.1当特征词负项集(I1∪﹁I2)的支持度不小于支持度阈值minsup即awsup(I1∪﹁I2)≥minsup,并且I1∪﹁I2的兴趣度awAPInt(I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awPInt(I1,﹁I2)≥minNIInt,那么,如果I1→﹁I2的概率比awARPR(I1→﹁I2)以及﹁I2→I1的概率比awARPR(﹁I2→I1)都不小于置信度阈值minconf即awARPR(I1→﹁I2)≥minconf,awARPR(﹁I2→I1)≥minconf,则挖掘出特征词负关联规则I1→﹁I2和﹁I2→I1;
4.2.3.2当特征词负项集(﹁I1∪I2)的支持度不小于支持度阈值minsup即awsup(﹁I1∪I2)≥minsup,并且﹁I1∪I2的兴趣度awAPInt(﹁I1,I2)不小于最小负项集兴趣度阈值minNIInt即awPInt(﹁I1,I2)≥minNIInt,﹁I1→I2的概率比awARPR(﹁I1→I2)以及I2→﹁I1的概率比awARPR(I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→I2)≥minconf,awARPR(I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→I2和I2→﹁I1;
4.2.4、继续4.2.1~4.2.3步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤4.2.5;
4.2.5,继续4.1步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则转入第(5)步。
(5)从特征词负项集集合termNIS中挖掘有效的完全加权特征词负关联规则,包括以下步骤:
5.1、从特征词负项集集合termPIS取出特征词负项集Ni,求出Ni的所有真子集,构建Ni的真子集集合,然后进行下列操作:
5.2.1、从Ni的真子集集合中任意取出两个真子集I1和I2,I1和I2没有交集即并且它们的项目个数之和等于其原频繁项集的项目个数即I1∪I2=Ni,则分别计算特征词负项集(I1∪I2)、I1和I2的项集权重维数比wdR(I1∪I2)、wdR(I1)和wdR(I2);
wdR(I1∪I2)、wdR(I1)和wdR(I2)的计算公式同步骤3.1;
5.2.2、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR,wdR(I2)≥minwdR,以及中文文本数据库记录总数n和上述步骤5.2.1的特征词负项集(I1∪I2)的项集权重维数比wdR(I1∪I2)的乘积大于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积时即n×wdR(I1∪I2)>wdR(I1)×wdR(I2),进行如下操作:
当(﹁I1,﹁I2)的支持度awsup(﹁I1,﹁I2)不小于支持度阈值minsup即awsup(﹁I1∪﹁I2)≥minsup,并且特征词负项集(﹁I1,﹁I2)的兴趣度awAPInt(﹁I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I1,﹁I2)≥minNIInt,﹁I1→﹁I2的概率比awARPR(﹁I1→﹁I2)以及﹁I2→﹁I1的概率比awARPR(﹁I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→﹁I2)≥minconf,awARPR(﹁I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→﹁I2和﹁I2→﹁I1;awARPR(﹁I1→﹁I2)和awARPR(﹁I2→﹁I1)的计算公式同步骤4.2.2.2;
5.2.3、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR,wdR(I2)≥minwdR,以及中文文本数据库记录总数n和上述步骤5.2.1的特征词负项集(I1∪I2)的项集权重维数比wdR(I1∪I2)的乘积小于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积即n×wdR(I1∪I2)<wdR(I1)×wdR(I2)时,进行如下操作:
5.2.3.1当特征词负项集(I1∪﹁I2)的支持度不小于支持度阈值minsup即awsup(I1∪﹁I2)≥minsup,并且(I1∪﹁I2)的兴趣度awAPInt(I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(I1,﹁I2)≥minNIInt,I1→﹁I2的概率比awARPR(I1→﹁I2)以及﹁I2→I1的概率比awARPR(﹁I2→I1)都不小于置信度阈值minconf即awARPR(I1→﹁I2)≥minconf,awARPR(﹁I2→I1)≥minconf,则挖掘出特征词负关联规则I1→﹁I2和﹁I2→I1;
5.2.3.2当特征词负项集(﹁I1∪I2)的支持度不小于支持度阈值minsup即awsup(﹁I1∪I2)≥minsup,并且(﹁I1∪I2)的兴趣度awAPInt(﹁I1,I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I1,I2)≥minNIInt,﹁I1→I2的概率比awARPR(﹁I1→I2)以及I2→﹁I1的概率比awARPR(I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→I2)≥minconf,awARPR(I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→I2和I2→﹁I1;
5.2.4、继续5.2.1~5.2.3步骤,当特征词Ni的真子集集合中每个真子集都当且仅当被取出一次,则转入步骤5.2.5;
5.2.5,继续5.1步骤,当特征词负项集集合中每个负项集Ni都当且仅当被取出一次,则特征词正负关联规则模式挖掘结束;
至此,完全加权正负关联规则挖掘结束。
一种适用于上述文本词间完全加权正负关联模式挖掘方法的挖掘系统,包括以下4个模块:
中文文本预处理模块:用于对中文文本分词、去除停用词和提取特征词,计算特征词权值预处理,构建文本数据库和特征词项目库;
特征词频繁项集和负项集挖掘实现模块:用于从文本数据库中挖掘完全加权特征词候选项集,计算候选项集的权重维数比,采用多兴趣度阈值剪枝策略剪除无趣的项集,得出有趣的完全加权特征词频繁项集和负项集模式;
完全加权词间正负关联规则挖掘实现模块:采用支持度-PR模型-互信息-兴趣度评价框架,通过项集权重维数比的简单计算和比较,从有趣的频繁项集和负项集中挖掘有效的完全加权特征词正负关联规则模式;
完全加权词间关联模式结果显示模块:将挖掘出来的有效的完全加权特征词正负关联规则模式输出显示给用户,供用户选择和使用。
所述的特征词频繁项集和负项集挖掘实现模块包括以下3个模块:
特征词候选项集挖掘模块功能:负责从中文文本数据库挖掘候选项集,具体是:首先从特征词项目库中产生候选1-项集,再出挖掘特征词频繁1_项集;然后,将特征词频繁(i-1)_项集进行Apriori连接,生成特征词候选i_项集;所述的i≥2;累加特征词候选i_项集在中文文本数据库中的权值总和以及计算其项集权重维数比;
特征词频繁项集和负项集挖掘模块:负责产生特征词频繁项集和负项集,具体是:特征词候选i_项集的项集权重维数比与最小项集权重维数比阈值比较,将特征词候选i_项集中其项集权重维数比不小于最小项集权重维数比阈值的特征词频繁i-项集取出,存入特征词频繁项集集合,同时,将其项集权重维数小于支最小项集权重维数比阈值的特征词负i_项集存入特征词负项集集合;
频繁项集和负项集剪枝模块:负责对频繁项集和负项集剪枝,即根据最小频繁项集兴趣度阈值minFIInt和最小负项集兴趣度阈值minNIInt,对频繁项集和负项集进行剪枝,并产生有趣的频繁项集和负项集。
所述的完全加权词间正负关联规则挖掘实现模块,包括以下2个模块:
完全加权词间正关联规则挖掘模块:负责从从特征词频繁项集集合中挖掘有效的完全加权特征词正关联规则模式;
完全加权词间负关联规则挖掘模块:负责从特征词频繁项集集合和负项集集合中挖掘有效的完全加权特征词负关联规则模式。
所述的挖掘系统中的最小支持度阈值minsup,最小置信度阈值minconf,最小频繁项集兴趣度阈值minFIInt和minNIInt最小负项集兴趣度阈值由用户输入。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出多兴趣度阈值挖掘与项集剪枝方法,构建了完全加权正负关联模式评价框架:支持度-PR模型-互信息-兴趣度,提出了一种新的基于权重维数比的文本词间完全加权正负关联模式挖掘方法及其挖掘系统,有效地解决中文文本完全加权词间正负关联规则挖掘技术问题。本发明技术克服了传统关联模式挖掘方法的缺陷,结合完全加权数据模型特点,采用新的剪枝策略和模式评价机制,获得更能接近实际的特征词正负关联规则模式,避免无效的和无趣的词间关联模式产生。与现有无加权挖掘方法比较,本发明技术能够大幅度减少那些不必要的频繁项集、负项集和关联规则模式产生,从整体上提高了中文特征词关联规则挖掘效率,获得高质量的中文词间关联模式,在本文挖掘、信息检索领域以及教育数据挖掘等领域中有较高的应用价值和广阔的应用前景。
(2)以北京大学网络实验室提供的CWT200g测试集为实验文档测试集,将本发明与传统的项无加权正负关联规则挖掘方法进行实验比较和分析,实验结果表明,本发明的挖掘性能比对比方法好:本发明技术挖掘的特征词候选项集、频繁项集和负项集以及特征词正负关联规则模式数量均比现有对比方法挖掘的少;挖掘时间比对比算法少很多,极大地提高了挖掘效率;同时,本发明具有良好的扩展性。主要原因分析如下:对比方法只考虑特征词在文档中的出现频度,没有考虑特征词项目在各个不同文档具有的权值,没有能全面反映文本数据固有的特点,因而,会产生很多无效的和虚假的特征词项集和正负关联规则模式,使得特征词项集和规则模式的数量多得多,其挖掘效率变低。本发明有效地克服了对比方法的固有缺陷,考虑特征词项目权值客观分布于事务记录中随着记录变化而变化的固有特点,采用新的特征词项集剪枝方法和新的模式评价框架,使得所挖掘的特征词频繁项集和关联规则模式更接近实际,避免了很多无效和无趣的特征词频繁项集和负项集产生,减少了挖掘时间,挖掘效率得到大幅度提高。
附图说明
图1是本发明所述的文本词间完全加权正负关联模式挖掘方法的框图。
图2是本发明所述的文本词间完全加权正负关联模式挖掘方法的整体流程图。
图3是本发明所述的文本词间完全加权正负关联模式挖掘系统的结构框图。
图4是本发明所述的特征词频繁项集和负项集挖掘实现模块的结构框图。
图5是本发明所述的完全加权词间正负关联规则挖掘实现模块的结构框图。
图6是本发明实施例中正负关联模式兴趣度值分布图。
具体实施例方式
为了更好地说明本发明的技术方案,下面将本发明涉及的中文文本数据模型和相关的概念介绍如下:
设TD={T1,T2,…,Tn}是中文文本数据库(TextDatabase,TD),Ti(1≦i≦n)表示TD中的第i条文档记录,I={i1,i2,…,im}表示TD中所有项目集合,ij(1≦j≦m)表示TD中第j个项目,w[Ti][ij](1≦i≦n,1≦j≦m)表示项目ij在文档记录Ti中的权值,如则ij在该文档记录Ti的权值w[Ti][ij]=0,中文文本数据库模型如表1所示,其中“w[di][ij]/0”表示项目的权值,如果项目在事务记录中出现,则其权值为“w[di][ij]”,否则为“0”。表2是中文文本数据库一个实例,其中有5篇文档:T1,T2,…,T5和5个特征词项目:i1,i2,…,i5,对于5个特征词:“函数”,“过程”,“程序”,“队列”,“成员”。
中文文本数据属于完全加权数据模型,其特征词项目权重分布于各个文档记录中,这是和现有项加权数据模型主要区别。表3是现有的项加权数据模型,其中,T1,T2,…,Tn与为该模型的事务记录,w1,w2,…,wm为其项目集合{i1,i2,…,im}对应的项目权重。
设I1,I2是项集I的子项集,且,给出如下基本定义:
定义1
项集权重维数比:Weight and Dimension ratio of Itemset,简称wdR:项集权重维数比是指完全加权项集(I)的权重与其项维数(k)的比率,如式(1)所示。
其中,是完全加权项集I在AWD中的权值总和。
权重维数比实际上是项集中每个项目具有的权重平均值。项集权重维数比的理论意义在于在完全加权数据挖掘中wdR值更能体现每个项目在各维项集中具有的重要性,wdR值越大,表明该项目在项集中重要性更高。例如,表2的实例中,wdR(i1,i2,i3)=1.11,wdR(i1,i2,i5)=0.57,说明项目i2在项集(i1,i2,i3)中的重要性比在项集(i1,i2,i5)的高,由此可以指导用户更加重视i2在项集(i1,i2,i3)中具有的关联模式。
定义2
完全加权支持度:All-weighted Support,简称awsup:完全加权支持度awsup(I)是完全加权项集I的项集权重维数比(wdR(I))与事务记录总数(n)的比值,如式(2)所示。
完全加权负项集支持度的计算公式如式(3)至式(6)。
实例:表2的实例中,wdR(i1)=(0.85+0.93+0.65+0.75)/1=3.18,wdR(i2)=0.61,wdR(i1,i2)=(0.93+0.21+0.65+0.35+0.75+0.05)/2=1.47,awsup(i1,i2)=1.47/5=0.29,awsup(﹁(i1,i2))=0.71,awsup(﹁i1,﹁i2)=(5-3.18-0.61+1.47)/5=0.54。
定义3
完全加权频繁项集和负项集:设最小支持度阈值为minsup,最小项集权重维数比阈值为minwdR,显然,minwdR=n×minsup,若完全加权项集支持度awsup(I)≥minsup,或者wdR(I)≥minwdR,则项集I是完全加权频繁项集;对于完全加权项集(I1,I2),若其子项集I1和I2是频繁项集,并且awsup(I1,I2)<minsup,或者wdR(I1,I2)<minwdR,那么项集(I1,I2)是完全加权负项集。
实例:设minsup=0.1,则minwdR=5×0.1=0.5,从上例可知,wdR(i1,i2)=1.47>minwdR,所以,(i1,i2)是完全加权频繁项集;wdR(i1)=3.18>minwdR,wdR(i4)=0.96>minwdR,wdR(i1,i4)=0.38<minwdR,(i1,i4)是完全加权负项集。
定义4
完全加权关联模式兴趣度:all-weighted Association Pattern Interest,简称awAPInt:兴趣度被广泛用来评价关联模式前件和后件的关联程度和用户关注程度的另一种度量,其值越高,说明该关联模式越有趣,被用户关注程度越高。基于项无加权数据挖掘环境下模式X(X={i1,i2,…,in})的相关兴趣度度量定义(沈斌,姚敏.关联且项项正相关频繁模式挖掘.浙江大学学报(工学版),2009,43(12):2171-2185.Zhongmei Zhou,Zhaohui Wu,et al.Mining bothassociated and correlated patterns.Proceedings of ICCS(International Conference on ComputationalScience)2006.Reading,UK:Springer-Verlag,2006,4:468-475.),给出在完全加权数据挖掘环境下完全加权关联模式兴趣度(awAPInt(I1,I2))计算公式,如式(9)所示。
将式(1)至式(6)代入式(9)化简,可得到如下完全加权正负关联模式兴趣度公式,如式(10)至式(13)所示。
实例:awAPInt(i1,i2)=|(5×1.47–3.18×0.61)/(5×1.47+3.18×0.61)|=|5.41/9.29|=0.58,awAPInt(i1,﹁i2)=|5.41/(9.29–2×5×3.18)|=0.24,awAPInt(﹁i1,i2)=|5.41/(9.29–2×5×0.61)|=1.69,awAPInt(﹁i1,﹁i2)=|5.41/(9.29+2×5×(5–3.18–0.61))|=0.25。
定义5
完全加权项集互信息:all-weighted Mutual Information of Itemset,简称awMI:互信息(Mutual Information)是计算语言学模型分析的常用方法,它度量两个对象x和y之间的相关程度,指的是x的后验概率p(x|y)与先验概率p(x)比值的对数(傅祖云.信息论基础理论与应用(第三版).电子工业出版社,2011.2,ISBN9787121129001.),若互信息的值大于0,表明x和y成正相关,否则,若其值小于0,则为负相关,若互信息的值为0,表明x和y成无相关,互相独立。在数据挖掘中,互信息可以用来表达两个项集之间的相关性及其联系的紧密程度。基于传统的互信息定义,给出完全加权项集I1和I2的互信息(awMI(I1:I2))计算公式,如式(7)所示。
将式(2)代入式(14)化简后得到如下式(15),
基于传统互信息的性质,在完全加权数据挖掘环境中,完全加权项集I1和I2互信息awMI(I1:I2)具有如下性质:
性质1:①② ③
很显然,由式(15)和性质1可得到如下推论1。
推论1:①②③
性质2:若 若
推论2对于完全加权项集(I1,I2),且①若n×wdR(I1∪I2)>wdR(I1)×wdR(I2),那么可以挖掘出完全加权正关联规则I1→I2和负关联规则﹁I1→﹁I2模式;②若n×wdR(I1∪I2)<wdR(I1)×wdR(I2),则完全加权负关联规则I1→﹁I2和﹁I1→I2模式被挖掘出。
实例:awMI(i1:i2)=log((5×1.47)/(3.18×0.61))=log3.79=0.58>0,由性质1可知,i1和i2成正相关,或者,wdR(i1)×wdR(i2)=3.18×0.61=1.94,n×wdR(i1∪i2)=5×1.47=7.35>wdR(i1)×wdR(i2),由推论1和推论2可知,i1和i2成正相关,可得到i1→i2和﹁i1→﹁i2模式,结论一致。对于完全加权项集(i1,i4),awMI(i1:i4)=log((5×0.38)/(3.18×0.96))=log0.61=-0.21<0,由性质1可知,i1和i2成负相关,或wdR(i1)×wdR(i4)=3.18×0.96=3.1,n×wdR(i1∪i4)=5×0.38=1.9<wdR(i1)×wdR(i4),由推论1和推论2可知,i1和i4成负相关,可得到i1→﹁i4和﹁i1→i4模式,结论一致。
定义6
完全加权关联规则概率比:all-weighted Association Rule Probability Ratio,简称awARPR:条件概率和先验概率的比值称为条件概率增量比(Conditional_Probability Increment Ratio,CPIR)[4],简称概率比,用来表达条件概率p(I2|I1)相对p(I2)的递增程度,其计算公式如式(16)所示。
CPIR(I2/I1)=(p(I2/I1)–p(I2))/(1–p(I2)) (16)
基于数学概率知识以及上述式(2)至式(6)和式(16),给出完全加权正负关联规则概率比awARPR的计算公式,如式(17)至式(20)所示:
完全加权概率比awARPR越大,表明该完全加权关联规则的可信度愈高,愈受用户关注,因此,将awARPR值作为完全加权关联规则的置信度。
实例:awARPR(i1→i2)=(5×1.47-3.18×0.61)/(3.18×(5-0.61))=5.41/13.96=0.39,
awARPR(﹁i1→﹁i2)=(5×1.47-3.18×0.61)/((5-3.18)×0.61)=5.41/1.11=4.87,
awARPR(i1→﹁i4)=(3.18×0.96-5×0.38)/(3.18×0.96)=1.2/3.1=0.39,
awARPR(﹁i1→i4)=(3.18×0.96-5×0.38)/((5-3.18)×(5-0.96))=1.2/7.35=0.16。
定义7
有效的完全加权关联规则:设最小置信度阈值为minconf,最小正关联模式兴趣度阈值为minPAPI,最小负关联模式兴趣度阈值为minNAPI,awsup(I1)≥minsup,awsup(I2)≥minsup,并且minsup、minconf、minFPI和minNPI都由用户或者领域专家设置,那么,
(1)若awsup(I1∪I2)≥minsup,awAPInt(I1,I2)≥minPAPI和awARPR(I1→I2)≥minconf,则I1→I2是个有效的完全加权正关联规则;
(2)若awsup(I1∪﹁I2)≥minsup,awAPInt(I1,﹁I2)≥minNAPI和awARPR(I1→﹁I2)≥minconf,则I1→﹁I2是个有效的完全加权负关联规则;
(3)若awsup(﹁I1∪I2)≥minsup,awAPInt(﹁I1,I2)≥minNAPI和awARPR(﹁I1→I2)≥minconf,则﹁I1→I2是个有效的完全加权负关联规则;
(4)若awsup(﹁I1∪﹁I2)≥minsup,awAPInt(﹁I1,﹁I2)≥minNAPI和awARPR(﹁I1→﹁I2)≥minconf,则﹁I1→﹁I2是个有效的完全加权负关联规则。
实例:设minsup=0.1、minconf=0.15、minPAPI=0.5和minNAPI=0.01,awsup(i1)=0.64>minsup,awsup(i2)=0.12>minsup,awsup(i1,i2)=0.29>minsup,awAPInt(i1,i2)=0.58>minPAPI,awARPR(i1→i2)=0.39>minconf,故i1→i2是个有效的完全加权正关联规则模式;awsup(i4)=0.19>minsup,awsup(i1,﹁i4)=0.56>minsup,awAPInt(i1,﹁i4)=0.043>minNAPI,awARPR(﹁i1→i4)=0.16>minconf,所以,i1→﹁i4是个有效的完全加权负关联规则模式。
定义8
完全加权关联模式评价框架:关联模式评价框架是数据挖掘研究的重要内容之一。早期的关联模式采用项集在数据库中出现的概率和条件概率作为关联模式的支持度和置信度,即采用支持度(support)-置信度(confidence)评价框架,简称SC评价框架。SC评价框架一般用来评价正关联模式,容易产生大量冗余的、无效的、无趣的和相互矛盾的模式。一种经典的正负关联模式评价框架是支持度(support)-置信度(confidence)-相关性(Correlation)评价框架,简称SCC评价框架,被广泛应用与无加权和加权正负模式挖掘中,其优点是能够区别正负关联模式和较好地避免相互矛盾的关联模式产生,但是还会导致无效的、无趣的模式产生。现有的无加权正负关联模式评价框架:支持度(support)-CPIR模型(Conditional-probability incrementratio)-兴趣度(Interest)评价框架,简称SCPIRI评价框架,挖掘那些有趣的无加权正负关联模式,取得了良好的效果。在深入分析现有关联模式评价框架基础上,针对完全加权数据挖掘环境,构建了一种完全加权正负关联模式评价框架:支持度-概率比-互信息-兴趣度评价框架,将支持度、概率比、互信息和兴趣度集成综合评价完全加权关联模式,以达到减少无效的、冗余的和无趣的关联模式产生,基于该评价框架,根据项集互信息的值,将同时满足完全加权支持度、概率比和兴趣度要求的关联规则称为有效的完全加权正负关联模式。
定义9
多兴趣度阈值挖掘与项集剪枝策略:数据挖掘过程中,候选项集、频繁项集和负项集数量呈指数增长,产生大量的正负关联规则模式,使得用户难以选择所需的有用模式。通过兴趣度度量,可以有效地排除那些无趣的和无效的关联模式。然而,当前在使用兴趣度评估频繁项集、负项集、正关联规则和负关联规则的有趣性时,大多都采用单一的兴趣度阈值,这是不合理的,因为,兴趣度值的计算主要依赖于模式的支持度或置信度,而正负模式支持度值范围是不一样的,正关联模式的支持度值范围分布在高数值范围,而负关联模式的一般是分布在低数值范围,使得正负模式的兴趣度值分布不同。
为了进一步探索正负关联模式兴趣度值分布情况,我们将本发明技术在实验参数minsup=0.04,minconf=0.001,文档数(doncnum)为12024篇的情况下挖掘完全加权正负关联模式(挖掘到4_项集),统计正负关联规则兴趣度值的分布情况,结果如图6所示,图中,PARInt.代表正关联规则兴趣度,NARInt.代表负关联规则兴趣度,横坐标表示兴趣度数值范围,例如,(0.01,0.02]表示大于0.01而小于等于0.02的数值范围,纵坐标表示落在某数值范围的正负关联规则数量的百分比。从图6中可知,正关联规则兴趣度值都分布在0.6至1.0之间,其中分布在(0.8,0.9]区间的百分比最高,达54.27%,而负关联规则兴趣度值分布在(0,0.05]区间,其中分布在(0.01,0.02]区间的百分比最高,达43.93%,由此可见,正负关联模式的兴趣度值分布情况差别较大,正关联模式的兴趣度值分布在高数值范围,而负关联模式的一般是分布在低数值范围。
综上所述,由于正负关联模式的兴趣度值差距较大,若采用单一的兴趣度阈值很难保证同时对正负模式都有效,当其阈值设置高时,有趣的负关联模式就挖掘不出来,若其值设置低时,会产生大量无趣的正关联模式,因此,本文提出设置多兴趣度阈值策略,即设置最小频繁项集兴趣度阈值(minFIInt)和最小负项集兴趣度阈值(minNIInt),试图能挖掘出更多有趣的正负关联模式,避免无趣的模式产生。
基于上述思想,本发明提出了有趣的完全加权频繁项集(Interesting All-weight FrequentItemset,InterestingFI)和有趣的完全加权负项集(Interesting All-weight Negative Itemset,InterestingNI)的条件,如式(21)和式(22)所示,其中,InterestingFI(I,minFIInt)和InterestingNI(I,minNIInt)的值为逻辑值true和false。对于特征词频繁项集I,若InterestingFI(I,minFIInt)的值为true,则I是有趣的,否则是无趣的,同理,对于特征词负项集I,若InterestingNI(I,minNIInt)=true,则负项集I是有趣的,否则,是个无趣的负项集。
有趣的完全加权频繁项集I条件:
有趣的完全加权负项集I条件:
综上所述,有趣的完全加权频繁项集和负项集I的剪枝策略是:将不满足InterestingFI(I,minFIInt)条件的频繁项集以及不满足InterestingNI(I,minNIInt)的负项集剪除。
下面通过具体实施例对本发明的技术方案做进一步的说明。
具体实施例中本发明采取的挖掘方法和系统如图1-图5所示。
本发明对表2中文文本数据库实例挖掘完全加权特征词正负关联规则的过程如下(参数设置:minsup=0.1,minwdR=5×0.1=0.5,minFIInt=0.37,minNIInt=0.15,minconf=0.3):
1.挖掘完全加权特征词频繁项集和负项集
(1)C1的权值W1和权重维数比wdR(C1)如表4所示。
表4:
C1 |
(i1) |
(i2) |
(i3) |
(i4) |
(i5) |
W1 |
3.18 |
0.61 |
2.85 |
0.96 |
0.92 |
wdR(C1) |
3.18 |
0.61 |
2.85 |
0.96 |
0.92 |
wdR(C1)与minwdR比较后得出,L1={(i1),(i2),(i3),(i4),(i5)}
特征词频繁项集集合termPIS={(i1),(i2),(i3),(i4),(i5)}
(2)C2的权值W2和权重维数比wdR(C2)如表5所示。
表5:
C2 |
(i1,i2) |
(i1,i3) |
(i1,i4) |
(i1,i5) |
(i2,i3) |
(i2,i4) |
(i2,i5) |
(i3,i4) |
(i3,i5) |
(i4,i5) |
W2 |
2.94 |
4.43 |
0.76 |
2.52 |
1.76 |
0.06 |
0.95 |
1.8 |
0.82 |
0.91 |
wdR(C2) |
1.47 |
2.22 |
0.38 |
1.26 |
0.88 |
0.03 |
0.47 |
0.9 |
0.41 |
0.46 |
wdR(C2)与minwdR比较后得出,L2={(i1,i2),(i1,i3),(i1,i5),(i2,i3),(i3,i4)},N2={(i1,i4),(i2,i4),(i2,i5),(i3,i5),(i4,i5)},特征词频繁项集集合termPIS={(i1),(i2),(i3),(i4),(i5),(i1,i2),(i1,i3),(i1,i5),(i2,i3),(i3,i4)},特征词负项集集合termNIS={(i1,i4),(i2,i4),(i2,i5),(i3,i5),(i4,i5)}。
(3)C3的权值W3和权重维数比wdR(C3)如表6所示。
表6:
C3 |
(i1,i2,i3) |
(i1,i2,i5) |
(i1,i3,i5) |
W3 |
3.34 |
1.70 |
1.67 |
wdR(C3) |
1.113 |
0.57 |
0.56 |
wdR(C3)与minwdR比较后得出,L3={(i1,i2,i3),(i1,i2,i5),(i1,i3,i5)},N3={φ}
特征词频繁项集集合termPIS={(i1),(i2),(i3),(i4),(i5),(i1,i2),(i1,i3),(i1,i5),(i2,i3),(i3,i4),(i1,i2,i3),(i1,i2,i5),(i1,i3,i5)},
特征词负项集集合termNIS={(i1,i4),(i2,i4),(i2,i5),(i3,i5),(i4,i5)}。
(4)C4的权值W4和权重维数比wdR(C4)如表7所示。
表7:
C4 |
(i1,i2,i3,i5) |
W4 |
0 |
wdR(C4) |
0 |
wdR(C2)与minwdR比较后得出,L4={φ},故特征词频繁项集和负项集挖掘结束,转入剪枝。
2.特征词频繁项集和负项集的剪枝
(1)特征词频繁项集集合termPIS中的频繁项集(Li|i>1)剪枝(minwdR=0.5,minFIInt=0.37),结果如表8所示。
表8:
从上表可知,特征词频繁项集(i1,i3)、(i1,i5)和(i1,i3,i5)的InterestingFI值都为false,因而被剪枝。
剪枝后,特征词频繁项集集合termPIS={(i1),(i2),(i3),(i4),(i5),(i1,i2),(i2,i3),(i3,i4),(i1,i2,i3),(i1,i2,i5)}。
以(i1,i2)为例,给出awAPInt计算过程如下:
(2)特征词负项集集合termNIS中的频繁项集(Ni)剪枝(minwdR=0.5,minNIInt=0.15),结果如表9所示。
表9:
从上表可知,特征词负项集(i2,i4)和(i3,i5)的InterestingNI值都为false,因而被剪枝。
剪枝后,特征词负项集集合termNIS={(i1,i4),(i2,i5),(i4,i5)}。
3.从特征词频繁项集集合termPIS中挖掘有效的完全加权特征词正负关联规则模式以特征词频繁项集(i1,i2,i3)为例,给出其特征词正负关联规则模式挖掘过程如下:
频繁项集(i1,i2,i3)的真子集集合为{(i1),(i2),(i3),(i1,i2),(i1,i3),(i2,i3)},对于{(i1),(i2,i3)}:wdR(i1)=3.18,wdR(i2,i3)=0.88,wdR(i1,i2,i3)=1.113,n×wdR(i1,i2,i3)=5×1.113=5.565,wdR(i1)×wdR(i2,i3)=3.18×0.88=2.798,故n×wdR(i1,i2,i3)>wdR(i1)×wdR(i2,i3)。
awAPInt((i1),(i2,i3))=|(5×1.113-3.18×0.88)/(5×1.113+3.18×0.88)|=0.33<minFIInt,(i1)→(i2,i3)或者(i2,i3)→(i1)不是有效的特征词正关联规则模式。
{﹁(i1),﹁(i2,i3)}:
awAPInt(﹁(i1),﹁(i2,i3))=0.156>minNIInt
awsup(﹁(i1)∪﹁(i2,i3))=(5-3.18-0.88+1.113)/5=0.41>minsup
awARPR(﹁(i1)→﹁(i2,i3))=(5×1.113-3.18×0.88)/((5-3.18)×0.88)=1.7>minconf
awARPR(﹁(i2,i3)→﹁(i1))=(5×1.113-3.18×0.88)/((5-0.88)×3.18)=0.21<minconf
﹁(i1)→﹁(i2,i3)(即﹁(“函数”)→﹁(“过程”,“程序”))是有效的特征词负关联规则模式,而﹁(i2,i3)→﹁(i1)不是有效的特征词负关联规则模式。
同理,对于{(i2),(i1,i3)},n×wdR(i1,i2,i3)=5.56>wdR(i2)×wdR(i3,i3)=1.35,
awAPInt((i2),(i1,i3))=0.61>minFIInt,
awARPR((i2)→(i1,i3))=2.48>minconf
awARPR((i1,i3)→(i2))=0.43>minconf
awAPInt(﹁(i2),﹁(i1,i3))=0.147<minNIInt,
故得出(i2)→(i1,i3)(即,(“过程”)→(“函数”,“程序”))和(i1,i3)→(i2)(即,(“函数”,“程序”)→(“过程”))是有效的特征词正关联规则模式。
由于awAPInt((i3),(i1,i2))=0.14<minFIInt,awAPInt(﹁(i3),﹁(i1,i2))=0.08<minNIInt,因此,对于{(i3),(i1,i2)},没有得出有效的特征词正负关联规则。
4.从特征词负项集集合termNIS中挖掘有效的完全加权特征词负关联规则
以负项集(i1,i4)为例,给出其特征词正负关联规则模式挖掘过程如下:
负项集(i1,i4)的真子集集合为{(i1),(i4)}
wdR(i1)=3.18,wdR(i4)=0.96,wdR(i1,i4)=0.38,n×wdR(i1,i4)=5×0.38=1.9,wdR(i1)×wdR(i4)=3.05,故n×wdR(i1,i4)<wdR(i1)×wdR(i4)。
awsup(i1∪﹁i4)=(3.18-0.38)/5=0.56>minsup,
awAPInt(i1,﹁i4)=0.043<minNIInt
awAPInt(﹁i1,i4)=0.25>minNIInt
awsup(﹁i1∪i4)=(0.96-0.38)/5=0.11>minsup,
awARPR(﹁i1→i4)=(3.05-1.9)/((5-3.18)×(5-0.96))=0.156<minconf
awARPR(i4→﹁i1)=(3.05-1.9)/(3.18×0.96)=0.38>minconf
故对于负项集(i1,i4),i4→﹁i1(即,(“队列”)→﹁(“函数”)是一个有效的特征词负关联规则。
下面通过实验对本发明的有益效果做进一步说明。
为了验证本发明的有效性、正确性,我们选择经典的无加权正负关联规则挖掘方法(Xindong Wu,Chengqi Zhang,and Shichao Zhang,Efficient Mining of Both Positive andNegative Association Rules,ACM Transactions on Information Systems,22(2004),3:381-405.)为实验对比。以中文测试集CWT200g(Chinese Web Test Collection with200GB web pages)的部分语料作为本文实验数据测试集。从CWT200g测试集中提取了12024篇纯文本文档作为实验文档测试集。实验文档测试集预处理后,得到8751个特征词,其文档频度(即含有该特征词的文档数量)df是51至11258。根据挖掘需要,实验中去掉df值比较低和比较高的特征词,提取df值在1500到5838的特征词(此时共得到400个特征词)构建特征词项目库。特征词在12024篇实验测试文档中出现的总频次是1019494次,平均在每篇文档中出现85次。实验参数如下:n:中文文本数据库TD记录数,minsup:最小支持度阈值,minconf:最小置信度阈值为,minPAPI:最小频繁项集兴趣度阈值,minNAPI:最小负项集兴趣度阈值,ItemNum:项集长度(项集具有的项目数量)。实验时,挖掘到特征词4-项集。
实验1:支持度阈值变化情况下挖掘性能比较
在不同支持度阈值下,本文发明和实验对比在实验文档测试集中挖掘特征词项集(即候选项集(Candidate Itemset,CI)、频繁项集(Frequent Itemset,FI)、负项集(Negative Itemset,NI))和正负关联规则(Positive and Negative Association Rule,PNAR)数量比较如表10和表11所示(ItemNum=50,minconf=0.001,minFIInt=0.6,minNIInt=0.004,n=12024)。
表10不同支持度阈值下挖掘的特征词项集模式数量比较
表11不同支持度阈值下挖掘的特征词正负关联规则数量比较
实验2:置信度阈值变化情况下挖掘性能比较
置信度阈值变化情况下本文发明和对比方法在实验文档测试集中挖掘特征词正负关联规则(A→B、A→﹁B、﹁A→B和﹁A→﹁B)数量比较如表12所示(minsup=0.02,minFIInt=0.6,minNIInt=0.004,n=12024,ItemNum=50,TRecordNum=12024)。
表12不同置信度阈值下挖掘的特征词正负关联规则数量比较
实验3:挖掘时间效率性能比较
在支持度阈值变化情况下和置信度阈值变化情况下统计本发明和对比方法的挖掘时间,其结果如表13和表14所示(minFIInt=0.6,minNIInt=0.004,n=12024,)。表13表示支持度阈值变化情况下对比方和本发明方法在实验文档测试集中挖掘特征词项集和关联规则的时间比较(minconf=0.001),表14表示置信度阈值变化情况下的挖掘特征词正负关联规则模式的时间比较(minsup=0.02)。
表13不同支持度阈值下挖掘项集和关联规则时间(单位:秒)比较
表14不同置信度阈值下挖掘正负关联规则的时间(单位:秒)比较
上述实验结果表明,与实验对比相比较,本发明的挖掘性能具有良好的挖掘性能,挖掘时间减少80%以上,挖掘的特征词候选项集、频繁项集和负项集以及正负关联规则数量均比对比方法的少78%以上,避免了那些不必要的特征词频繁项集、负项集和关联规则模式产生,从整体上提高了中文特征词关联规则挖掘效率。