基于相关系数的中文词间加权正负模式挖掘方法及系统
技术领域
本发明属于文本挖掘领域,具体是一种基于相关系数的中文词间加权正负模式挖掘方法及其挖掘系统,适用于中文文本挖掘中特征词关联模式发现以及中文文本信息检索查询扩展、跨语言信息检索等领域。本发明的特征词正负关联模式应用于百度、谷歌等web搜索引擎实现查询扩展,有助于提高其查询性能,满足用户查询信息需要。
背景技术
近20年来,关联模式挖掘研究取得了显著的成果,这些成果可以归纳为无加权正负关联模式挖掘技术、加权正负关联模式挖掘技术和矩阵加权(也称完全加权)正负关联模式挖掘技术等三大类。
关联模式挖掘研究始于1993年Agrawal等(AGRAWAL R,IMIELINSKI T,SWAMIA.Mining association rules between sets of items in large database[C]//Proceedings of 1993 ACM SIGMOD International Conference on Management ofData,Washington D.C.:ACM Press,1993:207-216.)提出的项无加权关联模式挖掘方法,即Apriori方法。在此基础上,学者们从不同角度和方法提出改进的无加权关联模式挖掘方法。无加权正负关联模式挖掘的缺陷是:没有考虑项目之间具有不同重要性以及项目在事务数据库中具有不同权值的情况,导致大量无效的、冗余的和无趣的关联模式出现。
项加权关联模式挖掘技术克服了上述传统挖掘技术的一些缺陷,即考虑项目之间具有不同重要性而引入项目权值。项加权关联模式挖掘研究起于1998年,其典型方法是Cai等(CAI C H,DA A,FU W C,et al.Mining association rules with weighted items[C]//Proceedings of IEEE International database Engineering and ApplicationSymposiums.Washington D.C.:IEEE Computer Society,1998:68-77.)提出的加权关联规则挖掘方法。此后,出现了一些其改进方法,例如,Vo等(VO B,COENEN F,LE B.A newmethod for mining Frequent Weighted Itemsets based on WIT-trees[J].ExpertSystems with Applications,2013(40):1256–1264.)构造一种加权树和加权闭项集树,提出基于加权树的加权频繁项集挖掘方法。项加权正负关联模式挖掘存在的缺陷是:忽略了项目权值在事务数据库中具有不同权值的情况。
项矩阵加权关联模式挖掘技术重视矩阵加权数据固有的特点,即考虑了项目在数据库各个事务记录中具有不同权值的情况,克服了上述加权关联模式挖掘的缺陷。通常将项目权值客观分布于事务记录并随记录变化而变化的数据称为矩阵加权数据,也称完全加权数据。矩阵加权关联模式挖掘研究始于2003年,其典型方法是谭义红等(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)提出的完全加权关联规则挖掘方法。这些方法有效地挖掘出矩阵加权关联规则,但不能挖掘矩阵加权负关联模式。随着矩阵加权数据(如网络文本数据等)的迅猛增长,矩阵加权正负关联模式挖掘技术在文本信息检索、文本挖掘等领域具有越来越高的应用价值,其关联规则后件或者件可作为信息检索查询扩展词的来源。针对这些问题,本发明提出一种基于相关系数的中文词间加权正负模式挖掘方法及系统。实验结果表明,该发明提出的特征词挖掘方法能有效地减少特征词候选项集数量和挖掘时间,其挖掘性能优于现有无加权正负关联模式挖掘方法,其特征词关联模式可为web搜索引擎等检索系统提供可靠的查询扩展词来源,以提高其查询性能,因此,该发明方法在文本挖掘、信息检索等领域具有重要的应用价值和广阔的应用前景。
发明内容
本发明的目的在于,针对中文文本特征词关联模式挖掘进行深入探索,提出一种基于相关系数的中文词间加权正负模式挖掘方法及系统,提高中文文本挖掘效率,应用于web搜索引擎实现查询扩展,可以提高检索性能,应用于中文文本挖掘,能够发现更加实际合理的中文特征词关联模式,从而提高文本聚类和分类的精度。
本发明所采取的技术方案是:一种基于相关系数的中文词间加权正负模式挖掘方法,包括如下步骤:
(1)中文文本预处理:将待处理的中文文本信息数据进行预处理:中文文本分词去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库。
文本特征词权值计算公式是:wij=(1+ln(tfij))×idfi,
其中,wij为第i个特征词在第j篇文档的权值,idfi为第i个特征词的逆向文档频度,其值idfi=log(N/dfi),N为文档集中文档总数,dfi为含有第i个特征词的文档数量,tfij为第i个特征词在第j篇文档的词频;
(2)挖掘中文特征词矩阵加权频繁1-项集L1:从项目库中取出候选1-项集C1,累加C1项集权值w(C1),计算其支持度mwS(C1),与ms比较,从C1中挖掘矩阵加权频繁1-项集L1加入mwPIS。候选1-项集C1支持度mwS(C1)公式如下:
其中,n为文本信息数据库的记录总数。
(3)挖掘有趣的中文特征词矩阵加权频繁i-项集Li和负i-项集Ni(所述的i≥2),包括以下(3.1)步至(3.3)步:
(3.1)频繁(i-1)-项集Li-1进行Apriori连接生成候选i_项集Ci,累加Ci的权值w(Ci)以及计算其支持度mwS(Ci)。mwS(Ci)计算公式如下:
(3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms,即mwS(Ci)≥ms,计算频繁项集关联度mwFIR(Ci),将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr(即mwFIR(Ci)≥mFr)的有趣矩阵加权频繁i-项集Li加入频繁项集集合mwPIS。频繁项集关联度mwFIR(Ci)计算公式如下:
其中,为Ci的子项集集合。
(3.3)若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms,即mwS(Ci)<ms,计算负项集关联度mwNIR(Ci),将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr(即mwNIR(Ci)≥mNr)的有趣矩阵加权负i-项集Ni加入负项集集合mwNIS。mwNIR(Ci)计算公式如下:
其中,为Ci的子项集集合。
(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式,包括以下(4.1)步至(4.6)步:
(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li,找出Li的所有真子集.
(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于ms,即mwS(I1)≥ms,mwS(I2)≥ms,并且I1∪I2=Li,计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)。mwS(I1)、mwS(I2)和mwPCC(I1,I2)的计算公式如下:
其中,i1和i2为I1和I2的项目个数,即维数。
其中,mwS(*)>0,mwS(*)≠1。
(4.3)当矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时,即mwPCC(I1,I2)≥β,计算VMWAR(I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强关联规则I1→I2,加入矩阵加权正关联规则集合mwPAR;计算有效的矩阵加权负关联规则﹁I1→﹁I2评估值即VMWAR(﹁I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2,加入mwNAR。VMWAR(I1,I2,mc,mi)和VMWAR(﹁I1,﹁I2,mc,mi)的计算公式如下:
其中,
其中,
(4.4)当矩阵加权项集(I1,I2)的相关系数mwPCC(I1,I2)小于或者等于-β时,即,mwPCC(I1,I2)≤-β,计算VMWAR(I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入mwNAR;计算VMWAR(﹁I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2,加入mwNAR。VMWAR(I1,﹁I2,mc,mi)和VMWAR(﹁I1,I2,mc,mi)的计算公式如下:
其中,
其中,
(4.5)继续(4.2)步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;
(4.6)继续(4.1)步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;
(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式,包括以下(5.1)步至(5.6)步:
(5.1)从中文特征词负项集集合mwNIS中取出特征词负项集Ni,找出Ni的所有真子集.
(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于ms,并且I1∪I2=Ni,计算矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)。mwPCC(I1,I2)的计算公式同(4.2)步的。
(5.3)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时,即mwPCC(I1,I2)≥β,计算VMWAR(﹁I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2,加入mwNAR。VMWAR(﹁I1,﹁I2,mc,mi)的计算公式同(4.3)步的。
(5.4)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)小于或等于-β时,即,mwPCC(I1,I2)≤-β,计算有效的矩阵加权负关联规则I1→﹁I2评估值即VMWAR(I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入矩阵加权负关联规则集合mwNAR;计算有效的矩阵加权负关联规则﹁I1→I2评估值即VMWAR(﹁I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2,加入mwNAR。VMWAR(I1,﹁I2,mc,mi)和VMWAR(﹁I1,I2,mc,mi)的计算公式同(4.4)步的。
(5.5)继续(5.2)步骤,当特征词负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;
(5.6)继续(5.1)步骤,当特征词频繁项集集合中每个负项集Ni都被取出一次,而且仅能取出一次,则(5)步运行结束;
至此,矩阵加权中文特征词正负模式挖掘结束。所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值,β为相关系数阈值。
一种适用于上述基于相关系数的中文词间加权正负模式挖掘方法的挖掘系统,其特征在于,包括以下4个模块:
中文文本信息预处理模块:用于待处理的中文文本信息进行分词、删除停用词,以及提取特征词及其权值计算,构建中文文本信息库和特征词项目库。
中文特征词候选项集生成模块:该模块首先从特征词项目库和中文文本信息库挖掘矩阵加权中文特征词候选1-项集,计算其支持度,由此得到中文特征词频繁1-项集,从i-项集(i≥2)起,频繁(i-1)-项集通过Apriori连接生成中文特征词候选i-项集。
中文特征词频繁项集和负项集生成模块:该模块计算中文特征词候选i-项集支持度,与最小支持度阈值比较得到中文特征词频繁i-项集和负i-项集;计算频繁项集的关联度,与频繁项集关联度阈值比较得到有趣的中文特征词频繁项集;计算负项集关联度,与负项集关联度阈值比较得到有趣的中文特征词负项集。
中文特征词正负关联规则产生及结果显示模块:该模块首先生成中文特征词频繁项集的真子集,计算中文特征词关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从频繁项集中挖掘有效的矩阵加权中文特征词强正负关联规则模式;然后生成中文特征词负项集的真子集,计算中文特征词负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从负项集中挖掘有效的矩阵加权中文特征词强负关联规则模式;最后,将有效的矩阵加权中文特征词正负关联规则模式以所需的形式显示给用户,供用户分析和使用。
所述的中文特征词频繁项集和负项集生成模块包括以下2个模块:
特征词频繁项集生成模块:该模块计算中文特征词候选项集支持度,与支持度阈值比较得到频繁项集,计算频繁项集的关联度,与其关联度阈值比较得到有趣的矩阵加权中文特征词频繁项集。
特征词负项集生成模块:该模计算中文特征词候选项集支持度,与支持度阈值比较得到负项集,计算负项集的关联度,与其关联度阈值比较得到有趣的矩阵加权中文特征词负项集。
所述的中文特征词正负关联规则产生及结果显示模块包括以下3个模块:
来自频繁项集的强正负关联规则生成模块:该模块生成中文特征词频繁项集的真子集,计算中文特征词关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从频繁项集中挖掘有效的矩阵加权中文特征词强正负关联规则模式。
来自负项集的强负关联规则生成模块:该模块生成中文特征词负项集的真子集,计算中文特征词负关联规则模式的相关系数、兴趣度和置信度,与相关系数阈值、兴趣度阈值和置信度阈值比较,从负项集中挖掘有效的矩阵加权中文特征词强负关联规则模式。
特征词强正负关联规则显示模块:该模块将有效的矩阵加权中文特征词正负关联规则模式以所需的形式显示给用户,供用户分析和使用。
所述的挖掘系统中的支持度阈值ms,置信度阈值mc,兴趣度阈值mi,相关系数阈值β由用户输入。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出一种基于相关系数的中文特征词矩阵加权正负关联模式挖掘方法及其挖掘系统。该发明采用新的项集剪枝技术,避免很多无效的、虚假的和无趣的关联模式产生,极大提高挖掘效率,所挖掘出的关联模式更加接近实际情况。与现有挖掘方法比较,其挖掘出的候选项集、频繁项集和负项集,以及正负关联规则模式数量减少很多,其挖掘时间大大降低,极大提高挖掘效率。实验结果表明,本文提出的双阈值剪枝策略有效,剪枝效果很明显,能获得更加实际的中文特征词关联模式,在文本挖掘、信息检索领域等领域中有较高的应用价值和广阔的应用前景。其中文特征词正负关联模式应用于百度、谷歌等web搜索引擎实现查询扩展,有助于提高其查询性能,满足用户查询信息需要。
(2)以国内中文标准数据集CWT200g作为实验数据,将本发明与经典的无加权关联模式挖掘方法进行实验比较和分析,实验结果表明,无论在支持度阈值或者置信度阈值变化的情况下,本发明所挖掘的候选项集数量都比对比方法挖掘的少,本发明的挖掘时间比对比方法挖掘的少,减幅较大,挖掘效率得到了极大提高。
附图说明
图1是本发明所述的基于相关系数的中文词间加权正负模式挖掘方法的框图。
图2是本发明所述的基于相关系数的中文词间加权正负模式挖掘方法的整体流程图。
图3是本发明所述的基基于相关系数的中文词间加权正负模式挖掘系统的结构框图。
图4是本发明所述的中文特征词频繁项集和负项集生成模块的结构框图。
图5是本发明所述的中文特征词正负关联规则产生及结果显示模块的结构框图。
具体实施方式
为了更好地说明本发明的技术方案,下面将本发明涉及的中文文本数据模型和相关的概念介绍如下:
一、基本概念
设MWD={r1,r2,…,rn},其中事务记录数为n,Is={i1,i2,…,im}表示MWD中所有项目集合(Itemset,Is),项目数为m,ij(1≦j≦m)表示MWD中第j个项目,在事务记录ri中的权值为w[ri][ij](0≦wij≦1)。设I1,I2是项集I的子项集,I1∪I2=I且,给出如下基本定义。
定义1矩阵加权支持度(Matrix-weighted Support,mwS):矩阵加权支持度mwS(I)的计算公式(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘.计算机工程与应用,2003(13):208-211.)如式(1)所示,其中,k为项集I的长度(即I的项目个数)。
矩阵加权负项集和负关联规则支持度如式(2)至式(5)所示。
mwS(﹁I)=1–mwS(I) (2)
mwS(I1→﹁I2)=mwS(I1,﹁I2)=mwS(I1)–mwS(I1,I2) (3)
mwS(﹁I1→I2)=mwS(﹁I1,I2)=mwS(I2)–mwS(I1,I2) (4)
mwS(﹁I1→﹁I2)=mwS(﹁I1,﹁I2)=1–mwS(I1)–mwS(I2)+mwS(I1,I2) (5)
定义2矩阵加权频繁项集和负项集:对于矩阵加权项集I,若mwS(I)≥ms,则称项集I为矩阵加权频繁项集;当I1和I2都是矩阵加权频繁项集,若mwS(I1,I2)<ms,则项集(I1,I2)称为矩阵加权负项集,其中ms为最小支持度阈值。
定义3矩阵加权置信度(Matrix-weighted Confidence,mwC):矩阵加权正负关联规则置信度计算公式如式(6)至(10):
定义4矩阵加权模式相关系数(Matrix-weighted Pattern CorrelationCoefficient,mwPCC):矩阵加权模式(I1,I2)相关系数mwPCC(I1,I2)的计算公式,如式(10)所示。
其中,mwS(*)>0,mwS(*)≠1。
定义5矩阵加权频繁项集关联度(Matrix-weighted Frequent ItemsetRelevancy,mwFIR):对于矩阵加权频繁项集FI=(i1,i2,…,im)(m>1),其子项集集合为 将支持度最大的子项集发生时该频繁项集FI发生的条件概率作为FI的关联度,给出矩阵加权频繁项集FI子项集间关联度mwFIR(FI)的计算公式如式(11)所示。
定义6矩阵加权负项集关联度(Matrix-weighted Negative Itemset Relevancy,mwNIR):对于矩阵加权负项集NI=(i1,i2,…,ir)(r>1),其子项集集合为 将支持度最大的子项集不发生时该负项集NI发生的条件概率作为NI的关联度,给出矩阵加权负项集NI子项集间关联度mwNIR(NI)的计算公式如式(12)所示。
定义7矩阵加权正负关联规则兴趣度:矩阵加权正负关联规则兴趣度(matrix-weighted association rule interest,mwARI)公式如式(13)至式(16)所示。
二、有效的矩阵加权正负关联规则挖掘思想
假设最小置信度(minimum confidence,mc)阈值为mc,最小兴趣度(minimuminterest,mi)阈值为mi,相关系数阈值为β(β∈(0,1]),有效的矩阵加权关联规则挖掘基本思想:
(1)对于有趣的矩阵加权频繁项集(I1,I2),项集I1和I2均为频繁项集,若mwPCC(I1,I2)≥β,VMWAR(I1,I2,mc,mi)=1和VMWAR(﹁I1,﹁I2,mc,mi)=1,则I1→I2和﹁I1→﹁I2是个有效的矩阵加权正负关联规则;若mwPCC(I1,I2)≤-β,当VMWAR(I1,﹁I2,mc,mi)=1和VMWAR(I1,﹁I2,mc,mi)=1时,则I1→﹁I2和I1→﹁I2是个有效的矩阵加权负规则。
其中,VMWAR(I1,I2,mc,mi)、VMWAR(﹁I1,﹁I2,mc,mi)、VMWAR(I1,﹁I2,mc,mi)和VMWAR(I1,﹁I2,mc,mi)的计算公式如式(17)至式(20)所示。
(2)对于有趣的矩阵加权负项集(I1,I2),项集I1和I2均为频繁项集,若mwPCC(I1,I2)≥β,VMWAR(﹁I1,﹁I2,mc,mi)=1时,则﹁I1→﹁I2是个有效的矩阵加权负关联规则;若mwPCC(I1,I2)≤-β,VMWAR(I1,﹁I2,mc,mi)=1、VMWAR(﹁I1,I2,mc,mi)=1时,则I1→﹁I2、﹁I1→I2是个有效的矩阵加权负关联规则。
三、有趣的矩阵加权项集剪枝策略
设最小频繁项集关联度(minimum frequent relevancy,mFr)阈值为mFr,最小负项集关联度(minimum negative relevancy,mNr)阈值为mNr。
有趣的矩阵加权频繁项集I剪枝策略:当mwS(I)≥ms时,若mwFIR(I)≥mFr,则项集I是一个有趣的矩阵加权频繁项集,应该保留,否则,若mwFIR(I)<mFr,那么项集I被剪除。
有趣的矩阵加权负项集I剪枝策略:当mwS(I)<ms时,若mwNIR(NI)≥mNr,则项集I是一个有趣的矩阵加权负项集,应该保留,否则,若mwNIR(NI)<mNr,那么项集I被剪除。
下面通过具体实施例对本发明的技术方案做进一步的说明。
具体实施例中本发明采取的挖掘方法和系统如图1-图5所示。
实例:下式是一个中文文本数据库实例,有5个中文文档记录和5个特征词项目及其权值,即文档集合为{d1,d2,d3,d4,d5},特征词集合为{i1,i2,i3,i4,i5}={程序,队列,函数,环境,成员}。
采用本发明挖掘方法对该中文文档数据实例挖掘中文特征词矩阵加权正负关联模式,其挖掘过程如下(ms=0.15,mc=0.3,mFr=0.3,mNr=0.12,mi=0.26,β=0.1):
1.挖掘矩阵加权特征词频繁1_项集L1,如表1所示,其中n=5。
表1:
C1 |
w(C1) |
mwS(C1) |
(i1) |
2.8 |
0.56 |
(i2) |
0.55 |
0.11 |
(i3) |
2.6 |
0.52 |
(i4) |
0.92 |
0.184 |
(i5) |
0.84 |
0.168 |
由表1可知,L1={(i1),(i3),(i4),(i5)},
特征词频繁项集集合mwPIS={(i1),(i3),(i4),(i5)}。
2.挖掘矩阵加权特征词频繁k_项集Lk和负k-项集Nk,所述的k≥2。
k=2:
(1)特征词频繁1_项集L1进行Apriori连接,生成特征词候选2_项集C2,并计算w(C2)、和mwS(C2)如表2所示。
表2:
对于表2,进行如下操作:
*若mwS(C2)≥ms,计算mwFIR(C2),将mwFIR(C2)≥mFr的有趣矩阵加权频繁2-项集L2加入频繁项集集合mwPIS,即L2={(i1,i3),(i1,i5)},mwPIS={(i1),(i3),(i4),(i5),(i1,i3),(i1,i5)}
*若mwS(C2)<ms,计算mwNIR(C2),将mwNIR(C2)≥mNr的有趣矩阵加权负2-项集N2加入负项集集合mwNIS,即N2={(i1,i4),(i3,i5)},mwNIS={(i1,i4),(i3,i5)}k=3:
*L2进行Apriori连接生成中文特征词候选3_项集C3,并累加C3的权值以及计算mwS(C3),如表3所示。
表3:
C3 |
w(C3) |
mwS(C2) |
mwNIR(C3)(mwS(C3)<0) |
(i1,i3,i5) |
1.44 |
0.096 |
=0.096/(1-0.56)=0.218 |
对于表3,进行如下操作:
*(i1,i3,i5)的子集为{(i1),(i3),(i5),(i1,i3),(i1,i5)(i3,i5)},这些子项集中,其支持度最大的是(i1),其值为0.56,又由于mwS(Ci)<ms,故mwNIR(Ci)=0.096/(1-0.56)=0.218≥mNr,
即N3={(i1,i3,i5)},mwNIS={(i1,i4),(i3,i5),(i1,i3,i5)}
*当k=4时,由于L3为空,挖掘矩阵加权特征词频繁k_项集Lk和负k-项集Nk结束,转入如下3步骤。最终挖掘项集结果为:mwPIS={(i1),(i3),(i4),(i5),(i1,i3),(i1,i5)},mwNIS={(i1,i4),(i3,i5),(i1,i3,i5)}
3.从频繁项集集合mwPIS中挖掘有效的矩阵加权中文特征词正负关联规则模式。
以mwPIS中特征词频繁项集(i1,i5)为例,给出有效的矩阵加权正负关联规则模式挖掘过程如下:
频繁项集(i1,i5)的真子集集合为{(i1),(i5)},设I1=(i1),I2=(i5)。
mwS(I1)=0.56≥ms,mwS(I2)=0.168≥ms,mwS(I1,I2)=0.214
计算:
因为mwPCC(I1,I2)>β=0.1,所以,
(1)
因为VMWAR(I1,I2,mc,mi)=1,所以得出有效的矩阵加权中文特征词关联规则I1→I2,即,(i1)→(i5),或者,(程序)→(成员)。
(2)mwS(﹁I1,﹁I2)=1–0.56–0.168+0.214=0.486,mwS(﹁I1)=1–0.56=0.44
mwS(﹁I2)=1–0.168=0.832
由于所以挖掘不出规则﹁I1→﹁I2。
综上所述,对于中文特征词频繁项集(i1,i5),可以挖掘出有效的矩阵加权中文特征词关联规则模式(i1)→(i5),或者,(程序)→(成员)(ms=0.15,mc=0.3,mFr=0.3,mNr=0.12,mi=0.26,β=0.1)
4.从负项集集合mwNIS中挖掘有效的矩阵加权中文特征词负关联规则模式。
以mwNIS中特征词负项集(i3,i5)和(i1,i4)为例,给出有效的矩阵加权中文特征词强负关联规则模式挖掘过程如下:
*负项集(i3,i5)的真子集集合为{(i3),(i5)},设I1=(i3),I2=(i5)。
mwS(I1)=0.52≥ms,mwS(I2)=0.168≥ms,mwS(I1,I2)=0.084
计算:
因为mwPCC(I1,I2)>–β=–0.1,故挖掘不出关联规则。
*负项集(i1,i4)的真子集集合为{(i1),(i4)},设I1=(i1),I2=(i4)。
mwS(I1)=0.56≥ms,mwS(I2)=0.184≥ms,mwS(I1,I2)=0.072
计算:
因为mwPCC(I1,I2)=-0.1614<-β=-0.1,所以,
(1)mwS(I1,﹁I2)=0.56–0.072=0.488,mwS(﹁I2)=1–0.184=0.816,
由于故挖掘不出负关联规则I1→﹁I2。
(2)mwS(﹁I1,I2)=0.184–0.072=0.112,
由于VMWAR(﹁I1,I2,mc,mi)=1,得出有效的负关联规则﹁I1→I2即,(﹁i1)→(i4),或者,(﹁程序)→(环境)。
综上所述,对于中文特征词负项集(i1,i4),可以挖掘出有效的矩阵加权中文特征词负关联规则﹁I1→I2即,(﹁i1)→(i4),或者,(﹁程序)→(环境)(ms=0.15,mc=0.3,mFr=0.3,mNr=0.12,mi=0.26,β=0.1)。
下面通过实验对本发明的有益效果做进一步说明。
为了验证本发明的有效性、正确性,编写实验源程序,选择经典无加权正负关联规则挖掘算法(WU Xin-dong,ZHANG Cheng-qi and ZHANG Shi-chao.Efficient mining ofboth positive and negative association rules[J].ACM Transactions onInformation Systems,2004,22(3):381–405.)(记为PNARMiner算法)为实验对比算法,从支持度变化、组合参数变化、规则兴趣度变化和相关系数变化等4个方面对算法挖掘性能进行实验对比和分析。下列表格中,关联规则(Association Rule,AR)A→B,A→﹁B,﹁A→B和﹁A→﹁B分别用AR1,AR2,AR3和AR4表示。
实验数据来自于北京大学网络实验室提供的中文Web测试集CWT200g(ChineseWeb Test collection with 200GB web Pages)部分语料的12024篇纯中文文本文档。通过分词、去停用词、提取特征词及其权值计算等文档预处理,得到文本数据库和特征词项目库。预处理后实验数据如下:实验文档集预处理后可以得到8751个特征词,其文档频度df(即含有该特征词的文档篇数)范围是51至11258。提取其df值不小于1500并且不大于5838的特征词构建挖掘用的特征词项目库(共400个特征词)。实验参数是:n=12024,挖掘的项目数(ItemNumber,ItemNum)=50,ms,mFr,mNr,mc,mi,β,实验过程中挖掘项集的最大长度设为4。
实验一:支持度阈值变化的挖掘性能
在支持度阈值变化情况下两种算法挖掘的候选项集(Candidate Itemset,CI)、频繁项集(Frequent Itemset,FI)、负项集(Negative Itemset,NI)和关联规则数量结果如表1和表2所示,
其中,实验参数为:mc=0.07,mFr=0.06,mNr=0.001,mi=0.01,β=0.05。
从表1和表2可知,随着支持度阈值增大,各类项集和关联规则数量逐渐减少,其中,本文算法MWARM-SRCCCI挖掘的项集和关联规则数量比对比算法PNARMiner的少,项集数量降幅最大的可达94.9%,规则数量降幅最大的可达99.7%。
实验二:组合参数阈值变化的挖掘性能
由于有效的矩阵加权关联规则是关联规则的支持度、置信度、兴趣度和相关系数综合评价的结果,因此,将GP={ms,mc,mi,β}作为组合参数(Group Parameter,GP)阈值,设置7组GP值,即GP1={0.03,0.01,0.01,0.05},GP2={0.035,0.015,0.015,0.055},GP3={0.038,0.02,0.018,0.055},GP4={0.04,0.035,0.02,0.065},GP5={0.05,0.04,0.03,0.07},GP6={0.06,0.07,0.04,0.08},GP7={0.07,0.1,0.05,0.09},2种算法在7组组合阈值下挖掘的正负关联规则数量如表3所示,其中对比算法PNARMiner没有β参数,其他参数值为mFr=0.06,mNr=0.001。
表3组合参数变化下挖掘的正负关联规则数量比较
表3实验结果表明,随着组合参数值的增大,各类关联规则数量逐渐下降,其中本文算法挖掘的数量比对比算法挖掘的少,正关联规则A→B模式数量降幅为95.36%,负关联规则中,降幅最大的是A→﹁B模式数量,达到93.99%,降幅最小的是﹁A→﹁B模式数量,达到82.85%。
实验三:挖掘时间效率性能比较
支持度阈值和组合参数变化的情况下2种算法挖掘项集和关联规则的时间如表4和表5所示。
表4和表5结果表明,在支持度阈值变化(mc=0.07,mFr=0.06,mNr=0.001,mi=0.01,β=0.05)以及组合参数值分别变化的情况下,本文算法MWARM-SRCCCI挖掘项集和关联规则的时间比对比算法PNARMiner的分别少51.92%和74.74%,表明本文算法挖掘效率确实得到了提高。
实验四:规则兴趣度阈值变化的挖掘性能
该实验主要验证本文算法的关联规则兴趣度阈值mi有效性,在mi变化情况下本文算法挖掘矩阵加权关联规则数量如表6所示。
表6 mi变化时本文算法挖掘的规则数量
mi |
AR1 |
AR2 |
AR3 |
AR4 |
0.01 |
1320 |
247 |
247 |
10838 |
0.03 |
1320 |
153 |
153 |
1096 |
0.05 |
1320 |
70 |
70 |
108 |
0.09 |
1320 |
0 |
0 |
0 |
0.80 |
1130 |
0 |
0 |
0 |
0.90 |
468 |
0 |
0 |
0 |
0.95 |
34 |
0 |
0 |
0 |
从表6可以看出,随着兴趣度mi阈值的增大,关联规则数量越来越少。由此可见,mi对矩阵加权正负关联规则模式影响是巨大的,其中负关联规则只出现在mi的低数值部分,而正关联规则在mi的高数值部分才受影响。
实验五:项集剪枝性能分析
为了验证本文提出的项集剪枝策略的有效性,分频繁项集关联度阈值mFr变化和负项集关联度阈值mNr变化两种情况对MWARM-SRCCCI算法的剪枝性能进行实验分析,实验结果如表7和表8所示,其中,mFr和mNr为0时是无剪枝功能的情况。
表7和表8表明,随着mFr和mNr的增大,频繁项集和负项集被剪枝的数量越多,剪枝效果越明显。同时,mNr数值比mFr数值小得多,表明了设置双关联度阈值的优势。
上述实验结果表明,与实验对比相比较,本发明的挖掘性能具有良好的挖掘性能,与现有挖掘算法比较,其挖掘出的候选项集、频繁项集和负项集,以及正负关联规则模式数量减少很多,剪枝效果很明显,其挖掘时间大大降低,极大提高挖掘效率。