CN109684462B - 基于权值比较和卡方分析的文本词间关联规则挖掘方法 - Google Patents

基于权值比较和卡方分析的文本词间关联规则挖掘方法 Download PDF

Info

Publication number
CN109684462B
CN109684462B CN201811646484.1A CN201811646484A CN109684462B CN 109684462 B CN109684462 B CN 109684462B CN 201811646484 A CN201811646484 A CN 201811646484A CN 109684462 B CN109684462 B CN 109684462B
Authority
CN
China
Prior art keywords
text
item set
weight
association rule
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811646484.1A
Other languages
English (en)
Other versions
CN109684462A (zh
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN201811646484.1A priority Critical patent/CN109684462B/zh
Publication of CN109684462A publication Critical patent/CN109684462A/zh
Application granted granted Critical
Publication of CN109684462B publication Critical patent/CN109684462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了基于权值比较和卡方分析的文本词间关联规则挖掘方法,首先预处理待挖掘的英文文本文档集,分别构建文本文档索引库和文本特征词库,再通过权值比较在文本文档索引库中挖掘文本特征词加权频繁项集,采用项集关联度以及候选项集的项目权值最大者或者最大项目权值对候选项集进行剪枝得到文本特征词有效加权频繁项集,构建有效加权频繁项集库,采用卡方分析‑置信度评价框架从有效加权频繁项集库中挖掘文本特征词加权关联规则模式,构建加权关联规则模式库。本发明能从海量的英文文本信息中挖掘出更实际的和隐含的文本特征词间关联的加权关联规则模式,该模式在信息检索、推荐系统等自然语言处理领域有着较高的应用价值和广阔的推广前景。

Description

基于权值比较和卡方分析的文本词间关联规则挖掘方法
技术领域
本发明属于文本挖掘领域,具体是基于权值比较和卡方分析的文本词间关联规则挖掘方法。
背景技术
文本特征词关联规则模式挖掘主要是用来发现和分析文本特征词之间的各种关联,以揭示特征词间内在的联系,在自然语言处理领域得到了广泛的应用,例如,文本特征词关联规则模式可以用于信息检索领域实现查询扩展,从而提高信息检索性能,也可以用于推荐系统,提高推荐系统的准确性,等等。现有文本特征词关联规则挖掘方法主要有2大类:一类是无加权关联规则挖掘方法,另一类是加权关联规则挖掘方法。
无加权关联规则挖掘方法(R.Agrawal,T.Imielinski,A.Swami.Miningassociation rules between sets of items in large database[C].Proceeding of1993 ACM SIGMOD International Conference on Management of Data,WashingtonD.C.,1993,(5):207-216.)的基本思想是将项集在事务文档中发生的概率作为支持度,只考虑项集出现的频度,不考虑项集权值,导致冗余关联规则增多,挖掘效率不高。
加权关联规则挖掘方法克服了无加权关联规则挖掘方法的缺陷,在挖掘关联规则时考虑了项权值。加权关联规则挖掘方法分为基于项权值固定的加权关联规则挖掘方法和基于项权值变化的加权关联规则挖掘方法。
基于项权值固定的加权关联规则挖掘方法(C.H.Cai,A.da,W.C.Fu,et al.MiningAssociation Rules with Weighted Items[C].Proceedings of IEEE Internationaldatabase Engineering and Application Symposiums,1998:68-77.)考虑了项目权值,但是,项目权值是固定的,并且将项目权值总和与无加权支持度的乘积作为项集支持度。
基于项权值变化的加权关联规则挖掘方法在挖掘项集和关联规则时考虑项权值,特别是考虑项集权值随事务文档不同而发生变化的情况,项集支持度有2种计算方法,一种是将特征词项目平均权值与无加权支持度的乘积作为完全加权项集支持度(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.;黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.),另一种是以项集在事务数据库中项集权值总和占事务数据库中所有项目权值总和的百分比作为项集支持度(周秀梅,黄名选.基于项权值变化的矩阵加权关联规则挖掘[J].计算机应用研究,2015,32(10):2918-2923.)。
当前,关联规则模式经典的评价方式普遍采用支持度-置信度评价框架,这个评价框架存在的缺陷是:冗余项集和关联规则以及虚假关联规则模式比较多。鉴于此,有必要研究更实际、更合理的评价方法。
发明内容
本发明所要解决的问题是提出基于权值比较和卡方分析的文本词间关联规则挖掘方法,在海量的英文文本文档集中如何找到隐含的、事先不知道的英文文本特征词之间的各种关联,所挖掘出的文本特征词关联规则模式在自然语言处理领域有较高的应用价值,能应用于搜索引擎系统、数字图书馆以及信息检索系统,提高信息检索性能,或用于推荐系统,提高推荐系统的准确性。
本发明的技术方案如下:
基于权值比较和卡方分析的文本词间关联规则挖掘方法,包括下列步骤:
步骤1:所述文本语种为英文,首先进行英文文本文档常规预处理,具体步骤如下:
(1-1)消除英文文本文档的停用词,采用Porter方法(详见:http://tartarus.org/~martin/PorterStemmer)提取英文文本文档特征词。
(1-2)计算特征词权值,构建文本文档索引库和特征词库。
采用经典的tf-idf特征词权值计算方法来计算特征词权值,计算公式如式(1)所示。
wij=tfj,i×(lgn-lg(dfj)) (1)
其中,wij表示文本文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的出现次数,dfj表示含有特征词tj的文档数量,n表示文本文档索引库中总文档数。
步骤2:挖掘文本特征词加权1_频繁项集L1,具体步骤如下:
(2-1)从特征词库中提取特征词作为1_候选项集C1
(2-2)扫描文本文档索引库统计C1的项集权值w[C1]和总文档数n;
(2-3)按以下式(2)计算最小权值支持阈值MWS:
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值;n为文本文档索引库总文档数;
(2-4)如果w[C1]≥MWS,则C1就是文本特征词加权1_频繁项集L1,添加到频繁项集集合FIS;
步骤3:挖掘文本特征词有效加权k_频繁项集Lk,所述k≥2,具体步骤如下:
(3-1)采用Aproiri连接方法将文本特征词有效加权(k-1)_频繁项集Lk-1自连接得到多个文本特征词k_候选项集Ck=(i1,i2,…,ik),所述k≥2;i1,i2,…,ik分别为Ck的项目;
(3-2)扫描文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(3-3)如果所述项目im对应的1_项集(im)是非频繁的或者wm<MWS,则剪枝对应的Ck
(3-4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果Ck的项集权值w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词有效加权k_频繁项集Lk,添加到频繁项集集合FIS;
所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
Figure BDA0001932165450000031
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别对应表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(3-5)k加1后转入步骤(3-1)继续循环,直到文本特征词有效加权k_频繁项集Lk为空集,文本特征词有效加权频繁项集挖掘结束,转入如下步骤4;
步骤4:采用卡方分析-置信度评价框架挖掘频繁项集集合FIS中每一个k_频繁项集Lk的加权关联规则模式,所述k≥2,具体方法如下:
从频繁项集集合FIS中取出任意一个k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有加权关联规则模式:
(4-1)构建Lk的所有真子集项集集合;
(4-2)从真子集项集集合中任意取出两个真子集项集T1和T2,且
Figure BDA0001932165450000033
T1∪T2=Lk
Figure BDA0001932165450000034
计算项集(T1,T2)的卡方值Chis(T1,T2),计算公式如式(4)所示:
Figure BDA0001932165450000032
式(4)中,w[T1]为项集T1在文本文档索引库中的项集权值,k1为项集T1的长度,w[T2]为项集T2在文本文档索引库中的项集权值,k2为项集T2的长度,n为文本文档索引库总文档数,w[(T1,T2)]为项集(T1,T2)在文本文档索引库中的项集权值,kI为项集(T1,T2)的项目个数;
(4-3)如果Chis(T1,T2)>0,则分别按式(5)和式(6)计算加权关联规则置信度WConf(T1→T2)和WConf(T2→T1);
Figure BDA0001932165450000041
Figure BDA0001932165450000042
式(5)和(6)中,w[T1],k1,w[T2],k2,w[(T1,T2)],kI定义同式(4);
若WConf(T1→T2)≥最小置信度阈值mc,则关联规则T1→T2是强加权关联规则模式,添加到加权关联规则模式集合WAR;
若WConf(T2→T1)≥mc,则T2→T1是强加权关联规则模式,添加到加权关联规则模式集合WAR。
(4-4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(4-1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(4-2)再顺序执行各个步骤,若频繁项集集合FIS中的每个Lk当且仅当都被取出一次,则结束整个文本词间关联规则挖掘。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出了基于权值比较和卡方分析的文本词间关联规则挖掘方法,克服了现有加权关联规则挖掘技术的缺陷,通过权值比较在文本文档索引库中挖掘文本特征词加权频繁项集,采用项集关联度以及候选项集的项目权值最大者或者最大项目权值对候选项集进行剪枝得到文本特征词有效加权频繁项集,采用卡方分析-置信度评价框架从有效加权频繁项集中挖掘文本特征词加权关联规则模式。本发明挖掘出的文本特征词关联规则模式更能体现文本特征词间的各种关联关系,这些模式应用于信息检索领域能够提高检索性能,应用于推荐系统能提高系统的准确性,因而,本发明在信息检索、推荐系统等自然语言处理领域有着较高的应用价值和广阔的推广前景。
(2)将本发明方法应用于信息检索的实验,实验结果表明,本发明挖掘方法的跨语言检索结果的P@5和R-Prec值均比现有技术的方法高,说明本发明挖掘方法是有效的,在信息检索领域有很高的应用价值和推广前景。
附图说明
图1为本发明基于权值比较和卡方分析的文本词间关联规则挖掘方法流程示意图。
具体实施方式
以下结合附图说明本发明方法的具体实施方式,但不构成对本发明权利要求保护范围的限制。
假设DS={d1,d2,…,dn}是英文文本文档集(Document Set,DS),其中,di(1≤i≤n)是文档集DS中的第i篇文档,di={t1,t2,…,tm,…,tp},tm(m=1,2,…,p)为文档特征词项目,简称特征项,一般是由字、词或词组构成,di中对应的特征项权值集合Wi={wi1,wi2,…,wim,…,wip},wim为第i篇文档di中第m个特征项tm对应的权值,T={t1,t2,…,tn}表示DS中全体特征项集合,T的各个子集均称为特征项项集,简称项集。
假设在文本文档索引库中统计k_候选项集Ck=(i1,i2,…,ik)的项集权值w[Ck],得到Ck各个项目i1,i2,…,ik对应的权值分别为w1,w2,…,wk,那么,所述w1,w2,…,wk称为项目权值,而Ck的项集权值w[Ck]=w1+w2+…+wk
实施例1:
本实施例处理的文本语种为英文,基于权值比较和卡方分析的文本词间关联规则挖掘方法,如图1所示,包括下列步骤:
步骤1:英文文本文档常规预处理,具体步骤如下:
(1-1)消除英文文档的停用词,采用Porter方法(详见:http://tartarus.org/~martin/PorterStemmer)提取英文文档特征词。
(1-2)计算特征词权值,构建文本文档索引库和特征词库。
采用经典的tf-idf特征词权值计算方法(见文献:Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing&Management,1988,24(5):513-523.)来计算特征词权值,具体计算公式如式(1)所示。
wij=tfj,i×(lgn-lg(dfj)) (1)
其中,wij表示英文文档di中特征词tj的权值,tfj,i表示英文特征词tj在文档di中的出现次数,dfj表示含有英文特征词tj的文档数量,n表示文本文档索引库中总文档数。
步骤2:挖掘文本特征词加权1_频繁项集L1,具体步骤如下:
(2-1)从特征词库中提取特征词作为1_候选项集C1
(2-2)扫描文本文档索引库统计C1的权值w[C1]和总文档数n;
(2-3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为文本文档索引库总文档数。
(2-4)如果w[C1]≥MWS,则C1就是特征词加权1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
步骤3:挖掘文本特征词有效加权k_频繁项集Lk,所述k≥2。具体步骤如下:
(3-1)采用Aproiri连接方法将文本特征词有效加权频繁(k-1)_项集Lk-1自连接得到多个文本特征词k_候选项集Ck=(i1,i2,…,ik),所述k≥2;i1,i2,…,ik为Ck的项目;
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993 ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(3-2)扫描文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(3-3)如果所述项目im对应的1_项集(im)是非频繁的或者wm<MWS,则剪枝对应的Ck
(3-4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果Ck的项集权值w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词有效加权k_频繁项集Lk,添加到频繁项集集合FIS;否则剪枝所述Ck
所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
Figure BDA0001932165450000061
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别对应表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(3-5)k加1后转入步骤(3-1)继续循环,直到文本特征词有效加权k_频繁项集Lk为空集,文本特征词有效加权频繁项集挖掘结束,转入如下步骤4;
步骤4:采用卡方分析-置信度评价框架挖掘频繁项集集合FIS中每一个k_频繁项集Lk的加权关联规则模式,所述k≥2。具体步骤如下:
从频繁项集集合FIS中取出任意一个k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有加权关联规则模式。
(4-1)构建Lk的所有真子集项集集合;
(4-2)从真子集项集集合中任意取出两个真子集项集T1和T2,且
Figure BDA0001932165450000074
T1∪T2=Lk
Figure BDA0001932165450000075
计算项集(T1,T2)的卡方(Chi-Square,Chis)值。所述卡方值Chis(T1,T2)计算公式如式(4)所示。
Figure BDA0001932165450000071
式(4)中,w[T1]为项集T1在文本文档索引库中的项集权值,k1为项集T1的长度,w[T2]为项集T2在文本文档索引库中的项集权值,k2为项集T2的长度,n为文本文档索引库总文档数,w[(T1,T2)]为项集(T1,T2)在文本文档索引库中的项集权值,kI为项集(T1,T2)的项目个数;
(4-3)如果Chis(T1,T2)>0,则计算加权关联规则置信度(Weighted Confidence,WConf)WConf(T1→T2)和WConf(T2→T1)。
若WConf(T1→T2)≥最小置信度阈值mc,则关联规则T1→T2是强加权关联规则模式,添加到加权关联规则模式集合WAR(Weighted Association Rule);
若WConf(T2→T1)≥mc,则T2→T1是强加权关联规则模式,添加到WAR。
WConf(T1→T2)和WConf(T2→T1)的计算公式如式(5)和(6)所示。
Figure BDA0001932165450000072
Figure BDA0001932165450000073
式(5)和(6)中,w[T1],k1,w[T2],k2,w[(T1,T2)],kI定义同式(4);
(4-4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(4-1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(4-2)再顺序执行各个步骤,若频繁项集集合FIS中的每个Lk当且仅当都被取出一次,则结束整个文本词间关联规则挖掘。
所述的剪枝采用如下方法:
(1)对于k_候选项集Ck=(i1,i2,…,ik),如果所述Ck的项集权值w[Ck]<MWS×k,MWS为最小权值支持阈值,则所述Ck是非频繁的,剪除所述Ck;如果所述Ck的项集关联度IRe(Ck)<minIRe,则所述Ck是无效项集,剪除所述Ck;综上所述,本发明只挖掘w[Ck]≥MWS×k并且IRe(Ck)≥minIRe的有效频繁项集,所述minIRe为最小项集关联度阈值。
(2)如果k_候选项集Ck=(i1,i2,…,ik)中最大的项目权值小于最小权值支持阈值MWS,那么Ck是非频繁的,则剪除所述Ck
(3)假设k_候选项集Ck=(i1,i2,…,ik)中最大项目权值对应的项目为im,im单独作为1_项集时为(im),如果所述1_项集(im)是非频繁的,则剪除所述Ck
下面通过实验对本发明的有益效果做进一步说明。
为了验证本发明的有益效果,特选择已有的2种加权关联规则挖掘方法为对比挖掘方法,具体是:
对比挖掘方法1是基于文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[J].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘方法,
对比挖掘方法2是基于文献(黄名选.基于加权关联模式挖掘的越英跨语言查询扩展.情报学报,2017,36(3):307-318.)的加权关联规则挖掘方法。
实验数据:
实验数据是国际上通用的NTCIR-5CLIR标准数据集语料中3个英文文档集,具体是:
(1)Mainichi Daily News 2000的新闻文本文档6608篇,简称m2000数据集;
(2)Mainichi Daily News 2001的新闻文本文档5547篇,简称m2001数据集;
(3)Korea Times 2001的新闻文本文档14069篇,简称k2001数据集。
NTCIR-5CLIR标准数据集语料有文档测试集、50个查询主题集及其对应的结果集。结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准,查询主题类型有Title类型和Desc类型,所述Title类型以名词和名词性短语简要描述查询主题,所述Desc类型以句子形式简要描述查询主题。
实验方法:
构建一个关联规则挖掘平台,采用本发明挖掘方法和上述对比挖掘方法对上述3个数据集分别挖掘关联规则模式,然后,以印尼语为查询语言,以英语为所检索的文档语言,构造一个印尼-英跨语言文本信息检索平台,通过该平台验证本发明挖掘方法和对比挖掘方法所分别获得的关联规则模式对印尼-英跨语言文本信息检索性能的影响。具体的验证方法是:首先机器翻译工具将印尼语查询跨语言检索英文文档,提取前列初检英文文档50篇进行相关性判断构建跨语言初检相关文档集,然后,分别采用本发明挖掘方法和对比挖掘方法对跨语言初检相关文档集进行关联规则模式挖掘,提取关联规则后件作为扩展词,扩展词和原查询组合为新查询再次检索英文文档,比较两种方法的跨语言检索性能。
采用P@5和平均R-查准率(R-Prec)作为本发明实验的跨语言检索评价指标。所述P@5是指对于测试查询返回的前5个结果的准确率。所述平均R-查准率是指对所有查询所对应的R-查准率的算术平均值,所述R-查准率是指当R个文档被检索后所计算的查准率。
实验结果:
实验结果如表1至表4所示,实验时挖掘到3_项集。具体实验参数是:
本发明挖掘方法的实验参数是:最小置信度阈值mc=0.1,最小支持度阈值ms分别为0.5,0.6,0.7,0.8,0.9。
对比挖掘方法1实验参数:最小兴趣度阈值mi为0.02,最小置信度阈值mc为0.5,最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4,。
对比挖掘方法2实验参数:最小兴趣度阈值mi为0.0001,最小置信度阈值mc为0.01,最小支持度阈值ms分别为0.006,0.007,0.008,0.009,0.01。
表1本发明挖掘方法与对比挖掘方法的检索性能P@5比较(Title查询主题)
Figure BDA0001932165450000091
表2本发明挖掘方法与对比挖掘方法的检索性能R-Prec比较(Title查询主题)
Figure BDA0001932165450000092
表3本发明挖掘方法与对比方法的检索性能P@5比较(Desc查询主题)
Figure BDA0001932165450000093
表4本发明挖掘方法与对比方法的检索性能R-Prec比较(Desc查询主题)
Figure BDA0001932165450000094
表1至表4的实验结果表明,本发明挖掘方法的跨语言检索结果的P@5和R-Prec值均比2个对比方法的高,说明本发明挖掘方法是有效的,在信息检索领域有很高的应用价值和推广前景。

Claims (2)

1.基于权值比较和卡方分析的文本词间关联规则挖掘方法,其特征在于,包括下列步骤:
步骤1:所述文本语种为英文,首先进行英文文本文档预处理,所述预处理为消除英文文本文档的停用词、提取英文文本文档词干特征词并计算特征词权值,构建文本文档索引库和特征词库;
步骤2:挖掘文本特征词加权1_频繁项集L1,具体步骤如下:
(2-1)从特征词库中提取特征词作为1_候选项集C1
(2-2)扫描文本文档索引库统计C1的项集权值w[C1]和总文档数n;
(2-3)按以下式(2)计算最小权值支持阈值MWS:
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值;n为文本文档索引库总文档数;
(2-4)如果w[C1]≥MWS,则C1就是文本特征词加权1_频繁项集L1,添加到频繁项集集合FIS;
步骤3:挖掘文本特征词有效加权k_频繁项集Lk,所述k≥2,具体步骤如下:
(3-1)采用Aproiri连接方法将文本特征词有效加权(k-1)_频繁项集Lk-1自连接得到多个文本特征词k_候选项集Ck=(i1,i2,…,ik),所述k≥2;i1,i2,…,ik分别为Ck的项目;
(3-2)扫描文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(3-3)如果所述项目im对应的1_项集(im)是非频繁的或者wm<MWS,则剪枝对应的Ck
(3-4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果Ck的项集权值w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词有效加权k_频繁项集Lk,添加到频繁项集集合FIS;
所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
Figure FDA0001932165440000011
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别对应表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(3-5)k加1后转入步骤(3-1)继续循环,直到文本特征词有效加权k_频繁项集Lk为空集,文本特征词有效加权频繁项集挖掘结束,转入如下步骤4;
步骤4:采用卡方分析-置信度评价框架挖掘频繁项集集合FIS中每一个k_频繁项集Lk的加权关联规则模式,所述k≥2,具体方法如下:
从频繁项集集合FIS中取出任意一个k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有加权关联规则模式:
(4-1)构建Lk的所有真子集项集集合;
(4-2)从真子集项集集合中任意取出两个真子集项集T1和T2,且
Figure FDA0001932165440000024
T1∪T2=Lk
Figure FDA0001932165440000025
计算项集(T1,T2)的卡方值Chis(T1,T2),计算公式如式(4)所示:
Figure FDA0001932165440000021
式(4)中,w[T1]为项集T1在文本文档索引库中的项集权值,k1为项集T1的长度,w[T2]为项集T2在文本文档索引库中的项集权值,k2为项集T2的长度,n为文本文档索引库总文档数,w[(T1,T2)]为项集(T1,T2)在文本文档索引库中的项集权值,kI为项集(T1,T2)的项目个数;
(4-3)如果Chis(T1,T2)>0,则分别按式(5)和式(6)计算加权关联规则置信度WConf(T1→T2)和WConf(T2→T1);
Figure FDA0001932165440000022
Figure FDA0001932165440000023
式(5)和(6)中,w[T1],k1,w[T2],k2,w[(T1,T2)],kI定义同式(4);
若WConf(T1→T2)≥最小置信度阈值mc,则关联规则T1→T2是强加权关联规则模式,添加到加权关联规则模式集合WAR;
若WConf(T2→T1)≥mc,则T2→T1是强加权关联规则模式,添加到加权关联规则模式集合WAR;
(4-4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的加权关联规则模式挖掘结束,这时从频 繁项集集合FIS中重新取出另一个Lk,并转入步骤(4-1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(4-2)再顺序执行各个步骤;若频繁项集集合FIS中的每个Lk当且仅当都被取出一次,则结束整个文本词间关联规则挖掘。
2.如权利要求1所述的基于权值比较和卡方分析的文本词间关联规则挖掘方法,其特征在于:所述步骤1计算特征词权值,计算公式如式(1)所示:
wij=tfj,i×(lgn-lg(dfj)) (1)
式(1)中,wij表示文本文档di中特征词tj的权值,tfj,i表示文本特征词tj在文档di中的出现次数,dfj表示含有文本特征词tj的文档数量,n表示文本文档索引库中总的文档数量。
CN201811646484.1A 2018-12-30 2018-12-30 基于权值比较和卡方分析的文本词间关联规则挖掘方法 Active CN109684462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811646484.1A CN109684462B (zh) 2018-12-30 2018-12-30 基于权值比较和卡方分析的文本词间关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811646484.1A CN109684462B (zh) 2018-12-30 2018-12-30 基于权值比较和卡方分析的文本词间关联规则挖掘方法

Publications (2)

Publication Number Publication Date
CN109684462A CN109684462A (zh) 2019-04-26
CN109684462B true CN109684462B (zh) 2022-12-06

Family

ID=66191503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811646484.1A Active CN109684462B (zh) 2018-12-30 2018-12-30 基于权值比较和卡方分析的文本词间关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN109684462B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法
CN107766323A (zh) * 2017-09-06 2018-03-06 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468070B2 (en) * 2017-06-16 2022-10-11 Innoplexus Ag Method and system for performing context-based search

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法
CN107766323A (zh) * 2017-09-06 2018-03-06 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Enhanced Closed Sequential Pattern Discovery for Text Mining;Prabha Selvaraj;《IAETSD JOURNAL FOR ADVANCED RESEARCH IN APPLIED SCIENCES》;20180228;428-438页 *
有效的矩阵加权正负关联规则挖掘算法———MWARM-SRCCCI;周秀梅 等;《计算机应用》;20141010;2820-2826页 *

Also Published As

Publication number Publication date
CN109684462A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
US7113943B2 (en) Method for document comparison and selection
CN108763196A (zh) 一种基于pmi的关键字提取方法
CN102662936B (zh) 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN103064969A (zh) 自动建立关键词索引表的方法
CN109299278B (zh) 基于置信度-相关系数框架挖掘规则前件的文本检索方法
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN108363694B (zh) 关键词提取方法及装置
CN109739953B (zh) 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN109726263B (zh) 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法
CN109684463B (zh) 基于权值比较与挖掘的跨语言译后前件扩展方法
Kashefi et al. Optimizing Document Similarity Detection in Persian Information Retrieval.
CN109299292B (zh) 基于矩阵加权关联规则前后件混合扩展的文本检索方法
CN111897922A (zh) 基于模式挖掘与词向量相似度计算的中文查询扩展方法
CN109684462B (zh) 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN109684465B (zh) 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
CN109684464B (zh) 通过权值比较实现规则后件挖掘的跨语言查询扩展方法
CN111897927B (zh) 融合Copulas理论和关联规则挖掘的中文查询扩展方法
CN108416442B (zh) 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法
CN111897919A (zh) 基于Copulas函数和伪相关反馈规则扩展的文本检索方法
CN113609247A (zh) 一种基于改进Simhash算法的大数据文本去重技术
CN107562904B (zh) 融合项权值与频度的英文词间加权正负关联模式挖掘方法
Wang et al. Query construction based on concept importance for effective patent retrieval
CN108170778B (zh) 基于完全加权规则后件的中英跨语言查询译后扩展方法
Li et al. Keyphrase extraction and grouping based on association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant