CN109684462B

CN109684462B - 基于权值比较和卡方分析的文本词间关联规则挖掘方法

Info

Publication number: CN109684462B
Application number: CN201811646484.1A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2022-12-06
Anticipated expiration: 2038-12-30
Also published as: CN109684462A

Abstract

本发明公开了基于权值比较和卡方分析的文本词间关联规则挖掘方法，首先预处理待挖掘的英文文本文档集，分别构建文本文档索引库和文本特征词库，再通过权值比较在文本文档索引库中挖掘文本特征词加权频繁项集，采用项集关联度以及候选项集的项目权值最大者或者最大项目权值对候选项集进行剪枝得到文本特征词有效加权频繁项集，构建有效加权频繁项集库，采用卡方分析‑置信度评价框架从有效加权频繁项集库中挖掘文本特征词加权关联规则模式，构建加权关联规则模式库。本发明能从海量的英文文本信息中挖掘出更实际的和隐含的文本特征词间关联的加权关联规则模式，该模式在信息检索、推荐系统等自然语言处理领域有着较高的应用价值和广阔的推广前景。

Description

基于权值比较和卡方分析的文本词间关联规则挖掘方法

技术领域

本发明属于文本挖掘领域，具体是基于权值比较和卡方分析的文本词间关联规则挖掘方法。

背景技术

文本特征词关联规则模式挖掘主要是用来发现和分析文本特征词之间的各种关联，以揭示特征词间内在的联系，在自然语言处理领域得到了广泛的应用，例如，文本特征词关联规则模式可以用于信息检索领域实现查询扩展，从而提高信息检索性能，也可以用于推荐系统，提高推荐系统的准确性，等等。现有文本特征词关联规则挖掘方法主要有2大类：一类是无加权关联规则挖掘方法，另一类是加权关联规则挖掘方法。

无加权关联规则挖掘方法(R.Agrawal,T.Imielinski,A.Swami.Miningassociation rules between sets of items in large database[C].Proceeding of1993 ACM SIGMOD International Conference on Management of Data,WashingtonD.C.,1993,(5):207-216.)的基本思想是将项集在事务文档中发生的概率作为支持度，只考虑项集出现的频度，不考虑项集权值，导致冗余关联规则增多，挖掘效率不高。

加权关联规则挖掘方法克服了无加权关联规则挖掘方法的缺陷，在挖掘关联规则时考虑了项权值。加权关联规则挖掘方法分为基于项权值固定的加权关联规则挖掘方法和基于项权值变化的加权关联规则挖掘方法。

基于项权值固定的加权关联规则挖掘方法(C.H.Cai,A.da,W.C.Fu,et al.MiningAssociation Rules with Weighted Items[C].Proceedings of IEEE Internationaldatabase Engineering and Application Symposiums,1998:68-77.)考虑了项目权值，但是，项目权值是固定的，并且将项目权值总和与无加权支持度的乘积作为项集支持度。

基于项权值变化的加权关联规则挖掘方法在挖掘项集和关联规则时考虑项权值，特别是考虑项集权值随事务文档不同而发生变化的情况，项集支持度有2种计算方法，一种是将特征词项目平均权值与无加权支持度的乘积作为完全加权项集支持度(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.；黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)，另一种是以项集在事务数据库中项集权值总和占事务数据库中所有项目权值总和的百分比作为项集支持度(周秀梅,黄名选.基于项权值变化的矩阵加权关联规则挖掘[J].计算机应用研究,2015,32(10):2918-2923.)。

当前，关联规则模式经典的评价方式普遍采用支持度-置信度评价框架，这个评价框架存在的缺陷是：冗余项集和关联规则以及虚假关联规则模式比较多。鉴于此，有必要研究更实际、更合理的评价方法。

发明内容

本发明所要解决的问题是提出基于权值比较和卡方分析的文本词间关联规则挖掘方法，在海量的英文文本文档集中如何找到隐含的、事先不知道的英文文本特征词之间的各种关联，所挖掘出的文本特征词关联规则模式在自然语言处理领域有较高的应用价值，能应用于搜索引擎系统、数字图书馆以及信息检索系统，提高信息检索性能，或用于推荐系统，提高推荐系统的准确性。

本发明的技术方案如下：

基于权值比较和卡方分析的文本词间关联规则挖掘方法，包括下列步骤：

步骤1：所述文本语种为英文，首先进行英文文本文档常规预处理，具体步骤如下：

(1-1)消除英文文本文档的停用词，采用Porter方法(详见：http://tartarus.org/～martin/PorterStemmer)提取英文文本文档特征词。

(1-2)计算特征词权值，构建文本文档索引库和特征词库。

采用经典的tf-idf特征词权值计算方法来计算特征词权值，计算公式如式(1)所示。

w_ij＝tf_j,i×(lgn-lg(df_j)) (1)

其中，w_ij表示文本文档d_i中特征词t_j的权值，tf_j,i表示特征词t_j在文档d_i中的出现次数，df_j表示含有特征词t_j的文档数量，n表示文本文档索引库中总文档数。

步骤2：挖掘文本特征词加权1_频繁项集L₁，具体步骤如下：

(2-1)从特征词库中提取特征词作为1_候选项集C₁；

(2-2)扫描文本文档索引库统计C₁的项集权值w[C₁]和总文档数n；

(2-3)按以下式(2)计算最小权值支持阈值MWS：

MWS＝n×ms (2)

式(2)中，所述ms为最小支持度阈值；n为文本文档索引库总文档数；

(2-4)如果w[C₁]≥MWS，则C₁就是文本特征词加权1_频繁项集L₁，添加到频繁项集集合FIS；

步骤3：挖掘文本特征词有效加权k_频繁项集L_k，所述k≥2，具体步骤如下：

(3-1)采用Aproiri连接方法将文本特征词有效加权(k-1)_频繁项集L_k-1自连接得到多个文本特征词k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；i₁,i₂,…,i_k分别为C_k的项目；

(3-2)扫描文本文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到各C_k中最大的项目权值w_m对应的项目i_m，所述m∈(1,2,…,k)；

(3-3)如果所述项目i_m对应的1_项集(i_m)是非频繁的或者w_m<MWS，则剪枝对应的C_k；

(3-4)对于余下的各C_k，分别计算各C_k的项集关联度IRe(C_k)，如果C_k的项集权值w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词有效加权k_频繁项集L_k，添加到频繁项集集合FIS；

所述minIRe为最小项集关联度阈值；所述IRe(C_k)的计算公式如式(3)所示；

式(3)中，w_min[(i_q)]和w_max[(i_p)]的含义如下：对于C_k＝(i₁,i₂,…i_k)，k_候选项集C_k的各个项目i₁,i₂,…,i_k分别单独作为1_项集时对应为(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分别对应表示1_项集(i₁),(i₂),…,(i_k)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

(3-5)k加1后转入步骤(3-1)继续循环，直到文本特征词有效加权k_频繁项集L_k为空集，文本特征词有效加权频繁项集挖掘结束，转入如下步骤4；

步骤4：采用卡方分析-置信度评价框架挖掘频繁项集集合FIS中每一个k_频繁项集L_k的加权关联规则模式，所述k≥2，具体方法如下：

从频繁项集集合FIS中取出任意一个k_频繁项集L_k，按照下面步骤挖掘每个L_k的所有加权关联规则模式：

(4-1)构建L_k的所有真子集项集集合；

(4-2)从真子集项集集合中任意取出两个真子集项集T₁和T₂，且

T₁∪T₂＝L_k，

计算项集(T₁,T₂)的卡方值Chis(T₁,T₂)，计算公式如式(4)所示：

式(4)中，w[T₁]为项集T₁在文本文档索引库中的项集权值，k₁为项集T₁的长度，w[T₂]为项集T₂在文本文档索引库中的项集权值，k₂为项集T₂的长度，n为文本文档索引库总文档数，w[(T₁,T₂)]为项集(T₁,T₂)在文本文档索引库中的项集权值，k_I为项集(T₁,T₂)的项目个数；

(4-3)如果Chis(T₁,T₂)>0，则分别按式(5)和式(6)计算加权关联规则置信度WConf(T₁→T₂)和WConf(T₂→T₁)；

式(5)和(6)中，w[T₁]，k₁，w[T₂]，k₂，w[(T₁,T₂)]，k_I定义同式(4)；

若WConf(T₁→T₂)≥最小置信度阈值mc，则关联规则T₁→T₂是强加权关联规则模式，添加到加权关联规则模式集合WAR；

若WConf(T₂→T₁)≥mc，则T₂→T₁是强加权关联规则模式，添加到加权关联规则模式集合WAR。

(4-4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(4-1)进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(4-2)再顺序执行各个步骤，若频繁项集集合FIS中的每个L_k当且仅当都被取出一次，则结束整个文本词间关联规则挖掘。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出了基于权值比较和卡方分析的文本词间关联规则挖掘方法，克服了现有加权关联规则挖掘技术的缺陷，通过权值比较在文本文档索引库中挖掘文本特征词加权频繁项集，采用项集关联度以及候选项集的项目权值最大者或者最大项目权值对候选项集进行剪枝得到文本特征词有效加权频繁项集，采用卡方分析-置信度评价框架从有效加权频繁项集中挖掘文本特征词加权关联规则模式。本发明挖掘出的文本特征词关联规则模式更能体现文本特征词间的各种关联关系，这些模式应用于信息检索领域能够提高检索性能，应用于推荐系统能提高系统的准确性，因而，本发明在信息检索、推荐系统等自然语言处理领域有着较高的应用价值和广阔的推广前景。

(2)将本发明方法应用于信息检索的实验，实验结果表明，本发明挖掘方法的跨语言检索结果的P@5和R-Prec值均比现有技术的方法高，说明本发明挖掘方法是有效的，在信息检索领域有很高的应用价值和推广前景。

附图说明

图1为本发明基于权值比较和卡方分析的文本词间关联规则挖掘方法流程示意图。

具体实施方式

以下结合附图说明本发明方法的具体实施方式，但不构成对本发明权利要求保护范围的限制。

假设DS＝{d₁,d₂,…,d_n}是英文文本文档集(Document Set，DS)，其中，d_i(1≤i≤n)是文档集DS中的第i篇文档，d_i＝{t₁,t₂,…,t_m,…,t_p}，t_m(m＝1,2,…,p)为文档特征词项目，简称特征项，一般是由字、词或词组构成，d_i中对应的特征项权值集合W_i＝{w_i1,w_i2,…,w_im,…,w_ip}，w_im为第i篇文档d_i中第m个特征项t_m对应的权值，T＝{t₁,t₂,…,t_n}表示DS中全体特征项集合，T的各个子集均称为特征项项集，简称项集。

假设在文本文档索引库中统计k_候选项集C_k＝(i₁,i₂,…,i_k)的项集权值w[C_k]，得到C_k各个项目i₁,i₂,…,i_k对应的权值分别为w₁,w₂,…,w_k，那么，所述w₁,w₂,…,w_k称为项目权值，而C_k的项集权值w[C_k]＝w₁+w₂+…+w_k。

实施例1：

本实施例处理的文本语种为英文，基于权值比较和卡方分析的文本词间关联规则挖掘方法，如图1所示，包括下列步骤：

步骤1：英文文本文档常规预处理，具体步骤如下：

(1-1)消除英文文档的停用词，采用Porter方法(详见：http://tartarus.org/～martin/PorterStemmer)提取英文文档特征词。

(1-2)计算特征词权值，构建文本文档索引库和特征词库。

采用经典的tf-idf特征词权值计算方法(见文献：Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing&Management,1988,24(5):513-523.)来计算特征词权值，具体计算公式如式(1)所示。

w_ij＝tf_j,i×(lgn-lg(df_j)) (1)

其中，w_ij表示英文文档d_i中特征词t_j的权值，tf_j,i表示英文特征词t_j在文档d_i中的出现次数，df_j表示含有英文特征词t_j的文档数量，n表示文本文档索引库中总文档数。

步骤2：挖掘文本特征词加权1_频繁项集L₁，具体步骤如下：

(2-1)从特征词库中提取特征词作为1_候选项集C₁；

(2-2)扫描文本文档索引库统计C₁的权值w[C₁]和总文档数n；

(2-3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。

MWS＝n×ms (2)

式(2)中，所述ms为最小支持度阈值，n为文本文档索引库总文档数。

(2-4)如果w[C₁]≥MWS，则C₁就是特征词加权1_频繁项集L₁，添加到频繁项集集合FIS(Frequent ItemSet)。

步骤3：挖掘文本特征词有效加权k_频繁项集L_k，所述k≥2。具体步骤如下：

(3-1)采用Aproiri连接方法将文本特征词有效加权频繁(k-1)_项集L_k-1自连接得到多个文本特征词k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；i₁,i₂,…,i_k为C_k的项目；

所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993 ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)

(3-4)对于余下的各C_k，分别计算各C_k的项集关联度IRe(C_k)，如果C_k的项集权值w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词有效加权k_频繁项集L_k，添加到频繁项集集合FIS；否则剪枝所述C_k；

步骤4：采用卡方分析-置信度评价框架挖掘频繁项集集合FIS中每一个k_频繁项集L_k的加权关联规则模式，所述k≥2。具体步骤如下：

从频繁项集集合FIS中取出任意一个k_频繁项集L_k，按照下面步骤挖掘每个L_k的所有加权关联规则模式。

(4-1)构建L_k的所有真子集项集集合；

T₁∪T₂＝L_k，

计算项集(T₁,T₂)的卡方(Chi-Square,Chis)值。所述卡方值Chis(T₁,T₂)计算公式如式(4)所示。

(4-3)如果Chis(T₁,T₂)>0，则计算加权关联规则置信度(Weighted Confidence,WConf)WConf(T₁→T₂)和WConf(T₂→T₁)。

若WConf(T₁→T₂)≥最小置信度阈值mc，则关联规则T₁→T₂是强加权关联规则模式，添加到加权关联规则模式集合WAR(Weighted Association Rule)；

若WConf(T₂→T₁)≥mc，则T₂→T₁是强加权关联规则模式，添加到WAR。

WConf(T₁→T₂)和WConf(T₂→T₁)的计算公式如式(5)和(6)所示。

所述的剪枝采用如下方法：

(1)对于k_候选项集C_k＝(i₁,i₂,…,i_k)，如果所述C_k的项集权值w[C_k]<MWS×k，MWS为最小权值支持阈值，则所述C_k是非频繁的，剪除所述C_k；如果所述C_k的项集关联度IRe(C_k)<minIRe，则所述C_k是无效项集，剪除所述C_k；综上所述，本发明只挖掘w[C_k]≥MWS×k并且IRe(C_k)≥minIRe的有效频繁项集，所述minIRe为最小项集关联度阈值。

(2)如果k_候选项集C_k＝(i₁,i₂,…,i_k)中最大的项目权值小于最小权值支持阈值MWS，那么C_k是非频繁的，则剪除所述C_k；

(3)假设k_候选项集C_k＝(i₁,i₂,…,i_k)中最大项目权值对应的项目为i_m，i_m单独作为1_项集时为(i_m)，如果所述1_项集(i_m)是非频繁的，则剪除所述C_k。

下面通过实验对本发明的有益效果做进一步说明。

为了验证本发明的有益效果，特选择已有的2种加权关联规则挖掘方法为对比挖掘方法，具体是：

对比挖掘方法1是基于文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[J].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘方法，

对比挖掘方法2是基于文献(黄名选.基于加权关联模式挖掘的越英跨语言查询扩展.情报学报，2017,36(3):307-318.)的加权关联规则挖掘方法。

实验数据：

实验数据是国际上通用的NTCIR-5CLIR标准数据集语料中3个英文文档集，具体是：

(1)Mainichi Daily News 2000的新闻文本文档6608篇，简称m2000数据集；

(2)Mainichi Daily News 2001的新闻文本文档5547篇，简称m2001数据集；

(3)Korea Times 2001的新闻文本文档14069篇，简称k2001数据集。

NTCIR-5CLIR标准数据集语料有文档测试集、50个查询主题集及其对应的结果集。结果集有2种评价标准，即高度相关，相关的Rigid标准和高度相关、相关和部分相关的Relax标准，查询主题类型有Title类型和Desc类型，所述Title类型以名词和名词性短语简要描述查询主题，所述Desc类型以句子形式简要描述查询主题。

实验方法：

构建一个关联规则挖掘平台，采用本发明挖掘方法和上述对比挖掘方法对上述3个数据集分别挖掘关联规则模式，然后，以印尼语为查询语言，以英语为所检索的文档语言，构造一个印尼-英跨语言文本信息检索平台，通过该平台验证本发明挖掘方法和对比挖掘方法所分别获得的关联规则模式对印尼-英跨语言文本信息检索性能的影响。具体的验证方法是：首先机器翻译工具将印尼语查询跨语言检索英文文档，提取前列初检英文文档50篇进行相关性判断构建跨语言初检相关文档集，然后，分别采用本发明挖掘方法和对比挖掘方法对跨语言初检相关文档集进行关联规则模式挖掘，提取关联规则后件作为扩展词，扩展词和原查询组合为新查询再次检索英文文档，比较两种方法的跨语言检索性能。

采用P@5和平均R-查准率(R-Prec)作为本发明实验的跨语言检索评价指标。所述P@5是指对于测试查询返回的前5个结果的准确率。所述平均R-查准率是指对所有查询所对应的R-查准率的算术平均值，所述R-查准率是指当R个文档被检索后所计算的查准率。

实验结果：

实验结果如表1至表4所示，实验时挖掘到3_项集。具体实验参数是：

本发明挖掘方法的实验参数是：最小置信度阈值mc＝0.1，最小支持度阈值ms分别为0.5,0.6,0.7,0.8,0.9。

对比挖掘方法1实验参数：最小兴趣度阈值mi为0.02，最小置信度阈值mc为0.5，最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4，。

对比挖掘方法2实验参数：最小兴趣度阈值mi为0.0001，最小置信度阈值mc为0.01，最小支持度阈值ms分别为0.006,0.007,0.008,0.009,0.01。

表1本发明挖掘方法与对比挖掘方法的检索性能P@5比较(Title查询主题)

表2本发明挖掘方法与对比挖掘方法的检索性能R-Prec比较(Title查询主题)

表3本发明挖掘方法与对比方法的检索性能P@5比较(Desc查询主题)

表4本发明挖掘方法与对比方法的检索性能R-Prec比较(Desc查询主题)

表1至表4的实验结果表明，本发明挖掘方法的跨语言检索结果的P@5和R-Prec值均比2个对比方法的高，说明本发明挖掘方法是有效的，在信息检索领域有很高的应用价值和推广前景。

Claims

1.基于权值比较和卡方分析的文本词间关联规则挖掘方法，其特征在于，包括下列步骤：

步骤1：所述文本语种为英文，首先进行英文文本文档预处理，所述预处理为消除英文文本文档的停用词、提取英文文本文档词干特征词并计算特征词权值，构建文本文档索引库和特征词库；

步骤2：挖掘文本特征词加权1_频繁项集L₁，具体步骤如下：

(2-1)从特征词库中提取特征词作为1_候选项集C₁；

(2-3)按以下式(2)计算最小权值支持阈值MWS：

MWS＝n×ms (2)

(4-1)构建L_k的所有真子集项集集合；

T₁∪T₂＝L_k，

若WConf(T₂→T₁)≥mc，则T₂→T₁是强加权关联规则模式，添加到加权关联规则模式集合WAR；

(4-4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的加权关联规则模式挖掘结束，这时从频繁项集集合FIS中重新取出另一个L_k，并转入步骤(4-1)进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(4-2)再顺序执行各个步骤；若频繁项集集合FIS中的每个L_k当且仅当都被取出一次，则结束整个文本词间关联规则挖掘。

2.如权利要求1所述的基于权值比较和卡方分析的文本词间关联规则挖掘方法，其特征在于：所述步骤1计算特征词权值，计算公式如式(1)所示：

w_ij＝tf_j,i×(lgn-lg(df_j)) (1)

式(1)中，w_ij表示文本文档d_i中特征词t_j的权值，tf_j,i表示文本特征词t_j在文档d_i中的出现次数，df_j表示含有文本特征词t_j的文档数量，n表示文本文档索引库中总的文档数量。