CN108416442B

CN108416442B - 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法

Info

Publication number: CN108416442B
Application number: CN201810216894.6A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2017-12-26
Filing date: 2018-03-16
Publication date: 2021-10-29
Anticipated expiration: 2038-03-16
Also published as: CN108416442A

Abstract

本发明公开了基于项频度和权值的中文词间矩阵加权关联规则挖掘方法，首先将待挖掘的中文文档进行去除中文停用词、提取特征词并计算特征词权值的预处理，分别构建中文特征词库和中文文档索引库；采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集，得到中文特征词矩阵加权频繁项集集合；采用置信度‑兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式。本发明方法充分考虑了特征词在文档中出现频度和权值，能挖掘出更实际、更合理的和更能体现特征词间的各种关联关系的中文词间矩阵加权关联规则模式，这些模式应用于信息检索查询扩展领域能提高信息检索性能。

Description

基于项频度和权值的中文词间矩阵加权关联规则挖掘方法

技术领域

本发明属于中文文本挖掘领域，具体是一种基于项频度和权值的中文词间矩阵加权关联规则挖掘方法。

背景技术

在关联模式挖掘研究中，其核心问题是关联模式的支持度计算问题。当前的研究中，主要有如下三类关联模式支持度计算方法：第一类是无加权关联模式支持度计算方法(见文献R.Agrawal,T.Imielinski,A.Swami.Mining association rules between setsof items in large database[C].In Proceeding of 1993ACM SIGMOD InternationalConference on Management of Data,Washington D.C.,1993,(5):207-216.)，这是早期经典的支持度计算方法，该方法将关联模式在事务中发生的概率作为该关联模式的支持度。该方法只考虑关联模式出现的频度，没有考虑关联模式在事务数据库中的重要性(即关联模式的权值)。第二类是项权值固定的关联模式支持度计算方法，该方法将项集权值总和与无加权关联模式支持度的乘积作为加权项集支持度(C.H.Cai,A.da,W.C.Fu,etal.Mining Association Rules with Weighted Items[C]//Proceedings of IEEEInternational database Engineering and Application Symposiums,1998:68-77.)，该方法克服了第一类方法的缺陷，考虑了项目权值，但是项目权值在挖掘过程中是固定的，解决不了项目权值随着事务记录不同而变化的情况。第三类是基于项权值变化的完全加权(也称为矩阵加权)关联模式支持度计算方法，该方法克服了第二类方法的缺陷，充分考虑了项权值随事务不同而变化的情况，目前该类支持度有2种计算方法：①将项目平均权值与无加权关联模式支持度的乘积作为加权项集支持度(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.；黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)，这是典型的完全加权(矩阵加权)项集支持度计算方法；②运用几何概型理论，将事务数据库中项集权值总和占所有项目权值总和的百分比作为完全加权项集支持度(周秀梅,黄名选.基于项权值变化的矩阵加权关联规则挖掘[J].计算机应用研究,2015,32(10):2918-2923.)，这是该类支持度另一种计算方法，从文献(周秀梅,黄名选.基于项权值变化的矩阵加权关联规则挖掘[J].计算机应用研究,2015,32(10):2918-2923.)的实验结果可知，该方法的关联模式挖掘效果优于方法①的，然而，该方法只考虑项集权值对支持度的贡献，忽略了项集频度的影响。针对这些问题，本发明首先提出融合项频度和权值的矩阵加权关联模式支持度计算方法，然后提出一种基于项频度和权值的中文词间矩阵加权关联规则挖掘方法。该发明能发现中文特征词之间各种隐含的、不为人知的关联，在单语言信息检索、跨语言信息检索查询扩展等领域有很高的应用价值。

发明内容

本发明所要解决的问题是提供基于项频度和权值的中文词间矩阵加权关联规则挖掘方法，能挖掘出更实际、更合理的和更能体现中文特征词间的各种关联关系的中文词间矩阵加权关联规则模式，这些关联模式应用于信息检索领域能提高检索性能。

本发明采用如下技术方案解决上述技术问题：

基于项频度和权值的中文词间矩阵加权关联则挖掘方法，首先将待挖掘的中文文档进行去除中文停用词、提取特征词并计算特征词权值的预处理，分别构建中文特征词库和中文文档索引库；采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集，得到中文特征词矩阵加权频繁项集集合；采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式。

所述特征词权值的计算方法为按公式(1)进行计算：

式(1)中，w_ij表示中文文档d_i中中文特征词t_j的权值，tf_j,i表示中文特征词t_j在中文文档d_i中的出现次数，df_j表示含有中文特征词t_j的中文文档数量，N表示中文文档索引库中总的文档数量。

所述采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集具体步骤为：

(1)挖掘中文特征词矩阵加权频繁1_项集L₁：

(1.1)从所述中文特征词库中提取中文特征词作为候选1_项集C₁；

(1.2)扫描中文文档索引库累加中文文档索引库中所有特征词权值的总和W，统计中文特征词候选1_项集C₁在中文文档索引库的权值

及其频度

按公式(2)计算C₁的矩阵加权支持度mSup(C₁)；

公式(2)中，n为中文文档索引库中文档总篇数；

(1.3)如果步骤(1.2)所得候选1_项集C₁的矩阵加权支持度mSup(C₁)不小于最小支持度阈值ms，则候选1_项集C₁就是中文特征词矩阵加权频繁1_项集L₁，添加到中文特征词矩阵加权频繁项集集合FIS；

(2)挖掘中文特征词矩阵加权频繁k_项集L_k，k≥2，具体步骤：

(2.1)采用Apriori连接方法将中文特征词矩阵加权频繁(k-1)_项集L_k-1进行自连接得到中文特征词矩阵加权候选k_项集C_k，k≥2；

(2.2)扫描中文文档索引库累加中文特征词候选k_项集C_k在中文文档索引库中的权值

统计C_k在中文文档索引库中的频度

按公式(3)计算中文特征词矩阵加权候选k_项集C_k的矩阵加权支持度mSup(C_k)；

公式(3)中，n和W同步骤(1.2)，

为中文特征词矩阵加权候选k_项集C_k的项集长度；

(2.3)如果中文特征词矩阵加权候选k_项集C_k的矩阵加权支持度mSup(C_k)大于或者等于最小支持度阈值ms，则为中文特征词矩阵加权频繁k_项集L_k，添加到中文特征词矩阵加权频繁项集集合FIS；

(2.4)若中文特征词矩阵加权频繁k_项集L_k为空集，则矩阵加权频繁项集挖掘结束，否则，k加1后转入步骤(2.1)继续循环。

所述采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式的具体步骤如下：

对于所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集L_k，k≥2：

(1)找出频繁k_项集L_k的所有真子集项集，得到L_k的真子集项集集合；

(2)任意取出L_k的真子集项集集合中两个真子集项集TS₁和TS₂，且

TS₁∪TS₂＝L_k，

(3)按公式(4)计算中文特征词矩阵加权兴趣度MInt(TS₁,TS₂)，如果MInt(TS₁,TS₂)≥最小兴趣度阈值mi，则：

按公式(5)计算中文特征词矩阵加权置信度MConf(TS₁→TS₂)，若MConf(TS₁→TS₂)≥最小置信度阈值mc，则关联规则TS₁→TS₂是强中文特征词矩阵加权关联规则，并加入到中文特征词矩阵加权关联规则集合mAR；

按公式(6)计算中文特征词矩阵加权置信度MConf(TS₂→TS₁)，若MConf(TS₂→TS₁)≥最小置信度阈值mc，则关联规则TS₂→TS₁是强中文特征词矩阵加权关联规则，并加入到中文特征词矩阵加权关联规则集合mAR；

式(4)-式(6)中，k₁、k₂和k₁₂分别为项集TS₁、TS₂及项集(TS₁,TS₂)的项集长度，n₁、n₂和n₁₂分别为项集TS₁、TS₂以及项集(TS₁,TS₂)在中文文档索引库中出现的频度，w₁、w₂和w₁₂分别为项集TS₁、TS₂以及项集(TS₁,TS₂)在中文文档索引库中的所累加得到的项集权值总和；

(4)返回步骤(2)再顺序进行，直到L_k的真子集集合中每个真子集项集当且仅当被取出一次，然后从所述中文特征词矩阵加权频繁项集集合FIS中重新取出新的频繁k_项集L_k，转入步骤(1)进行新一轮中文特征词矩阵加权关联规则挖掘，直到所述中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集L_k都被取出挖掘为止。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出了一种基于项频度和权值的中文词间矩阵加权关联规则挖掘方法，克服了现有矩阵加权关联规则挖掘技术的缺陷，充分考虑了特征词在文档中出现频度和权值，采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集，采用置信度-兴趣度评价框架从频繁项集库中挖掘中文特征词间矩阵加权关联规则模式，所挖掘出的矩阵加权关联规则模式更实际、更合理和更能体现中文特征词间的各种关联关系，应用于信息检索查询扩展领域能够提高其检索性能，具有很好的应用价值。

(2)本发明方法更能提高中英跨语言信息检索性能，与传统典型的矩阵加权关联规则挖掘方法相比，本发明方法的中英跨语言检索结果的P@5和R-Prec值均比该对比方法的检索结果的高，其中，P@5值比该对比方法的提高幅度范围为4.51％-106.35％，而R-Prec值比该对比方法方法的提高幅度为63.28％-146.76％，说明本发明方法是有效的，在信息检索领域有很高的应用价值和推广前景。

附图说明

图1为本发明基于项频度和权值的中文词间矩阵加权关联规则挖掘方法的流程框图。

具体实施方式

为了更好地说明本发明的技术方案，以下结合附图详细说明本发明的具体实施方式，但不构成对本发明权利要求保护范围的限制。

如图1所示，基于项频度和权值的中文词间矩阵加权关联规则挖掘方法，包括下列步骤：

1.将待挖掘的中文文档进行预处理，即去除中文停用词、提取特征词并计算其权值，构建中文特征词库和中文文档索引库。

特征词权值表明该中文特征词对于其所在中文文档的重要程度，采用经典的和流行的tf-idf特征词权值计算方法，其计算公式是：

式(1)中，w_ij表示中文文档d_i中中文特征词t_j的权值，tf_j,i表示中文特征词t_j在中文文档d_i中的出现次数，df_j表示含有中文特征词t_j的文档数量，N表示中文文档索引库中总的文档数量。

2.挖掘中文特征词矩阵加权频繁1_项集L₁。

(1)从中文特征词库中提取中文特征词作为候选1_项集C₁；

(2)扫描中文文档索引库累加中文文档索引库中所有特征词权值的总和W，统计中文特征词候选1_项集C₁在中文文档索引库的权值

及其频度

按式(2)计算C₁的矩阵加权支持度mSup(C₁)；

式(2)中，n为中文文档索引库中文档总篇数。

(3)如果mSup(C₁)不小于最小支持度阈值ms，则C₁就是中文特征词矩阵加权频繁1_项集L₁，添加到中文特征词矩阵加权频繁项集集合FIS(Frequent Itemset)。

3.采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁k_项集L_k，k≥2。具体步骤：

(1)采用Apriori连接方法将中文特征词矩阵加权频繁(k-1)_项集L_k-1进行自连接得到中文特征词矩阵加权候选k_项集C_k，k≥2；

Apriori连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)

(2)扫描中文文档索引库累加中文特征词候选k_项集C_k在中文文档索引库中的权值

统计C_k在中文文档索引库中的频度

计算中文特征词矩阵加权候选k_项集C_k的矩阵加权支持度mSup(C_k)；

式(3)中，n和W同式(2)中的定义，

为中文特征词矩阵加权候选k_项集C_k的项集长度，项集长度是指项集中的项目总个数，例如，项集(I1,I2)的项集长度是2。

(3)如果mSup(C_k)大于或者等于最小支持度阈值ms，则C_k就是中文特征词矩阵加权频繁k_项集L_k，添加到中文特征词矩阵加权频繁项集集合FIS(Frequent Itemset)。

(4)若中文特征词矩阵加权频繁k_项集L_k为空集，则矩阵加权频繁项集挖掘结束，转入步骤4，否则，k加1后转入步骤(1)继续循环。

4.对于中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集L_k，k≥2，采用置信度-兴趣度评价框架从频繁k_项集L_k中挖掘中文特征词间矩阵加权关联规则模式，操作步骤如下：

TS₁∪TS₂＝L_k，

按公式(5)计算中文特征词矩阵加权置信度MConf(TS₁→TS₂)，若MConf(TS₁→TS₂)≥最小置信度阈值mc，则关联规则TS₁→TS₂是强中文特征词矩阵加权关联规则，加入到中文特征词矩阵加权关联规则集合mAR；

按公式(6)计算中文特征词矩阵加权置信度MConf(TS₂→TS₁)，若MConf(TS₂→TS₁)≥最小置信度阈值mc，则关联规则TS₂→TS₁是强中文特征词矩阵加权关联规则，加入到中文特征词矩阵加权关联规则集合mAR；

式(4)-式(6)中，k₁、k₂和k₁₂分别为项集TS₁、TS₂以及项集(TS₁,TS₂)的项集长度，n₁、n₂和n₁₂分别为项集TS₁、TS₂以及项集(TS₁,TS₂)在中文文档索引库中出现的项频度，w₁、w₂和w₁₂分别为中文特征词矩阵加权项集TS₁、TS₂以及项集(TS₁,TS₂)在中文文档索引库中的所累加得到的项集权值总和。

(4)返回步骤(2)再顺序执行，直到L_k的真子集集合中每个真子集项集当且仅当被取出一次，然后从中文特征词矩阵加权频繁项集集合FIS中重新取出新的频繁k_项集L_k，转入步骤(1)进行新一轮中文特征词矩阵加权关联规则挖掘，直到中文特征词矩阵加权频繁项集集合FIS中每一个频繁k_项集L_k都已经被取出挖掘为止，这时中文特征词矩阵加权关联规则挖掘结束。

实验设计和结果：

为了验证本发明的有益效果，将传统典型的矩阵加权关联规则挖掘方法(见文献：黄名选,严小卫,张师超.基于矩阵加权关联规则的伪相关反馈查询扩展.软件学报,2009(7):1854-1865.)作为对比方法，和本发明所描述的基于项频度和权值的中文词间矩阵加权关联规则挖掘方法进行实验比较，主要验证本发明方法在跨语言信息检索领域中应用效果，从而验证本发明的有效性。

实验方法是：以汉语和英语为语言对象，构建一个中英跨语言信息检索平台。实验平台所用的机器翻译工具是微软必应(Bing)翻译接口Microsoft Translator API。通过该实验平台验证本发明方法和对比方法所获得的关联规则模式对中英跨语言检索性能的影响。

实验过程是：首先将中文查询经过机器翻译为英文查询检索英文文档，提取前列初检英文文档50篇进行相关性判断(为了简便，本文实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)，应用本发明基于项频度和权值的中文词间矩阵加权关联规则挖掘方法和对比挖掘方法对初检相关文档进行关联规则模式挖掘，以关联规则的后件作为查询扩展词，和原查询组合为新查询再次检索英文文档，比较两种方法的跨语言检索性能。

实验数据是：选择国际上通用的NTCIR-5CLIR语料中的中文查询集和英文文档集Mainichi Daily News 2000、2001年和Korea Times 2001年的新闻文本，共有26224篇英文文档，即Mainichi Daily News 2000的新闻文本6608篇(简称m00)，Mainichi Daily News2001的5547篇(简称m01)和Korea Times 2001年的14069篇(简称k01)。该语料有文档测试集、50个查询主题集及其对应的结果集。结果集有2种评价标准，即高度相关，相关的Rigid标准和高度相关、相关和部分相关的Relax标准。实验时查询主题类型选择Desc类型，Desc查询属于长查询，以句子形式简要描述查询主题。

采用P@5和R-查准率(R-Prec)作为本实验的跨语言检索评价指标。P@5是指检索结果在前5个位置处的查准率。R-查准率是指当R个文档被检索后所计算的查准率，其中R是指对应于某个查询在文档集合中相关文档数，不强调文档结果集中文档的排序情况。

实验结果如下：

运行本发明方法和对比方法的源程序，提交50个中文查询主题的DESC查询到中英跨语言信息检索平台进行实验，经过本发明方法和对比方法得到的查询扩展词和原查询组合为新查询再次检索英文文档，其中英跨语言检索结果的P@5和R-Prec值的平均值如表1所示，其中，实验参数如下：最小支持度阈值ms取值分别为0.3、0.35、0.4、0.45、0.5，最小置信度阈值mc为0.1，最小兴趣度阈值mi为0.1。

表1本发明方法与对比挖掘方法的中英跨语言检索性能比较

表1实验结果表明，本发明方法的中英跨语言检索结果的P@5和R-Prec值均比对比方法的检索结果的高，其中，P@5值比对比方法的提高幅度范围为4.51％-106.35％，而R-Prec值比对比方法的提高幅度为63.28％-146.76％，说明本发明方法是有效的，在信息检索领域有很高的应用价值和推广前景。

Claims

1.基于项频度和权值的中文词间矩阵加权关联规则挖掘方法，其特征在于，首先将待挖掘的中文文档进行去除中文停用词、提取特征词并计算特征词权值的预处理，分别构建中文特征词库和中文文档索引库；采用基于项频度和权值的矩阵加权支持度计算方法挖掘中文特征词矩阵加权频繁项集，得到中文特征词矩阵加权频繁项集集合；采用置信度-兴趣度评价框架从所述中文特征词矩阵加权频繁项集中挖掘中文特征词矩阵加权关联规则模式；

(1)挖掘中文特征词矩阵加权频繁1_项集L₁：