CN104317794B

CN104317794B - 基于动态项权值的中文特征词关联模式挖掘方法及其系统

Info

Publication number: CN104317794B
Application number: CN201410427503.7A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2017-10-24
Anticipated expiration: 2034-08-27
Also published as: CN104317794A

Abstract

一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及系统，利用中文文本预处理模块进行预处理，构建中文文本数据库和特征词项目库；利用中文特征词候选项集产生及其剪枝模块产生矩阵加权特征词候选项集，采用新的矩阵加权项集剪枝方法对候选项集进行剪枝，得到最终矩阵加权特征词候选项集；利用中文特征词频繁项集产生模块计算项集权值，由此得到特征词频繁项集；利用中文特征词关联模式产生及结果显示模块生成项集的全部真子集，通过其项集权值的简单计算和比较挖掘有效的关联规则模式，并显示给用户使用。本发明具有良好的剪枝性能，其候选项集和挖掘时间明显减少，挖掘效率极大提高，其模式运用于信息检索领域，可提高信息查询性能。

Description

基于动态项权值的中文特征词关联模式挖掘方法及其系统

技术领域

本发明属于数据挖掘领域，具体是一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统，适用于中文文本挖掘中特征词关联模式发现以及中文文本信息检索查询扩展、文本跨语言信息检索等领域，其挖掘出特征词关联模式可以作为高质量扩展词来源，应用于web搜索引擎，有助于提高其信息检索查询性能。

背景技术

当前基于项频度的挖掘方法和基于固定项权值的挖掘方法得到广泛的研究和应用，基于动态项权值的挖掘方法报道不多。基于动态项权值的挖掘方法在文本挖掘、信息检索等领域具有重要的应用价值和广阔的应用前景。

基于项频度的挖掘也称无加权关联规则挖掘，这是早期传统的关联规则挖掘方法，其主要特点是按平等一致的原则处理项集，将项集在事务中出现的概率和条件概率作为其项集的支持度和关联规则的置信度。其缺陷是：只重视项频度，忽略存在项目权值的情况，导致冗余的、无效的和无趣的关联模式增多。为了解决上述问题，基于项权值的加权模式挖掘方法得到广泛讨论和研究，其特点是引入项权值，以体现项目之间具有不同的重要性和项目在事务记录中具有不同的权值。根据项权值的来源不同，基于项权值的挖掘分为基于固定项权值的加权模式挖掘方法和基于动态项权值的矩阵加权模式挖掘方法两类。

基于固定项权值的加权模式挖掘是早期的基于项权值的挖掘方法，自1998年以来得到众多学者的关注和深入研究，其特点是：项目权值来源于用户或者领域专家设置，在事务挖掘过程中固定不变。其缺陷是：没有考虑项目权值随着事务记录变化而变化的情况，即忽略项权值变化的情况，不能解决具有项权值变化特征的数据挖掘问题。通常将具有项权值变化特征的数据称为矩阵加权数据，也称完全加权数据。中文文本信息数据是典型的矩阵加权数据，海量的中文文本信息中其特征词权值是依赖于各个文档，并随文档不同而变化。基于动态项权值的矩阵加权关联规则挖掘方法克服了基于固定项权值的加权模式挖掘的缺陷，用于挖掘具有项权值变化特征的数据中各种关联模式，主要特点是其项目权值依赖于事务而动态变化。典型的矩阵加权关联规则挖掘算法是2003年谭义红等提出的向量空间模型中完全加权关联规则的挖掘方法KWEstimate(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.)，这些方法在挖掘矩阵加权数据关联模式均获得良好的挖掘效果，并且已经成功地运用于信息检索查询扩展领域(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.,黄名选, 严小卫, 张师超. 完全加权关联规则挖掘及其在查询扩展中的应用[J].计算机应用研究, 2008,25(6):1724-1727.)，获得了显著的效果。现有的基于动态项权值的挖掘方法缺陷是：其所挖掘的关联模式数量仍然很庞大，无趣的、虚假的和无效的关联模式很多，给用户选择所需模式时增加难度。针对上述问题，本发明根据中文文本信息数据的特点，提一种一种基于动态权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统。该发明提出矩阵加权项集获取新方法及其项集剪枝方法，避免很多无效的、虚假的和无趣的关联模式产生，极大提高中文文本挖掘效率，所挖掘出的中文特征词关联规则模式更加接近实际情况，其中文特征词关联模式可为中文信息检索提供可靠的查询扩展词来源，因此，该发明方法及其挖掘系统在中文文本挖掘、信息检索等领域具有重要的应用价值和广阔的应用前景。

发明内容

本发明所要解决的技术问题在于，针对中文文本特征词关联模式挖掘进行深入探索，提出一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统，提高中文文本挖掘效率，应用于中文文本信息检索查询扩展，可以提高检索性能，应用于中文文本挖掘，能够发现更加实际合理的词间关联模式，提高文本聚类和分类的精度。

本发明解决上述技术问题所采取的技术方案是：一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法，包括如下步骤：

（1）中文文本预处理：将待处理的中文文本信息数据进行分词，去除停用词、特征词的提取及其权值计算，构建中文文本数据库和特征词项目库。

中文文本特征词权值计算公式是：w _ij =(0.5+0.5×tf _ij/max _j(tf _ij))×idf _i，

其中，w _ij为第i个特征词在第j篇文档的权值，idf _i为第i个特征词的逆向文档频度，其值idf _i=log(N/df _i)，N为文档集中文档总数，df _i为含有第i个特征词的文档数量，tf _ij为第i个特征词在第j篇文档的词频。

（2）挖掘矩阵加权中文特征词频繁项集，包括以下步骤2.1和步骤2.2：

2.1、挖掘矩阵加权特征词候选1_项集和频繁1_项集，具体步骤按照2.1.1和2.1.2进行：

2.1.1、从特征词项目库中提取特征词候选1_项集C ₁，在中文文本数据库累加全部项目权值总和W，累加矩阵加权特征词候选1_项集在文本信息数据库中的项集权值累加总和w(C ₁)，计算特征词候选1_项集C ₁的最小频繁权值阈值mw(C ₁)= W×ms，其w(C ₁)≥mw(C ₁)的矩阵加权中文特征词候选1_项集为频繁1_项集L ₁，将L ₁加入到特征词频繁项集集合MWFIS。所述ms为最小支持度阈值，mwsup(C ₁)的公式如下：

2.1.2、在中文文本数据库中累加矩阵加权特征词候选1-项集的出现频度n _c1，提取w _r(C ₁)，计算候选1-项集的矩阵加权项集权值期望MWIWB(C ₁,2)。MWIWB(C ₁,2)的计算公式为：

MWIWB(C ₁,2)=2×W×ms－n _c1 ×w _r(C ₁)。

w _r(C ₁)为在不属于C ₁的特征词项目集合中其他特征词项目的权值最大的项目权值。

2.2、挖掘矩阵加权特征词候选k_项集和频繁k_项集，所述的k≥2，按照步骤2.2.1~ 2.2.8进行操作：

2.2.1、计算矩阵加权候选(k-1)_项集C_k-1的矩阵加权项集权值期望MWIWB(C _k-1,k)，删除矩阵加权候选(k-1)_项集C_k-1的项集权值w(C _k-1)小于其项集权值期望的候选(k-1)_项集MWIWB(C _k-1, k)，即w(C _k-1)<MWIWB(C _k-1, k)，得到新的矩阵加权特征词候选(k-1)_项集C _k-1集合。

其中，w(C _k-1)为C _k-1在文本信息数据库中的权值累加总和，MWIWB(C _k-1, k) 为包含矩阵加权特征词候选(k-1)_项集C _k-1的k_项集权重期望，其计算公式如下：

MWIWB(C _k-1,k)=k×W×ms-n _(k-1) ×w _r(C _k-1)

n _(k-1)为特征词候选项集C _k-1在中文文本数据库中的项集频度，w _r(C _k-1)为在不属于C _k-1特征词项目集合的其他特征词项目中权值最大的项目权值。

2.2.2、将其项集频度不为0的矩阵加权特征词候选(k -1)_项集C _k-1进行Apriori连接产生矩阵加权特征词候选k_项集C _k；

2.2.3、如果矩阵加权特征词候选k_项集不是空集，转入2.2.4步，否则，退出2.2步转入（3）步；

2.2.4、对于矩阵加权特征词候选k_项集C _k，若存在一个其(k-1)_项子集的项集权值w _(k-1)小于其对应的项集权值期望MWIWB(C _k-1,k) (即w _(k-1)<MWIWB(C _k-1,k))，则将该候选k_项集删除，得到新的的矩阵加权特征词候选k_项集C _k集合。

2.2.5、在中文文本数据库中累加矩阵加权特征词候选k-项集C _k的出现频度n _ck及其项集权值w _k，提取w _r(C _k)，计算C _k的矩阵加权项集权值期望MWIWB(C _k,k+1)。MWIWB(C _k,k+1)的计算公式为：

MWIWB(C _k,k+1) =(k+1)×W×ms－n _ck ×w _r(C _k)

2.2.6、删除其项集频度为0的矩阵加权特征词候选k-项集C _k，得到新的矩阵加权特征词候选k_项集C _k集合。

2.2.7、计算矩阵加权特征词候选k_项集C _k的最小频繁权值阈值mw(C _k)，若矩阵加权候选项集的项集权值大于或者等于其最小频繁权值阈值mw(C _k)，即w(C _k)≥mw(C _k)，那么该特征词候选项集C _k是频繁的，加入到矩阵加权中文特征词频繁项集集合MWFIS。mw(C _k)的计算公式为：

mw(C _k)= W×k×ms

2.2.8、将k的值加1，循环2.2.1~2.2.7步骤，直到C _k为空，则退出2.2步转入如下（3）步。

（3）从矩阵加权中文特征词频繁项集集合MWFIS中挖掘矩阵加权特征词强关联规则模式，包括以下步骤：

3.1、对于矩阵加权特征词频繁项集集合MWFIS中每项特征词频繁项集L _i，求出L _i的全部真子集；

3.2、对于L _i的真子集集合中任意两个真子集I ₁和I ₂，并且I ₁ÇI ₂ =Æ，I ₁ÈI ₂ =L _i，若(w ₁₂×k ₁)/( w ₁×k ₁₂)的值大于或者等于最小置信度阈值mc，即((w ₁₂×k ₁)/( w ₁×k ₁₂))≥mc，则挖掘出矩阵加权特征词强关联规则I ₁→I ₂；若(w ₁₂×k ₂)/(k ₁₂×w ₂)的值大于或者等于最小置信度阈值，即((w ₁₂×k ₂)/(k ₁₂×w ₂))≥mc，则挖掘出矩阵加权特征词强关联规则I ₂→I ₁，所述的k ₁、k ₂和k ₁₂分别为项集I ₁、I ₂和(I ₁, I ₂)的项目个数，w ₁、w ₂和w ₁₂分别为I ₁、I ₂和(I ₁,I ₂)的项集权值。

3.3、继续3.2步骤，直到L _i的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤3.4；

3.4，继续3.1步骤，当MWFIS中每个L _i都被取出一次，而且仅能取出一次，则退出（3）步。

至此，矩阵加权特征词关联规则模式挖掘结束。

一种适用于上述基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的挖掘系统，其特征在于，包括以下4个模块：

中文文本预处理模块：用于待处理的中文文本数据进行分词、去除停用词和特征词提取及其权值计算等预处理，构建中文文本数据库和特征词项目库。

中文特征词候选项集产生及其剪枝模块：该模块从中文文本数据库首先挖掘中文特征词候选1-项集，然后，由候选(i-1)-项集(i≥2)生成候选i-项集，最后采用本发明的项集剪枝方法对中文特征词候选项集剪枝，得到最终的中文特征词候选项集集合。

中文特征词频繁项集产生模块：该模块求出中文特征词候选项集在中文文本数据库中的项集权值，与最小频繁权值阈值比较，从候选项集中挖掘矩阵加权中文特征词频繁项集模式。

中文特征词关联模式产生及结果显示模块：该模块生成中文特征词频繁项集的所有真子集及其项集权值，通过项集权重的简单计算，与最小置信度阈值比较，从中文特征词频繁项集中挖掘矩阵加权中文特征词强关联规则模式，将最终结果按用户的需要显示给用户，供用户选择和使用。

所述的中文文本预处理模块包括以下2个模块：

特征词分词及其权值计算模块：该模块负责对中文文本信息进行分词、去除中文停用词和提取特征词，根据中文文本特征词权值公式计算其权值。

中文文本数据库和特征词库构建模块：该模块主要根据数据库理论原理，构建基于向量空间模型的中文文本数据库和特征词项目库。

所述的中文特征词候选项集产生及其剪枝模块包括以下2个模块：

特征词候选项集产生模块：该模块主要从中文文本数据库中挖掘中文特征词候选项集，具体过程如下：从特征词项目库中提取候选1-项集，在中文文本数据库中累加其权值总和，与其最小频繁权值阈值比较，得出矩阵加权中文特征词频繁1_项集；然后，由候选(i-1)-项集(i≥2) 通过Apriori连接得到矩阵加权中文特征词候选i-项集。

特征词候选项集剪枝模块：该模块利用本发明的项集剪枝方法对矩阵加权中文特征词候选项集进行剪枝，将不可能频繁的中文特征词候选项集删除，得到最终中文特征词候选项集集合。

所述的中文特征词关联模式产生及结果显示模块包括以下3个模块：

频繁项集的子项集生成模块：该模块生成中文特征词频繁项集的所有真子集，求出其项集权值和维数，为挖掘关联规则模式做准备。

生成特征词强关联规则模块：该模块通过项集权值和维数的简单计算，与最小置信度比较，从中文特征词频繁项集中挖掘矩阵加权中文特征词强关联规则模式。

特征词强关联规则显示模块：该模块将最终中文特征词强关联规则模式按用户的需要显示给用户，供用户选择和使用。

所述的挖掘系统中的最小支持度阈值ms, 最小置信度阈值mc由用户输入。

与现有技术相比，本发明具有以下有益效果：

（1）本发明提出一种新的矩阵加权中文特征词项集获取方法及其项集剪枝方法，在此基础上提出一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及其挖掘系统。该发明能避免无效的、虚假的和无趣的关联模式产生，极大提高挖掘效率，所挖掘出的关联模式更加接近实际情况。与现有挖掘方法比较，本发明的关联模式数量以及挖掘时间均明显减少，其挖掘性能优于现有矩阵加权模式挖掘方法和基于频度的模式挖掘方法的，在中文文本信息挖掘、信息检索领域等领域中有较高的应用价值和广阔的应用前景。本发明挖掘出的特征词关联模式可以作为高质量扩展词来源，应用于web搜索引擎，有助于提高其信息检索查询性能。

（2）以国内中文标准数据集CWT200g语料作为实验数据，将本发明与传统的基于频度的模式挖掘方法和矩阵加权模式挖掘方法进行实验比较和分析，实验结果表明，无论在支持度阈值或者置信度阈值变化的情况下，在CWT200g中文测试集和NTCIR-5英文测试集上，本发明所挖掘的候选项集、频繁项集、关联规则以及挖掘时间都比现有对比算法的少，减幅较大，挖掘效率得到了很大提高，避免了无效的和无趣的关联模式出现。

附图说明

图1是本发明所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的框图。

图2是本发明所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的整体流程图。

图3是本发明所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘系统的结构框图。

图4是本发明所述的中文文本预处理模块的结构框图。

图5是本发明所述的中文特征词候选项集产生及其剪枝模块的结构框图。

图6是是本发明所述的中文特征词关联模式产生及结果显示模块的结构框图。

具体实施方式

为了更好地说明本发明的技术方案，下面将本发明涉及的中文文本数据模型和相关的概念介绍如下：

一、基本概念

定义1 （矩阵加权中文文本信息数据模型）：

矩阵加权中文文本信息数据模型描述如下：矩阵加权中文文本信息数据数据(Matrix-Weighted Data, MWD)模型，设MWD={d ₁ ,d ₂ ,…,d _n}是中文文档记录集合，d _i(1≤i≤n)表示MWD中的第i篇文档，Is={i ₁ ,i ₂ ,…,i _m}表示MWD中所有特征词项目集合，i _j(1≦j≦m)表示MWD中第j个特征词项目，w[d _i][i _j] (1≦i≦n, 1≦j≦m)表示特征词项目i _j在文档记录d _i中的权值,若i _jÏd _i，则i _j在该文档记录d _i的权值为0。

定义2 （矩阵加权中文特征词项集支持度）：

在矩阵加权数据模型中，每个事务记录可以看作是所有项目权重值的集合，即d _i={ w[d _i][i ₁], w[d _i][i ₂],…, w[d _i][i _m]}。以项目权重作为一种度量，以每个项目在矩阵加权事务数据库中的权重值作为样本点，根据几何概型理论，给出一种新的矩阵加权项集I支持度(Matrix-weighted support, mwsup)计算公式，如式(1)所示。

(1)

其中，，为矩阵加权项集(I)在中文文本数据库中特征词项集权值总和，为矩阵加权中文文本数据库中所有特征词项目权值总和，k _I为特征词项集I的项目个数(即项集长度)，称为矩阵加权特征词项集支持度规范化系数。

定义3 (矩阵加权中文特征词频繁项集)：设ms为最小支持度阈值，若mwsup(I)≥ms，则称中文特征词项集I为矩阵加权特征词频繁项集。

，设为中文特征词项集I的最小频繁权值阈值，因此，当中文特征词项集权值时，该项集I是频繁的。

定义4 (矩阵加权中文特征词项集权值期望：Matrix-weighted Itemset WeightBound,MWIWB)：

矩阵加权中文特征词项集权值频繁期望MWIWB(C _k, k+1)是指包含矩阵加权k_项集I _k的(k+1)_项集频繁的权值估计值。根据MWIWB(C _k, k+1)，可以预测C _k的后续(k+1)_项集的频繁性。

设矩阵加权k_项集C _k =(i ₁ ,i ₂ ,…,i _k)(k<m)的权值为w _k。在事务记录中，对于不属于k_项集C _k项目集合{i ₁ ,i ₂ ,…,i _k}的其他项目，令其权值最大的那个项目记为i _r(i _rÎIs,i _rÏ{i ₁ ,i ₂ ,…,i _k}, 1≤r<m)，其项目权值为w _r。若项集C _k在MWD中的频度是n _k，那么包含C _k的(k+1)_项集的可能最大权值为: w _k +n _k ×w _r，其中，。

若包含C _k的(k+1)_项集是频繁的，则

Þw _k +n _k ×w _r≥w×(k+1)×ms

Þw _k≥w×(k+1)×ms－n _k ×w _r(2)

将式(2)右边部分称为包含矩阵加权中文特征词k_项集C _k的(k+1)_项集权值频繁期望，记为MWIWB(C _k, k+1)，即，

MWIWB(C _k, k+1)=w×(k+1)×ms－n _k ×w _r (3)

定义5 (矩阵加权中文特征词强关联规则)：设mc为最小置信度阈值，w ₁₂和w ₁分别为矩阵加权项集(I ₁,I ₂)和(I ₁)在MWD数据库中权值总和，k ₁₂和k ₁分别为矩阵加权项集(I ₁,I ₂)和(I ₁)的项目个数，若矩阵加权项集(I ₁,I ₂)是频繁的，并且，则称关联规则I ₁→I ₂为中文特征词矩阵加权强关联规则模式。

所述的本发明的矩阵加权中文特征词项集的剪枝方法是：

①对矩阵加权中文特征词候选(i-1)_项集C _i-1进行剪枝1：计算C _i-1的矩阵加权中文特征词项集权值期望MWIWB(C _i-1,i)，若矩阵加权特征词候选(i-1)_项集C _i-1的项集权值w _(i-1)< MWIWB(C _i-1,i)，那么其特征词(i-1)_项集C _i-1后续的特征词i_项集C _i一定是非频繁项集，应该从C _i-1集合中剪除该特征词(i-1)_项集。

②对矩阵加权中文特征词候选(i-1)_项集C _i-1进行剪枝2：若特征词(i-1)_项集C _i-1的特征词项集频度为0，即n _(i-1)=0，则该特征词(i-1)_项集后续的特征词i_项集一定是非频繁项集，应该从C _i-1集合中剪除该特征词(i-1)_项集。

③对于矩阵加权中文特征词候选项集C _i的剪枝：对于候选项集C _i的的任何(i-1)_项集子集，计算每个候选项集子集的特征词项集权值期望，若存在一个其(i-1)_项子集的项集权值小于其对应的特征词项集权值期望(即w _(i-1)<MWIWB(C _i-1,i))，则该特征词候选i_项集C _i一定是非频繁项集，应该从C _i集合中剪除该特征词候选项集。

下面通过具体实施例对本发明的技术方案做进一步的说明。

具体实施例中本发明采取的挖掘方法和系统如图1-图6所示。

实例：一个矩阵加权中文文本数据库实例，有5个中文文档记录和5个特征词项目及其权值，即文档集合为{d ₁, d ₂, d ₃, d ₄, d ₅}，特征词集合为{ i ₁, i ₂, i ₃, i ₄, i ₅}={程序,队列,函数,环境,成员}。

本发明对中文文档数据实例挖掘矩阵加权中文特征词关联模式的过程如下(ms=0.1，mc=0.55)：

1.求出文档数据库中全部中文特征词项目权值总和w=8.18。

2. 挖掘矩阵加权中文特征词频繁1_项集L ₁，如表1所示。

表1：

，由表1可知，1-项集(i ₂)的项集权值<mw(C₁)，故该项集是非频繁项集。其他的项集权值都大于mw(C₁)，故都是频繁项集，即L ₁={(i ₁), (i ₃), (i ₄), (i ₅)}。

矩阵加权中文特征词频繁项集集合MWFIS={(i ₁), (i ₃), (i ₄), (i ₅)}。

3.挖掘矩阵加权中文特征词频繁k_项集L _k，所述的k≥2。

k=2:

(1)对于候选1_项集C₁，没有w(C ₁)< MWIWB(C ₁, 2)的情况，故候选项集C ₁集合不变。

(2) 将其项集频度不为0的特征词候选1_项集C ₁进行Apriori连接，生成中文特征词候选2_项集C ₂，然后考察C ₂的(2-1)-子项集的项集权值w ₁是否小于其对应的项集权值期望MWIWB(C ₁,2)，该步骤不存在这种情况，候选项集C ₂集合不变。

(3)计算候选项集C ₂的w(C ₂) 、n _c2、w _r(C ₂)和MWIWB(C ₂,3)如表2所示。

表2：

对于表2，进行如下操作：

﹡考察中文候选项集C ₂的项集频度是否为0，该步骤不存在为0的情况，故候选项集C ₂集合不变。

﹡计算mw(C₂)=8.18×2×0.1=1.636，由表2可知，其项集权值w(C ₂)≥mw(C₂)的候选2-项集是：( i ₁, i ₂)、(i ₁, i ₃)、(i ₁, i ₅)、(i ₂,i ₃)、(i ₃, i ₄)，它们是频繁的，将这些项集加入到中文特征词频繁项集集合MWFIS，即，MWFIS={(i ₁), (i ₃), (i ₄), (i ₅), ( i ₁, i ₂)、(i ₁, i ₃)、(i ₁, i ₅)、(i ₂,i ₃)、(i ₃, i ₄)}。

k=3:

﹡从表2可知，对于候选2_项集C ₂，其w(C ₂)<MWIWB(C ₂, 3)的候选项集有：( i ₁, i ₄)、(i ₂, i ₄)、(i ₂, i ₅)、(i ₃, i ₅)和(i ₄, i ₅)，这些候选项集不可能成为频繁3_项集，应该从C ₂集合中剪除，得到新的候选项集C ₂集合，C ₂={( i ₁, i ₂), (i ₁, i ₃), (i ₁, i ₅), (i ₂,i ₃), (i ₃,i ₄) }。

﹡将其项集频度不为0的特征词候选2_项集C ₂进行Apriori连接，生成特征词候选3_项集C ₃，即C ₃={( i ₁, i ₂, i ₃),( i ₁, i ₂, i ₅),( i ₁, i ₃, i ₅)}。

﹡对于候选3_项集C ₃，考察C ₃的任何(3-1)_项集子集，即C ₃的2_项集子集：

对于(i ₁, i ₂, i ₅)：存在其子项集(i ₂,i ₅)，其w(i ₂,i ₅)<MWIWB((i ₂,i ₅), 3)，对于(i ₁, i ₃, i ₅)：存在其子项集(i ₃, i ₅)，其w(i ₃, i ₅)<MWIWB((i ₃, i ₅), 3)，故特征词候选3_项集(i ₁, i ₂, i ₅)和( i ₁, i ₃, i ₅)是非频繁项集，应该从C ₃删除，新的C ₃={( i ₁, i ₂, i ₃) }。

﹡计算w(C ₃)、n _c3、w _r(C ₃)和MWIWB(C ₃,4)如表3所示。

表3：

对于表3，进行如下操作：

﹡考察中文候选项集C ₃的项集频度是否为0，该步骤不存在为0的情况，故候选项集C ₃集合不变。

﹡计算mw(C₃)=8.18×3×0.1=2.454，由表3可知，其项集权值w(C ₃)≥mw(C₃)的候选3-项集是：(i ₁, i ₂, i ₃)，该项集是频繁的，将其加入到中文特征词频繁项集集合MWFIS，即，MWFIS={(i ₁), (i ₃), (i ₄), (i ₅), ( i ₁, i ₂),(i ₁, i ₃),(i ₁, i ₅),(i ₂,i ₃),(i ₃, i ₄), (i ₁,i ₂, i ₃)}。

k=4:

﹡从表3可知，对于候选3_项集C ₃，不存在其w(C ₃)<MWIWB(C ₃, 3)的候选项集，故候选项集C ₃ ={(i ₁, i ₂, i ₃)}。

﹡将其项集频度不为0的特征词候选3_项集C ₃进行Apriori连接，生成特征词候选4_项集C ₄，即C ₄=Æ。由于C ₄为空，故3步骤挖掘结束，转入如下4步骤。

﹡最终的中文特征词频繁项集集合MWFIS={(i ₁), (i ₃), (i ₄), (i ₅), ( i ₁, i ₂),(i ₁, i ₃),(i ₁, i ₅),(i ₂,i ₃),(i ₃, i ₄), (i ₁, i ₂, i ₃)}

4. 从中文特征词频繁项集集合MWFIS中挖掘矩阵加权中文特征词强关联规则模式。

以MWFIS中特征词频繁项集(i ₁, i ₂, i ₃)为例，给出矩阵加权中文特征词强关联规则模式挖掘过程如下：

频繁项集(i ₁, i ₂, i ₃)的真子集集合为{( i ₁), (i ₂), (i ₃),( i ₁, i ₂), (i ₁,i ₃), (i ₂, i ₃)}。

(1)对于{( i ₁), (i ₂, i ₃)}，即I ₁=( i ₁)，I ₂= (i ₂, i ₃)，{( i ₁), (i ₂, i ₃)}= (I ₁,I ₂)，故k ₁=1，k ₂=2，k ₁₂=3，

从表1可知，w ₁=3.0，从表2可知，w ₂=1.7，从表3可知，w ₁₂=3.2，

(w ₁₂×k ₁)/(w ₁× k ₁₂)=(3.2×1)/(3.0×3)=0.356<mc，所以没有挖掘出规则。

(w ₁₂×k ₂)/(w ₂× k ₁₂)=(3.2×2)/(1.7×3)=1.25>mc，所以挖掘出中文特征词强关联规则I ₂→I ₁，即(i ₂, i ₃)→( i ₁)，或者，(队列,函数)→(程序)。

(2)对于{(i ₂), (i ₁, i ₃)}，即I ₁=( i ₂)，I ₂= (i ₁, i ₃)，{(i ₂), (i ₁, i ₃)}= (I ₁,I ₂)，故k ₁=1，k ₂=2，k ₁₂=3，

从表1可知，w ₁=0.55，从表2可知，w ₂=4.3，从表3可知，w ₁₂=3.2，

(w ₁₂×k ₁)/(w ₁× k ₁₂)=(3.2×1)/(0.55×3)=1.94>mc，所以挖掘出中文特征词强关联规则I ₁→I ₂，即(i ₂)→(i ₁, i ₃)，或者，(队列)→(程序,函数)。

(w ₁₂×k ₂)/(w ₂× k ₁₂)=(3.2×2)/(4.3×3)=0.496<mc，所以没有挖掘出规则。

（3）对于{(i ₃), (i ₁, i ₂)}，即I ₁=( i ₃)，I ₂= (i ₁, i ₂)，{(i ₃), (i ₁, i ₂)}= (I ₁,I ₂)，故k ₁=1，k ₂=2，k ₁₂=3，

从表1可知，w ₁=2.8，从表2可知，w ₂=2.75，从表3可知，w ₁₂=3.2，

(w ₁₂×k ₁)/(w ₁× k ₁₂)=(3.2×1)/(2.8×3)=0.38<mc，所以没有挖掘出规则。

(w ₁₂×k ₂)/(w ₂× k ₁₂)=(3.2×2)/(2.75×3)=0.776>mc，所以挖掘出中文特征词强关联规则I ₂→I ₁，即(i ₁, i ₂)→( i ₃)，或者，(程序,队列)→(函数)。

综上所述，对于中文特征词频繁项集(i ₁, i ₂, i ₃)，可以挖掘出矩阵加权中文特征词强关联规则模式（ms=0.1，mc=0.55）：(i ₂, i ₃)→( i ₁)，(i ₂)→(i ₁, i ₃)，(i ₁, i ₂)→( i ₃)，或者，(队列,函数)→(程序)，(队列)→(程序,函数)，(程序,队列)→(函数)。

下面通过实验对本发明的有益效果做进一步说明。

选择中文 Web 测试集CWT200g(北京大学网络实验室提供，其容量为197GB)的部分中文语料作为实验数据。从CWT200g中提取12024篇纯中文文本文档作为中文文档实验测试集，中文分词程序使用中国科学院计算技术研究所研制开发的ICTCLAS系统。

通过中文文本预处理：分词、去除停用词、提取特征词，计算特征词权值，构建基于向量空间模型的中文文本数据库和特征词项目库。将其df值在[1500, 5838]范围的中文特征词提取装入特征词库（此时获得中文特征词数量为400个）。

选择经典的无加权关联规则挖掘方法Apriori(R.Agrawal, T.Imielinski,A.Swami. Mining association rules between sets of items in large database[C]// Proceeding of 1993 ACM SIGMOD International Conference on Management ofData, Washington D.C.,1993, (5): 207-216.)和现有的矩阵加权关联规则挖掘方法MWARM（黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.）为实验对比方法，从支持度和置信度分别变化情况下对本发明和2种对比方法的挖掘性能进行实验对比与分析。实验参数是：ms，mc，n:文档集总篇数，IN:挖掘的项目数量。实验挖掘到4-项集。

实验1：支持度阈值变化时挖掘性能比较

支持度阈值变化时3种方法在中文档测试集(CWT200g)中挖掘候选项集(Candidate Itemset, CI)、频繁项集(Frequent Itemset, FI)和关联规则(Association Rule, AR)数量结果比较如表1所示。

表1 支持度阈值变化时挖掘的各类项集和关联规则数量比较

(IN=30,mc =0. 1, n=12024)

实验2：置信度阈值变化时挖掘性能比较

置信度阈值变化时本发明和2种对比方法在中文档测试集(CWT200g)中挖掘关联规则数量比较如表2所示(IN=30,ms =0.004, n=12024)。

表2 置信度阈值变化情况下

挖掘的关联规则数量比较

实验3：挖掘时间效率比较

支持度阈值变化时本发明和对比方法在中文测试集上挖掘候选项集、频繁项集和关联规则的时间(秒)如表3所示。在置信度阈值变化的情况下3种方法挖掘关联规则的时间(秒)如表4所示 (IN=30,ms =0.004, n=12024)。

关联规则实例分析

在CWT200g的中文文本测试集中，选取特征词项目集合为I={部门(1898),采用(1825),参加(1668),参与(1512),产品(2284),产生(2664),长期(1982),超过(1567),成本(1655),成长(2024),成功(3829),城市(1585),程度(1745),出现(3850), 处理(1540),传奇(1987),传统(1814),创造(1982),存在(3250),措施(1553)}，其中，括号内的数是相应的项目的df值，例如，“部门(1898)”表示特征词项目“部门”的df值为1898，即在12024篇文档中含有“部门”的文档篇数为1898篇，本发明和2种对比方法MWARM、Apriori对项目集合I (20个特征词)在CWT200g中挖掘的频繁项集和关联规则，实验参数是：ms =0.011, mc=0.1，IN =20，n=12024，以特征词“参加(1668)”为例，在该实验的挖掘结果中提取含有特征词“参加”的频繁项集和关联规则实例，其结果如表5所示(IN=20,mc =0. 1, n=12024)。

表5 三种方法在CWT200g挖掘的含有特征词“参加”的关联模式实例

从表5实验结果可知，含有特征词“参加”的关联模式结果中，本发明的关联模式更接近实际情况，能避免无效的和虚假的关联模式产生。例如，“参加”和“参与”是近义词，在一句话或者一段话中应该很少同时出现，所以，项集“{参加,参与}”不应该是频繁项集，关联规则“参加→参与”,“参与→参加”不应该是强规则。在对比方法MWARM、Apriori的挖掘结果中，不仅挖掘出的模式多，而且还能挖掘出频繁项集“{参加,参与}”和强关联规则“参加→参与”,“参与→参加”,显然，这是虚假的、无趣的和无效的关联模式，而在本发明的挖掘结果中，没有挖掘出这些无效和虚假的模式。

上述实验结果表明，与实验对比相比较，本发明的挖掘性能具有良好的挖掘性能，具体表现如下：

上述实验结果表明了本发明的有效性，其挖掘性能均优于现有的无加权挖掘方法Apriori和矩阵加权关联规则挖掘方法MWARM。无论在支持度阈值或者置信度阈值变化的情况下，在CWT200g中文测试集上，本发明方法所挖掘的候选项集、频繁项集、关联规则以及挖掘时间都比现有对比算法的少，减幅较大，挖掘效率得到了很大提高，避免了无效的和无趣的关联模式出现。表5的实验结果表明，本发明所挖掘的矩阵加权特征词关联规则模式更接近实际。

Claims

1.一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法，其特征在于，包括如下步骤：

(1)中文文本预处理：将待处理的中文文本信息数据进行分词，去除停用词、提取特征词及计算其权值，构建中文文本数据库和特征词项目库；

(2)挖掘矩阵加权中文特征词频繁项集，包括以下步骤2.1和步骤2.2：

(2.1)挖掘矩阵加权特征词候选1_项集和频繁1_项集，具体步骤按照2.1.1和2.1.2进行：

(2.1.1)从特征词项目库中提取特征词候选1_项集，在中文文本数据库累加全部项目权值总和，累加矩阵加权中文特征词候选1_项集在中文文本信息数据库中的项集权值总和，计算特征词候选1_项集的最小频繁权值阈值，若其项集权值大于或者等于相应的最小频繁权值阈值，则该候选项集为频繁1_项集L₁，将该L₁加入到特征词频繁项集集合MWFIS；

(2.1.2)在中文文本数据库中累加矩阵加权中文特征词候选1_项集的项集频度，计算候选1_项集的矩阵加权项集权值期望；

(2.2)挖掘矩阵加权特征词候选k_项集和频繁k_项集，所述的k≥2，按照步骤2.2.1～2.2.8进行操作：

(2.2.1)计算矩阵加权候选(k-1)_项集的矩阵加权项集权值期望，删除矩阵加权候选(k-1)_项集的项集权值小于其项集权值期望的候选(k-1)_项集，得到新的矩阵加权特征词候选(k-1)_项集集合；

(2.2.2)将其项集频度不为0的矩阵加权特征词候选(k-1)_项集进行Apriori连接产生矩阵加权特征词候选k_项集；

(2.2.3)如果矩阵加权特征词候选k_项集不是空集，转入2.2.4步，否则，退出2.2步转入(3)步；

(2.2.4)对于矩阵加权特征词候选k_项集，若存在一个其(k-1)_项子集的项集权值小于其对应的项集权值期望，则将该候选k_项集删除，得到新的矩阵加权特征词候选k_项集集合；

(2.2.5)在中文文本数据库中累加矩阵加权特征词候选k_项集的项集频度、项集权值及其矩阵加权项集权值期望；

(2.2.6)删除其项集频度为0的矩阵加权特征词候选k_项集，得到新的矩阵加权特征词候选k_项集集合；

(2.2.7)计算矩阵加权特征词候选k_项集C_k的最小频繁权值阈值mw(C_k)，若矩阵加权候选项集的项集权值w(C_k)大于或者等于其最小频繁权值阈值mw(C_k)，那么该特征词候选项集C_k是频繁的，加入到特征词频繁项集集合MWFIS；

(2.2.8)将k的值加1，循环2.2.1～2.2.7步骤，直到C_k为空，则退出2.2步转入如下(3)步；

(3)从矩阵加权特征词频繁项集集合MWFIS中挖掘矩阵加权特征词强关联规则模式，包括以下步骤：

(3.1)对于矩阵加权特征词频繁项集集合MWFIS中每项特征词频繁项集L_i，求出L_i的全部真子集；

(3.2)对于L_i的真子集集合中任意两个真子集I₁和I₂，并且I₁∪I₂＝L_i，若(w₁₂×k₁)/(w₁×k₁₂)的值大于或者等于最小置信度阈值，则挖掘出矩阵加权特征词关联规则I₁→I₂；若(w₁₂×k₂)/(k₁₂×w₂)的值大于或者等于最小置信度阈值，则挖掘出矩阵加权特征词关联规则I₂→I₁；所述的k₁、k₂和k₁₂分别为项集I₁、I₂和(I₁,I₂)的项目个数，w₁、w₂和w₁₂分别为I₁、I₂和(I₁,I₂)的项集权值；

(3.3)继续3.2步骤，直到L_i的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤3.4；

(3.4)继续3.1步骤，当MWFIS中每个L_i都被取出一次，而且仅能取出一次，则退出(3)步；

至此，矩阵加权特征词关联规则模式挖掘结束。

2.一种适用于权利要求1所述的基于动态项权值的矩阵加权中文特征词关联模式挖掘方法的挖掘系统，其特征在于，包括以下4个模块：

中文文本预处理模块：用于待处理的中文文本数据进行分词、去除停用词和特征词提取及其权值计算等预处理，构建中文文本数据库和特征词项目库；

中文特征词候选项集产生及其剪枝模块：该模块从中文文本数据库首先挖掘中文特征词候选1_项集，然后，由候选(i-1)_项集生成候选i_项集，所述的i≥2，最后采用本发明的剪枝方法对中文特征词候选项集剪枝，得到最终的中文特征词候选项集集合；

中文特征词频繁项集产生模块：该模块首先求出中文特征词候选项集在中文文本数据库中的项集权值，与最小频繁权值阈值比较，从候选项集中挖掘中文特征词频繁项集模式；

中文特征词关联模式产生及结果显示模块：该模块生成中文特征词频繁项集的所有真子集，通过其项集权重的简单计算，并与最小置信度阈值比较，从中文特征词频繁项集中挖掘矩阵加权特征词强关联规则模式，并将最终结果按用户的需要显示给用户，供用户选择和使用。

3.根据权利要求2所述的挖掘系统，其特征在于，所述的中文文本预处理模块包括以下2个模块：

特征词分词及其权值计算模块：该模块对中文文本信息进行分词、去除中文停用词和提取特征词，根据中文文本特征词权值公式计算其权值；

4.根据权利要求2所述的挖掘系统，其特征在于，所述的中文特征词候选项集产生及其剪枝模块包括以下2个模块：

特征词候选项集产生模块：该模块主要从中文文本数据库中挖掘中文特征词候选项集，具体过程如下：从特征词项目库中提取候选1_项集，在中文文本数据库中累加其项集权值，与1_项集最小频繁权值阈值比较，得出矩阵加权特征词频繁1_项集；然后，由候选(i-1)_项集通过Apriori连接得到矩阵加权特征词候选i_项集，所述的i≥2；

特征词候选项集剪枝模块：该模块利用本发明的剪枝方法对矩阵加权中文特征词候选项集进行剪枝，将不可能频繁的中文特征词候选项集删除，得到最终矩阵加权中文特征词候选项集集合。

5.根据权利要求2所述的挖掘系统，其特征在于，所述的中文特征词关联模式产生及结果显示模块包括以下3个模块：

频繁项集的子项集生成模块：该模块主要负责生成中文特征词频繁项集的所有真子集及其项集权值和维数，为挖掘关联规则模式做准备；

生成特征词强关联规则模块：该模块主要负责通过项集权值和维数的简单计算，与最小置信度比较，从中文特征词频繁项集中挖掘矩阵加权特征词强关联规则模式；

特征词强关联规则显示模块：该模块主要负责将最终中文特征词强关联规则模式按用户的需要显示给用户，供用户选择和使用。

6.根据权利要求2-5中任一项所述的挖掘系统，其特征在于，所述的挖掘系统中的最小置信度阈值mc由用户输入。