CN102662952A

CN102662952A - 一种基于层次的中文文本并行数据挖掘方法

Info

Publication number: CN102662952A
Application number: CN2012100521245A
Authority: CN
Inventors: 唐雪飞; 罗石; 唐先萍
Original assignee: UESTC COMSYS INFORMATION CO Ltd
Current assignee: UESTC COMSYS INFORMATION CO Ltd
Priority date: 2012-03-02
Filing date: 2012-03-02
Publication date: 2012-09-12
Anticipated expiration: 2032-03-02
Also published as: CN102662952B

Abstract

本发明涉及一种基于层次的中文文本并行数据挖掘方法，包括步骤：步骤1：中文文本向量空间模型的建立：通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集，然后利用特征词条集统计每个文本的词频逆向文档频率，并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型；步骤2：对文本向量空间模型的特征项向量进行降维处理；步骤3：利用基于层次的DCURE算法对文本进行聚类。本发明的有益效果是：针对中文文本分词效率高，分词准确率高；聚类过程不需要输入邻域半径等参数，可挖掘不规则聚类，对噪声不敏感；利用分布式计算，针对海量文本挖掘效率高，同时提高特征权重计算速度。

Description

一种基于层次的中文文本并行数据挖掘方法

技术领域

本发明属于信息处理技术领域，具体涉及计算机数据挖掘与机器学习技术领域，可用于在搜索引擎搜索结果的改进，个性化内容推荐系统，问答系统中聚合相似提问以及新闻网站按类别聚合新闻等信息处理技术领域发挥作用。

背景技术

随着互联网的发展，网页上的文本信息增长快速，如何索引、检索、管理、挖掘网页上的海量文本信息已成为计算机科学领域所面临的一个巨大挑战。中文文本聚类技术也在不断发展和成熟，分布式技术已经得到了越来越广泛的应用，而分布式聚类技术是分布式数据挖掘领域的一项重要研究内容。

对大量信息的文字挖掘工作，首先就需要对文本信息进行分词，在英语中单词与单词之间有显式的分割符，因此分词容易，而在中文里，只有段与段之间、句子与句子间有明显分割，而单词之间不存在这种分界符，因此中文词汇的分割要复杂困难得多。中文文本数据挖掘面临的问题其一是海量的文本文档需要存储空间和挖掘耗时，其二就是文本的预处理问题。文本文档数据大部分情况是非结构数据类型，不能直接作为数据挖掘机的输入，需要对文本文档进行预处理使之变成数据挖掘机能理解的数据形式。因此中文文本需要其独特的预处理过程。

正因为中文文本分词的困难，现有中文文本数据挖掘过程存在有以下问题：①分词效果差，分词速度慢；②文本特征项向量模型稀疏，无效信息加重聚类计算量；③聚类过程不能很好解决孤立点与非球形类；④大量数据聚类慢；⑤没有聚类结果评价。

发明内容

本发明的目的针对目前中文文本数据挖掘过程中原始数据太多，挖掘效率过低，聚类过程只能处理圆形的族的不足，提出了一种基于层次的中文文本并行数据挖掘方法。

本发明的技术方案是，一种基于层次的中文文本并行数据挖掘方法，包括如下步骤：

步骤1：中文文本向量空间模型的建立：通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集，然后利用特征词条集统计每个文本的词频逆向文档频率，并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型；

步骤2：对文本向量空间模型的特征项向量进行降维处理；

步骤3：利用基于层次的DCURE算法对文本进行聚类。

本发明的有益效果是：针对中文文本分词效率高，分词准确率高；聚类过程不需要输入邻域半径等参数，可挖掘不规则聚类，对噪声不敏感；利用分布式计算，针对海量文本挖掘效率高，同时提高特征权重计算速度。

附图说明

图1是本发明的文本分词与特征项向量建立过程示意图。

图2为本发明的聚类算法流程图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步的阐述。

一种基于层次的中文文本并行数据挖掘方法，其特征是，它包括以下步骤：

步骤1：中文文本向量空间模型的建立：通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集，然后利用特征词条集统计每个文本的词频逆向文档频率(term frequency inverse document frequery，简称TFIDF)，并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型。

词频逆向文档频率(TFIDF)的定义：它是指某个词条代表包含该词条文本信息量的一个指标。其计算公式为：TFIDF_ij＝TF_ij*IDF_i

TF_ij指词汇频率，表示词语T_i在文本D_j中出现的频率，称为词频。t_i表示第i个特征词条在文本中出现的次数，d_j表示第j个文本包含的特征词条总数。定义为：

{TF}_{ij} = \frac{t_{i}}{d_{j}}

IDF_i指逆向文档频率，表示词语T_i在整个文档合集中出现的频率，定义为

{IDF}_{i} = \log \frac{N}{n_{i}}

在这个公式中，N表示文档集合中所有的文档数目，n_i表示整个文档合集中出现过词语T_i的文档的总数，称为特征的文档频率。

本领域的技术人员发现字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在所有文本中出现的频率成反比下降。举个例子，对于“高频无意义词汇”，因为它们大部分会出现在所有的文本中，所以它们的权重会大打折扣，明白这一自然规律并利用该自然规律可以使得文本模型在描述文本特征上更加精确。

本步骤中，中文文本向量空间模型的建立如图1所示，包括以下具体步骤：

步骤1.1：对文本进行分词，利用相对完备的词典为基础，按照改进的正向最大匹配退一字算法进行切分；假设字典中最大词条长度为M，算法具体过程如下：

步骤1.1.1：在待切文本字符串中从左边开始截取长度为M的子串S，先判断子串长度是否小于2，若小于2则表示分词已经结束，若大于2则进入下一步骤。

步骤1.1.2：将步骤1.1.1的子串在字典中进行匹配，若匹配成功，则将此子串S退一字，退出的字符与子串S后面一个字拼接成双字，这样就形成了M-1个字数的子串A与2个字数的子串B。

步骤1.1.3：将子串A与子串B在字典中进行匹配，若字典中都存在2个子串则划分为A|B这种形式的2个词条，其他情况都按照步骤1.1.2未退字的子串S划分；然后进入步骤1.1.1开始新一轮分词循环。

步骤1.1.4：若步骤1.1.2中子串S不匹配，则循环的将子串S字数减一在字典中匹配直到发现匹配，若直到子串字符数小于2都未发现匹配则将当前循环子串进行划分，然后进入步骤1.1.1开始新一轮分词循环。

为了进一步的减少计算量，同时在分词过程中也必须考虑同义词、停用词问题。针对同义词替换，采用的策略是构建一个同义词表，文本经过分词以后，如果出现在同义词表中，就用同一个词语替换。针对停用词，采用的策略是构建一个停用词表，一般包含一些语气助词象声词之类，如果出现在停用词中，就去掉该词。经过分词以后各个文档的内容表现为特征词与特征词之间通过切分标志分隔。步骤1结束后，文档内容只包含特征词，非特征词已被删去。

步骤1.2：对分词结果建立文档特征项向量模型。在向量模型中，每个特征项向量代表一个文本的特征，其中每个特征项向量的每一项是在所有文本中出现的词汇在该文本的特征项权重。假设通过分词以后计算的整个文本集的特征词条规模为n，每一个文本Dj都映射到一个维数为n的向量空间中，即V(Dj)＝(<T1，W1j>，…<Ti，Wij>，…，<Tn，Wnj>)，其中，Ti(i∈[1，n])表示特征词集中的所有词语，Wij表示词语Ti在文中Dj中的权重，也就是上述词频逆向文档频率(TFIDF)。

下面介绍的是本步骤中文档特征项向量模型的具体过程：

步骤1.2.1：利用分词后得到的所有特征词条对每个文本进行扫描，记录单个文本所包含不同特征词条在该文本中的个数和对应的特征词条。同时统计该文本的特征词条总数。这样就可以得到TF_ij。文本中不包含的特征词条其对应的TF_ij为0，这样每一个文本就对应了有n个元素的词频向量。

步骤1.2.2：统计出现指定词条t_i的文本个数。具体是将步骤1.2.1中每个文本的词频向量作为输入，循环检查第i个元素是否为0，不为0则该词条在文本集合中出现的次数加一。结果为一个对应有n个元素的向量，将该向量每一个元素带入IDF_i计算公式中结算得到IDF_i向量，即特征的文档频率。

步骤1.2.3：获得TFIDF的最终计算结果。将每一个词频向量的每一个元素除以特征的文档频率中对应的元素就得到每一个文本的TFIDF向量(即特征项向量)。

步骤2：对特征项向量进行降维处理。

在步骤1构建文本的特征项向量中可以看出，该特征项向量的维数是整个文档集经过分词以后的特征词条数总数。即使是少量的样本文本，每个文本也包括几百个文字的文档集分词以后特征词条数也达到上万，那么对应的文本特征项向量维数也是上万维，如果直接利用这些向量参与后续聚类计算量非常大。同时对于某个文档，它只包含整个特征词条中的部分词条，这样会导致该向量中许多元素为0，也就是说该向量是稀疏的，这样也带来了存储的浪费。由以上两点可以看出必须对特征项向量进行降维处理。本发明以考虑速度为出发点，采取了基于文档频率的降维方法。该方法的理论假设是稀有词条不含有用信息，或含有的信息太少不足以对分类产生影响，而应当除去。从步骤1建立特征项向量的过程中可以看出文档频率就是出现某个特征词条的文档数。本发明降维方法就是在设定一个阈值，该阈值设定为最大文档频率的一半，在统计文档频率的时候只有高于阈值的特征词条才得以保留。

本步骤中，利用互信息来选择特征词汇，使用如下公式表示某个文本特征T和类别C之间的相关性。具体公式如下：

MI (T, C) \approx \lg \frac{(a \times n)}{(a + c) \times (a + b)}

其中用a表示包含特征词条T且属于类别C的文档频数，b为包含T但是不属于C的文档频数，c表示属于C但不包含T的文档频数，n表示原始中文文档的总数。如果MI(T，C)的值为0，则表示该特征T和类C不相关，可以去掉该特征词条。如果有m个类，于是对于每个T会有m个数，取它们的平均值，大于1的平均值的特征词条T保留的可能性大。

由于该步骤中对特征项向量进行降维处理的过程可以采用本领域普通技术人员了解的现有技术方案，因此不再详细描述。

步骤3：利用基于层次的DCURE算法对文本进行聚类。

步骤3.1：对步骤1的或步骤2中的中文文本向量空间模型进行抽样，得到一个样本，样本个数为n。

步骤3.2：将样本划分为r个分区，每个分区规模为n/r，代表点个数取q。这里r与q的取值一般是根据n/qr是最终聚类数k的2～3倍取值，这样的聚类算法效率高。

步骤3.3：将每个分区载入并行计算环境中，对分区原始特征项向量计算它们之间的距离。距离使用向量夹角余弦值来表示。X＝[x₁，x₂....x_n]，Y＝[y₁，y₂....y_n]

Cos (X, Y) = \frac{Σ_{i = 1}^{n} X_{i} Y_{i}}{\sqrt{(Σ_{i = 1}^{n} X_{i}^{2}) * (Σ_{j = 1}^{n} Y_{i}^{2})}}

找出余弦夹角最大值(即特征项向量距离最近)的2个特征项向量合并为同一簇，并且重新计算改簇的代表点，计算公式如下：

u.rep＝p+α*(u.mean-p)

其中p是合并之前的点，u.mean是簇u中所有点的算术平均点，u.rep表示合并后簇u的代表点，α为一个缩放系数，α＝1的时候簇u代表点就是算术平均点，α＝1时代表点就是p。根据经验α一般选取0.3～0.7之间比较合适。同时簇的代表点数目为q个代表点。若簇内点数小于q，则代表点就按照该簇点数计算，若大于q，则按照q计算代表点。

步骤3.4：上述步骤3.3继续循环直到每个分区中簇个数达到n/qr个，其中计算簇间距的时候通过计算2个簇中各个代表点之间的距离取最小值。在循环过程中同时删除异常点。一般是删除增长缓慢的类或者在最后阶段删除类中点小于阀值的簇。

步骤3.5：将每个分区中已经聚类的簇载入主计算节点内存，由于分区聚类的簇只需要代表点就能表示簇的信息，所以计算时只载入代表点参与聚类计算。最终形成k个簇。

步骤3.6：将步骤3.5聚类的结果中每个簇的代表点作为整个未处理数据聚类的聚类配置文件。所有未处理数据与每个簇的代表点进行比较，分配到与其距离最近的代表点的类中。

上述步骤1、步骤2和步骤3即构成了本发明所述的一种基于层次的中文文本并行数据挖掘方法，由于本发明的方法基于严格的量化分析，因此可以采用各种量化的指标对本发明的数据挖掘(聚集)结果进行评价。

步骤4：对聚集(挖掘)结果进行评价。

本发明使用对常用聚类有效性指标的归一化均值来对聚类结果进行评价。常用聚类有效性指标包括D指标、CH指标和I指标，通过计算3个指标的归一化均值，均值越大则该聚类效果最好。

D指标计算公式：

D = \min {\frac{\min_{x &Element; C_{i}, y &Element; C_{j}} d (x, y)}{\max {\max_{x, y &Element; C_{k}} d (x, y)}}}

其中C为一个聚类划分{C₁，C₂，...C_N}，d(x，y)表示对象x到对象y的距离，距离函数仍然使用余弦函数计算。可以看出分子表示任意两个类中对象距离的最小值，也可以表示类间分离度。分母表示所有类中对象距离的最大值，也可以表示类内紧密度。

CH指标计算公式：

CH = \frac{\frac{1}{n - 1} Σ_{i = 1}^{n} n_{i} d^{2} (c_{i}, c)}{\frac{1}{n - 1} Σ_{i = 1}^{n} Σ_{x &Element; C_{i}}^{n} d^{2} (x, c_{i})}

其中N表示所有对象个数，ci表示Ci类中心对象，c表示整个数据中心对象。分子为各类中心对象到数据集中心对象距离的平方和来度量分离度，分母为各点到各类中心点得距离平方和来度量类内的紧密度。

I指标计算公式：

I = {[\frac{1}{n} \frac{\underset{x &Element; C}{Σ} d (x, c)}{Σ_{i = 1}^{n} \underset{x &Element; C_{i}}{Σ} d (x, c_{i})} \max d (c_{i}, c_{j})]}^{2}

I指标在所有类中选择类与类中心距离最大值表示类间分离度，使用类中各点与类中心的距离之和表示类内紧密度。

通过选择不同的聚类输入来得到不同的聚类结果，对不同的聚类结果分别求其D、CH、I指标，并且对这三个指标进行归一化处理，然后将归一化的3个指标计算它们的平均值。通过对不同聚类结果的归一化平均值进行比较得出均值较大者它的聚类效果最好，有效性最高。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于层次的中文文本并行数据挖掘方法，其特征是，它包括以下步骤：

步骤2：对文本向量空间模型的特征项向量进行降维处理；

步骤3：利用基于层次的DCURE算法对文本进行聚类。

2.根据权利要求1所述的一种基于层次的中文文本并行数据挖掘方法，其特征在于，所述步骤1中，中文文本向量空间模型的建立包括以下具体步骤：

步骤1.1.1：在待切文本字符串中从左边开始截取长度为M的子串S，先判断子串长度是否小于2，若小于2则表示分词已经结束，若大于2则进入下一步骤；

步骤1.1.2：将步骤1.1.1的子串在字典中进行匹配，若匹配成功，则将此子串S退一字，退出的字符与子串S后面一个字拼接成双字，这样就形成了M-1个字数的子串A与2个字数的子串B；

步骤1.1.3：将子串A与子串B在字典中进行匹配，若字典中都存在2个子串则划分为A|B这种形式的2个词条，其他情况都按照步骤1.1.2未退字的子串S划分；然后进入步骤1.1.1开始新一轮分词循环；

3.根据权利要求1所述的一种基于层次的中文文本并行数据挖掘方法，其特征在于，所述步骤1中，对分词结果建立文档特征项向量模型的具体过程为：步骤1.2：在向量模型中，每个特征项向量代表一个文本的特征，其中每个特征项向量的每一项是在所有文本中出现的词汇在该文本的特征项权重；假设通过分词以后计算的整个文本集的特征词条规模为n，每一个文本Dj都映射到一个维数为n的向量空间中，即V(Dj)＝(<T1，W1j>，…<Ti，Wij>，…，<Tn，Wnj>)，其中，Ti(i∈[1，n])表示特征词集中的所有词语，Wij表示词语Ti在文中Dj中的权重，也就是上述词频逆向文档频率(TFIDF)；具体包含如下过程：

步骤1.2.1：利用分词后得到的所有特征词条对每个文本进行扫描，记录单个文本所包含不同特征词条在该文本中的个数和对应的特征词条；同时统计该文本的特征词条总数；这样就可以得到TF_ij；文本中不包含的特征词条其对应的TF_ij为0，这样每一个文本就对应了有n个元素的词频向量；

步骤1.2.2：统计出现指定词条t_i的文本个数；具体是将步骤1.2.1中每个文本的词频向量作为输入，循环检查第i个元素是否为0，不为0则该词条在文本集合中出现的次数加一；结果为一个对应有n个元素的向量，将该向量每一个元素带入IDF_i计算公式中结算得到IDF_i向量，即特征的文档频率；

步骤1.2.3：获得TFIDF的最终计算结果；将每一个词频向量的每一个元素除以特征的文档频率中对应的元素就得到每一个文本的TFIDF向量。

4.根据权利要求3所述的一种基于层次的中文文本并行数据挖掘方法，其特征在于，所述步骤1中词频逆向文档频率(TFIDF)的具体计算过程为：

TFIDF_ij＝TF_ij*IDF_i

式中，TF_ij指词汇频率，表示词语T_i在文本D_j中出现的频率，称为词频；t_i表示第i个特征词条在文本中出现的次数，d_j表示第j个文本包含的特征词条总数；TF_ij定义为：

{TF}_{ij} = \frac{t_{i}}{d_{j}}

IDF_i指逆向文档频率，表示词语T_i在整个文档合集中出现的频率，IDF_i定义为

{IDF}_{i} = \log \frac{N}{n_{i}}