CN104142918B

CN104142918B - 基于tf‑idf特征的短文本聚类以及热点主题提取方法

Info

Publication number: CN104142918B
Application number: CN201410378785.6A
Authority: CN
Inventors: 郑岩; 孟昭鹏; 徐超; 张亚男
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-07-31
Filing date: 2014-07-31
Publication date: 2017-04-05
Anticipated expiration: 2034-07-31
Also published as: CN104142918A

Abstract

本发明公开了一种基于TF‑IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤：首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF‑IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和k‑means方法对短文本样本进行聚类，并通过可视化的分析手段找出每一个类簇中潜在的热点主题。本发明能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题，与此同时本方法还借助可视化技术来对聚类结果进行可视化分析，最后进行热点主题的提取和分析。

Description

基于TF-IDF特征的短文本聚类以及热点主题提取方法

技术领域

本发明涉及数字文本挖掘技术，特别是涉及文本的聚类以及相应的热点主题提取的方法。

背景技术

文本聚类多年来一直是研究学者致力于研究、探索和解决的热点问题之一，时至今日，仍有诸多难题亟需解决，例如在进行聚类时，样本不均衡，样本特征维度过高，聚类算法复杂度太大等都带来了极大的挑战。与此同时，伴随着计算机的快速发展，每天都有海量的文本数据生成，随着数据的激增我们进入了大数据的时代，伴随而来的是更多更复杂，更难解决的问题。

发明内容

为了克服上述现有技术存在的问题，本发明提出一种基于TF-IDF特征的短文本聚类以及热点主题提取方法，针对短文本样本，通过提取TF-IDF特征能够有效的进行短文本样本聚类以及相关热点主题的提取，结合并使用了TF-IDF特征、SVD奇异值分解、余弦定理、k-means聚类等技术，能够有效地进行短文本聚类、热点主题提取和数据挖掘与分析。

本发明提出了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤：

首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和k-means方法对短文本样本进行聚类，具体包括以下步骤：首先用户输入一个阈值，即类簇内所有样本间距离的平均值；采用k-means方法先对样本空间进行粗粒的聚类，紧接着对每一个类簇进行判断，判断类簇内的样本间相互的平均余弦距离是否大于阈值，如果大于则会进一步进行分割聚类，反之对于这个类的进一步分割则会停止；得到了所有样本的一个分类结果；并通过可视化的分析手段找出每一个类簇中潜在的热点主题。

与现有技术相比，本发明具有以下有益效果：

1、能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题，与此同时本方法还借助可视化技术来对聚类结果进行可视化分析，最后进行热点主题的提取和分析。

2、能够有效的处理短文本聚类问题，还能够有效地对每一个类簇中可能潜在的热点主题进行挖掘和分析。不仅展示了数据挖掘技术在文本分析方面的有效应用，还标志了知识工程走向工业化的借鉴意义。

3、能够帮助管理人员进行热点问题追踪，起到辅助、支持决策的作用

附图说明

图1为本发明整体流程示意图

图2为实施例的词汇频率分布图；

图3为实施例的词汇频率分布图(从小到大排序)；

图4为实施例的高频词汇频率分布图；

图5为实施例的部分高频词汇示例图；

图6为实施例的40万短文本样本的VSM示例图；

图7为实施例的300个奇异值的大小分布图(从大到小累加排列)；

图8为实施例的奇异值分解降低SVM维度示例图；

图9为实施例的聚类过程中每个类簇的百分比分布示例图；

图10为实施例的聚类完成后所以类簇层次分布图；

图11为实施例的聚类完成后所以类簇层次分布图。

具体实施方式

使本发明的目的、技术方案和优点更加清晰易懂，下面结合附图对本发明实施例进一步详细说明。

如图1所示，本发明的整体流程详述如下：

步骤1：使用正向最大匹配法对所有样本进行中文分词，紧接着对所有词出现的频率求和，求出所有词出现的的总词频，然后将所有词按其出现的频率从大到小排序，从词频最大的词开始按词频降低的顺序进行词汇选择，直到已经选择词的词频和与总词频的比例达到9:10，则停止，至此，筛选出频率较高的高频词汇。

步骤2：将步骤1筛选出的高频词汇作为样本特征，接下来要对每一个短文本样本进行TF-IDF特征提取和生成。TF-IDF可用于文本特征加权，其又叫做Term Frequency–Inverse DocumentFrequency。TF-IDF由两部分组成：TF和IDF。

TF为这一个词在一个样本中出现的次数(统计该样本中该词出现的次数)，假设d为具体的某一文本样本，t_n为第n个高频词汇(既一个特征)，则该特征的tf值计算公式如下：

tf(t_n,d＝NumberofTimes(t_n)

IDF为这一个词在所有样本中出现的次数(统计所有样本中一个词出现的次数)，假设D为所有文本样本集合，d为具体的某一个样本，t_n为第n个高频词汇(即一个特征)，则该特征的idf值计算公式如下：

TF和IDF两部分相乘，就能得到具体的一个高频词特征对于一个样本的重要程度。假设D为所有文本样本集合，d为具体的某一个样本，t_n为第n个高频词汇(既一个特征)，t_n则对于样本d的tf-idf计算公式如下：

f_n＝tf-idf(t_n，d，D)＝tf(t_n，d)*idf(t_n，D)

一个样本拥有诸多个特征(每个特征就是一个高频词)，因此对每一个样本就拥一堆特征值组成的一个特征向量。形式如下：

Feature Vector＝{f₁，f₂，f₃，...，f_n}

紧接着对所有样本进行特征向量的提取和建立后，得到由所有样本特征向量组成的高维度特征向量空间模型矩阵(VSM)。

步骤3：通过步骤2得到高维度特征向量控件模型(VSM)，接着奇异值分解(SVD)对样本空间进行维度约减，假设样本特征向量控件模型是一个m*n的矩阵M，则使用用奇异值分解(SVD)能够将其分解为三个矩阵的乘积，形式如下：

其中Σ_m×n矩阵的对角线上包含了SVD分解后的所有奇异值，并且从大到小排列，取前r个奇异值使得r个奇异值的奇异值之和占总奇异值之和的90％。这样成功的将特征向量样本空间的高维度约减到r维，这么一来不仅保留了原样本特征向量控件模型的90％特征，同时还达到维度约减的效果，得到维度为r的近似矩阵。形式如下：

步骤4：结合余弦定理和k-means方法对短文本样本进行聚类；

两个向量之间的方向是否相同可用两个向量之间夹角的余弦值来判断，如果两个向量之间的余弦值越接近1说明两个向量方向接近，如果余弦值越接近0说明两个向量方向垂直。

公式如下：

由于每个样本都拥有独一无二的特征向量，因此使用余弦相似度来衡量两个样本之间的相似度，假设两个样本的特征向量为和则样本相似度计算公式如下：

步骤5：如步骤4所述，在使用余弦定理来衡量样本见相似度的基础上，用改进的k-means聚类算法来对低纬度的VSM进行聚类，本方法在采用k-means聚类方法的基础上添加了算法自适应性，首先用户输入一个阈值(类簇内所有样本间距离的平均值)，算法采用k-means先对样本空间进行粗粒的聚类，紧接着算法能够对每一个类簇进行判断，判断类簇内的样本间相互的平均余弦距离是否大于预定义的阈值，如果大于则会进一步进行分割聚类，反之对于这个类的进一步分割则会停止。等算法最终停止，得到所有样本的一个分类结果。伪代码如下：

步骤6：通过步骤5得到了所有样本的分类结果，接着采用可视分析技术对每一个类簇间的特征之间的关系进行可视化显示与进一步分析，以此对每一类簇内的热点主题进行提取，帮助管理人员进行热点问题追踪，起到辅助、支持决策的作用。

在该实施例中，利用本发明的方法对约40多万条的短文本数据进行数据挖掘、分析和处理。这40多万条文本内容主要是描述了21万居民日常生活中遇到的实际问题。使用本发明方法进行短文本的聚类、热点主题提取、信息挖掘与分析，帮助县管理人员进行热点问题追踪，了解居民日常生活遇到的主要问题。为领导层的决策起到辅助、支持的作用。

本发明在40多万条短文本数据上的运用案例的详细实施方式如下：

首先对40多万条短文本样本数据进行中文分词，如图2所示为所有样本分词后每一个词的词频分布情况，共有1.4万左右的词汇，其中超高频词(超过5000)出现的比例并不多，而中频词(500-5000)出现的比例较多，低频词(少于500)出现的比例尤为多。如图3所示，对所有出现的词按出现频率从小到大进行排序，看到词频在5000以上的占少数，大部分词出现在500-5000之间，少于500的低频词虽然数目不少，可是由于其频率太低，不具有特征代表性。

基于上述分词结果进行高频词选择，使得已选择的高频词和未选择的词的词频比例达到9：1。图4所示为已选择的高频词的频率分布图，可以看出将词从1.4万降低到300个高频词作为特征维度。图5所示为部分高频词汇的示例图，例如“村名”出现了29021次，“生活情况”出现了7331次，“食品安全”出现了594次。伴随着300个高频词汇(既300个特征)的选择完毕，意味着针对每一个短文本样本，这样就可以用一个1*300的向量来表示一个短文本样本。

接着对每一个文本样本的300个特征维度进行TF-IDF的特征计算，TF-IDF由TF和IDF两部分相乘组成，通过计算一个特征的TF-IDF就能知道样本的该特征是否凸显。一个样本拥有300个特征，因此需要对每一个样本的300个特征维度进行计算，就能生成每一个样本的特征向量，所有样本的特征向量组成的矩阵就称之为VSM(样本特征向量空间模型)。图6所示为40多万条短文本样本的特征向量空间模型(VSM)示例图，其中每一列就是一个300*1的样本，代表着一个样本的300个特征，下方的部分放大图显示了每个样本在其300个特征维度上的凸显强度，每一个点越亮说明样本的该特征越凸显，反之则不凸显。整个VSM有40多万个样本，也直观的说明了特征向量空间模型(VSM)往往都有样本数量大，空间维度高，矩阵稀疏的特点。

当得到高维度的样本特征向量空间模型(VSM)后，使用SVD奇异值分解对样本空间矩阵进行分解，通过计算样本空间矩阵的奇异值并按大小从大到小排列，取前n个奇异值使得n个奇异值的奇异值之和占总奇异值之和的90％。如图7所示，300个奇异值从大到小的累加排列，x周表示取前n个最大的奇异值，对应的y为这n个奇异值之和占总奇异值之和的百分比。可以清楚的看到当取124个特征的时候能够保留原VSM的90％特性，当取182个特征的时候能高保留原VSM的95％特性，保留95％的特性，这样就成功的将特征向量样本空间的高维度约减到182维，图8展示了SVD后的VSM的特征维度，下方的放大图有些许模糊，这是维度约减所带来的不可避免的结果，尽管如此，仍保留了原样本特征向量控件模型的95％特征，同时还达到维度约减的效果。

紧接着在低维度的VSM(样本特征向量间模型)上，采用余弦相似度(余弦定理)来衡量两个样本之间的相似度，如果两个向量之间的余弦值越接近1说明两个样本越相似，应该被分为一类，如果两个样本越接近0说明两个样本越无关。并在此基础上结合改进过的自适应k-means聚类方法对样本进行样本聚类。改进后的k-means聚类方法添加了聚类自适应性，首先用户输入一个阈值(类簇内所有样本间距离的平均值)，算法采用k-means先对样本空间进行粗粒的聚类，紧接着算法能够对每一个类簇进行判断，判断类簇内的样本间相互的平均余弦距离是否大于预定义的阈值，如果大于则会进一步进行分割聚类，反之对于这个类的进一步分割则会停止。如图9所示，自适应聚类过程中类簇被进一步分割前后的比分布图，当聚类算法第一次迭代的时候样本被聚类为100个类簇左右，此时大部分类簇数量占总数量的比例都在2-4％之间，与此同时类簇内样本距离和高于阈值，需要进一步被分割。伴随着算法的迭代，我们看到类簇被进一步分割成200个，300个，400个最终当类簇达到500个左右的时候，算法停止，此时类簇内样本数量均低于总量的2％，同时所有类簇内的样本距离都小于阈值，算法停止。如图10所示，样本聚类完成后最终所有类簇的层次分布图。

接着，通过可视分析技术对每一个类簇间的特征之间的关系进行可视化显示与分析与热点主题的提取工作，将该类簇内样本中出现的词建立连接，并提关键主题。如图11所示，每一个圆环都是由182个高频词汇组成，每一个样本中出现的词会根据其在样本中出现的顺序用弧线依次链接，上方所有的40万个样本的词组成的圆环内词与词之间的链接是混乱复杂的，根本看不出任何规律，然而随着聚类算法的运行，每个类簇中特有的规律与模式开始显现，左下方就是其中某一个类簇中所有样本的词的链接与分布情况，通过分析该类簇发现其热点主题包括：人口增加问题，村名反映希望能够解决生活问题。

本方法通过可视化的方式，直观的反映村名生活中遇到的热点问题，有效的帮助管理人员进行热点问题追踪，同时对领导人员进行决策制定起到辅助和支持作用。

以上所述，仅为本发明的较佳实施例而已，用于帮助理解本发明的方法及核心思想，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，所以本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于，该方法包括以下步骤：