CN105159998A

CN105159998A - 一种基于文档聚类关键词计算方法

Info

Publication number: CN105159998A
Application number: CN201510566216.9A
Authority: CN
Inventors: 周辉; 段玉聪; 叶春杨; 王磊
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2015-09-08
Filing date: 2015-09-08
Publication date: 2015-12-16

Abstract

本发明涉及一种基于文档聚类关键词计算方法，所述方法包括(1)获取文本文档集合；(2)将文档集合中各文档内容采用分词算法进行词条切分；(3)建立文档向量；(4)采用TF-IDF计算文档向量：(5)对文档向量进行维度压缩；(6)进行文档聚类计算；(7)计算各组文档的代表性关键词。本发明的有益效果为：本发明提供了完整可行的计算步骤，并创新性地支持文档向量维度的压缩，计算效率高。本发明在执行文档向量的降维处理时，采用了不同于任何现有技术的一种简洁、高效的新方法。本发明是首个连接不同的环节，以切实可行的计算步骤，确保从文档集合中计算出代表性关键词的技术方案。

Description

一种基于文档聚类关键词计算方法

技术领域

本发明属于计算机数据挖掘领域，具体涉及一种基于文档聚类关键词计算方法。

背景技术

在互联网行业中，用户往往会采用关键词组的查找，找出能代表其兴趣浏览的文章。现有技术中，都是把给定的文档集合当成一个完整的不可分割的整体，并在其上计算代表性关键词。典型应用包括新闻网站的个性化阅读系统，能根据用户所浏览的新闻，计算出代表用户兴趣的一组关键词，并基于这组关键词推荐新的文章。但事实上，一个用户的兴趣往往包含多个方面，是分散的。因此，对应的文档集合可以划分为若干组文档，每组对应着用户的一个兴趣点，且每一组内部的文档之间相关性很高，但不同组的文档之间则相关性较低。

通常情况下，一篇文章的特征是通过一组词来表示的，一个文档集合可能包含若干文章，每篇文章包含成百上千个词条，因此最后算下来，整个文档集合包含了成千上万个不同的特征(词)。如此高维度的特征空间(文档向量空间)，不仅会增加聚类算法的处理时间，而且对算法的精度会产生不良的影响，因此在聚类之前，需要对文档的向量空间做降维处理。现有的技术中，包括分词、文档向量化，聚类等技术都已经在机器学习(文本挖掘)领域有专门的讨论。如何从给定的文档集合中，挖掘出代表性关键词也已经有不少应用。但是，如何整合一系列的技术，对文档集合做进一步的细化分组，并在分组上做代表性关键词的挖掘，却并没有具体的技术方案去实施。

发明内容

为了解决现有技术存在的上述问题，本发明提供了一种基于文档聚类关键词计算方法。基于文档聚类的代表性关键词计算，其目的是在给定的文档集合中，通过中文分词、词频计算、文档向量的维度压缩、聚类等操作，将文档划分到若干个组中，每个组包含了紧密相关的一部分文档，然后计算出每个组的代表性关键词，最终组合成整个文档集合的代表性关键词。

本发明所采用的技术方案为：

一种基于文档聚类关键词计算方法，其改进之处在于：所述方法包括

(1)获取文本文档集合；

(2)将文档集合中各文档内容采用分词算法进行词条切分；

(3)建立文档向量；

(4)采用TF-IDF计算文档向量：

(5)对文档向量进行维度压缩；

(6)进行文档聚类计算；

(7)计算各组文档的代表性关键词。

优选的，所述步骤(1)包括不限制文档集合的来源，可为一个或多个文档组成的集合，每个文档取出其中包含的正文文本，用以代表这个文档的内容。

进一步的，对图片、声音和视频多媒体文件的处理，则对其中包含的文本信息来组成集合。

优选的，所述步骤(2)包括采用任意中文或英文分词算法，将文本文档的内容做词条的切分；同时，去除标点符号，并去除哦、了、么和其他虚词。

优选的，所述步骤(3)包括将步骤(1)中文档集合中N个文档，步骤(2)中文档集合中各文档经过分词包含的M个词条，整个文档集合建立文档向量；其中，所述M个词条采用拼音顺序进行排序。

优选的，所述步骤(4)包括采用TF-IDF这种统计方法，用以评估步骤(2)中的某个词条对于步骤(1)文档集合中的其中一份文档的重要程度，并获取N个M维的TF-IDF文档向量；其中，词条的重要性取决于在文档中出现的次数成正比增加；TF表示词条在文档中出现的频率，IDF表示逆向文档频率。

优选的，所述步骤(5)包括对于步骤(3)建立的文档向量中文档集合中N个文档和文档集合中各文档经过分词包含的M个词条中，某个词条的出现率大于0，则该文档包含对应的词条，通过词条的出现率选取文档集合的代表性词条。

进一步的，所述文档向量中包含第1个词条的文档有N1个，包含第2个词条的文档数量有N2个，以此类推，第M个词条的文档数量为NM；将{N1，N2，N3，...，NM}从大到小排序，取排名前N*x所对应的词条，为本文档集合的代表性词条，其中，松散参数为x可根据用户设定修改。

优选的，所述步骤(6)包括对文档向量做维度压缩后，执行K-Means聚类算法，需要聚集而成的类数量个数设为C；其中，分组个数C需要用户在执行聚类计算前设置好，用户可根据分类的效果进行调整。

优选的，所述步骤(7)包括对C个分组的文档，再次执行步骤(4)中的操作，分别计算出每个分组的TF-IDF文档向量；对计算后文档向量排序，则可得文档分组中TF-IDF值最高词，最终组合成整个文档集合的代表性关键词。

本发明的有益效果为：

本发明提供了完整可行的计算步骤，包括获取文档集合、中文分词、TF-IDF计算、文档向量化、维度压缩、聚类、一直到最后的推荐关键词计算等所有必须的环节，并创新性地支持文档向量维度的压缩，计算效率高。

本发明在执行文档向量的降维处理时，采用了不同于任何现有技术的一种简洁、高效的新方法。

现有技术方案往往侧重与论述某一个技术环节。每一个环节，都较为独立且有不同的应用场景；本发明是首个连接不同的环节，以切实可行的计算步骤，确保从文档集合中计算出代表性关键词的技术方案。

附图说明

图1是本发明提供的一种基于文档聚类关键词计算方法流程示意图。

具体实施方式

本发明所涉及技术及其注解：

1、文本聚类：

文本聚类(TextClustering)文档聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。文本聚类，可以将一个相对较大的文档集合，划分成若干个子类，从而将相似的文档组织在同一个类里。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效组织、摘要和导航的重要手段。

文本聚类技术的应用主要有：

对用户感兴趣的文档(如用户浏览过的新闻或商品)执行聚类操作，从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务。

作为自然语言处理应用的预处理步骤。例如哥伦比亚大学研发的多文档文摘系统Newsblaster。Newsblaster将每天发生的重要新闻文本进行聚类处理，并对同主题文档进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档。

常见的文本聚类算法有划分法(代表性算法是K-Means)、层次法(代表性算法是BIRCH)、基于密度的方法(代表性算法是DBSCAN)等。

2、中文分词：

中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

中文在基本文法上有其特殊性，具体表现在：

中文词与词之间无明显分隔。与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词条之间没有分隔。古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。

在中文里，“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界很难去区分。例如：“对随地吐痰者给予处罚”，“随地吐痰者”本身是一个词还是一个短语，不同的人会有不同的标准。同样的，“生物化学”是一个词还是两个词，即使是同一个人也可能在不同的场景下做出不同判断。

中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。因此，虽然计算机无法理解某一句话的含义，但其可以通过中文分词，把其中的词条提取出来，进而在词条这个统一的单位上执行统计计算，实现一定程度的机器学习和文本挖掘功能。

3、TF-IDF计算：

TF-IDF是一种统计方法，用以评估一个词对于一个文档集合中的其中一份文档的重要程度。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。这意味着，字词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF实际上是：TF*IDF。TF词频(TermFrequency)，IDF逆向文档频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。

假如一篇文档的总词条数是100个，而词条“母牛”出现了3次，那么“母牛”一词在该文档中的词频就是3/100＝0.03。一个计算文档频率(IDF)的方法是测定有多少份文档出现过“母牛”一词，然后除以文档集合里包含的文档总数。所以，如果“母牛”一词在1，000份文档出现过，而文档总数是10，000，000份的话，其逆向文档频率就是log(10，000，000/1，000)＝4。最后的TF-IDF的分数为0.03*4＝0.12。

4、K-Means算法：

k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

K-Means算法流程：

首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

如图1所示，本发明提供了一种基于文档聚类关键词计算方法，具体方法如下：

第一步：获取文本文档集合：

进行深入的信息挖掘，需由一个或多个文档组成的集合。文档集合的来源，是多样化的，没有限制的。无论是用户的阅读记录，或是往来的电子邮件，或是出于某种考虑被放置在某个文件夹下的文档都可以。每个文档，取出其中包含的正文文本，用以代表这个文档的内容。另外，在这个过程中，对图片、声音、视频等多媒体文件的处理，主要是针对其中包含的文本信息来进行的。

例如，从某用户当天阅读的新闻中，随机取出10篇新闻内容，形成如下文档集合(示例仅含标题，正文略)：

文档1：微信电话本，再探运营商底线；

文档2：别让“抄袭风”毁了微信平台；

文档3：马化腾会是传统电信运营商的掘墓人吗；

文档4：响应“移动电商创新工程”惠及上海中小企业战略转型；

文档5：支付宝红包遭微信封杀；

文档6：阿里上线淘WiFi应用，可在全国600万个热点免费上网；

文档7：想在飞机上用WiFi？天价收费让人望而却步；

文档8：免费WiFi：互联网巨头的新战场；

文档9：微信圈广告噱头深精准浅；

文档10：授权与专利：诺基亚重返平板意欲何为？

其中，本实施例为方便理解，仅提供文档的标题。一般的文本分析中，标题与正文内容组成了文档主体；本发明适用于任意长度的标题和正文。

第二步：将文本文档中内容采用分词算法进行词条切分：

在确定了文档集合后，需要对集合中的每一个文档进行分词操作。现今的分词算法已经有很多，本步骤允许采用任意中文(英文)分词算法，只要其能将文本文档的内容做词条的切分即可。其中，分词越准确，则后续的处理就越准确。本实施例中，使用现成的逆向最大匹配算法，基于某个维护好的词典，将文档里的词分离出来。同时，文本分词还要能够去除标点符号，并去除哦、了、么等“虚词”。

正向匹配算法示例：

文本：小明喜欢研究生物化学；

结果：小明喜欢研究生物化学；

逆向匹配算法示例：

文本：小明喜欢研究生物化学；

结果：化学生物研究喜欢小明。

第三步：初步建立文档向量：

由于每个文档所包含的词，与其他文档或多或少都会存在不同，因此，建立文档向量，既能表示文档集合的所有的词，又能表示每个文档是否包含这个词，以及该词在文档中出现了多少次。其中，某文档集合中包含N个文档，M个词，则每个文档都用一个M维的向量来表示，整个文档集合用一组向量(N*M)来表示。

经过分词，前面的文档集合共包含55个词条(不含单字词)：

重返、掘墓、平板、在全国、万个、中小、巨头、专利、传统、红包、会是、电话本、企业战略、创新、上用、战场、上线、转型、精准、毁了、互联网、电商、免费、底线、响应、想在、免费上网、电信、望而却步、移动、让人、诺基亚、意欲何为、广告、工程、封杀、天价、平台、授权、微信、惠及、飞机、马化腾、阿里、运营商、别让、应用、抄袭、噱头、支付宝、热点、上海、wifi、收费、人吗；

将所有关键词按照字典顺序(拼音)排序：

Wifi、阿里、别让、抄袭、传统、创新、底线、电话本、电商、电信、飞机、封杀、工程、广告、红包、互联网、毁了、会是、惠及、精准、巨头、掘墓、马化腾、免费、免费上网、诺基亚、平板、平台、企业战略、让人、热点、人吗、上海、上线、上用、收费、授权、天价、万个、望而却步、微信、响应、想在、噱头、移动、意欲何为、应用、运营商、在全国、战场、支付宝、中小、重返、专利、转型；

文档1：“微信电话本，再探运营商底线”包含了微信、电话本、运营商、底线四个词条。之所以不包含再探这个词条，是因为分词所采用的词典中，并没有收录“再探”。当然，如果词典中加入了缺失的词，则分词结果中就包含该词。但再探是否能作为某个词条，在不同的应用环境中，有不同的定义，在此我们姑且认为“再探”不是一个词。而单字“再”和单字“探”，并不在我们的考虑中(这里为简化起见，仅考虑多字词，但本发明适用于单字词的情况)。

因此，文档1在微信(第41)、电话本(第8)、运营商(第48)、底线(第7)这4个分量上取值为1，其他分量取值为0。因此文档1对应的向量是

[0，0，0，0，0，0，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0]；

类似的，文档2包含了“别让”、“抄袭”、“毁了”、“微信”、“平台”共5个词条，对应的文档向量为

[0，0，1，1，0，0，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0]；

文档1-10共10个55维的向量，就构成了整个文档集合的向量空间。

第四步：计算出TF-IDF文档向量：

第三步中获得的文档向量，是常见的计数向量，即可以表示某词条在该文档中出现的次数。同样的，文档还可以拥有其他类型的向量，如词频TF、逆向文档向量IDF、以及非常重要的TF-IDF向量；

采用TF-IDF这种统计方法，用以评估某个词条对于文档集合中的其中一份文档的重要程度，并获取N个M维的TF-IDF文档向量；其中，词条的重要性取决于在文档中出现的次数成正比增加；TF表示词条在文档中出现的频率，IDF表示逆向文档频率。

假如一篇文档的词条总共有10个，而“微信”出现了3次，那么“微信”一词在该文档中的词频就是3/10＝0.3。一个计算文档频率的方法是测定有多少份文档出现过“微信”一词，然后除以文档集合里包含的文档总数。所以，如果“微信”一词在5份文档出现过，而文档总数是10份的话，其逆向文档频率就是log(10/5)＝0.3010。最后的TF-IDF的分数为0.3*0.3010＝0.0903。

经过计算，我们可以获得10个55维的TF-IDF文档向量。

第五步：对文档向量进行维度压缩：

现有的聚类算法，基本上都存在一个比较严重的问题，当文档向量M的维度太高时(M远大于文档数量N)，聚类的效果会非常差。在一般的情况下，100篇新闻的文档集合，能够包含的词数量将在3000～20000个左右。这导致的问题是维度爆炸：每一个词就代表一个维度，维度过多，文档聚类的效果会很差。如果100个新闻聚成5个类，则往往其中4个类都只包含1个文档，剩下的最后一个类包含了96个文档，这样的聚类效果基本不可用。

即使是示例中的10篇仅有标题的文档，其包含了55个不同的词(维度)，在使用聚类算法K-Means++后(设置为分成3个类)，获得的3个类分别包含1、1、8个文档。事实上，最后一个类中的8个文档，并不是紧密相关的。但是，采用以下方法把向量空间的维度压缩到20个时，获得的3个类分别包含3、3、4个文档。从用户的角度，本示例的10个文档其实含义是相对分散的，因此3：3：4的聚类效果，相比于1：1：8明显更为合理。

本发明采用一种计算简单，配置方便的维度压缩技术：

假设集合中文档数量为N，该文档集合共包含词条M个，松散参数为x。对于所有的文档向量，如果某分量大于0(某个词条的出现率大于0)，意味则该文档包含对应的词条，那么包含第1个词条的文档有N₁个，包含第2个词条的文档数量有N₂个。以此类推，包含最后的第M个词条的文档数量为N_M。

将{N₁，N₂，N₃，...，N_M}从大到小排序，取排名前N*x个分量(示例中N＝10，x＝2，则N*x＝20)，这些分量所对应的词条，就是本文档集合的代表性词条。后续的聚类计算，将只采用这N*x个分量。

第六步：进行文档聚类计算

在对文档向量做维度压缩后，执行现有的聚类算法(如K-Means++)，其中，需要聚集而成的类数量为C(C＝3)，聚类结果为：

第1组：

文档1：微信电话本，再探运营商底线；

文档2：别让“抄袭风”毁了微信平台；

文档9：微信圈广告噱头深精准浅；

第2组：

文档6：阿里上线淘WiFi应用可在全国600万个热点免费上网；

文档7：想在飞机上用WiFi？天价收费让人望而却步；

文档8：免费WiFi:互联网巨头的新战场；

第3组：

文档3：马化腾会是传统电信运营商的掘墓人吗；

文档5：支付宝红包，遭微信封杀；

文档10：授权与专利：诺基亚重返平板意欲何为？

需要注明的是，分组个数是需要用户(技术实现者)在执行聚类计算前设置好的，用户可根据分类的效果，来调整。在本实施例中，设置C＝3。

第七步：计算各组文档的代表性关键词：

对C个分组的文档，再次执行第四步中采用TF-IDF计算文档向量操作，分别计算出每个分组的TF-IDF文档向量。事实上，根据TF-IDF的定义，TF已经计算过一次，因此是不需要重新计算的。由于将每个文档分组都看成一个独立的文档集合，因此IDF的数值会发生变化，于是TF*IDF数值也会发生变化，需要重新计算。

对此文档向量排序，则得知第1个文档分组中TF-IDF值最高的词是(此处，我们的做法与传统的TF-IDF计算不同之处在于，如果某个词条的文档频率TF很高，则即使其最终的TF-IDF值较低，也将选出作为代表性关键词)：

微信

同样的，可得知第2个文档分组的代表性关键词是：

WiFi、免费

第3个文档分组的代表性关键词是：

运营商

于是，整个文档集合的代表性关键词组为：微信、WiFi、免费、运营商；

计算出的每个组代表性关键词，最终组合成整个文档集合的代表性关键词。

本发明不局限于上述最佳实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于文档聚类关键词计算方法，其特征在于：所述方法包括

(1)获取文本文档集合；

(2)将文档集合中各文档内容采用分词算法进行词条切分；

(3)建立文档向量；

(4)采用TF-IDF计算文档向量：

(5)对文档向量进行维度压缩；

(6)进行文档聚类计算；

(7)计算各组文档的代表性关键词。

2.根据权利要求1所述的一种基于文档聚类关键词计算方法，其特征在于：所述步骤(1)包括不限制文档集合的来源，可为一个或多个文档组成的集合，每个文档取出其中包含的正文文本，用以代表这个文档的内容。

3.根据权利要求2所述的一种基于文档聚类关键词计算方法，其特征在于：对图片、声音和视频多媒体文件的处理，则对其中包含的文本信息来组成集合。

4.根据权利要求1所述的一种基于文档聚类关键词计算方法，其特征在于：所述步骤(2)包括采用任意中文或英文分词算法，将文本文档的内容做词条的切分；同时，去除标点符号，并去除哦、了、么和其他虚词。

5.根据权利要求1所述的一种基于文档聚类关键词计算方法，其特征在于：所述步骤(3)包括将步骤(1)中文档集合中N个文档，步骤(2)中文档集合中各文档经过分词包含的M个词条，整个文档集合建立文档向量；其中，所述M个词条采用拼音顺序进行排序。

6.根据权利要求1所述的一种基于文档聚类关键词计算方法，其特征在于：所述步骤(4)包括采用TF-IDF这种统计方法，用以评估步骤(2)中的某个词条对于步骤(1)文档集合中的其中一份文档的重要程度，并获取N个M维的TF-IDF文档向量；其中，词条的重要性取决于在文档中出现的次数成正比增加；TF表示词条在文档中出现的频率，IDF表示逆向文档频率。

7.根据权利要求1所述的一种基于文档聚类关键词计算方法，其特征在于：所述步骤(5)包括对于步骤(3)建立的文档向量中文档集合中N个文档和文档集合中各文档经过分词包含的M个词条中，某个词条的出现率大于0，则该文档包含对应的词条，通过词条的出现率选取文档集合的代表性词条。

8.根据权利要求7所述的一种基于文档聚类关键词计算方法，其特征在于：所述文档向量中包含第1个词条的文档有N₁个，包含第2个词条的文档数量有N₂个，以此类推，第M个词条的文档数量为N_M；将{N₁，N₂，N₃，...，N_M}从大到小排序，取排名前N*x所对应的词条，为本文档集合的代表性词条，其中，松散参数为x可根据用户设定修改。

9.根据权利要求1所述的一种基于文档聚类关键词计算方法，其特征在于：所述步骤(6)包括对文档向量做维度压缩后，执行K-Means聚类算法，需要聚集而成的类数量个数设为C；其中，分组个数C需要用户在执行聚类计算前设置好，用户可根据分类的效果进行调整。

10.根据权利要求1所述的一种基于文档聚类关键词计算方法，其特征在于：所述步骤(7)包括对C个分组的文档，再次执行步骤(4)中的操作，分别计算出每个分组的TF-IDF文档向量；对计算后文档向量排序，则可得文档分组中TF-IDF值最高词，最终组合成整个文档集合的代表性关键词。