CN106354872A

CN106354872A - 文本聚类的方法及系统

Info

Publication number: CN106354872A
Application number: CN201610830223.XA
Authority: CN
Inventors: 李贤�; 陈振安; 王鹏
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2016-09-18
Filing date: 2016-09-18
Publication date: 2017-01-25
Anticipated expiration: 2036-09-18
Also published as: CN106354872B

Abstract

本发明涉及一种文本聚类的方法及系统，一种文本聚类的方法，包括以下步骤：在接收到待分类文本时，提取待分类文本的关键词；根据获取的最终词袋中的关键词，对待分类文本的关键词进行匹配，得到待分类文本的类型标签；最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。本发明通过已有标签的记录来提取每个标签对应的核心词，得到最终词袋，然后通过最终词袋中的核心词来分类每个待分类的文本，对于噪音数据有着很好的适应性，不会出现在有较多噪音情况下，准确率大幅下降的情况；通过质心大范围阈值化，大大提高模糊匹配的效果。

Description

文本聚类的方法及系统

技术领域

本发明涉及数字文本挖掘技术领域，特别是涉及一种文本聚类的方法及系统。

背景技术

传统的文本聚类技术主要基于TFIDF(Term frequency–inverse documentfrequency)的Rocchio算法，Rocchio算法来源于向量空间模型理论，向量空间模型Vectorspace model的基本思想为采用向量来表示一个文本，之后的处理过程就可以转化为空间中向量的运算。基于TFIDF的Rocchio是这种思想的一种实现方法，其中以一个N维向量来表示文本，向量维数N即特征数，向量分量是特征的某种权重，表示该权值的计算方法称为TFIDF方法。通过TFIDF方法，首先将训练集中的文本表示为向量，然后生成类别特征向量，即可以用来代表一个类别的向量，类别特征向量取值为该类中所有文本向量的平均值。

Rocchio算法训练的过程，其实就是建立类别特征向量的过程，分类的时候给定一个未知文本，先生成该文本的向量，然后计算该向量与各类别特征向量的相似度，最后将该文本分到与其最相似的类别中去。向量的相似度度量方法有两种：欧几里德距离和Cosin。

在实现过程中，发明人发现传统技术中至少存在如下问题：

Rocchio算法一般将一个类别的文档聚集在一个质心(质心表示一个文档，且该文档与类内文档之间的平均距离最小)的周围，而这样往往不符合实际情况；其次，Rocchio算法假设训练数据是绝对正确的(Rocchio算法没有任何定量衡量样本是否含有噪声的机制)，而这样会导致对错误数据毫无抵抗力；所以在文本聚类过程中应用Rocchio算法时，易出现准确率低且匹配效果差的问题。

发明内容

基于此，有必要针对传统的文本聚类方法准确率低、匹配效果差的问题，提供一种文本聚类的方法及系统。

为了实现上述目的，本发明技术方案的实施例为：

一方面，提供了一种文本聚类的方法，包括以下步骤：

在接收到待分类文本时，提取待分类文本的关键词；

根据获取的最终词袋中的关键词，对待分类文本的关键词进行匹配，得到待分类文本的类型标签；

最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

另一方面，提供了一种文本聚类的系统，包括：

提取关键词单元，用于在接收到待分类文本时，提取待分类文本的关键词；

匹配单元，用于根据获取的最终词袋中的关键词，对待分类文本的关键词进行匹配，得到待分类文本的类型标签；最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

上述技术方案具有如下有益效果：

本发明文本聚类的方法及系统，通过已有标签的记录来提取每个标签对应的核心词，得到最终词袋，然后通过最终词袋中的核心词来分类每个文本，可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题，从而对于噪音数据有着很好的适应性，不会出现在有较多噪音情况下，准确率大幅下降的情况；本发明直接比较词袋中的词，匹配的词越多越相似，可以避免质心唯一化，通过质心大范围阈值化，从而大大提高模糊匹配的效果。

附图说明

图1为本发明文本聚类的方法实施例1的流程示意图；

图2为本发明文本聚类的方法实施例1中获取最终词袋的流程示意图；

图3为本发明文本聚类的方法实施例2的流程示意图；

图4为本发明文本聚类的系统实施例1的结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明文本聚类的方法实施例1：

为了解决传统的文本聚类方法准确率低、匹配效果差的问题，本发明提供了一种文本聚类的方法实施例1；图1为本发明文本聚类的方法实施例1的流程示意图；如图1所示，可以包括以下步骤：

步骤S110：在接收到待分类文本时，提取待分类文本的关键词

步骤S120：根据获取的最终词袋中的关键词，对待分类文本的关键词进行匹配，得到待分类文本的类型标签；其中，最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

具体而言，本发明文本聚类的方法实施例1，通过已有标签的记录来提取每个标签对应的核心词得到的最终词袋，然后通过最终词袋中的核心词来分类每个待分类文本，可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题，从而对于噪音数据有着很好的适应性，不会出现在有较多噪音情况下，准确率大幅下降的情况。

在一个具体的实施例中，图2为本发明文本聚类的方法实施例1中获取最终词袋的流程示意图；如图2所示，可以基于以下步骤获取上述最终词袋：

步骤S210：提取各类型标签分别对应的各文本的关键词，生成包含对应关键词的各类标词袋；

步骤S220：根据预设的命中规则，获取各类标词袋中关键词出现的词频；

步骤S230：根据词频的大小，对类标词袋中的关键词进行排序；

步骤S240：根据预设的选取规则，对类标词袋中已排序的关键词进行筛选，得到最终词袋。

具体而言，类标词袋可以指一种通过类标提取出来用来文本分类的信息。本发明可以通过已有标签的记录来提取每个标签对应的核心词，然后通过核心词来分类每个文本，能够弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题，并且克服已有的Rocchio算法的缺点。

在一个具体的实施例中，步骤S210提取各类型标签分别对应的各文本的关键词的步骤可以包括：

根据TFIDF方法，获取文本中分词的TFDIF值；

将TFDIF值大于预设指标值的分词确定为文本的关键词。

具体而言，TF(term frequency)指分词出现的频率：该分词在该文档中出现的频率。IDF(inversedocument frequency)逆向文件频率，一个文档库中，一个分词出现在的文档数越少越能和其它文档区别开来。在记录描述中，当TFIDF大于0.1(即预设指标值)时可以认为是记录文字描述的关键词。

在一个具体的实施例中，步骤S220根据预设的命中规则，获取各类标词袋中关键词出现的词频的步骤可以包括：

对类型标签i的各文本的关键词出现的次数进行统计，获取关键词在类标词袋B_i下的词频

其中，n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数，且

预设的命中规则包括：将在同一个文本中出现多次的关键词的词频的值设为1；并基于以下公式对在多个文本中出现的相同关键词的词频进行处理：

其中m₁＜m₂。

在一个具体的实施例中，步骤S230根据词频的大小，对类标词袋中的关键词进行排序以及步骤S240基于排序的结果，根据预设的选取规则，对类标词袋中已排序的关键词进行筛选，得到最终词袋的步骤可以包括：

基于类标词袋B_i中关键词值，将从高到低进行排序；

根据预设的选取规则，对类标词袋B_i中的关键词进行选取，得到类型标签i对应的最终词袋

预设的选取规则包括：根据排序的结果，将类标词袋B_i中排序顺序落入预设百分比参考值范围内的关键词的集合确定为在时进行选取，其中i′≠i，表示中的关键词且

具体而言，可以按词频的大小排序，每个类型标签对应的词袋中有一堆词，这堆词按词频进行排序，为了是取前面具有代表性的词。即一种按频率(词频)从高到低的排序；而预设百分比参考值可以为经验数据。

在一个具体的实施例中，步骤S250在获取到待分类文本时，根据最终词袋中的关键词，对待分类文本的关键词进行匹配，得到待分类文本的类型标签的步骤可以包括：

对待分类文本D_j进行关键词提取，获取包含提取出的关键词的类标词袋并基于以下公式获取待分类文本D_j所属的类别：其中，argmax表示选择使括号内值最大的参数i；符号∩表示集合相交。

本发明文本聚类的方法实施例1，通过已有标签的记录来提取每个标签对应的核心词，然后通过核心词来分类每个文本，可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题，从而对于噪音数据有着很好的适应性，不会出现在有较多噪音情况下，准确率大幅下降的情况；本发明直接比较词袋中的词，匹配的词越多越相似，可以避免质心唯一化，通过质心大范围阈值化，从而大大提高模糊匹配的效果。

本发明文本聚类的方法实施例2：

为了解决传统的文本聚类方法准确率低、匹配效果差的问题，本发明还提供了一种文本聚类的方法实施例2；图3为本发明文本聚类的方法实施例2的流程示意图；如图3所示，可以包括以下步骤，生成关键词→通过关键词构造词袋→调整词袋→利用词袋分类，即包括：

步骤S310：根据TFIDF提取关键词；

TF可以基于以下公式进行计算：(该分词在该文档出现的次数)/(该文档分词的总数)，这个值越大表示这个词越重要，即权重就越大。

例如：一篇文档分词后，总共有500个分词，而分词”Hello”出现的次数是20次，则TF值是：tf＝20/500＝2/50＝0.04；

IDF可以基于以下公式进行计算：log((总文档数/出现该分词的文档数)+0.01)；(注加上0.01是为了防止log计算返回值为0)。

例如：一个文档库中总共有50篇文档，2篇文档中出现过“Hello”分词，则idf是：

Idf＝log(50/2+0.01)＝log(25.01)＝1.39811369；

TFIDF结合计算就是tf*idf,比如上面的“Hello”分词例子中：

TFIDF＝tf*idf＝(20/500)*log(50/2+0.01)＝0.04*1.39811369＝0.0559245476

在记录描述中，当TFIDF大于0.1(预设指标值)时可以认为是记录文字描述的关键词。

步骤S320：计算词袋中的词及其命中次数；

根据步骤S310计算每个类标i的每条记录的关键词其中n表示记录的序号n∈{1，2，....kⁱ}，m表示每条记录的关键词序号统计这些关键词在类标i下的词频关键词在一个记录中出现多次，只算一次。如果多条记录有相同关键词，即那么其中m₁＜m₂。通过这些关键词就可以构造类标i的词袋B_i。其中，命中次数表示匹配中的次数；词袋可以指一堆词的集合；

步骤S330：调整类标词袋；

根据步骤S320获得词袋中的词后，在词袋B_i中按关键词的值将从高到低进行排序。

在词袋B_i中对关键词进行选择，选择的规则是先取词袋中排序前40％(预设百分比参考值)的关键词集合记为中的关键词计为其中如果则选择，否则不选择，其中i'≠i；其中，40％即可作为预设百分比参考值；

通过步骤S330可以选出每个类标i所对应的最终词袋

步骤S340：利用类标词袋进行分类；

获得最终词袋后就可以进行文本分类了，对新来的文本D_j，分词后提取TFIDF大于0.1的词，放入词袋这个文本所属的类别

具体而言，本发明由于选择了类别最具代表性的核心词，而且这些核心词是唯一的即出现在一个类别中将不会出现在其他类别中了，这样对于噪音数据有着很好的适应性，不会出现Rocchio算法在有较多噪音情况下，准确率大幅下降的情况；其次，本发明不再如Rocchio算法求取平均向量，而是直接比较词袋中的词，匹配的词越多越相似，这样避免了Rocchio算法的质心唯一化，所有文本都需和此唯一质心比较，本发明中的算法能够使质心大范围阈值化，模糊匹配的效果更好。

在一个具体的实施例中，可以将本发明应用于采用已知的4条文本(或多条文本，此处仅举例说明)，括号中是上述文本的所属类别；

文本1：该节目打破了常规，做到孩子与爸爸视角转换，用孩子的眼光看爸爸，用孩子的话评论爸爸，用亲子的互动看教育，用科学方法增加亲子互动和了解，有效地提升父亲和孩子相互间契合度。由12名不同年龄、性格各异的小学生组成，从社会现象、经典儿童符号，到特殊出身、特殊外形等塑造一个个性鲜明、能够在线下广泛传播的节目标志群像。如：“超级质优生”、“天生宅男范儿”、“克隆金秀贤”等。(真人秀)

文本2：《爸爸！我们去哪儿？》是韩国MBC电视台推出的一档爱护子女的父亲们与试图聆听子女们心事，同时传达给孩子们无限父爱的节目。节目于2013年1月6日首播，每集约90分钟。播出数集后收视率便突破10％，并且稳定持续攀升，是一档受到了广大观众们的好评和喜爱的亲子节目。第二季节目将于2014年1月26日下午16:55首播，由成东日-成彬父女、尹民秀-尹厚父子、金成柱-金民律父子和柳镇-任灿亨父子、安贞焕-安立焕父子、金振彪-金圭媛父女组成。(真人秀)

文本3：“寻找非吃不可的美食，拼贴权威的美食地图！”在寻找中探寻美食背后的人物故事、历史文化，为观众提供最可信任的美食指南。栏目严格拒绝植入性广告，完全站在客观的立场推荐、评价，树立节目的权威性，打造京城美食地图的第一品牌！(美食)

文本4：美食地图新方向，就從我們的腳步开始，拼接出世界美食版图吧！(美食)

对以上4条文本，采用本发明实施例中方法进行处理，过程如下：

通过步骤S310提取到每条记录的关键词如下：

1.爸爸、孩子、亲子、科学、小学生、儿童、教育、节目、群像

2.爸爸、MBC、亲子、子女、父亲、收视率、首播、父女、孩子、观众。

3.美食、地图、京城、指南、植入、权威性、品牌

4、美食、地图、脚步、大版图、世界

通过步骤S320得到：

真人秀——(爸爸：2)(孩子：2)(亲子：2)(父亲：1)(小学生：1)(儿童：1)(教育：1)(节目：1)(群像：1)(MBC：1)(子女：1)(科学：1)(收视率：1)(首播：1)(父女：1)(观众：1)

美食——(美食：2)(地图：2)(京城：1)(指南：1)(植入：1)(权威性：1)(品牌：1)(脚步：1)(大版图：1)(世界：1)

通过步骤S330得到：

真人秀——爸爸、孩子、亲子、父亲、小学生、儿童

美食——美食、地图、京城、指南

通过步骤S340，对一个待分类的文本的聚类过程如下：

《爸爸请回答》这是一档亲子益智类节目，旨在向观众传递正能量，让更多的人更加重视亲子之间交流与互动。

提取关键词为：爸爸、亲子、益智、正能量、交流。

通过关键词匹配，爸爸和亲子两个词匹配得上，因此该待分类文本属于真人秀。

本发明文本聚类的系统实施例1：

基于以上方法的技术思想，同时为了解决传统的文本聚类方法准确率低、匹配效果差的问题，本发明还提供了一种文本聚类的系统实施例1；图4为本发明文本聚类的系统实施例1的结构示意图，如图4所示，可以包括：

提取关键词单元410，用于在接收到待分类文本时，提取待分类文本的关键词；

匹配单元420，用于根据获取的最终词袋中的关键词，对待分类文本的关键词进行匹配，得到待分类文本的类型标签；最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

在一个具体的实施例中，还包括最终词袋获取单元430；最终词袋获取单元430可以包括：

获取关键词模块432，用于提取各类型标签分别对应的各文本的关键词，生成包含对应关键词的各类标词袋；

获取词频模块434，用于根据预设的命中规则，获取各类标词袋中关键词出现的词频；

排序模块436，用于根据词频的大小，对类标词袋中的关键词进行排序；

筛选模块438，用于根据预设的选取规则，对类标词袋中已排序的关键词进行筛选，得到最终词袋。

在一个具体的实施例中，获取词频模块434包括：

统计模块500，用于对类型标签i的各文本的关键词出现的次数进行统计，获取关键词在类标词袋B_i下的词频

其中m₁＜m₂。

在一个具体的实施例中，排序模块436，用于基于类标词袋B_i中关键词的值，将从高到低进行排序；

筛选模块438，用于根据预设的选取规则，对类标词袋B_i中的关键词进行选取，得到类型标签i对应的最终词袋B_i；

在一个具体的实施例中，匹配单元420，用于对待分类文本D_j进行关键词提取，获取包含提取出的关键词的类标词袋并基于以下公式获取待分类文本D_j所属的类别：其中，argmax表示选择使括号内值最大的参数i；符号∩表示集合相交。

本发明文本聚类的系统实施例1，通过已有标签的记录来提取每个标签对应的核心词，得到最终词袋，然后通过最终词袋中的核心词来分类每个文本，可以弥补大量记录没有明确的标签或者被标为其他所带来的无法分类的问题，从而对于噪音数据有着很好的适应性，不会出现在有较多噪音情况下，准确率大幅下降的情况；本发明直接比较词袋中的词，匹配的词越多越相似，可以避免质心唯一化，通过质心大范围阈值化，从而大大提高模糊匹配的效果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本聚类的方法，其特征在于，包括以下步骤：

在接收到待分类文本时，提取所述待分类文本的关键词；

根据获取的最终词袋中的关键词，对所述待分类文本的关键词进行匹配，得到所述待分类文本的类型标签；所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

2.根据权利要求1所述的文本聚类的方法，其特征在于，基于以下步骤获取所述最终词袋：

提取各所述类型标签分别对应的各文本的关键词，生成包含对应关键词的各所述类标词袋；

根据预设的命中规则，获取各所述类标词袋中关键词出现的词频；

根据所述词频的大小，对所述类标词袋中的关键词进行排序；

根据预设的选取规则，对所述类标词袋中已排序的关键词进行筛选，得到所述最终词袋。

3.根据权利要求2所述的文本聚类的方法，其特征在于，

所述预设的命中规则包括：将在同一个文本中出现多次的关键词的词频的值设为1；并基于以下公式对在多个文本中出现的相同关键词的词频进行处理：其中m₁＜m₂；

根据所述预设的命中规则，获取各所述类标词袋中关键词出现的词频的步骤包括：

对类型标签i的各文本的关键词出现的次数进行统计，获取所述关键词在类标词袋B_i下的词频

4.根据权利要求3所述的文本聚类的方法，其特征在于，

根据所述词频的大小，对所述类标词袋中的关键词进行排序的步骤包括：

基于类标词袋B_i中关键词的值，将从高到低进行排序；

所述预设的选取规则包括：根据所述排序的结果，将类标词袋B_i中排序顺序落入预设百分比参考值范围内的关键词的集合确定为在时进行选取，其中i'≠i，表示中的关键词且

根据所述预设的选取规则，对所述类标词袋中已排序的关键词进行筛选，得到所述最终词袋的步骤包括：

根据预设的选取规则，对类标词袋B_i中的关键词进行选取，得到类型标签i对应的所述最终词袋

5.根据权利要求3或4所述的文本聚类的方法，其特征在于，根据获取的最终词袋中的关键词，对所述待分类文本的关键词进行匹配，得到所述待分类文本的类型标签的步骤包括：

对待分类文本D_j进行关键词提取，获取包含所述提取出的关键词的类标词袋并基于以下公式获取所述待分类文本D_j所属的类别i：

i = argmax ({\overset{&OverBar;}{B}}_{i} \cap B_{D_{j}});

其中，argmax表示选择使括号内值最大的参数i；符号∩表示集合相交；表示所述最终词袋。

6.一种文本聚类的系统，其特征在于，包括：

提取关键词单元，用于在接收到待分类文本时，提取所述待分类文本的关键词；

匹配单元，用于根据获取的最终词袋中的关键词，对所述待分类文本的关键词进行匹配，得到所述待分类文本的类型标签；所述最终词袋为根据预设的选取规则对各类标词袋中的关键词进行排序和筛选后得到的；所述类标词袋为对各类型标签分别对应的各文本进行关键词提取后生成的关键词的集合。

7.根据权利要求6所述的文本聚类的系统，其特征在于，还包括最终词袋获取单元；所述最终词袋获取单元包括：

获取关键词模块，用于提取各类型标签分别对应的各文本的关键词，生成包含对应关键词的各类标词袋；

获取词频模块，用于根据预设的命中规则，获取各所述类标词袋中关键词出现的词频；

排序模块，用于根据所述词频的大小，对所述类标词袋中的关键词进行排序；

筛选模块，用于根据预设的选取规则，对所述类标词袋中已排序的关键词进行筛选，得到最终词袋。

8.根据权利要求7所述的文本聚类的系统，其特征在于，所述获取词频模块包括：

统计模块，用于对类型标签i的各文本的关键词出现的次数进行统计，获取所述关键词在类标词袋B_i下的词频

其中，n表示文本的序号m表示各文本的关键词序号k表示类型标签i下文本的条数，且所述预设的命中规则包括：将在同一个文本中出现多次的关键词的词频的值设为1；并基于以下公式对在多个文本中出现的相同关键词的词频进行处理：

其中m₁＜m₂。

9.根据权利要求8所述的文本聚类的系统，其特征在于，

所述排序模块，用于基于类标词袋B_i中关键词的值，将从高到低进行排序；

所述筛选模块，用于根据预设的选取规则，对类标词袋B_i中的关键词进行选取，得到类型标签i对应的所述最终词袋

10.根据权利要求8或9所述的文本聚类的系统，其特征在于，

所述匹配单元，用于对待分类文本D_j进行关键词提取，获取包含所述提取出的关键词的类标词袋并基于以下公式获取所述待分类文本D_j所属的类别：

i = argmax ({\overset{&OverBar;}{B}}_{i} \cap B_{D_{j}});