CN109508374B

CN109508374B - 基于遗传算法的文本数据半监督聚类方法

Info

Publication number: CN109508374B
Application number: CN201811373404.XA
Authority: CN
Inventors: 马文; 张新阳; 李辉
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2021-12-21
Anticipated expiration: 2038-11-19
Also published as: CN109508374A

Abstract

基于遗传算法的半监督文本聚类方法，可以应用到各专业领域如电力行业数据的文本数据分析中，通过tf‑idf将文本数据集中的文本进行特征权计算，并将根据特征权值进行初始聚类计算，按照遗传算法，将文本内重要特征词间平衡距离作为分类适应度，实现聚类结果的优化。通过人机交互对聚类结果进行审阅并根据经验知识对聚类结果进行修改和调整，再次运用遗传算法进行调整后聚类的迭代与二次优化，达到最终文本聚类的效果。本方法有效结合了文本数据无监督聚类方法的易用性与有监督聚类方法的准确性及计算高效性，能够有效平衡通常文本数据聚类分析与人工分类结果差别太大及计算资源消耗过多等问题，改善了文本聚类的运行效果。

Description

基于遗传算法的文本数据半监督聚类方法

技术领域

本申请涉及一种信息处理方法，具体的，涉及一种基于遗传算法的文本数据半监督聚类方法。可以用于电力行业文本数据的聚类分析，以及特征提取、语义扩展搜索等各类文本应用场景。

背景技术

文本聚类技术是基础性的文本数据处理技术，通过将大量的文本数据投影到一个特定的特征空间，并在特征空间内进行有效的变换，然后以某一标准将不同的文本分属不同的类别，从而实现文本的分类结果。文本聚类与文本分类操作对于进一步的文本处理具有很重要的意义，例如文本特征表达、知识提取、文本检索等。

文本聚类技术按照先验知识参与程度的高低可分为三类，即监督聚类、半监督聚类与无监督聚类，即三述三者需要提供的先验知识依次减少，而需要提供的先验知识的减小其代价就是需要投入训练及处理的数据量会急剧增大。相比于监督聚类及无监督聚类，半监督聚类方法能够较好地平衡所需要的原始数据集规模与先验知识规模，即通过提供一定的先验知识，能够非常有效地减小所需要的原始数据的数量，进入有效减少处理原始数据的计算资源、存储资源等资源消耗及。

文本聚类分析方法将文本划分为同类子组。传统的文本聚类方法是无监督的，不需要额外的标记也不需要任何已知的文本之间的关系。但实际在许多情况下，有关文本之间的先验知识是可以被加以利用的，如某两篇文本是已知属于同一类别的。更可能的情形则是在经过聚类之后，经过人工检视，可以将聚类形成的错误归类进行纠正。举例而言，若聚类方法已经将文本分为三个类别，以人工检视发现其类别可概括为科技、体育和广告，若其中若干篇文本经过人工校验认为应当从科技类更换到广告类，则可认为此过程即是先验知识输入聚类系统的过程，这一额外知识需要被聚类系统有效加以运用，从而有效地实现灵活的先验知识吸收功能。

智能算法是一类根据个体与环境交互从而建立环境认知的原理来设计的算法，目前处于快速发展的时期，通常用于处理最优化问题，即在庞大的解空间中找到可行的全局最优解。智能算法的具体定义目前还未在学界与产业界达成一致，但是通常认为在智能算法的范畴内包括进化算法、遗传算法、免疫算法、蚁群算法、粒子群优化算法等。

在遗传算法中，优化问题的解被称为个体，它可以被称为之染色体或者基因串的变量来表达。染色体根据问题的特征，可表达为简单的字符串或数值串，即问题解的数量化表达，此为编码过程。首先，算法通过初始化方法来生成一系列初始解，即产生一批初始化个体。初始化方法可以采用随机化算法或者基于天真策略的方法，通常智能算法不依赖于初始结果的质量。

在每一代中，都会评价每一个体，并通过价值函数计算得到针对个体的评价度量值，也称为适应度。按照评价度量值对种群个体进行降序排序。下一步是产生下一代个体并组成种群。这个过程通过选择和繁殖完成，其中繁殖包括交叉(crossover)和变异(mutation)。选择则是根据新个体的适应度进行，为防止早熟的出现，即算法快速收敛到局部最优解而无法接近全局最优解，需要有一定的容忍度来支持适应度低的个体获得繁殖机会。遗传算法总体上的原则是适应度越高，被选择的机会越高，而适应度低的，被选择的机会就低。初始个体可以通过选择过程形成一个相对优化的群体。之后，被选择的个体进入交叉过程。通过设置交叉概率，范围一般是0.6～1，每两个个体通过交叉产生两个新个体，代替原有个体，而不参与交叉的个体则保持不变。交叉父母的染色体相互交换，从而产生两个新的染色体，新染色体包括交叉双方的信息。新个体的产生也会有变异机制，即通过设置一个变异概率，例如0.1或更小，根据这个概率，新个体的染色体随机的突变，使新个体在某些方面与原个体存在一定规模的差异。

上述过程，即选择、交叉和突变，经过反复迭代，产生的新一代个体不同于老一代，并向增加整体适应度的方向发展，因为总是更常选择最好的个体产生下一代，而适应度低的个体逐渐被淘汰。迭代过程周而复始，直到终止条件满足为止。

遗传算法的突出特点在于其适应性较强，而且通过设置交叉率、变异率和价值函数，可以非常灵活地调整问题解的搜索过程。而且也能够适用于动态环境条件下，即价值函数会随着时间推移而不断变化的情形。半监督的文本聚类任务类似于一个引入了变化的环境条件，即文本的初始类别会根据人类的校验而改变其初始值，因此遗传算法能够较好地适用于半监督文本聚类过程。

因此，如何将遗传算法应用到半监督文本聚类成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种基于遗传算法和n元语法的文本数据半监督聚类方法，能够应用于专业领域和行业内文本数据的聚类分析，通过遗传算法能够有效地吸收人类对聚类结果校验引入的先验知识，从而改善聚类效率和效果，为进一步的文本深度分析提供基础性的分析成果。

为达此目的，本发明采用以下技术方案：

一种基于遗传算法的半监督文本聚类方法，包括如下步骤：

数据采集步骤S110：采集文本数据，建立待分类的初始文本数据集，初始文本数据集无须标记也无须存在特定的先验知识；

文本分词步骤S120：对所有的初始文本数据集中的文本数据进行分词，对词语进行词频统计，即针对每篇文本计算分词结果的出现次数；

词频统计步骤S130：计算每篇文档中词语的tf-idf值，作为每个分词词语的特征权重值；

初始聚类步骤S140：根据每篇文本所计算的特征词权重值，建立文本词向量，然后根据词向量之间的相互距离，依照K-means聚类方法，实现每个文本的初始聚类，即每篇文本都分配进入一个特定类别；

遗传算法参数选定步骤S150：选择遗传算法的关键运行参数设置，包括交叉率、变异率、选择算子；

遗传算法价值函数设置步骤S160：对每个聚类类别中的所有分词进行统计，并根据词频降序排序，取出前5％的分词或前50个分词，计算每篇文本中这些词语之间的最短距离，并将距离归一化，取其倒数作为遗传算法的价值函数取值；

遗传算法迭代步骤S170：将每一聚类类别作为遗传个体，将这些个体按照遗传算法的操作原则，进行选择、交叉与变异，实现反复迭代；

遗传算法迭代终止步骤S180:待所有个体适应度高于预定的标准或者迭代次数超过预定次数，则终止遗传迭代，将得到的聚类结果作为当前接受的结果。

可选的，在步骤S180后还具有：

人工审核校验步骤S190:通过人机交互的方式，对已聚类的文本进行审阅，根据经验知识，改正一些文本的类别；

遗传算法吸收经验知识步骤S195:根据人机交互后改正的文本聚类结果，重新运行遗传算法s160至S170，直到达到终止条件。

可选的，在初始聚类步骤S140中，其中所述建立文本词向量具体为将分词词语与特征权重值以二维向量形式保存。

可选的，在初始聚类步骤S140和遗传算法参数选定步骤S150之间，还具有向量降维步骤S145:采用哈希(HASH)降维的方式，对于上述的包括分词词语与特征权重值的二维向量进行降维，以降低计算的运算量。

可选的，在遗传算法参数选定步骤S150中，交叉率为0.8,变异率为0.05,选择算子为线性排序选择方法。

可选的，所述遗传算法价值函数设置步骤S160具体为：对于任意一个聚类C，将其中的所有分词按照tf-idf降序排列，形成W₁,W₂,…,W_n，n为所有分词的个数，取出前5％的分词或前50个分词即W₁,W₂,…,W_m，其中m＝min(n×5％,50)，任取其中两个分词W_i和W_j，计算每篇文本中两个词语之间的最短距离d_ij，若两个分词其中一个没有出现在某篇文本中，则将最短距离定义为该篇文本的长度，将每篇文本中的分词最短距离进行计算，然后求得每篇文本的平均词语最短距离

其中i≠j且i∈{1,2,…,m},j∈{1,2,…,m}，

为二项式系数，即

将同一个聚类中每篇文本的平均词语最短距离再求取平均值，即可以得到一个聚类中分词的平均最短距离，将所有聚类的平均最短距离中的最大值作为基准单位进行归一化，取归一化后距离的倒数值作为每个聚类的价值函数取值。

本发明还公开了一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行上述的基于遗传算法的半监督文本聚类方法。

本发明将基于遗传算法的半监督文本聚类方法应用到各专业领域如电力行业数据的文本数据分析中去，通过tf-idf将文本数据集中的文本进行特征权计算，并将根据特征权值进行初始聚类计算。按照遗传算法，将文本内重要特征词间平衡距离作为分类适应度，实现聚类结果的优化。通过人机交互对聚类结果进行审阅并根据经验知识对聚类结果进行修改和调整，再次运用遗传算法进行调整后聚类的迭代与二次优化，达到最终文本聚类的效果。本方法有效结合了文本数据无监督聚类方法的易用性与有监督聚类方法的准确性及计算高效性，能够有效平衡通常文本数据聚类分析与人工分类结果差别太大及计算资源消耗过多等问题，改善了文本聚类的运行效果。

附图说明

图1是根据本发明具体实施例的基于遗传算法的文本聚类方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明的基于遗传算法的半监督文本聚类方法应用到各专业领域如电力行业数据的文本数据分析中去，通过tftdf将文本数据集中的文本进行特征权计算，并将根据特征权值进行初始聚类计算，按照遗传算法，将文本内重要特征词间平衡距离作为分类适应度，实现聚类结果的优化。通过人机交互对聚类结果进行审阅并根据经验知识对聚类结果进行修改和调整，再次运用遗传算法进行调整后聚类的迭代与二次优化，达到最终文本聚类的效果。

具体的，参见图1，示出了根据本发明具体实施例的基于遗传算法的文本聚类方法的流程图，

基于遗传算法的半监督文本聚类方法，包括如下步骤：

关于tf-idf值的计算，是现有技术中的方法，也可以参见本文中后续部分的描述。

其中所述建立文本词向量具体为将分词词语与特征权重值以二维向量形式保存。

遗传算法参数选定步骤S150：选择遗传算法的关键运行参数设置，包括交叉率、变异率、选择算子。

在一个可选的实施例中，较为通用的运行参数设置是交叉率为0.8,变异率为0.05,选择算子为线性排序选择方法。

遗传算法价值函数设置步骤S160：对每个聚类类别中的所有分词的tf-idf进行降序排序，取出排序前5％或前50个分词的所有分词，计算每篇文本中这些词语之间的最短距离，并将距离归一化，取其倒数作为遗传算法的价值函数取值；

所述将距离归一化具体为：对于任意一个聚类C，将其中的所有分词按照tf-idf降序排列，形成W₁,W₂,…,W_n，n为所有分词的个数。取出前5％的分词或前50个分词即W₁,W₂,…,W_m，其中m＝min(n×5％,50)。任取其中两个分词W_i和W_j，计算每篇文本中两个词语之间的最短距离d_ij。若两个分词其中一个没有出现在某篇文本中，则将最短距离定义为该篇文本的长度。将每篇文本中的分词最短距离进行计算，然后求得每篇文本的平均词语最短距离

其中i≠j且i∈{1,2,…,m},j∈{1,2,…,m}，

为二项式系数，即

遗传算法迭代步骤S170：将每一聚类类别作为遗传个体，将这些个体按照遗传算法的操作原则，进行选择、交叉与变异，实现反复迭代。

进一步的，本发明还能够通过人机交互对聚类结果进行审阅并根据经验知识对聚类结果进行修改和调整，再次运用遗传算法进行调整后聚类的迭代与二次优化，达到最终文本聚类的效果。

具体为：

人工审核校验步骤S190:通过人机交互的方式，对已聚类的文本进行审阅，根据经验知识，改正一些文本的类别。

遗传算法吸收经验知识步骤S195:根据人机交互后改正的文本聚类结果，重新运行遗传算法S160至S170，直到达到终止条件；

所述终止条件类似于遗传算法迭代终止步骤S180,即所有个体适应度高于预定的标准或者迭代次数超过预定次数。

进一步的，还具有向量降维步骤S145:采用哈希(HASH)降维的方式，对于上述的包括分词词语与特征权重值的二维向量进行降维，以降低计算的运算量。

实施例：

对于一个已进行初始聚类的文本集{D_i}，设其所形成的聚类的个数为j，形成的各个聚类分别为C₁,C₂,…,C_j，其中

且有

对每个聚类C_i，计算其包含的所有词语的tfidf权值，并将这些词语权值接降序排列，取其最前10％词语作为主要特征词，计算每篇文本中这些特征词的最短距离，若一篇文本中不含有两词中的一个，则将此距离设置为该篇文本长度。求取每个聚类中各文本内的特征词平均距离，将该距离倒数作为各个聚类的适应度。将各个聚类按适应度进行降序排列，按照线性分配每个聚类被选择的概率，同时根据两个或多个聚类的交叉率进行交叉，即同时接受这几个聚类，但根据变异率实现聚类内部特征值平均距离较长的文本的重新聚类操作。未被选择的聚类其聚类结果将重新进行初始化。并进入下一轮的遗传计算。

在本文中对所使用到的现有技术，特作出说明。

基于tf-idf表示法的文本向量化

TF-IDF(term frequency-inverse document frequency)是一种统计方法，用以评估字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)。对于在某一特定文件里的词语t_i来说，它的重要性可表示为：

以上式子中n_i,j是该词在文件d_j中的出现次数，而∑_kn_k,j则是在文件d_j中所有字词的出现次数之和。

逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

其中

|D|：大型通用语料库中的文件总数

|{j:t_i∈d_j}|：包含词语t_i的文件数目(即n_i,j≠0的文件数目)如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用：

1+|{j:t_i∈d_j}|

然后计算：

tf-idf_i,j＝tf_i,j×idf_i

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

基于Hash Trick的文本向量化稀疏

在大规模的文本处理中，由于文本特征的高稀疏性，且特征的维度对应分词词汇表的大小，所以维度非常巨大，此时需要进行降维，而不能直接用我们传统的向量化方法。针对这一问题使用Hash Trick文本降维方法。

Hash Trick定义一个特征Hash后对应的哈希表的大小，这个哈希表的维度会远远小于我们的词汇表的特征维度，因此可以看成是对文本降维。具体的方法是，对应任意一个特征名，我们会用Hash函数找到对应哈希表的位置，然后将该特征名对应的词频统计值累加到该哈希表位置。如果用数学语言表示为：假如哈希函数h使第i个特征哈希到位置j(即h(i)＝j)，则第i个原始特征的词频数值φ(i)将累加到哈希后的第h个特征的词频数值

上，即：

其中J是原始特征的维度。

但是上面的方法中可能两个原始特征的哈希后位置在一起导致词频累加特征值突然变大，为了解决这个问题，出现了hash Trick的变种signed hash trick,此时除了哈希函数h,我们多了一个哈希函数：

此时:

哈希后的特征仍然是一个无偏的估计，不会导致某些哈希位置的值过大。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行上述的基于遗传算法的半监督文本聚类方法。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种基于遗传算法的半监督文本聚类方法，包括如下步骤：

遗传算法迭代终止步骤S180:待所有个体适应度高于预定的标准或者迭代次数超过预定次数，则终止遗传迭代，将得到的聚类结果作为当前接受的结果基于遗传算法；

在步骤S180后还具有：

所述遗传算法价值函数设置步骤S160具体为：对于任意一个聚类C，将其中的所有分词按照tf-idf降序排列，形成W₁,W₂,…,W_n，n为所有分词的个数，取出前5％的分词或前50个分词即W₁,W₂,…,W_m，其中m＝min(n×5％,50)，任取其中两个分词W_i和W_j，计算每篇文本中两个词语之间的最短距离d_ij，若两个分词其中一个没有出现在某篇文本中，则将最短距离定义为该篇文本的长度，将每篇文本中的分词最短距离进行计算，然后求得每篇文本的平均词语最短距离

其中i≠j且i∈{1,2,…,m},j∈{1,2,…,m}，

为二项式系数，即

2.根据权利要求1所述的基于遗传算法的半监督文本聚类方法，其特征在于：

在初始聚类步骤S140中，其中所述建立文本词向量具体为将分词词语与特征权重值以二维向量形式保存。

3.根据权利要求2所述的基于遗传算法的半监督文本聚类方法，其特征在于：

在初始聚类步骤S140和遗传算法参数选定步骤S150之间，还具有向量降维步骤S145:采用哈希(HASH)降维的方式，对于上述的包括分词词语与特征权重值的二维向量进行降维，以降低计算的运算量。

4.根据权利要求1所述的基于遗传算法的半监督文本聚类方法，其特征在于：

在遗传算法参数选定步骤S150中，交叉率为0.8,变异率为0.05,选择算子为线性排序选择方法。

5.一种存储介质，用于存储计算机可执行指令，其特征在于：所述计算机可执行指令在被处理器执行时执行权利要求1-4中任意一项所述的基于遗传算法的半监督文本聚类方法。