CN104809229B

CN104809229B - 一种文本特征词提取方法及系统

Info

Publication number: CN104809229B
Application number: CN201510230545.6A
Authority: CN
Inventors: 殷俊
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-05-07
Filing date: 2015-05-07
Publication date: 2018-12-04
Anticipated expiration: 2035-05-07
Also published as: CN104809229A

Abstract

本发明公开一种文本特征词提取方法及系统，方法包括：从预设的训练集中提取出多个候选特征词组合，以一个染色体表示一个特征词组合，生成包括多个染色体的初始种群；适应度计算步骤，包括：对当代种群中的每个所述染色体，计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度，如果当代种群满足预设的输出条件，则根据预设的输出规则，输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合，否则执行交叉操作和执行变异操作后得到下一代种群，执行适应度计算步骤。本发明实现了基于遗传算法实现特征词的提取，可以获取比传统特征选择算法更加准确的特征词组合。

Description

一种文本特征词提取方法及系统

技术领域

本发明涉及文本分析相关技术领域，特别是一种文本特征词提取方法及系统。

背景技术

经典的向量空间模型(VSM:VectorSpaceModel)由Salton等人于60年代提出，并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。文本挖掘系统采用向量空间模型,用特征词条(T1,T2,…Tn)及其权值Wi代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。

当前常用特征选择算法如下：

1.特征频度(TF)指训练集中特征Tk出现的次数。这是最简单的特征选择方法。直观上，特征在文本集中出现次数越多，对文本分类的贡献越大。由于原始特征集中绝大部分是低频特征，因此，设定阈值对过滤低频特征非常有效，可以获得很大的降维度。就高频特征而言，特征的统计分布决定了文本分类的准确率。即当该高频特征均匀地分布在所有文本中时，对分类的作用将是有限的。因此，主要用在文本标引时直接删除某些低频特征。

2.文本频度(DF)是训练集中含有词条Tk的文本数在总文本数中出现的概率。其理论假设为稀有词条或者对分类作用不大，或者是噪声，可以被删除。文本频度较特征频度的统计粒度更粗一些，在实际运用中有一定的效果。但是如果某一稀有词条主要在某类文本中出现的情况下，可能会把该类的显著特征错误地过滤掉。实验表明，用TF和DF的组合进行特征选择可以得到更好的降维效果。

3.在文本分类中，特征t的信息增益(IG)如式(4)所示：

其中，为训练集中不出现特征t的文本数除以训练集的文本数，P(C_i|t)为类型C_i中t出现的文本数除以训练集中出现t的文本数。特征在文本中是否出现都将为文本分类提供信息，计算不同情况下的条件概率以确定提供的信息量的大小。信息增益是机器学习领域较为广泛的特征选择方法。利用特征取值情况划分训练样本空间，根据所获得信息量的多少选择相应特征。进行特征选择时，应该选择信息增益大的特征。

4.开方检验(CHI)，也叫X²统计量方法，有如下公式：

其中A表示包含特征词条t_i且属于类别c_j的文本频率；B表示包含t_i不包含c_j的文本频率；C表示不包含t_i属于c_j的文本频率；D表示不包含t_i也不属于c_j的文本频率；N＝A+B+C+D为总的文本数。特征词条的计算方法有两种：a：计算特征词条t_i相对于每个类的X²统计量值，然后取最大的最为该词条的最终。b：计算特征词条t_i相对于每个类的X²统计量值，然后计算这些值的平均值作为该特征词条的最终X²。最终，进行特征选择时，选择X²值大的特征。

现有技术方案的缺点：

前面介绍的特征选择方法各有利弊。实验表明IG和CHI算法明显好于TF、DF算法，但是也不是没有缺点。IG最大的问题还在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合)，而无法做“本地”的特征选择(每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重)。而CHI算法具有天生的“低频词缺陷”，因为它夸大了低频词的作用，甚至会出现有些情况，一个词在一类文章的每篇文档中都只出现了一次，其开方值却大过了在该类文章99％的文档中出现了10次的词，其实后面的词才是更具代表性的。

发明内容

基于此，有必要针对现有技术对特征词的选择准确性不高的技术问题，提供一种文本特征词提取方法及系统。

一种文本特征词提取方法，包括：

初始种群获取步骤，包括：从预设的训练集中提取出多个候选特征词，从所有候选特征词中选出多种特征词组合，每个特征词组合包括一个或多个候选特征词，以一个染色体表示一个特征词组合，生成包括多个染色体的初始种群，初始化迭代次数，将初始种群作为当代种群，执行适应度计算步骤；

适应度计算步骤，包括：对当代种群中的每个所述染色体，计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度，如果当代种群满足预设的输出条件，则根据预设的输出规则，输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合，否则，执行选择步骤；

选择步骤，包括：根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群，执行适应度计算步骤。

一种文本特征词提取系统，包括：

初始种群获取模块，用于：从预设的训练集中提取出多个候选特征词，从所有候选特征词中选出多种特征词组合，每个特征词组合包括一个或多个候选特征词，以一个染色体表示一个特征词组合，生成包括多个染色体的初始种群，初始化迭代次数，将初始种群作为当代种群，执行适应度计算模块；

适应度计算模块，用于：对当代种群中的每个所述染色体，计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度，如果当代种群满足预设的输出条件，则根据预设的输出规则，输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合，否则，执行选择模块；

选择模块，用于：根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群，执行适应度计算模块。

本发明实现了基于遗传算法实现特征词的提取，由于遗传算法具有很强的全局寻优能力和处理离散变量的特征，从而可以获取比传统特征选择算法更加准确的特征词组合。

附图说明

图1为本发明一种文本特征词提取方法的工作流程图；

图2为本发明一种文本特征词提取系统的结构模块图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图1所示为本发明一种文本特征词提取方法的工作流程图，包括：

步骤S101，包括：从预设的训练集中提取出多个候选特征词，从所有候选特征词中选出多种特征词组合，每个特征词组合包括一个或多个候选特征词，以一个染色体表示一个特征词组合，生成包括多个染色体的初始种群，将初始种群作为当代种群，执行步骤S102；

步骤S102，包括：对当代种群中的每个所述染色体，计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度，如果当代种群满足预设的输出条件，则根据预设的输出规则，输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合，否则，执行步骤S103；

步骤S103，包括：根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群，执行步骤S102。

步骤S101从训练集提取出候选特征词，并通过染色体方式表示包括一个或多个特征词的特征词组合，多个染色体组成了初始种群，染色体即种群中的个体。根据不同的文本分析目的，所提取出的候选特征词有所不同。例如，对于文本分类而言，则所提取出的候选特征词将用于对新的文本进行分类，而对于文本相似判断而言，则所提取出的候选特征词将用于判断文本的相似度。具体采用什么样的训练集及如何提取候选特征词，可以根据不同的文本分析目的进行设置。

步骤S102则是计算每个染色体的适应度，输出条件一般可以为：当代种群所包括的染色体的适应度满足预设适应度规则或者迭代次数超过预设最大阈值。即当地种群所包括具有适应度满足适应度规则的染色体。步骤S102～步骤S103是迭代过程，迭代次数是表示迭代的次数，为了避免迭代过程无法收敛，因此当超过预设的最大阈值时则结束迭代过程，输出相应的结果。所输出的结果，根据输出规则会有所不同。一般来说，输出规则为：如果当代种群所包括的染色体的适应度满足预设适应度规则输出当代种群中适应度满足预设适应度规则的染色体所表示的特征词组合，如果迭代次数超过最大阈值，则输出当代种群中的所有染色体所表示的特征词组合。步骤S102中所输出的特征词组合所包括的特征词，则为本发明所要提取得到的特征词。根据不同的文本分析目的，将特征词用于不同的文本分析过程。

本发明，根据遗传算法改进文本特征词提取算法，对原始遗传算法多个计算步骤进行改进，使其能够较好的应用于文本特征词问题当中。在实际测试过程中，取得了很好地效果。可以获取比传统特征选择算法更加准确的特征词组合。

在其中一个实施例中，染色体采用如下方式表示特征词组合：

将所有的候选特征词进行排序，每个候选特征词对应一个序号；

所述染色体中每个基因为一个候选特征词所对应的序号。

编码是应用遗传算法时要解决的首要问题，也是设计遗传算法的一个关键步骤。传统遗传算法采用二进制编码方式来建立解空间与染色体空间的一一对应关系。然而，文本特征词提取是一种无功优化多变量的复杂优化问题，由于其控制变量维数很多，采用二进制编码方式，为了保证问题的解具有一定的精度，则其染色体的编码串将很长，从而使遗传操作的计算量较大，计算时间增多，需要更多的内存空间，同时其搜索空间亦很大，导致搜索性能很差，收敛速度很慢。针对文本特征词选择问题的特点，本实施例采用整数类型作为编码方式，即每个基因表示一个特征词在所有候选特征词中的序号，采用特征词向量表示一个特征词组合，一个染色体就表示一个特征词向量，染色体长度等于特征词向量的长度。

在其中一个实施例中，所述步骤S103，具体包括：

对当代种群中的染色体的适应度进行排序，将排在前面的若干个染色体加入下一代种群，对当代种群的其他染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后加入下一代种群。

选择是最具有自然进行特色的操作之一，它是从所有母体中选取部分染色体组成繁殖库的过程。作为交叉和变异的前提，选择过程应保证越优良的染色体越有较大的几率被选中，而适应值低的染色体渐渐被淘汰，即所谓的“优胜劣汰”。

选择操作是建立在对染色体的适应度评价的基础之上，有时直接关系到收敛速度问题。本实施例对种群的适应度计算结果进行排序，对排在前面的染色体，直接进入下一代种群，而余下染色体通过执行交叉和变异来填充。

排在前面的染色体，可以是排在前N个的染色体，N为预设的大于0的自然数，或者是前M％的染色体，M为预设的正数。

在其中一个实施例中：

所述交叉概率为：其中P_c为当前染色体交叉概率，a为一个固定的值，用来设定初始交叉概率，i为迭代次数，f_max为当代种群最大适应度，f_min为当代种群最小适应度，f'为执行交叉操作的两个染色体的较大适应度；

所述变异概率为：其中P_m为变异概率，P_max为预设的最大变异概率，f”为执行变异操作的染色体的适应度。

在其中一个实施例中：

所述从预设的训练集中提取出多个候选特征词，具体包括：对预设的训练集中进行文本分词得到包括文本分词的文本分词结果，从文本分词结果中选择文本分词作为所述候选特征词；

所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度，具体包括：对预设的测试集采用每个所述染色体所表示的特征词组合进行文本分类得到关于每个特征词组合的分类准确率或者召回率，根据所述分类准确率或者所述召回率确定相应的染色体的适应度。

根据所述分类准确率或者所述召回率确定相应的染色体的适应度，可以是使染色体的适应度为分类准确率或者召回率的一个函数。

本实施例中，所有候选特征词可以通过对训练集进行文本分词得到文本分词结果，并从文本分词结果中使用传统特征词提取方法选取出来，然后通过本发明的方法，从中选择更短的更准确的特征词。初始种群可以从所有候选词中随机选出固定长度的特征词组成的染色体。

图2为本发明一种文本特征词提取系统的结构模块图，包括：

初始种群获取模块201，用于：从预设的训练集中提取出多个候选特征词，从所有候选特征词中选出多种特征词组合，每个特征词组合包括一个或多个候选特征词，以一个染色体表示一个特征词组合，生成包括多个染色体的初始种群，将初始种群作为当代种群，执行适应度计算模块202；

适应度计算模块202，用于：对当代种群中的每个所述染色体，计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度，如果当代种群满足预设的输出条件，则根据预设的输出规则，输出当代种群所包括的染色体所表示的特征词组合作为用于文本分析的输出特征词组合，否则，执行选择模块203；

选择模块203，用于：根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群，执行适应度计算模块203。

所述染色体中每个基因为一个候选特征词所对应的序号。

在其中一个实施例中，所述选择模块，具体包括：

在其中一个实施例中：

所述从预设的训练集中提取出多个候选特征词，具体用于：对预设的训练集中进行文本分词得到包括文本分词的文本分词结果，从文本分词结果中选择文本分词作为所述候选特征词；

所述计算每个所述染色体所表示的特征词组合对于预设的测试集的测试结果作为染色体的适应度，具体用于：对预设的测试集采用每个所述染色体所表示的特征词组合进行文本分类得到关于每个特征词组合的分类准确率或者召回率，根据所述分类准确率或者所述召回率确定相应的染色体的适应度。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本特征词提取方法，其特征在于，包括：

选择步骤，包括：根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群，执行适应度计算步骤；

染色体采用如下方式表示特征词组合：

所述染色体中每个基因为一个候选特征词所对应的序号。

2.根据权利要求1所述的文本特征词提取方法，其特征在于，所述选择步骤，具体包括：

3.根据权利要求1所述的文本特征词提取方法，其特征在于：

4.根据权利要求1所述的文本特征词提取方法，其特征在于：

5.一种文本特征词提取系统，其特征在于，包括：

选择模块，用于：根据染色体的适应度选择一个或多个染色体根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代种群，执行适应度计算模块；

染色体采用如下方式表示特征词组合：

所述染色体中每个基因为一个候选特征词所对应的序号。

6.根据权利要求5所述的文本特征词提取系统，其特征在于，所述选择模块，具体包括：

7.根据权利要求5所述的文本特征词提取系统，其特征在于：

8.根据权利要求5所述的文本特征词提取系统，其特征在于：