CN102200981B

CN102200981B - 面向多层文本分类的特征选择方法和装置

Info

Publication number: CN102200981B
Application number: CN 201010134535
Authority: CN
Inventors: 刘思培; 王进; 彭鸽; 姜赢
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2013-07-17
Anticipated expiration: 2030-03-25
Also published as: CN102200981A

Abstract

提供了一种面向多层文本分类的特征选择方法和装置。所述方法包括：基于CHI-X²和IG的叶节点特征选择、基于改进CHI-X²的分支节点特征选择、基于IG的分支节点特征选择以及组合CHI-X²和IG的分支节点特征选择，其中，基于改进CHI-X²的特征选择能够为相同分支下每个子节点选择更有效的独有特征；组合CHI-X²和IG的分支节点特征选择能够为每个分支节点获取其所有子节点的共有特征；能够获得分支节点的文本特征，并自底向上依次迭代直至当前分支节点为根节点，获得最终的文本特征集合。

Description

面向多层文本分类的特征选择方法和装置

技术领域

本发明涉及一种特征选择方法和装置，更具体地，涉及一种涉及使用CHI-X²策略和IG策略的面向多层文本分类的特征选择方法和装置。

背景技术

一般文本分类问题假定类别之间是没有任何联系相互孤立的，称之为单层模式(Flat)，图1A示出使用单层分类的文本分类方法。在更多情况中，类别较多且关系复杂，需要多层分类的组织方式，图1B示出使用多层分类的文本分类方法。对于多层文本分类问题，一般采用bing-Bang或自顶而下基于级别的两种策略，所使用的特征选择方法一般沿用单层分类的特征选择方法，其中最流行的是信息增益(IG)和X²检验(chi-square test，CHI-X²，也称为卡方检验)两种。

bing-Bang和自顶而下两种多层分类方法是对现有单层分类方法简单扩展而来，没能充分区分多层分类问题中不同类别的共有和独有特征，由此造成了现有的多层文本分类器分类效果不理想，准确率较低的问题。

bing-Bang策略在分类预测过程中使用同一个分类器，将类别树结构的所有叶节点看成平等的类，其本质上还是一种单层分类。单层文本分类特征选择时，是将所有叶节点看作一个整体进行特征权重计算、排序和选择，会造成子节点所选特征的不均衡，直接影响分类预测的准确性。

自顶而下基于级别的策略则是为不同类别或分支训练不同的分类器，每个分类器只关心当前分支的不同子节点类别。这种多个分类器的策略，所选取的特征只能够代表分支内各个子节点类别的独有性特征，没有反应出本分支节点与其他分支节点之间具有区分度的特征(即，分支内各个子节点的共性特征)，忽视了分支节点之间的相关性，造成分类模型错误率较高。

CHI-X²和IG是两种比较有代表性的特征权重计算及特征选择方法，能有效解决单层文本分类的特征选择问题，但它们对于多层文本分类问题，不能有效地区分子节点之间独有特征和公有特征，且引起所选择特征会出现不同节点或分支节点之间特征分布的不均衡问题。

发明内容

本发明的目的在于至少解决上述问题和/或缺点并至少提供以下描述的优点。

本发明提供了一种面向多层文本分类的特征选择方法，所述方法包括：基于CHI-X²对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；基于IG对特征提取的多层训练文本的各个叶节点的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；针对每个分支节点，在基于CHI-X²的叶节点权重计算的基础上，基于改进的CHI-X²权重计算公式，对当前分支节点下的所有叶节点的CHI-X²特征的权重取值进行调整并按照从大到小的顺序进行重新排序，将隶属同一子节点的每个叶节点的前K个位置的CHI-X²特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X²特征，依次将得到的子节点的CHI-X²特征向所述子节点隶属的上级节点进行汇总迭代，得到当前分支节点的CHI-X²特征，其中，所述获得分支节点的CHI-X²特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的CHI-X²特征，基于改进的CHI-X2权重计算公式的特征选择方法能够为相同分支节点下每个子节点选择更有效的独有特征；针对每个分支节点，在基于IG的叶节点权重计算的基础上，将当前分支节点下的所有子节点的IG特征进行汇总，并按照权重从大到小的顺序进行排序，将其结果作为当前分支节点的IG特征，其中，所述获得分支节点的IG特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的IG特征；针对每个分支节点，基于当前分支节点的CHI-X²特征和IG特征，从当前分支节点的CHI-X²特征中删除排在当前分支节点的IG特征中前N个位置的特征，添加排在当前分支节点的IG特征中后M个位置的特征，将新的CHI-X²特征作为当前分支节点的最终特征，基于组合的CHI-X²特征和IG特征的分支节点特征选择方法，能够为每个分支节点获取其所有子节点的共有特征。

改进的CHI-X²权重计算公式是：New_X²(t，C_i)＝(X²(t，Cⁱ))²/Sum(X²(t，*))，其中，C_i表示类别，t表示特征。

子节点是分支节点分支而来的节点。

本发明提供了一种面向多层文本分类的特征选择装置，所述装置包括：基于CHI-X²的叶节点特征选择模块，基于CHI-X²对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；基于IG的叶节点特征选择模块，基于IG对多层训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；基于改进CHI-X²的分支节点特征选择模块，针对每个分支节点，在基于CHI-X²的叶节点权重计算的基础上，基于改进的CHI-X²权重计算公式，对当前分支节点下的所有叶节点的CHI-X²特征的权重取值进行调整并按照从大到小的顺序进行重新排序，将隶属同一子节点的每个叶节点的前K个位置的CHI-X²特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X²特征，依次将得到的子节点的CHI-X²特征向所述子节点隶属的上级节点进行汇总迭代，得到当前分支节点的CHI-X²特征，其中，所述获得分支节点的CHI-X²特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的CHI-X²特征；基于IG的分支节点特征选择模块，针对每个分支节点，在基于IG的叶节点权重计算的基础上，将当前分支节点下的所有子节点的IG特征进行汇总，并按照权重从大到小的顺序进行排序，将其结果作为当前分支节点的IG特征，其中，获得分支节点的IG特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的IG特征；组合CHI-X²和IG的分支节点特征选择模块，针对每个分支节点，基于当前分支节点的CHI-X²特征和IG特征，从当前分支节点的CHI-X²特征中删除排在当前分支节点的IG特征中前N个位置的特征，添加排在当前分支节点的IG特征中后M个位置的特征，将新的CHI-X²特征作为当前分支节点的最终特征。

改进的CHI-X²权重计算公式是：New_X²(t，C_i)＝(X²(t，C_i))²/Sum(X²(t，*))，其中，C_i表示类别，t表示特征。

子节点是分支节点分支而来的节点。

将在接下来的描述中部分阐述本发明另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明的实施而得知。

附图说明

通过下面结合附图进行的描述，本发明的示例性实施例的上述和其它方面、特点和优点将会变得更加清楚，其中：

图1A示出使用单层分类的文本分类方法；

图1B示出使用多层分类的文本分类方法；

图2是示出根据本发明示例性实施例的面向多层文本分类的特征选择装置的示图；

图3是示出根据本发明示例性实施例的面向多层文本分类的特征选择方法的流程图。

具体实施方式

以下，参照附图来详细说明本发明的示例性实施例，其中，附图中相同的标号始终表示相同的部件。本发明不限于上述示例性实施例，在不脱离本发明范围的情况下，可以进行各种变形和修改。

图2是示出根据本发明示例性实施例的面向多层文本分类的特征选择装置的示图。

如图2所示，根据本发明示例性实施例的面向多层文本分类的特征选择装置包括：基于CHI-X²的叶节点特征选择模块201、基于改进CHI-X²的分支节点特征选择模块203、基于IG的叶节点特征选择模块205、基于IG的分支节点特征选择模块207以及组合CHI-X²和IG的分支节点特征选择模块209。

基于CHI-X²的叶节点特征选择模块201基于CHI-X²统计函数对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。应该注意，CHI-X²统计函数仅是示例性的，并不在于限制本发明的范围，另外，对多层训练文本进行特征提取的步骤属于现有技术，一般的自然语言分词工具即可实现，为了清楚和简洁，在此不做详细描述。这里，CHI-X²统计函数通过综合考虑所有叶节点中特征出现的文本频率的分布，CHI-X²权值越大表明该特征越能代表该类别的独有特性。CHI-X²统计函数如下所示：

X^{2} (t, C_{i}) = \frac{{(A \times D - B \times C)}^{2}}{(A + B) \times (C + D)}

其中，t表示特征，C_i表示第i个叶节点(类别)，A表示在本类别中出现特征的文本数，B表示其它类别中出现特征的文本数，C表示本类别中没有出现特征的文本数，D表示其它类别中没有出现特征的文本数，A+B表示出现特征的文本数，C+D表示没有出现特征的文本数。

基于IG的叶节点特征选择模块205基于IG信息增益函数对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。应该注意，IG信息增益函数仅是示例性的，并不在于限制本发明的范围。这里，对于特征t和第i个叶节点C_i，IG信息增益函数通过考察C_i中出现和不出现t的文档频率来衡量t对于C_i的信息增益。IG信息增益函数按照信息增益权重从大小排序，即按照特征的对本类贡献度进行排序，IG权重越大越能表示该类别的共性特征。IG信息增益函数如下所示：

IG (t, C) = p (t) \times \underset{i}{Σ} P (C_{i} / t) \times \log \frac{P (C_{i} / t)}{P (C_{i})} + P (\overset{&OverBar;}{t}) \times \underset{i}{Σ} P (C_{i} / \overset{&OverBar;}{t}) \times \log \frac{P (C_{i} / \overset{&OverBar;}{t})}{P (C_{i})}

其中，P(C_i/t)表示文本中出现特征t时，文本属于C_i的概率；表示文本中不出现特征t时，文本属于C_i的概率；P(C_i)表示C_i出现的概率；P(t)表示t在整个文本训练集中出现的概率，

表示除了t之外的其它特征在整个文本训练集中出现的概率，

P (\overset{&OverBar;}{t}) = 1 - P (t) .

需要说明的是，子节点是分支节点分支而来的节点，对于分类层次中的每个节点而言，对于其子节点其作用是分支节点，对于其上层节点则需看作是子节点，即，分支节点的子节点可以作为该子节点下级节点的分支节点。叶节点是最低等级的节点，根节点是最高等级的节点。

基于改进CHI-X²的分支节点特征选择模块203针对每个分支节点，在基于CHI-X²的叶节点权重计算的基础上，基于改进的CHI-X²权重计算公式，对当前分支节点下的所有叶节点的CHI-X²特征的权重取值进行调整并按照从大到小的顺序进行重新排序，将隶属当前分支节点下的同一子节点的每个叶节点的前K个位置的CHI-X²特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X²特征，依次将得到的当前分支节点下的子节点的CHI-X²特征向所述子节点隶属的上级节点进行汇总迭代，得到当前分支节点的CHI-X²特征，其中，所述获得分支节点的CHI-X²特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的CHI-X²特征。应该注意，对于分支节点的基于改进CHI-X²的特征选择，每次都是从叶节点开始，重新对叶节点的特征权重取值进行调整。即，先基于改进的CHI-X²权重计算公式调整每个叶节点的CHI-X²特征，然后依次选择前K个位置的特征向上级子节点汇总，再将得到的子节点的所有CHI-X²特征向上级节点汇总迭代，直至得到当前分支节点的CHI-X²特征，并自底向上依次迭代，得到所有分支节点的CHI-X²特征。这里，改进CHI-X²的分支节点特征选择是在每个叶节点中运用改进的CHI-X²权重计算公式调整每个特征的权值，并按照权值排序；对每个分支节点中所有叶节点，考虑相同特征在不同叶节点中的比例，调整该特征的CHI-X²权值。改进的CHI-X²权重计算公式如下所示：

New_X²(t，C_i)＝(X²(t，C_i))²/Sum(X²(t，*))

其中，t表示特征，C_i表示第i个叶节点(类别)，X²(t，C_i)表示第i个叶节点中特征t的权重，Sum(X2(t，*))表示当前分支下所有叶节点中特征t的权重之和，*是通配符，表示任意一个类别。

基于IG的分支节点特征选择模块207针对每个分支节点，在基于IG的叶节点权重计算的基础上，将当前分支节点下的所有子节点的IG特征进行汇总，并按照权重从大到小的顺序进行排序，将其结果作为当前分支节点的IG特征，其中，所述获得分支节点的IG特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的IG特征。应该注意，对于分支节点的基于IG的特征选择，是按照自底向上，仅将当前分支节点的子节点的IG特征进行汇总，而不需从叶节点重新进行计算。

组合CHI-X²和IG的分支节点特征选择模块209针对每个分支节点，基于当前分支节点的CHI-X²特征和IG特征，从当前分支节点的CHI-X²特征中删除排在当前分支节点的IG特征中前N个位置的特征，添加排在当前分支节点的IG特征中后M个位置的特征，将新的CHI-X²特征作为当前分支节点的最终特征，并利用每个分支节点的CHI-X²特征和IG特征最终得到所有分支节点的最终特征，形成最终特征集合。

如图3所示，在操作S301，基于CHI-X²对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。

在操作S303，基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。

在操作S305，针对每个分支节点，在基于CHI-X²的叶节点权重计算的基础上，基于改进的CHI-X²权重计算公式，对当前分支节点下的所有叶节点的CHI-X²特征的权重取值进行调整并按照从大到小的顺序进行重新排序，将隶属当前分支节点下的同一子节点的每个叶节点的前K个位置的CHI-X²特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X²特征，依次将得到的当前分支节点下的子节点的CHI-X²特征向所述子节点隶属的上级节点进行汇总迭代，得到当前分支节点的CHI-X²特征，其中，所述获得分支节点的CHI-X²特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的CHI-X²特征。

在操作S307，针对每个分支节点，在基于IG的叶节点权重计算的基础上，将当前分支节点下的所有子节点的IG特征进行汇总，并按照权重从大到小的顺序进行排序，将其结果作为当前分支节点的IG特征，其中，所述获得分支节点的IG特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的IG特征。

在操作S309，针对每个分支节点，基于当前分支节点的CHI-X²特征和IG特征，从当前分支节点的CHI-X²特征中删除排在当前分支节点的IG特征中前N个位置的特征，添加排在当前分支节点的IG特征中后M个位置的特征，将新的CHI-X²特征作为当前分支节点的最终特征，并利用每个分支节点的CHI-X²特征和IG特征最终得到所有分支节点的最终特征，形成最终特征集合。

应该注意，操作S301、S305可以与操作S303、S307同时执行，也可以先执行操作S301、S305再执行操作S303、S307，或者先执行操作S303、S307再执行操作S301、S305，即，本发明中操作S301、S305与操作S303、S307的执行顺序可以不是固定的。

根据本发明示例性实施例的面向多层文本分类的特征选择方法和装置所选的文本特征集合，既能充分代表各个子节点和叶节点的独有特征，也可以反映各个分支节点的共有特征。同时，根据本发明示例性实施例的面向多层文本分类的特征选择方法和装置训练产生的文本分类器，具有很好的全局性和分类准确率。与传统的自顶而下的多层次分类相比，避免了特征选择在不同分支中的不均衡性，与ping-Pang方式相比，则充分突出了同一分支下不同子节点的共性特征。针对20newsGroup的多层分类问题，与仅使用CHI-X²作为特征选择策略的方法相比，根据本发明示例性实施例的面向多层文本分类的特征选择方法和装置的文本分类准确率有5个百分点的提高。

虽然已经参照示例性实施例示出和描述了本发明，但是本领域的技术人员应该理解：在不脱离由权利要求定义的本发明的精神和范围的情况下，可以进行形式和细节上的各种改变。

Claims

1.一种面向多层文本分类的特征选择方法，所述方法包括：

基于CHI-X²对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；

基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；

针对每个分支节点，在基于CHI-X²的叶节点权重计算的基础上，基于改进的CHI-X²权重计算公式，对当前分支节点下的所有叶节点的CHI-X²特征的权重取值进行调整并按照从大到小的顺序进行重新排序，将隶属同一子节点的每个叶节点的前K个位置的CHI-X²特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X²特征，依次将得到的子节点的CHI-X²特征向所述子节点隶属的上级节点进行汇总迭代，得到当前分支节点的CHI-X²特征，其中，获得分支节点的CHI-X²特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的CHI-X²特征；

针对每个分支节点，在基于IG的叶节点权重计算的基础上，将当前分支节点下的所有子节点的IG特征进行汇总，并按照权重从大到小的顺序进行排序，将其结果作为当前分支节点的IG特征，其中，获得分支节点的IG特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的IG特征；

针对每个分支节点，基于当前分支节点的CHI-X²特征和IG特征，从当前分支节点的CHI-X²特征中删除排在当前分支节点的IG特征中前N个位置的特征，添加排在当前分支节点的IG特征中后M个位置的特征，将新的CHI-X²特征作为当前分支节点的最终特征，

其中，K、M、N均为正整数，

其中，改进的CHI-X²权重计算公式是：

New_X²(t，C_i)＝(X²(t，C_i))²/Sum(X²(t，*))，

其中，C_i表示第i个叶节点，t表示特征，X²(t，C_i)表示第i个叶节点中特征t的权重，Sum(X²(t，*))表示当前分支下所有叶节点中特征t的权重之和，*是通配符，表示任意一个叶节点。

2.如权利要求1所述的特征选择方法，其中，子节点是分支节点分支而来的节点。

3.一种面向多层文本分类的特征选择装置，所述装置包括：

基于CHI-X²的叶节点特征选择模块，基于CHI-X²对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；

基于IG的叶节点特征选择模块，基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算，并将各个叶节点的文本特征按照权重从大到小的顺序进行排序；

基于改进CHI-X²的分支节点特征选择模块，针对每个分支节点，在基于CHI-X²的叶节点权重计算的基础上，基于改进的CHI-X²权重计算公式，对当前分支节点下的所有叶节点的CHI-X²特征的权重取值进行调整并按照从大到小的顺序进行重新排序，将隶属同一子节点的每个叶节点的前K个位置的CHI-X²特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X²特征，依次将得到的子节点的CHI-X²特征向所述子节点隶属的上级节点进行汇总迭代，得到当前分支节点的CHI-X²特征，其中，获得分支节点的CHI-X²特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的CHI-X²特征；

基于IG的分支节点特征选择模块，针对每个分支节点，在基于IG的叶节点权重计算的基础上，将当前分支节点下的所有子节点的IG特征进行汇总，并按照权重从大到小的顺序进行排序，将其结果作为当前分支节点的IG特征，其中，获得分支节点的IG特征的步骤从最底层的分支节点开始，自底向上依次迭代直至当前分支节点为根节点，得到所有分支节点的IG特征；

组合CHI-X²和IG的分支节点特征选择模块，针对每个分支节点，基于当前分支节点的CHI-X²特征和IG特征，从当前分支节点的CHI-X²特征中删除排在当前分支节点的IG特征中前N个位置的特征，添加排在当前分支节点的IG特征中后M个位置的特征，将新的CHI-X²特征作为当前分支节点的最终特征，

其中，K、M、N均为正整数，

其中，改进的CHI-X²权重计算公式是：

New_X²(t，C_i)＝(X²(t，C_i))²/Sum(X²(t，*))，

4.如权利要求3所述的特征选择装置，其中，子节点是分支节点分支而来的节点。