CN102200981B - 面向多层文本分类的特征选择方法和装置 - Google Patents

面向多层文本分类的特征选择方法和装置 Download PDF

Info

Publication number
CN102200981B
CN102200981B CN 201010134535 CN201010134535A CN102200981B CN 102200981 B CN102200981 B CN 102200981B CN 201010134535 CN201010134535 CN 201010134535 CN 201010134535 A CN201010134535 A CN 201010134535A CN 102200981 B CN102200981 B CN 102200981B
Authority
CN
China
Prior art keywords
feature
node
chi
branch node
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010134535
Other languages
English (en)
Other versions
CN102200981A (zh
Inventor
刘思培
王进
彭鸽
姜赢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN 201010134535 priority Critical patent/CN102200981B/zh
Publication of CN102200981A publication Critical patent/CN102200981A/zh
Application granted granted Critical
Publication of CN102200981B publication Critical patent/CN102200981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种面向多层文本分类的特征选择方法和装置。所述方法包括:基于CHI-X2和IG的叶节点特征选择、基于改进CHI-X2的分支节点特征选择、基于IG的分支节点特征选择以及组合CHI-X2和IG的分支节点特征选择,其中,基于改进CHI-X2的特征选择能够为相同分支下每个子节点选择更有效的独有特征;组合CHI-X2和IG的分支节点特征选择能够为每个分支节点获取其所有子节点的共有特征;能够获得分支节点的文本特征,并自底向上依次迭代直至当前分支节点为根节点,获得最终的文本特征集合。

Description

面向多层文本分类的特征选择方法和装置
技术领域
本发明涉及一种特征选择方法和装置,更具体地,涉及一种涉及使用CHI-X2策略和IG策略的面向多层文本分类的特征选择方法和装置。
背景技术
一般文本分类问题假定类别之间是没有任何联系相互孤立的,称之为单层模式(Flat),图1A示出使用单层分类的文本分类方法。在更多情况中,类别较多且关系复杂,需要多层分类的组织方式,图1B示出使用多层分类的文本分类方法。对于多层文本分类问题,一般采用bing-Bang或自顶而下基于级别的两种策略,所使用的特征选择方法一般沿用单层分类的特征选择方法,其中最流行的是信息增益(IG)和X2检验(chi-square test,CHI-X2,也称为卡方检验)两种。
bing-Bang和自顶而下两种多层分类方法是对现有单层分类方法简单扩展而来,没能充分区分多层分类问题中不同类别的共有和独有特征,由此造成了现有的多层文本分类器分类效果不理想,准确率较低的问题。
bing-Bang策略在分类预测过程中使用同一个分类器,将类别树结构的所有叶节点看成平等的类,其本质上还是一种单层分类。单层文本分类特征选择时,是将所有叶节点看作一个整体进行特征权重计算、排序和选择,会造成子节点所选特征的不均衡,直接影响分类预测的准确性。
自顶而下基于级别的策略则是为不同类别或分支训练不同的分类器,每个分类器只关心当前分支的不同子节点类别。这种多个分类器的策略,所选取的特征只能够代表分支内各个子节点类别的独有性特征,没有反应出本分支节点与其他分支节点之间具有区分度的特征(即,分支内各个子节点的共性特征),忽视了分支节点之间的相关性,造成分类模型错误率较高。
CHI-X2和IG是两种比较有代表性的特征权重计算及特征选择方法,能有效解决单层文本分类的特征选择问题,但它们对于多层文本分类问题,不能有效地区分子节点之间独有特征和公有特征,且引起所选择特征会出现不同节点或分支节点之间特征分布的不均衡问题。
发明内容
本发明的目的在于至少解决上述问题和/或缺点并至少提供以下描述的优点。
本发明提供了一种面向多层文本分类的特征选择方法,所述方法包括:基于CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;基于IG对特征提取的多层训练文本的各个叶节点的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,所述获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征,基于改进的CHI-X2权重计算公式的特征选择方法能够为相同分支节点下每个子节点选择更有效的独有特征;针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,所述获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征,基于组合的CHI-X2特征和IG特征的分支节点特征选择方法,能够为每个分支节点获取其所有子节点的共有特征。
改进的CHI-X2权重计算公式是:New_X2(t,Ci)=(X2(t,Ci))2/Sum(X2(t,*)),其中,Ci表示类别,t表示特征。
子节点是分支节点分支而来的节点。
本发明提供了一种面向多层文本分类的特征选择装置,所述装置包括:基于CHI-X2的叶节点特征选择模块,基于CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;基于IG的叶节点特征选择模块,基于IG对多层训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;基于改进CHI-X2的分支节点特征选择模块,针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,所述获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征;基于IG的分支节点特征选择模块,针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;组合CHI-X2和IG的分支节点特征选择模块,针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征。
改进的CHI-X2权重计算公式是:New_X2(t,Ci)=(X2(t,Ci))2/Sum(X2(t,*)),其中,Ci表示类别,t表示特征。
子节点是分支节点分支而来的节点。
将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
通过下面结合附图进行的描述,本发明的示例性实施例的上述和其它方面、特点和优点将会变得更加清楚,其中:
图1A示出使用单层分类的文本分类方法;
图1B示出使用多层分类的文本分类方法;
图2是示出根据本发明示例性实施例的面向多层文本分类的特征选择装置的示图;
图3是示出根据本发明示例性实施例的面向多层文本分类的特征选择方法的流程图。
具体实施方式
以下,参照附图来详细说明本发明的示例性实施例,其中,附图中相同的标号始终表示相同的部件。本发明不限于上述示例性实施例,在不脱离本发明范围的情况下,可以进行各种变形和修改。
图2是示出根据本发明示例性实施例的面向多层文本分类的特征选择装置的示图。
如图2所示,根据本发明示例性实施例的面向多层文本分类的特征选择装置包括:基于CHI-X2的叶节点特征选择模块201、基于改进CHI-X2的分支节点特征选择模块203、基于IG的叶节点特征选择模块205、基于IG的分支节点特征选择模块207以及组合CHI-X2和IG的分支节点特征选择模块209。
基于CHI-X2的叶节点特征选择模块201基于CHI-X2统计函数对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。应该注意,CHI-X2统计函数仅是示例性的,并不在于限制本发明的范围,另外,对多层训练文本进行特征提取的步骤属于现有技术,一般的自然语言分词工具即可实现,为了清楚和简洁,在此不做详细描述。这里,CHI-X2统计函数通过综合考虑所有叶节点中特征出现的文本频率的分布,CHI-X2权值越大表明该特征越能代表该类别的独有特性。CHI-X2统计函数如下所示:
X 2 ( t , C i ) = ( A × D - B × C ) 2 ( A + B ) × ( C + D )
其中,t表示特征,Ci表示第i个叶节点(类别),A表示在本类别中出现特征的文本数,B表示其它类别中出现特征的文本数,C表示本类别中没有出现特征的文本数,D表示其它类别中没有出现特征的文本数,A+B表示出现特征的文本数,C+D表示没有出现特征的文本数。
基于IG的叶节点特征选择模块205基于IG信息增益函数对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。应该注意,IG信息增益函数仅是示例性的,并不在于限制本发明的范围。这里,对于特征t和第i个叶节点Ci,IG信息增益函数通过考察Ci中出现和不出现t的文档频率来衡量t对于Ci的信息增益。IG信息增益函数按照信息增益权重从大小排序,即按照特征的对本类贡献度进行排序,IG权重越大越能表示该类别的共性特征。IG信息增益函数如下所示:
IG ( t , C ) = p ( t ) × Σ i P ( C i / t ) × log P ( C i / t ) P ( C i ) + P ( t ‾ ) × Σ i P ( C i / t ‾ ) × log P ( C i / t ‾ ) P ( C i )
其中,P(Ci/t)表示文本中出现特征t时,文本属于Ci的概率;表示文本中不出现特征t时,文本属于Ci的概率;P(Ci)表示Ci出现的概率;P(t)表示t在整个文本训练集中出现的概率,
Figure GSA00000045327100053
表示除了t之外的其它特征在整个文本训练集中出现的概率, P ( t ‾ ) = 1 - P ( t ) .
需要说明的是,子节点是分支节点分支而来的节点,对于分类层次中的每个节点而言,对于其子节点其作用是分支节点,对于其上层节点则需看作是子节点,即,分支节点的子节点可以作为该子节点下级节点的分支节点。叶节点是最低等级的节点,根节点是最高等级的节点。
基于改进CHI-X2的分支节点特征选择模块203针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属当前分支节点下的同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的当前分支节点下的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,所述获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征。应该注意,对于分支节点的基于改进CHI-X2的特征选择,每次都是从叶节点开始,重新对叶节点的特征权重取值进行调整。即,先基于改进的CHI-X2权重计算公式调整每个叶节点的CHI-X2特征,然后依次选择前K个位置的特征向上级子节点汇总,再将得到的子节点的所有CHI-X2特征向上级节点汇总迭代,直至得到当前分支节点的CHI-X2特征,并自底向上依次迭代,得到所有分支节点的CHI-X2特征。这里,改进CHI-X2的分支节点特征选择是在每个叶节点中运用改进的CHI-X2权重计算公式调整每个特征的权值,并按照权值排序;对每个分支节点中所有叶节点,考虑相同特征在不同叶节点中的比例,调整该特征的CHI-X2权值。改进的CHI-X2权重计算公式如下所示:
New_X2(t,Ci)=(X2(t,Ci))2/Sum(X2(t,*))
其中,t表示特征,Ci表示第i个叶节点(类别),X2(t,Ci)表示第i个叶节点中特征t的权重,Sum(X2(t,*))表示当前分支下所有叶节点中特征t的权重之和,*是通配符,表示任意一个类别。
基于IG的分支节点特征选择模块207针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,所述获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征。应该注意,对于分支节点的基于IG的特征选择,是按照自底向上,仅将当前分支节点的子节点的IG特征进行汇总,而不需从叶节点重新进行计算。
组合CHI-X2和IG的分支节点特征选择模块209针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征,并利用每个分支节点的CHI-X2特征和IG特征最终得到所有分支节点的最终特征,形成最终特征集合。
图3是示出根据本发明示例性实施例的面向多层文本分类的特征选择方法的流程图。
如图3所示,在操作S301,基于CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。
在操作S303,基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序。
在操作S305,针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属当前分支节点下的同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的当前分支节点下的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,所述获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征。
在操作S307,针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,所述获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征。
在操作S309,针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征,并利用每个分支节点的CHI-X2特征和IG特征最终得到所有分支节点的最终特征,形成最终特征集合。
应该注意,操作S301、S305可以与操作S303、S307同时执行,也可以先执行操作S301、S305再执行操作S303、S307,或者先执行操作S303、S307再执行操作S301、S305,即,本发明中操作S301、S305与操作S303、S307的执行顺序可以不是固定的。
根据本发明示例性实施例的面向多层文本分类的特征选择方法和装置所选的文本特征集合,既能充分代表各个子节点和叶节点的独有特征,也可以反映各个分支节点的共有特征。同时,根据本发明示例性实施例的面向多层文本分类的特征选择方法和装置训练产生的文本分类器,具有很好的全局性和分类准确率。与传统的自顶而下的多层次分类相比,避免了特征选择在不同分支中的不均衡性,与ping-Pang方式相比,则充分突出了同一分支下不同子节点的共性特征。针对20newsGroup的多层分类问题,与仅使用CHI-X2作为特征选择策略的方法相比,根据本发明示例性实施例的面向多层文本分类的特征选择方法和装置的文本分类准确率有5个百分点的提高。
虽然已经参照示例性实施例示出和描述了本发明,但是本领域的技术人员应该理解:在不脱离由权利要求定义的本发明的精神和范围的情况下,可以进行形式和细节上的各种改变。

Claims (4)

1.一种面向多层文本分类的特征选择方法,所述方法包括:
基于CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;
基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;
针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征;
针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;
针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征,
其中,K、M、N均为正整数,
其中,改进的CHI-X2权重计算公式是:
New_X2(t,Ci)=(X2(t,Ci))2/Sum(X2(t,*)),
其中,Ci表示第i个叶节点,t表示特征,X2(t,Ci)表示第i个叶节点中特征t的权重,Sum(X2(t,*))表示当前分支下所有叶节点中特征t的权重之和,*是通配符,表示任意一个叶节点。
2.如权利要求1所述的特征选择方法,其中,子节点是分支节点分支而来的节点。
3.一种面向多层文本分类的特征选择装置,所述装置包括:
基于CHI-X2的叶节点特征选择模块,基于CHI-X2对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;
基于IG的叶节点特征选择模块,基于IG对多层分类训练文本的各个叶节点所提取的文本特征进行权重计算,并将各个叶节点的文本特征按照权重从大到小的顺序进行排序;
基于改进CHI-X2的分支节点特征选择模块,针对每个分支节点,在基于CHI-X2的叶节点权重计算的基础上,基于改进的CHI-X2权重计算公式,对当前分支节点下的所有叶节点的CHI-X2特征的权重取值进行调整并按照从大到小的顺序进行重新排序,将隶属同一子节点的每个叶节点的前K个位置的CHI-X2特征汇总以后作为所述每个叶节点所隶属的子节点的CHI-X2特征,依次将得到的子节点的CHI-X2特征向所述子节点隶属的上级节点进行汇总迭代,得到当前分支节点的CHI-X2特征,其中,获得分支节点的CHI-X2特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的CHI-X2特征;
基于IG的分支节点特征选择模块,针对每个分支节点,在基于IG的叶节点权重计算的基础上,将当前分支节点下的所有子节点的IG特征进行汇总,并按照权重从大到小的顺序进行排序,将其结果作为当前分支节点的IG特征,其中,获得分支节点的IG特征的步骤从最底层的分支节点开始,自底向上依次迭代直至当前分支节点为根节点,得到所有分支节点的IG特征;
组合CHI-X2和IG的分支节点特征选择模块,针对每个分支节点,基于当前分支节点的CHI-X2特征和IG特征,从当前分支节点的CHI-X2特征中删除排在当前分支节点的IG特征中前N个位置的特征,添加排在当前分支节点的IG特征中后M个位置的特征,将新的CHI-X2特征作为当前分支节点的最终特征,
其中,K、M、N均为正整数,
其中,改进的CHI-X2权重计算公式是:
New_X2(t,Ci)=(X2(t,Ci))2/Sum(X2(t,*)),
其中,Ci表示第i个叶节点,t表示特征,X2(t,Ci)表示第i个叶节点中特征t的权重,Sum(X2(t,*))表示当前分支下所有叶节点中特征t的权重之和,*是通配符,表示任意一个叶节点。
4.如权利要求3所述的特征选择装置,其中,子节点是分支节点分支而来的节点。
CN 201010134535 2010-03-25 2010-03-25 面向多层文本分类的特征选择方法和装置 Active CN102200981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010134535 CN102200981B (zh) 2010-03-25 2010-03-25 面向多层文本分类的特征选择方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010134535 CN102200981B (zh) 2010-03-25 2010-03-25 面向多层文本分类的特征选择方法和装置

Publications (2)

Publication Number Publication Date
CN102200981A CN102200981A (zh) 2011-09-28
CN102200981B true CN102200981B (zh) 2013-07-17

Family

ID=44661665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010134535 Active CN102200981B (zh) 2010-03-25 2010-03-25 面向多层文本分类的特征选择方法和装置

Country Status (1)

Country Link
CN (1) CN102200981B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838730A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种特征评价选择方法
CN105512117B (zh) * 2014-09-22 2020-05-26 联想(北京)有限公司 一种信息处理方法及电子设备
CN105159879A (zh) * 2015-08-26 2015-12-16 北京理工大学 一种网络个体或群体价值观自动判别方法
CN107402994B (zh) * 2017-07-17 2021-01-19 云润大数据服务有限公司 一种多元组层次划分的分类方法及装置
CN107609160B (zh) * 2017-09-26 2020-02-21 联想(北京)有限公司 一种文本分类方法和装置
CN108376130A (zh) * 2018-03-09 2018-08-07 长安大学 一种不良文本信息过滤用特征选择方法
CN109325511B (zh) * 2018-08-01 2020-07-31 昆明理工大学 一种改进特征选择的方法
CN109189892B (zh) * 2018-09-17 2021-04-27 北京一点网聚科技有限公司 一种基于文章评论的推荐方法及装置
CN110704619B (zh) * 2019-09-24 2022-06-10 支付宝(杭州)信息技术有限公司 文本分类方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN1438592A (zh) * 2003-03-21 2003-08-27 清华大学 一种文本自动分类方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101609472A (zh) * 2009-08-13 2009-12-23 腾讯科技(深圳)有限公司 一种基于问答平台的关键词评价方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294223A1 (en) * 2006-06-16 2007-12-20 Technion Research And Development Foundation Ltd. Text Categorization Using External Knowledge
JP2009295097A (ja) * 2008-06-09 2009-12-17 Ricoh Co Ltd 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN1438592A (zh) * 2003-03-21 2003-08-27 清华大学 一种文本自动分类方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101609472A (zh) * 2009-08-13 2009-12-23 腾讯科技(深圳)有限公司 一种基于问答平台的关键词评价方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2009-295097A 2009.12.17

Also Published As

Publication number Publication date
CN102200981A (zh) 2011-09-28

Similar Documents

Publication Publication Date Title
CN102200981B (zh) 面向多层文本分类的特征选择方法和装置
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
Cao Predicting parameters of a Weibull function for modeling diameter distribution
CN103020122B (zh) 一种基于半监督聚类的迁移学习方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN103728551B (zh) 一种基于级联集成分类器的模拟电路故障诊断方法
CN108062560A (zh) 一种基于随机森林的电力用户特征识别分类方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN105184316A (zh) 一种基于特征权学习的支持向量机电网业务分类方法
CN103823890B (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
CN112735097A (zh) 一种区域滑坡预警方法及系统
CN110135167A (zh) 一种随机森林的边缘计算终端安全等级评估方法
CN105654196A (zh) 一种基于电力大数据的自适应负荷预测选择方法
CN101751438A (zh) 自适应语义驱动的主题网页过滤系统
CN108805193A (zh) 一种基于混合策略的电力缺失数据填充方法
CN109886464A (zh) 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN103473231A (zh) 分类器构建方法和系统
CN106779086A (zh) 一种基于主动学习和模型剪枝的集成学习方法及装置
CN106934410A (zh) 数据的分类方法及系统
CN101976270B (zh) 基于不确定推理的文本层次分类方法与装置
CN107943830A (zh) 一种适用于高维大数据集的数据分类方法
CN108304974A (zh) 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法
CN106251241A (zh) 一种基于特征选择改进的LR‑Bagging算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 5-12 / F, building 6, 57 Andemen street, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Samsung Electronics (China) R&D Center

Patentee after: SAMSUNG ELECTRONICS Co.,Ltd.

Address before: No. 268 Nanjing Huijie square Zhongshan Road city in Jiangsu province 210008 8 floor

Patentee before: Samsung Electronics (China) R&D Center

Patentee before: SAMSUNG ELECTRONICS Co.,Ltd.