CN104346459B - 一种基于术语频率和卡方统计的文本分类特征选择方法 - Google Patents

一种基于术语频率和卡方统计的文本分类特征选择方法 Download PDF

Info

Publication number
CN104346459B
CN104346459B CN201410629761.3A CN201410629761A CN104346459B CN 104346459 B CN104346459 B CN 104346459B CN 201410629761 A CN201410629761 A CN 201410629761A CN 104346459 B CN104346459 B CN 104346459B
Authority
CN
China
Prior art keywords
mrow
msub
term
class
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410629761.3A
Other languages
English (en)
Other versions
CN104346459A (zh
Inventor
马廷淮
金传鑫
侯荣涛
田伟
薛羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PHOENIX E-LEARNING TECHNOLOGY Co.,Ltd.
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201410629761.3A priority Critical patent/CN104346459B/zh
Publication of CN104346459A publication Critical patent/CN104346459A/zh
Application granted granted Critical
Publication of CN104346459B publication Critical patent/CN104346459B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于术语频率和卡方统计的文本分类特征选择方法,包括如下步骤:对数据集预处理;把每一个数据对象转换为特征空间的向量;分别计算每个术语在每个文本分类中的最大术语频率和平均术语频率;根据平均术语频率计算术语在每个类中的分布差异度;将每个术语的最大术语频率和分布差异度与传统的卡方统计公式相结合,计算每个术语在每个类中的权重,并取最大值为术语权重;将每个术语权重降序排序,选出权重值最大的前N个术语作为特征。本发明通过对传统的卡方统计进行改进,使在某类出现频率较高的或类内分布均匀的特征项对类别区分的贡献度得到体现,并修正了传统卡方统计方法偏向于低频词的不足。

Description

一种基于术语频率和卡方统计的文本分类特征选择方法
技术领域
本发明属于文本挖掘与信息检索领域,具体涉及的是一种基于术语频率和卡方统计的文本分类特征选择方法。
背景技术
文本分类(Text Classification或Text Categorization)是预先设定的类别集合,根据文本内容确定文本所属类型。在文本分类中,通常用向量空间模型作为文本的表示模型,该模型是应用效果最好的文本表示模型之一;文本中的词或词组作为特征,但是在大量的特征中,存在很多冗余特征和噪声特征,而庞大的特征空间维数会降低分类器的性能和泛化能力,产生“过学习”现象。同时,处理高维向量需要极高的时间复杂度,进而会产生“维数灾难”。因此,我们需要通过特征降维,来提高分类器的效率和精度,特征降维分为特征选择和特征提取。
特征选择是目前最常用的降维方法,其本质是从一个高维空间根据某种准则变换到一个较低维的空间,并且使得该低维空间有比较好的类别可分性,从而提高分类器的分类效率和精度。比较常用的特征选择方法主要有文档频率(document frequency,DF)、互信息(mutual information,MI)、期望交叉熵(expected cross entropy,ECE)、卡方统计(Chi-square statistic,CHI)、信息增益(information gain,IG)等;近年来国内外学者还提出了其他的特征选择方法,例如,张玉芳等人提出了综合比率(CR)方法,通过把数据集分成正类和负类,综合考虑特征项在正类和负类中的分布,结合四种衡量特征类别区分能力的指标,构造了CR特征选择方法来选择特征;冯霞等人提出了基于假设检验的选择方法,利用特征与文档类在term-category四格表中相互独立与互不相关等价的性质来选择特征。美国卡内基梅隆大学的Yang教授针对文本分类问题,在分析比较了DF、MI、IG、CHI等方法后,得出IG和CHI方法分类效果相对较好的结论,并且,CHI和IG在多次的实验中表现出了良好的准确性。但是上述这些特征选择方法都具有缺陷,比如卡方统计方法对低频词的倚重大,不能很好地过滤低频词中的噪音词。
发明内容
我们通过分析发现,现有卡方统计方法只考虑了特征词的文档频率,并没有考虑特征的术语词频,所以夸大了低频术语的作用。例如传统卡方统计方法只统计文档中是否出现术语t,并没有考虑术语t在文档中出现的次数,致使传统方法更倾向于选择文档频率高的特征,忽略了文档频率较低但是词频较高的词汇的贡献度,此外,传统卡方统计方法没有考虑术语的分布差异度的问题。基于上述问题,本发明公开了一种基于术语频率和卡方统计的文本分类特征选择方法,利用最大术语频率来修正传统卡方统计方法对术语频率低但文档频率高的术语的偏袒;同时利用平均术语频率和统计学上的标准方差的方法,来修正传统卡方统计方法未考虑分布差异度的缺陷。
为了达到上述目的,本发明提供如下技术方案:
一种基于术语频率和卡方统计的文本分类特征选择方法,包括如下步骤:
步骤(1),对语料库数据集进行预处理;
步骤(2),对经过步骤(1)处理得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合D={d1,d2,...dN},类标签集合C={c1,c2,...c|C|},dj表示语料库数据集中的一个文档(1≤j≤N),ck表示语料库数据集中的一个类;
步骤(3),计算术语ti在文本分类ck中的最大术语频率和平均术语频率
步骤(4),通过下式计算术语ti在ck类中的分布差异度:
其中,α表示一个很小的实数;
步骤(5),利用步骤(3)和步骤(4)得到的最大术语频率及分布差异度,通过下式计算该术语ti在ck类中的权重:
其中,
步骤(6),计算得到该术语ti在每个类中的权重,通过下式得到术语ti在语料库数据集中的权重:
步骤(7),计算得到每一个术语在语料库数据集中的权重,并降序排列,选出值最大的前N个术语作为特征。
进一步的,所述步骤(1)对语料库数据集进行预处理时包括去停用词、中文分词步骤。
进一步的,所述去停用词步骤采用由百度停用词列表、哈工大停用词表和四川大学机器智能实验室停用词库3个词库结合得到的停用表进行去停用词操作。
进一步的,所述中文分词步骤采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS进行中文分词操作。
进一步的,所述术语频率和平均术语频率通过下式计算:
其中,tfij为术语ti在属于ck类的各个文档dj中的术语频率。
与现有技术相比,本发明具有如下优点和有益效果:
本发明在传统的卡方统计方法中加入术语频率,修正了传统卡方统计方法偏向于低频词的不足;并进一步引入分布差异度,使在文本集合中分布均匀的特征词对类别的表征能力和类别区分的贡献度较大这一特点得到体现,相对于传统卡方统计方法,本发明能够提高文本分类的精度,改善分类效果。
附图说明
图1为本发明步骤流程示意图;
图2为图1中步骤30的具体步骤流程示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本方法步骤流程图如图1所示,具体包括如下步骤:
步骤10,对语料库数据集进行预处理,预处理包括去停用词、中文分词等步骤。本例中首先采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS对中文文本进行分词;接着采用由百度停用词列表、哈工大停用词表和四川大学机器智能实验室停用词库3个词库结合得到的停用词表将没用的词语去掉。
步骤20,对于经过步骤10得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据文本对象向量集合D={d1,d2,...dN},dj={w1,w2,...w|T|},类标签集合C={c1,c2,...c|C|},其中,dj表示语料库数据集中的一个文档(1≤j≤N),Wi表示文档中一个术语的权重(1≤i≤|T|),每个文档dj包括有多个ti,ti表示语料库数据集中的一个术语(1≤i≤|T|),Ck表示语料库数据集中的一个类(1≤k≤|C|),N表示语料库数据集中文档的数量,|T|表示语料库数据集中术语的数量,|C|表示语料库数据集中类别的数量。
步骤30,计算集合D中一个术语ti在某一文本分类ck中的最大术语频率和平均术语频率其中,Nk表示ck类中文档的数量,tfij表示术语ti在文档dj中的术语频率。如图2所示,具体的计算流程包括下述步骤:
步骤301,根据得到的数据对象向量集合D={d1,d2,...dN},判断包含术语ti的文档dj是否属于ck类。
步骤302,若文档dj属于ck类,则计算术语ti在文档dj中的术语频率tfij
步骤303,遍历完属于ck类的所有文档后,计算最大术语频率和平均术语频率计算公式如下:
步骤40,利用步骤30得到的平均术语频率计算术语ti在ck类中的分布差异度V(ti,ck)。步骤30中已得到ck类中所有包含术语ti的文档的术语频率,以及术语ti在ck类中的平均术语频率这里我们采用样本方差来计算术语ti在ck类中的分布差异度,计算公式如下:
其中,α表示一个很小的实数(本例中取α=0.0001)
步骤50,利用步骤30和步骤40得到的最大术语频率及分布差异度V(ti,ck),计算术语ti在ck类中的权重ICHI(ti,ck),计算公式如下:
其中,可以对最大术语频率起平滑作用,可以在一定的程度上抑制一些特别高的高频词。x2(ti,ck)公式如下:
其中,N表示语料库数据集中文档的数量;A表示包含术语ti并且属于Ck类的文档数量;B表示包含术语ti但不属于ck类的文档数量;C表示不包含术语ti但属于ck类的文档数量;D表示不包含术语ti并且不属于ck类的文档数量。
步骤60,判断类标签集合C={c1,c2,...c|C|}是否为空,若不为空,则继续计算术语ti在集合C中的剩下的类中的最大术语频率平均术语频率分布差异度V(ti,ck)以及权重ICHI(ti,ck);若为空,则取权重最大值表示术语ti在语料库数据集中的权重,计算公式如下:
步骤70,判断数据文本对象向量集合D={d1,d2,...dN}是否为空,若不为空,则按步骤30到步骤60,继续计算集合D中剩下的每个术语的权重;若为空,则将集合D中所有术语按权重值由大到小降序排列,选出值最大的前N个术语作为特征,N值根据需求选取,如100,200,500,2000,3000,5000,10000等等,N越大,精度越高,但是效率越低。
我们将本发明提供的特征选择方法和现有的其他特征选择方法应用在同样的环境下进行比对,分类器是KNN,数据集是Reuters-21578,我们通常用F1值来综合衡量这些方法的精确度和召回率,F1值按照计算方法的不同又可以分为Micro-F1值和Macro-F1值。本例中我们以Micro-F1值作为各方法的评判标准,Micro-F1值是假设每个文本具有相同权重,求整个样本集的准确率和召回率,然后求平均,我们得到各方法的Micro-F1值结果如表1所示:
表1
其中,TFSV-CHI为本发明方法,X2是原始卡方方法,CE是期望交叉熵方法,DF是文档频率方法,IG是信息增益方法,MI是互信息方法,以能在N值越小的情况下达到Micro-F1值越高为最佳。很明显,在N≤3000时,与其他方法比较,经本发明方法得到的Micro-F1值最高,这表明采用本发明方法进行文本分类的精度最高,分类效果最好。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.一种基于术语频率和卡方统计的文本分类特征选择方法,其特征在于,包括如下步骤:
步骤(1),对语料库数据集进行预处理;
步骤(2),对经过步骤(1)处理得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合D={d1,d2,...dN},类标签集合C={c1,c2,...c|C|},dj表示语料库数据集中的一个文档(1≤j≤N),ck表示语料库数据集中的一个类,1≤k≤|C|,N表示语料库数据集中文档的数量,|C|表示语料库数据集中类别的数量;
步骤(3),计算术语ti在文本分类ck中的最大术语频率和平均术语频率
步骤(4),通过下式计算术语ti在ck类中的分布差异度:
<mrow> <mi>V</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mover> <mrow> <mi>t</mi> <mi>f</mi> </mrow> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mi>&amp;alpha;</mi> </mrow>
其中,Nk表示ck类中文档的数量,tfij为术语频率,α表示一个很小的实数;
步骤(5),利用步骤(3)和步骤(4)得到的最大术语频率及分布差异度,通过下式计算该术语ti在ck类中的权重:
<mrow> <mi>I</mi> <mi>C</mi> <mi>H</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>log</mi> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msub> <mi>tf</mi> <msub> <mi>i</mi> <mi>max</mi> </msub> </msub> </mrow> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msup> <mi>&amp;chi;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mi>V</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,
<mrow> <msup> <mi>&amp;chi;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mo>&amp;times;</mo> <msup> <mrow> <mo>(</mo> <mrow> <mi>A</mi> <mi>D</mi> <mo>-</mo> <mi>C</mi> <mi>B</mi> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>C</mi> <mo>)</mo> <mo>&amp;times;</mo> <mo>(</mo> <mrow> <mi>B</mi> <mo>+</mo> <mi>D</mi> </mrow> <mo>)</mo> <mo>&amp;times;</mo> <mo>(</mo> <mrow> <mi>A</mi> <mo>+</mo> <mi>B</mi> </mrow> <mo>)</mo> <mo>&amp;times;</mo> <mo>(</mo> <mrow> <mi>C</mi> <mo>+</mo> <mi>D</mi> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>;</mo> </mrow>
上式中,A表示包含术语ti并且属于ck类的文档数量;B表示包含术语ti但不属于ck类的文档数量;C表示不包含术语ti但属于Ck类的文档数量;D表示不包含术语ti并且不属于ck类的文档数量;
步骤(6),计算得到该术语ti在每个类中的权重,通过下式取权重最大值为术语ti在语料库数据集中的权重:
<mrow> <mi>I</mi> <mi>C</mi> <mi>H</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>max</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>C</mi> <mo>|</mo> </mrow> </msubsup> <mrow> <mo>{</mo> <mrow> <mi>I</mi> <mi>C</mi> <mi>H</mi> <mi>I</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>}</mo> </mrow> <mo>;</mo> </mrow>
步骤(7),计算得到每一个术语在语料库数据集中的权重,并降序排列,选出值最大的前N个术语作为特征。
2.根据权利要求1所述的基于术语频率和卡方统计的文本分类特征选择方法,其特征在于:所述步骤(1)对语料库数据集进行预处理时包括去停用词、中文分词步骤。
3.根据权利要求2所述的基于术语频率和卡方统计的文本分类特征选择方法,其特征在于:所述去停用词步骤采用由百度停用词列表、哈工大停用词表和四川大学机器智能实验室停用词库3个词库结合得到的停用表进行去停用词操作。
4.根据权利要求2所述的基于术语频率和卡方统计的文本分类特征选择方法,其特征在于:所述中文分词步骤采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS进行中文分词操作。
5.根据权利要求1~3中任意一项所述的基于术语频率和卡方统计的文本分类特征选择方法,其特征在于,所述最大术语频率和平均术语频率通过下式计算:
<mrow> <msub> <mi>tf</mi> <msub> <mi>i</mi> <mi>max</mi> </msub> </msub> <mo>=</mo> <msubsup> <mi>max</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> </msubsup> <mrow> <mo>{</mo> <mrow> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mo>}</mo> </mrow> </mrow>
<mrow> <msub> <mover> <mrow> <mi>t</mi> <mi>f</mi> </mrow> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>k</mi> </msub> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>k</mi> </msub> </munderover> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> </mrow>
其中,tfij为术语ti在属于ck类的各个文档dj中的术语频率。
CN201410629761.3A 2014-11-10 2014-11-10 一种基于术语频率和卡方统计的文本分类特征选择方法 Expired - Fee Related CN104346459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410629761.3A CN104346459B (zh) 2014-11-10 2014-11-10 一种基于术语频率和卡方统计的文本分类特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410629761.3A CN104346459B (zh) 2014-11-10 2014-11-10 一种基于术语频率和卡方统计的文本分类特征选择方法

Publications (2)

Publication Number Publication Date
CN104346459A CN104346459A (zh) 2015-02-11
CN104346459B true CN104346459B (zh) 2017-10-27

Family

ID=52502050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410629761.3A Expired - Fee Related CN104346459B (zh) 2014-11-10 2014-11-10 一种基于术语频率和卡方统计的文本分类特征选择方法

Country Status (1)

Country Link
CN (1) CN104346459B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291723B (zh) * 2016-03-30 2021-04-30 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108073567B (zh) * 2016-11-16 2021-12-28 北京嘀嘀无限科技发展有限公司 一种特征词提取处理方法、系统及服务器
CN106611057B (zh) * 2016-12-27 2019-08-13 上海利连信息科技有限公司 重要性加权的文本分类特征选择方法
CN107193804B (zh) * 2017-06-02 2019-03-29 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法
CN107577794B (zh) * 2017-09-19 2019-07-05 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN108108462A (zh) * 2017-12-29 2018-06-01 河南科技大学 一种基于特征分类的文本情感分析方法
CN110046634B (zh) * 2018-12-04 2021-04-27 创新先进技术有限公司 聚类结果的解释方法和装置
CN111428518B (zh) * 2019-01-09 2023-11-21 科大讯飞股份有限公司 一种低频词翻译方法及装置
US11526754B2 (en) 2020-02-07 2022-12-13 Kyndryl, Inc. Feature generation for asset classification

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Categorical Document Frequency Based Feature Selection for Text Categorization;zhilong Zhen, Haijuan Wang, Lixin Han, Zhan Shi;《2011 International Conference of Information Technology, Computer Engineering and Management Sciences》;20110925;全文 *
一种基于词频信息的改进CHI文本特征选择;刘海峰,苏展,刘守生;《计算机工程与应用》;20130827(第2013年22期);全文 *
基于改进卡方统计的微博特征提取方法;徐明,高翔,徐志刚,刘磊;《计算机工程与应用》;20140430(第2014年19期);全文 *
基于统计频率的文本分类特征选择算法研究;张俊丽,赵乃瑄,冯君;《现代图书情报技术》;20081125(第2008年11期);全文 *
文本分类中特征选择的研究与实现;范小丽;《中国优秀硕士学位论文全文数据库》;20110815(第2011年08期);全文 *

Also Published As

Publication number Publication date
CN104346459A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104346459B (zh) 一种基于术语频率和卡方统计的文本分类特征选择方法
CN105224695B (zh) 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN104142918B (zh) 基于tf‑idf特征的短文本聚类以及热点主题提取方法
CN102663100B (zh) 一种两阶段混合粒子群优化聚类方法
CN107609121A (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN106056082B (zh) 一种基于稀疏低秩编码的视频动作识别方法
CN104239512B (zh) 一种文本推荐方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN106021578A (zh) 一种基于聚类和隶属度融合的改进型文本分类算法
CN106909946A (zh) 一种多模态融合的商品分类系统
CN107066555A (zh) 面向专业领域的在线主题检测方法
Xu et al. An improved information gain feature selection algorithm for SVM text classifier
CN105893380A (zh) 一种改良的文本分类特征选择方法
CN103473556A (zh) 基于拒识子空间的分层支持向量机分类方法
CN105868796A (zh) 基于核空间的线性鉴别稀疏表示分类器的设计方法
CN103092966A (zh) 一种挖掘词汇的方法及装置
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN107562928B (zh) 一种ccmi文本特征选择方法
CN108920545B (zh) 基于扩展的情感词典和卡方模型的中文情感特征选择方法
CN109614484A (zh) 一种基于分类效用的文本聚类方法及其系统
Adel et al. Feature selection method based on statistics of compound words for arabic text classification.
CN102902984B (zh) 基于局部一致性的遥感影像半监督投影降维方法
Yang et al. Research on Chinese text classification based on Word2vec

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200715

Address after: Room 02214, 2nd floor, building 2, No.68 yard, Beiqing Road, Haidian District, Beijing 100089

Patentee after: BEIJING PHOENIX E-LEARNING TECHNOLOGY Co.,Ltd.

Address before: 210044 Nanjing Ning Road, Jiangsu, No. six, No. 219

Patentee before: NANJING University OF INFORMATION SCIENCE & TECHNOLOGY

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171027

Termination date: 20201110

CF01 Termination of patent right due to non-payment of annual fee