CN102930063B - 一种基于特征项选择与权重计算的文本分类方法 - Google Patents

一种基于特征项选择与权重计算的文本分类方法 Download PDF

Info

Publication number
CN102930063B
CN102930063B CN201210516057.8A CN201210516057A CN102930063B CN 102930063 B CN102930063 B CN 102930063B CN 201210516057 A CN201210516057 A CN 201210516057A CN 102930063 B CN102930063 B CN 102930063B
Authority
CN
China
Prior art keywords
text
classification
item
characteristic item
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210516057.8A
Other languages
English (en)
Other versions
CN102930063A (zh
Inventor
孙健
梁雪芬
艾丽丽
隆克平
徐杰
王晓丽
张毅
姚洪哲
李乾坤
陈小英
陈旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201210516057.8A priority Critical patent/CN102930063B/zh
Publication of CN102930063A publication Critical patent/CN102930063A/zh
Application granted granted Critical
Publication of CN102930063B publication Critical patent/CN102930063B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征项选择及权重计算的文本分类方法,对分析整理得到的语料训练集,在传统的TF-IDF特征项权重计算基础上,根据CHI卡方统计考虑特征项与不同类别之间的相关度、特征项的信息熵考虑特征项类内的平均分布情况对特征项的权重进行调整。再根据特征项类间权重差对特征项进行评估、选择。将训练集文本与待分类文本分别以特征子空间中的特征项表示成向量的形式。计算待分类文本和训练集文本之间的相似度,来确定待分类文本的类别。由于在特征项选择及权重计算过程中,在TF-IDF基础上综合考虑了特征项在类间类内的分布情况,提高了特征项选择的准确度,有效降低特征项维数,从而提高文本分类的效率和精度。

Description

一种基于特征项选择与权重计算的文本分类方法
技术领域
本发明属于信息资源管理中的文本分类技术领域,具体来讲,涉及一种基于特征项选择及权重计算的文本分类方法。
背景技术
在爆炸式增长的互联网信息资源中,文本信息是应用最为广泛的一种形式,这是因为文本是信息的载体,而多数其他的形式的信息(图像、声音)均可以用文本进行标注。为了迅速有效的发现信息和资源,文本分类技术作为有效地组织和管理文本信息的重要手段应运而生。
文本分类是在给定分类类别的情况下,根据文本的内容或属性将其分到一个或多个预定义类别。
目前,文本分类领域中主要采用的文本表示方式是VSM(向量空间模型),即在对语料集的文本进行分词、去除停用词后,经过特征项选择和权重计算,最终将语料集文本表示成N维的向量空间。在实际应用中,特征项的维数常常高达万维,而如此高维的特征项对于文本分类未必是有益和必要的。因此,为了提高文本分类的效率和精度,如何降低特征项的维数以及特征项的权重如何计算成为文本分类中首要解决的问题。
现有技术的文本分类方法在进行特征项的选择和权重计算时采用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本)函数。由于该函数综合考虑了特征项在文本中出现的次数和在整个训练文本集的分布情况,加之其计算简单并有较高的准确率,在文本分类技术领域得到了应用广泛。但在实际应用中,传统的TF-IDF函数仍存在明显的不足:
1)TF-IDF认为在特征项词频数相同情况下,若语料集中包含某个特征项的文本数越大,则IDF值越小,即权重也越小。但事实上,若特征项不是均匀的出现在语料集各个类的文本中而是集中地出现在某一类别的文本中,则说明该特征项能很好的表征该类的特征,权重应该越大而不是越小;
2)TF-IDF认为若特征项词频数越大,包含特征项的文本数越小,则特征项 权重越大。但若特征项集中地出现在某一个类别的某个文本中,它就不能表征该类别的特征,特征项权重就应该越小。
可见,传统TF-IDF仅考虑了特征项在文本集中的分布情况,而忽略特征项在不同文本类别之间的分布比例以及特征项在某一类别内部的分布情况,因此在采用传统TF-IDF根据特征项及权重进行文本分类时可能会出现误判。
发明内容
本发明的目的在于克服现有技术不足,提供一种基于特征项选择及权重计算的文本分类方法,以提高特征项选择的准确度,有效降低特征项维数,从而提高文本分类的效率和精度。
为实现上述发明目的,本发明基于特征项选择及权重计算的文本分类方法,包括以下步骤:
(1)、收集不同类别文本,分析整理后按类别归入语料训练集;
(2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数;
(3)、利用改进TF-IDF函数计算语料训练集各文本特征项权重,改进TF-IDF函数公式为:
w(tk,Tj)=tf(tk,Tj)×idf(tk)×χ2(tk,Ci)×H(tk,Ci
其中:
w(tk,Tj)表示文本Tj中特征项tk的权重值;
tf(tk,Tj)表示特征项tk在文本Tj中的词频数; 表示特征项tk的逆文本频率,其中N表示语料训练集中文本总数,Nk表示训练集中包含特征项tk的文本数;
χ 2 ( t k , C i ) = N ( AD - BC ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D ) , 表示特征项tk与类别Ci之间的相关度,其中A为包含特征项tk且属于类别Ci的文本数,B为包含特征项tk但不属于类别Ci的文本数,C为不包含特征项tk但属于类别Ci的文本数,D为不包含特征项tk也不属于类别Ci的文本数,N表示语料训练集中文本总数;
H ( t k , C i ) = Σ j = 1 n p ( t kj , C i ) lb ( p ( t kj , C i ) ) , 表示特征项tk在类别Ci内的分布信息熵,其中 表示类别Ci内特征项tk在文本Tj中的分布概率,tf(tk,Tj)表示特征项tk在文本Tj中的词频数, 表示类别Ci内特征项tk的总词频,n表示类别Ci的文本总数;
(4)、计算特征项类间差,评估特征项,特征项评估函数公式为:
Q(tk)=Max(w(tk,Ci))-lessMax(w(tk,Ci))(i=1...S)
其中,Q(tk)表示特征项类间权重最大值与次大值之差,S表示语料训练集中文本分为S个类别;
是类别Ci中所有n篇文本中特征项tk的权重之和,Max(w(tk,Ci))与lessMax(w(tk,Ci))分别求出S个w(tk,Ci)中的最大值和次大值;
根据实际需要设置特征项评估差值的阈值P,若Q(tk)≥P,则将特征项tk加入特征子空间;若Q(tk)<P,将此特征项tk舍弃,完成对文本特征空间的降维操作,形成特征子空间;
(5)、构建分类器,将语料训练集文本表示为向量形式Tjj1,ωj2,ωjk...,ωjm),其中ωjk为文本Tj中特征子空间包含的特征项tk的权重,m表示特征子空间包含的特征项个数;
对待分类文本Ti进行分词、去除停用词处理,统计特征子空间中所有特征项在文本Ti中的词频,采用改进TF-IDF函数计算各特征项权重,将Ti也表示成向量的形式:Tii1i2ik...,ωim);
计算Tii1i2ik...,ωim)与所有Tjj1,ωj2,ωjk...,ωjm)的夹角余弦值,当夹角余弦值最大,说明文本Ti与文本Tj的相似度最大,则将文本Ti归入该文本Tj所属的类别中。
进一步地,在步骤(5)中,分类器采用KNN(k-Nearest Neighbor algorithm)最近邻居算法构建分类器,计算待分类文本Ti与训练集所有文本的相似度,按相似度从高到低将训练集文本排序,选取前K篇训练集文本,按照这K篇文本的 类别对待分类文本进行归类;其中K值根据实际情况设定。
本发明在进行特征项的选择与权重计算时,在传统的TF-IDF函数基础上,根据CHI卡方统计考虑特征项与不同类别之间的相关度、特征项的信息熵考虑特征项类内的平均分布情况对特征项的权重进行调整。通过改进TF-IDF函数计算权重并选择出的特征项,准确度更高,更能表征文本类别,特征子空间的维度也能得到有效控制,从而对文本分类方法实现了优化,提高了文本分类的效率和准确度。
附图说明
图1是本发明基于特征项选择及权重计算的文本分类方法的一种具体实施方式的原理框图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明一种基于特征项选择及权重计算的文本分类方法具体实施方式的原理框图。如图1所示,一种基于特征项选择及权重计算的文本分类方法包括以下步骤:
步骤1、收集并整理互联网文本,按类别归入语料训练集。
利用网络爬虫从各大网站上下载不同类别文本,将分析整理后的文本数据按类别归入语料训练集,训练集用于文本分类器的训练和构造过程。
步骤2、对训练集文本进行预处理,包括分词、去除停用词、统计特征项词频数。
采用分词工具对语料训练集文本进行分词,语料训练集文本经分词后的词或词语即为文本的特征项,特征项构成文本的特征空间。然后删除初始文本特征空间中的停用词例如“的”、“是”、“就是”、“必须”,此时文本特征空间常常高达万维。接着,分别对语料训练集中文本总数、各个类别文本总数、特征项词频、特征项所属文本数等进行数据统计。
步骤3、利用改进TF-IDF函数计算特征项权重。
传统的TF-IDF作为特征项权重函数综合考虑了特征项的词频以及逆文本频率,其计算公式如下:
w(tk,Tj)=tf(tk,Tj)×idf(tk)
其中,w(tk,Tj)为文本Tj中特征项tk的权重;tf(tk,Tj)为特征项tk在文本Tj中的词频数; 表示特征项tk在训练集中的逆文本频率,N为训练集中文本总数,Nk为训练集中包含特征项tk的文本数。
由于传统TF-IDF函数仅考虑了特征项在文本集中的分布情况,而忽略特征项在不同文本类别之间的分布比例以及特征项在某一类别内部的分布情况。因此,本发明提出结合特征项类间CHI卡方统计和特征项类内分布信息熵的概念以改进TF-IDF函数计算特征项权重的方法。其中,特征项类间CHI卡方统计和特征项类内信息熵定义如下:
●特征项类间CHI卡方统计
假设特征项tk与类别Ci之间的非独立关系具有一维自由度的χ2分布,那么特征项tk对于类别Ci的CHI卡方统计量可计算为:
χ 2 ( t k , C i ) = N ( AD - BC ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D )
其中,A为包含特征项tk且属于类别Ci的文本数,B为包含特征项tk但不属于类别Ci的文本数,C为不包含特征项tk但属于类别Ci的文本数,D为不包含特征项tk也不属于类别Ci的文本数,N表示训练文本集中文本总数。
χ2(tk,Ci)用来度量特征项tk与类别Ci之间的相关程度。特征项tk和类别Ci相关性越强,χ2(tk,Ci)的值越大,特征项tk就越能表征类别Ci的特征信息,权重越大。若特征项tk和Ci相互独立,则χ2(tk,Ci)=0。
●特征项类内分布信息熵
信息熵表示信息量在文本集中分布的均匀程度,信息量分布得越均匀,熵值就越大。特征项tk在类别Ci内分布信息熵计算公式为:
H ( t k , C i ) = Σ j = 1 n p ( t kj , C i ) lb ( p ( t kj , C i ) )
其中:H(tk,Ci)表示特征项tk在类别Ci内分布信息熵; 表示类别Ci内特征项tk在文本Tj中的分布概率,tf(tk,Tj)表示特征项tk在文本Tj中的词频数, 表示类别Ci内特征项tk的总词频,n表示类别Ci的文本总数。
考虑特征项在类内分布的情况,如果特征项tk在类别Ci内分布越均匀,分布信息熵H(tk,Ci)值就越大,特征项就越能表征类别的特征,权重越大;反之,H(tk,Ci)分布信息熵值就越小,特征项不能表征类别的特征,权重越小。
●改进的特征项权重计算方法
本发明在传统的TF-IDF特征项选择和权重计算基础上,结合CHI卡方统计考虑特征项与不同类别之间的相关度和特征项的类内分布信息熵对特征项的权重进行调整,调整后的改进TF-IDF函数如下:
文本Tj中特征项tk的权重为: 
w(tk,Tj)=tf(tk,Tj)×idf(tk)×χ2(tk,Ci)×H(tk,Ci
步骤4:计算特征项类间差,评估及选择特征项。
根据步骤3中结合特征项类间类内分布的权重计算方法,可得到文本Tj中特征项tk的权重w(tk,Tj),将特征项在类别Ci内各文本的权重求和可得到特征项类权重w(tk,Ci)。本发明采用特征项类间权重中最大值与次最大值之差作为特征项评估选择依据,若差值越大,说明特征项区别类能力和表征类的能力就越强,应当加入特征子空间表征文本;若差值越小,说明该特征项是不利于分类的、无效的,应当删除。特征项评估函数为:
Q(tk)=Max(w(tk,Ci))-lessMax(w(tk,Ci))(i=1...S)
其中,Q(tk)表示特征项类间权重最大值与次大值之差,S表示训练文本分为S个类别, 是类别Ci中所有n篇文本中特征项tk的权重之和,Max(w(tk,Ci))与lessMax(w(tk,Ci))分别求出S个w(tk,Ci)中的最大值和次大值。
在实际分类中特征项评估差值可设定阈值P。若Q(tk)≥P,则将特征项tk加 入特征子空间,以表示文本;若Q(tk)<P,说明特征项tk不利于分类,将将此特征项tk舍弃,完成对文本特征空间的降维操作,形成特征子空间。
步骤5:构建分类器,计算文本相似度,对文本进行分类。
通过步骤4对初始文本特征空间降维处理后,训练集中任意一篇文本均可表示成向量的形式并存储起来,即文本Tj可表示为:Tjj1,ωj2,ωjk...,ωjm),其中ωjk为文本Tj经过降维后特征子空间中的特征项tk的权重,m表示特征子空间包含的特征项个数。
当有一个新的待分类的互联网文本Ti到达时,对文本Ti进行分词、去除停用词处理,统计特征子空间中所有特征项在文本Ti中的词频,采用改进TF-IDF函数计算各特征项权重,最终将Ti也表示成向量的形式:Tii1i2ik...,ωim)。
于是,在所有文本都表示为向量的前提下,任意两篇文本之间的相似度可以转换为向量之间的夹角余弦值进行度量。两向量之间夹角余弦值越大,其夹角越小,说明两篇文本相似度越大,越可能属于同一个类别。通过计算待分类文本向量与训练集文本向量之间的夹角余弦值,与待分类文本夹角余弦值最大的训练集文本所属的类别就是待分类文本应该归入的类别。
可采用KNN最近邻居算法构建分类器,计算待分类文本Ti和训练集所有文本之间的相似度,按相似度从高到低将训练集文本排序,选取前K篇训练集文本,按照这K篇文本的类别对待分类文本进行归类,以便于有效地组织和管理网络文本信息。训练集文本选取数量,即K值可根据实际情况进行设定。
实施例
下面以一个精简的实施例对本发明进行说明。
在本实施例中,资源为视频文本资源。收集网络爬虫从各大网站上下载的视频资源文本介绍及文本标注等,共计9篇视频文本,分析并整理视频文本数据,将其按3个类别归入语料训练集。对训练集中的视频文本经分词工具分词,去除停用词处理后,统计相应特征项的词频。
表1为视频文本的特征项词频统计表。
表1
其中,T11~T13为类别1的三篇文本,T21~T23为类别2的三篇文本,T31~T33为类别3的三篇文本。t1、t2、t3、t4、t5为T11~T33文本集中的部分特征项。对表1中的特征项进行分析,对各特征项的权重分配期望如下:
●特征项t1均匀的分布在各个类别中,说明它并不能很好的区分类别,应赋予较低的权重。
●特征项t2均匀分布在类别1内部,只出现在类别3的T33文本中,说明特征项t2具备表征类别1的能力。因此特征项t2在类别1中应赋予较高的权重,在类别3中应赋予较低的权重。
●特征项t3均匀分布在类别2中,只出现在类别1的T11文本中,说明特征项t3具备表征类别2的能力。因此特征项t3在类别2中应赋予较高的权重,在类别1中赋予较低的权重。
●特征项t4虽然在类别1中词频较高,但只集中出现在T11文本中,在类别3中均匀分布。因此特征项t4在类别1中应赋予较低的权重,在类别3中应赋予较高的权重。
●特征项t5虽然类别1,类别2都有分布,但相对集中分布在类别2中,因此特征项t5在类别1应赋予较低权重,在类别2中赋予较高权重。
●此外,在文本T11中,虽然特征项t2、t4词频相同,但由于特征项t2均匀分布在类别1内部,应赋予较高的权重。
1)传统TF-IDF特征项权重计算
表2表示利用传统TF-IDF函数计算的各个特征项的权重。
表2
本实施例仅举例说明表1中文本T11中特征项t2的权重的计算过程(其他特征项的计算过程类似):
由表1可知,训练集中文本总数N=9;在文本T11中特征项t2的词频tf(t2,T11)=5,训练文本集包含特征项t2的文本数N2=4;根据传统的TF-IDF公式可得到文本T11中特征项t2的权重为:
w ( t 2 , T 11 ) = tf ( t 2 , T 11 ) × idf ( t 2 ) = tf ( t 2 , T 11 ) × log ( N N 2 + 0.01 )
= 5 × log ( 9 4 + 0.01 ) ≈ 1.771
对照之前的权重分配期望,分析表2可知,特征项t1在文本集中,权值较低,比较合理。特征项t2的权重相对较高,合理,但在文本T11中,特征项t2与t3词频相同,且训练文本集包含特征项t2与t3的文本数都为4,根据传统TF-IDF公式最终得到相同的权重,并不合理。特征项t3在类别1和类别2中,词频相同时得到的权重相同,不合理。特征项t4在类别3中权重较高,较为合理,但在类别1中由于词频较高,权重较高,不合理。特征项t5在类别1中权重较低,类别2中权重较高,相对合理。可见,传统的TF-IDF计算的权重确实存在不合理之处,无法得到使用者所期望达到的最优的权重分配。
2)改进TF-IDF特征项权重计算
表3表示结合CHI卡方统计,考虑特征项与不同类别之间的相关度对特征项权重调整后的各个特征项的权重。
表3
本实施例仅举例说明文本T11中特征项t2权重的计算过程如下(其他特征项的权重计算过程类似):
由表1可知,训练集文本总数N=9,在类别1中:包含特征项t2且属于类别1的文本数A=3;包含特征项t2但不属于类别1的文本数B=1;不包含特征项t2但属于类别1的文本数C=0。不包含特征项t2也不属于类别1的文本数D=5。根据CHI卡方统计计算公式,特征项t2与类别1的相关度为:
χ 2 ( t 2 , C 1 ) = N ( AD - BC ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D )
= 9 × ( 3 × 5 - 1 × 0 ) 2 ( 3 + 0 ) ( 1 + 5 ) ( 3 + 1 ) ( 0 + 5 ) = 5.625
因此,文本T11中特征项t2的权重经过初步调整为:
w ( t 2 , T 11 ) = tf ( t 2 , T 11 ) × log ( N N 2 + 0.01 ) × χ 2 ( t 2 , C 1 ) ≈ 1.771 × 5.625 ≈ 9.962
分析表3,各个特征项的权重经过CHI卡方统计调整后,情况有所改善。在文本T11中,虽然特征项t2和t3词频相同,但特征项t2与类别1的相关度更高,因此权重相对更高,合理。根据特征项t3与类别1、类别2的相关度,对其权重进行调整后,相同词频的特征项在类别2内权重较高,合理。但表3中仍存在不合理的地方,例如文本T11中特征项t4的权重由于其词频较高加上CHI卡方统计中类 别相关度较高使得权重较高,不合理,需要进一步进行调整。
表4表示结合特征项的类内分布信息熵对特征项的权重进行进一步调整的各个特征项的权重。
表4
本实施例仅举例说明文本T11中特征项t2权重的计算过程如下(其他特征项的权重计算过程类似):
由表1可知,训练集文本总数N=9;文本T11中特征项t2的词频为tf(t2,T11)=5,文本T12中特征项t2的词频为tf(t2,T12)=8,文本T13中特征项t2的词频为tf(t2,T13)=2;在类别1内特征项t2的总词频:tf(t2,C1)=5+8+2=15;。根据分布信息熵计算公式,可得到特征项t2的类内分布信息熵为:
H ( t 2 , C 1 ) = - Σ j = 1 3 p ( t 2,1 j , C 1 ) lb ( p ( t 2,1 j , C 1 ) ) ,
= - Σ j = 1 3 tf ( t 2 , T 1 j ) tf ( t 2 , C 1 ) lb ( tf ( t 2 , T 1 j ) tf ( t 2 , C 1 ) )
= - ( 5 15 * lb ( 5 15 ) + 8 15 * lb ( 8 15 ) + 2 15 * lb ( 2 15 ) )
≈ 1.400
因此,文本T11中特征项t2的权重结合其在类间类内的分布情况调整为:
w(t2,T11)=tf(t2,T11)×idf(t2)×χ2(t2,C1)×H(t2,C1
=1.771×5.625×1.400≈13.947
如表4所示,在TF-IDF基础上结合特征项类间类内分布对其权重进行调整后,特征项t1的权重在各个类别中较低,合理;特征项t2的权重经过不断调整, 在类别1中权重大,合理;特征项t3在类2中权重较大,合理。特征项t4在类别3中权重较大,合理;特征项t5在类别2中权重较大,合理。因此,采用改进TF-IDF函数调整后的特征项权重较为合理,为文本分类做好准备。
3)特征项选择及评估
表5表示三个类别间各特征项权重的最大值与次大值之差。
表5
根据改进的特征项权重计算方法,在得到每个特征项的权重后,根据特征项评估函数计算特征项类间权重最大值与次大值之差,选取差值较大的特征项作为文本类别表征加入特征子空间表征文本。
本实施例中,为便于进行差值大小的判断,设定阈值P为20。对于Q(tk)≥20的特征项,将tk加入特征子空间以表示文本;若Q(tk)<20,说明特征项tk是不利于分类的,无效的,将其删除,完成对初始的文本特征空间的降维操作,形成特征子空间。本实施例中,选取的特征项为t2,t3,t4,特征子空间中包含3个特征项。
表6表示特征子空间包含的特征项及其在训练集文本中的权重。
表6
4)构建分类器,计算文本相似度,对文本进行分类
通过特征项选取对文本特征空间进行降维处理后,训练集中任意一篇视频文本均可表示成向量的形式并存储起来,即文本Tj可表示为:Tjj1j2j3)。
当有一个新的待分类的视频文本Ti到达时,对文本Ti进行分词,停用词处理,统计特征子空间中所有特征项,即特征项t2,t3,t4在文本Ti中的词频,采用改进TF-IDF函数计算各特征项权重,将Ti也表示成向量的形式:Tii1i2ik...,ωim),。本实施例中,待分类视频文本向量为Tii1i2i3),假定Ti(3.4,1.2,20.3)。
表7表示待分类文本与训练集中各视频文本向量的夹角余弦值。
表7
可见,待分类文本与T31、T32、T33的夹角余弦值最大,因为待分类文本应该归入类别3。
在实际使用中,由于训练集文本数量和特征项数量都较大,可以采用KNN最近邻居算法构建分类器,计算待分类视频文本Ti与训练集所有文本的相似度,按相似度从高到低将训练集文本排序,选取前K篇训练集文本,按照这K篇文本的类别对待分类文本Ti进行归类。其中K值根据实际情况的需要确定。
本实施例中,如果采用KNN最近邻居算法构建分类器,以夹角余弦值作为相似度,将训练集文本按夹角余弦值从大到小进行排序,为T31、T32、T33、T21、T22、T23、T11、T12、T13。设定选取前4篇文本,那么这4篇文本为T31、T32、T33、T21。若根据这4篇文本中大部分文本所属的类别对待分类文本归类,那么有3篇文本属于类别3,因此待分类文本归入类别3。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的 技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于特征项选择及权重计算的文本分类方法,包括以下步骤:
(1)、收集不同类别文本,分析整理后按类别归入语料训练集;
(2)、对语料训练集的文本进行预处理,包括分词、去除停用词、统计特征项词频数;
(3)、利用改进TF-IDF函数计算各文本特征项权重,改进TF-IDF函数公式为:
w(tk,Tj)=tf(tk,Tj)×idf(tk)×χ2(tk,Ci)×H(tk,Ci)
其中:
w(tk,Tj)表示文本Tj中特征项tk的权重值;
tf(tk,Tj)表示特征项tk在文本Tj中的词频数;
表示特征项tk的逆文本频率,其中N表示语料训练集中文本总数,Nk表示训练集中包含特征项tk的文本数;
&chi; 2 ( t k , C i ) = N ( AD - BC ) 2 ( A + C ) ( B + D ) ( A + B ) ( C + D ) , 表示特征项tk与类别Ci之间的相关度,其中A为包含特征项tk且属于类别Ci的文本数,B为包含特征项tk但不属于类别Ci的文本数,C为不包含特征项tk但属于类别Ci的文本数,D为不包含特征项tk也不属于类别Ci的文本数,N表示语料训练集中文本总数;
表示特征项tk在类别Ci内的分布信息熵,其中表示类别Ci内特征项tk在文本Tj中的分布概率,tf(tk,Tj)表示特征项tk在文本Tj中的词频数,表示类别Ci内特征项tk的总词频,n表示类别Ci的文本总数;
(4)、计算特征项类间差,评估特征项,特征项评估函数公式为:
Q(tk)=Max(w(tk,Ci))-lessMax(w(tk,Ci))(i=1...S)
其中,Q(tk)表示特征项类间权重最大值与次大值之差,S表示语料训练集中文本分为S个类别,是类别Ci中所有n篇文本中特征项tk的权重之和,Max(w(tk,Ci))与lessMax(w(tk,Ci))分别求出S个w(tk,Ci)中的最大值和次大值;
根据实际需要设置特征项评估差值的阈值P,若Q(tk)≥P,则将特征项tk加入特征子空间;若Q(tk)<P,将此特征项tk舍弃,完成对文本特征空间的降维操作,形成特征子空间;
(5)、构建分类器,将语料训练集文本表示为向量形式Tjj1j2jk…,ωjm),其中ωjk为文本Tj中特征子空间包含的特征项tk的权重,m表示特征子空间包含的特征项个数;
对待分类文本Ti进行分词、去除停用词处理,统计特征子空间中所有特征项在文本Ti中的词频,采用改进TF-IDF函数计算各特征项权重,将Ti也表示成向量的形式:Tii1i2ik…,ωim);
计算Tii1i2ik…,ωim)与所有Tjj1j2jk…,ωjm)的夹角余弦值,当夹角余弦值最大,说明文本Ti与文本Tj的相似度最大,则将文本Ti归入该文本Tj所属的类别中。
2.根据权利要求1所述的文本分类方法,其特征在于,步骤(5)中,分类器采用KNN最近邻居算法构建分类器,计算待分类文本Ti与测试集所有文本的相似度,按相似度从高到低将训练集文本排序,选取前K篇训练集文本,按照这K篇文本的类别对待分类文本进行归类;其中K值根据实际情况设定。
CN201210516057.8A 2012-12-05 2012-12-05 一种基于特征项选择与权重计算的文本分类方法 Expired - Fee Related CN102930063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210516057.8A CN102930063B (zh) 2012-12-05 2012-12-05 一种基于特征项选择与权重计算的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210516057.8A CN102930063B (zh) 2012-12-05 2012-12-05 一种基于特征项选择与权重计算的文本分类方法

Publications (2)

Publication Number Publication Date
CN102930063A CN102930063A (zh) 2013-02-13
CN102930063B true CN102930063B (zh) 2015-06-24

Family

ID=47644860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210516057.8A Expired - Fee Related CN102930063B (zh) 2012-12-05 2012-12-05 一种基于特征项选择与权重计算的文本分类方法

Country Status (1)

Country Link
CN (1) CN102930063B (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136355B (zh) * 2013-03-05 2016-01-06 电子科技大学 一种基于自动阈值鱼群算法的文本聚类方法
CN103208038B (zh) * 2013-05-03 2016-01-20 武汉大学 一种专利引进预测值的计算方法
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103377454B (zh) * 2013-07-11 2015-11-11 西安交通大学 基于余弦相似度的异常报税数据检测方法
CN104346341B (zh) * 2013-07-24 2019-03-15 腾讯科技(深圳)有限公司 一种实现数据与相关事件关联的方法及装置
CN103744954B (zh) * 2014-01-06 2017-02-01 同济大学 一种词关联网模型的构建方法及其构建器
CN103870563B (zh) * 2014-03-07 2017-03-29 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
CN103955489B (zh) * 2014-04-15 2017-09-22 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法
CN104063472B (zh) * 2014-06-30 2017-02-15 电子科技大学 一种优化训练样本集的knn文本分类方法
CN105488022A (zh) * 2014-09-24 2016-04-13 中国电信股份有限公司 一种文本特征提取系统和方法
CN105630809A (zh) * 2014-10-31 2016-06-01 中国移动通信集团公司 一种基于支持向量机的文本情感分析方法及设备
CN104346459B (zh) * 2014-11-10 2017-10-27 南京信息工程大学 一种基于术语频率和卡方统计的文本分类特征选择方法
CN104504156B (zh) * 2015-01-16 2017-07-11 武汉大学 一种基于压缩感知理论的文本数据流抽样方法
CN104580234B (zh) * 2015-01-19 2017-08-11 合肥工业大学 一种社交网络中行为特征的保护方法
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN104750835A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN105045812B (zh) * 2015-06-18 2019-01-29 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN104967978A (zh) * 2015-07-06 2015-10-07 陈包容 一种节日祝福短信的发送方法
CN105159879A (zh) * 2015-08-26 2015-12-16 北京理工大学 一种网络个体或群体价值观自动判别方法
CN105045924A (zh) * 2015-08-26 2015-11-11 苏州大学张家港工业技术研究院 一种问题分类方法及系统
CN105224689A (zh) * 2015-10-30 2016-01-06 北京信息科技大学 一种东巴文献分类方法
CN105787004A (zh) * 2016-02-22 2016-07-20 浪潮软件股份有限公司 一种文本分类方法及装置
CN105975518B (zh) * 2016-04-28 2019-01-29 吴国华 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106502990A (zh) * 2016-10-27 2017-03-15 广东工业大学 一种微博特征项提取方法和改进tf‑idf归一化方法
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106776545B (zh) * 2016-11-29 2019-12-24 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN107357895B (zh) * 2017-01-05 2020-05-19 大连理工大学 一种基于词袋模型的文本表示的处理方法
CN108287848B (zh) * 2017-01-10 2020-09-04 中国移动通信集团贵州有限公司 用于语义解析的方法和系统
CN107145560B (zh) * 2017-05-02 2021-01-29 北京邮电大学 一种文本分类方法及装置
CN107273416B (zh) * 2017-05-05 2021-05-04 深信服科技股份有限公司 网页暗链检测方法、装置及计算机可读存储介质
CN107545038B (zh) * 2017-07-31 2019-12-10 中国农业大学 一种文本分类方法与设备
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法
CN107577794B (zh) * 2017-09-19 2019-07-05 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN107967299B (zh) * 2017-11-03 2020-05-12 中国农业大学 一种面向农业舆情的热词自动提取方法及系统
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置
CN109460470A (zh) * 2018-10-31 2019-03-12 上海师范大学 基于会话的视频分类方法
CN109471942B (zh) * 2018-11-07 2021-09-07 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109993216B (zh) * 2019-03-11 2021-05-11 深兰科技(上海)有限公司 一种基于k最近邻knn的文本分类方法及其设备
CN110309303A (zh) * 2019-05-22 2019-10-08 浙江工业大学 一种基于加权tf-idf的司法纠纷数据可视分析方法
CN110674289A (zh) * 2019-07-04 2020-01-10 南瑞集团有限公司 基于分词权重判断文章所属分类的方法、装置和存储介质
CN110705247B (zh) * 2019-08-30 2020-08-04 山东科技大学 基于χ2-C的文本相似度计算方法
US11526754B2 (en) 2020-02-07 2022-12-13 Kyndryl, Inc. Feature generation for asset classification
CN113626604B (zh) * 2021-08-27 2022-07-26 苏州大学 基于最大间隔准则的网页文本分类系统
CN114610877B (zh) * 2022-02-23 2023-04-25 苏州大学 基于判别方差准则的影评情感分析预处理方法及系统
CN114896398A (zh) * 2022-05-05 2022-08-12 南京邮电大学 一种基于特征选择的文本分类系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6094653A (en) * 1996-12-25 2000-07-25 Nec Corporation Document classification method and apparatus therefor
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101976270A (zh) * 2010-11-29 2011-02-16 南京师范大学 基于不确定推理的文本层次分类方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6094653A (en) * 1996-12-25 2000-07-25 Nec Corporation Document classification method and apparatus therefor
CN101251862A (zh) * 2008-03-25 2008-08-27 北京百问百答网络技术有限公司 一种基于内容的问题自动分类方法及其系统
CN101976270A (zh) * 2010-11-29 2011-02-16 南京师范大学 基于不确定推理的文本层次分类方法与装置

Also Published As

Publication number Publication date
CN102930063A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN102930063B (zh) 一种基于特征项选择与权重计算的文本分类方法
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
Uysal et al. The impact of preprocessing on text classification
CN104391835B (zh) 文本中特征词选择方法及装置
Fattah New term weighting schemes with combination of multiple classifiers for sentiment analysis
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
Li et al. Pairwise probabilistic matrix factorization for implicit feedback collaborative filtering
CN103678274A (zh) 一种基于改进互信息和熵的文本分类特征提取方法
Yogatama et al. Making the most of bag of words: Sentence regularization with alternating direction method of multipliers
Liliana et al. Indonesian news classification using support vector machine
US8560466B2 (en) Method and arrangement for automatic charset detection
CN109271514A (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN107239564A (zh) 一种基于监督主题模型的文本标签推荐方法
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
Chang et al. Predicting political affiliation of posts on Facebook
Li et al. An improved KNN algorithm for text classification
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
Zhang Implementation of classification and recognition algorithm for text information based on support vector machine
Tongman et al. Classifying positive or negative text using features based on opinion words and term frequency-inverse document frequency
Wang et al. CD: A coupled discretization algorithm
Emmanuel et al. A novel scheme for term weighting in text categorization: positive impact factor
CN103207893B (zh) 基于向量组映射的两类文本的分类方法
Shubha et al. An efficient machine learning bayes sentiment classification method based on review comments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150624

Termination date: 20171205

CF01 Termination of patent right due to non-payment of annual fee