CN102930063B

CN102930063B - 一种基于特征项选择与权重计算的文本分类方法

Info

Publication number: CN102930063B
Application number: CN201210516057.8A
Authority: CN
Inventors: 孙健; 梁雪芬; 艾丽丽; 隆克平; 徐杰; 王晓丽; 张毅; 姚洪哲; 李乾坤; 陈小英; 陈旭
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2012-12-05
Filing date: 2012-12-05
Publication date: 2015-06-24
Anticipated expiration: 2032-12-05
Also published as: CN102930063A

Abstract

本发明公开了一种基于特征项选择及权重计算的文本分类方法，对分析整理得到的语料训练集，在传统的TF-IDF特征项权重计算基础上，根据CHI卡方统计考虑特征项与不同类别之间的相关度、特征项的信息熵考虑特征项类内的平均分布情况对特征项的权重进行调整。再根据特征项类间权重差对特征项进行评估、选择。将训练集文本与待分类文本分别以特征子空间中的特征项表示成向量的形式。计算待分类文本和训练集文本之间的相似度，来确定待分类文本的类别。由于在特征项选择及权重计算过程中，在TF-IDF基础上综合考虑了特征项在类间类内的分布情况，提高了特征项选择的准确度，有效降低特征项维数，从而提高文本分类的效率和精度。

Description

一种基于特征项选择与权重计算的文本分类方法

技术领域

本发明属于信息资源管理中的文本分类技术领域，具体来讲，涉及一种基于特征项选择及权重计算的文本分类方法。

背景技术

在爆炸式增长的互联网信息资源中，文本信息是应用最为广泛的一种形式，这是因为文本是信息的载体，而多数其他的形式的信息(图像、声音)均可以用文本进行标注。为了迅速有效的发现信息和资源，文本分类技术作为有效地组织和管理文本信息的重要手段应运而生。

文本分类是在给定分类类别的情况下，根据文本的内容或属性将其分到一个或多个预定义类别。

目前，文本分类领域中主要采用的文本表示方式是VSM(向量空间模型)，即在对语料集的文本进行分词、去除停用词后，经过特征项选择和权重计算，最终将语料集文本表示成N维的向量空间。在实际应用中，特征项的维数常常高达万维，而如此高维的特征项对于文本分类未必是有益和必要的。因此，为了提高文本分类的效率和精度，如何降低特征项的维数以及特征项的权重如何计算成为文本分类中首要解决的问题。

现有技术的文本分类方法在进行特征项的选择和权重计算时采用TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆文本)函数。由于该函数综合考虑了特征项在文本中出现的次数和在整个训练文本集的分布情况，加之其计算简单并有较高的准确率，在文本分类技术领域得到了应用广泛。但在实际应用中，传统的TF-IDF函数仍存在明显的不足：

1)TF-IDF认为在特征项词频数相同情况下，若语料集中包含某个特征项的文本数越大，则IDF值越小，即权重也越小。但事实上，若特征项不是均匀的出现在语料集各个类的文本中而是集中地出现在某一类别的文本中，则说明该特征项能很好的表征该类的特征，权重应该越大而不是越小；

2)TF-IDF认为若特征项词频数越大，包含特征项的文本数越小，则特征项权重越大。但若特征项集中地出现在某一个类别的某个文本中，它就不能表征该类别的特征，特征项权重就应该越小。

可见，传统TF-IDF仅考虑了特征项在文本集中的分布情况，而忽略特征项在不同文本类别之间的分布比例以及特征项在某一类别内部的分布情况，因此在采用传统TF-IDF根据特征项及权重进行文本分类时可能会出现误判。

发明内容

本发明的目的在于克服现有技术不足，提供一种基于特征项选择及权重计算的文本分类方法，以提高特征项选择的准确度，有效降低特征项维数，从而提高文本分类的效率和精度。

为实现上述发明目的，本发明基于特征项选择及权重计算的文本分类方法，包括以下步骤：

(1)、收集不同类别文本，分析整理后按类别归入语料训练集；

(2)、对语料训练集的文本进行预处理，包括分词、去除停用词、统计特征项词频数；

(3)、利用改进TF-IDF函数计算语料训练集各文本特征项权重，改进TF-IDF函数公式为：

w(t_k,T_j)＝tf(t_k,T_j)×idf(t_k)×χ²(t_k,C_i)×H(t_k,C_i)

其中：

w(t_k,T_j)表示文本T_j中特征项t_k的权重值；

tf(t_k,T_j)表示特征项t_k在文本T_j中的词频数；表示特征项t_k的逆文本频率，其中N表示语料训练集中文本总数，N_k表示训练集中包含特征项t_k的文本数；

χ^{2} (t_{k}, C_{i}) = \frac{N {(AD - BC)}^{2}}{(A + C) (B + D) (A + B) (C + D)},

表示特征项t_k与类别C_i之间的相关度，其中A为包含特征项t_k且属于类别C_i的文本数，B为包含特征项t_k但不属于类别C_i的文本数，C为不包含特征项t_k但属于类别C_i的文本数，D为不包含特征项t_k也不属于类别C_i的文本数，N表示语料训练集中文本总数；

H (t_{k}, C_{i}) = Σ_{j = 1}^{n} p (t_{kj}, C_{i}) lb (p (t_{kj}, C_{i})),

表示特征项t_k在类别C_i内的分布信息熵，其中表示类别C_i内特征项t_k在文本T_j中的分布概率，tf(t_k,T_j)表示特征项t_k在文本T_j中的词频数，表示类别C_i内特征项t_k的总词频，n表示类别C_i的文本总数；

(4)、计算特征项类间差，评估特征项，特征项评估函数公式为：

Q(t_k)＝Max(w(t_k,C_i))-lessMax(w(t_k,C_i))(i＝1...S)

其中，Q(t_k)表示特征项类间权重最大值与次大值之差，S表示语料训练集中文本分为S个类别；

是类别C_i中所有n篇文本中特征项t_k的权重之和，Max(w(t_k,C_i))与lessMax(w(t_k,C_i))分别求出S个w(t_k,C_i)中的最大值和次大值；

根据实际需要设置特征项评估差值的阈值P，若Q(t_k)≥P，则将特征项t_k加入特征子空间；若Q(t_k)＜P，将此特征项t_k舍弃，完成对文本特征空间的降维操作，形成特征子空间；

(5)、构建分类器，将语料训练集文本表示为向量形式T_j(ω_j1，ω_j2，ω_jk...,ω_jm)，其中ω_jk为文本T_j中特征子空间包含的特征项t_k的权重，m表示特征子空间包含的特征项个数；

对待分类文本T_i进行分词、去除停用词处理，统计特征子空间中所有特征项在文本T_i中的词频，采用改进TF-IDF函数计算各特征项权重，将T_i也表示成向量的形式：T_i(ω_i1,ω_i2,ω_ik...,ω_im)；

计算T_i(ω_i1,ω_i2,ω_ik...,ω_im)与所有T_j(ω_j1，ω_j2，ω_jk...,ω_jm)的夹角余弦值，当夹角余弦值最大，说明文本T_i与文本T_j的相似度最大，则将文本T_i归入该文本T_j所属的类别中。

进一步地，在步骤(5)中，分类器采用KNN(k-Nearest Neighbor algorithm)最近邻居算法构建分类器，计算待分类文本T_i与训练集所有文本的相似度，按相似度从高到低将训练集文本排序，选取前K篇训练集文本，按照这K篇文本的类别对待分类文本进行归类；其中K值根据实际情况设定。

本发明在进行特征项的选择与权重计算时，在传统的TF-IDF函数基础上，根据CHI卡方统计考虑特征项与不同类别之间的相关度、特征项的信息熵考虑特征项类内的平均分布情况对特征项的权重进行调整。通过改进TF-IDF函数计算权重并选择出的特征项，准确度更高，更能表征文本类别，特征子空间的维度也能得到有效控制，从而对文本分类方法实现了优化，提高了文本分类的效率和准确度。

附图说明

图1是本发明基于特征项选择及权重计算的文本分类方法的一种具体实施方式的原理框图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明一种基于特征项选择及权重计算的文本分类方法具体实施方式的原理框图。如图1所示，一种基于特征项选择及权重计算的文本分类方法包括以下步骤：

步骤1、收集并整理互联网文本，按类别归入语料训练集。

利用网络爬虫从各大网站上下载不同类别文本，将分析整理后的文本数据按类别归入语料训练集，训练集用于文本分类器的训练和构造过程。

步骤2、对训练集文本进行预处理，包括分词、去除停用词、统计特征项词频数。

采用分词工具对语料训练集文本进行分词，语料训练集文本经分词后的词或词语即为文本的特征项，特征项构成文本的特征空间。然后删除初始文本特征空间中的停用词例如“的”、“是”、“就是”、“必须”，此时文本特征空间常常高达万维。接着，分别对语料训练集中文本总数、各个类别文本总数、特征项词频、特征项所属文本数等进行数据统计。

步骤3、利用改进TF-IDF函数计算特征项权重。

传统的TF-IDF作为特征项权重函数综合考虑了特征项的词频以及逆文本频率，其计算公式如下：

w(t_k,T_j)＝tf(t_k,T_j)×idf(t_k)

其中，w(t_k,T_j)为文本T_j中特征项t_k的权重；tf(t_k,T_j)为特征项t_k在文本T_j中的词频数；表示特征项t_k在训练集中的逆文本频率，N为训练集中文本总数，N_k为训练集中包含特征项t_k的文本数。

由于传统TF-IDF函数仅考虑了特征项在文本集中的分布情况，而忽略特征项在不同文本类别之间的分布比例以及特征项在某一类别内部的分布情况。因此，本发明提出结合特征项类间CHI卡方统计和特征项类内分布信息熵的概念以改进TF-IDF函数计算特征项权重的方法。其中，特征项类间CHI卡方统计和特征项类内信息熵定义如下：

●特征项类间CHI卡方统计

假设特征项t_k与类别C_i之间的非独立关系具有一维自由度的χ²分布，那么特征项t_k对于类别C_i的CHI卡方统计量可计算为：

χ^{2} (t_{k}, C_{i}) = \frac{N {(AD - BC)}^{2}}{(A + C) (B + D) (A + B) (C + D)}

其中，A为包含特征项t_k且属于类别C_i的文本数，B为包含特征项t_k但不属于类别C_i的文本数，C为不包含特征项t_k但属于类别C_i的文本数，D为不包含特征项t_k也不属于类别C_i的文本数，N表示训练文本集中文本总数。

χ²(t_k,C_i)用来度量特征项t_k与类别C_i之间的相关程度。特征项t_k和类别C_i相关性越强，χ²(t_k,C_i)的值越大，特征项t_k就越能表征类别C_i的特征信息，权重越大。若特征项t_k和C_i相互独立，则χ²(t_k,C_i)＝0。

●特征项类内分布信息熵

信息熵表示信息量在文本集中分布的均匀程度，信息量分布得越均匀，熵值就越大。特征项t_k在类别C_i内分布信息熵计算公式为：

H (t_{k}, C_{i}) = Σ_{j = 1}^{n} p (t_{kj}, C_{i}) lb (p (t_{kj}, C_{i}))

其中：H(t_k,C_i)表示特征项t_k在类别C_i内分布信息熵；表示类别C_i内特征项t_k在文本T_j中的分布概率，tf(t_k,T_j)表示特征项t_k在文本T_j中的词频数，表示类别C_i内特征项t_k的总词频，n表示类别C_i的文本总数。

考虑特征项在类内分布的情况，如果特征项t_k在类别C_i内分布越均匀，分布信息熵H(t_k,C_i)值就越大，特征项就越能表征类别的特征，权重越大；反之，H(t_k,C_i)分布信息熵值就越小，特征项不能表征类别的特征，权重越小。

●改进的特征项权重计算方法

本发明在传统的TF-IDF特征项选择和权重计算基础上，结合CHI卡方统计考虑特征项与不同类别之间的相关度和特征项的类内分布信息熵对特征项的权重进行调整，调整后的改进TF-IDF函数如下：

文本T_j中特征项t_k的权重为：

w(t_k,T_j)＝tf(t_k,T_j)×idf(t_k)×χ²(t_k,C_i)×H(t_k,C_i)

步骤4：计算特征项类间差，评估及选择特征项。

根据步骤3中结合特征项类间类内分布的权重计算方法，可得到文本T_j中特征项t_k的权重w(t_k,T_j)，将特征项在类别C_i内各文本的权重求和可得到特征项类权重w(t_k,C_i)。本发明采用特征项类间权重中最大值与次最大值之差作为特征项评估选择依据，若差值越大，说明特征项区别类能力和表征类的能力就越强，应当加入特征子空间表征文本；若差值越小，说明该特征项是不利于分类的、无效的，应当删除。特征项评估函数为：

Q(t_k)＝Max(w(t_k,C_i))-lessMax(w(t_k,C_i))(i＝1...S)

其中，Q(t_k)表示特征项类间权重最大值与次大值之差，S表示训练文本分为S个类别，是类别C_i中所有n篇文本中特征项t_k的权重之和，Max(w(t_k,C_i))与lessMax(w(t_k,C_i))分别求出S个w(t_k,C_i)中的最大值和次大值。

在实际分类中特征项评估差值可设定阈值P。若Q(t_k)≥P，则将特征项t_k加入特征子空间，以表示文本；若Q(t_k)＜P，说明特征项t_k不利于分类，将将此特征项t_k舍弃，完成对文本特征空间的降维操作，形成特征子空间。

步骤5：构建分类器，计算文本相似度，对文本进行分类。

通过步骤4对初始文本特征空间降维处理后，训练集中任意一篇文本均可表示成向量的形式并存储起来，即文本T_j可表示为：T_j(ω_j1，ω_j2，ω_jk...,ω_jm)，其中ω_jk为文本T_j经过降维后特征子空间中的特征项t_k的权重，m表示特征子空间包含的特征项个数。

当有一个新的待分类的互联网文本T_i到达时，对文本T_i进行分词、去除停用词处理，统计特征子空间中所有特征项在文本T_i中的词频，采用改进TF-IDF函数计算各特征项权重，最终将T_i也表示成向量的形式：T_i(ω_i1,ω_i2,ω_ik...,ω_im)。

于是，在所有文本都表示为向量的前提下，任意两篇文本之间的相似度可以转换为向量之间的夹角余弦值进行度量。两向量之间夹角余弦值越大，其夹角越小，说明两篇文本相似度越大，越可能属于同一个类别。通过计算待分类文本向量与训练集文本向量之间的夹角余弦值，与待分类文本夹角余弦值最大的训练集文本所属的类别就是待分类文本应该归入的类别。

可采用KNN最近邻居算法构建分类器，计算待分类文本T_i和训练集所有文本之间的相似度，按相似度从高到低将训练集文本排序，选取前K篇训练集文本，按照这K篇文本的类别对待分类文本进行归类，以便于有效地组织和管理网络文本信息。训练集文本选取数量，即K值可根据实际情况进行设定。

实施例

下面以一个精简的实施例对本发明进行说明。

在本实施例中，资源为视频文本资源。收集网络爬虫从各大网站上下载的视频资源文本介绍及文本标注等，共计9篇视频文本，分析并整理视频文本数据，将其按3个类别归入语料训练集。对训练集中的视频文本经分词工具分词，去除停用词处理后，统计相应特征项的词频。

表1为视频文本的特征项词频统计表。

表1

其中，T11~T13为类别1的三篇文本，T21~T23为类别2的三篇文本，T31~T33为类别3的三篇文本。t₁、t₂、t₃、t₄、t₅为T11~T33文本集中的部分特征项。对表1中的特征项进行分析，对各特征项的权重分配期望如下：

●特征项t₁均匀的分布在各个类别中，说明它并不能很好的区分类别，应赋予较低的权重。

●特征项t₂均匀分布在类别1内部，只出现在类别3的T33文本中，说明特征项t₂具备表征类别1的能力。因此特征项t₂在类别1中应赋予较高的权重，在类别3中应赋予较低的权重。

●特征项t₃均匀分布在类别2中，只出现在类别1的T11文本中，说明特征项t₃具备表征类别2的能力。因此特征项t₃在类别2中应赋予较高的权重，在类别1中赋予较低的权重。

●特征项t₄虽然在类别1中词频较高，但只集中出现在T11文本中，在类别3中均匀分布。因此特征项t₄在类别1中应赋予较低的权重，在类别3中应赋予较高的权重。

●特征项t₅虽然类别1，类别2都有分布，但相对集中分布在类别2中，因此特征项t₅在类别1应赋予较低权重，在类别2中赋予较高权重。

●此外，在文本T11中，虽然特征项t₂、t₄词频相同，但由于特征项t₂均匀分布在类别1内部，应赋予较高的权重。

1)传统TF-IDF特征项权重计算

表2表示利用传统TF-IDF函数计算的各个特征项的权重。

表2

本实施例仅举例说明表1中文本T11中特征项t₂的权重的计算过程(其他特征项的计算过程类似)：

由表1可知，训练集中文本总数N=9；在文本T11中特征项t₂的词频tf(t₂,T₁₁)＝5，训练文本集包含特征项t₂的文本数N₂＝4；根据传统的TF-IDF公式可得到文本T11中特征项t₂的权重为：

w (t_{2}, T_{11}) = tf (t_{2}, T_{11}) \times idf (t_{2}) = tf (t_{2}, T_{11}) \times \log (\frac{N}{N_{2}} + 0.01)

= 5 \times \log (\frac{9}{4} + 0.01) \approx 1.771

对照之前的权重分配期望，分析表2可知，特征项t₁在文本集中，权值较低，比较合理。特征项t₂的权重相对较高，合理，但在文本T11中，特征项t₂与t₃词频相同，且训练文本集包含特征项t₂与t₃的文本数都为4，根据传统TF-IDF公式最终得到相同的权重，并不合理。特征项t₃在类别1和类别2中，词频相同时得到的权重相同，不合理。特征项t₄在类别3中权重较高，较为合理，但在类别1中由于词频较高，权重较高，不合理。特征项t₅在类别1中权重较低，类别2中权重较高，相对合理。可见，传统的TF-IDF计算的权重确实存在不合理之处，无法得到使用者所期望达到的最优的权重分配。

2)改进TF-IDF特征项权重计算

表3表示结合CHI卡方统计，考虑特征项与不同类别之间的相关度对特征项权重调整后的各个特征项的权重。

表3

本实施例仅举例说明文本T11中特征项t₂权重的计算过程如下(其他特征项的权重计算过程类似)：

由表1可知，训练集文本总数N=9，在类别1中：包含特征项t₂且属于类别1的文本数A＝3；包含特征项t₂但不属于类别1的文本数B＝1；不包含特征项t₂但属于类别1的文本数C＝0。不包含特征项t₂也不属于类别1的文本数D＝5。根据CHI卡方统计计算公式，特征项t₂与类别1的相关度为：

χ^{2} (t_{2}, C_{1}) = \frac{N {(AD - BC)}^{2}}{(A + C) (B + D) (A + B) (C + D)}

= \frac{9 \times {(3 \times 5 - 1 \times 0)}^{2}}{(3 + 0) (1 + 5) (3 + 1) (0 + 5)} = 5.625

因此，文本T11中特征项t₂的权重经过初步调整为：

w (t_{2}, T_{11}) = tf (t_{2}, T_{11}) \times \log (\frac{N}{N_{2}} + 0.01) {\times χ}^{2} (t_{2}, C_{1}) \approx 1.771 \times 5.625 \approx 9.962

分析表3，各个特征项的权重经过CHI卡方统计调整后，情况有所改善。在文本T11中，虽然特征项t₂和t₃词频相同，但特征项t₂与类别1的相关度更高，因此权重相对更高，合理。根据特征项t₃与类别1、类别2的相关度，对其权重进行调整后，相同词频的特征项在类别2内权重较高，合理。但表3中仍存在不合理的地方，例如文本T11中特征项t₄的权重由于其词频较高加上CHI卡方统计中类别相关度较高使得权重较高，不合理，需要进一步进行调整。

表4表示结合特征项的类内分布信息熵对特征项的权重进行进一步调整的各个特征项的权重。

表4

由表1可知，训练集文本总数N=9；文本T11中特征项t₂的词频为tf(t₂,T₁₁)＝5，文本T12中特征项t₂的词频为tf(t₂,T₁₂)＝8，文本T13中特征项t₂的词频为tf(t₂,T₁₃)＝2；在类别1内特征项t₂的总词频：tf(t₂,C₁)＝5+8+2＝15；。根据分布信息熵计算公式，可得到特征项t₂的类内分布信息熵为：

H (t_{2}, C_{1}) = - Σ_{j = 1}^{3} p (t_{2,1 j}, C_{1}) lb (p (t_{2,1 j}, C_{1})),

= - Σ_{j = 1}^{3} \frac{tf (t_{2}, T_{1 j})}{tf (t_{2}, C_{1})} lb (\frac{tf (t_{2}, T_{1 j})}{tf (t_{2}, C_{1})})

= - (\frac{5}{15} * lb (\frac{5}{15}) + \frac{8}{15} * lb (\frac{8}{15}) + \frac{2}{15} * lb (\frac{2}{15}))

\approx 1.400

因此，文本T11中特征项t₂的权重结合其在类间类内的分布情况调整为：

w(t₂,T₁₁)＝tf(t₂,T₁₁)×idf(t₂)×χ²(t₂,C₁)×H(t₂,C₁)

＝1.771×5.625×1.400≈13.947

如表4所示，在TF-IDF基础上结合特征项类间类内分布对其权重进行调整后，特征项t₁的权重在各个类别中较低，合理；特征项t₂的权重经过不断调整，在类别1中权重大，合理；特征项t₃在类2中权重较大，合理。特征项t₄在类别3中权重较大，合理；特征项t₅在类别2中权重较大，合理。因此，采用改进TF-IDF函数调整后的特征项权重较为合理，为文本分类做好准备。

3)特征项选择及评估

表5表示三个类别间各特征项权重的最大值与次大值之差。

表5

根据改进的特征项权重计算方法，在得到每个特征项的权重后，根据特征项评估函数计算特征项类间权重最大值与次大值之差，选取差值较大的特征项作为文本类别表征加入特征子空间表征文本。

本实施例中，为便于进行差值大小的判断，设定阈值P为20。对于Q(t_k)≥20的特征项，将t_k加入特征子空间以表示文本；若Q(t_k)<20，说明特征项t_k是不利于分类的，无效的，将其删除，完成对初始的文本特征空间的降维操作，形成特征子空间。本实施例中，选取的特征项为t₂，t₃，t₄，特征子空间中包含3个特征项。

表6表示特征子空间包含的特征项及其在训练集文本中的权重。

表6

4)构建分类器，计算文本相似度，对文本进行分类

通过特征项选取对文本特征空间进行降维处理后，训练集中任意一篇视频文本均可表示成向量的形式并存储起来，即文本T_j可表示为：T_j(ω_j1,ω_j2,ω_j3)。

当有一个新的待分类的视频文本T_i到达时，对文本T_i进行分词，停用词处理，统计特征子空间中所有特征项，即特征项t₂,t₃,t₄在文本T_i中的词频，采用改进TF-IDF函数计算各特征项权重，将T_i也表示成向量的形式：T_i(ω_i1,ω_i2,ω_ik...,ω_im)，。本实施例中，待分类视频文本向量为T_i(ω_i1,ω_i2,ω_i3)，假定T_i(3.4,1.2,20.3)。

表7表示待分类文本与训练集中各视频文本向量的夹角余弦值。

表7

可见，待分类文本与T31、T32、T33的夹角余弦值最大，因为待分类文本应该归入类别3。

在实际使用中，由于训练集文本数量和特征项数量都较大，可以采用KNN最近邻居算法构建分类器，计算待分类视频文本T_i与训练集所有文本的相似度，按相似度从高到低将训练集文本排序，选取前K篇训练集文本，按照这K篇文本的类别对待分类文本T_i进行归类。其中K值根据实际情况的需要确定。

本实施例中，如果采用KNN最近邻居算法构建分类器，以夹角余弦值作为相似度，将训练集文本按夹角余弦值从大到小进行排序，为T31、T32、T33、T21、T22、T23、T11、T12、T13。设定选取前4篇文本，那么这4篇文本为T31、T32、T33、T21。若根据这4篇文本中大部分文本所属的类别对待分类文本归类，那么有3篇文本属于类别3，因此待分类文本归入类别3。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于特征项选择及权重计算的文本分类方法，包括以下步骤：

(3)、利用改进TF-IDF函数计算各文本特征项权重，改进TF-IDF函数公式为：

w(t_k,T_j)＝tf(t_k,T_j)×idf(t_k)×χ²(t_k,C_i)×H(t_k,C_i)

其中：

w(t_k,T_j)表示文本T_j中特征项t_k的权重值；

tf(t_k,T_j)表示特征项t_k在文本T_j中的词频数；

表示特征项t_k的逆文本频率，其中N表示语料训练集中文本总数，N_k表示训练集中包含特征项t_k的文本数；

χ^{2} (t_{k}, C_{i}) = \frac{N {(AD - BC)}^{2}}{(A + C) (B + D) (A + B) (C + D)},

Q(t_k)＝Max(w(t_k,C_i))-lessMax(w(t_k,C_i))(i＝1...S)

其中，Q(t_k)表示特征项类间权重最大值与次大值之差，S表示语料训练集中文本分为S个类别，是类别C_i中所有n篇文本中特征项t_k的权重之和，Max(w(t_k,C_i))与lessMax(w(t_k,C_i))分别求出S个w(t_k,C_i)中的最大值和次大值；

根据实际需要设置特征项评估差值的阈值P，若Q(t_k)≥P，则将特征项t_k加入特征子空间；若Q(t_k)<P，将此特征项t_k舍弃，完成对文本特征空间的降维操作，形成特征子空间；

(5)、构建分类器，将语料训练集文本表示为向量形式T_j(ω_j1,ω_j2,ω_jk…,ω_jm)，其中ω_jk为文本T_j中特征子空间包含的特征项t_k的权重，m表示特征子空间包含的特征项个数；

对待分类文本T_i进行分词、去除停用词处理，统计特征子空间中所有特征项在文本T_i中的词频，采用改进TF-IDF函数计算各特征项权重，将T_i也表示成向量的形式：T_i(ω_i1,ω_i2,ω_ik…,ω_im)；

计算T_i(ω_i1,ω_i2,ω_ik…,ω_im)与所有T_j(ω_j1,ω_j2,ω_jk…,ω_jm)的夹角余弦值，当夹角余弦值最大，说明文本T_i与文本T_j的相似度最大，则将文本T_i归入该文本T_j所属的类别中。

2.根据权利要求1所述的文本分类方法，其特征在于，步骤(5)中，分类器采用KNN最近邻居算法构建分类器，计算待分类文本T_i与测试集所有文本的相似度，按相似度从高到低将训练集文本排序，选取前K篇训练集文本，按照这K篇文本的类别对待分类文本进行归类；其中K值根据实际情况设定。