CN104750844B

CN104750844B - 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置

Info

Publication number: CN104750844B
Application number: CN201510165395.5A
Authority: CN
Inventors: 龙军; 陈科文; 张祖平; 杨柳
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-04-09
Filing date: 2015-04-09
Publication date: 2016-03-02
Anticipated expiration: 2035-04-09
Also published as: CN104750844A

Abstract

本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置，通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度，并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性，提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项，可根据文本分类性能测试结果进行优化调节，适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明，TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越，尤其适合两类以上的多类别文本分类应用。

Description

基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置

技术领域

本发明属于文本挖掘与机器学习技术领域，特别涉及一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置。

背景技术

随着计算机的广泛应用和互联网规模的不断发展，电子文本文档数量急剧增加，因此对海量文本数据进行有效地组织、检索和挖掘变得越来越重要。自动文本分类就是应用广泛的技术手段之一，它常采用向量空间模型(VSM)来表示文本，再用有监督的机器学习方法进行分类。通过从文本中提取一定数量的特征词并计算其权重，VSM模型把文本表示成由多个特征词的权重值所组成的向量，称为特征向量。在生成文本特征向量时，特征词权重计算方法是否科学决定了文本分类的性能。

传统的权重计算方法有二值法(或布尔法，Boolean)、TF(词频,TermFrequency)法和TF-IDF(词频-反文档频率,TermFrequency&InverseDocumentFrequency)法等，其中TF-IDF法综合考虑了特征词在单个文档中的局部权重因子(即词频,TF)和在整个文档集合中的全局权重因子(即反文档频率,IDF)，因此计算更加科学而被广泛采用。实际上，自动文本分类需要在预先已分类的文本集上进行训练学习，但是TF-IDF法并没有考虑特征词出现的文本类别，不能充分反映特征词在文本分类中的重要性。于是，人们又提出了利用特征词的类别分布信息来计算权重的一些新方法，统称为有监督的词加权，其中典型代表就是TF-RF(词频-相关性频率,TermFrequency&RelevanceFrequency)方法，它利用特征词在正类文本和反类文本中出现的文档数之比来计算权重。虽然在解决某些两类文本分类问题上表现出较好性能，但是TF-RF方法在多类别文本分类中存在一个主要问题：它把多个类别的文本合并成单个反类来处理，而没有考虑特征词在这些文本类别中的详细分布信息，导致权重计算存在偏差。另外，TF-RF等有监督词加权方法所计算的特征词权重与具体文本的类别有关，而待分类的新文本或测试文本的类别是未知的，当把待分类文本表示成特征向量时，要么采用TF-IDF等传统方法计算权重，要么针对所有类别逐一用TF-RF方法计算权重，前者需要在训练学习时增加额外的统计信息，后者则在分类或测试时增加了计算量和多种变数。

发明内容

本发明提供了一种基于TF-IGM(词频-反重力矩，TermFrequency&InverseGravityMoment)的文本特征向量生成方法和装置及文本分类方法和装置，通过充分利用特征词在不同类别文本中出现的详细分布信息，并建立一种称为反重力矩(IGM)的模型来度量特征词的类间分布集中度，使得权重计算更加合理有效，从而提高文本分类器的性能，以克服现有技术中特征词权重计算偏差大的问题；所提供的上述方法和装置具备多个可调节的选项参数，能根据文本分类性能测试结果进行优化调节，从而获得最优的文本分类效果。

一种用于文本分类的特征向量生成方法，包括以下步骤：

步骤1：将已分类的训练文本集和待分类的文本集进行预处理；

所述已分类的训练文本集简称为训练集，其中每个文档都带有类别标签；

所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集；

所述预处理是指对文本进行分词和去噪处理，所述去噪包括去除标点符号、数字及停用词；

步骤2：从预处理后的训练集中提取不同的词条，构建由不同的词条组成的初始词表；

并且统计训练集中的每个文本类别的文档数目、每个词条的类别文档频率；所述词条类别文档频率是指包含某词条的属于某个文本类别的训练文档数目；

同时，统计训练集与待分类的文本集中每个文档包含的每个词条的词频，所述每个文档包括训练文档和待分类文档，所述词频是指某词条在一篇文档中的出现频次；

步骤3：根据特征选择指标对初始词表进行筛选，保留指标计算值大的词条作为文本的特征词，构建新的特征词表；

待分类的文本集和训练集使用相同的特征词表；

所述特征选择指标包括卡方统计量或信息增益；

所述筛选方法是先计算每个词条的特征选择指标，将所有词条的特征选择指标计算值按照从大到小排序，选择排列在前面的600～6000个词条作为特征词；

根据需要，选择的特征词数量范围也可进一步扩大，以便在分类准确度和分类速度之间进行权衡。

步骤4：用TF-IGM方法计算每个特征词在文档中的权重，并生成文档特征向量；

所述TF-IGM方法是先按照以下公式计算特征词t_k在文档d_i中的权重W(t_k,d_i)，再按照以下公式对特征词权重进行归一化处理；最后用每个特征词的归一化权重值w(t_k,d_i)组成文档d_i的特征向量

W (t_{k}, d_{i}) = W_{l o c a l}^{t f} (t_{k}, d_{i}) \cdot W_{g l o b a l}^{c i c d} (t_{k})

\overset{&OverBar;}{w} (t_{k}, d_{i}) = \frac{W (t_{k}, d_{i})}{\sqrt{\underset{t_{j} &Element; d_{i}}{Σ} W {(t_{j}, d_{i})}^{2}}}

其中，k,j＝1,2,…,n，n为经过步骤3筛选后保留的不同特征词的数量；为基于词频的局部权重因子，为基于类间分布集中度的全局权重因子；

tf_ki为特征词t_k在文档d_i中的原始词频，log(tf_ki+1)是对数词频，是开方词频，取三者中的任意一个值；

根据文本分类性能测试结果的好坏而定；

所述基于类间分布集中度的全局权重因子采用类间分布集中度、类间分布集中度与类内分布均匀度结合、类间分布集中度与反文档频率结合、或者类间分布集中度与反词频结合进行计算获得。

所述基于类间分布集中度的全局权重因子采用以下公式计算获得：

W_{g l o b a l}^{c i c d} (t_{k}) = 1 + λ \cdot C_{i c d} (t_{k})

λ为可调节系数，取6～7，C_icd(t_k)为特征词t_k的类间分布集中度。

所述特征词t_k的类间分布集中度C_icd(t_k)采用以下的反重力矩(IGM)模型公式计算获得：

C_{i c d} (t_{k}) = \frac{F_{1}}{Σ_{r = 1}^{m} (F_{r} \cdot r)}

特征词t_k在各个文本类别中的出现频次按从大到小排序为F₁≥F₂≥……≥F_m；m表示文本类别数，F_r(r＝1,2,...,m)为排序后特征词t_k在第r个文本类别中的出现频次，取值为词条类别文档频率DF_r或词条类别平均词频avgTF_r，(F_r·r)是第r个文本类别对应的重力矩(GravityMoment,GM)；

重力矩的倒数就是反重力矩(InverseGravityMoment,IGM)；

所述词条类别文档频率是指包含某词条的属于某个文本类别的训练文档数目；

所述词条类别平均词频是指某词条在训练集某个文本类别的任一训练文档中出现的平均次数，等于该词条在某个文本类别的所有训练文档中的词频之和除以这个类别的文档数目。

所述基于类间分布集中度的全局权重因子使用了特征词在训练集中的详细类别分布信息(包括词条类别文档频率、词条类别平均词频)以及每个类别的文档数目，并且所述全局权重因子是预先统一计算的，而在把每个文档转换为特征向量时只需查表确定，因为不论是在训练文档中，还是在待分类的文档中，同一个特征词的全局权重因子都是相同的。

一种基于TF-IGM权重的文本分类方法，基于所述的一种用于文本分类的特征向量生成方法，首先，计算已知类别的每个训练文档和待分类的每个文档中所有特征词的TF-IGM权重，得到对应的文档特征向量；然后，将已知类别的文本训练集对应的文档特征向量集输入分类器，进行分类训练，得到已训练好的分类器；最后，再将待分类的文本集对应的文档特征向量集输入已训练好的分类器，完成对文档的分类。

对测试文档分类结果进行评估，得到分类性能指标；基于分类性能指标对初始特征词表筛选方法和保留的特征词数目进行更改、改变局部权重因子类型、调节全局权重因子的可调节系数λ或优化分类器参数，直到测试集文本分类结果的宏平均F1值和微平均F1值达到最优；

所述分类性能指标包括每个类别的准确率、召回率、综合性能F1值，以及所有类别的宏平均F1值和微平均F1值；

微平均F1值＝2P*R/(P+R)

宏平均F1值＝sum(F1_j)/m

其中，P为整个测试文本集分类结果的准确率，R为整个测试文本集被正确分类的召回率；F1_j＝2P_j*R_j/(P_j+R_j)为第j个文本类别(j＝1,2,…,m)的分类性能指标F1值，m为类别数，P_j和R_j为第j类文本分类的准确率和召回率，sum()是求和函数。

一种用于文本分类的特征向量生成装置，基于所述的一种用于文本分类的特征向量生成方法，包括按顺序依次串接的文本预处理模块、训练集词表构建与统计模块、特征选择模块及特征词的TF-IGM权重计算模块。

一种基于TF-IGM权重的文本分类装置，利用所述的用于文本分类的特征向量生成装置与任何一种分类器和相应的性能评估器组成文本分类装置；

所述特征向量生成装置将从输入的文本集生成的特征向量输出到分类器进行训练和分类，并可根据分类性能评估结果反馈调节它的各选项参数输入值，从而获得最优的文本分类性能。

有益效果

本发明所提供的一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置，TF-IGM(词频-反重力矩)特征词权重计算新方法考虑到文本中比其它词具有更强类别区分能力的特征词在不同类别文本中分布不均衡，通常集中出现在单个或很少类别的文本中，建立了一种称为“反重力矩(IGM)”的独特模型来计算特征词的类间分布集中度，并在此基础上计算特征词的权重。与现有技术相比，用上述TF-IGM方法计算所得权重更能逼真地反映特征词在文本分类中的重要性，使得具有强类别区分能力的特征词被分配更大的权重，使得权重计算更加合理有效，从而提高了文本分类的准确度；而且计算所得特征词权重与具体文本的类别无关，克服了前述TF-RF等有监督词加权方法在多类别文本分类中的不足。

另外，本发明所提供的特征向量生成方法与装置及文本分类方法与装置还具备多个不同的选项参数，比如特征选择方法、选择保留的特征词数目、局部权重因子类型、基于反重力矩(IGM)的全局权重因子中的可调节系数等，可根据分类性能测试结果进行优化调节，以便适应具有不同特点的文本数据集，从而获得最佳的文本分类性能。

在国内外研究人员广泛使用的公共英文数据集和中文数据集上的反复实验表明，本发明提出的TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越，本发明提供的特征向量生成装置生成的特征向量能应用于多种分类器，尤其适合多类别文本分类应用。

附图说明

图1为本发明所述用于文本分类的特征向量生成方法的工作流程图；

图2为本发明所述文本分类装置的工作流程图。

具体实施方式

下面结合附图和具体案例对本发明的具体实施方式进行详细描述，并提供有关实验结果。为了突出本发明的创新之处，将忽略本领域众所周知的一些技术的细节。

如图1和图2所示，用TF-IGM(词频-反重力矩)方法计算特征词权重并进行文本分类的具体实施步骤如下：

步骤(1)：生成文本特征向量；

输入文本集(包括训练集和测试集)，基于TF-IGM方法按顺序执行如下步骤s1至步骤s4，生成每个文本文档的特征向量。

步骤s1：文本预处理；

准备一批预先已分类的文本集，并按一定比例分割为训练集和测试集；导入已分类和待分类的文本集，对所有文本进行分词和去噪；所述去噪就是去除文本中的一些噪声信息，包括常见的标点符号、数字、停用词、等等。

步骤s2：训练集词表构建与统计处理；

从预处理后的训练集中提取不同的词条，构建初始词表；并且统计每个文本类别的文档数目、每个词条的类别文档频率，以及每个训练文档和待分类文档中包含的每个词条的出现频次，即词频。

本实施案例使用两个具有不同特点的公共数据集：20Newsgroups英文语料库和TanCorp中文语料库，并且使用前者的20news-bydate版本和后者的TanCorp-12预处理格式版本。20News-bydate英文语料库是准平衡数据集，共有18846篇文档，分为20类，各类文档数相等或接近，已按日期排序并分割为训练集(有11314篇文档，占60％)和测试集(有7532篇文档，占40％)，其中重复文档和某些消息头部已被删除(以防止它们对分类结果产生误导效应)，预处理时去除英文停用词、数字、标点符号和其它单字符，以及出现频次少于两次的罕见词，并把大写字母转换为小写、用词根分析器提取英语单词的词根，从训练集文本中共提取出35642个特征词。TanCorp-12中文语料库是非平衡数据集，共有14150篇文档，分为12类，各类文档数不等，最大类(电脑类)有2943篇文档，而最小类(地域类)只有150篇文档，不存在异类重复文档，所有文本已用中文分词工具ICTCLAS进行分词，并去掉了数字与标点符号，提取出72601个独立的特征词(其中停用词和其它不重要的词将使用步骤s2中的特征选择方法去除)，把语料库按类别随机分割为训练集(有9345篇文档，占66％)和测试集(有4805篇文档，占34％)。

步骤s3：特征选择；

使用卡方统计量(CHI或χ²)、信息增益(IG)或其它方法，对初始词表中所有特征词的重要性进行评估，选择保留一定数量的评分较高的特征词，组成新的特征词表；待分类文本集和训练集使用相同的特征词表。

本实施案例的实验中使用流行的卡方统计量(CHI或χ²)方法进行特征选择，须计算特征词的类别相关的CHI评分，其计算公式为：

其中，A和B分别为特征词在正类和反类中的文档频率，C和D分别为正类和反类中没有包含该特征词的文档数，N＝A+B+C+D为总文档数。取各类别CHI评分的最大值作为该特征词的总评分(简称为CHI_max)，对所有词的总评分排序，选择保留一定数量的高分特征词。本实施案例用CHI_max方法分别从语料库中提取低维特征集和高维特征集用于实验，具体就是，从20Newsgroups英文语料库中分别选择2000和9000个特征词，从TanCorp中文语料库中分别选择1000和6000个特征词。

步骤s4：特征词权重计算；

用TF-IGM方法计算每个特征词在文档中的归一化权重，把每个文本文档(训练文本、测试文本或待分类文本)都转换成特征向量，具体实现步骤如下：

步骤s4.1：统计每个特征词t_k(k＝1,2,...,n)在不同类别C_j(j＝1,2,...,m)训练文本中出现的频次,有2个选项：类别文档频率DF_j和类别平均词频avgTF_j，其中DF_j表示C_j类中含有特征词t_k的文档数，这里TF_ij表示t_k在C_j类的某文档d_i中的词频，N_j表示C_j类文档数。

步骤s4.2：对特征词在各类别文本中的出现频次按从大到小排序，排序结果为F₁≥F₂≥…≥F_m，这里F_r(r＝1,2,...,m)＝DF_j或avgTF_j，为排序后在第r位的C_j类别频次。

在本实验中，选择F_r＝DF_j(类别文档频率),因此对特征词t_k在各类别中的文档频率排序。

步骤s4.3：计算特征词的各类别频次按最大值归一化后的重力矩之和，取其倒数即得到反重力矩(IGM)，用它来表示特征词的类间分布集中度，为

步骤s4.4：按公式计算特征词t_k的全局权重因子,其中的系数λ可调节，通常取6～7。在本实验中，选择系数值为：λ＝7.0。预先在扫描训练集时计算出所有特征词的全局权重因子并保存备用。

步骤s4.5：当把某个文本文档d_i转换成特征向量时，利用如下公式

W (t_{k}, d_{i}) = W_{l o c a l}^{t f} (t_{k}, d_{i}) \cdot W_{g l o b a l}^{c i c d} (t_{k})

计算特征词的权重W(t_k,d_i)，其中局部权重因子有3个选项可取：

W_{l o c a l}^{t f} (t_{k}, d_{i}) = {{tf}_{k i}, l o g ({tf}_{k i} + 1), \sqrt{{tf}_{k i}}}

{}内的三个选项分别为特征词t_k在被转换文档d_i内的原始词频、对数词频和开方词频，计算权重时可以任选其中之一，根据文本分类性能测试结果的好坏而定。

步骤s4.6：计算文档d_i内所有特征词t_k(k＝1,2,...,n)的权重W(t_k,d_i)，组合成为特征词权重向量，再按向量长度对所有权重值进行归一化(即余弦归一化)，其公式如下：

\overset{&OverBar;}{w} (t_{k}, d_{i}) = \frac{W (t_{k}, d_{i})}{\sqrt{\underset{t_{j} &Element; d_{i}}{Σ} W {(t_{j}, d_{i})}^{2}}},

这样就把一个文本文档d_i转换成为最终的归一化特征向量D_i，如下：

D_{i} = [\overset{&OverBar;}{w} (t_{1}, d_{i}), \overset{&OverBar;}{w} (t_{2}, d_{i}), ..., \overset{&OverBar;}{w} (t_{n}, d_{i})] .

本实施案例的实验中除了采用上述TF-IGM方法计算特征词权重以外，为了比较性能，还使用了TF-IDF和TF-RF方法计算权重，其计算公式分别为：TF-IDF权重＝TF*log₂(N/DF)，TF-RF权重＝TF*log₂(2+DF_P/DF_N)。其中，TF和DF分别为词频和文档频率，N为训练集的文档数，DF_P和DF_N分别为特征词在正类和反类中的文档频率，当DF_N＝0时，取其值为1。

步骤(2)：训练分类器和对文本分类；

将文档特征向量集(包括训练集、测试集或待分类集)输入分类器进行训练和分类，可用的分类器有K近邻(kNN)分类器、支持向量机(SVM)等等。

本实施案例中使用了kNN和SVM两种分类器，kNN分类器的“近邻”数设置为K＝30,任意两个文档之间的相似度表示为两者的特征向量夹角余弦值(通常称为余弦相似度)。kNN分类器支持多类别分类。SVM(支持向量机)的实现使用广泛流行的开源的LibSVM分类器，并设置它使用线性核和默认参数。原始SVM只支持两类分类，但是LibSVM已经扩展成能够支持多类别分类。

步骤(3)：评估分类性能；

对测试集的分类结果进行评估，得到分类性能综合指标微平均F1值(micro-F1)和宏平均F1值(macro-F1)。

根据性能评估结果，可以调节上述步骤S1至步骤S4中的选项参数，直至用户满意为止，比如在大多数情况下达到最优或兼顾分类处理速度时接近最优。

分类性能综合指标有两个，分别定义为：

微平均F1值：micro-F1＝2P*R/(P+R)

宏平均F1值：macro-F1＝sum(F1_j)/m

其中，P为整个测试集分类结果的准确率，R为整个测试集被正确分类的召回率；F1_j＝2P_j*R_j/(P_j+R_j)为第j类(j＝1,2,…,m)的性能指标F1值，m为类别数，P_j和R_j为第j类文本分类的准确率和召回率，sum()是求和函数。

步骤(4)：对新文本集分类；

当各步骤或模块的选项参数确定好了之后，用新文本集取代测试集，重复上述步骤(1)至步骤(2)，输出分类结果。

本实验主要目的是验证所提出的特征词权重计算方法TF-IGM是否有效，因此只对测试集进行分类和评估。

实验结果：

首先用K近邻(kNN,k＝30)分类器对20Newsgroups英文语料库进行文本分类实验。这里，使用三种特征词权重计算方法，其公式分别如下：

公式(1)：TF-IDF权重＝TF*log₂(N/DF)

公式(2)：TF-RF权重＝TF*log₂(2+DF_P/max(DF_N,1))

公式(3)：TF-IGM权重＝TF*(1+7*DF₁/sum(DF_i*i)),系数λ＝7

其中，TF为某特征词在文档内的词频，N为训练集中总文档数，DF为特征词的总文档频率，DF_i为按从大到小排序后第i类(i＝1,2,…,m)对应的某特征词的文档频率(即第i类中包含某特征词的文档数)，DF_p和DF_N分别为正类和反类中特征词的文档频率,max(DF_N,1)表示当DF_N＝0时其值为1，否则为DF_N，sum()是求和函数。对于公式(1)和(3)，训练集和测试集使用相同方法计算权重，但是对于公式(2)，当训练集用TF-RF方法计算权重时，测试集用TF-IDF方法计算权重，因为TF-RF权重与文本类别相关，而待分类文本或测试集文本的类别是未知的，而TF-IDF权重是与文本类别无关的。

表1在20Newsgroups英文语料库上的K近邻(kNN,K＝30)分类结果

实验结果如表1所示，可见TF-IGM方法明显优于TF-IDF和TF-RF方法。

接下来，用性能优良的支持向量机LibSVM(线性核)分类器进行文本分类实验，并将TF-IGM方法中的局部权重因子改为开方词频sqrt(TF),对应的特征词权重计算公式如下：

公式(4)：TF-IGM权重＝sqrt(TF)*(1+7*DF₁/sum(DF_i*i))

其中，sqrt()是求平方根的函数，sum()是求和的函数。

分别在20Newsgroups英文语料库(含20类文本)和TanCorp中文语料库(含12类文本)上进行多类别文本分类实验，实验结果如表2和表3所示，与表1相同，其中TF-RF方法仅用于计算训练集文档中特征词的权重，而相应的测试集文档中特征词的权重则用TF-IDF方法计算。

表2在20Newsgroups英文语料库上的支持向量机(SVM,线性核)分类结果

表3在TanCorp中文语料库上的支持向量机(SVM,线性核)分类结果

从表2和表3中的实验结果可以看出：TF-IGM方法明显优于TF-IDF和TF-RF方法。

实验数据集：

英文文本分类语料库20Newsgroups的下载地址：http://qwone.com/～jason/20Newsgroups

中文文本分类语料库TanCorpV1.0的下载地址：

http://www.searchforum.org.cn/tansongbo/corpus.htm

(注：本实施案例的实验中，分别使用前者的20news-bydate版本和后者的TanCorp-12预处理格式版本。)

参考文献：

ManLan,etal.Supervisedandtraditionaltermweightingmethodsforautomatictextcategorization[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,vol.31,No.4,pp.721-735.

(注：该文献介绍了TF-RF方法，并与TF-IDF等其它方法进行了比较)。

Claims

1.一种用于文本分类的特征向量生成方法，其特征在于，包括以下步骤：

待分类的文本集和训练集使用相同的特征词表；

所述特征选择指标包括卡方统计量或信息增益；

所述TF-IGM方法是先按照以下公式计算特征词t_k在文档d_i中的权重W(t_k,d_i)；再按照以下公式对特征词权重进行归一化处理；最后用每个特征词的归一化权重值组成文档d_i的特征向量

D_{i} = [\overset{&OverBar;}{w} (t_{1}, d_{i}), \overset{&OverBar;}{w} (t_{2}, d_{i}), ..., \overset{&OverBar;}{w} (t_{n}, d_{i})];

W (t_{k}, d_{i}) = W_{l o c a l}^{t f} (t_{k}, d_{i}) \cdot W_{g l o b a l}^{c i c d} (t_{k})

\overset{&OverBar;}{w} (t_{k}, d_{i}) = \frac{W (t_{k}, d_{i})}{\sqrt{\underset{t_{j} &Element; d_{i}}{Σ} W {(t_{j}, d_{i})}^{2}}}

2.根据权利要求1所述的一种用于文本分类的特征向量生成方法，其特征在于，所述基于类间分布集中度的全局权重因子采用以下公式计算获得：

W_{g l o b a l}^{c i c d} (t_{k}) = 1 + λ \cdot C_{i c d} (t_{k})

3.根据权利要求2所述的一种用于文本分类的特征向量生成方法，其特征在于，所述特征词t_k的类间分布集中度C_icd(t_k)采用以下的反重力矩模型公式计算获得：

C_{i c d} (t_{k}) = \frac{F_{1}}{Σ_{r = 1}^{m} (F_{r} \cdot r)}

特征词t_k在各个文本类别中的出现频次按从大到小排序为F₁≥F₂≥……≥F_m；m表示文本类别数，F_r(r＝1,2,...,m)为排序后特征词t_k在第r个文本类别中的出现频次，取值为词条类别文档频率DF_r或词条类别平均词频avgTF_r，(F_r·r)是第r个文本类别对应的重力矩；

4.一种基于TF-IGM权重的文本分类方法，其特征在于，基于权利要求1-3任一项所述的一种用于文本分类的特征向量生成方法，首先，计算已知类别的每个训练文档和待分类的每个文档中所有特征词的TF-IGM权重，得到对应的文档特征向量；然后，将已知类别的文本训练集对应的文档特征向量集输入分类器，进行分类训练，得到已训练好的分类器；最后，再将待分类的文本集对应的文档特征向量集输入已训练好的分类器，完成对文档的分类。

5.根据权利要求4所述的一种基于TF-IGM权重的文本分类方法，其特征在于，对测试文档分类结果进行评估，得到分类性能指标，基于分类性能指标对初始特征词表筛选方法和保留的特征词数目进行更改、改变局部权重因子类型、调节全局权重因子的可调节系数λ或优化分类器参数，直到测试文本集分类结果的宏平均F1值和微平均F1值达到最优；

微平均F1值＝2P*R/(P+R)

宏平均F1值＝sum(F1_j)/m

6.一种用于文本分类的特征向量生成装置，其特征在于，基于权利要求1-3任一项所述的一种用于文本分类的特征向量生成方法，包括按顺序依次串接的文本预处理模块、训练集词表构建与统计模块、特征选择模块及特征词的TF-IGM权重计算模块。

7.一种基于TF-IGM权重的文本分类装置，其特征在于，利用权利要求6所述的用于文本分类的特征向量生成装置与任何一种分类器和相应的性能评估器组成文本分类装置；

所述特征向量生成装置将从输入的文本集生成的特征向量输出到分类器进行训练和分类，并可根据性能评估结果反馈调节它的各选项参数输入值，从而获得最优的文本分类性能。