CN1719436A

CN1719436A - 一种新的面向文本分类的特征向量权重的方法及装置

Info

Publication number: CN1719436A
Application number: CNA200410062789XA
Authority: CN
Inventors: 宗成庆; 陈克利
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2004-07-09
Filing date: 2004-07-09
Publication date: 2006-01-11
Anticipated expiration: 2024-07-09
Also published as: CN100353361C

Abstract

本发明涉及计算机科学与技术领域，特别是一种新的面向文本分类的特征向量权重的方法。文本分类方法中，TF*IDF和TF*IWF被广泛的用来计算特征向量的权重。但是这两种方法都过分的倚重词频，同时又无法表示出向量元素在类别之间分布的不均衡性。这里，我们提出了一种新的权重方法(TF*IWF*DBV)。在TF*IWF方法中引入了DBV和TF的n次方根弥补了方法的不足。实验证明新方法的采用可以将F1测度提高11.8个百分点，充分证明了它的有效性。

Description

一种新的面向文本分类的特征向量权重的方法及装置

技术领域

本发明涉及计算机科学与技术领域，特别是一种新的面向文本分类的特征向量权重的方法及装置。

背景技术

随着科学技术尤其是信息技术的不断发展，人与人之间的交流方式已经从单纯的面对面交流发展到越来越多的采用“文本”这种语言形式作为信息载体。最为明显的例子就是数字图书馆和网页文本。毫无疑问，对这些语言资源的有效管理可以为用户获取信息提供很大的便利。但是随着网络通信的发展，网上可用文本信息的数量急剧膨胀，甚至可以说是成指数级增长，如果再像以前那样手工对这些文本进行分类不但费时费力，而且准确率也无法保证，因此自动文本分类技术应运而生。此外，自动文本分类技术在许多方面都有应用，例如：文档索引的建立、不良信息的过滤、不同领域信息的分流、主题识别、自动文摘、词义消歧、智能信息检索以及其他需要对文档进行整理的地方。

从60年代计算机刚刚兴起，人们就认识到了文本分类技术重要性，并进行了初步的探索和研究，一直到80年代末基本上都是基于规则的知识工程的方法。这种方法费时费力，准确率也不高，尤其对于不常出现的关键词很难建立规则，同时还需要一支由语言学家组成的智囊团的支持。所以随着90年代基于统计的自然语言技术的兴起，机器学习的方法逐渐被应用到文本分类技术中，并迅速成为主流趋势，出现了各种各样的基于统计的文本分类方法：k近邻方法、贝叶斯方法、支持向量机、规则学习方法、相关反馈方法、神经网络方法、决策树等等。根据卡耐基梅隆大学Yiming Yang报道的结果，基于向量空间模型的支持向量机方法效果最好，其他几种方法的基础多数也要先建立类和文本的特征向量。特征向量的建立最常用的方法就是TF*IDF(TF：Term Frequency，IDF：Inverse Document Frequency)方法，以及由它派生的TF*IWF(TermFrequency，IWF：Inverse Word Frequency)方法。但是从已经报道的实验结果来看，使用这种方法的分类器的准确率都不高，最好的F1测度也就是85％。基于此，本文作者对TF*IWF方法进行了深入的分析，引入两个变量(DBV和TF的n次根)对其进行了改进，实验证明改进后分类准确率提高了11.8个百分点，充分证明了这种改进的有效性。

发明内容

本发明的目的在于提供一种新的面向文本分类的特征向量权重的方法和一种新的分类器的设计思路。

本发明是以计算机作为工具，根据改进的特征权重算法，采取一定的选词策略和阀值器，建立了包含从文本预处理到自动分类，再到分类结果的后优化等一整套功能的自动分类装置。

本发明为基于统计的文本分类方法提供了一条计算向量权重的途径。该方法是在TF*IWF方法中引入了DBV变量，并用TF的n次方根代替了TF，从而得到了改进后的方法，即TF*IWF*DBV(Term Frequency，Inverse Word Frequency，DBV：Dis-banlance Variable)方法。实验证明该方法可以大大提高文本分类的正确率、召回率和F1测度。

面向文本分类的特征向量权重分类器的装置，由语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成，其中，语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串联连接。

发明技术方案

面向文本分类的特征向量权重的方法：

用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤：

a)按领域收集训练语料和测试语料；

b)去除网页文本的一些“垃圾”、分词、词性标注；

c)从训练语料中提取出每个领域的词表(词、词性、领域内词频)，同时提取出总词表(词、词性、总词频)；

d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表(包括词、词性、词频、IWF、DBV等)；

e)使用信息词表和和特征权重算法(TF*IWF*DBV)对测试文本进行分类，计算F1测度，同时优化得到最优阀值；

f)根据分类结果确定最优的关键词数目。

步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV特征向量权重方法。

步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差异性的数学变量DBV。

步骤e中提到的特征向量权重方法中TF的n次方根的引入。

步骤f中提到的根据不同数目关键词下分类准确率变化曲线图确定最佳关键词数目的方法。

下面详细说明本发明技术方案中所涉及的各个细节问题。

1、语料选择：

本实验采用的语料包括两部分，一部分是中科院自动化所和Nokia公司为欧盟合作项目(LC-Star)建立的3087万字的汉语语料库，分六个领域(体育、娱乐和游戏、财经、新闻、个人交流、消费信息)，这一部分语料作为训练语料；第二部分语料是1119个从网上随意收集的文本(共807158个汉字)，分属于这六个领域，各领域文本数分别为：消费信息领域(189)、娱乐和游戏领域(320)、财经领域(52)、新闻领域(100)、个人交流领域(101)、体育领域(357)，这一部分语料作为开放的测试语料。

2、特征选取：

常见的文本分类的特征有字、词、短语、段落、句子、概念以及它们的N-Gram信息。这里我们采用最常用也是被实验证明为最有效的词作为文本分类的特征。下面需要确定两个问题：第一，选取什么样的词；第二，选取多少词。具体步骤如下：

1)提取各类别的总词表，并去掉频率在0.0001％以下的词。这是因为对某个类别来讲，出现频率太低的词对该类别几乎没有什么重要性。

2)从各个词表中选取分别按照词频选取不同数目(100、200、500、1000、1500、2000、2500、3000、3500、4000)的关键词，根据分类准确率随关键词数目变化的曲线图，找到最优的关键词数目。

3、方法的改进

基于TF*IDF启发式权重方法是Salton于1973提出的，其定义是：特征f_i在文本d中的权重w(f_i，d)：

W(f_i，d)＝TF(f_i，d)*IDF(f_i)＝N(f_id)*log(N/N(f_i))

其中，N(f_i)是出现f_i的训练文本数，N是总训练文本数，N(f_id)是文本d中出现f_i的次数。

在此基础上，Roberto Basili 1999提出了TF*IWF方法，他采用词作为文本分类的特征，与前者的不同体现在两个方面：(1)后者采用关键词出现的次数代替了前者中关键词出现的文本数，训练语料中所有词出现次数之和代替了前者的总训练文本数；(2)后者采用对数平方代替了前者的对数。

W(f_i，d)＝TF(f_i，d)*IWF(f_i)＝N(f_id)*(log(M/M(f_i)))²

我们提出的对TF*IWF方法的改进方法主要体现在如下两个方面：一利用TF的n次方根代替TF，从而削弱词权重对词频的倚重，并通过实验比较了n取1、2、3、4的效果；二是引入了DBV表述词在不同类别中分布差异性这一属性。

关键词在某类的权重受三个因素影响：一是该词在当前类中的出现频率，二是该词在总语料中的出现频率，三是该词在不同类别之间出现频率的差异性。在TF*IWF方法中采用TF来表示第一个因素，原来是指词次数，这里我们用词频，但是我们知道在同一类别中如果词W1的出现频率是词W2的两倍并不能说W1对该类的重要性是W2的两倍，直觉上应当小于两倍。因此为了消弱频率对于词权重过度的影响，我们采用它的n^(n≥1)次方根形式，并对n＝1、n＝2[P.P.T.M.van Mun]、n＝3、n＝4等几种方根情况进行了实验，通过比较分类效果我们找到了TF比较适当的表示形式。

在TF*IWF方法中采用IWF来表示第二个因素，其原理是总训练语料中出现次数越少的关键词权重应当越高。但TF*IWF忽略了第三个因素，关键词在总语料中出现次数多少并不能完全说明该词在分类中的“重要性”，频率相同的关键词在分类中的“重要性”也是不同的：在各类别之间分布越均匀，其重要性就越小，反之其重要性就越大。我们又知道方差是体现数据分布不均衡性的一个数学指标，但从方差公式中可以看出，方差大小又受到词频大小的影响，为了消除这种影响(因为词频因素在TF中已经表示了，这里需要得到的只是词频之间的差异性表示)，我们用方差除以该词在各类中词频之和，于是得到式

表示关键词在不同类之间的分布差异性。于是我们得到下面的词权重计算公式：

W (f_{i}, Cj) = \sqrt{\frac{\sqrt{\underset{j}{Σ} {(p_{ij} - {\overset{&OverBar;}{p}}_{i})}^{2}}}{\underset{j}{Σ} p_{ij}}} \times {(\log (\frac{M}{M (f_{i})}))}^{3} \times \sqrt[n]{p_{ij}}

W (f_{i}, d) = \sqrt{\frac{\sqrt{\underset{j}{Σ} {(p_{ij} - {\overset{&OverBar;}{p}}_{i})}^{2}}}{\underset{j}{Σ} p_{ij}}} \times {(\log (\frac{M}{M (f_{i})}))}^{3} \times \sqrt[n]{p_{id}}

其中，p_ij＝T_ij/L_j，L_j是类C_j含有的所有词的次数之和，T_ij是词i在类C_j中出现的次数；p_id＝T_id/L_d，L_d文本d含有的所有词的次数之和，T_id是词i在文本d中出现的次数；

{\overset{&OverBar;}{p}}_{i} = \frac{\underset{j}{Σ} p_{ij}}{m},

其中m是类别数；理论上n可以取1，2，3，4。

文本特征向量和类特征向量

{\overset{&RightArrow;}{C}}_{j} = (W (w_{1}, Cj), W (w_{2}, Cj), \cdot \cdot \cdot W (w_{k}, Cj))

\overset{&RightArrow;}{d} = (W (w_{1}, d), W (w_{2}, d), \cdot \cdot \cdot W (w_{k}, d))

其中，W(w₁，Cj)、W(w₁，d)分别是词i在类别C_j、文档d中的权重。k是总关键词表中关键词数目，k_d是文本d中包含的关键词的数目。

C_j和d的相似度函数(这里采用的是线性分类器，严格来讲不是二者的相似度函数，这里为了表示方便只是借用这个名称)：

S (C_{j}, d) = {\overset{&RightArrow;}{C}}_{j} \cdot \overset{&RightArrow;}{d}

= (W (w_{1}, Cj), \cdot \cdot \cdot W (w_{k}, Cj)) \cdot (W (w_{1}, d), W \cdot \cdot \cdot (w_{k_{d}}, d)))

4、评价函数与阀值的确定

目前，国际上比较流行的判断文本分类器效果的评价函数主要有两种：micro-F1测度及macro-F1测度[Yang，1997]。相比而言前者的使用更广泛一些，其定义如下：

Nc代表被分类的文本数

Nr代表被拒绝分类的文本数

Ncr代表被分类文本中分类正确的文本数

Ns代表应该被分类的文本数

总正确率：

p = \frac{Ncr}{Nc} \times 100 %

总召回率：

r = \frac{Ncr}{Ns} \times 100 %

评价函数F1测度：

Y＝2rp/(r+p)

一般来说，文本分类器不大可能保证100％对文件正确分类。尤其是当某个文本与不同类别计算出来的相似度差别不大的时候，错误分类的概率会比较高，所以有必要设定一个阀值保证在出现这种情况时拒绝分类，以减小分类的错误率。

Saturnine(2003)曾提到利用两个最大相似分数之间关系作为阀值即比例阀值，这里根据文本分类的特点采用两个最大相似分数之间差的绝对值与最大相似分数的比值X来判断是否接受分类。X的值是在0-0.1之间以0.001为步进单位，以上面提到的评价函数F1测度为标准优化得到的。对于不同的方法、不同数目的关键词，根据优化方法都可以得到一个可以使评价函数F1测度最优的X值，此X值即为该条件下的阀值。于是可以得到下面的公式：

X = \frac{(\max_{C_{j}} S (C_{j}, d) - \underset{C_{j}}{\sec \max} S (C_{j}, d))}{\max_{C_{j}} S (C_{j}, d)}

其中

分别是最大的和次大的C_j和d相似度分数。

阀值Th的定义：

Th = \underset{X}{\arg \max} (Y)

5、实验结果

下表中是本实验的结果：

从实验结果可以看到，在各个不同的关键词数目下TF*IWF*DBV算法的分类效果都要好于TF*IWF算法，当N＝3500时，分类的F1值提高11.8％，充分证明了该方法的有效性。

附图说明

图1是本发明面向文本分类的特征向量权重方法的流程图。

图2是本发明自动文本分类器的装置图。

具体实施方式

图1中，面向文本分类的特征向量权重的方法，其具体步骤如下：

步骤S1，训练语料和测试语料的收集，一、按照六个领域(消费信息领域、娱乐和游戏领域、财经领域、新闻领域、个人交流领域、体育领域)从网上下载训练语料，去除网页文本的一些“垃圾”、分词、词性标注，最后得到共3087万字的训练语料。二、测试语料按照相同的原则从网上下载，整理，共得到1119个测试文本。语料收集以后进行了分词处理。

步骤S2，

1)各类别的总词表，并去掉频率在0.0001％以下的词。这是因为对某个类别来讲，出现频率太低的词对该类别几乎没有什么重要性。

2)个词表中选取分别按照词频选取不同数目(从各领域中分别选取100、200、500、1000、1500、2000、2500、3000、3500、4000个关键词)的关键词，组成10个关键词表。

步骤S3，构造分类器，分别采用TF*IWF和TF*IWF*DBV权重算法，和分类算法对测试语料进行分类。

步骤S4，采用优化的阀值算法，得到不同关键词数目的分类词表在不同权重算法下的分类结果。

步骤S5，对比分类的结果，找到达到最佳分类效果时的关键词的数目。

图2是本发明自动文本分类器的装置图。是实现本发明面向文本分类的特征向量权重方法的装置结构。由语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成，其中，语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串联连接。

Claims

1、用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤：

a)按领域收集训练语料和测试语料；

b)去除网页文本的一些“垃圾”、分词、词性标注；

c)从训练语料中提取出每个领域的词表，同时提取出总词表；

d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表；

e)使用信息词表和特征权重算法(TF*IWF*DBV)对测试文本进行分类，计算F1测度，同时优化得到最优阀值；

f)根据分类结果确定最优的关键词数目。

2、根据权利要求1的方法，其特征在于，步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV特征向量权重方法。

3、根据权利要求1的方法，其特征在于，步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差异性的数学变量DBV。

4、根据权利要求1的方法，其特征在于，步骤e中提到的特征向量权重方法中TF的n次方根的引入。

5、根据权利要求1的方法，其特征在于，步骤f中提到的根据不同数目关键词下分类准确率变化曲线图确定最佳关键词数目的方法。

6、面向文本分类的特征向量权重分类器的装置，由语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成，其中，语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串联连接。

7、根据权利要求1的方法，其具体步骤如下：

步骤S1，训练语料和测试语料的收集，一、按照六个领域从网上下载训练语料，去除网页文本的一些“垃圾”、分词、词性标注，二、测试语料按照相同的原则从网上下载，整理；

步骤S2，

1)提取各类别的总词表，

2)从各个词表中选取分别按照词频选取不同数目的关键词，组成10个关键词表；

步骤S3，构造分类器，分别采用TF*IWF和TF*IWF*DBV权重算法，和分类算法对测试语料进行分类；

步骤S4，采用优化的阀值算法，得到不同关键词数目的分类词表在不同权重算法下的分类结果；