CN100583101C

CN100583101C - 基于领域知识的文本分类特征选择及权重计算方法

Info

Publication number: CN100583101C
Application number: CN200810058517A
Authority: CN
Inventors: 余正涛; 韩露; 向凤红; 万舟; 熊新
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2008-06-12
Filing date: 2008-06-12
Publication date: 2010-01-20
Anticipated expiration: 2028-06-12
Also published as: CN101290626A

Abstract

本发明涉及人工智能技术领域，特别是一种基于领域知识的文本分类特征选择及权重计算方法。该方法结合样本统计与领域术语构造领域分类特征空间，利用领域内部知识关系，计算术语间的相似度，依此来调整分类特征向量相应特征维权重。并采用支持向量机学习算法，建立领域文本分类模型，实现领域文本分类。云南旅游领域与非旅游领域文本分类实验结果表明，该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了4个百分点。

Description

基于领域知识的文本分类特征选择及权重计算方法

技术领域

本发明涉及人工智能技术领域，特别是一种基于领域知识的文本分类特征选择及权重计算方法。

背景技术

文本分类是当前自然语言处理研究的热点问题，如何识别一个文本是否属于某一特定领域文本问题，是当前垂直搜索引擎、问答系统等研究的关键问题。通常在文本分类中，特征选择是最重要的一个部分，其直接影响文本分类的准确率。常规的特征选择方法大多采用各种评估函数如文档频率(Document Frequency，DF)、信息增益(Information Gain，IG)、互信息(Mutual Informa-tion，MI)、统计(CHI)等进行特征提取。这些特征选择方法都是基于统计学算法，在获取特征空间时通常采用大量的语料，经过统计计算和降维处理选择特征空间。这些特征选取方法可能会导致选择出来的一些统计特征对分类贡献较小，反而会降低分类的准确率；而对于领域文本分类来说，文本中经常会出现一些领域术语，这些领域术语对领域文本分类的区分度较高，然而利用常规的特征选择方法，这些对分类效果有重要作用的特征可能获得较低的权重，甚至被作为噪声被去掉，这样将大大影响了分类的准确率。

发明内容

本发明的目的在于提供一种基于领域知识关系的领域文本分类特征选择及权重计算方法。

本发明提出了并实现了一种基于领域知识关系的领域文本分类特征选择及权重计算方法，该方法结合样本统计与领域术语构造领域分类特征空间，利用领域内部知识关系，计算术语间的相似度，依此来调整分类特征向量相应特征维权重，并采用支持向量机学习算法，建立领域文本分类模型，实现领域文本分类。云南旅游领域与非旅游领域文本分类实验结果表明，该方法分类准确率比改进TFIDF方法提高4个百分点。

发明技术方案如下：

基于领域知识的文本分类特征选择及权重计算方法进行文本分类的步骤：

(1)实验语料收集：

收集领域文本和非领域文本作为训练语料和测试语料，实验采用从网络随机搜索的云南旅游领域文档700篇作为领域训练文本，复旦大学语料库文档700篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各70篇)作为非领域训练文本，测试语料采用从网络随机搜索的云南旅游领域的文档200篇作为领域测试文本，复旦大学语料库文档200篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各20篇)作为非领域测试文本。

(2)文本预处理：

文本的预处理包括，分词，去除停用词(stop words)，词频统计，文档频率统计等。首先对文本进行中文分词处理，采用中科院计算所的分词系统接口实现，并在此基础上借助于领域词库，进行领域词分词处理，并进行领域词标识。文本分词完成后，去掉文本中经常出现的“了”、“呢”、“的”、“怎样”等停用词。然后扫描文档，统计出每个词的词频、领域内文档频率及非领域内文档频率。

(3)TFIDF特征权重计算方法：

在文本预处理完成后，初步利用文档频率(DF)去掉低频词，选取1000个特征词，构成分类特征空间。特征词的权重计算采用重庆大学计算机学院张玉芳副教授等2006年发表在《计算机工程》上的“基于文本分类TFIDF方法的改进与应用”中提出的改进后的TFIDF方法，TFIDF＝TF×log(m÷(m+k)×N)，其中TF表示某一特征项的词频，m表示该特征项的领域内文档频率，k表示该特征项的非领域内文档频率，N表示全部文档数。

(4)扩展领域术语特征选取及特征权重计算方法(DTFIDF)：

扩展领域术语特征选取权重计算方法(DTFIDF)是将领域词库中出现的所有领域术语直接扩展到分类特征空间中，并采用改进TFIDF方法进行特征权重计算。

(5)借助领域知识的特征选取及特征权重计算方法(WTFIDF)：通过DF方法获取特征空间后，利用领域术语与特征词之间的相关性对特征词权重进行调整，在有限的特征空间内对特征词权重进行调整进而改进文本分类效果。

权重调整方法采用了中国科学院计算所刘群教授等发表在《第三届中文词汇语义学研讨会》上的“基于《知网》的词汇语义相似度计算”中提出的基于《知网》的词汇语义相似度计算方法，

Sim (S_{1}, S_{2}) = Σ_{i = 1}^{4} β_{i} Π_{j = 1}^{i} {Sim}_{j} (S_{1}, S_{2})

特征词的权重计算方法采用以下公式进行计算：

其中TFIDF表示没有经过权值调整时特征空间中特征词的权重，TFn表示文本中出现的第n个与特征词相似度大于γ的领域词的词频，m表示文本中出现的领域词的领域内文档频率，k表示文本中出现的领域词的非领域内文档频率，N表示全部文档数，Sim(S₁，S₂)表示领域词和特征词的相似度。

(6)领域文本分类模型构建：

分类算法SVM：

采用了支持向量机(SVM)算法进行领域文本分类，SVM是基于统计的机器学习模型，它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，由于SVM的特点，其在小样本分类问题上的效果已经在文本分类、手写体识别、自然语言处理等方面得到了验证。

SVM的原理是通过事先选择的非线性映射(核函数)将输入向量X映射到一个高维特征空间，在这个空间构造最优分类超平面，以将两类样本无错误地分开，而且要使两类的分类空隙最大，前者保证经验风险最小，后者使推广性的界中的置信范围最小(即分类器的结构风险最小)，这样可使在原始空间非线性可分的问题变为高维空间中线性可分的问题。

文本向量表示与分类：

对文档进行训练和分类前，把文档表示成计算机可以处理的形式。文本被表示成<label><index1>:<value1><index2>:<value2>...的格式。其中<label>是训练数据集的目标值，对于分类，它是标识某类的整数，在实验中领域文本即云南旅游领域文本的目标值设为+1，非领域文本包括复旦大学语料库中十个类别的文本的目标值设为-1；<index>是以1开始的整数，可以是不连续的，表示在一篇文档中出现第几个特征项；<value>为实数，在此设为该特征项的权重。通过以上几种方法可以对每个训练和测试文本构建出一个表示文本的特征向量，并通过国立台湾大学LIBSVM接口实现训练和分类。

用本发明的方法对云南旅游领域与非旅游领域文本分类实验结果表明，采用基于领域知识关系的领域文本分类特征选择及权重计算方法进行文本分类的准确率比改进TFIDF方法提高4个百分点。

附图说明

图1是本发明的基于领域知识的文本分类特征选择及权重计算方法的流程图。

具体实施方式

针对提出的以上方法在云南旅游领域进行了实验验证，具体步骤如图1：

步骤a1：实验训练语料选取了云南旅游领域文档700篇作为领域训练文本，复旦大学语料库文档700篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各70篇)作为非领域训练文本。测试语料采用了云南旅游领域的文档200篇作为领域测试文本，复旦大学语料库文档200篇(环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治文档各20篇)作为非领域测试文本。

步骤a2：文本预处理，包括，分词，去除停用词(stop words)，词频统计，文档频率统计等。首先对文本进行中文分词处理，采用中科院计算所的分词系统接口实现，并在此基础上借助于领域词库，进行领域词分词处理，并进行领域词标识。文本分词完成后，去掉文本中经常出现的“了”、“呢”、“的”、“怎样”等停用词。然后扫描文档，统计出每个词的词频、领域内文档频率及非领域内文档频率。

步骤a3：分别采用3种特征空间选择及特征权重计算方法进行特征空间选择及特征权重计算。

(1)TFIDF特征权重计算方法：初步利用文档频率(DF)去掉低频词，选取1000个特征词，构成分类特征空间。特征词的权重计算采用重庆大学计算机学院张玉芳副教授改进后的TFIDF方法，TFIDF＝TF×log(m÷(m+k)×N)，其中TF表示某一特征项的词频，m表示该特征项的领域内文档频率，k表示该特征项的非领域内文档频率，N表示全部文档数。

采用该方法一些出现频率较低的对领域文本分类却有较强的区分度领域术语，在特征选择和权值计算的时候很可能被忽略或者赋予一个很小的权值。

(2)扩展领域术语特征选取及特征权重计算方法(DTFIDF)：

扩展领域术语特征选取权重计算方法(DTFIDF)是将领域词库中出现的所有领域术语直接扩展到分类特征空间中。

这样特征空间的构成就是利用文档频率(DF)去掉低频词后获取的特征词与领域词库中的领域术语合并得到，特征词权重计算采用TFIDF方法。这种方法在特征空间选取时，不会将类别区分度高的领域术语去掉，但会增大特征空间的维数，导致数据稀疏，可能会在一定程度上影响分类效果。

(3)借助领域知识的特征选取及特征权重计算方法(WTFIDF)：

利用文档频率(DF)去掉低频词获取特征空间后，利用领域术语与特征词之间的相关性对特征词权重进行调整，在有限的特征空间内对特征词权重进行调整进而改进文本分类效果。

在此方法中特征词权重的调整是借助于“知网”来计算特征词与领域术语之间的相似度来实现。“知网”HowNet是一部通用常识资源，其描述了汉语和英语的词语所代表的概念，揭示概念与概念之间以及概念所具有的属性和属性之间的关系。采用“知网”的概念描述语言KDML规则，对云南旅游领域的2012个概念进行了精确描述，如：概念“玉龙雪山”和“丽江”的精确描述如下：

NO.＝141008

W_C＝玉龙雪山

G_C＝N

E_C＝很漂亮

W_E＝Yulongxueshan

G_E＝N

E_E＝～is a beautiful place

NO.＝141001

W_C＝丽江

G_C＝N

E_C＝～很漂亮

W_E＝Lijiang

G_E＝N

E_E＝～is beautiful place

DEF＝PLACE|地方，PROPERNAME|专，CITY|市，(YUNNAN|云南)；

通过“知网”概念描述方法，将领域词汇在“知网”中建立联系。将没有被选择作为特征词的低频领域术语，对文本分类的贡献体现于特征空间中和这些领域术语有相关性的特征词的权重上。如将“玉龙雪山”等这些没有被选择作为特征词的领域术语，对文本分类的贡献体现于“丽江”等等这些经过权重调整的特征词。权重调整方法采用了中国科学院计算所刘群教授等发表在《第三届中文词汇语义学研讨会》上的“基于《知网》的词汇语义相似度计算”中提出的基于《知网》的词汇语义相似度计算方法，

Sim (S_{1}, S_{2}) = Σ_{i = 1}^{4} β_{i} Π_{j = 1}^{i} {Sim}_{j} (S_{1}, S_{2})

特征词的权重计算方法采用以下公式进行计算：

步骤a4：领域文本分类模型构建

步骤a5：针对云南旅游领域利用文本分类模型进行实验。

实验采用DF方法选择特征空间，选取了文档频率较大的前1000个词做为特征空间。分别采用改进TFIDF、DTFIDF方法、WTFIDF方法进行特征空间选择和特征权重计算。

实验训练了一个两类分类器，实现领域文本和非领域文本分类，

表1为分别采用3种特征空间及特征权重计算方法的文本分类实验结果

以上数据可以看出，采用TFIDF方法，领域内文本分类准确率为90.5％，采用DTFIDF方法，领域内文本分类准确率比TFIDF方法提高了3％，所有文本的分类准确率比改进TFIDF方法提高了1.75％，采用WTFIDF方法，领域内文本分类准确率比TFIDF方法提高了7.5％，所有文本的分类准确率比改进TFIDF提高了4％。但是非领域文本的准确率没有很明显的提高。以上数据说明提出的借助领域知识的文本分类特征选择及权重计算方法对领域文本分类的准确率的改进是很大的。

通过以上实验和实例数据分析，仅采用TFIDF方法选择特征词进行实验，旅游领域的一些低频特征词并没有被选择，一些含有领域词的文本被表示为向量形式后一些具有强的类别区分能力的维就被忽略，文本分类结果不太理想。采用DTFIDF方法，含有领域词的文本中的具有类别区分能力的维被体现出来，分类的效果有了改善。但是引入领域词后，特征空间维数变大，造成数据稀疏，分类性能也受到一定的影响。采用WTFIDF方法，特征空间维数限定的情况下，没有出现在特征空间中的领域词，对文本分类的贡献体现于与领域词具有相关性的特征词的权重中。分类准确率有了一定的提高。说明这种基于领域知识的文本分类特征选择及权重计算方法在领域文本和非领域文本的分类中是可实用的。

Claims

1.一种基于领域知识的文本分类特征选择及权重计算方法，其特征在于按以下步骤进行：

(1)收集领域文本和非领域文本作为训练语料和测试语料；

(2)文本的预处理：分词，去除停用词，词频统计，文档频率统计；首先对文本进行中文分词处理，采用中科院计算所的分词系统接口实现，并在此基础上借助于领域词库，进行领域词分词处理，并进行领域词标识，文本分词完成后，去掉文本中经常出现的“了”、“呢”、“的”、“怎样”停用词，然后扫描文档，统计出每个词的词频、领域内文档频率及非领域内文档频率；

(3)在文本预处理完成后，初步利用文档频率去掉低频词，选取1000个特征词，构成分类特征空间；特征词的权重计算采用改进TFIDF＝TF×log(m÷(m+k)×N)方法，其中TF表示某一特征项的词频，m表示该特征项的领域内文档频率，k表示该特征项的非领域内文档频率，N表示全部文档数；

(4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间，形成分类特征空间并采用改进TFIDF方法进行特征权重计算；即将领域词库中出现的所有领域术语直接扩展到分类特征空间中；

(5)在步骤(3)的基础上选取分类特征空间，并利用改进TFIDF方法结合领域知识关系对特征权重进行计算和调整；即通过文档频率DF方法获取特征空间后，利用“知网”中领域术语与特征词之间的相关性对特征词权重进行调整，在有限的特征空间内对特征词权重进行调整进而改进文本分类效果；

(6)利用特征空间选择及特征权重计算方法，用支持向量机SVM机器学习算法，训练文本分类器，构建领域文本分类模型，并对领域文本进行文本分类实验验证。

2.根据权利要求1所述的基于领域知识的文本分类特征选择及权重计算方法，其特征在于，步骤(5)中所述的利用改进TFIDF方法结合领域知识关系对文本中出现而特征空间中没有出现的领域术语与特征空间中的特征词进行相似度计算，对相似度大于一定阈值的特征词权重进行调整。

3.根据权利要求1所述的基于领域知识的文本分类特征选择及权重计算方法，其特征在于步骤(5)中所述的利用“知网”中领域术语与特征词之间的相关性对特征词权重进行调整，词汇语义相似度计算方法：

Sim (S_{1}, S_{2}) = Σ_{i = 1}^{4} β_{i} Π_{j = 1}^{i} {Sim}_{j} (S_{1}, S_{2})

其中，Sim为相似度，S₁、S₂为两个概念语意表达式，βi(1≤i≤4)是可调节的参数，且有：β₁+β₂+β₃+β₄＝1，β₁≥β₂≥β₃≥β₄

特征词的权重计算方法采用以下公式进行计算：

其中TFIDF表示没有经过权值调整时特征空间中特征词的权重，TFn表示文本中出现的第n个与特征词相似度大于γ的领域术语的词频，m表示文本中出现的领域术语的领域内文档频率，k表示文本中出现的领域术语的非领域内文档频率，N表示全部文档数，Sim(S₁，S₂)表示领域术语和特征词的相似度。

4.根据权利要求1所述的基于领域知识的文本分类特征选择及权重计算方法，其特征在于，在步骤(6)所述的训练文本分类器中，分别对步骤(3)、(4)、(5)中提到的三种特征空间选择及特征权重计算方法进行了领域文本分类模型的构建。