CN103294817A

CN103294817A - 一种基于类别分布概率的文本特征抽取方法

Info

Publication number: CN103294817A
Application number: CN201310231448XA
Authority: CN
Inventors: 杨燕; 李强; 潘云; 杜泽宇; 杨河彬; 倪敏杰
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-06-13
Filing date: 2013-06-13
Publication date: 2013-09-11

Abstract

本发明公开了一种基于类别分布概率的文本特征抽取方法，该方法采用对待分类文本中的词汇进行类别分布差异性评估的方式抽取文本特征词，利用词的类别词频概率计算每个词汇在不同类别上的概率分布的均方差值，抽取一定数目的均方差值高的词汇作为最终的特征集。在实际运用中将获得的特征集作为文本分类任务的特征词构建向量空间模型，并用指定的分类器进行训练获得最终的分类模型对待分类文本进行分类。本发明采用了概率统计方式来精确衡量词的类别分布，并利用均方差的方式对词的分类价值进行评估，可以准确地对文本的特征进行选取；对于文本分类任务而言，可以明显的提高均衡和非均衡语料上的文本分类效果。

Description

一种基于类别分布概率的文本特征抽取方法

技术领域

本发明涉及计算机文本处理技术，特别是一种基于类别分布概率的文本特征抽取方法。

背景技术

随着互联网的高速发展，网络上的电子文档数量急剧膨胀，有效地帮助用户查找、过滤和管理这些海量的文本数据已经成为自然语言处理研究的重要内容。文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据，要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量，但是如果直接用分词软件得到的特征项来表示文本向量中的各个维，那么这个向量的维度将是非常的大。这种未经处理的文本向量不仅给后续工作带来巨大的计算开销，使整个处理过程的效率非常低下，而且会损害分类、聚类算法的精确性，从而使所得到的结果很难令人满意。因此，在保证原文含义的基础上，寻找文本中最具类别代表性的文本特征是利用计算机技术解决文本分类问题的关键。

用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性：1) 特征项具有将目标文本与其他文本相区分的能力； 2) 特征项的数量要少； 3) 特征项提取容易。目前大多数中文文本分类系统都采用词作为特征项，称作特征词。如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。特征抽取的主要目的是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，提高文本处理的速度和效率。文本特征抽取对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征抽取评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干数量评分值最高的作为特征词，这就是特征抽取。

目前利用计算机技术解决文本分类问题一般采用向量空间模型，该模型存在词空间维度高、计算量大、分类精度不高的问题。

发明内容

本发明的目的是提供一种基于类别分布概率的文本特征抽取方法，该方法极大的降低词空间的维度，提升计算机的文本分类性能。

本发明的目的是这样实现的：

一种基于类别分布概率的文本特征抽取方法，该方法可以用于文本分类和聚类等信息检索任务，其实现需要预定义分类的语料集，对语料中的文本进行分词处理，去掉停用词，获得原始的词集。然后在该词集上进行特征抽取，根据定义的特征抽取函数计算每个词的类别分布概率均方差。对整个词集中的所有词汇按照类别概率均方差的大小进行降序排列，抽取预定义数目的方差值大的词汇作为最终的特征集合，具体操作步骤：

第一步：选定一定的中文文本集合，对文本集合进行预处理，将语料文本按照预定义的类别进行分类。

第二步：利用分词软件对文本进行分词处理，去掉标点符号和停用词等的噪音，获得文本集合的原始的词集。

第三步：对原始词集中的每个词分别统计总词频和类别词频信息。

第四步：计算各个词在各个类别中的类别分布概率，获得词汇的类别分布概率向量。

,j=

: 词t 在类别

, j= 中的词频；

词t 在类别

中的词频分布概率；

: 词t的类别分布向量；

|

|: 类

中的文档数目；

m：类别数目。

第五步：对每个词的类别分布概率向量求平均值。

：词 t的类别分布概率的均值。

第六步：计算每个词的类别分布概率均方差。

：词 t的类别分布概率均方差。

第七步：对原始词集中的每个词按照类别分布概率均方差的大小进行降序排列，抽取预定义数目的均方差值高的词作为特征词集合。

第八步：以获得的特征词集构建文本集合的向量空间矩阵。

第九步：利用已有的分类器算法对该向量空间矩阵进行训练，获得文本分类模型。

第十步：利用训练得到的文本分类模型对待分类的文本进行分类，验证本方法的有效性。

本发明的优势在于第四步到第七步，首先计算词的各个类别的概率分布并计算概率分布的均值，然后计算该词的类别概率分布均方差衡量词的类别分布差异性大小，最终抽取类别分布差异大的词作为特征集。

在各个类别中均匀分布的词汇由于在各个类别中均匀出现，因此缺乏必要的类别信息；而在各个类别中分布差异大的词汇带有强烈的类别信息。本发明用于评估不同词汇的类别分布差异，抽取类别概率均方差高的词汇最为文本向量空间模型的表示空间可以有效的提高非均衡语料上文本分类的效果。

与背景技术相比，本发明有以下优点：

⑴、易行性：本方法在计算词的类别分布概率的时候才用了简单的词频统计方法，这个工作可以在对文本集合进行分词的时候就可以获得，不需要单独的步骤对文本的词汇分布信息进行独立计算，特征抽取的运行时间得到了降低。同时与CHI统计和互信息等方法相比，不需要进行大量的统计计算，提高了文本特征抽取的处理效率。

⑵、精确性：和传统的词频方法相比，本发明对词的类别信息的统计不是采用简单的绝对词频的方式，而是利用类别分布概率的方法，把绝对频率的统计方式转换为概率统计的方式，可以精确的描述不同的词汇在不同类别的分布指标，从而为利用均方差的方式衡量类别分布的差异性带来了可靠性。

⑶、新颖性：本发明是从词本身的类别分布差异性的高低的来衡量词本身含有的类别价值。在不同的类别中的分布差异大的词才具有强烈的类别信息，而在各个类别中均匀分布的词对区别文本的类别没有什么重要的参考。基于以上的分析提出了本发明，并且在衡量词汇的类别分布差异的时候采用的简单的概率方式，可以迅速准确的选定具有类别区分性的词汇。

⑷、对非均衡语料的特征抽取具有明显效果。当抽取的文本集合在不同的类别中文本分类数量差异巨大的时候，以往采用的绝对频率的统计方法会偏向于大类（文本数量大的类别）的特征，这样一来，对小类中的文本而言，选出的特征词数目过少，影响了整体的文本分类效果。本发明提出的利用概率的方式计算词汇的类别分布信息弥补了绝对频率统计方法的不足，不但提高了均衡语料上的分类效果，对非均衡语料分类效果的改善尤其明显。

附图说明

图1为本发明的结构示意图；

图2为实施本发明的流程图。

具体实施方式

现结合附图详细说明本发明的技术方案。

实施例

参阅图2，本发明需要在一个文本分类的任务上实施类别分布概率的文本特征抽取方法的有效性。通过选定一定的中文文本集合，人工将语料文本按照预定义的类别分类。对分类后的文本集合进行预处理，然后将预处理后的文本集进行特征抽取，获得期望数目的文本特征词集。利用选定的特征词集定义向量空间，将预处理后的文本转换为向量空间模型的表示形式。采用标准的tfidf权重计算方式。接着就用指定的分类器对文本向量进行训练，获得训练后的分类模型。

当需要对待分类的文本进行分类的时候，只需要把待分类文本转换为特征词集合上的向量空间模型的表示形式，利用训练得到的分类模型调用分类器完成对待测文本的分类。

具体操作步骤：

第一阶段：文本预处理

a：手动选定不同类别的一定数量的文本，放入相应的类别文件夹中作为训练集。

b：对文本进行分词，可以采用中科院分词软件ICTCLAS软件对文本集合进行分词，去掉标点符号和对文本表示无用的停用词等信息。

c：获得训练集的所有词语。

d：对每个词语的词频进行统计。

第二阶段：特征抽取

a：利用词频统计的信息计算所有词的类别词频。

b：计算各个词的类别分布概率。

c：计算各个词的类别概率均值。

d：计算各个词的类别概率均方差。

e：对所有的词按照计算获得类别概率均方差结果的大小进行排序，选定预定数量的词作为最终的特征词集合。

第三阶段：构建文本向量矩阵，训练分类模型

a：利用获得的特征词集合作为向量空间，对文本集合进行向量表示。最终构建文本集上的向量空间矩阵。

b：调用指定的分类器对文本向量矩阵进行分类。实例中可采用朴素贝叶斯分类器。

c：保存分类器训练后的分类模型。

第四阶段：对待测文本同样进行相应的预处理，转换为特征集空间上的文本向量。

第五阶段：调用朴素贝叶斯分类器，利用训练获得分类模型对待测文本向量进行分类，将待测文本归到相应的类别中。

第六阶段：获得所有待分类文本最终的分类结果。

第七阶段：结束。