CN102081667A

CN102081667A - 基于Base64编码的中文文本分类方法

Info

Publication number: CN102081667A
Application number: CN 201110024335
Authority: CN
Inventors: 徐从富; 陈雅芳; 张志华
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-01-23
Filing date: 2011-01-23
Publication date: 2011-06-01

Abstract

本发明公开了一种基于Base64编码的中文文本预处理方法。其步骤如下：1）使用Base64编码预处理中文文本，将文本转化为字符串文本；2）使用4-gram对转换后的字符串文本分词，提取文本特征项；3）利用IG筛选文本特征项，生成特征空间；4）统计文本特征项的词频，使用词频表示特征项的权重，将中文文本表示成特征向量；5）利用LIBLINEAR工具箱训练SVM分类器，得到SVM分类模型，对中文文本进行分类，判断文本所属的类别。本发明使用Base64编码中文文本、4-gram提取文本特征项，解决了中文文本分类在进行中文分词时引起的耗时、分词准确率不高的问题；同时，使用IG进行特征选择，采用词频表示文本特征可以有效提高中文文本分类的准确率和效率。

Description

基于Base64编码的中文文本分类方法

技术领域

本发明涉及中文信息处理，尤其涉及一种基于Base64编码的中文文本分类方法。

背景技术

随着信息技术的不断发展，特别是互联网技术的不断普及和完善，互联网上各种信息不断涌现，如何高效的组织、管理这些资源，同时快速、准确地定位有用信息成为信息时代一个重要而迫切的任务。中文是世界上使用人数最多的语言，也是联合国指定的国际官方用语之一。随着互联网的发展及中国经济的迅速发展，中文信息在世界范围内的流动越来越广泛，因此对大规模中文文本进行研究对我国经济发展、促进国际文化交流具有很大的现实意义。

传统中文文本分类方法产生特征项的常用方法为：在去除一些无用的文本页面标记后，采用中文分词器对文本分词，得到一系列的中文字、词，然后构建N-gram特征。这种方法存在分词时速度较慢，分词准确率并不高的问题，往往会影响最终的分类性能。特别的，基于中文词串的N-gram特征需要在分词结束后才能得到N-gram特征项，这不仅速度较慢，而且还会引入数据集的特征空间维数过高的问题。

本发明提出一个无需中文分词的、使用Base64编码预处理文本的中文文本分类方法，通过4-gram切分预处理后的中文文本，生成以单个字符为单位的4-gram特征项，采用词频权重来表示文本的特征，构建文本特征向量，最后通过训练SVM分类器来达到分类文本的效果。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于Base64编码的中文文本分类方法。

基于Base64编码的中文文本分类方法的步骤如下：

1）利用Base64编码中文文本，将中文文本转化为由英文字母和数字组成的字符串文本；

2）使用4-gram切分编码后的字符串文本，生成4-gram特征项；

3）统计字符串文本中4-gram特征项的频率信息，根据IG的重要程度选择4-gram特征项，生成特征空间；

4）统计4-gram特征项的词频，根据步骤3）中生成的特征空间，使用词频权重表示特征，将中文文本表示成特征向量，重复步骤1）～步骤4）得到特征向量集；

5）输入特征向量集，利用LIBLINEAR工具箱训练SVM分类器，对中文文本进行分类，判断文本所属的类别。

所述的利用Base64编码中文文本，将中文文本转化为由英文字母和数字组成的字符串文本步骤为：对于一个待分类的中文文本，若为带格式标记的网页文本，则先去除页面标记、文本注释等对本文区分度不大的或无用的信息，然后将去除标记后的文本作为二次输入；将完成以上预处理操作的文本作为输入，使用Base64将其编码为由英文字母和数字组成的字符串组成的字符串文本，完成这个步骤后，文本基本单位将是单个字符而不再是中文字词。

所述的使用4-gram切分编码后的字符串文本，生成4-gram特征项步骤为：接收经Base64编码后的中文字符串文本，以单个字符为单位，使用4-gram切分文本，生成文本特征项，每个特征均是长度为4的字符串，此后该文本就由切分后的4-gram特征项来表示，数据集中所有文本的特征项组成数据集的原始特征集。

所述的统计字符串文本中4-gram特征项的频率信息，根据IG的重要程度选择4-gram特征项，生成特征空间步骤为：对于数据集中各个类别的文本，经步骤2）后转换为由4-gram特征项组成的特征项集合；对集合中的每个特征项，计算在类别中出现的频率及当前文本中出现的频率信息，计算特征项的IG值；按IG值大小进行排列；选取IG值高于某个阈值的特征项，组成数据集的特征空间，完成特征选择。

所述的统计4-gram特征项的词频，根据步骤3）中生成的特征空间，使用词频权重表示特征，将中文文本表示成特征向量，重复步骤1）～步骤4）得到特征向量集步骤为：由4-gram将文本切分成4-gram特征集；对于特征集中的特征项，若包含在步骤3）生成的特征空间中，统计该特征项的词频信息，将其量化，以此作为特征项权重，否则舍弃该特征项；每个特征项表示成一个机器可识别的数值，根据特征项在特征空间中的位置信息，将文本表示成一个加权特征向量；重复步骤1）～步骤4），得到中文文本数据集的特征向量集合。

所述的输入特征向量集，利用LIBLINEAR工具箱训练SVM分类器，对中文文本进行分类，判断文本所属的类别步骤为：将步骤4）中生成的特征向量集合作为输入，使用k-折交叉验证方法，将输入数据拆分为训练集和测试集，通过训练SVM分类器输出文本分类结果；然后使用不同的评测方法评估分类性能。

本发明与现有技术相比，具有以下优点：

1）提出一种新的使用Base64编码中文文本的预处理方法。Base64是互联网上传输数据的有效编码方式，用于把任意8位字节序列表示成一种不能被人直接识别的字符序列的基于内容的编码方式。通过Base64可以把中文文本编码为由英文字符和数字组成的字符串文本，可以将中文文本这一特殊语言文本普通化，能更好地进行后续处理。

2）提出一种无需中文分词，使用4-gram提取文本特征的方法。在将中文文本编码为字符串文本后，以单个字符为单位生成4-gram特征项，克服了中文分词费事、分词准确率不高、需要完备词典支持的问题。

3）引入词频来表示特征项、IG进行特征选择，使用向量空间模型将中文文本转换为特征向量，可以获得很好的分类效果。

附图说明

图1是基于Base64编码的中文文本分类系统框架图；

图2是Base64编码原理；

图3是原始的中文文本；

图4是图3所示文本经Base64编码后的字符串文本；

图5是4-gram分词方法示例。

具体实施方式

基于Base64编码的中文文本分类方法的步骤如下：

2）使用4-gram切分编码后的字符串文本，生成4-gram特征项；

本发明的主要原理如下：

1）在预处理层面，包括去除文本格式标记和编码两个过程。文本分类是将文本归类到同已知类别文本最相近的类别中的过程，因此需要事先去除一些文本区分度不强的、有干扰因素的文本标记。若中文文本为带格式的文本页面，这一步操作在去除文本格式标记中完成。而后，使用Base64编码中文文本，将其转化为无需中文分词的、易处理的字符文本。

2）在特征层面，每个编码后的、由4个字符组成的字符串构成一个特征项；样本集中的所有特征构成特征空间，每个中文文本可以映射成对应该特征空间的特征向量；以IG为基础进行特征选择，降低特征空间的维度。

4）在文本向量化阶段，使用向量空间模型来表示文本；以词频为权重表示文本特征，将中文文本映射成一个固定长度的特征向量。

5）在分类评估阶段，利用SVM分类器进行训练和分类；使用准确率、召回率、F1值评测分类结果，采用宏平均的方法进行衡量。

实施例

基于Base64的中文文本分类方法的流程如图1所示，主要包括如下步骤：

对于HTML格式的网页文本，需要预先提取出有用的正文信息，即去除格式标记。由于网页标记含有固定的标签格式，可以通过扫描文本，提取出文本的头部、标题、关键词、摘要、正文等信息，同时去除无用的脚本、注释、表单信息。完成上述操作后，将文本以文件形式保存下来。

Base64编码作为一种简单有效的编码方式广泛应用于网络数据传输的加密转换。这种编码方法使用“A-Z”，“a-z”，“0-9”，“+”，“/” 64个ASCII字符以及一个后缀字符“=”来编码数据，以3字节（24bit）数据为单位，每6位一组，转化为4个字节的数据，具体的编码原理如图2所示。

若原始中文文本非HTML格式，则直接读取文本信息，否则读取去除格式标记后的文本信息。然后使用Base64编码输入文本，将文本转化为由字母和数字组成的字符串。本发明中使用JDK自带的BASE64Encoder方法来对文本编码，具体方法如下：首先读入中文文本，将其转化为字节流，然后调用BASE64Encoder的encode()方法将文本转换为字符串。中文文本编码前后的文本如图3和图4所示。

2）使用4-gram切分编码后的字符串文本，生成4-gram特征项；

对编码后的字符串文本进行分词，得到分词后的文本特征集。

中文文本没有明确的分隔符，编码后的文本是一串连续的字符，对这种形式的文本进行切分最简单的方法便是使用N-gram，本发明中使用4-gram来切分编码后的文本，具体的4-gram分词方法如图5所示。

对样本集中的所有4-gram特征进行特征选择，特征的IG值越高，表示该特征越重要。经步骤2）得到4-gram特征集合，对集合中的每个特征，计算其在类别中出现的频率及当前文本中出现的频率信息，计算该特征项的IG值；所有特征都计算完毕后，按IG值的大小进行排列，选取IG值高于某个阈值的特征，组成数据集的特征空间，完成特征选择。

分类系统中，给定类别C={c₁, c₂, …, c_n}，n为类别总数。每个类别出现的概率分别记为P(c₁)，P(c₂)，…，P(c_n)，那么分类系统的熵可以表示为：

Figure 2011100243353100002DEST_PATH_IMAGE001

信息增益(Information Gain, IG)就是一种基于熵的评估方法，其原则是特征能够为分类系统带来多大的信息，带来的信息越多，该特征就越重要。IG计算每个特征项的信息增益，按信息增益大小对特征项进行降序排列，通过设定一个阈值选择大于该阈值的特征进行特征选择。IG的计算公式如下所示：

其中，n为类别总数；P(c_i)表示类别c_i在训练集中出现的概率；P(t)为特征项t出现的概率，即训练集中包含t的文档的概率；表示训练集中不包含特征t的文档的概率；P(c_i|t)表示出现特征t时为类别c_i的概率，即类别c_i中出现特征t的文档数除以训练集中出现特征t的总文档数；

为类别c_i中没有出现特征t的文档数除以训练集中没有出现特征t的文档数。

对于每个经4-gram切分后产生的字符串文本特征项，若包含在步骤3）生成的特征空间中，统计该特征项的词频信息，将其量化，以此作为特征项权重，否则舍弃该特征。每个特征表示成一个机器可识别的数值，根据特征空间中的特征项位置信息，将文本表示成一个加权特征向量；重复步骤1）～步骤4），得到中文文本数据集的特征向量集合。

构建特征向量集的具体步骤如下：

a) 读取特征选择后的特征空间，每个特征对应特征空间中的一个值，每个文本均可表示为一个固定长度的数值向量；

b) 统计中文文本中所有特征项及其词频，构建词-词频索引表；

c) 遍历词-词频索引表，查找词在特征空间中的位置，将词频规格化在(0,1)之间；遍历完成后中文文本便转换为计算机可识别的特征向量；

d) 重复上述步骤，将样本集中的所有文本转化为特征向量集。

以步骤4）中生成的特征向量集合作为输入，使用k-折交叉验证方法，将输入数据筛分为训练集和测试集，通过训练SVM分类器输出的文本分类结果；然后使用不同的评测方法评估分类性能。

a) 使用LIBLINEAR工具包训练SVM分类器，进行文本分类。训练方法如下：

train [options] training_set_file [model_file]

其中，training_set_file为向量形式的训练集；options为训练参数；model_file为输出的训练模型，均为可选项。

本方法使用的训练参数选项如下：

-s type : 设置slover类型(选择SVM解决方法)；

-c cost : 设置惩罚因子c；

-v n : n-折交叉验证模型。n-折交叉验证将训练集随机分成n个子数据集，每次使用1个子数据集作为测试集，其他n-1个作为训练集；重复n次使得每个子数据集都被测试一次，分类准确率为n次试验的平均值。

设置参数如下：

i) 设置训练模型的solver类型为s=2；

ii) 设置惩罚因子c=0.5；

iii) 设置n-折交叉验证v=5。

b) 对于训练SVM分类器后的各类别的分类结果，使用准确率、召回率和F1值的宏平均来综合各类别的分类结果，评估分类方法的有效性。

Claims

1.一种基于Base64编码的中文文本分类方法，其特征在于它的步骤如下：

2）使用4-gram切分编码后的字符串文本，生成4-gram特征项；

2.根据权利要求1所述的一种基于Base64编码的中文文本分类方法，其特征在于所述的利用Base64编码中文文本，将中文文本转化为由英文字母和数字组成的字符串文本步骤为：对于一个待分类的中文文本，若为带格式标记的网页文本，则先去除页面标记、文本注释等对本文区分度不大的或无用的信息，然后将去除标记后的文本作为二次输入；将完成以上预处理操作的文本作为输入，使用Base64将其编码为由英文字母和数字组成的字符串组成的字符串文本，完成这个步骤后，文本基本单位将是单个字符而不再是中文字词。

3.根据权利要求1所述的一种基于Base64编码的中文文本分类方法，其特征在于所述的使用4-gram切分编码后的字符串文本，生成4-gram特征项步骤为：接收经Base64编码后的中文字符串文本，以单个字符为单位，使用4-gram切分文本，生成文本特征项，每个特征均是长度为4的字符串，此后该文本就由切分后的4-gram特征项来表示，数据集中所有文本的特征项组成数据集的原始特征集。

4.根据权利要求1所述的一种基于Base64编码的中文文本分类方法，其特征在于所述的统计字符串文本中4-gram特征项的频率信息，根据IG的重要程度选择4-gram特征项，生成特征空间步骤为：对于数据集中各个类别的文本，经步骤2）后转换为由4-gram特征项组成的特征项集合；对集合中的每个特征项，计算在类别中出现的频率及当前文本中出现的频率信息，计算特征项的IG值；按IG值大小进行排列；选取IG值高于某个阈值的特征项，组成数据集的特征空间，完成特征选择。

5.根据权利要求1所述的一种基于Base64编码的中文文本分类方法，其特征在于所述的统计4-gram特征项的词频，根据步骤3）中生成的特征空间，使用词频权重表示特征，将中文文本表示成特征向量，重复步骤1）～步骤4）得到特征向量集步骤为：由4-gram将文本切分成4-gram特征集；对于特征集中的特征项，若包含在步骤3）生成的特征空间中，统计该特征项的词频信息，将其量化，以此作为特征项权重，否则舍弃该特征项；每个特征项表示成一个机器可识别的数值，根据特征项在特征空间中的位置信息，将文本表示成一个加权特征向量；重复步骤1）～步骤4），得到中文文本数据集的特征向量集合。

6.根据权利要求1所述的一种基于Base64编码的中文文本分类方法，其特征在于所述的输入特征向量集，利用LIBLINEAR工具箱训练SVM分类器，对中文文本进行分类，判断文本所属的类别步骤为：将步骤4）中生成的特征向量集合作为输入，使用k-折交叉验证方法，将输入数据拆分为训练集和测试集，通过训练SVM分类器输出文本分类结果；然后使用不同的评测方法评估分类性能。