CN103020167A

CN103020167A - 一种计算机中文文本分类方法

Info

Publication number: CN103020167A
Application number: CN2012104891364A
Authority: CN
Inventors: 戴新宇; 付强; 陈家骏; 黄书剑; 张建兵
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2013-04-03
Anticipated expiration: 2032-11-26
Also published as: CN103020167B

Abstract

本发明提出了一种计算机中文文本分类方法，包括以下步骤：使用N-gram方法处理中文文本：使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量；使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重；利用L1-正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高，能够避免分词对分类精度产生的不良影响。通过使用N-gram的形式来表达文本，可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题，从而提高文本分类的精度。

Description

一种计算机中文文本分类方法

技术领域

本发明涉及一种计算机文本处理领域，特别是一种计算机中文文本分类方法。

背景技术

随着当今世界信息量的急剧增加，以及计算机网络技术迅速普及和发展，大量的文档以电子的形式出现。为了更好的管理越来越多的文档，人们对计算机进行自动文本分类的需求越来越大。文本分类就是根据文本的内容，利用计算机把一个文本分成事先给定的某个类别。对于一个文本分类任务，首先把每一个文本都映射到一个高维欧几里得空间，然后使用特征选择方法或特征抽取方法选出一部分对分类有用的特征。利用机器学习里的分类器，从大量的训练数据中学习出分类器模型，最后用这个分类器模型对未知类标的文本进行分类。近年来，随着机器学习技术的发展，文本分类方法取得了一系列重要的进展。而在中文文本分类中，中文分词是一个重要的预处理步骤，因为中文文本的字与字之间不像英文单词那样有空格隔开。想要从文本中提取出特征，就必须首先对中文文本进行分词。分词质量的优劣，直接影响到分类结果的好坏。首先，分词中产生的错误会影响分类器的性能，尤其是在网络越来越发达的今天，新鲜的词语层出不穷，这对分词的精度是一个很大的挑战。其次，即使分词结果全部正确，分词也会带来一些关键信息的丢失。表1表示了两个文本的分词表示，其中一个文本来自经济类，另一个来自计算机类。

表1文本预处理的分词示例

类别	正文
		经济	…面向/新/世纪/的…研究/对象…
计算机	…采用/面向/对象/的/方法…

在表1中，两个文本都含有“面向”和“对象”这两个特征，他们都被分词工具切开了。所以对我们区分两个文本没有帮助。但是“面向对象”是计算机特有的一个术语，如果使用“面向对象”这个特征，就可以很好地区分这两个文本。但是传统的分词方法无法分出“面向对象”这样的词，因此实际上也就无法区分这样的两个中文文本。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种中文文本分类方法。

为了解决上述技术问题，本发明公开了一种中文文本分类方法，包括以下步骤：

步骤一，通过N-gram方法处理中文文本：使用N-gram（N元语法模型）的方法把中文文本的表示为一个由一组特征组成的特征向量；N-gram表示连续的N个字符组成的字串，N为大于1的自然数。

步骤二，使用tf·idf（term frequency–inverse document frequency，词频-逆向文件频率）法为特征向量中每一个特征赋予一个权重；

步骤三，利用L1-正则化逻辑回归训练出分类器模型，为中文文本分类。L1表示分类器模型的权重向量的1范数。

本发明步骤一包括以下步骤：

对于中文文本d＝c₁，c₂，…c_j…，c_k，其中c_j为中文文本d中的第j个字，j＝1,2，…k，k表示中文文本d的总字数，用N-gram的方法把中文文本d的表示为一个由一组特征组成的特征向量，表示为：

(c₁，c₂，…，c_k，

c₁c₂，c₂c₃，…，c_k-1c_k，…，

c₁c₂…c_n，c₂c₃…c_n+1，…，c_k-n+1c_k-n+2…c_k)，

其中，特征向量中的每一维表示一个特征s，参数n取值范围为1～k。

本发明步骤一中，同时使用uni-gram和bi-gram(N＝2)或uni-gram，bi-gram和tri-gram(N＝3)。

本发明步骤二包括以下步骤：

根据词频逆向文件频率的计算公式计算特征向量中特征的权重：

w_{ij} = \frac{n_{i, j}}{Σ_{t} n_{t, j}} \times \log \frac{| D |}{| {j : s_{i} &Element; d_{j}} |},

其中n_i,j是第i个特征s_i在第j个文本d_j中出现的次数，|D|表示中文文本的总个数，w_ij是第i个特征在第j个文本中的权重；

根据每一个中文文本的所有特征的权重，把一个文本d_j表示成如下形式：

x_j＝(w_1,j，w_2,j，…，w_m,j)，

m表示训练数据集中所有中文文本的特征总数。

本发明步骤三包括以下步骤：

给定训练样例{(d₁，y₁)，(d₂，y₂)，…，(d_K，y_K)}，其中d_i表示一篇中文文本，i为1~K中任意数，y_i∈{1，2，…，h}表示中文文本对应的类别。根据步骤一和步骤二，把每一篇中文文本都表示成向量的形式，即把中文文本d_i表示成向量表示x_i。对于多分类问题，即h＞2的情况，使用一对多方法：

把训练数据中，类标号为1的中文文本d_i（即对应的y_i＝1）作为正类，其他中文文本作为负类，组成第1个训练数据集。

把训练数据中，类标号为2的中文文本d_i（即对应的y_i＝2）作为正类，其他文本作为负类，组成第2个训练数据集。

反复循环，直到把训练数据中，类标号为h的中文文本d_i（即对应的y_i＝h）作为正类，其他文本作为负类，组成第h个训练数据集。

由此得到一共h个训练数据集。

然后根据L1-正则化逻辑回归分类器的目标函数：

\min_{β} {| | β | |}_{1} + c Σ_{i = 1}^{K} \log (1 + e^{- y_{i} β^{T} x_{i}}),

其中K是训练样例的总数，C是调节惩罚项和损失函数之间关系的常数，C的取值范围是大于0的实数，C取值越大L1-正则化逻辑回归分类器模型和训练数据更加拟合；β是学习的参数，取值范围是实数。在h个训练数据集上训练得到h个两分类的分类器模型

i∈{1，2，…，h}，其中y＞0，则为正类；y＜0，则为负类。对于一个待测中文文本d，将它转化为向量表示x后。用h个分类器模型

i∈{1，2，…，h}分别计算得到h个y值。选择最大的y值对应的类，就是待测中文文本所属的类别。

有益效果：本发明避免了分词所带来的对中文文本分类性能的影响。通过使用N-gram语言模型对中文文本进行预处理，可以避免繁琐的分词过程。也保留了分词丢失的关键信息。同时，L1-正则化逻辑回归可以很好的解决N-gram带来的大规模稀疏性问题，进而提高中文文本分类的性能。

本发明对现有的基于分词的中文文本分类方法进行改善和提高，能够避免分词对分类精度产生的不良影响。分词错误会影响文本分类的精度，即使分词是全部正确的，也会丢失一些对分类十分有用的信息。通过使用N-gram的形式来表达文本，可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题，从而提高文本分类的精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的流程图。

具体实施方式

本发明提出了一种基于字的N-gram和L1-正则化逻辑回归的中文文本分类方法。既可以避免分词错误对文本分类造成的影响，又可以保留分词丢失的许多关键信息。现有的技术中，中文文本分类通常使用分词对文本进行预处理。

本发明的计算机中文文本分类方法，包括以下步骤。

步骤一，使用N-gram方法处理中文文本：使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量。

步骤二，使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重。

步骤三，利用L1-正则化逻辑回归分类器模型为中文文本分类。

步骤一包括以下步骤。

(c₁，c₂，…，c_k，

c₁c₂，c₂c₃，…，c_k-1c_k，…，

c₁c₂…c_n，c₂c₃…c_n+1，…，c_k-n+1c_k-n+2…c_k)，

步骤二包括以下步骤。

w_{ij} = \frac{n_{i, j}}{Σ_{t} n_{t, j}} \times \log \frac{| D |}{| {j : s_{i} &Element; d_{j}} |},

其中n_i，j是第i个特征s_i在第j个中文文本d_j中出现的次数，|D|表示中文文本的总个数，w_ij是第i个特征在第j个文本中的权重。

根据每一个中文文本的所有特征的权重，把一个中文文本d_j表示成如下向量形式：

x_j＝(w_1，j，w_2，j，…，w_m，j)，

m表示训练数据集中所有中文文本的特征总数。

步骤三包括以下步骤：

根据L1-正则化逻辑回归分类器的目标函数：

\min_{β} {| | β | |}_{1} + c Σ_{i = 1}^{K} \log (1 + e^{- y_{i} β^{T} x_{i}}),

其中β是学习的参数，K是训练数据集中作为训练样例的中文文本的总数，C是调节惩罚项和损失函数之间关系的常数，y_i是中文文本的类标，x_i是中文文本的向量形式；

根据中文文本训练样例得到一组分类器模型y＝β^Tx；x为中文文本的向量形式。

步骤三后包括以下步骤：

对于一个输入中文文本d，根据步骤一和步骤二转化为向量形式x后，根据分类器模型y＝β^Tx判断中文文本的类别；

如果y＞0，则为正类；

如果y＜0，则为负类。

实施例1

使用基于字的N-gram就是把一句话拆分成连续的N个字串。这样做的好处是可以保留大量的信息。

假设一个三分类问题，要分类的文本是：

A、经济类：“古典经济”，记为d₁

B、计算机类：“计算机”，记为d₂

C、文学类：“古文学”，记为d₃

如果使用uni-gram和bi-gram（k取2）来对这三个文本进行预处理，这三个文本表示成表2形式：

表2使用N-gram对文本进行预处理的结果

类别	uni-gram和bi-gram表示
		经济	d₁＝(古,典,经,济,古典,典经,经济)
计算机	d₂＝(计,算,机,计算,算机)
		文学	d₃=(古,文,学,古文,文学)

使用基于字的N-gram对文本进行预处理之后。使用tf·idf作为特征的权重。特征的tf·idf定义如下：

\frac{n_{i, j}}{Σ_{t} n_{t, j}} \times \log \frac{| D |}{| {j : s_{i} &Element; d_{j}} |},

这里n_i,j是第i个特征s_i在第j个文本d_j中出现的次数。|D|表示文本的总个数，本实施例为3。最后，把一个中文文本d_j表示成如下形式：

x_j＝(w_1,j，w_2,j，…，w_m,j)，

其中w_i,j表示第i个特征在第j个文本中的权重值。m表示所有中文文本的特征总数。对应上面的两个文本，提取出来的所有的特征是：古,典,经,济,古典,典经,经济，计,算,机,计算,算机,文,学,古文,文学。m为16，其中重复特征“古”只计算为1。

最后表示成表3的形式：

表3

类别	权重向量表示
		经济	x₁＝(0.057,0.157,0.157,0.157,0.157,0.157,0.157,0,0,0,0,0,0,0,0,0)
计算机	x₂＝(0，0，0，0，0，0，0，0.157，0.157,0.157,0.157,0.157,0,0,0,0)
		文学	x₂＝(0.057,0,0,0,0,0,0,0,0,0,0,0,0.157，0.157,0.157,0.157)

表3中每一个权重是根据词频逆向文件频率的方法计算而来的。比如对于x₁向量的第一维，对应特征‘古’，权重是0.057。它是根据下面的式子计算而来的

\frac{1}{7} \times \log \frac{3}{2} = 0.057

这里n_i,j是1，因为它在文本d₁里面出现了1次，同理可得∑_tn_t,j是7，|D|因为训练数据集总共有3个中文文本，所以是3，|{j：s_i∈d_j}|是2，因为共有2个文本含有该特征‘古’。其他的权重依此类推来计算，最后可得到表2中的结果。

把每一个文本都转化为高维欧几里德空间中的一个向量后。因为是三分类问题，需要把他们转化为三个二分类问题，也就是转化为下面三个二分类训练数据集：

第一个训练数据集：x₁是正类，x₂，x₃是负类；

第二个训练数据集：x₂是正类，x₁，x₃是负类；

第三个训练数据集：x₃是正类，x₁，x₂是负类。

根据L1-正则化逻辑回归分类器的目标函数：

\min_{β} {| | β | |}_{1} + c Σ_{i = 1}^{K} \log (1 + e^{- y_{i} β^{T} x_{i}}),

其中K是训练样例的总数，本实施例中K为3，C是调节惩罚项和损失函数之间关系的常数。在这三个训练数据集上分别训练得到三个分类器模型

i∈{1，2，3}。对于一个新的测试文本d，把它转化文权重向量x后，可以根据这三个分类器模型分别计算出三个值：y₁，y₂，y₃。然后找出这三个值中最大的那一个，比如是y₂，那么这个新的测试文本d就属于第二类。。

实施例2

本发明所用的算法全部由python语言编写实现。实验采用的机型为：Intel XeonX7550处理器，主频为2.00G HZ，内存为32G。本发明使用的liblinear和libsvm工具包是目前通用的一个开源分类器训练包。

更具体地说，如图3所示，本发明运行如下：

1.使用N-gram表示文本:把文本表示成uni-gram和bi-gram的形式，或者uni-gram，bi-gram和tri-gram的形式

2.把每一个文本表示成高维欧式空间中的一个向量：其中每一维是，使用tf·idf给文本的N-gram特征计算的权重。

3.使用L1-正则化逻辑回归作为分类器：在训练数据集上训练出分类器模型。

为了验证本发明的有效性，本发明选择四种方法作为对比：传统分词方法和SVM分类器，传统分词方法和正则化逻辑回归分类器，N-gram和L2-正则化逻辑回归分类器，N-gram和SVM分类器。

实验数据准备如下：选取复旦中文文本分类语料库，有9330个文本，共有9个类，作为本发明的训练数据集。传统的基于分词的中文文本分类方法中：文本分词方法采用三种分词工具进行处理，它们分别是：中科院的分词工具ICTCLAS，基于宾州树库标注规范的斯坦福分词工具（记为ctb），基于北京大学标注规范的斯坦福分词工具（记为pku）。特征选择方法采用四种方法，他们分别是：基尼系数（记为Gini），信息增益（记为IG），互信息（记为MI）和X²-统计（记为X2）。本发明使用了两组实验，分别是：使用uni-gram和bi-gram（记为1+2）作为文本表示。使用uni-gram，bi-gram和tri-gram（记为1+2+3）作为文本表示。

图中的数据表示分类精度，其数值越大越好。三个表4a，4b，4c分别表示对比方法使用了不同的分词工具。可以看出本发明N-gram的方法在这几组实验上的分类性能都是最好的。和对比的几种方法比较，分别有不同程度的提升。为了方便对比，使用本发明N-gram表示文本的方法列出了三次。L1-LR表示L1-正则化逻辑回归，L2-LR表示L2-正则化逻辑回归。

表4a实验结果：

表4b实验结果：

表4c实验结果：

Claims

1.一种计算机中文文本分类方法，其特征在于，包括以下步骤：

步骤一，使用N-gram方法处理中文文本：使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量；

步骤二，使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重；

2.根据权利要求1中所述的方法，其特征在于，步骤一包括以下步骤：

(c₁，c₂，…，c_k，

c₁c₂，c₂c₃，…，c_k-1c_k，…，

c₁c₂…c_n，c₂c₃…c_n+1，…，c_k-n+1c_k-n+2…c_k)，

3.根据权利要求2所述的方法，其特征在于，步骤二包括以下步骤：

w_{ij} = \frac{n_{i, j}}{Σ_{t} n_{t, j}} \times \log \frac{| D |}{| {j : s_{i} &Element; d_{j}} |},

其中n_i,j是第i个特征s_i在第j个中文文本d_j中出现的次数，|D|表示中文文本的总个数，w_ij是第i个特征在第j个中文文本中的权重；

x_j＝(w_1,j，w_2,j，…，w_m,j)，

m表示训练数据集中所有中文文本的特征总数。

4.根据权利要求3中所述方法，其特征在于，步骤三包括以下步骤：

根据L1-正则化逻辑回归分类器的目标函数：

\min_{β} {| | β | |}_{1} + c Σ_{i = 1}^{K} \log (1 + e^{- y_{i} β^{T} x_{i}}),

5.根据权利要求4中所述的方法，其特征在于，步骤三后包括以下步骤：

对于一个输入中文文本d，根据步骤一和步骤二转化为向量形式x后，根据分类器模型y＝β^Tx判断中文文本d的类别；

如果y＞0，则为正类；

如果y＜0，则为负类。