CN104866606A

CN104866606A - 一种MapReduce并行化大数据文本分类方法

Info

Publication number: CN104866606A
Application number: CN201510297189.XA
Authority: CN
Inventors: 朱信忠; 徐慧英; 赵建民; 陈远超
Original assignee: Zhejiang Normal University CJNU
Current assignee: Hangzhou Yalong Intelligent Technology Co.,Ltd.
Priority date: 2015-06-02
Filing date: 2015-06-02
Publication date: 2015-08-26
Anticipated expiration: 2035-06-02
Also published as: CN104866606B

Abstract

一种MapReduce并行化大数据文本分类方法，包括如下步骤：第一步：建立用于文本分类的基准测试数据集，进行数据预处理，包括分词、去停用词、词根还原；将该基准测试数据集随机划分为训练文本和测试文本，将所述基准测试数据集采用向量空间模型建立文本表示模型；第二步：根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择；第三步：采用贝叶斯分类器对所述基准测试数据集进行训练学习，得到分类结果。本发明提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。

Description

一种MapReduce并行化大数据文本分类方法

技术领域

本发明涉及计算机领域，更具体地涉及机器学习及大数据文本分类的方法。

背景技术

伴随着互联网应用的普及,在网上传输信息更加便捷，同时网上的信息数量正在以空前速度增长。毫无疑问,研究文本分类方法的意义异常重要。曾经人们使用人工分类的方法,尽管正确率很高,可是效率低下。因为这种分类方法依靠的是个人经验，所以不同的人对同样的数据进行分类，得到的结果可能不一样,而且即便是同一个人，每次的分类也可能会存在不同。面对互联网上如今规模庞大的数据量,分类工作交由人工完成显然并不现实。因此，自动化的文本分类技术无疑是理想的解决之道。

在行业应用领域，为了应对大规模数据的处理，需要更加庞大系统的规模。作为机器学习的一个重要领域，文本分类是根据文本数据信息主题将相同主题的信息归并至一个类别,从而实现对海量数据的管理。然而，实际应用中海量数据的处理面临着一些难题，一方面，传统的文本分类技术针对单机设计，而单一的机器面临着存储容量有限和计算效率较低等问题；另一方面，集成起来的各种数据往往是大容量、多种类的大数据，分析数据是提取信息、发现知识、预测未来的关键步骤。为此，非常迫切寻求一种高效处理大数据的方式。目前，大数据的组织与处理主要是经由分布式文件处理系统来完成，主流的技术是Hadoop开源平台，它提供分布式文件处理系统HDFS以及分布式计算框架MapReduce，分别作为大数据的存储和处理的框架。

贝叶斯分类器训练阶段需计算类的先验概率及相应特征项的类条件概率。类的先验概率计算不难实现，因为计算数量少，例如样本集中一共包含m个类，那么计算m次就可以了。问题的关键在于对特征词的类条件概率计算。因为大规模的词汇量用于形成文本集，所以，用空间向量来表示文本时的维数会很大。根据Google公司在2007年时统计的数据，中文常用词汇多达34万个。可以想象一下，一个训练文本集中包含10000个词汇的话，就需要计算次的类条件概率。大数据时代，数据量不断暴增，若不进行任何处理，文本集所包含的词汇远超10000，很可能会被表示为维数巨大的向量空间模型，造成内存与运算开销浪费。

互信息在信息理论中描述整个系统通信前与通信后减少了多少不确定度,从而判断两个信号在一个消息里相互之间的依赖程度。如今,互信息在各种涉及统计信息的模型中应用非常广泛。如果两个变量计算得到越大的互信息值,那么说明两者间存在越大的统计相关性。具体到文本分类,互信息值通常被用来量度文本中特征词与不同的类别间差异性。

虽然互信息算法在特征选择时具有时空复杂度低、便于理解和计算方便等优点，但是传统的互信息算法在分类精度方面存在着一定的不足。

MI特征提取方法通过计算特征与类别的关联程度实现，能挑选出带有强类别信息的词汇作为特征。然而，如果一个特征只在某个类别中的几个文本中出现，根据MI的计算方法，这个特征将很有可能被提取出来。而这个特征在该类别中并不具有普遍性，将该特征用于表示该类别的其它文本的时候，该项的词频权值将为0。如果这类不具代表性的强类别信息词汇过多，将导致无法正确的表示大部分文档的文本信息，从而导致在分类过程中文本被错分可能性过大。很显然互信息在选择表示文本的特征词时忽略掉了词频，造成的影响便是低频词经常被选择，扩大了低频词的作用，如果加入的低频词是噪音的话，将导致分类效果大打折扣。另外，以特征与所有类别的互信息值求和也不能突出特征对类之间的区分能力，这也从一定程度上削弱了分类信息。

发明内容

为了克服已有大数据文本分类方法的分类性能较差、区分度较低的不足，本发明提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。

本发明解决其技术问题所采用的技术方案是：

一种MapReduce并行化大数据文本分类方法，包括如下步骤：

第一步：建立用于文本分类的基准测试数据集，进行数据预处理，包括分词、去停用词、词根还原；

将该基准测试数据集随机划分为训练文本和测试文本，将所述基准测试数据集采用向量空间模型建立文本表示模型；

第二步：根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择，即

C D M T (t) = Σ_{i = 1}^{m - 1} Σ_{j = i + 1}^{m} | \frac{Σ_{k = 1}^{n} {tf}_{i k} - Σ_{k = 1}^{n} {tf}_{j k}}{Σ_{k = 1}^{n} {tf}_{i k} + Σ_{k = 1}^{n} {tf}_{j k}} | • | M I (t, C_{i}) - M I (t, C_{j}) |;

其中特征t出现于文本X_ik(1≤k≤n)的频度为tf_ik，强调了二类间词频信息的区分能力，|MI(t,C_i)-MI(t,C_j)|则强调了二类之间互信息度量的区分能力。

第三步：采用贝叶斯分类器对所述基准测试数据集进行训练学习，得到分类结果。

进一步，根据所述第二步中，采用训练数据集中所有特征词按CDMT方法计算后降序排列并提取出大于某个阈值的所有特征词的方法，来生成一个特征词汇表。

所述第三步中，训练学习过程如下：

3.1)训练数据集和测试数据集针对之前提取得到的特征词汇表进行文本向量化，求出每个文件中包含在特征词汇表当中的每个单词的词频TF后，以及IDF值，计算每个单词的TF×IDF值，并将计算结果保存；

3.2)贝叶斯分类器的处理过程：

3.2.1)对于测试数据集中的每一条记录，计算它属于训练数据集中每一个类别的概率值；

3.2.2)把测试记录归为K个值中权值最大的类。

所述基准测试数据集为属于国际中文标准数据集的搜狗语料库，其按照各个已知类目进行分类，其中的60％做为训练集，40％做为测试集，不包括重复文本。

本发明的有益效果主要表现在：1.充分利用了词频信息对分类的影响，提高了新分类器的分类性能；2.充分利用了类间差异对分类的影响，提高了特征选择的区分度。

附图说明

图1是贝叶斯文本分类算法示意图；

图2是本发明特征选择算法Job1；

图3是本发明特征选择算法Job2；

图4是本发明特征选择算法Job3。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种MapReduce并行化大数据文本分类方法，根据贝叶斯算法和MapReduce编程模型的特点，在Hadoop平台下并行化的实现了文本分类的各个步骤。包括文本分类的数据预处理、特征提取、文本向量表示和分类四个步骤，具体包括以下过程：

第一步：数据预处理。其中包括分词、去停用词两个过程；

第二步：特征提取。对训练数据集进行处理，筛选出区分能力最强、最具有代表性的特征项(单词)；

第三步：贝叶斯算法的实现。运用贝叶斯算法对测试数据集进行分类。

在贝叶斯算法文本分类之前，已经将基准数据集划分为测试数据集和训练数据集，并分别将各自所有文件分别整合到两个大文件testfile和trainfile中。其中，testfile文件中的每一行代表原来测试数据集中的一个文件，每一行的格式为：“文件名，文件内容”。同样，trainfile文件中的每一行也代表原来训练数据集中的一个文件，每一行的格式为：“类名文件名，文件内容”，其中类名是搜狗语料库中各个类别的名字。

采用TF-IDF算法进行权重调节，基准测试数据集为中文数据集的，维数取2000，基准测试数据集为英文数据集的，维数取1000。

在Hadoop平台下，运用MapReduce编程模型并行的实现贝叶斯算法文本分类的各个过程如图1所示，下面结合其他附图对贝叶斯算法文本分类过程作进一步说明。

数据预处理：此过程是对测试数据集和训练数据集中的所有文件进行处理，包括分词、去停用词、词根还原三步。其中，分词就是中文词法分析，包括去除数字、连字符、标点符号、特殊字符以及大写字母转换成小写字母等操作；去停用词是依据停用词汇表过滤掉对分类无意义的单词；

在训练数据集预处理的MapReduce阶段中包括4个Map过程1个Reduce过程，训练数据集作为这一步骤的输入文件，其中的Key为“类名文件名”，Value为：“文件内容”。

特征提取：特征提取阶段是对训练数据集预处理后的文件进行处理，筛选出区分能力最强、最具有代表性的特征项(单词)。这里采用训练数据集中所有特征词按CDMT方法计算后降序排列并提取出大于某个阈值的所有特征词的方法，来生成一个特征词汇表。

特征提取的MapReduce阶段的输入是1步骤生成的数据预处理后的文件，其中Key为：“类名文件名”，Value为：“文件内容”，具体的Map和Reduce过程如下：

如图2，Job1的输入是完成分词与词汇过滤之后的训练文本集，在分词阶段设置了输出的格式，用以保证文件的每一行<Key,Value>键值对表示一个完整的文件。通过Map过程实现对各个Mapper之下的相关量进行统计，具体包括label类下的文本数、label类下有word存在的文本数、训练文本集中有word存在文本数、整个训练文本集所拥有的文本总数。之后的Reduce阶段，则是对Map阶段统计的局部量值进行全局的汇总操作，最终得到的值分别用ls、wp、ws、tc表示。

如图2，Job2的任务是依照Job1获得的各项统计值，通过Map阶段分别计算label类与除其自身之外的剩余所有类别当中的每一个之间的类间频度差额比重

d_{t} (i, j) = β (i, j) = | \frac{Σ c p (i) - Σ c p (j)}{Σ c p (i) + Σ c p (j)} |

以及互信息差值可以由

d_{m} (i, j) = | l o g \frac{w p (i) \times t c (i)}{l s (i) \times w s (i)} - l o g \frac{w p (j) \times t c (j)}{l s (j) \times w s (j)} |

计算得到，其中1≤i≤m-1,i+1≤j≤m,m表示类别总数。接下来的Reduce阶段，由Map过程的结果可以得到各个二类别之间的CDMT值d_t(i,j)·d_m(i,j)。

如图4，Job3主要是选择并提取阈值中前n个特征量，将文本用n维向量表示。Map过程计算每个特征量的CDMT值，该阶段默认输出是有序的，但是升序排列。为此，Reduce阶段根据Map中得到的CDMT值进行降序排列操作，挑选出前n个特征项。之后，文本集将用这些特征构建向量空间模型，至此就完成了文本集的降维操作。

贝叶斯算法的MapReduce实现：此阶段是运用贝叶斯算法对测试数据集进行分类。包含将数据预处理后的文本向量化和具体的贝叶斯算法实现。

训练数据集和测试数据集文本向量化的过程相同，都是求出求出每个文件中包含在特征词汇表当中的每个单词的词频TF后，以及IDF值，计算每个单词的TF×IDF值，并将计算结果保存。

文本向量化的MapReduce阶段包含4个Map过程和1个Reduce过程，输入文件仍为数据预处理后的文件，其中Key为：“类名文件名”，Value为：“文件内容”，具体过程如下：

(1)Map1过程是计算每个文档的单词总数。发送Key：“单词，类名文件名，单词总数”和Value：“1”；

(2)Map2过程是计算单词在当前文档中的词频。发送Key：“类名文件名”和Value：“单词TF值”；

(3)Map3过程是计算单词在整个文本集中的逆向文档频率。发送Key：“类名文件名”和Value：“单词IDF值”；

(4)Map4过程依据Map2以及Map3所得结果，然后计算每个文件中单词的TF×IDF值。并发送Key：“类名文件名”和Value：“单词TF-IDF值”；

(5)Reduce过程是对Map4的输出结果进行收集，生成训练/测试数据集的文件向量表。

贝叶斯分类算法具体实现过程包括以下两步：

1)对于测试数据集中的每一条记录(用向量表示的文件)，计算它属于训练数据集中每一个类别的概率值；

2)把测试记录归为K个值中权值最大的那个类(训练记录所属的类)。

贝叶斯分类算法具体实现的MapReduce阶段的输入文件为测试数据集文件向量表，其中Key为：“文件名”，Value为：“文件内容(单词TF-IDF值格式)”，具体的过程如下：

首先向内存中读取训练数据集的文件向量表，然后计算测试记录属于训练数据集中各个类别的概率，并选出K条记录中所占权重最大的那条记录。最后完成测试数据的分类。

综上所述，本领域的普通技术人员阅读本发明文件后，根据本发明的技术方案和技术构思无需创造性脑力劳动而作出其他各种相应的变换方案，均属于本发明所保护的范围。

Claims

1.一种MapReduce并行化大数据文本分类方法，其特征在于：所述分类方法包括如下步骤：

第二步：根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择；

2.如权利要求1所述的一种MapReduce并行化大数据文本分类方法，其特征在于：根据所述第二步中，采用训练数据集中所有特征词按CDMT方法计算后降序排列并提取出大于某个阈值的所有特征词的方法，来生成一个特征词汇表。

3.如权利要求1或2所述的一种MapReduce并行化大数据文本分类方法，其特征在于：所述第三步中，训练学习过程如下：

3.1)训练数据集和测试数据集文本向量化，求出每个文件中每个单词的词频TF后，读取含IDF值的特征词汇表，计算每个单词的TF×IDF值，并将计算结果保存；

3.2)贝叶斯分类器的处理过程：

3.2.2)把测试记录归为K个值中权值最大的类。

4.如权利要求1或2所述的一种MapReduce并行化大数据文本分类方法，其特征在于：所述基准测试数据集为属于国际中文标准数据集的搜狗语料库，其按照各个已知类目进行分类，其中的60％做为训练集，40％做为测试集，不包括重复文本。