CN104699772B

CN104699772B - 一种基于云计算的大数据文本分类方法

Info

Publication number: CN104699772B
Application number: CN201510096820.XA
Authority: CN
Inventors: 孟海东; 肖银龙; 宋宇辰; 任敬佩
Original assignee: Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia University of Science and Technology
Priority date: 2015-03-05
Filing date: 2015-03-05
Publication date: 2018-03-23
Anticipated expiration: 2035-03-05
Also published as: CN104699772A

Abstract

本发明公开了一种基于云计算的大数据文本分类方法，包括如下步骤：对有类标和无类标的训练文本分别进行预处理，得到对应的训练数据集；对训练数据集分别进行特征选择，得到对应的降维后的训练数据集；对降维后的训练数据集分别按照TFIDF加权模型计算，从而将训练数据集分别转化为对应的一维向量；将有类标的一维向量按照贝叶斯算法计算，得到每个类别的先验概率和每个词条属于每个类别的先验概率，初始化贝叶斯分类器参数；利用EM算法优化贝叶斯分类器的参数，得到分类模型；利用分类模型对待分类的文本进行文本分类。本发明通过将传统的朴素贝叶斯分类技术与Hadoop以及EM算法结合，使得实际应用中计算速度限制和训练数据限制的问题得以改善，提高了分类器的效率和准确性。

Description

一种基于云计算的大数据文本分类方法

技术领域

本发明涉及数据挖掘领域，具体涉及一种基于云计算的大数据文本分类方法。

背景技术

朴素贝叶斯分类算法以简单、高效成为焦点，较其他分类算法时间复杂度低、效率高，被广泛应用于各种分类任务，是目前最广泛使用的文本分类方法之一。

近年来随着信息技术的发展，文档分类任务呈现出新的特点，这些特点主要体现在以下两个方面：一，数据呈爆炸式增长，大量的信息以文本等非结构化或者半结构化的形式存在，具有高维和海量数据的特征；二，(2)好的分类器需要大量标注样本进行训练，但给出的已标注样本所能提供的信息可能主观而有限，而另一方面却有大量更接近样本空间上未知数据分布的未标注样本含有丰富的分布信息。

传统的朴素贝叶斯分类技术主要存在两方面的问题：，传统朴素贝叶斯算法在实际应用中处理海量文本数据时，单机由于计算速度的限制，往往达不到要求；二，传统朴素贝叶斯算法的分类准确率完全依赖于训练数据，而样本的人工标注需要艰苦而缓慢的劳动，因此制约了整个系统的构建，这就产生了标注瓶颈问题。

EM算法是在数据不完整情况下求解最大似然或最大后验估计问题的常用方法，在文本分类研究中可将它用于未标注样本的学习，利用测试样本改进了贝叶斯文本分类器的分类效果。

英国南安普顿大学《云计算下的海量数据挖掘研究》中提到云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。介绍基于云计算Hadoop集群框架和数据挖掘技术中的SPRINT分类算法的基础上，详细描述SPRINT并行算法在Hadoop中的MapReduce编程模型上的执行流程，并利用分析出的决策树模型对输入数据进行分类。

目前，基于云计算平台的数据挖掘工作已取得众多成果。Apache Mahout项目开发出多种面向商业角度的并行数据挖掘算法；中国科学院计算技术研究所推出的并行分布式数据挖掘平台PDMiner已可实现TB级别的海量数据处理；中国移动通信的并行数据挖掘工具BC-PDM更是提供了基于Web的服务模式。这些标志性成果，大力推动了该领域的发展。在云计算编程模型MapReduce的基础上，已有多种数据挖掘算法被实现。

发明内容

本发明提供了一种基于云计算的大数据文本分类方法，以解决实际应用中计算速度限制和训练数据限制的问题。

为实现上述目的，本发明采取的技术方案为：

一种基于云计算的大数据文本分类方法，包括如下步骤：

S1、对有类标和无类标的训练文本分别进行预处理，得到对应的训练数据集；

S2、对步骤S1所得的训练数据集分别进行特征选择，得到对应的降维后的训练数据集；

S3、对步骤S2所得的降维后的训练数据集分别按照TFIDF加权模型计算，从而将训练数据集分别转化为对应的一维向量；

S4、将有类标的一维向量按照贝叶斯算法计算，得到每个类别的先验概率和每个词条属于每个类别的先验概率；

S5、利用得到的先验概率，按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别，并将结果加入到之前有类标的一维向量中；

S6、将新的一维向量，采用最大似然估计法，得到每个类别的先验概率和每个词条属于每个类别的先验概率；

S7、利用得到的先验概率，按照贝叶斯算法计算，更新一维向量中每个词条可能属于的类别；

S8、重复步骤S6、S7，直到一维向量中每个类别的先验概率和每个词条属于每个类别的先验概率收敛，得到分类模型；

S9、利用分类模型对待分类的文本进行文本分类。

其中，所述的步骤S1中预处理的步骤包括

S11、文件上传与归并；

S12、去除分词与停用词；

S13、统计单个文件词频。

其中，所述的步骤S2具体包括以下步骤：采用基于χ²特征选择法来构造评估函数，将倒排索引文件分块存储在多个节点上，Mappers并行读取文件块、计算特征值，利用MapReduce计算框架的排序过程完成对特征值的排序，最后在Reducer中取指定个数的特征词完成特征词选择，得到特征词库。

其中，所述的步骤S3利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重，利用倒排索引文件计算TFIDF权重后生成文本向量文件。

其中，所述χ²特征选择法计算公式如下：

式中，t表示待统计的词，c表示相关联的类别，A表示包含词t且属于类c的文档数，B表示包含词t但不属于类c的文档数，C表示不包含词t但却属于类c的文档数，D表示不包含词t也不属于类c的文档数。

本发明具有以下有益效果：通过将传统的朴素贝叶斯分类技术与Hadoop以及EM算法结合，使得实际应用中计算速度限制和训练数据限制的问题得以改善，提高了分类器的效率和准确性。

附图说明

图1为本发明实施例一种基于云计算的大数据文本分类方法的流程图。

图2为本发明实施例中倒排索引文件中的记录结构示意图。

图3为本发明实施例中利用倒排索引文件计算TFIDF权重后生成文本向量文件示意图。

具体实施方式

为了使本发明的目的及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于云计算的大数据文本分类方法，包括以下步骤：

S1，预处理阶段主要完成将本地文件上传至HDFS分布式文件系统中、将小文件进行格式处理并归并为一个大的文件、为文本设置全局ID、文本分词、停用词去除、文件内词频统计等功能。

(1)文件上传与归并

将待处理文本集从本地上传至分布式文件系统HDFS中，Hadoop定义了抽象文件系统接口，并实现了多个文件系统，客户端在未提交作业数据前文本数据存储在本地文件系统，为了充分利用分布式计算环境，需要将文件上传至HDFS中并分布式存储在不同的DataNode中。在此过程中，需要对文件进行格式处理并统计文本集中文本的数目。通过设置文件的全局ID作为文件名，形成文件ID即fileId与类名的映射，便于后面对文本的处理。

(2)分词与停用词去除

ICTCLAS是由中科院计算所研制的中文分词系统，有着较高的分词速度和精度，由于其非开源软件，目前有多个根据其原理实现的开源工具，Imdict-chinese-analyzer是其java版开源实现。Hadoop平台本身由java实现，对java程序具有最好的兼容性，可以方便地将Imdict-chinese-analyzer打包成jar包后上传至Hadoop集群。在文本预处理阶段使用Imdict-chinese-analyzer对文本进行中文分词。将标点符号、常见停用词、特殊字符等停用词存储在停用词文件中，在停用词处理阶段构造停用词表，对分词后的词进行过滤实现停用词去除。

(3)单个文件词频统计

由于基于统计的方法进行特征词选择以及使用TFIDF将文本进行向量化的过程需要统计各个词在文本内、类内以及文本集中的频率，在文本预处理阶段需要事先统计单文本内的各个词的词频并构造倒排索引文件。将倒排索引文件中的记录结构设置成如图2所示。每行以单词开始，将单词所出现的文件ID以及在该文件中出现的词频作为记录中的一项，各个项之间以空格间隔。

S2，在预处理阶段生成文本集的倒排索引后，大量文本所含单词数可到数十万计，由于维度过高，需要选择一部分对分类有意义的特征词来表征文本，构建文本向量。基于χ²特征选择法来构造评估函数，将倒排索引文件分块存储在多个节点上，Mappers并行读取文件块、计算特征值，并利用MapReduce计算框架的排序过程完成对特征值的排序，最后在Reducer中取指定个数的特征词完成特征词选择，得到特征词库。

χ²特征选择法计算公式如下：

公式中t表示待统计的词，c表示相关联的类别，A表示包含词t且属于类c的文档数，B表示包含词t但不属于类c的文档数，C表示不包含词t但却属于类c的文档数，D表示不包含词t也不属于类c的文档数。

S3，在进行特征词选取后，应用TFIDF权重计算方法计算特征词对于文本的权重，建立文本的向量空间模型。由于TFIDF总词频和文档频率的统计过程可以并行执行，可以利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重，提高文本向量化的速度，利用倒排索引文件计算TFIDF权重后生成如图3所示文本向量文件。在Map阶段，各个Mappers读取索引文件的文本块，以KeyValueTextInputFormat格式读取每一条记录，键值对的格式为<term，“fileId：termFreqfileId：termFreq…”>，通过一条记录计算一个特征词的文档频数docFreq，分解fileId：termFreq，以<fileId，term：termFreq：docFreq>键值对格式输出。接下来，MapReduce框架将键值对按键进行本地排序，发送给Reducer。在Reduce阶段，以<fileId，list(term：termFreq：docFreq)>格式接收键值对，MapReduce框架按照fileId将键值对进行排序。在Reducer中执行以下任务：拆分value，计算同一fileId的文件总词频，计算特征词的TFIDF权重。然后将文本各个特征词的TFIDF值拼接为value，以fileId为键，输出文本向量到文本向量文件。

词频TF(Term Frequency)计算公式如下：

公式中，tf_ij为特征词t_i在文本d_j中的词频，n_ij表示特征词t_i在文本d_j中出现的次数，n_j为文本d_j中所有特征词出现的总次数，n为特征词的总数。

反文档频率IDF(Inverse Document Frequency)计算公式如下：

公式中，N为文本集中文本的总数，N_i为出现特征词t_i的文本数目，如果特征词t_i在不在文本集中则导致除数N_i为零，所以一般在分母上加1，当该特征词在所有文本中出现时则为0，所以一般需要在后加0.01。

词频-反文档词频TFIDF定义如下：

w_ij＝tf_ij×idf_i

公式中，w_ij表示特征词t_i在文本d_j中的权重。

S4，文本的向量空间模型建立后，采用EM算法进行无指导学习，将少量有类标的文档集合和大量无类标的文档集合组成新的训练集。EM算法的工作主要分为E步和M步。在开始之前，先对所要用到的数据进行初始化。首先将有类标的一维向量按照贝叶斯算法计算，得到每个类别的先验概率和每个词条属于每个类别的先验概率，然后利用得到的先验概率，按照贝叶斯算法计算出无类标的一维向量中每个词条可能属于的类别，并将结果加入到之前有类标的一维向量中；在M步中，将新的一维向量，采用最大似然估计法，得到每个类别的先验概率和每个词条属于每个类别的先验概率；在E步中根据M步求得概率值来更新按照贝叶斯算法计算，更新一维向量中每个词条可能属于的类别。由于EM算法中各样本之间是相互独立，可以在Hadoop平台将E步操作与MapReduce编程框架结合，很容易实现它的并行化。但根据M步操作可知，新的先验概率的求取需要更新后的均值才可以求得，所以不能仅通过一个MapReduce阶段计算出贝叶斯模型的所有新参数。因此，本发明设计的分布式EM算法的每一次迭代由两个MapReduce阶段。其中第一个MapReduce阶段用于更新贝叶斯模型的均值和权重，命名为MeanMapReduce；第二个MapReduce阶段用于输出贝叶斯模型的所有参数值，命名为VarMapReduce。当VarMapReduce阶段执行完成后，分布式EM算法的一次迭代完成。如果没有满足收敛条件(即小于给定的阈值或者大于给定的迭代次数)，更新HDFS上的贝叶斯模型的参数值启动下一轮迭代。否则迭代停止，得到训练好的分类器模型。

S5，将待分类分本按照步骤S1进行预处理。然后根据步骤S2得到的特征词库，将待分类分本转化为向量形式。分类器测试时使用一个MapReduce，mapper返回的值是测试文档属于C_j类，即所有特征词在C_j类下的P(C_j|d)P(C_j)值与在其他类下的值进行比较，取出最大值所属的类标签值，文档就属于此类。P(C_j)表示每个类别的先验概率，P(C_j|d)表示每个词条属于每个类别的先验概率。reducer的工作是对mapper的结果做了合并，得出测试文档各类中正确分类的文档数。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于云计算的大数据文本分类方法，其特征在于，包括如下步骤：

S9、利用分类模型对待分类的文本进行文本分类；

所述的步骤S2具体包括以下步骤：采用基于χ²特征选择法来构造评估函数，将倒排索引文件分块存储在多个节点上，Mappers并行读取文件块、计算特征值，利用MapReduce计算框架的排序过程完成对特征值的排序，最后在Reducer中取指定个数的特征词完成特征词选择，得到特征词库；

所述的步骤S3利用Hadoop平台的MapReduce计算模型分布式并行计算特征词的TFIDF权重，利用倒排索引文件计算TFIDF权重后生成文本向量文件；所述χ²特征选择法计算公式如下：

2.根据权利要求1所述的一种基于云计算的大数据文本分类方法，其特征在于，所述的步骤S1中预处理的步骤包括

S11、文件上传与归并；

S12、去除分词与停用词；

S13、统计单个文件词频。