CN103279478B

CN103279478B - 一种基于分布式互信息文档特征提取方法

Info

Publication number: CN103279478B
Application number: CN201310138475.2A
Authority: CN
Inventors: 林为民; 张涛; 马媛媛; 邓松; 李伟伟; 时坚; 汪晨; 王玉斐; 周诚
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd; Global Energy Interconnection Research Institute; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd; Smart Grid Research Institute of SGCC
Priority date: 2013-04-19
Filing date: 2013-04-19
Publication date: 2016-08-10
Anticipated expiration: 2033-04-19
Also published as: CN103279478A

Abstract

本发明提供针对海量文档处理过程中的数据处理规模限制和性能不足等方面的瓶颈问题，本发明提供一种基于分布式互信息文档特征提取方法，包括以下步骤：进行文档集合，并对文档进行初始化；计算文档中分词出现的频率和不同分类中分词的互信息值，从而选择出特征词集合；计算所有特征词的权值，从而形成最终的文档向量集合。本发明利用MapReduce分布式计算框架来进行文档分类的特征词以及其权值的提取，可以加快文档分类的速度以及可扩展性，通过对键值对的设计，在提取特征词的同时就可以并行计算出特征词在文档中的权值，加快文档分类的效率。

Description

一种基于分布式互信息文档特征提取方法

技术领域

本发明属于分布式计算和数据挖掘技术领域，具体涉及一种基于分布式互信息文档特征提取方法。

背景技术

互联网迅猛发展的同时，也给我们带来了非常壮观的信息爆炸，如何对互联网上海量的数据进行处理是互联网企业必须面对的严峻考验，想要解决“数据丰富，信息贫乏”这个问题，就必须对海量数据进行分析和挖掘，比较常见而且实用的处理海量数据的方法就是对文档进行分类，即文档分类。

文档分类的任务是在给定的分类体系下，对一未知类别标号的文档，根据其内容进行归类，它可以归为多类，也可以不属于任何类（对给定的类集合而言）。

常见的文档分类步骤为：对文档进行分词处理；特征词条的选择；文档的表示；确定文档分类。这四个步骤是相辅相成的，每一个步骤的数据输出都作为下一个步骤的数据输入。

其中文档表示就是VSM(向量空间模型)，就是把文档看作一个多维向量，然后用余弦相似度来表示文档之间的关系，但是该方法的最大缺点就是向量的维数太大，为了减少向量的维数，需要文档的特征词的提取工作。互信息方法衡量的是某个词和某个类别之间的相互关系。它度量两个事物之间的相互性。互信息是信息论中的一个概念，用于表示信息之间的关系，是两个随机变量统计相关性的数值表现，使用互信息理论进行特征提取是基于这样的假设：在某个特定类别出现频率高，但在其他类别出现频率比较低的词条与该类的互信息比较大。特征项和类别的互信息体现了特征项与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。因此对于每一主题来讲，特征的互信息越大，说明它与该主题的共现概率越大，因此以互信息可以作为提取特征的评价时应选互信息最大的若干个特征。

常见的文档表示方法就是VSM(向量空间模型)，就是把文档看作一个多维向量，然后文档之间的关系就可以表示成向量之间的关系，这样就可以利用余弦定理来计算文档之间的相似度，根据相似度对文档进行分类是一种很常见的方法，但是该方法的最大缺点就是向量的维数太大，为了减少向量的维数，文档的特征词条的提取就显得尤为重要。文档分类中复杂度最大的阶段就是特征词条的提取以及相应的文档表示，特别是在处理海量数据的文档分类的时候，这种问题显的更为突出。

分布式计算是解决海量数据计算的最重要的方式，经需要计算的大型数据分成多个部分，分布到多台计算机上进计算，最后将结果进行汇总，达到快速运算的目的。Hadoop就是典型的云计算环境，实现并解决海量数据集的存储、分析和计算的功能，现阶段已应用于多种平台，有着低成本、可扩展性、可伸缩性、高效性、高容错性等优点，它的主要组件包括分布式文件系统(HDFS)和映射-化简(MapReduce)编程模型，映射-化简模型的主要思想就是任务的分解以及对分解结果的汇总。映射-化简模型包括两个动词映射(Map)和化简(Reduce)，映射就是将一个任务分解成为多个子任务，化简就是将分解后多子任务处理的结果汇总起来，得出最后的分析结果。

当前许多的现有成熟的文档分类的相关成熟的算法都是基于单任务设计的，如果将文档分类的特征词提取以及文档表示步骤结合到分布式计算框架中，将会对文档分类的速度以及处理语料库的数量都有显著的提高。

发明内容

针对海量文档处理过程中的数据处理规模限制和性能不足等方面的瓶颈问题，本发明提供一种基于分布式互信息文档特征提取方法，利用MapReduce分布式计算框架来进行文档分类的特征词以及其权值的提取，可以加快文档分类的速度以及可扩展性，通过对键值对的设计，在提取特征词的同时就可以并行计算出特征词在文档中的权值，加快文档分类的效率。

为了实现上述发明目的，本发明采取如下技术方案：

提供了一种基于分布式互信息文档特征提取方法，所述方法包括以下步骤：

步骤1：进行文档集合，并对文档进行初始化；

步骤2：计算文档中分词出现的频率和不同分类中分词的互信息值，从而选择出特征词集合；

步骤3：计算所有特征词的权值，从而形成最终的文档向量集合。

所述步骤1中，对文档进行初始化包括文档的分词简化处理以及分布式表示。

所述步骤1包括以下步骤：

步骤1-1：设D={d₁，d₂，...，d_j，...，d_N}表示语料库，d_j表示语料库中每个文档，N表示语料库所有文档的数目；

F={f₁，f₂，...，f_k，...，f_|F|}表示特征词集合，|F|表示特征词的总数量，其中0<k≤|F|，k属于整数，f_k表示每个特征词；

C={c₁，c₂，...，c_s，...，c_|C|}表示文档类别集合，c_s表示每个文档类别，|C|表示文档类别的数量；

TF={tf₁₁，...，tf_ij，...，tf_MN}表示分词频率集合，其中i代表分词的序号，j代表文档的序号，M代表所有文档出现的分词数目，N代表语料库所有文档的数目，该集合中的元素代表分词t_i在文档d_j中出现的频率；

步骤1-2：将语料库中的所有文档转换为容易读取的文档，然后将语料库D中易读取的文档进行分词处理，得到的分词结果包括分词的内容和分词的类型，将这些分词处理后的文档作为MapReduce的输入分片，将这些输入分片分布在多个DataNode上，方便进行并行处理；

步骤1-3：将这些输入分片中的分词进行简化处理，简化处理包括去除停顿特征词、标点符号以及单个字的分词，简化处理的过程如下：

由任务A进行处理，所述任务A的输入分片即是分词处理后的文档，其中每个文档都作为单独输入数据分片，任务A的Map阶段的输入键值对为<<filename，texttype>，context>，filename代表文件名，texttype代表文档的分类名称，context代表文档的所有内容，任务A的Map阶段根据文档中的分词类型，去除停顿特征词和长度小于一个汉字长度的分词，任务A的Map阶段的输出键值对为<<filename，texttype，word>，1>，其中word代表每个文档中的分词，其中值1，代表出现一次，该输出键值对作为任务A的Reduce阶段的输入。

所述步骤2中，利用MapReduce计算分词的词频，通过连续的3个子Mapreduce进行分词的互信息值的计算。

所述步骤2包括以下步骤：

步骤2-1：任务A的Reduce阶段，统计相同的文件名和分词的键值对，即得到每个文档的中所有分词出现的次数，<<filename，texttype，word>，wordcount>为任务A的输出结果，wordcount代表每个文档中分词的出现频率，将任务A的输出结果保存到分词频率集合TF中；

步骤2-2：建立任务Ｂ，把任务A的输出结果则作为的任务B的输入；统计出所有分词在所有类别中的互信息值MI(t_i,c_j)：

MI (t_{i}, c_{j}) = \log_{2} [\frac{p (t_{i} | c_{j})}{p (t_{i})}] = \log_{2} [\frac{α \cdot M}{N (α + β)}] - - - (1)

其中：p(t_i|c_j)代表在所有c_j类别的文档中分词t_i出现的文档频率；p(t_i)代表分词t_i的在所有类别的文档中出现的频率；α代表分词t_i出现在c_j类别文档中的频率；β代表分词t_i出现在非c_j类别文档中的频率；α+β即代表分词t_i在所有类别文档中出现的频率。

步骤2-3：任务B的Map阶段，经过任务B的映射处理所有出现分词word以及其所出现的类别文档中，数量置1，即<<filename，texttype，word>，1>，任务Ｂ的Reduce阶段将Map阶段的所有输出中相同的分词以及类型集中到同一化简任务中，即统计出分词word在某一类别中出现的次数，即α，则任务B的最终输出为<<texttype，word>，<filename，α>>；

步骤2-4：建立任务C，计算α+β；任务B的最终输出作为任务C的输入，任务C的Map阶段统计同一分词以及其出现的文件名作为作为键值，值中记录α，并计数一次，即<word，<filename，texttype，α，1>>，然后化简阶段整合到同一化简任务中，统计出分词在所有类别文档中出现的次数，即α+β，则任务C的最终输出为<<word，texttype>，<α，α+β>>；

步骤2-5：建立任务D，根据任务C的输出计算MI(t_ic_j)；Map阶段根据输入键值对带入公式(1)进行计算，然后输出<<word，texttype>，MI(t_ic_j)>，Reduce阶段把相同文档类别的键值对输入到同一化简任务中，Reduce阶段按照MI(t_ic_j)进行排序，并选择出每个类别中所有分词中互信息值较高的分词作为最终该类别的特征词集合作为最终的类别特征词，即<texttype，word>，将特征词保存到特征词集合F中。

所述步骤3中，定义向量代表文档d_j中所有特征词的权值向量，0<k≤|F|，k属于整数，w_kj表示文档d_j中特征词f_k的权值大小，t_i表示文档d_j中的分词，w_kj表示为：

w_{kj} = {\frac{{tf}_{ij}}{Σ_{j = 0}^{N} {tf}_{ij}} | {tf}_{ij} &Element; TF, f_{k} &Element; F, t_{i} = f_{k}, 0 \leq i < M} - - - (2)

定义集合即为最终所有的文档向量集合，即最终的文档表示。

与现有技术相比，本发明的有益效果在于：

1.本发明针对海量文档处理过程中的数据处理规模限制和性能不足等方面的瓶颈问题，利用MapReduce分布式计算框架来进行文档分类的特征词以及其权值的提取，可以加快文档分类的速度以及可扩展性；

2.通过对键值对的设计，在提取特征词的同时就可以并行计算出特征词在文档中的权值，加快文档分类的效率；

3.解决文档过滤的海量文档数据过滤的整体效率问题，缓解传统文档挖掘方法对应于海量数据文本处理效率的不足，可以显著提高对于文本挖掘的效率以及准确度；

4.降低资源的消耗，提高文本表示的灵活性。

附图说明

图1是基于分布式互信息文档特征提取方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1，提供了一种基于分布式互信息文档特征提取方法，所述方法包括以下步骤：

步骤1：进行文档集合，并对文档进行初始化；

所述步骤1包括以下步骤：

所述步骤2包括以下步骤：

MI (t_{i}, c_{j}) = \log_{2} [\frac{p (t_{i} | c_{j})}{p (t_{i})}] = \log_{2} [\frac{α \cdot M}{N (α + β)}] - - - (1)

w_{kj} = {\frac{{tf}_{ij}}{Σ_{j = 0}^{N} {tf}_{ij}} | {tf}_{ij} &Element; TF, f_{k} &Element; F, t_{i} = f_{k}, 0 \leq i < M} - - - (2)

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于分布式互信息文档特征提取方法，其特征在于：所述方法包括以下步骤：

步骤1：进行文档集合，并对文档进行初始化；

步骤3：计算所有特征词的权值，从而形成最终的文档向量集合；

所述步骤1中，对文档进行初始化包括文档的分词简化处理以及分布式表示；

所述步骤1包括以下步骤：

步骤1-1：设D＝{d₁，d₂，...，d_j，...，d_N}表示语料库，d_j表示语料库中每个文档，N表示语料库所有文档的数目；

F＝{f₁，f₂，...，f_k，...，f_|F|}表示特征词集合，|F|表示特征词的总数量，其中0<k≤|F|，k属于整数，f_k表示每个特征词；

C＝{c₁，c₂，...，c_s，...，c_|C|}表示文档类别集合，c_s表示每个文档类别，|C|表示文档类别的数量；

TF＝{tf₁₁，...，tf_ij，...，tf_MN}表示分词频率集合，其中i代表分词的序号，j代表文档的序号，M代表所有文档出现的分词数目，N代表语料库所有文档的数目，该集合中的元素代表分词t_i在文档d_j中出现的频率；

2.根据权利要求1所述的基于分布式互信息文档特征提取方法，其特征在于：所述步骤2中，利用MapReduce计算分词的词频，通过连续的3个子Mapreduce进行分词的互信息值的计算。

3.根据权利要求2所述的基于分布式互信息文档特征提取方法，其特征在于：所述步骤2包括以下步骤：

步骤2-2：建立任务B，把任务A的输出结果则作为的任务B的输入；统计出所有分词在所有类别中的互信息值MI(t_i,c_j)：

M I (t_{i}, c_{j}) = \log_{2} [\frac{p (t_{i} | c_{j})}{p (t_{i})}] = \log_{2} [\frac{α \cdot M}{N (α + β)}] - - - (1)

其中：p(t_i|c_j)代表在所有c_j类别的文档中分词t_i出现的文档频率；p(t_i)代表分词t_i的在所有类别的文档中出现的频率；α代表分词t_i出现在c_j类别文档中的频率；β代表分词t_i出现在非c_j类别文档中的频率；α+β即代表分词t_i在所有类别文档中出现的频率；

步骤2-3：任务B的Map阶段，经过任务B的映射处理所有出现分词word以及其所出现的类别文档中，数量置1，即<<filename，texttype，word>，1>，任务B的Reduce阶段将Map阶段的所有输出中相同的分词以及类型集中到同一化简任务中，即统计出分词word在某一类别中出现的次数，即α，则任务B的最终输出为<<texttype，word>，<filename，α>>；

4.根据权利要求1所述的基于分布式互信息文档特征提取方法，其特征在于：所述步骤3中，定义向量代表文档d_j中所有特征词的权值向量，0<k≤|F|，k属于整数，w_kj表示文档d_j中特征词f_k的权值大小，t_i表示文档d_j中的分词，w_kj表示为：

w_{k j} = {\frac{{tf}_{i j}}{Σ_{j = 0}^{N} {tf}_{i j}} | {tf}_{i j} &Element; T F, f_{k} &Element; F, t_{i} = f_{k}, 0 \leq i < M} - - - (2)