CN112463958B

CN112463958B - 基于MapReduce框架下的海量文本快速聚类的方法

Info

Publication number: CN112463958B
Application number: CN202011051536.8A
Authority: CN
Inventors: 程永龙; 李美晶
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-07-15
Anticipated expiration: 2040-09-29
Also published as: CN112463958A

Abstract

本发明提出一种基于MapReduce框架下的海量文本快速聚类的方法。本发明是利用Hadoop框架并采用改进后的K均值聚类算法对海量文本数据实现快速聚类的方法，该方法包括对文本数据进行预处理；利用TF‑IDF(词频‑逆文件频率)技术对文本数据进行特征提取；使用改进的K均值聚类算法。本发明针对在大数据环境下对海量文本进行聚类效率低下的问题，提出一种改进的K均值聚类算法与并行化运算的模型，使得文本聚类过程快速收敛，提高了计算效率，实现快速聚类效果。

Description

基于MapReduce框架下的海量文本快速聚类的方法

技术领域

本发明涉及大数据与自然语言处理领域，尤其涉及一种基于MapReduce 框架下的海量文本快速聚类的方法。

背景技术

文献聚类应用于寻找相似的文献，这对于文本挖掘和文献管理具有重要意义。通过文献聚类，可以高效地得到相似的文献并进行分类；方便地获取想要的信息；从更高的维度观察分析数据。对于大数据环境下的文献聚类，如果使用传统方法，效率十分低下。

Hadoop是一个由Apache开发的分布式系统基础架构，用户可以在不了解分布式底层细节的情况下开发分布式程序。Hadoop的核心是分布式文件系统和映射归约编程模型。分布式文件系统提供海量数据的存储，映射归约编程模型提供海量数据的计算。因此，本发明选择借助Hadoop这一分布式系统基础架构，对文本相似度计算的过程作并行化处理，提升计算效率。

发明内容

本发明的目的在于提供一种基于MapReduce框架下的海量文本快速聚类的方法，其针对现有方法在对数量较多的文本进行K均值聚类时收敛速度较慢的问题，提出了一种改进的K均值初始化与并行化运算的模型，用于并行计算文本之间的相似度，实现快速聚类的目的。

为了达到上述目的，本发明通过以下技术方案实现：

基于MapReduce框架下的海量文本快速聚类的方法，包含以下步骤：

S1、对海量文本数据在Hadoop分布式环境下进行预处理，对每个文本进行分词，转化成一组分词串；

S2、在Hadoop分布式环境下利用TF-IDF方法对文本的分词串进行特征提取，每条文本形成可供计算机识别的数字向量；

S3、将所述步骤S2得到的所述文本数字向量文件，在Hadoop分布式环境下利用改进的快速初始化K均值聚类算法得到K个初始的质心向量；

S4、将所述步骤S2中所述文本数字向量与所述步骤S3中所述文本质心向量在Hadoop分布式环境下进行聚类，得到聚类结果。

优选地，所述步骤S1进一步包含以下步骤：

S1.1、将待预处理文本作为输入文件，对输入文件每一行做一遍映射归约；所述映射归约过程如下：

(1)将所述输入文件按行拆分成多个小文件，该小文件中每一行由文本号和对应内容组成，为每一个小文件分配一个映射任务；

(2)在映射阶段，将每行内容进行半角向全角转化、大写数字向小写数字转化、大写字母向小写字母转化、去除文本中的表情符号，用jieba分词工具进行分词处理，jieba分词是一种中文分词工具，将得到的分词串去除停用词，输出一个键值对，键是该文本号，值是去除停用词后的分词串；

(3)在归约阶段，直接输出键值对，得到每一行由每篇文本的分词串组成的分词串文件。

优选地，所述步骤S2进一步包含以下步骤：

S2.1、将分词串文件作为输入文件，对输入文件每一行做一遍映射归约；

所述映射归约过程如下：

(1)将所述输入文件按行拆分成多个小文件，该小文件中每一行由文本号和对应分词串组成，为每一个小文件分配一个映射任务；

(2)在映射阶段，将每行分词串中分词取集合去除重复的分词，输出一个键值对，键是该文本号，值是取集合后的分词串；

(3)在归约阶段，将每行分词串合并在一起，取集合组成词袋，输出一个键值对，键为1，值为分词串集合组成的词袋，得到一个词袋文件。

S2.2、将所述步骤S1.1中分词串文件与S2.1中的词袋文件，利用TF-IDF 进行特征提取；

TF-IDF特征提取计算公式如下：

式中，N_w是在一条文本中分词w出现的次数，N是该条文本中分词串中总分词数，TF_w是分词w的词频；

其中，Y是文本的总数，Y_w是包含分词w的文本个数，IDF_w是分词w 的逆文本频率；

(TF-IDF)_w＝TF_w*IDF_w

其中，(TF-IDF)_w是分词w的词频-逆文本频率指数。

优选地，所述步骤S3文本数字向量为S2.2中分词串的词频-逆文本频率指数构成；所述步骤S3进一步包含以下步骤：

S3.1将所述海量文本向量中随机抽取一部分样本向量，该样本向量数量为指定K值的三到五倍；

S3.2将所述样本向量中任意选取一向量，命名为C1，计算C1与其他所有剩余样本向量的余弦相似度；

余弦相似度计算公式如下：

式中，x1与x2是两个需要计算的向量，sim(x1，x2)是余弦相似度。

S3.3由所述步骤S3.2的余弦相似度计算结果，找到与所述C1余弦相似度较大的向量，命名Ca，计算Ca与与其他所有剩余样本向量的余弦相似度，找到与所述Ca余弦相似度较大的向量，命名Cmax，与较小的向量，命名 Cmin；计算所述Ca与所述Cmin的余弦相似度sim(Ca，Cmin)值对应的余弦角度θ；

余弦角度θ计算如下：

sim(Cmax，Cmin)＝cosθ

θ＝arccos(sim(Ca，Cmin))

S3.4将步骤S3.3所述余弦角度θ除以指定K值，得到角度间隔θ1，得到如下角度区间划分：

[0，θ₁]，[θ₁，2θ₁]，[2θ₁，3θ₁]，.......,[(k-1)θ₁，kθ₁]，共K个区间；

S3.5选取步骤S3.3所述Cmax向量作为参照向量，分别选取步骤S3.4 所述区间进行如下计算：

(1)首先选定首个区间[0，θ₁]，逐个计算Cmax与所述步骤S3.2所述其他剩余样本向量的余弦相似度，直到找到一个向量，命名C₁，满足： cos(0)<sim(Cmax,C₁)<＝cos(θ₁),记下向量C₁，停止此轮计算；

(2)依次选定区间[θ₁，2θ_1]，逐个计算Ca与所述步骤S3.2所述其他剩余样本向量的余弦相似度，直到找到一个向量，命名C₂，满足： cos(θ₁)<sim(Cmax,C₂)<＝cos(2θ₁),记下向量C₂，停止此轮计算；

(3)以此类推进行第K次，选定区间[(k-1)θ1，kθ1]，逐个计算Cmax 与所述步骤S3.2所述其他剩余样本向量的余弦相似度，直到找到一个向量，命名C_k，满足：cos((k-1)θ₁)<sim(Cmax,C_k)<＝cos(kθ₁),记下向量C_k，停止此轮计算。

S3.6根据所述步骤S3.5可得到一组向量{C₁，C₂，.....，C_k.}，记为初始质心向量；若出现质心向量个数小于K，则缺少所需向量从所述步骤S3.2所述其他剩余样本向量随机选取。

优选地，所述步骤S4中进一步包含以下步骤：

S4.1将所述步骤S2中所述文本数字向量作为输入文件，所述步骤S3中所述文本质心向量作为质心向量文件，质心向量文件每行由质心向量序号与质心向量组成；对输入文件的每一行作第一遍映射归约；所述第一遍映射归约过程如下：

(1)将所述输入文件按行拆分成多个小文件，该小文件中每一行为一个样本的数字向量，为每一个小文件分配一个映射任务；

(2)在映射阶段，将小文件中每一行向量与所述质心向量文件中每个质心向量进行余弦相似度计算，找出所计算出的余弦相似度最大值对应的向量，作为此行向量的类质心向量，输出这样的键值对：该类质心向量的序号作为键，此行向量作为值；

(3)在归约阶段，将键相同的数字向量进行相加求和并除以它们的个数，得到它们的平均值，输出对应的键和所求的平均值；

(4)将归约阶段输出的内容作为新的质心向量文件，将之前质心向量文件作为旧的质心向量文件，比较新旧两个质心向量文件是否近似相等，比较方法为：将两个文件质心向量序号相同的质心向量进行相减，将相减得到的误差向量，该误差向量中绝对值最大的向量值作为该误差向量的误差值，在所有序号相同向量相减得到的误差向量的误差值中，找出最大的误差值作为质心向量的总误差W，将W与预先设定的阈值Y比价大小，若W小于阈值 Y，则聚类结束，得到最终质心向量文件；若W大于Y，则进行下一遍映射归约直至W小于阈值Y为止，在每一遍映射归约中，将上一遍产生的新的质心向量文件作为此次映射归约的质心向量文件，文本数字向量依旧作为输入文件。

S4.2将所述步骤S4.1聚类最终得到质心向量文件作为质心向量文件，所述步骤S4.1中所述文本数字向量文件作为输入文件，进行一遍映射归约，过程如下：

(3)在归约阶段，直接输出键值对，键则为每个文本向量数据的簇标号, 值为行向量。

优选地，所述骤S4.1中聚类方法包含以下步骤：

S4.1-1、所述步骤S4.1所述总误差W大于所述阈值Y时，进行下一遍映射归约，所述步骤S4.1输入文件依然作为输入文件，所述步骤S4.1新的质心向量文件作为质心向量文件，所述第二遍映射归约过程如下：

(2)在映射阶段，将小文件中每一行向量与所述质心向量文件中每个质心向量进行余弦相似度计算，找出所计算出的余弦相似度最大值对应的向量，作为此行向量的类质心向量，输出如下的键值对：该类质心向量的序号作为键，此行向量作为值；

(4)将归约阶段输出的内容作为新的质心向量文件，将之前质心向量文件作为旧的质心向量文件，比较新旧两个质心向量文件是否近似相等，比较方法为：将两个文件质心向量序号相同的质心向量进行相减，将相减得到的误差向量，该误差向量中绝对值最大的向量值作为该误差向量的误差值，在所有序号相同向量相减得到的误差向量的误差值中，找出最大的误差值作为质心向量的总误差W，将W与预先设定的阈值Y比价大小，若W小于阈值 Y，则聚类结束，得到最终质心向量文件；若W大于Y，则再次进行下一遍映射归约，直至W小于阈值Y为止。

与现有技术相比，本发明的有益效果在于：本发明提供的基于MapReduce 框架下的海量文本快速聚类的方法，改进了传统的K均值初始化算法，借助 Hadoop分布式框架，采用并行计算的方法，有效地提升了在大数据环境下计算文献相似度的效率。

附图说明

图1是本发明基于MapReduce框架下的海量文本快速聚类的方法的整体流程图；

图2是本发明基于MapReduce框架下的海量文本快速聚类的方法的预处理模块的具体流程示意图；

图3是本发明基于MapReduce框架下的海量文本快速聚类的方法的改进 K均值初始化的具体具体流程示意图；

图4是本发明基于MapReduce框架下的海量文本快速聚类的方法的 hadoop框架下聚类方法流程示意图；

图5是本发明基于MapReduce框架下的海量文本快速聚类的方法的文本聚类模块的的具体流程；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图5所示，本发明提供了一种基于MapReduce框架下的海量文本快速聚类的方法(下述以今日头条新闻数据为例进行详细说明)，该方法包括如下步骤，如图1所示：

步骤S1、对海量文本数据在Hadoop分布式环境下进行预处理，对每个文本进行分词，转化成一组分词串；

步骤S2、在Hadoop分布式环境下利用TF-IDF方法对文本的分词串进行特征提取，每条文本形成可供计算机识别的数字向量；

步骤S3、将所述步骤S2得到的所述文本数字向量文件，在Hadoop分布式环境下利用改进的快速初始化K均值聚类算法得到K个初始的质心向量；

步骤S4、将所述步骤S2中所述文本数字向量与所述步骤S3中所述文本质心向量在Hadoop分布式环境下进行聚类，得到文本簇。

如图2所示，所述步骤S1进一步包含以下步骤：

步骤S1.1：将待预处理文本作为输入文件，对输入文件每一行做一遍映射归约；所述映射归约过程如下：

(1)将所述输入文件按行分割成多个小文件，该小文件中每一行由文本号和对应内容组成，为每一个小文件分配一个映射任务；

所述步骤S2中，利用TF-IDF技术提取特征，其中TF-IDF技术是自然语言处理领域中常用的提取特征的技术。

具体地，所述步骤S2进一步包含以下步骤：

步骤S2.1、将分词串文件作为输入文件，对输入文件每一行做一遍映射归约；所述映射归约过程如下：

步骤S2.2、将所述步骤S1.1中分词串文件与S2.1中的词袋文件，利用TF-IDF进行特征提取计算每个分词的得到词频-逆文本频率指数(TF-IDF)；

TF-IDF特征提取计算公式如下：

(TF-IDF)_w＝TF_w*IDF_w

其中，(TF-IDF)_w是分词w的词频-逆文本频率指数。每条文本数字向量为每条文本分词串中各分词的词频-逆文本频率指数组成。

如图3所示，所述步骤S3进一步包含以下步骤：

步骤S3.1将所述海量文本向量中随机抽取一部分样本向量，该样本向量数量为指定K值的三到五倍，其他海量文本为剩余其他向量。

步骤S3.2将所述样本向量中任意选取一向量，命名为C1，计算C1与其他所有剩余样本向量的余弦相似度。

示例地，余弦相似度计算公式如下：

步骤S3.3由所述步骤S3.2的余弦相似度计算结果，找到与所述C1余弦相似度较大的向量，命名Ca，计算Ca与与其他所有剩余样本向量的余弦相似度，找到与所述Ca余弦相似度较大的向量，命名Cmax，与较小的向量，命名Cmin；计算所述Ca与所述Cb的余弦相似度sim(Cmax，Cmin)值，计算该值对应的余弦角度θ；

示例地，余弦角度θ计算如下：

sim(Ca，Cb)＝cosθ

θ＝arccos(sim(Ca，Cmin))

步骤S3.4将步骤S3.3所述余弦角度θ除以指定K值，得到角度间隔θ1，得到如下角度区间划分：

[0，θ₁]，[θ₁，2θ₁]，[2θ₁，3θ₁]，.......,[(k-1)θ₁，kθ₁]，共K个区间。

步骤S3.5选取步骤S3.3所述Ca向量作为参照向量，分别选取步骤S3.4 所述区间进行如下计算：

首先选定首个区间[0，θ₁]，逐个计算Ca与所述步骤S3.2所述其他剩余样本向量的余弦相似度，直到找到一个向量，命名C₁，满足：

cos(0)<sim(Ca,C₁)<＝cos(θ₁),记下向量C₁，停止次轮计算。

依次选定区间[θ₁，2θ₁]，逐个计算Ca与所述步骤S3.2所述其他剩余样本向量的余弦相似度，直到找到一个向量，命名C₂，满足：

cos(θ₁)<sim(Ca,C₂)<＝cos(2θ₁),记下向量C₂，停止次轮计算。

以此类推进行第K次，选定区间[(k-1)θ₁，kθ₁]，逐个计算Ca与所述步骤S3.2所述其他剩余样本向量的余弦相似度，直到找到一个向量，命名 C_k，满足：cos((k-1)θ₁)<sim(Ca,Ck)<＝cos(kθ₁),记下向量C_k，停止此轮计算。

步骤S3.6根据所述步骤S3.5可得到一组向量{C₁，C₂，.....，C_k}，记为初始质心向量；若出现质心向量个数小于K，则缺少所需向量从所述步骤S3.1 所述其他剩余其他向量随机选取。

将所述步骤S2中所得文本数字向量作为输入文件，所述步骤S3中所得文本质心向量作为质心向量文件，质心向量文件每行由质心向量序号与质心向量组成。利用Hadoop的映射归约模型计算文本数据数据向量与质心向量余弦相似度进行聚类。其中，映射归约模型是一种用于并行计算的编程模型，其处理逻辑是先将一组键值对映射成一组新的键值对，然后根据需求指定并发的归约函数。因此，本实施例利用Hadoop中的所述映射归约模型对步骤 S2产生的文本向量输入文件作逐行处理，得到待聚类文本数据与各个质心向量的余弦相似度，确定归属并求出新的质心向量。

如图4所示，所述步骤S4中进一步包含以下步骤：

步骤S4.1，编写映射归约程序具体如下：

(一)对输入文件的每一行作第一遍映射归约，目的是求出新的质心向量，便于后续射归约的运行。图4中，Di表示第i个小文件，Ci表示第i个质心向量的序号，Wi表示该小文件中第i个文本数据向量，Cenj表示新得出的第j个文本质心向量。第一遍映射归约具体流程如下：

(2)在映射阶段，将小文件中每一行向量与所述质心向量文件中每个质心向量进行余弦相似度计算，找出所计算出的余弦相似度最大值对应的向量，作为此行向量的类质心向量，输出如下键值对：该类质心向量的序号作为键，此行向量作为值；

(4)将归约阶段输出的内容作为新的质心向量文件，将之前质心向量文件作为旧的质心向量文件，比较新旧两个质心向量文件是否近似相等，比较方法为：将两个文件质心向量序号相同的质心向量进行相减，将相减得到的误差向量，该误差向量中绝对值最大的向量值作为该误差向量的误差值，在所有序号相同向量相减得到的误差向量的误差值中，找出最大的误差值作为质心向量的总误差W，将W与预先设定的阈值Y比价大小，若W小于阈值 Y，则聚类结束，得到最终质心向量文件；若W大于Y，则进行下一遍映射归约直至W小于阈值Y为止，在每一遍映射归约中，将上一遍产生的新的质心向量文件作为此次映射归约的质心向量文件，文本数字向量依旧作为输入文件，如图5所示。

示例地，若所述步骤S4.1所述总误差W大于所述阈值Y，则进行下一遍映射归约，所述步骤S4.1输入文件依然作为输入文件，所述步骤S4.1新的质心向量文件作为质心向量文件，所述第二遍映射归约过程如下：

(2)在映射阶段，将小文件中每一行向量与所述质心向量文件中每个质心向量进行余弦相似度计算，找出所计算出的余弦相似度最大值对应的向量，作为此行向量的类质心向量，输出这样的键值对：该类质心向量的序号作为键与此行向量作为值；

为便于理解，本发明的说明书将举具体一例来演示本发明的实施过程，如下所述：

待处理文本有10000篇，现展示5篇文本数据如下：

第一篇：诺安增利债券基金获批诺安基金旗下第八只开放式基金———诺安增利债券基金日前获批，将于近日发行。该基金债券类资产的投资比例不低于基金资产的80％，非债券类资产的投资比例合计不超过基金资产的 20％。在投资策略上，诺安增利债券基金追求在风险可控条件下的投资回报，通过“核心———增强”的资产配置模式，建立一个可产生有竞争力业绩回报的低风险端的投资组合。其主要投资的核心类资产包括国债、金融债、短期融资券、企业债、公司债、可转债、央行票据、回购、资产支持证券等固定收益类金融工具；而增强类资产则主要为股票(包括新股申购)、权证等中国证监会允许基金投资的其他非固定收益类金融工具。(小柯)诺安基金旗下第八只开放式基金———诺安增利债券基金日前获批，将于近日发行。该基金债券类资产的投资比例不低于基金资产的80％，非债券类资产的投资比例合计不超过基金资产的20％。在投资策略上，诺安增利债券基金追求在风险可控条件下的投资回报，通过“核心———增强”的资产配置模式，建立一个可产生有竞争力业绩回报的低风险端的投资组合。其主要投资的核心类资产包括国债、金融债、短期融资券、企业债、公司债、可转债、央行票据、回购、资产支持证券等固定收益类金融工具；而增强类资产则主要为股票(包括新股申购)、权证等中国证监会允许基金投资的其他非固定收益类金融工具。

(小柯)

第二篇：金风科技首季业绩增155％基金接过小非的盘每经记者魏玉卿金风科技(002202，收盘价43.8元)今日公布的一季报显示，公司今年一季度的营业总收入为11.47亿元，同比增长94.97％；归属于母公司所有者的净利润为1.96亿元，同比增长155.66％；每股收益为0.2元，净资产收益率为5.01％。公司表示，一季度营业收入大增主要是报告期内销售量同比增加，以及公司合并报表范围同比新增德国VENSYS能源股份公司，该公司一季度实现收入9378万元。同时，公司预计2009年上半年归属于母公司所有者的净利润同比增长190％～220％。值得注意的是，在2008年末，前十大流通股东中有7家为发行限售股解禁股东，共持有5831.75万股，到了今年一季度，前十大流通股东已剩下3家小非，总计持有3034.29万股，而在2008年末持股数超过700万股的NEWHORIZONIVYWINDINVEST－MENTCO.，LTD、北京百庚泛太科技有限公司、北京绵世方达投资咨询有限责任公司以及深圳市百世吉科技有限公司均在今年一季度退出了前十大流通股东之列。与小非大举撤退相反的是基金进驻明显，此次共有7家基金上榜，其中有4家基金新进，包括华安旗下的红利股票型和策略优选分别持有1520万股和843.69 万股分列第一和第八位；上投摩根内需动力在今年一季度买入1352.45万股位列第二大股东；华夏优势增长买入1140.68万股位列第三。另外，在剩下的3家小非中，新疆太阳能科技开发公司在今年一季度减持了37.5万股，目前还持有980.29万股，自然人李德明减持了61.03万股，目前持有750万股。

第三篇：77只股票类基金遭遇净赎回已经披露的基金一季报数据显示，市场回暖并未明显促进股票类基金的赎回有所改善。多数股票类基金在今年一季度仍然被持续地赎回。Wind数据显示，截至昨日，共有97只股票类基金公布了一季报。从基金份额的申赎情况来看，其中有20只基金在当季发生净申购，约占已披露季报基金的两成。余下的77只股票类基金均为净赎回。净申购最多的基金是富国天瑞，一季度被净申购18.48亿份，其次是国泰沪深300，净申购10.69亿份。此外，光大量化、国联安德盛安心和光大新增长 3只基金的净申购也较多，在3亿～7亿份间。其余均净申购数千万至一两亿份不等。基金的申购与基金当季的业绩存在一定的相关性。在富国天瑞等被净申购最多的5只基金中，除国联安德盛安心今年以来业绩增长不足10％外，其余几只基金今年以来也都至少有34％的区间收益。净赎回金额最大的基金是大成沪深300和博时裕富两只指数型基金，尽管业绩都较靠前，但均在今年一季度发生净赎回10亿份以上。不过，由明星基金经理陈戈操刀的富国天益基金由于今年以来净值增长不足9％而遭到了近10亿份的赎回。此外，富国天鼎、工银红利两只基金在今年一季度也都发生了5亿份以上的净赎回。从股票类基金的整体情况看，单只基金净赎回的量较去年四季度稍有缩小，但并不明显，大多数基金的净赎回规模仍然维持在5000万至3亿之间。刘倩

第四篇：[聚焦]基金首季扬眉吐气偏股型最受基民欢迎全景网4月22 日讯59家基金公司旗下444只基金的2009年一季报已经全部披露完毕。根据一季报披露内容，全景网专题小组制作专题《基金首季扬眉吐气吸金近三千亿》，针对一季度基金业绩、规模、持仓情况、基金经理看市等4大板块分别进行剖析，并附基民一季度情绪调查报告：两成基民满意基金一季度表现，偏股型基金当选为最受基民欢迎的基金类型。受益于A股市场一季度的大幅反弹，基金季度财务数据终于扭亏为盈。天相统计数据显示，一季度444只基金累计盈利2961.83亿元，这也是自2007年四季度以来基金首次实现季度盈利。全部基金平均股票仓位为75.34％，按可比口径统计，较2008年底上升超过8个百分点。不过一季度基金整体遭遇净赎回，净赎回份额为2696.14 亿份，赎回比例为10.77％。对于后市，多数基金经理认为通缩阴影基本已经过去，而全球央行数量化宽松必将加大长期通胀压力。虽然二季度存在结构性机会成为共识，但部分基金对于后市的谨慎心态已经相当明显。部分基金甚至认为，在剔除估值较低的银行板块后，市场整体动态估值已经不低，市场结构性泡沫已经开始浮现。针对基金一季度表现，截止4月22日14点，全景网基民情绪调查结果如下。在基民对于一季度基金表现的调查中： 22.31％的基民表示“非常满意”，55.38％的基民表示“一般”，另有22.31％的表示“不满意”。在基金投资中，受基民欢迎的基金类型依次是(多选)：偏股型、指数型、QDII、封闭式、债券型和货币型基金。调查比重分别为44.44％、 26.26％、10.61％、8.59％、6.06％和4.04％。(全景网/基金频道)

第五篇：一季度基金整体遭赎回本报讯(记者邵泽慧)59家基金公司的444 只基金2009年一季报今日披露完毕。天相投顾统计数据显示，2009年一季度全部基金(含QDII)本期收益为2961.83亿元。除了QDII基金，其他类型基金均取得盈利。而随着基金净值的回升，基金整体遭遇赎回。统计数据显示，一季度基金大幅加仓，全部基金平均股票仓位为75.34％，较去年底上升逾8 个百分点。而且股票型基金也由2008年的亏损大户变成了“赚钱机器”，共为投资者赚取了2111.82亿元，而上一季度则亏损1090.67亿元。混合型基金盈利839.26亿元，而上一季度亏损359.77亿元。保本型基金也取得了2.87 亿元的盈利。由于海外市场回暖程度远远没有A股市场快，一季度QDII基金仍亏损1.39亿元。而随着基金净值的回升，基金也遭遇了赎回。净赎回份额为2696.14亿份，赎回比例为10.77％。其中，债券型基金累计净赎回664.45 亿份，货币型基金累计赎回1727.04亿份，高于同期股票型基金和混合型基金的赎回比例。

首先根据步骤S1逐行读取文本将每行内容进行半角向全角转化、大写数字向小写数字转化、大写字母向小写字母转化、去除文本中的表情符号，用jieba分词工具进行分词处理，将得到的分词串去除停用词，示例地，对第一篇文章进行预处理，结果如下：

'诺安','增利','债券','基金','获批','诺安','基金','旗下','第八','开放式',' 基金','诺安','增利','债券','基金','日前','获批','近日','发行','基金','债券','类', '资产','投资','比例','低于','基金','资产','80％','非','债券','类','资产','投资',' 比例','合计','超过','基金','资产','20％','投资','策略','诺安','增利','债券','基金','追求','风险','可控','条件','投资','回报','核心','增强','资产','配置','模式', '建立','竞争力','业绩','回报','低','风险','端的','投资','组合','投资','核心','类', '资产','包括','国债','金融债','短期','融资券','企业债','公司债','可转债','央行 ','票据','回购','资产','支持','证券','固定','收益','类','金融工具','增强','类',' 资产','股票','包括','新股申购','权证','中国证监会','基金','投资','非','固定',' 收益','类','金融工具','小柯','诺安','基金','旗下','第八','开放式','基金','诺安', '增利','债券','基金','日前','获批','近日','发行','基金','债券','类','资产','投资', '比例','低于','基金','资产','80％','非','债券','类','资产','投资','比例','合计',' 超过','基金','资产','20％','投资','策略','诺安','增利','债券','基金','追求','风险','可控','条件','投资','回报','核心','增强','资产','配置','模式','建立','竞争力','业绩','回报','低','风险','端的','投资','组合','投资','核心','类','资产','包括','国债','金融债','短期','融资券','企业债','公司债','可转债','央行','票据',' 回购','资产','支持','证券','固定','收益','类','金融工具','增强','类','资产','股票','包括','新股申购','权证','中国证监会','基金','投资','非','固定','收益','类', '金融工具','小柯'。

根据步骤S2将分词串文件逐行读取，将每行分词串中分词取集合去除重复的分词，再将每行分词串合并在一起，取集合组成词袋，当前词袋如下：

'诺安','增利','债券','基金','获批','旗下','第八','开放式','日前','近日',' 发行','类','资产','投资','比例','低于','80％','非','合计','超过','20％','策略','追求','风险','可控','条件','回报','核心','增强','配置','模式','建立','竞争力','业绩','低','端的','组合','包括','国债','金融债','短期','融资券','企业债','公司债', '可转债','央行','票据','回购','支持','证券','固定','收益','金融工具','股票','新股申购','权证','中国证监会','小柯','金风','科技','首季','增','155％','接过','小非','盘','每经','记者','魏玉卿','002202','收盘价','43.8','元','今日','公布','季报','显示','公司','一季度','营业','总收入','11.47','亿元','同比','增长', '94.97％','归属于','母公司','所有者','净利润','1.96','155.66％','每股','0.2','净资产','收益率','5.01％','收入','大增','报告','期内','销售量','同比增加','合并', '报表','新增','德国','vensys','能源','股份公司','9378','万元','预计','2009','年', '上半年','190％','220％','值得注意','2008','年末','前','十大','流通股东','中有', '家为','限售','股','解禁','股东','持有','5831.75','万股','剩下','家小','总计', '3034.29','持股数','700','mentco','ltd','北京','百庚泛','太','有限公司','绵世方达','咨询','有限责任','深圳市','百世','吉','退出','列','撤退','进驻','共有','家', '上榜','新进','华安','红利','型','优选','1520','843.69','分列','第一','第八位',' 投','摩根','内需','动力','买入','1352.45','位列','华夏','优势','1140.68','第三','非中','新疆','太阳能','科技开发','减持','37.5','980.29','自然人','李德明', '61.03','750','77','遭遇','净','赎回','披露','数据','市场','回暖','并未','有所改善','持续','wind','昨日','97','份额','申','赎','情况','20','当季','发生','申购',' 约','占','两成','余下','最多','富国','天瑞','18.48','亿份','国泰','沪','深','300', '10.69','光大','量化','国联安','德盛','安心','新','亿','间','数千万','一两','相关性','中','今年以来','10％','外','几只','至少','34％','区间','金额','大成','博时裕富','两只','指数','型基金','10','明星','经理','陈戈','操刀','富','国天益','净值','9％','天鼎','工银','整体','单只','量','去年','四季度','稍','缩小','规模', '5000','万至','之间','刘倩','聚焦','扬眉吐气','偏','股型','最受','基民','全景网', '月','22','日讯','59','444','完毕','内容','专题','小组','制作','吸金','三千','持仓','看市','板块','剖析','附','情绪','调查报告','满意','表现','偏股','当选','类型','受益','A股','大幅','反弹','季度','财务数据','终于','扭亏为盈','天相','统计数据','累计','盈利','2961.83','2007','首次','平均','仓位','75.34％','可比','口径','统计','年底','百分点','2696.14','10.77％','后市','通缩','阴影','全球','数量化','宽松','加大','长期','通胀','压力','二季度','结构性','机会','共识','谨慎',' 心态','剔除','估值','银行','动态','不低','泡沫','浮现','截止','日','14','点','调查结果','调查','22.31％','55.38％','另有','受','依次','多选','qdii','封闭式','货币','比重','44.44％','26.26％','10.61％','8.59％','6.06％','4.04％','频道','遭','本报讯','邵泽慧','天','相投','顾','含','本期','基金净值','回升','加仓','去年底',' 逾','亏损','大户','赚钱','机器','投资者','赚取','2111.82','1090.67','混合型', '839.26','359.77','保本','2.87','海外','程度','远远','1.39','664.45','1727.04','高于','同期'......。

根据步骤S2.2，将所述步骤S1.1中分词串文件与S2.1中的词袋文件，利用TF-IDF进行特征提取；

现以第一篇文章为例，一共203个分词，词袋中分词'诺安'出现7次，所以'诺安'的TF为7/203，'诺安'出现的文章篇数为1，一共10000篇文章，所以IDF为log[10000/(1+0.9)]，这里取底数为自然底数e，所以'诺安'的TF-IDF 为：(7/203)ln[10000/(1+0.9)]＝0.294752。依次算出词表中对应的分词的 TF-IDF值作为向量的数值，得到第一篇文本的数值向量：

(0.294752,0.298798,0.198266，......，0,0,0)

根据步骤S3进行改进的K均值初始选取初始质心工作。

步骤S3.1，预设定K为9，随机抽取3K(即27)个样本数据，随机抽取样本为{文章一、文章一百六十、文章两千零六，...文章四千三百}，总文本向量中其他文本向量为剩余其他向量。

步骤S3.2，任意从S3.1样本中取一向量，取文章两千零六向量(命名 C1)，分别计算C1与其余26篇文章的余弦相似度。示例地，计算C1与文章一百六十的余弦相似度，由公式有：

计算结果如下(已从小到大排好序)：

0.0066172764549999995,0.008679861780000001,0.009033901434,0.009646767422,0.00980586819,0.010681630229,0.011000140411999999,0.012149572195999998,0.316530539023,0.31964819587899995,

......

0.32593237643100004,0.32668463251400004,0.351229000768,0.35612302538499996,0.38097660425400004,0.383173826663, 0.390953915925,0.391549675579,0.41017753213600006,0.444268154595, 0.634557626419,0.640920530986,0.9999998515290001

选取较大值(设定第三个)0.009033901434对应的向量为Ca，计算Ca 与与其他所有剩余样本向量的余弦相似度，找到与所述Ca余弦相似度较大的向量Cmax(设定第三个)与较小的向量Cmin(设定倒数第三个)；计算所述Ca与所述Cmin的余弦相似度sim(Ca，Cmin)值，余弦角度θ计算如下：

sim(Ca，Cmin)＝cosθ＝0.007960409881，所以θ＝89.54389729347571°

步骤S3.4将步骤S3.3所述余弦角度θ除以指定K值，得到角度间隔θ₁，θ除以9得θ₁＝9.949321921497301，得到如下角度区间划分： [0,9.949321921497301,19.898643842994602,29.847965764491903, 39.797287685989204,49.746609607486505,59.695931528983806, 69.6452534504811,79.59457537197841,89.54389729347571]。

步骤S3.5选取步骤S3.3所述Cmax向量作为参照向量，分别选取步骤 S3.4所述区间进行如下计算：

选取第一个区间[0,9.949321921497301],将Cmax逐个与其他样本向量进行计算余弦相似度，一旦满足：

cos(0)<sim(Cmax,C₁)<＝cos(9.949321921497301)，记下向量C₁，停止此轮计算。

选取第二个区间[9.949321921497301,19.898643842994602]，将Cmax逐个与其他样本向量进行计算余弦相似度，一旦满足：

cos(9.949321921497301)<sim(Cmax,C₂)<＝cos(19.898643842994602),记下向量C₂，停止此轮计算。

以此类推进行第K次，选定区间[79.59457537197841,89.54389729347571]，将Cmax逐个与其他样本向量进行计算余弦相似度，一旦满足： cos(79.59457537197841)<sim(Cmax,C_k)<＝cos(89.54389729347571),记下向量C_k，停止此轮计算。

步骤S3.6根据所述步骤S3.5可得到一组向量{C1，C2，.....，Ck.}，记为初始质心向量；若出现质心向量个数小于K，则缺少所需向量从所述步骤 S3.1所述其他剩余样本向量随机选取。

步骤S4.1分别将将所述步骤S2中所述文本数字向量与所述步骤S3.6中所得初始质心向量上传到Hadoop分布式文件系统，存放在两个文件下，将所述文本数字向量作为输入文件，所述初始质心向量作为质心向量文件，质心向量文件每行由质心向量序号与质心向量组成。开始进行第一遍映射归约，输出的结果为新的一组产生的质心向量{K₁₁，k₁₂，...，k_1k}。将新产生的质心向量{K₁₁，k₁₂，...，k_1k}与初始质心向量{C₁，C₂，.....，C_k.}相减得到总误差 W₁。

误差W₁计算示例如下：

K₁₁-C₁＝误差向量1，误差向量1为一维向量，该该向量中数值绝对值最大的设为max1；

K₁₂-C₂＝误差向量2，误差向量2为一维向量，该该向量中数值绝对值最大的设为max2；

......

K_1k-C_k＝误差向量k，误差向量k为一维向量，该该向量中数值绝对值最大的设为maxk。

在{max1，max2，.....，maxk}中取最大值为总误差W₁。

若W₁小于阈值Y，则聚类结束，得到最终质心向量文件。若W大于Y，则进行第二遍映射归约，再发到一组新的质心向量{K₂₁，k₂₂，...，k_2k}，将质心向量{K₂₁，k₂₂，...，k_2k}于上一次映射归约质心向量{K₁₁，k₁₂，...，k_1k}相减得到总误差W₂，若W₂小于阈值Y，，则聚类结束。若W₂大于Y，则进行下一遍映射归约，直至所产生的对应的Wx(Wx为第x遍映射归约所得总误差值)小于阈值Y，则结束映射归约。

步骤4.2.1将所述步骤S4.1所述文本数字向量作为输入文件，所述步骤 S4.1聚类最终得到质心向量作为质心向量文件，质心向量文件每行由质心向量序号与质心向量组成；对输入文件的每一行作一遍映射归约。所得到的结果为带上簇标号的文本向量数据。

综上所述，本发明提供一种基于MapReduce框架下的海量文本快速聚类的方法，借助Hadoop分布式框架，采用并行计算的方法，有效地提升了在大数据环境下计算文献相似度的效率，实现快速分类效果。表3是仅用三台计算机的分布式环境与单机环境下的用时情况，所用数据为6万个文本。

表3分布式环境与单机环境用时情况

环境	时间
		.单机	40351.92s(11.2h)
分布式(3台计算机)	8647.03s(2.4h)

其他聚类初始化方法也是可以替换的，不会影响Hadoop下并行计算的实施。使用者可以根据需求选择其他初始化方法。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程不一定是实施本发明所必须的。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.基于MapReduce框架下的海量文本快速聚类的方法，其特征在于，包含以下步骤：

S3、将所述步骤S2得到的所述文本数字向量，在Hadoop分布式环境下利用改进的快速初始化K均值聚类算法得到K个初始的质心向量；

S4、将所述步骤S2中所述文本数字向量与所述步骤S3中所述文本质心向量在Hadoop分布式环境下进行聚类，得到聚类结果；

所述步骤S1进一步包含以下步骤：

(3)在归约阶段，直接输出键值对，得到每一行由每篇文本的分词串组成的分词串文件；

所述步骤S2进一步包含以下步骤：

S2.1、将分词串文件作为输入文件，对输入文件每一行做一遍映射归约；所述映射归约过程如下：

(2)在映射阶段，将每行分词串去除重复分词后的分词取集合，输出一个键值对，键是该文本号，值是取集合后的分词串；

(3)在归约阶段，将每行分词串合并在一起，取集合组成词袋，输出一个键值对，键为1，值为分词串集合组成的词袋，得到一个词袋文件；

S2.2、将所述步骤S1.1中分词串文件与S2.1中的词袋文件，利用TF-IDF进行特征提取；

TF-IDF特征提取计算公式如下：

其中，Y是文本的总数，Y_w是包含分词w的文本个数，IDF_w是分词w的逆文本频率；

(TF-IDF)_w＝TF_w*IDF_w

其中，(TF-IDF)_w是分词w的词频-逆文本频率指数；

所述步骤S3文本数字向量为S2.2中分词串的词频-逆文本频率指数构成；所述步骤S3进一步包含以下步骤：

S3.1将所述步骤S2得到的所述文本数字向量中随机抽取一部分样本向量，该样本向量数量为指定K值的三到五倍，其他海量文本为剩余其他向量；

S3.2将所述S3.1所述样本向量中任意选取一向量，命名为C1，计算C1与样本向量中所有剩余样本向量的余弦相似度；

余弦相似度计算公式如下：

式中，x₁与x₂是两个需要计算的向量，sim(x₁，x₂)是余弦相似度；

S3.3由所述步骤S3.2的余弦相似度计算结果，找到与所述C1余弦相似度较大的向量，命名Ca，计算Ca与其他所有剩余样本向量的余弦相似度，找到与所述Ca余弦相似度较大的向量，命名Cmax，与较小的向量，命名Cmin；计算所述Ca与所述Cmin的余弦相似度sim(Ca，Cmin)值对应的余弦角度θ；

余弦角度θ计算如下：

sim(Ca，Cmin)＝cosθ

θ＝arccos(sim(Ca，Cmin))

S3.4将步骤S3.3所述余弦角度θ除以指定K值，得到角度间隔θ₁，得到如下角度区间划分：

S3.5选取步骤S3.3所述Cmax向量作为参照向量，分别选取步骤S3.4所述区间进行如下计算：

(1)首先选定首个区间[0，θ₁]，逐个计算Cmax与所述其他所有剩余样本向量的余弦相似度，直到找到一个向量，命名C₁，满足：cos(0)<sim(Cmax,C₁)<＝cos(θ₁),记下向量C₁，停止此轮计算；

(2)依次选定区间[θ₁，2θ₁]，逐个计算Cmax与所述其他所有剩余样本向量的余弦相似度，直到找到一个向量，命名C₂，满足：cos(θ₁)<sim(Cmax,C₂)<＝cos(2θ₁),记下向量C₂，停止此轮计算；

(3)以此类推进行第K次，选定区间[(k-1)θ₁，kθ₁]，逐个计算Cmax与所述其他剩余样本向量的余弦相似度，直到找到一个向量，命名C_k，满足：cos((k-1)θ₁)<sim(Cmax,C_k)<＝cos(kθ₁),记下向量C_k，停止此轮计算；

S3.6根据所述步骤S3.5可得到一组向量{C₁，C₂，.....，C_k}，记为初始质心向量；若出现质心向量个数小于K，则缺少向量从所述步骤S3.1所述剩余其他向量随机选取；

所述步骤S4中进一步包含以下步骤：

(3)在归约阶段，将键相同的数字向量进行相加求和并除以它们的个数，得到它们的平均值，输出对应的键和所得的平均值；

(4)将归约阶段输出的内容作为新的质心向量文件，将之前质心向量文件作为旧的质心向量文件，比较新旧两个质心向量文件是否近似相等，比较方法为：将两个文件质心向量序号相同的质心向量进行相减，将相减得到的误差向量，该误差向量中绝对值最大的向量值作为该误差向量的误差值，在所有序号相同向量相减得到的误差向量的误差值中，找出最大的误差值作为质心向量的总误差W，将W与预先设定的阈值Y比较大小，若W小于阈值Y，则聚类结束，得到最终质心向量文件；若W大于Y，则进行下一遍映射归约直至W小于阈值Y为止，在每一遍映射归约中，将上一遍产生的新的质心向量文件作为此次映射归约的质心向量文件，文本数字向量依旧作为输入文件；

(3)在归约阶段，直接输出键值对，键则为每个文本向量数据的簇标号，值为行向量；

所述步骤S4.1中聚类方法包含以下步骤：

S4.1-1、所述步骤S4.1所述总误差W大于所述阈值Y时，进行下一遍映射归约，所述步骤S4.1输入文件依然作为输入文件，所述步骤S4.1新的质心向量文件作为质心向量文件，第二遍映射归约过程如下：

(4)将归约阶段输出的内容作为新的质心向量文件，将之前质心向量文件作为旧的质心向量文件，比较新旧两个质心向量文件是否近似相等，比较方法为：将两个文件质心向量序号相同的质心向量进行相减，将相减得到的误差向量，该误差向量中绝对值最大的向量值作为该误差向量的误差值，在所有序号相同向量相减得到的误差向量的误差值中，找出最大的误差值作为质心向量的总误差W，将W与预先设定的阈值Y比较大小，若W小于阈值Y，则聚类结束，得到最终质心向量文件；若W大于Y，则再次进行下一遍映射归约，直至W小于阈值Y为止。