CN106446276A

CN106446276A - 多数据对象的关联MapReduce挖掘方法

Info

Publication number: CN106446276A
Application number: CN201610920391.8A
Authority: CN
Inventors: 常毅
Original assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Current assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-02-22

Abstract

一种多数据对象的关联MapReduce挖掘方法，一、采集大数据包含主帖及回帖类关联数据的多对象文档；二、由于回帖数量较大，存储在HDFS时采用主帖和每一条回帖分别为一条数据的形式存储，并使用附加字段rel_type标明类型，使用c_url字段来标识回帖所对应的主帖内容；三、对存储于HDFS的主回帖类多对象数据进行MapReduce分析，需要对某些主帖的回帖进行打标签的工作；四、进行第一轮MapReduce，对主帖进行打标签，筛出所指定的主帖；并将这部分主帖及其主帖标签输出到HDFS，存储为中间文件；五、进行第二轮MapReduce，对回帖进行打标签，但首先对回帖进行过滤，只有第一轮符合条件的主帖的回帖，才能进入后续的数据分析挖掘的过程；六、找到符合条件的回帖，将此回帖和对应的主帖一同输出到结果集中。

Description

多数据对象的关联MapReduce挖掘方法

技术领域

本发明涉及计算机信息技术领域，具体涉及一种多数据对象的关联MapReduce挖掘方法。

背景技术

大数据类的数据，是进行舆情分析的重要数据源，这类数据的特征是：主帖类数据少，但每条主帖所跟随的回帖类数据非常多，因此，在数据采集时，一般很难将主帖和其所有回帖存储在同一个数据块中，取而代之的，是将主帖存储为一条数据，每条回帖各存储为一条数据，通过相关的附加字段来标识其数据类型，并通过url记录回帖所属的主帖。

但这样的数据存储格式，就造成了在数据挖掘期间的困难，数据挖掘往往需要将主帖和回帖关联在一起进行信息分析和标引，例如，想知道提到“NBA”的所有主帖，球迷们在回帖中表达的心情都有哪几类？这类数据挖掘工作，在互联网海量数据当中，如何将主帖和回帖通过MapReduce来关联起来，并将特定数据挑出，进行数据分析和打标签，就是本专利所解决的问题。

发明内容

本发明的目的是针对现有的技术存在的不足，提出了一种工作效率高的多数据对象的关联MapReduce挖掘方法。

本发明所解决的技术问题采用以下技术方案来实现一种多数据对象的关联MapReduce挖掘方法，包括如下步骤：

步骤一、采集大数据包含主帖及回帖类关联数据的多对象文档；

步骤二、由于回帖数量较大，存储在HDFS时采用主帖和每一条回帖分别为一条数据的形式存储，并使用附加字段rel_type标明类型，使用c_url字段来标识回帖所对应的主帖内容；

步骤三、对存储于HDFS的主回帖类多对象数据进行MapReduce分析，需要对某些主帖的回帖进行打标签的工作；

步骤四、进行第一轮MapReduce，对主帖进行打标签，筛出所指定的主帖；并将这部分主帖及其主帖标签输出到HDFS，存储为中间文件；

步骤五、进行第二轮MapReduce，对回帖进行打标签，但首先对回帖进行过滤，只有第一轮符合条件的主帖的回帖，才能进入后续的数据分析挖掘的过程；

步骤六、找到符合条件的回帖，将此回帖和对应的主帖一同输出到结果集中。

本发明的有益效果为：提出了一种多数据对象的关联MapReduce挖掘方法，对于海量数据中，存在关联关系的两个对象，采取了两轮MapReduce的方法，对数据进行了关联，并完成关联信息挖掘分析的目的，由于每轮所读取的数据相互独立，且使用MapReduce手段进行归并和排序，使从海量数据中挑选关联信息的工作效率大大加快，更高效的完成数据统计分析工作。

具体实施方式

本发明的多数据对象的关联MapReduce挖掘方法包括以下步骤：

本发明还可以采用以下技术措施：

1.步骤2中，对于主帖数据，使用url作为唯一键值进行存储；对回帖数据，使用主帖url+作者+发布时间作为唯一键值进行存储；且在存储时，增加rel_type字段到数据中，主帖对应m，回帖对应c；另外，在存储回帖数据时，额外增加c_url字段，用于存储主帖url，便于后期挖掘时进行主帖关联。

2.在步骤4中，对符合条件的主帖进行输出，为便于步骤5筛选回帖数据，会输出几类数据：a，主帖url列表数据；b，主帖标引结果数据；c，主帖原文数据。其中a、c为HDFS文件，按一定大小分块存储；b为HBASE临时表；a中除了记录主帖url外，还记录了其在c中的块名称和偏移量。

3.在步骤5中，MAP首先加载步骤4生成的的临时数据a，读取所有回帖数据时，根据a的列表进行数据筛选，只有符合条件主帖的回帖，才会进行数据分析和打标签的工作，给回帖打标签是需要获取主帖上一轮打上的标签，因此需要查询步骤D的b数据，由于HBASE查询速度较慢，因此在内存中开辟了一块能存储5万条数据的空间，用于作为b数据的缓存，缓存失效前若相同主帖的回帖再次输入，则可以省去hbase查询。

4.在步骤5中，Map对特定的回帖数据进行标引后，会以其主帖url作为Reduce中间的混排键值，这样在Reduce中就会以主帖为线索，将所有回帖聚合到一起，在这里进行结果数据的输出。

另外，在步骤5，输出结果数据时，需要主帖的原文信息和回帖一起输出，此时可以从步骤4中的c数据获取，由于4和5步骤的Reduce使用的混排键值一致，排序方式一致，因此在一个Reduce进程内，所读取的c数据的顺序是固定的，c数据虽然是HDFS文件，但对于Reduce来说，就同于顺序读取，大大加快了查找原文的速度。

本发明提出了一种多数据对象的关联MapReduce挖掘方法，对于海量数据中，存在关联关系的两个对象，采取了两轮MapReduce的方法，对数据进行了关联，并完成关联信息挖掘分析的目的，由于每轮所读取的数据相互独立，且使用MapReduce手段进行归并和排序，使从海量数据中挑选关联信息的工作效率大大加快，更高效的完成数据统计分析工作。

所属领域的普通技术人员应当理解：以上，所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、同替换、改进，均应包含在本发明的保护范围之内。

Claims

1.一种多数据对象的关联MapReduce挖掘方法，其特征在于：包括如下步骤：