CN106446276A - 多数据对象的关联MapReduce挖掘方法 - Google Patents
多数据对象的关联MapReduce挖掘方法 Download PDFInfo
- Publication number
- CN106446276A CN106446276A CN201610920391.8A CN201610920391A CN106446276A CN 106446276 A CN106446276 A CN 106446276A CN 201610920391 A CN201610920391 A CN 201610920391A CN 106446276 A CN106446276 A CN 106446276A
- Authority
- CN
- China
- Prior art keywords
- signed
- returned
- sender
- data
- money order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Abstract
一种多数据对象的关联MapReduce挖掘方法,一、采集大数据包含主帖及回帖类关联数据的多对象文档;二、由于回帖数量较大,存储在HDFS时采用主帖和每一条回帖分别为一条数据的形式存储,并使用附加字段rel_type标明类型,使用c_url字段来标识回帖所对应的主帖内容;三、对存储于HDFS的主回帖类多对象数据进行MapReduce分析,需要对某些主帖的回帖进行打标签的工作;四、进行第一轮MapReduce,对主帖进行打标签,筛出所指定的主帖;并将这部分主帖及其主帖标签输出到HDFS,存储为中间文件;五、进行第二轮MapReduce,对回帖进行打标签,但首先对回帖进行过滤,只有第一轮符合条件的主帖的回帖,才能进入后续的数据分析挖掘的过程;六、找到符合条件的回帖,将此回帖和对应的主帖一同输出到结果集中。
Description
技术领域
本发明涉及计算机信息技术领域,具体涉及一种多数据对象的关联MapReduce挖掘方法。
背景技术
大数据类的数据,是进行舆情分析的重要数据源,这类数据的特征是:主帖类数据少,但每条主帖所跟随的回帖类数据非常多,因此,在数据采集时,一般很难将主帖和其所有回帖存储在同一个数据块中,取而代之的,是将主帖存储为一条数据,每条回帖各存储为一条数据,通过相关的附加字段来标识其数据类型,并通过url记录回帖所属的主帖。
但这样的数据存储格式,就造成了在数据挖掘期间的困难,数据挖掘往往需要将主帖和回帖关联在一起进行信息分析和标引,例如,想知道提到“NBA”的所有主帖,球迷们在回帖中表达的心情都有哪几类?这类数据挖掘工作,在互联网海量数据当中,如何将主帖和回帖通过MapReduce来关联起来,并将特定数据挑出,进行数据分析和打标签,就是本专利所解决的问题。
发明内容
本发明的目的是针对现有的技术存在的不足,提出了一种工作效率高的多数据对象的关联MapReduce挖掘方法。
本发明所解决的技术问题采用以下技术方案来实现一种多数据对象的关联MapReduce挖掘方法,包括如下步骤:
步骤一、采集大数据包含主帖及回帖类关联数据的多对象文档;
步骤二、由于回帖数量较大,存储在HDFS时采用主帖和每一条回帖分别为一条数据的形式存储,并使用附加字段rel_type标明类型,使用c_url字段来标识回帖所对应的主帖内容;
步骤三、对存储于HDFS的主回帖类多对象数据进行MapReduce分析,需要对某些主帖的回帖进行打标签的工作;
步骤四、进行第一轮MapReduce,对主帖进行打标签,筛出所指定的主帖;并将这部分主帖及其主帖标签输出到HDFS,存储为中间文件;
步骤五、进行第二轮MapReduce,对回帖进行打标签,但首先对回帖进行过滤,只有第一轮符合条件的主帖的回帖,才能进入后续的数据分析挖掘的过程;
步骤六、找到符合条件的回帖,将此回帖和对应的主帖一同输出到结果集中。
本发明的有益效果为:提出了一种多数据对象的关联MapReduce挖掘方法,对于海量数据中,存在关联关系的两个对象,采取了两轮MapReduce的方法,对数据进行了关联,并完成关联信息挖掘分析的目的,由于每轮所读取的数据相互独立,且使用MapReduce手段进行归并和排序,使从海量数据中挑选关联信息的工作效率大大加快,更高效的完成数据统计分析工作。
具体实施方式
本发明的多数据对象的关联MapReduce挖掘方法包括以下步骤:
步骤一、采集大数据包含主帖及回帖类关联数据的多对象文档;
步骤二、由于回帖数量较大,存储在HDFS时采用主帖和每一条回帖分别为一条数据的形式存储,并使用附加字段rel_type标明类型,使用c_url字段来标识回帖所对应的主帖内容;
步骤三、对存储于HDFS的主回帖类多对象数据进行MapReduce分析,需要对某些主帖的回帖进行打标签的工作;
步骤四、进行第一轮MapReduce,对主帖进行打标签,筛出所指定的主帖;并将这部分主帖及其主帖标签输出到HDFS,存储为中间文件;
步骤五、进行第二轮MapReduce,对回帖进行打标签,但首先对回帖进行过滤,只有第一轮符合条件的主帖的回帖,才能进入后续的数据分析挖掘的过程;
步骤六、找到符合条件的回帖,将此回帖和对应的主帖一同输出到结果集中。
本发明还可以采用以下技术措施:
1.步骤2中,对于主帖数据,使用url作为唯一键值进行存储;对回帖数据,使用主帖url+作者+发布时间作为唯一键值进行存储;且在存储时,增加rel_type字段到数据中,主帖对应m,回帖对应c;另外,在存储回帖数据时,额外增加c_url字段,用于存储主帖url,便于后期挖掘时进行主帖关联。
2.在步骤4中,对符合条件的主帖进行输出,为便于步骤5筛选回帖数据,会输出几类数据:a,主帖url列表数据;b,主帖标引结果数据;c,主帖原文数据。其中a、c为HDFS文件,按一定大小分块存储;b为HBASE临时表;a中除了记录主帖url外,还记录了其在c中的块名称和偏移量。
3.在步骤5中,MAP首先加载步骤4生成的的临时数据a,读取所有回帖数据时,根据a的列表进行数据筛选,只有符合条件主帖的回帖,才会进行数据分析和打标签的工作,给回帖打标签是需要获取主帖上一轮打上的标签,因此需要查询步骤D的b数据,由于HBASE查询速度较慢,因此在内存中开辟了一块能存储5万条数据的空间,用于作为b数据的缓存,缓存失效前若相同主帖的回帖再次输入,则可以省去hbase查询。
4.在步骤5中,Map对特定的回帖数据进行标引后,会以其主帖url作为Reduce中间的混排键值,这样在Reduce中就会以主帖为线索,将所有回帖聚合到一起,在这里进行结果数据的输出。
另外,在步骤5,输出结果数据时,需要主帖的原文信息和回帖一起输出,此时可以从步骤4中的c数据获取,由于4和5步骤的Reduce使用的混排键值一致,排序方式一致,因此在一个Reduce进程内,所读取的c数据的顺序是固定的,c数据虽然是HDFS文件,但对于Reduce来说,就同于顺序读取,大大加快了查找原文的速度。
本发明提出了一种多数据对象的关联MapReduce挖掘方法,对于海量数据中,存在关联关系的两个对象,采取了两轮MapReduce的方法,对数据进行了关联,并完成关联信息挖掘分析的目的,由于每轮所读取的数据相互独立,且使用MapReduce手段进行归并和排序,使从海量数据中挑选关联信息的工作效率大大加快,更高效的完成数据统计分析工作。
所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、同替换、改进,均应包含在本发明的保护范围之内。
Claims (1)
1.一种多数据对象的关联MapReduce挖掘方法,其特征在于:包括如下步骤:
步骤一、采集大数据包含主帖及回帖类关联数据的多对象文档;
步骤二、由于回帖数量较大,存储在HDFS时采用主帖和每一条回帖分别为一条数据的形式存储,并使用附加字段rel_type标明类型,使用c_url字段来标识回帖所对应的主帖内容;
步骤三、对存储于HDFS的主回帖类多对象数据进行MapReduce分析,需要对某些主帖的回帖进行打标签的工作;
步骤四、进行第一轮MapReduce,对主帖进行打标签,筛出所指定的主帖;并将这部分主帖及其主帖标签输出到HDFS,存储为中间文件;
步骤五、进行第二轮MapReduce,对回帖进行打标签,但首先对回帖进行过滤,只有第一轮符合条件的主帖的回帖,才能进入后续的数据分析挖掘的过程;
步骤六、找到符合条件的回帖,将此回帖和对应的主帖一同输出到结果集中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610920391.8A CN106446276A (zh) | 2016-10-21 | 2016-10-21 | 多数据对象的关联MapReduce挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610920391.8A CN106446276A (zh) | 2016-10-21 | 2016-10-21 | 多数据对象的关联MapReduce挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106446276A true CN106446276A (zh) | 2017-02-22 |
Family
ID=58176524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610920391.8A Pending CN106446276A (zh) | 2016-10-21 | 2016-10-21 | 多数据对象的关联MapReduce挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446276A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346970A1 (en) * | 2012-06-26 | 2013-12-26 | Wal-Mart Stores, Inc. | Systems and methods for event stream processing |
CN103902674A (zh) * | 2014-03-19 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 特定主题的评论数据的采集方法和装置 |
CN104573124A (zh) * | 2015-02-09 | 2015-04-29 | 山东大学 | 一种基于并行化关联规则算法的教育云应用统计方法 |
-
2016
- 2016-10-21 CN CN201610920391.8A patent/CN106446276A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346970A1 (en) * | 2012-06-26 | 2013-12-26 | Wal-Mart Stores, Inc. | Systems and methods for event stream processing |
CN103902674A (zh) * | 2014-03-19 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 特定主题的评论数据的采集方法和装置 |
CN104573124A (zh) * | 2015-02-09 | 2015-04-29 | 山东大学 | 一种基于并行化关联规则算法的教育云应用统计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342404A1 (en) | System and method for indexing electronic discovery data | |
CN109446344B (zh) | 一种基于大数据的智能分析报告自动生成系统 | |
US20220342875A1 (en) | Data preparation context navigation | |
CN103345484B (zh) | 基于动态域的报表处理系统及方法 | |
CN102508880B (zh) | 一种文件合并方法及分解方法 | |
CN102207948B (zh) | 一种事件陈述句素材库的生成方法 | |
WO2015109250A1 (en) | CREATING NoSQL DATABASE INDEX FOR SEMI-STRUCTURED DATA | |
CN102831214A (zh) | 时间序列搜索引擎 | |
CN109753502B (zh) | 一种基于NiFi的数据采集方法 | |
CN104166651A (zh) | 基于对同类数据对象整合的数据搜索的方法和装置 | |
CN102169491B (zh) | 一种多数据集中重复记录动态检测方法 | |
CN102314485A (zh) | 哈希表添加、查找和删除方法及装置 | |
CN107992492B (zh) | 一种数据区块的存储方法、读取方法、其装置及区块链 | |
CN102566945A (zh) | 一种实现图书自动组稿按需印刷的方法和系统 | |
Thomale | Interpreting MARC: where’s the bibliographic data? | |
CN105975495A (zh) | 大数据的存储、搜索方法及装置 | |
CN101963993A (zh) | 一种数据库单表记录快速查找的方法 | |
WO2021055868A1 (en) | Associating user-provided content items to interest nodes | |
CN101441645A (zh) | 技术数据分析的系统与方法 | |
CN108874814A (zh) | 法律文书的处理方法及装置 | |
CN106446276A (zh) | 多数据对象的关联MapReduce挖掘方法 | |
CN112214494B (zh) | 检索方法及装置 | |
Cai et al. | Research on tracking and tracing bitcoin fund flows | |
CN114218347A (zh) | 多个文件内容的快速索引查找方法 | |
US20170323015A1 (en) | Automated metadata cleanup and distribution platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170222 |
|
WD01 | Invention patent application deemed withdrawn after publication |