CN104036039B

CN104036039B - 一种数据的并行处理方法和系统

Info

Publication number: CN104036039B
Application number: CN201410307198.8A
Authority: CN
Inventors: 亓开元; 赵仁明; 辛国茂; 房体盈
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Shanghai Wave Cloud Computing Service Co Ltd
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2017-09-29
Anticipated expiration: 2034-06-30
Also published as: CN104036039A

Abstract

本发明公开了一种数据的并行处理方法，包括：一个或多个Map节点读取账户日志数据的分片数据，从分片数据中选出状态持续时间满足查询日期要求的候选数据记录，生成所选出的候选数据记录的第一输出参数和第二输出参数；第一输出参数至少包括账户ID，第二输出参数至少包括：状态开始日、状态结束日和状态值；一个或多个Reduce节点读取Map节点处理完的不同候选数据记录，根据候选数据记录的第一输出参数和第二输出参数分别生成各账户在查询日期范围内的完整历史状态记录；第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。本发明能提高大规模日志数据的处理效率。本发明还公开了一种数据的并行处理系统。

Description

一种数据的并行处理方法和系统

技术领域

本发明涉及大数据处理技术领域，尤其涉及的是一种数据的并行处理方法和系统。

背景技术

随着人类社会全面进入信息时代，数据成为与水、石油同等重要的战略资源。通过挖掘海量数据，能够使政府和企业的运行决策建立在更加科学的依据基础上，提高决策效率、危机应对能力和公共服务水平。

然而，大数据虽然极具价值，但由于类型复杂、规模巨大，传统的数据仓库和分布式处理技术都有特定的短板，面临着持续可扩展和天价成本等问题。例如，数据仓库中常用的记录某个对象行为的历史状态数据，在大数据时代随着对象数量(如客户)的急速增加，以及每个处理对象行为(如客户交易)的迅速增加，规模成爆炸式增长。为此，传统数据仓库定义了拉链表结构，记录一个对象从开始到当前状态的所有变化的信息。其中，对于对象的某个状态，用开始时间(begin date)和结束时间(end date)确定该状态的持续时间；对于当前状态，记录开始时间，并设定结束时间为一个预设的最大时间(如9999-12-31)，这种状态称为开链；对于过去状态，则记录开始时间和结束时间，称为闭链。这样，通过保留一份全量数据，只对每天有状态变化的对象及时闭链和生成当前状态的开链数据作为增量数据，避免了按每天都记录所有对象状态造成的海量存储的问题。

采用拉链表结构生成全量日志数据和增量日志数据的存储方式的代价是增加了查询处理的复杂性。传统数据仓库依托于并行关系数据库引擎实现，虽然易于用户操作和使用，但关系数据模型固有的锁、事务、完整性验证等强结构性特征制约了面向大规模数据的并行处理能力，并且受制于昂贵的软硬件设施，数据的存储和处理成本较高。

针对此挑战，当前新兴的以MapReduce为代表的大数据处理技术采用大量廉价、低端服务器的搭建，通过横向扩展的无共享架构提升整体性能，能够达到接近线性的伸缩能力。但是，MapReduce缺乏类似SQL的描述式语义，开发人员需要自行实现算法细节，并考虑查询优化、负载均衡、数据归并和排序方式等问题。

因此，如何利用新兴的数据处理技术，提高对面向大数据的日志数据进行处理的效率、降低数据处理成本，是需要解决的问题。

发明内容

本发明所要解决的技术问题是提供一种数据的并行处理方法和系统，能够提高大规模日志数据的处理效率，保障数据处理的可扩展性。

为了解决上述技术问题，本发明提供了一种数据的并行处理方法，该方法包括：

一个或多个Map节点读取账户日志数据的分片数据，从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，生成所选出的候选数据记录的第一输出参数和第二输出参数；其中，所述候选数据记录的第一输出参数至少包括账户ID，所述第二输出参数设定为账户状态信息，所述账户状态信息至少包括：状态开始日、状态结束日和状态值；

一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录，根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录；其中，第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。

进一步地，该方法还包括下述特点：

在一个或多个Map节点读取账户日志数据的分片数据之前，还包括：

将全量日志数据和截止到查询日期终止日当天的增量日志数据确定为账户日志数据的读取范围；

将属于该读取范围内的账户日志数据分片，建立每一个分片与各Map节点的映射关系；其中，所述映射关系用于供所述Map节点根据所述映射关系读取对应的分片数据。

进一步地，该方法还包括下述特点：

从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，包括：

如查询日期是单日，则从读取的分片数据中选出状态开始日小于或等于所述查询日期且状态结束日大于所述查询日期的数据作为候选数据记录。

进一步地，该方法还包括下述特点：

根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录，包括：

如查询日期是单日，则根据所述候选数据记录的第一输出参数遍历同一个账户的候选数据记录，将第二输出参数中状态开始日最晚的候选数据记录作为最终的查询结果进行输出。

进一步地，该方法还包括下述特点：

如查询日期是连续多日，则从读取的分片数据中选出满足下述条件中任意一个条件的数据作为候选数据记录；

所述条件之一为：数据的状态开始日小于或等于所述查询日期起始日且状态结束日大于所述查询日期起始日、数据的状态起始日小于或等于所述查询日期终止日且状态结束日大于或等于所述查询日期终止日、或数据的状态起始日大于所述查询日期起始日且状态结束日小于所述查询日期终止日。

进一步地，该方法还包括下述特点：

如查询日期是连续多日，则根据所述候选数据记录的第一输出参数遍历同一个账户的候选数据记录，如第一输出参数相同的候选数据记录数目为一条，则直接输出该条候选数据记录，如第一输出参数相同的候选数据记录数目多于一条，则选出一条闭链数据进行输出；

其中，所述候选数据记录的第一输出参数还包括状态开始日。

进一步地，该方法还包括下述特点：

一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录之前，还包括：

计算每一条候选数据记录的第一参数中账户ID的哈希值，建立所述哈希值与所述Reduce节点的映射关系；其中，所述映射关系用于供所述Reduce节点根据所述映射关系读取对应的候选数据记录。

为了解决上述技术问题，本发明还提供了一种数据的并行处理系统，包括：

Map处理模块，包括一个或多个Map节点；各Map节点用于读取账户日志数据的分片数据，从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，生成所选出的候选数据记录的第一输出参数和第二输出参数；其中，所述候选数据记录的第一输出参数至少包括账户ID，所述第二输出参数设定为账户状态信息，所述账户状态信息至少包括：状态开始日、状态结束日和状态值；

Reduce处理模块，包括一个或多个Reduce节点；各Reduce节点用于读取所述Map节点处理完毕的不同候选数据记录，根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录；其中，第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。

进一步地，该系统还包括下述特点：

Map处理模块还包括路由模块；

所述路由模块，用于在一个或多个Map节点读取账户日志数据的分片数据之前，将全量日志数据和截止到查询日期终止日当天的增量日志数据确定为账户日志数据的读取范围；将属于该读取范围内的账户日志数据分片，建立每一个分片与各Map节点的映射关系；其中，所述映射关系用于供所述Map节点根据所述映射关系读取对应的分片数据。

进一步地，该系统还包括下述特点：

所述Map节点用于从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，包括：如查询日期是单日，则从读取的分片数据中选出状态开始日小于或等于所述查询日期且状态结束日大于所述查询日期的数据作为候选数据记录。

进一步地，该系统还包括下述特点：

所述Reduce节点用于根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录，包括：如查询日期是单日，则根据所述候选数据记录的第一输出参数遍历同一个账户的候选数据记录，将第二输出参数中状态开始日最晚的候选数据记录作为最终的查询结果进行输出。

进一步地，该系统还包括下述特点：

所述Map节点用于从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，包括：如查询日期是连续多日，则从读取的分片数据中选出满足下述条件中任意一个条件的数据作为候选数据记录；

进一步地，该系统还包括下述特点：

所述Reduce节点用于根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录，包括：

进一步地，该系统还包括下述特点：

所述Reduce处理模块还包括路由模块；

所述路由模块，用于在一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录之前，计算每一条候选数据记录的第一参数中账户ID的哈希值，建立所述哈希值与所述Reduce节点的映射关系；其中，所述映射关系用于供所述Reduce节点根据所述映射关系读取对应的候选数据记录。

与现有技术相比，本发明提供的一种数据的并行处理方法和系统，基于MapReduce处理架构，Map阶段通过各Map节点并行读取数据并提取特征值作为参数对(第一输出参数和第二输出参数)进行输出，Reduce阶段通过各Reduce节点并行读取Map阶段的处理结果，利用数据的输出参数进行路由、排序、合并处理，能够快速处理大规模日志数据，保障数据处理的可扩展性。

附图说明

图1为本发明实施例的一种数据的并行处理方法的流程图。

图2为本发明实施例的一种数据的并行处理系统的结构示意图。

图3为本发明应用示例中基于MapReduce的历史状态日志处理架构。

图4为本发明应用示例中查询日期起止时间区间与日志数据的状态起止时间区间的覆盖关系示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

如图1所示，本发明实施例提供了一种数据的并行处理方法，该方法包括：

S10，一个或多个Map节点读取账户日志数据的分片数据，从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，生成所选出的候选数据记录的第一输出参数和第二输出参数；其中，所述候选数据记录的第一输出参数至少包括账户ID，所述第二输出参数设定为账户状态信息，所述账户状态信息至少包括：状态开始日、状态结束日和状态值；

S20，一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录，根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录；其中，第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。

该方法还可以包括下述特点：

优选地，在一个或多个Map节点读取账户日志数据的分片数据之前，还包括：

根据查询日期确定账户日志数据的读取范围，包括：将全量日志数据和截止到查询日期终止日当天的增量日志数据确定为账户日志数据的读取范围；将属于该读取范围内的账户日志数据分片，建立每一个分片与各Map节点的映射关系；其中，所述映射关系用于供所述Map节点根据所述映射关系读取对应的分片数据。

优选地，从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，包括：

优选地，一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录之前，还包括：

优选地，根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录，包括：

如查询日期是连续多日，则根据所述候选数据记录的第一输出参数遍历同一个账户的候选数据记录，如第一输出参数相同的候选数据记录数目为一条，则直接输出该条候选数据记录，如第一输出参数相同的候选数据记录数目多于一条，则选出一条闭链数据进行输出；其中，所述候选数据记录的第一输出参数还包括状态开始日。

如图2所示，本发明实施例提供了一种数据的并行处理系统，包括：

该系统还可以包括下述特点：

优选地，Map处理模块还包括路由模块，用于在一个或多个Map节点读取账户日志数据的分片数据之前，将全量日志数据和截止到查询日期终止日当天的增量日志数据确定为账户日志数据的读取范围；将属于该读取范围内的账户日志数据分片，建立每一个分片与各Map节点的映射关系；其中，所述映射关系用于供所述Map节点根据所述映射关系读取对应的分片数据。

优选地，所述Map节点用于从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录，包括：

如查询日期是连续多日，则从读取的分片数据中选出满足下述条件中任意一个条件的数据作为候选数据记录；所述条件之一为：数据的状态开始日小于或等于所述查询日期起始日且状态结束日大于所述查询日期起始日、数据的状态起始日小于或等于所述查询日期终止日且状态结束日大于或等于所述查询日期终止日、或数据的状态起始日大于所述查询日期起始日且状态结束日小于所述查询日期终止日。

优选地，所述Reduce节点用于根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录，包括：

如查询日期是连续多日，则根据所述候选数据记录的第一输出参数遍历同一个账户的候选数据记录，根据第二输出参数中的状态开始日对所述候选数据记录进行分组，如所述候选数据记录分组中只包含一条候选数据记录，则直接输出该候选数据记录，如所述候选数据记录分组中包含多条候选数据记录，则选出一条闭链数据进行输出；其中，所述候选数据记录的第一输出参数还包括状态开始日。

优选地，所述Reduce处理模块还包括路由模块；

应用示例

表1所示为多个账户的原始历史状态日志，包括2012年的全量数据以及2013年1月1日和2日的增量数据。

表1

其中，对于每一条数据记录，状态结束日期为预设最大日期“9999/12/31”的是开链数据，状态结束日期不是预设最大日期“9999/12/31”的是闭链数据。

上述查询处理可以针对查询日期的特点分为两种：一种是针对单日的查询处理，另一种是针对一个时间段(连续多日)的查询处理。

(一)针对单日的查询处理

这种情况输入的查询日期为一个查询日(query time)，也即，查询日期起始日和终止日是同一天，查询任务是查询该日所有账户的状态，查询的处理过程如下：

只读取全量文件以及截至到查询日当天的增量文件，以控制待处理数据规模；一个或多个Map节点对所有的数据进行过滤，选择符合如下条件(条件一)的数据，输出该数据的<账户id，状态〉；

其中，条件一为：状态开始日小于或等于所述查询日期起始日且状态结束日大于所述查询日期起始日，条件一可以表示为下式：

状态起始日(begin date)<＝查询日(query time)<状态结束日(end date)；

上述MapReduce算法的执行过程如附图3所示：将输入的大规模日志文件分成若干分片交给Map节点并行处理，Map阶段通过过滤减少了进一步处理的数据，处理完成后根据账户ID的哈希(Hash)值(将账户ID针对Reduce节点数量取模获得账户ID的哈希值)分组并路由给多个Reduce节点并行处理，提高了处理的可扩展性。

表2所示为查询2013年1月2日各账户历史状态的候选数据记录。

表2

表3所示为查询2013年1月2日各账户历史状态的最终结果。

表3

Reduce阶段选出同一个账户id中状态起始日(begin date)最大的数据输出。也即，Reduce逻辑是：对于某一个账户id，若候选数据记录只有一条，则输出唯一一条数据记录；若候选数据记录有多条，则输出状态起始时间最晚的一条。

(二)针对连续多日的查询处理

这种情况输入的查询日期为一个起始日(start time)和一个终止日(overtime)，查询任务是查询起始日到终止日所有账户的状态，查询的处理过程如下：

读取全量文件以及截至到查询日期终止日当天的增量文件；一个或多个Map节点对所有的数据进行过滤，选择符合如下条件中任意一个条件(条件二)的数据，输出该数据的<账户id，状态〉；

其中，所述条件二之一为：数据的状态开始日小于或等于所述查询日期起始日且状态结束日大于所述查询日期起始日、数据的状态起始日小于或等于所述查询日期终止日且状态结束日大于或等于所述查询日期终止日、或数据的状态起始日大于所述查询日期起始日且状态结束日小于所述查询日期终止日；

在上述算法中，Map阶段采用区间覆盖的设计方式，如图4所示，条件二的设置能够有效过滤出符合条件的数据，保证历史状态完整性；条件二包括以下三种情况：

(1)状态开始日beginDate<＝查询开始日startTime<状态结束日endDate；

(2)查询开始日startTime<状态开始日beginDate且查询终止日overTime>状态结束日endDate；

(3)状态开始日beginDate<＝查询终止日overTime<＝状态结束日endDate；

如图3所示，将输入的大规模日志文件分成若干分片交给Map节点并行处理，Map阶段通过过滤减少了进一步处理的数据，处理完成后根据账户ID的哈希(Hash)值(将账户ID针对Reduce节点数量取模获得账户ID的哈希值)分组并路由给多个Reduce节点并行处理，提高了处理的可扩展性。

表4所示为查询2012年9月1日到2013年1月2日各账户历史状态的候选数据记录。

表5所示为查询2012年9月1日到2013年1月2日各账户历史状态的最终结果。

Reduce阶段的逻辑是：对于任一账户id，如状态起始日相同的候选数据记录数目为一条，则直接输出该条候选数据记录，如状态起始日相同的候选数据记录数目多于一条，则选出一条闭链数据进行输出

上述数据处理方式降低了reduce处理的复杂度，按照Map阶段输出的每条数据的key(第一输出参数)的部分(针对连续多日的查询)或全部(针对单日的查询)进行路由，能够在多个reduce节点之间均衡负载，按照key对数据进行排序，能够使数据自然有序，最后对key相同的数据进行合并，整个过程通过路由、排序、合并，能够提高处理数据的效率，保障数据处理的可扩展性。

上述实施例提供的一种数据的并行处理方法和系统，基于MapReduce处理架构，Map阶段通过各Map节点并行读取数据并提取特征值作为参数对(第一输出参数和第二输出参数)进行输出，Reduce阶段通过各Reduce节点并行读取Map阶段的处理结果，利用数据的输出参数进行路由、排序、合并处理，能够快速处理大规模日志数据，保障数据处理的可扩展性。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种数据的并行处理方法，该方法包括：

一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录，根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录；其中，第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取；

其中，一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录之前，还包括：

2.如权利要求1所述的方法，其特征在于：

将属于该读取范围内的账户日志数据分片，建立每一个分片与各Map节点的映射关系；其中，所述每一个分片与各Map节点的映射关系用于供所述Map节点根据所述每一个分片与各Map节点的映射关系读取对应的分片数据。

3.如权利要求2所述的方法，其特征在于：

4.如权利要求3所述的方法，其特征在于：

5.如权利要求2所述的方法，其特征在于：

6.如权利要求5所述的方法，其特征在于：

7.一种数据的并行处理系统，包括：

Reduce处理模块，包括一个或多个Reduce节点；各Reduce节点用于读取所述Map节点处理完毕的不同候选数据记录，根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录；其中，第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取；

其中，所述Reduce处理模块还包括路由模块；

8.如权利要求7所述的系统，其特征在于：

Map处理模块还包括路由模块；

所述路由模块，用于在一个或多个Map节点读取账户日志数据的分片数据之前，将全量日志数据和截止到查询日期终止日当天的增量日志数据确定为账户日志数据的读取范围；将属于该读取范围内的账户日志数据分片，建立每一个分片与各Map节点的映射关系；其中，所述每一个分片与各Map节点的映射关系用于供所述Map节点根据所述每一个分片与各Map节点的映射关系读取对应的分片数据。

9.如权利要求8所述的系统，其特征在于：

10.如权利要求9所述的系统，其特征在于：

11.如权利要求8所述的系统，其特征在于：

12.如权利要求11所述的系统，其特征在于：