CN110222105B

CN110222105B - 数据汇总处理方法及装置

Info

Publication number: CN110222105B
Application number: CN201910397539.8A
Authority: CN
Inventors: 张惠亮; 李贲; 刘胜; 吴锋海
Original assignee: Union Mobile Pay Co Ltd
Current assignee: Joint digital technology (Beijing) Co., Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2021-06-29
Anticipated expiration: 2039-05-14
Also published as: CN110222105A

Abstract

本发明实施例提供的一种数据汇总处理方法及装置，所述方法包括：获取用户输入的汇总处理模块个数、汇总处理模块标识、配置文件和执行文件，根据汇总处理模块个数设置汇总处理模块并赋予标识，根据配置文件设置各个汇总处理模块的属性参数；根据执行文件设置各个汇总处理模块的汇总任务参数；将各个汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。本发明实施例提供的一种数据汇总处理方法及装置，通过获取用户输入的配置请求，根据配置请求设置同属于汇总应用程序中的不同独立模块，应对不同汇总任务的计算处理，做到针对不同的汇总任务，无需给每个任务单独设置应用程序，降低开发难度和开发量。

Description

数据汇总处理方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据汇总处理方法及装置。

背景技术

随着大数据处理技术的普遍应用，特别是开源hadoop(Hadoop是一个由Apache基金会所开发的分布式系统基础架构)体系的日益成熟，hadoop已经成为数据仓库建设中一个很重要的基础设施。Hadoop体系分为数据存储HDFS(分布式文件系统)和数据运算MapReduce，MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。

在数据底层存储中，是以文件HFile的形式进行存储。而在数仓建设中，基础数据一般都会采用Hive表的格式，Hive表的格式和普通的关系型数据库相似，只是其底层是以HDFS文件HFile的格式存在，和通用的HFile格式相比有如下改进：

1)文件地址：/warehouse/hive/db/table_name/index1＝A/index2＝B…，其中table_name为Hive表名称，index1为索引1名称，index2为索引2名称，这个和关系型数据库中的定义含义是一样的；

2)文件内容：index1,index2,property1,property2,…,property n，其中index1,index2为之前的索引。property为文件内容。

对于所有的汇总层计算，都是对基础Hive表进行汇总设计，执行相应的MapReduce任务进行汇总统计，从而生成中间层表格。

通常处理方案中，对于不同的计算任务编写的MapReduce程序，每个程序设定不同的Hive底层输入文件，编写相应的map和reduce执行逻辑，生成相应的结果表。

为此，如果要执行多个计算任务，需要编写不同的MapReduce程序，即使不同的MapReduce程序读入的是相同表文件，也需要重复读取。所有的程序，不管是顺序执行还是并行执行，都需要占据大量的系统和时间资源。如果新创建一个计算任务，需要重新编写一个MapReduce程序提交，增加处理复杂性。

发明内容

针对现有技术存在的问题，本发明实施例提供一种数据汇总处理方法及装置。

本发明实施例提供一种数据汇总处理方法，包括：

获取用户输入的配置请求，所述配置请求包括汇总处理模块个数、汇总处理模块标识、配置文件和执行文件；

根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；

根据所述配置文件设置各个所述汇总处理模块的属性参数；

根据所述执行文件设置各个所述汇总处理模块的汇总任务参数；

将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

本发明实施例提供一种数据汇总处理装置，包括：

第一设置单元，用于获取用户输入的配置请求，所述配置请求包括汇总处理模块个数和汇总处理模块标识，根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；

第二设置单元，用于获取所述配置请求，所述配置请求还包括配置文件和执行文件；

根据所述配置文件设置各个所述汇总处理模块的属性参数；

存储单元，用于将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述数据汇总处理方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述数据汇总处理方法的步骤。

本发明实施例提供的一种数据汇总处理方法及装置，通过获取用户输入的配置请求，根据配置请求设置同属于汇总MapReduce应用程序中的不同独立模块，应对不同汇总任务的计算处理，做到针对不同的汇总任务，无需给每个任务单独设置MapReduce应用程序，降低开发难度和开发量，为后续任务计算提供方便。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明数据汇总处理方法实施例流程图；

图2为本发明数据汇总处理方法实施例流程图；

图3为本发明数据汇总处理方法实施例流程图；

图4为本发明数据汇总处理方法实施例流程图；

图5为本发明数据汇总处理装置实施例结构图；

图6为本发明数据汇总处理装置实施例结构图；

图7为本发明数据汇总处理装置实施例结构图；

图8为本发明数据汇总处理装置实施例结构图；

图9为本发明电子设备实施例结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种数据汇总处理方法，包括：

S11、获取用户输入的配置请求，所述配置请求包括汇总处理模块个数、汇总处理模块标识、配置文件和执行文件；

S12、根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；

S13、根据所述配置文件设置各个所述汇总处理模块的属性参数；

S14、根据所述执行文件设置各个所述汇总处理模块的汇总任务参数；

S15、将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

针对步骤S11-步骤S15，需要说明的是，在数据汇总处理处理中，目前使每个汇总任务都是一个独立的MapReduce应用程序控制，需要遵循MapReduce框架。MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算，其包括"Map(映射)"和"Reduce(归约)两个处理阶段。在实现时，是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定Reduce(归约)函数完成处理。而在本发明实施例中，所有的汇总任务不再要求一个单独的MapReduce应用程序控制，而是将不同的汇总任务对应于汇总MapReduce应用程序中的不同独立模块，即汇总处理模块。只需在每个模块中置于符合通用接口形式的配置文件和执行文件即可，降低了开发难度和开发量。

在本发明实施例中，系统设置汇总处理模块，需要获取用户输入的配置请求，该配置请求需包括汇总处理模块个数和汇总处理模块标识。汇总处理模块个数用来决定设置多少个模块，汇总处理模块标识用于区分不同处理模块。在本发明实施例中，由于需要对不同汇总任务进行处理，故所述汇总处理模块个数至少两个。

在本发明实施例中，汇总处理模块设置完毕后，需要对汇总处理模块进行参数配置，以界定每个汇总处理模块所要处理哪种汇总任务，处理任务时需要哪种资源配置及其他等等。

为此，获取用户输入的配置请求，该配置请求还包括配置文件和执行文件。在这里，配置文件包含：需要设定读取的Hive基础数据表名称(hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表)、输出文件目录、读取表的索引、Reduce任务个数、每个Map/Reduce任务的资源信息(CPU、内存、JVM等各种参数限定条件)。执行文件包括：处理模块需执行的具体的Map阶段任务以及Reduce阶段任务。

获取配置文件和执行文件后，会根据所述配置文件设置各个所述汇总处理模块的属性参数，以及根据所述执行文件设置各个所述汇总处理模块的汇总任务参数。因此，在这里，属性参数及汇总任务参数均会分别对应包含上述介绍配置文件所提及的内容。

在本发明实施例中，配置完毕后，将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

本发明实施例提供的一种数据汇总处理方法，通过获取用户输入的配置请求，根据配置请求设置同属于汇总MapReduce应用程序中的不同独立模块，应对不同汇总任务的计算处理，做到针对不同的汇总任务，无需给每个任务单独设置MapReduce应用程序，降低开发难度和开发量，为后续任务计算提供方便。

图2示出了本发明一实施例提供的一种数据汇总处理方法，包括：

S21、获取用户输入的配置请求，所述配置请求包括汇总处理模块个数、汇总处理模块标识、配置文件和执行文件；

S22、根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；

S23、根据所述配置文件设置各个所述汇总处理模块的属性参数；

S24、根据所述执行文件设置各个所述汇总处理模块的汇总任务参数；

S25、获取用户输入的更新配置请求，所述更新配置请求包括待更新的汇总处理模块标识、以及对应的配置文件和执行文件，根据待更新的汇总处理模块标识确定待更新的汇总处理模块，根据对应的配置文件和执行文件更新待更新的汇总处理模块的属性参数和汇总任务参数；

S26、将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

针对步骤S25，需要说明的是，在本发明实施例中，当需要对汇总处理模块中的参数进行更新时，获取用户输入的更新配置请求，所述更新配置请求包括待更新的汇总处理模块标识、以及对应的配置文件和执行文件，根据待更新的汇总处理模块标识确定待更新的汇总处理模块，根据对应的配置文件和执行文件更新待更新的汇总处理模块的属性参数和汇总任务参数。

针对步骤S21-步骤S24，及步骤S26，这些步骤与上述实施例对应的步骤S11-步骤S15在原理上相同，在此不再赘述。

图3示出了本发明一实施例提供的一种数据汇总处理方法，包括：

S31、获取用户输入的配置请求，所述配置请求包括汇总处理模块个数、汇总处理模块标识、配置文件和执行文件；

S32、根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；

S33、根据所述配置文件设置各个所述汇总处理模块的属性参数；

S34、根据所述执行文件设置各个所述汇总处理模块的汇总任务参数；

S35、获取用户输入的删除配置请求，所述删除配置请求包括待删除的汇总处理模块标识，根据待删除的汇总处理模块标识确定待删除的汇总处理模块，将待删除的汇总处理模块已配置的属性参数和汇总任务参数删除；

S36、将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

针对步骤S35，需要说明的是，在本发明实施例中，当需要对汇总处理模块中的参数进行删除时，获取用户输入的删除配置请求，所述删除配置请求包括待删除的汇总处理模块标识，根据待删除的汇总处理模块标识确定待删除的汇总处理模块，将待删除的汇总处理模块已配置的属性参数和汇总任务参数删除。

针对步骤S31-步骤S34，及步骤S36，这些步骤与上述实施例对应的步骤S11-步骤S15在原理上相同，在此不再赘述。

图4示出了本发明一实施例提供的一种数据汇总处理方法，包括：

S41、获取用户输入的配置请求，所述配置请求包括汇总处理模块个数、汇总处理模块标识、配置文件和执行文件；

S42、根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；

S43、根据所述配置文件设置各个所述汇总处理模块的属性参数；

S44、根据所述执行文件设置各个所述汇总处理模块的汇总任务参数；

S45、将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中；

S46、获取目标汇总处理模块的输入文件的文件属性，将所述文件属性与对应于目标汇总处理模块的属性参数进行匹配，获得匹配结果，若匹配结果为是，则根据对应于目标汇总处理模块的汇总任务参数对所述输入文件进行处理，获得处理结果。

针对步骤S41-步骤S45，这些步骤与上述实施例对应的步骤S11-步骤S15在原理上相同，在此不再赘述。

针对步骤S46，需要说明的是，在本发明实施例中，在汇总文件处理过程中，需要执行Map阶段任务以及Reduce阶段任务。每个汇总处理模块对应的汇总任务参数包含MapRun函数和ReduceRun函数。

在处理之前，按照顺序读入每个汇总处理模块的输入文件，获取输入文件的文件属性。该文件属性包含Hive基础数据表名称和索引名称，该Hive基础数据表名称和索引名称可生成对应的文件目录。例如：对于汇总计算任务A，如果读取的基础数据表名称为table_base,主索引index1的数值为value1，那么读入的文件路径即为：/warehouse/hive/db/table_base/index1＝value1/***。

在本发明实施例中，在获取目标汇总处理模块的输入文件的文件属性之后，将所述目标汇总处理模块的输入文件放入预设的已读文件集合中，做到不重复读入输入文件。

如果有汇总计算任务B，也是读取table_base，主索引index1的数值为value1，那么就不用在继续导入。

同时，还要读取每个汇总处理模块中的属性参数。该属性参数如前述中对应包含上述介绍配置文件所提及的内容。

若匹配结果为是，则根据对应于目标汇总处理模块的汇总任务参数对所述输入文件进行处理，获得处理结果。处理过程包括Map阶段和ReduceRun阶段。具体如下：

Map阶段：

加载所有汇总处理模块的配置文件，同时根据汇总处理模块(Module)名称生成该汇总处理模块的执行实例，由于所有汇总处理模块都是实现自同样的通用接口，所以软件实现很方便，效率很高。应用实例生成后，该汇总处理模块的mapRun函数即可以执行。然后对输入文件的每条记录执行以下操作：

遍历所有汇总处理模块，判断对应的输入文件的文件路径是否需要被该汇总处理模块处理，例如该文件的路径为/warehouse/hive/db/table_base/index1＝value1/***，而待处理的Module A读取的表不含table_base表，那么则不执行Module A的mapRun函数；反之，则执行该Module的mapRun函数。

执行Module A的mapRun函数之后，需要以<Key,Value>的形式写入中间文件，这时候设置Key的前缀为Module A Name，完整的Key为：ModuleName+业务主键ServiceKey；这样保证不同的中间文件能和Module匹配上；相同的Moude的中间文件名前缀都是相同的。

Reduce阶段：

加载所有Module的配置文件，同时根据Module名称生成该Module的执行实例，由于所有Module都是实现自同样的通用接口，所以软件实现很方便，效率很高。应用实例生成后，该Module的和reduceRun函数即可以执行。然后对输入文件的每条记录执行以下操作：

判断该条记录Key的前缀属于哪个Module，判断成功后，从现有Key中抽取业务主键ServiceKey，并执行相应Module的reduceRun函数。

从Module的配置文件中读取输出文件目录，将处理结果写入输出文件目录。

图5示出了本发明一实施例提供的一种数据汇总处理装置，包括第一设置单元51、第二设置单元52和存储单元53，其中：

第一设置单元51，用于获取用户输入的配置请求，所述配置请求包括汇总处理模块个数和汇总处理模块标识，根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；

第二设置单元52，用于获取所述配置请求，所述配置请求还包括配置文件和执行文件；

根据所述配置文件设置各个所述汇总处理模块的属性参数；

存储单元53，用于将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

需要说明的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能单元。

本发明实施例提供的一种数据汇总处理装置，通过获取用户输入的配置请求，根据配置请求设置同属于汇总MapReduce应用程序中的不同独立模块，应对不同汇总任务的计算处理，做到针对不同的汇总任务，无需给每个任务单独设置MapReduce应用程序，降低开发难度和开发量，为后续任务计算提供方便。

图6示出了本发明一实施例提供的一种数据汇总处理装置，包括第一设置单元51、第二设置单元52、更新单元61和存储单元53，其中：

根据所述配置文件设置各个所述汇总处理模块的属性参数；

所述更新单元61用于：

获取用户输入的更新配置请求，所述更新配置请求包括待更新的汇总处理模块标识、以及对应的配置文件和执行文件；

根据待更新的汇总处理模块标识确定待更新的汇总处理模块；

根据对应的配置文件和执行文件更新待更新的汇总处理模块的属性参数和汇总任务参数。

图7示出了本发明一实施例提供的一种数据汇总处理装置，包括第一设置单元51、第二设置单元52、删除单元71和存储单元53，其中：

根据所述配置文件设置各个所述汇总处理模块的属性参数；

所述删除单元71用于：

获取用户输入的删除配置请求，所述删除配置请求包括待删除的汇总处理模块标识；

根据待删除的汇总处理模块标识确定待删除的汇总处理模块；

将待删除的汇总处理模块已配置的属性参数和汇总任务参数删除。

图8示出了本发明一实施例提供的一种数据汇总处理装置，包括第一设置单元51、第二设置单元52、存储单元53和执行单元81，其中：

根据所述配置文件设置各个所述汇总处理模块的属性参数；

所述执行单元81，用于：

获取目标汇总处理模块的输入文件的文件属性；

将所述文件属性与对应于目标汇总处理模块的属性参数进行匹配，获得匹配结果；

若匹配结果为是，则根据对应于目标汇总处理模块的汇总任务参数对所述输入文件进行处理，获得处理结果。

图9示例了一种服务器的实体结构示意图，如图9所示，该服务器可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行如下方法：获取用户输入的配置请求，所述配置请求包括汇总处理模块个数、汇总处理模块标识、配置文件和执行文件；根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；根据所述配置文件设置各个所述汇总处理模块的属性参数；根据所述执行文件设置各个所述汇总处理模块的汇总任务参数；将各个所述汇总处理模块对应的标识、属性参数及汇总任务参数整合成配置信息，存储在配置目录中。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据汇总处理方法，其特征在于，包括：

根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；所述汇总处理模块为不同的汇总任务对应于汇总MapReduce应用程序中的不同独立模块；

根据所述配置文件设置各个所述汇总处理模块的属性参数；

2.根据权利要求1所述的数据汇总处理方法，其特征在于，还包括：

3.根据权利要求1所述的数据汇总处理方法，其特征在于，还包括：

4.根据权利要求1所述的数据汇总处理方法，其特征在于，还包括：

获取目标汇总处理模块的输入文件的文件属性；

5.根据权利要求1所述的数据汇总处理方法，其特征在于，所述配置文件包含：需设定读取的Hive基础数据表名称、输出文件目录、读取表的索引、Reduce任务个数、每个Map/Reduce任务的资源信息；所述执行文件包括：汇总处理模块需执行的具体的Map阶段任务以及Reduce阶段任务。

6.一种数据汇总处理装置，其特征在于，包括：

第一设置单元，用于获取用户输入的配置请求，所述配置请求包括汇总处理模块个数和汇总处理模块标识，根据所述汇总处理模块个数设置对应数目的汇总处理模块，并根据所述汇总处理模块标识赋予标识，其中，所述汇总处理模块个数至少两个；所述汇总处理模块为不同的汇总任务对应于汇总MapReduce应用程序中的不同独立模块；

根据所述配置文件设置各个所述汇总处理模块的属性参数；

7.根据权利要求6所述的数据汇总处理装置，其特征在于，还包括更新单元，用于：

8.根据权利要求6所述的数据汇总处理装置，其特征在于，还包括删除单元，用于：

9.根据权利要求6所述的数据汇总处理装置，其特征在于，还包括执行单元，用于：

获取目标汇总处理模块的输入文件的文件属性；

10.根据权利要求6所述的数据汇总处理装置，其特征在于，所述配置文件包含：需设定读取的Hive基础数据表名称、输出文件目录、读取表的索引、Reduce任务个数、每个Map/Reduce任务的资源信息；所述执行文件包括：汇总处理模块需执行的具体的Map阶段任务以及Reduce阶段任务。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述数据汇总处理方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述数据汇总处理方法的步骤。