CN112015790A

CN112015790A - 一种数据处理的方法和装置

Info

Publication number: CN112015790A
Application number: CN201910462026.0A
Authority: CN
Inventors: 张宁; 刘业辉
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2020-12-01

Abstract

本发明公开了一种数据处理的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：将主数据表和待关联数据表进行内连接运算以得到关联主数据表；将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据表以进行数据处理。该实施方式能够大幅度节省运算资源，降低企业的运算成本，提升时效性，同时还可确保每天处理的数据量基本一致，需要消耗的资源保持稳定，避免了因消耗资源每天递增导致运算失败的潜在风险。

Description

一种数据处理的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理的方法和装置。

背景技术

随着互联网技术突飞猛进，数据大爆炸，数据呈近指数级增长。面对如此海量数据，传统数据仓库系统对此早已无能为力，而构建于Hadoop(一个分布式系统基础架构，由Apache基金会开发)集群之上的Hive(基于Hadoop的一个数据仓库工具，它提供一种SQL式查询语言可以查询存储在Hadoop上的文件系统)的出现，为海量数据的处理提供了一种解决方案。

但是随着时间的发展，Hive需要处理的数据量越来越多，其消耗的资源越来越多，处理时间也越来越长，按此趋势发展下去，其总有一天会不堪重负，一旦此种情况发生，后果不堪想象。同时，由于竞争越来越激烈，基于数据基础上的决策，需要响应的时间也越来越短，而实时技术对复杂的数据关联的处理尚无能为力，这就要求Hive在准确处理复杂关联逻辑的同时，响应速度越快越好。

数据关联是关系数据库的基本操作。基于mapreduce(分布式运算)的Hive也支持在海量数据集上进行数据关联操作，通常Hive进行DW(Data Warehouse，数据仓库)数据关联时，都是由两个或多个海量数据集进行。在电子商务行业常见的数据处理模式主要有：数十亿的用户流量和几十亿的商品、几十亿的用户进行关联运算，获取用户的行为特征或用户到达商品的常见路径等，上亿级订单数据集和几十亿的商品、几十亿的用户进行关联运算，获取热销商品、高价值用户等内容。此类运算的特点主要有：第一，以增量数据为主表去关联别的全量数据，关联数据量巨大；第二，需要消耗资源较多；第三，处理时间较长。

现有的采用增量表为主表和其他全量表做关联运算的方法，在初始阶段，处理的数据量级在一定程度范围内时，其消耗的资源和处理时效性，尚可接受。但是随着时间推移，全量表的数据量逐天递增，数据量越来越大，其运算时消耗的资源也越来越多，其运算速度也呈逐渐变慢的趋势。同时存在超过Hive运算极限导致运算失败的极端情况发生。而这种情况是绝对不可接受的。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1)运算过程中消耗的资源，每天递增，且有很多不必要的数据参与运算，浪费紧缺的资源，消耗资源成本；

2)运算时间较长，不能满足数据仓库对时效性的要求，影响决策效率，对企业造成不必要的损失；

3)存在因超过目前技术处理数据量极限导致任务失败的风险，导致数据无法运算出来，影响决策、生产系统推荐、仓库智能补数等前端应用，影响用户体验，给企业带来不可估量的损失。

发明内容

有鉴于此，本发明实施例提供一种数据处理的方法和装置，能够大幅度节省运算资源，降低企业的运算成本，提升时效性，同时还可确保每天处理的数据量基本一致，需要消耗的资源保持稳定，避免了因消耗资源每天递增导致运算失败的潜在风险。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据处理的方法。

一种数据处理的方法，包括：将主数据表和待关联数据表进行内连接运算以得到关联主数据表；将主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表以进行数据处理。

可选地，将主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表包括：以所述主数据的增量数据表作为主表，所述关联主数据表作为辅助表，将所述主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表。

可选地，所述主数据表和所述待关联数据表为全量数据表。

可选地，所述主数据是根据业务需求对业务数据进行筛选并过滤掉无效数据得到的。

根据本发明实施例的另一方面，提供了一种数据处理的装置。

一种数据处理的装置，包括：第一处理模块，用于将主数据表和待关联数据表进行内连接运算以得到关联主数据表；第二处理模块，用于将主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表以进行数据处理。

可选地，所述第二处理模块还用于：以所述主数据的增量数据表作为主表，所述关联主数据表作为辅助表，将所述主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表。

可选地，所述主数据表和所述待关联数据表为全量数据表。

根据本发明实施例的又一方面，提供了一种数据处理的电子设备。

一种数据处理的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所提供的数据处理的方法。

根据本发明实施例的再一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的数据处理的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过将主数据表和待关联数据表进行内连接运算以得到关联主数据表；将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据表以进行数据处理，可将参与运算的数据记录条数及文件大小大幅度减少，从而大幅度节省了运算资源，降低了企业的运算成本；在处理数据量降低后，内部处理步骤减少，处理效率提升，时效性得到很好的提升；另外，还可确保每天处理的数据量基本一致，需要消耗的资源保持稳定，避免了因消耗资源每天递增导致运算失败的潜在风险。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的数据处理的方法的主要步骤示意图；

图2是数据关联的连接类型的原理示意图；

图3是本发明一个实施例的数据处理过程示意图；

图4是根据本发明实施例的数据处理的装置的主要模块示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了解决现有技术中存在的问题，本发明提供了一种基于主数据的数据处理的方法和装置，采取基于主数据的运算策略进行关联运算，可以将无用的数据在参与运算之前提前剔除出去，节省运算资源，降低运算成本；提升运算效率，更早的完成运算，以满足数据仓库层面对时效性的要求，更早的获取数据，能更早的制定策略，避免因决策不及时造成的损失；避免数据无法运算出来的情况发生，防患于未然，避免给企业造成更大的损失。

图1是根据本发明实施例的数据处理的方法的主要步骤示意图。如图1所示，本发明实施例的数据处理的方法主要包括如下的步骤S101和步骤S102。

步骤S101：将主数据表和待关联数据表进行内连接运算以得到关联主数据表；

步骤S102：将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据表以进行数据处理。

主数据是指在整个企业范围内各个业务系统(操作/事务型应用系统以及分析型系统等)间要共享的数据，比如，可以是与客户(customers)、帐户(accounts)以及组织单位(organizational units)相关的数据。主数据通常需要在整个企业范围内保持一致性(consistent)、完整性(complete)和可控性(controlled)。待关联数据是要与主数据进行关联的数据，根据实际业务的不同，可能会有多份不同的数据。

在数据仓库中，一般通过数据表来保存数据。相应地，主数据即保存在主数据表中，待关联数据保存在待关联数据表中，主数据表一般只会有一个。待关联数据表存放具体的业务数据，根据实际业务的不同，可能会有多个。以商品表为例，主数据表存放商品的主要信息(如：商品名称、商品类型等)，待关联数据表例如可以包括：商品扩展表(如：商品供应商编号，商品供应商名称等)、商品类目表(如：商品一级类目编号、商品一级类目名称等)等多个表。

根据本发明的一个实施例，主数据表中所保存的主数据是根据业务需求对业务数据进行筛选并过滤掉无效数据得到的。具体地，可根据业务情况对业务数据进行数据筛选以确定主数据内容，通过对业务数据进行筛选，可以提前过滤掉无效的数据，即可节省运算资源，从而提高数据处理的效率。待关联数据表的创建时间较灵活，可从业务产生初始即创建，也可在需要增加记录待关联数据时创建，其不影响本发明技术方案的实施即可。

在进行数据加工处理的过程中，为了进行数据表的区分，可将需要进行数据关联的表分为主表和辅助表，亦即：主表和辅助表是相对应的概念，且是要将主表和辅助表中的数据进行关联。另外，在本发明的实施例中，还涉及到了全量表和增量表，全量表和增量表是相对应的概念，全量表中保存的是从业务产生初始至今的所有数据，增量表中保存的是业务每天(以“天”为数据统计的单位时间，可根据需要灵活设定)变化的数据。

根据本发明的技术方案，主数据和待关联数据均设置为全量数据，即从业务产生初始至今的所有数据，如此即可避免丢失数据，保证数据处理的结果的准确性。

根据本发明一个实施例的技术方案，步骤S101中在将主数据表和待关联数据表进行内连接运算以得到关联主数据表时，具体可以是以主数据表作为主表，待关联数据表作为辅助表，将主数据表和待关联数据表进行内连接运算以得到关联主数据表，也可以是以待关联数据表作为主表，主数据表作为辅助表，将主数据表和待关联数据表进行内连接运算以得到关联主数据表；并且，步骤S102中在将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据时，具体可以是以主数据的增量数据表作为主表，关联主数据表作为辅助表，将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据表。

图2是数据关联的连接类型的原理示意图。如图2所示，数据关联的连接方式包括内连接、左连接、右连接和全连接。两个数据表进行内连接运算的运算结果为这两个数据表的交集，即：这两个数据表同时存在的公共部分相关的内容；两个数据表进行左连接运算的运算结果为只保留左数据表存在部分的相关内容；两个数据表进行右连接运算的运算结果为只保留右数据表存在部分的相关内容；数据表进行全连接运算的运算结果为这两个数据表的并集，即：这两个数据表中存在的所有内容进行去重后得到的内容。以内连接运算为例，假设主数据表中存在的一条记录为：“商品名称AA，商品类型XX”；待关联数据表1中记录了商品的一级类目编号。当待关联数据表1与该主数据表进行内连接运算时，若待关联数据表1中包含“商品名称AA”所对应的数据，则内连接运算后得到的数据表中即包含一条记录“商品名称AA，商品类型XX，商品AA的一级类目编号”；否则，内连接运算后得到的数据表中即不包含与“商品名称AA”所对应的数据。

在步骤S101中，通过将主数据表和待关联数据表进行内连接运算，即可得到主数据表和待关联数据表的交集内容，如此即可将待关联数据表中的大量无关的数据进行剔除，避免在后续操作过程中参与运算，从而可以节约资源，提升数据处理的时效。

之后，在步骤S102中，通过将主数据的增量数据表和关联主数据表进行左连接运算，即可只保留左数据表(主数据的增量数据表)所包含的数据相关的内容，如此即可使得每天处理的数据量基本一致，从而避免了处理数据无限递增达到技术处理数据量瓶颈点而导致的运算失败的风险；同时，在保证运算结果与将主数据的增量数据表与使用所有全量表进行数据处理的结果完全一致的前提下，大大减少了所需要使用的数据资源，简化了运算过程，提高了运算效率。

图3是本发明一个实施例的数据处理过程示意图。如图3所示，在数据仓库处理数据时，为了有效地处理数据，设置了缓冲数据层和备份数据层，根据数据的主键(主键的含义是能唯一确定一条记录的字段信息)，通过对缓冲数据层的数据和备份数据层的数据进行拉链(拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息)处理得到基础数据，并保存到基础数据层以备用。在本发明的实施例的介绍中，每个数据表中所保存的数据均指的是基础数据层中所保存的数据。

如图3所示，本发明的实施例进行数据处理的过程大致涉及以下几个模块：

1、创建表模块：在Hive中，创建主数据表、关联主数据表和目标数据表，其中，主数据表用来存储需要进行关联的主数据；关联主数据表用来存储主数据与待关联数据进行内连接运算后得到的关联主数据，目标数据表用来存储数据处理完成后得到的目标数据以及参与后续运算等操作；

2、生成主数据模块：根据业务情况进行数据筛选以确定主数据内容，并将筛选后得到的主数据存放在创建的主数据表中；

3、关联运算模块：将待关联数据表(预先创建的一个或多个表，存储用于与主数据进行数据关联的数据)和生成的主数据表进行内连接运算以得到关联主数据信息，并将关联主数据存储于Hive中创建的关联主数据表。具体实现原理为：将两个表进行内连接运算，其结果为两个表的交集，即两个表同时存在的公共部分的相关内容。如此即可将待关联数据表中大量无关的数据进行剔除，避免在接下来的环节参与运算，从而节省了资源、提升了运算时效；

4、生成目标数据模块：将主数据的增量数据表和关联主数据表进行左连接运算以得到目标数据信息，并将目标数据存储于Hive中创建的目标数据表。具体实现原理为：将两个表进行左连接运算，其结果为只保留左表存在部分的相关内容。如此即可使得每天处理的数据量基本一致，从而避免了处理数据无限递增达到技术处理数据量瓶颈点而导致的运算失败的风险；同时，在保证运算结果与将主数据的增量数据表与使用所有全量表进行数据处理的结果完全一致的前提下，大大减少了所需要使用的数据资源，简化了运算过程，提高了运算效率。

通过本发明实施例所介绍的基于主数据的方法进行数据处理，其处理的数据量和数据记录数大大减少，运算时效大大提升，提升效果非常显著。

图4是根据本发明实施例的数据处理的装置的主要模块示意图。如图4所示，本发明实施例的数据处理的装置400主要包括第一处理模块401和第二处理模块402。

第一处理模块401，用于将主数据表和待关联数据表进行内连接运算以得到关联主数据表；

第二处理模块402，用于将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据表以进行数据处理。

根据本发明的一个实施例，第二处理模块402还可以用于：

以主数据的增量数据表作为主表，关联主数据表作为辅助表，将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据表。

根据本发明实施例的技术方案，主数据表和待关联数据表为全量数据表。

根据本发明的另一个实施例，主数据是根据业务需求对业务数据进行筛选并过滤掉无效数据得到的。

根据本发明实施例的技术方案，通过将主数据表和待关联数据表进行内连接运算以得到关联主数据表；将主数据的增量数据表和关联主数据表进行左连接运算得到目标数据表以进行数据处理，可将参与运算的数据记录条数及文件大小大幅度减少，从而大幅度节省了运算资源，降低了企业的运算成本；在处理数据量降低后，内部处理步骤减少，处理效率提升，时效性得到很好的提升；另外，还可确保每天处理的数据量基本一致，需要消耗的资源保持稳定，避免了因消耗资源每天递增导致运算失败的潜在风险。

图5示出了可以应用本发明实施例的数据处理的方法或数据处理的装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据处理的方法一般由服务器505执行，相应地，数据处理的装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一处理模块和第二处理模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，第一处理模块还可以被描述为“用于将主数据表和待关联数据表进行内连接运算以得到关联主数据表的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：将主数据表和待关联数据表进行内连接运算以得到关联主数据表；将主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表以进行数据处理。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据处理的方法，其特征在于，包括：

将主数据表和待关联数据表进行内连接运算以得到关联主数据表；

将主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表以进行数据处理。

2.根据权利要求1所述的方法，其特征在于，将主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表包括：

以所述主数据的增量数据表作为主表，所述关联主数据表作为辅助表，将所述主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表。

3.根据权利要求1所述的方法，其特征在于，所述主数据表和所述待关联数据表为全量数据表。

4.根据权利要求1所述的方法，其特征在于，所述主数据是根据业务需求对业务数据进行筛选并过滤掉无效数据得到的。

5.一种数据处理的装置，其特征在于，包括：

第一处理模块，用于将主数据表和待关联数据表进行内连接运算以得到关联主数据表；

第二处理模块，用于将主数据的增量数据表和所述关联主数据表进行左连接运算得到目标数据表以进行数据处理。

6.根据权利要求5所述的装置，其特征在于，所述第二处理模块还用于：

7.根据权利要求5所述的装置，其特征在于，所述主数据表和所述待关联数据表为全量数据表。

8.根据权利要求5所述的装置，其特征在于，所述主数据是根据业务需求对业务数据进行筛选并过滤掉无效数据得到的。

9.一种数据处理的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。