CN111159188B

CN111159188B - 基于DataWorks实现准实时大数据量的处理方法

Info

Publication number: CN111159188B
Application number: CN201911383429.2A
Authority: CN
Inventors: 王连喜
Original assignee: Beijing Huibo Technology Co ltd
Current assignee: Beijing Huibo Technology Co ltd
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2023-05-09
Anticipated expiration: 2039-12-28
Also published as: CN111159188A

Abstract

本发明公开了一种基于DataWorks实现准实时大数据量的处理方法，包括以下步骤：选择需要分析的数据，启动筛选程序一；实时存储任务参数数据到对应的数据库表；程序二实时监控数据库表，读取新插入的数据信息，向DataWorks中对应的记录分析任务条件的数据库表中插入任务数据信息，执行分析任务；发送分析结果数据信息到数据库结果表；程序实时监控对应数据结果表，查询并获取数据结果表信息，展示数据结果表信息到页面。通过该方法，降低了开发成本、运维成本；达到了用户至用户的闭环式数据分析，中间再无程序员参与；一套流程两种执行方式，使程序更加的贴合实际、更加高效执行分析任务；给用户带来实际的大数据体验效果。

Description

基于DataWorks实现准实时大数据量的处理方法

技术领域

本发明涉及数据处理技术领域，具体来说，涉及一种基于DataWorks实现准实时大数据量的处理方法。

背景技术

现今社会，大数据的应用越来越彰显它的优势。然而用代码实现分析大数据的逻辑不够便捷，维护麻烦且易出问题。使用阿里云大数据处理平台，给企业带来了很大的便捷，降低了企业处理大数据的门槛。如何使用阿里云大数据处理平台准确快速便捷的处理大量数据，给企业处理大数据的方式带来了机遇和考验。

使用阿里云 DataWorks开发分析大数据极大提高了大数据开发以及分析的效率，并且维护方便；但是客户的需求是多变的，按客户的需求习惯提前开发好大数据的分析逻辑，跑出对应的分析结果已经不能满足客户的需求；如果单独为客户开发出其需求对应的数据处理逻辑，既费时费力且开发出的逻辑利用率低；如何让客户自定义需求条件，阿里云数据分析平台根据客户自定义的需求条件自动完成大数据的分析成为企业需要解决的问题。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于DataWorks实现准实时大数据量的处理方法，能够克服现有技术的上述不足。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于DataWorks实现准实时大数据量的处理方法，该方法包括以下步骤：

S1：跳转到指定大数据分析页面，选择需要分析的数据类型、时间范围、条件参数，启动筛选程序一；

S2：记录用户输入的参数及操作流程，传用户输入的参数及操作流程信息到向后台程序，后台程序获取用户输入的参数及操作流程信息，实时存储任务参数数据到对应的数据库表；

S3：程序二实时监控数据库表，读取新插入的数据信息，向 DataWorks中对应的记录分析任务条件的数据库表中插入任务数据信息，唤醒分析任务，依据获取得参数类型，执行分析任务，其中，分析任务为预先编好的程序；

S4：获取分析结果数据信息，发送分析结果数据信息到数据库结果表；

S5：程序实时监控对应数据结果表，查询并获取数据结果表信息，展示数据结果表信息到页面。

进一步的，所述步骤S1中，所述启动筛选程序分为启动一般需求执行流程和启动特殊需求执行流程。

进一步的，所述启动特殊需求执行流程针对特殊的需求，更加细致地显示对应页面参数。

进一步的，所述步骤S2中，一般需求执行流程将待分析任务的记录状态设置为0；特殊需求执行流程的后台实时存入数据库之前必须先处理对应的条件，将条件整理成更细致、有指向性的条件。

进一步的，所述步骤S3中，在一般需求执行流程时，程序实时监控表中状态为0的数据，有则将数据取出序列化放入消息队列中，以便分析任务能依次执行，不会造成数据交叉，将任务表中状态修改为1，消息队列中的数据依次消费，反序列化消息队列中的数据，获取对应的各种条件信息，将获取到的条件插入到 DataWorks对应记录数据分析任务的表中；在特殊需求执行流程的过程时，采用直接从条件中解析出对应基础数据的位置，精准的获取基础数据的方式。

进一步的，所述步骤S3中，在一般需求执行流程时，将获取到的条件插入到 DataWorks对应记录数据分析任务的表中之前先判断程序执行分析任务情况。

进一步的，在一般需求执行流程时，分析程序代码逻辑的步骤包括以下步骤：

S101：读取任务表，获得基本的任务数据，其中，任务数据为任务类型、任务名、店铺名数据信息；

S102：整理任务数据参数，解析并获取详细任务的自定义参数，其中，参数为时间、会员等级、过滤黑名单；

S103：获取基础数据信息，其中，基础数据信息为订单、会员、商品数据信息；

S104：依据条件信息，清洗基础数据成对应的分析类型和数据条件范围内的数据样式；

S105：执行具体分析逻辑；

S106：将数据结果返回到数据库对应的表。

进一步的，在特殊需求执行流程时，分析程序代码逻辑的步骤包括以下步骤：

S201：获取并拆分任务数据，获得需要的数据源和对应数据源的控制条件；

S202：依据条件，忽略掉不需要的数据，精准地取得分析数据；

S203：依据不同的分析类型，执行不同的分析代码流程；

S204：删除任务数据信息；

S205：获取分析结果信息，导入分析结果信息到数据库。

进一步的，所述S105步骤中，所述执行具体分析逻辑由数据分析类型决定。

本发明的有益效果：通过该方法，减少了开发工作量；减轻了维护复杂度，去掉不必要的服务程序部署；支持了客户多变的大数据分析需求，开发部署完成后无需人工干预，自动完成大数据的数据提取分析；降低了大数据分析的难度；降低了开发成本、运维成本；达到了用户至用户的闭环式数据分析，中间再无程序员参与；一套流程两种执行方式，使程序更加的贴合实际、更加高效执行分析任务；给用户带来实际的大数据体验效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于DataWorks实现准实时大数据量的处理方法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明实施例所述的基于DataWorks实现准实时大数据量的处理方法，包括以下步骤：

在本发明的一个具体实施例中，所述步骤S1中，所述启动筛选程序分为启动一般需求执行流程和启动特殊需求执行流程。

在本发明的一个具体实施例中，所述启动特殊需求执行流程针对特殊的需求，更加细致地显示对应页面参数。

在本发明的一个具体实施例中，所述步骤S2中，一般需求执行流程将待分析任务的记录状态设置为0；特殊需求执行流程的后台实时存入数据库之前必须先处理对应的条件，将条件整理成更细致、有指向性的条件。

在本发明的一个具体实施例中，所述步骤S3中，在一般需求执行流程时，程序实时监控表中状态为0的数据，有则将数据取出序列化放入消息队列中，以便分析任务能依次执行，不会造成数据交叉，将任务表中状态修改为1，消息队列中的数据依次消费，反序列化消息队列中的数据，获取对应的各种条件信息，将获取到的条件插入到 DataWorks对应记录数据分析任务的表中；在特殊需求执行流程的过程时，采用直接从条件中解析出对应基础数据的位置，精准的获取基础数据的方式。

在本发明的一个具体实施例中，所述步骤S3中，在一般需求执行流程时，将获取到的条件插入到 DataWorks对应记录数据分析任务的表中之前先判断程序执行分析任务情况。

在一般需求执行流程时，分析程序代码逻辑的步骤包括以下步骤：

S105：执行具体分析逻辑；

S106：将数据结果返回到数据库对应的表。

在特殊需求执行流程时，分析程序代码逻辑的步骤包括以下步骤：

S203：依据不同的分析类型，执行不同的分析代码流程；

S204：删除任务数据信息；

S205：获取分析结果信息，导入分析结果信息到数据库。

在本发明的一个具体实施例中，所述S105步骤中，所述执行具体分析逻辑由数据分析类型决定。

为了方便理解本发明的上述技术方案，以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

本发明详细两种执行流程：

1.一般需求执行流程（对应时效需求较低、或不在乎统计速度的数据统计任务）

1）页面接收客户的自定义参数，条件有分析类型、时间范围、过滤字段等，对于不同类型的分析具体参数会不同，会更贴合分析数据的相关条件，生成分析任务；

2）将分析任务及时存储至数据库，记录状态为0为待分析任务；

3）程序实时监控表中状态为0的数据，有则将数据取出序列化放入消息队列中，以便分析任务能依次执行，不会造成数据交叉，将任务表中状态修改为1；

4）消息队列中的数据依次消费，在消息队列中将数据反序列化出来，获取对应的各种条件；

5）将获取到的条件插入到 DataWorks对应记录数据分析任务的表中，在插入任务数据之前会先判断程序在执行着其他的分析任务没有，若有任务在分析，则暂时不插入数据等待分析任务结束后再将分析任务插入进去；

6）插入成功则返回true值，为true则调度分析程序执行分析任务；记录分析过程及进度，打印在程序运行日志中，方便运维人员监控；

a)分析程序为布置在 DataWorks中的自定义流程，分析程序代码逻辑：

i.代码为事先对不同分析类型编写好的分析流程。

ii.第一步读取任务表，获得基本的任务数据，如：任务类型、任务名、店铺名。

iii. 对任务数据参数进行整理，解析出详细的该任务的自定义参数，如：时间、会员等级、过滤黑名单等。

iv.取基础数据，分别取订单、会员、商品、等基础数据

v.根据条件将基础数据清洗成对应的分析类型、及数据条件范围内的数据样式

vi.执行具体分析逻辑，实际以数据分析类型决定

vii. 将数据结果返回给数据库对应的表下

7）分析完成后，前端页面任务后会有“查看”字眼标识，用户选择任务点击“查看”则去查询对应任务的数据结果展示到页面上。

2.特殊需求执行流程（对应客户时效性要求较高、或统计速度有需求的数据分析）

1）针对特殊的需求开放对应的页面显示，该页面参数显示会更加细致，页面接收客户的自定义参数，条件有：分析类型、时间范围、过滤字段等，对于不同类型的分析具体参数会不同，会更贴合分析数据的相关条件，生成分析任务；

2）后台实时存入数据库之前先将对应的条件进行处理，将条件整理成更细致，更有指向性的条件；

3）延续第一种模式的调度方式，将任务数据传入 DataWorks，调度对应的分析任务，于第一种模式的区别是：减少了基础数据获取时为了普适性而广泛的取基础数据再进行清洗的过程，改为直接从条件中解析出对应基础数据所在，精准的获取基础数据；

a)分析程序代码逻辑（对应特殊需求分析预先编写对应逻辑）：

i.取任务数据，将任务数据进行拆分，获得需要的数据源、对应数据源的控制条件；

ii.取数据，根据条件精准地取得分析数据，对于不需要的数据则不需要再取出；

iii.按照不同分析类型，执行不同的分析代码流程；

iv.分析完成后删除任务数据，防止多次执行；

v.分析结果导入到数据库中；

4）前端页面获取数据展示。

缩略语和关键术语定义：

DataWorks：阿里云一站式大数据开发管理的工具（界面，阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案）；

准实时：在客户可接受的时间范围内按客户要求尽量用比较短的时间返回大数据的分析结果。

综上所述，借助于本发明的上述技术方案，通过该方法，减少了开发工作量；减轻了维护复杂度，去掉不必要的服务程序部署；支持了客户多变的大数据分析需求，开发部署完成后无需人工干预，自动完成大数据的数据提取分析；降低了大数据分析的难度；降低了开发成本、运维成本；达到了用户至用户的闭环式数据分析，中间再无程序员参与；一套流程两种执行方式，使程序更加的贴合实际、更加高效执行分析任务；给用户带来实际的大数据体验效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于DataWorks实现准实时大数据量的处理方法，其特征在于，包括以下步骤：

S1：跳转到指定大数据分析页面，选择需要分析的数据类型、时间范围、条件参数，启动筛选程序一，所述启动筛选程序一分为启动一般需求执行流程和启动特殊需求执行流程，所述启动特殊需求执行流程针对特殊的需求，更加细致地显示对应页面参数；

S2：记录用户输入的参数及操作流程，传用户输入的参数及操作流程信息到向后台程序，后台程序获取用户输入的参数及操作流程信息，实时存储任务参数数据到对应的数据库表，一般需求执行流程将待分析任务的记录状态设置为0，特殊需求执行流程的后台实时存入数据库之前必须先处理对应的条件，将条件整理成更细致、有指向性的条件；

S3：程序二实时监控数据库表，读取新插入的数据信息，向DataWorks中对应的记录分析任务条件的数据库表中插入任务数据信息，唤醒分析任务，依据获取得参数类型，执行分析任务，其中，分析任务为预先编好的程序，在一般需求执行流程时，程序实时监控表中状态为0的数据，有则将数据取出序列化放入消息队列中，以便分析任务能依次执行，不会造成数据交叉，将任务表中状态修改为1，消息队列中的数据依次消费，反序列化消息队列中的数据，获取对应的各种条件信息，将获取到的条件插入到DataWorks对应记录数据分析任务的表中，在特殊需求执行流程的过程时，采用直接从条件中解析出对应基础数据的位置，精准的获取基础数据的方式；

2.根据权利要求1所述的基于DataWorks实现准实时大数据量的处理方法，其特征在于，所述步骤S3中，在一般需求执行流程时，将获取到的条件插入到DataWorks对应记录数据分析任务的表中之前先判断程序执行分析任务情况。

3.根据权利要求1所述的基于DataWorks实现准实时大数据量的处理方法，其特征在于，在一般需求执行流程时，分析程序代码逻辑的步骤包括以下步骤：

S105：执行具体分析逻辑；

S106：将数据结果返回到数据库对应的表。

4.根据权利要求1所述的基于DataWorks实现准实时大数据量的处理方法，其特征在于，在特殊需求执行流程时，分析程序代码逻辑的步骤包括以下步骤：

S203：依据不同的分析类型，执行不同的分析代码流程；

S204：删除任务数据信息；

S205：获取分析结果信息，导入分析结果信息到数据库。

5.根据权利要求3所述的基于DataWorks实现准实时大数据量的处理方法，其特征在于，所述S105步骤中，所述执行具体分析逻辑由数据分析类型决定。