CN111324332A - 大数据任务的处理方法及系统、电子设备、存储介质 - Google Patents
大数据任务的处理方法及系统、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111324332A CN111324332A CN201811543331.4A CN201811543331A CN111324332A CN 111324332 A CN111324332 A CN 111324332A CN 201811543331 A CN201811543331 A CN 201811543331A CN 111324332 A CN111324332 A CN 111324332A
- Authority
- CN
- China
- Prior art keywords
- task
- big data
- script
- module
- data task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/34—Graphical or visual programming
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种大数据任务的处理方法及系统、电子设备、存储介质。大数据任务的处理方法包括:将数据表和任务操作的脚本封装成不同的图形组件;所述任务操作的脚本用于对所述数据表进行分析处理;在接收到选择指令时,选择目标图形组件;拼接所述目标图形组件以生成所述大数据任务的流程图。本发明将数据表和任务操作的脚本封装成图形组件,用户通过选择、拼接图形组件即可完成大数据任务的开发,从而通过图形化和可视化简化了大数据任务的开发过程,极大地减小了编程代码的出错率,提高了大数据任务开发的效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种大数据任务的处理方法及系统、电子设备、存储介质。
背景技术
大型电商通常都会建立自己的以Hadoop(一个分布式文件系统)为基础的大数据平台。每次营销活动,都要有评估报告,这些评估报告,都是执行大数据任务导出的。目前,大数据任务的开发,一般通过工程师编写代码实现,为了确保大数据任务能够符合要求,工程师需要在大数据编写完后对脚本进行调试处理。
现有技术中的这种大数据任务生成、调试方式存在如下问题:开发大数据任务的效率低,调试时间长且容易出错。另外,若工程师对大数据内部运行原理不熟悉,其编写的大数据任务,执行效率不高,执行时间长,还会导致Hive(一个数据仓库工具)表里存在好多小文件,造成整个集市效率低。
发明内容
本发明要解决的技术问题是为了克服现有技术中通过人工编程实现大数据任务的生成方式,开发效率低且容易出错的缺陷,提供一种大数据任务的处理方法及系统、电子设备、存储介质。
本发明实施例提供一种大数据任务的处理方法,所述处理方法包括:
将数据表和任务操作的脚本封装成不同的图形组件;所述任务操作的脚本用于对所述数据表进行分析处理;
在接收到选择指令时,选择目标图形组件;
拼接所述目标图形组件以生成所述大数据任务的流程图;
根据所述流程图依次执行所述目标图形组件的脚本,实现所述大数据任务的处理。
较佳地,所述流程图为有向无环图。
较佳地,所述处理方法还包括:
根据任务类型,生成任务模板;
拼接所述目标图形组件的步骤,具体包括:
在所述任务模板中拼接所述目标图形组件;
拼接所述目标图形组件的步骤之后,还包括:
在接收到脚本生成指令时,根据所述任务模板生成所述流程图的任务脚本。
较佳地,所述处理方法还包括:
获取调试规则配置;
根据所述调试规则配置调试所述任务脚本。
较佳地,所述图形组件包括:标签;
所述标签用于描述所述图形组件的功能和/或名称。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的大数据任务的处理方法。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的大数据任务的处理方法的步骤。
本发明实施例提供一种大数据任务的处理系统,所述处理系统包括:
封装模块,用于将数据表和任务操作的脚本封装成不同的图形组件;所述任务操作的脚本用于对所述数据表进行分析处理;
选择模块,用于在接收到选择指令时,选择目标图形组件;
拼接模块,用于拼接所述目标图形组件以生成所述大数据任务的流程图。
较佳地,所述流程图为有向无环图。
较佳地,所述处理系统还包括:模板生成模块和脚本生成模块;
所述模板生成模块用于根据任务类型,生成任务模板;
所述选择模块具体用于在所述任务模板中拼接所述目标图形组件;
所述脚本生成模块用于在接收到脚本生成指令时,根据所述任务模板生成所述流程图的任务脚本,并根据所述流程图依次执行所述目标图形组件的脚本,实现所述大数据任务的处理。
较佳地,所述处理系统还包括:
获取模块,用于获取调试规则配置;
调试模块,用于根据所述调试规则配置调试所述任务脚本。
较佳地,所述图形组件包括:标签;
所述标签用于描述所述图形组件的功能和/或名称。
本发明实施例的积极进步效果在于:本发明实施例将数据表和任务操作的脚本封装成图形组件,用户通过选择、拼接图形组件即可完成大数据任务的开发,从而通过图形化和可视化简化了大数据任务的开发过程,极大地减小了编程代码的出错率,提高了大数据任务开发的效率。
附图说明
图1为本发明实施例1的大数据任务的处理方法的流程图。
图2(a)为发明实施例1的大数据任务的处理方法封装的第一图形组件示意图。
图2(b)为发明实施例1的大数据任务的处理方法封装的第二图形组件示意图。
图2(c)为利用发明实施例1的大数据任务的处理方法拼接的大数据任务的流程示意图。
图3为本发明实施例2的电子设备的结构示意图。
图4为本发明实施例4的大数据任务的处理系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的大数据任务的处理方法包括:
步骤101、将数据表和任务操作的脚本封装成不同的图形组件。
其中,任务操作的脚本用于对数据表进行分析处理,例如,对数据表进行JION操作、映射列表操作和依赖操作等。用户可根据实际需求查看图形组件的脚本功能,对脚本进行修改,进一步完善脚本。
为了区别不同的数据表和不同的任务操作,将不同的数据表和不同的脚本封装成不同的图形组件。为了提高图形组件的辨识度,可为每个图形组件设置标签,该标签用于描述图形组件的功能和/或名称等图标属性。
例如,用一个矩形框图形表示一个大数据任务,用户可自行设置任务的属性,例如任务的名称、运行周期或者运行时间等;
用一个圆柱表示一张数据表;该图标属性包括大数据表的表名称和过滤条件,例如,Hive表的过滤条件为满足分区DT(日期)=“2018-04-30”且用户ID=“zhangsan”多个过滤条件;或过滤条件为取得表的部分字段的数据,比如商品ID、商品一级品类、商品二级品类和商品三级品类;或者过滤条件为通过group by user_id语句,计算某一商品的浏览数,得到的汇总结果。
用向下的箭头表示JION操作;该图标组件可以定义大数据任务的两张来源数据表的JOIN关系。
用图2(a)示出的箭头表示映射列表操作;该图标组件用于表示两数据表的字段映射关系。比如可以st1表中的字段user_id映射对应输出到tt1表中的user_id字段,st1表中的汇总字段结果sum(商品浏览总次数)映射对应输出到tt1表中的view_num字段,还可以继续定义其他的字段映射。
用图2(b)示出的箭头表示依赖操作,也即两个大数据任务之间的依赖关系。
步骤102、存储图形组件。
以供用户在需要生成大数据任务时调用。
步骤103、在接收到选择指令时,选择目标图形组件。
步骤104、拼接目标图形组件以生成大数据任务的流程图,并根据流程图依次执行目标图形组件的脚本,实现大数据任务的处理。
本实施例中,根据业务需求,用户选择相应的目标图形组件,即可将目标图形组件拼接成大数据任务的流程图,该流程图为有向无环图(DAG),从而完成大数据任务的开发。例如,参见图2(c),图2(c)示出了一个大数据任务的流程图,该大数据任务名称为task11,st1、st2和st3表示三个数据表(来源数据表),对st1、st2和st3先建立关联关系,后进行映射操作,生成一个目标表tt1。该目标表tt1又可作为下一层级的大数据任务的来源的大数据表。通过依赖操作的图标组件即可实现多个大数据任务的拼接,以实现一个完整的大数据任务的开发,完成数据的抽取或预测等工作。
本实施例中,处理方法还包括:根据任务类型,生成任务模板。
其中,任务类型,例如Hive任务、SQL任务等。
针对不同的任务类型,生成大数据任务,必须有相应的任务模板,比如采用Hive任务类型,就要定义Hive任务模板。这样大数据任务的流程图在任务模板中拼接完成后,可生成任务脚本(任务代码),好处是模板的配置是有经验的大数据工程师完成,减化了大数据任务的开发难度。
步骤105、在接收到脚本生成指令时,根据任务模板生成流程图的任务脚本。
以便提交该生成的任务脚本到大数据平台,运行任务。
本实施例中,在将任务脚本提交至大数据平台之前,还可先对任务脚本进行调试,从而,大数据任务的处理方法还包括:
步骤106、获取调试规则配置。
其中,调试规则配置包括:Hive任务优化规则,例如,调整Map数(大数据任务运行的一个参数)、Reduce数(大数据任务运行的一个参数)、数据倾斜、合并小文件等;SparkSQL任务的优化规则,例如,调整Driver(驱动)内存、执行者内存等。
由于电商的大数据通常以亿级或10亿,百亿数量数据,如果以此数据量调试任务脚本,时间会很长,排查问题会很长。故用户可自行设置调试规则配置,通过抽取数据表中少量数据,加快开发和检测任务效果。
步骤107、根据调试规则配置调试任务脚本。
从而,将调试通过的大数据任务的任务脚本提交至大数据平台,运行任务。
本实施例中,将数据表和任务操作的脚本封装成图形组件,用户通过选择、拼接图形组件即可完成大数据任务的编写。本发明通过图形化和可视化简化了大数据任务的开发过程,极大地减小了编程代码出错率,提高了大数据任务开发、调试的效率。
实施例2
图3为本发明实施例提供的一种电子设备的结构示意图,示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图3显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:上述至少一个处理器91、上述至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。
总线93包括数据总线、地址总线和控制总线。
存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925(或实用工具),这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的大数据任务的处理方法。
电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,模型生成的电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器96通过总线93与模型生成的电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例3
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的大数据任务的处理方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所述的大数据任务的处理方法中的步骤。
实施例4
如图4所示,本实施例的一种大数据任务的处理系统包括:封装模块1、存储模块2、选择模块3和拼接模块4。
封装模块1用于将数据表和任务操作的脚本封装成不同的图形组件,并将图形组件存储至存储模块2,以供用户在需要生成大数据任务时调用。
其中,任务操作的脚本用于对数据表进行分析处理,例如,对数据表进行JION操作、映射列表操作和依赖操作等。用户可根据实际需求查看图形组件的脚本功能,对脚本进行修改,进一步完善脚本。
为了区别不同的数据表和不同的任务操作,将不同的数据表和不同的脚本封装成不同的图形组件。为了提高图形组件的辨识度,可为每个图形组件设置标签,该标签用于描述图形组件的功能和/或名称等图标属性。
选择模块3用于在接收到选择指令时,从存储模块2中选择目标图形组件。
拼接模块4用于拼接目标图形组件以生成大数据任务的流程图,并根据流程图依次执行目标图形组件的脚本,实现大数据任务的处理。
本实施例中,根据业务需求,用户选择相应的目标图形组件,即可将目标图形组件拼接成大数据任务的流程图,该流程图为有向无环图(DAG),从而完成大数据任务的开发。需要说明的是,多个大数据任务可通过依赖操作拼接成一个完整的大数据任务,完成数据的抽取或预测等工作。
本实施例中,处理系统还包括:模板生成模块5和脚本生成模块6。
模板生成模块5用于根据任务类型,生成任务模板。选择模块则在任务模板中拼接目标图形组件。其中,大数据任务的任务类型,例如Hive任务、SQL任务等。
针对不同的任务类型,生成大数据任务,必须有相应的任务模板,比如采用Hive任务类型,就要定义Hive任务模板。这样大数据任务的流程图在任务模板中拼接完成后,可生成任务脚本(任务代码),好处是模板的配置是有经验的大数据工程师完成,减化了大数据任务的开发难度。
脚本生成模块6用于在接收到脚本生成指令时,根据任务模板生成流程图的任务脚本。以便提交该生成的任务脚本到大数据平台,运行任务。
本实施例中,在将任务脚本提交至大数据平台之前,还可先对任务脚本进行调试。大数据任务的处理系统还包括:获取模块7和调试模块8。
获取模块7用于获取调试规则配置。其中,调试规则配置包括:Hive任务的优化规则,例如,调整Map数(大数据任务运行的一个参数)、Reduce数(大数据任务运行的一个参数)、数据倾斜、合并小文件等;Spark SQL任务的优化规则,例如,调整Driver(驱动)内存、执行者内存等。
由于电商的大数据通常以亿级或10亿,百亿数量数据,如果以此数据量调试任务脚本,时间会很长,排查问题会很长。故用户可自行设置调试规则配置,通过抽取数据表中少量数据,加快开发和检测任务效果。
调试模块8用于根据调试规则配置调试任务脚本。从而,将调试通过的大数据任务的任务脚本提交至大数据平台,运行任务。
本实施例中,将数据表和任务操作的脚本封装成图形组件,用户通过选择、拼接图形组件即可完成大数据任务的编写。本发明通过图形化和可视化简化了大数据任务的开发过程,极大地减小了编程代码出错率,提高了大数据任务开发、调试的效率。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种大数据任务的处理方法,其特征在于,所述处理方法包括:
将数据表和任务操作的脚本封装成不同的图形组件;所述任务操作的脚本用于对所述数据表进行分析处理;
在接收到选择指令时,选择目标图形组件;
拼接所述目标图形组件以生成所述大数据任务的流程图;
根据所述流程图依次执行所述目标图形组件的脚本,实现所述大数据任务的处理。
2.如权利要求1所述的大数据任务的处理方法,其特征在于,所述流程图为有向无环图。
3.如权利要求1所述的大数据任务的处理方法,其特征在于,所述处理方法还包括:
根据任务类型,生成任务模板;
拼接所述目标图形组件的步骤,具体包括:
在所述任务模板中拼接所述目标图形组件;
拼接所述目标图形组件的步骤之后,还包括:
在接收到脚本生成指令时,根据所述任务模板生成所述流程图的任务脚本。
4.如权利要求3所述的大数据任务的处理方法,其特征在于,所述处理方法还包括:
获取调试规则配置;
根据所述调试规则配置调试所述任务脚本。
5.如权利要求1-4中任意一项所述的大数据任务的处理方法,其特征在于,所述图形组件包括:标签;
所述标签用于描述所述图形组件的功能和/或名称。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的大数据任务的处理方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的大数据任务的处理方法的步骤。
8.一种大数据任务的处理系统,其特征在于,所述处理系统包括:
封装模块,用于将数据表和任务操作的脚本封装成不同的图形组件;所述任务操作的脚本用于对所述数据表进行分析处理;
选择模块,用于在接收到选择指令时,选择目标图形组件;
拼接模块,用于拼接所述目标图形组件以生成所述大数据任务的流程图,并根据所述流程图依次执行所述目标图形组件的脚本,实现所述大数据任务的处理。
9.如权利要求8所述的大数据任务的处理系统,其特征在于,所述流程图为有向无环图。
10.如权利要求8所述的大数据任务的处理系统,其特征在于,所述处理系统还包括:模板生成模块和脚本生成模块;
所述模板生成模块用于根据任务类型,生成任务模板;
所述选择模块具体用于在所述任务模板中拼接所述目标图形组件;
所述脚本生成模块用于在接收到脚本生成指令时,根据所述任务模板生成所述流程图的任务脚本。
11.如权利要求10所述的大数据任务的处理系统,其特征在于,所述处理系统还包括:
获取模块,用于获取调试规则配置;
调试模块,用于根据所述调试规则配置调试所述任务脚本。
12.如权利要求8-11中任意一项所述的大数据任务的处理系统,其特征在于,所述图形组件包括:标签;
所述标签用于描述所述图形组件的功能和/或名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811543331.4A CN111324332A (zh) | 2018-12-17 | 2018-12-17 | 大数据任务的处理方法及系统、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811543331.4A CN111324332A (zh) | 2018-12-17 | 2018-12-17 | 大数据任务的处理方法及系统、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111324332A true CN111324332A (zh) | 2020-06-23 |
Family
ID=71166677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811543331.4A Pending CN111324332A (zh) | 2018-12-17 | 2018-12-17 | 大数据任务的处理方法及系统、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324332A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984670A (zh) * | 2020-07-27 | 2020-11-24 | 北京天健源达科技股份有限公司 | 一种生成显示视图注释信息脚本的方法 |
CN114217885A (zh) * | 2021-12-17 | 2022-03-22 | 建信金融科技有限责任公司 | 数据处理方法、设备以及存储介质 |
-
2018
- 2018-12-17 CN CN201811543331.4A patent/CN111324332A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984670A (zh) * | 2020-07-27 | 2020-11-24 | 北京天健源达科技股份有限公司 | 一种生成显示视图注释信息脚本的方法 |
CN111984670B (zh) * | 2020-07-27 | 2024-03-19 | 北京天健源达科技股份有限公司 | 一种生成显示视图注释信息脚本的方法 |
CN114217885A (zh) * | 2021-12-17 | 2022-03-22 | 建信金融科技有限责任公司 | 数据处理方法、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309071B (zh) | 测试代码的生成方法及模块、测试方法及系统 | |
US10360141B2 (en) | Automated application test system | |
CN107291438B (zh) | 自动化脚本的生成方法、装置及电子设备 | |
US10481884B2 (en) | Systems and methods for dynamically replacing code objects for code pushdown | |
US9021440B1 (en) | System and method for automated test script generation | |
CN108845940B (zh) | 一种企业级信息系统自动化功能测试方法和系统 | |
JP2023516846A (ja) | ロボティックプロセスオートメーション(rpa)のテスト自動化ワークフローを解析するシステムおよびコンピュータ実装方法 | |
US20110123973A1 (en) | Systems and methods for visual test authoring and automation | |
US8832125B2 (en) | Extensible event-driven log analysis framework | |
US9075544B2 (en) | Integration and user story generation and requirements management | |
US9588872B2 (en) | Discovery of code paths | |
CA3036812A1 (en) | Test case generator built into data-integration workflow editor | |
US9824000B1 (en) | Testing calling code dynamically with random error injection based on user-specified configuration | |
US8661414B2 (en) | Method and system for testing an order management system | |
CN114818565A (zh) | 基于python的仿真环境管理平台、方法、设备及介质 | |
US11169910B2 (en) | Probabilistic software testing via dynamic graphs | |
CN112988298A (zh) | 可视化界面配置方法、装置、计算机设备及存储介质 | |
CN113448678A (zh) | 应用信息生成方法、部署方法及装置、系统、存储介质 | |
CN111324332A (zh) | 大数据任务的处理方法及系统、电子设备、存储介质 | |
US11789775B2 (en) | Progress visualization of computational job | |
Dumas et al. | Robotic Process Mining. | |
Ghosh et al. | A systematic review on program debugging techniques | |
US11182272B2 (en) | Application state monitoring | |
EP3931702A1 (en) | Automatic software behavior identification using execution record | |
CN114741294A (zh) | 一种页面的调试方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |