CN115794064A - 任务处理流程的配置方法、装置、电子设备及存储介质 - Google Patents
任务处理流程的配置方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115794064A CN115794064A CN202211312121.0A CN202211312121A CN115794064A CN 115794064 A CN115794064 A CN 115794064A CN 202211312121 A CN202211312121 A CN 202211312121A CN 115794064 A CN115794064 A CN 115794064A
- Authority
- CN
- China
- Prior art keywords
- operator
- task
- data
- input
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 98
- 230000000007 visual effect Effects 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013500 data storage Methods 0.000 claims description 14
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000012800 visualization Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供了一种任务处理流程的配置方法、装置、电子设备及存储介质。方法包括:在启动Flink的可视化配置界面之后,获取用户在所述可视化配置界面内拖入的输入算子,建立所述输入算子与所述输入算子对应的数据源之间的关联关系;获取所述用户在所述可视化配置界面内拖入的转换算子,建立所述转换算子与对应的所述输入算子之间的依赖关系;获取所述用户在所述可视化配置界面内拖入的输出算子,建立所述输出算子与所述转换算子之间的依赖关系;建立所述输出算子与所述输出算子对应的存储位置之间的关联关系。本申请可以实现流批一体的大数据任务配置,提升了任务配置效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种任务处理流程的配置方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的飞速发展,互联网技术的应用范围越来越广泛。目前,大数据流批一体(即流处理和批处理)开发都是通过编写代码的形式实现的,需要开发人员深入掌握大数据相关技术,而且代码开发过程较为繁琐,开发效率低下。
发明内容
本申请实施例所要解决的技术问题是提供一种任务处理流程的配置方法、装置、电子设备及存储介质,以实现流批一体的大数据任务开发,提升开发效率。
第一方面,本申请实施例提供了一种任务处理流程的配置方法,包括:
在启动Flink的可视化配置界面之后,获取用户在所述可视化配置界面内拖入的输入算子,建立所述输入算子与所述输入算子对应的数据源之间的关联关系;
获取所述用户在所述可视化配置界面内拖入的转换算子,建立所述转换算子与对应的所述输入算子之间的依赖关系;
获取所述用户在所述可视化配置界面内拖入的输出算子,建立所述输出算子与所述转换算子之间的依赖关系;
建立所述输出算子与所述输出算子对应的存储位置之间的关联关系。
可选地,所述数据源的数量与所述输入算子的数量相同,
所述建立所述输入算子与所述输入算子对应的数据源之间的关联关系,包括:
建立每个所述输入算子与每个所述输入算子对应的单个所述数据源之间的关联关系;
所述数据源包括:关系数据库、文件、分布式数据库中的至少一种。
可选地,所述建立所述转换算子与对应的所述输入算子之间的依赖关系,包括:
根据每个所述输入算子对应的数据源,确定每个所述输入算子对应的任务类型;
根据所述任务类型,获取每个所述输入算子关联的转换算子,并建立每个所述输入算子与关联的所述转换算子之间的依赖关系,以将所述输入算子从所述数据源获取的数据作为关联的所述转换算子的输入。
可选地,所述建立所述输出算子与所述输出算子对应的存储位置之间的关联关系,包括:
根据每个所述输出算子对应的同步类型,确定每个所述输出算子关联的存储位置;
建立每个所述输出算子与对应的存储位置之间的关联关系。
可选地,在所述建立所述输出算子与所述输出算子对应的存储位置之间的关联关系之后,还包括:
获取待处理任务,并将所述待处理任务发送给Flink集群;
根据所述待处理任务对应的目标数据源,确定与所述待处理任务对应的目标输入算子;
调用所述目标输入算子从所述目标数据源获取所述待处理任务对应的目标任务数据,并将所述目标任务数据发送给与所述待处理任务对应的目标转换算子;
调用所述目标转换算子对所述目标任务数据进行处理,生成任务处理数据,并将所述任务处理数据发送给所述待处理任务对应的目标输出算子;
调用所述目标输出算子将所述任务处理数据存储至所述待处理任务对应的目标存储位置。
可选地,在所述获取待处理任务,并将所述待处理任务发送给Flink集群之后,还包括:
将所述待处理任务的运行状态推送至运行监控系统,以实时检测所述待处理任务的运行状态;
根据所述运行状态,获取所述待处理任务的任务运行结果,并获取所述待处理任务的运行结果数据对应的数据存储路径。
可选地,在所述获取待处理任务,并将所述待处理任务发送给Flink集群之后,还包括:
调用所述可视化配置界面基于各运行节点的节点状态,确定各所述运行节点是否运行成功;
响应于各所述运行节点运行成功,根据所述数据存储路径,获取所述待处理任务的所述运行结果数据;
将所述运行结果数据渲染显示于所述可视化配置界面内。
第二方面,本申请实施例提供了一种任务处理流程的配置装置,包括:
输入算子获取模块,用于在启动Flink的可视化配置界面之后,获取用户在所述可视化配置界面内拖入的输入算子,建立所述输入算子与所述输入算子对应的数据源之间的关联关系;
转换算子获取模块,用于获取所述用户在所述可视化配置界面内拖入的转换算子,建立所述转换算子与对应的所述输入算子之间的依赖关系;
输出算子获取模块,用于获取所述用户在所述可视化配置界面内拖入的输出算子,建立所述输出算子与所述转换算子之间的依赖关系;
关联关系建立模块,用于建立所述输出算子与所述输出算子对应的存储位置之间的关联关系。
可选地,所述数据源的数量与所述输入算子的数量相同,
所述输入算子获取模块包括:
第一关联关系建立单元,用于建立每个所述输入算子与每个所述输入算子对应的单个所述数据源之间的关联关系;
所述数据源包括:关系数据库、文件、分布式数据库中的至少一种。
可选地,所述转换算子获取模块包括:
任务类型确定单元,用于根据每个所述输入算子对应的数据源,确定每个所述输入算子对应的任务类型;
转换算子获取单元,用于根据所述任务类型,获取每个所述输入算子关联的转换算子,并建立每个所述输入算子与关联的所述转换算子之间的依赖关系,以将所述输入算子从所述数据源获取的数据作为关联的所述转换算子的输入。
可选地,所述关联关系建立模块包括:
存储位置确定单元,用于根据每个所述输出算子对应的同步类型,确定每个所述输出算子关联的存储位置;
第二关联关系建立单元,用于建立每个所述输出算子与对应的存储位置之间的关联关系。
可选地,所述装置还包括:
待处理任务获取模块,用于获取待处理任务,并将所述待处理任务发送给Flink集群;
目标输入算子确定模块,用于根据所述待处理任务对应的目标数据源,确定与所述待处理任务对应的目标输入算子;
目标任务数据发送模块,用于调用所述目标输入算子从所述目标数据源获取所述待处理任务对应的目标任务数据,并将所述目标任务数据发送给与所述待处理任务对应的目标转换算子;
任务处理数据发送模块,用于调用所述目标转换算子对所述目标任务数据进行处理,生成任务处理数据,并将所述任务处理数据发送给所述待处理任务对应的目标输出算子;
任务处理数据存储模块,用于调用所述目标输出算子将所述任务处理数据存储至所述待处理任务对应的目标存储位置。
可选地,所述装置还包括:
运行状态检测模块,用于将所述待处理任务的运行状态推送至运行监控系统,以实时检测所述待处理任务的运行状态;
数据存储路径获取模块,用于根据所述运行状态,获取所述待处理任务的任务运行结果,并获取所述待处理任务的运行结果数据对应的数据存储路径。
可选地,所述装置还包括:
运行节点确定模块,用于调用所述可视化配置界面基于各运行节点的节点状态,确定各所述运行节点是否运行成功;
运行结果数据获取模块,用于响应于各所述运行节点运行成功,根据所述数据存储路径,获取所述待处理任务的所述运行结果数据;
运行结果数据显示模块,用于将所述运行结果数据渲染显示于所述可视化配置界面内。
第三方面,本申请实施例提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的任务处理流程的配置方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的任务处理流程的配置方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例中,通过在启动Flink的可视化配置界面之后,获取用户在可视化配置界面内拖入的输入算子,建立输入算子与输入算子对应的数据源之间的关联关系。获取用户可视化配置界面内拖入的转换算子,建立转换算子与对应的输入算子之间的依赖关系。获取用户在可视化配置界面内拖入的输出算子,建立输出算子与转换算子之间的依赖关系。建立输出算子与输出算子对应的存储位置之间的关联关系。本申请实施例通过预先提供大量的功能组件,能够大幅度提高大数据任务的开发效率。用户在可视化配置界面采用拖拉的方式即可实现流批一体的大数据任务开发,在提高任务开发效率的同时,无需用户深入掌握大数据相关技术,相比于编写代码的开发形式,能够简化配置流程。同时,本申请实施例通过与Flink框架结合可以进行实时计算,解决了数据处理性能低下的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1为本申请实施例提供的一种任务处理流程的配置方法的步骤流程图;
图2为本申请实施例提供的一种任务处理方法的步骤流程图;
图3为本申请实施例提供的一种任务配置及运行流程的示意图;
图4为本申请实施例提供的一种算子依赖关系的示意图;
图5为本申请实施例提供的一种可视化配置界面的示意图;
图6为本申请实施例提供的一种任务处理流程的配置装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
参照图1,示出了本申请实施例提供的一种任务处理流程的配置方法的步骤流程图,如图1所示,该任务处理流程的配置方法可以包括以下步骤:
步骤101:在启动Flink的可视化配置界面之后,获取用户在所述可视化配置界面内拖入的输入算子,建立所述输入算子与所述输入算子对应的数据源之间的关联关系。
本申请实施例可以应用于在Flink的可视化配置界面内进行任务节点的配置以提高开发效率的场景中。
Flink为一种开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
可以理解地,在本示例中,每个算子均对应于一个组件,通过组件调用的方式可以实现相应的功能。在具体实现中,可以由业务人员编写大量的功能组件,以便于后续任务配置时的调用。
输入算子是指预先编写的组件,可以用于从数据源中获取相关数据,以进行任务处理。
在具体实现中,进行任务处理流程的配置时,可以由用户开启Flink的可视化配置界面,进而可以由用户在可视化配置界面内拖入输入算子。如图5所示,拖入的输入算子可以包括:“Jdbc”、“File”、“Kafka”等。
在可视化配置界面内拖入输入算子之后,可以建立输入算子与输入算子对应的数据源之间的关联关系。
在实际应用中,数据源可以包括:关系数据库、文件、分布式数据库等类型的数据源,在本示例中,每个输入算子可以对应于一种数据源,即输入算子的数量与数据源的数量相同,在进行关联关系的建立时,可以建立每个输入算子与每个输入算子对应的单个数据源之间的关联关系。例如,数据源可以包括:关系数据库、文件、分布式数据库三种类型的数据源,此时,可以在可视化配置界面内拖入三个输入算子,每个输入算子可以与其中一种类型的数据源建立关联关系,例如,第一个输入算子建立与关系数据库之间的关联关系,第二输入算子建立与文件之间的关联关系,第三个输入算子建立与分布式数据库之间的关联关系等。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在进行输入算子与数据源之间的关联关系的建立时,可以由后台系统自动配置相关的连接参数,例如,可以在输入算子和数据源之间开发数据请求接口,输入算子可以通过该接口向数据源发送数据获取请求,数据源可以通过该接口向输入算子下发请求的数据等。
在建立输入算子与输入算子对应的数据源之间的关联关系之后,执行步骤102。
步骤102:获取所述用户在所述可视化配置界面内拖入的转换算子,建立所述转换算子与对应的所述输入算子之间的依赖关系。
转换算子是指用于对任务数据进行处理的一种组件。
在建立输入算子与输入算子对应的数据源之间的关联关系之后,可以由用户在可视化配置界面拖入转换算子。如图5所示,转换算子可以包括“sql语句”、“字段拆分”、“Json解析”、“新增字段”、“删除字段”、“条件过滤”、“字符串替换”、“时间格式转换”、“合并”等等组件。每个转换算子均可以实现一种对应的功能,例如,“分组聚类”算子可以对任务进行分组聚类处理,“字符串截取”组件可以截取任务数据中的字符串等。
在获取到用户在可视化配置界面内拖入的转换算子之后,可以建立转换算子与对应的输入算子之间的依赖关系。
在具体实现中,可以根据每个输入算子对应的数据源,确定每个输入算子对应的任务类型,然后根据任务类型,获取每个输入算子关联的转换算子,并建立每个输入算子与关联的转换算子之间的依赖关系,以将输入算子从数据源获取的数据作为关联的转换算子的输入。
可以理解地,针对不同任务类型的数据的处理逻辑是不相同的,针对不同类型数据的处理逻辑可以建立相应的依赖关系。
在一种具体实现中,一种任务数据可能仅需执行一项处理即可完成,如字符串截取等操作,执行一次即可完成,此时,建立该任务数据的数据源对应的输入算子与“字符串截取”转换算子之间的依赖关系即可,在输入算子从数据源获取任务数据之后,可以直接作为“字符串截取”转换算子的输入,以执行字符串截取操作即可完成任务处理。
在另一种具体实现中,一种任务数据可能需要执行多项处理才可以完成,如条件过滤、分组聚类等操作,此时,可以建立该任务数据的数据源对应的输入算子与“条件过滤”转换算子之间的依赖关系,然后建立“条件过滤”与“分组聚类”两个转换算子之间的依赖关系,即输入算子—条件过滤—分组聚类。输入算子从数据源获取的任务数据作为“条件过滤”转换算子的输入,以对任务数据进行过滤处理,然后将过滤处理后的数据作为“分组聚类”转换算子的输入,以对过滤后的数据进行分组聚类处理等。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在建立转换算子与对应的输入算子之间的依赖关系之后,执行步骤103。
步骤103:获取所述用户在所述可视化配置界面内拖入的输出算子,建立所述输出算子与所述转换算子之间的依赖关系。
输出算子是指用于将处理结果输出到指定位置进行保存的一种组件。
在建立转换算子与对应的输入算子之间的依赖关系之后,可以获取用户在可视化配置界面拖入输出算子。如图5所示,用户在可视化配置界面内拖入的输出算子包括“实时同步”、“离线同步”等算子。
在获取到用户在可视化配置界面内拖入的输出算子之后,可以建立输出算子与转换算子之间的依赖关系。具体地,可以针对转换算子,可以将转换算子中可以作为最后一个执行操作的算子与输出算子建立依赖关系,以该转换算子处理后的任务数据作为输出算子的输入,由输出算子将处理后的任务数据保存至对应存储位置。
在建立输出算子与转换算子之间的依赖关系之后,执行步骤104。
步骤104:建立所述输出算子与所述输出算子对应的存储位置之间的关联关系。
在建立输出算子与转换算子之间的依赖关系之后,可以建立输出算子与输出算子对应的存储位置之间的关联关系,例如,针对实时同步的输出算子,可以将处理后的数据存储至kafka、数据湖等。针对离线同步的输出算子,可以将处理后的数据存储至数据库、分布式数据库、文件系统等。
在任务处理流程配置完成之后,可以在进行任务处理时,将任务发送给Flink集群,调用任务对应的目标输入算子从目标数据源获取任务数据,调用目标转换算子对任务数据进行处理,并调用目标输出算子将任务处理数据保存至目标存储位置内。如图4所示,以JDBC输入算子为例,在进行任务处理时,可以通过kafka输入算子从对应的数据源拉取数据,以作为转换算子的输入,在经过转换算子:表连接、新增字段、值映射、数据去重的处理之后,可以通过输出算子JBDC输出处理后的数据至对应位置进行存储。
本申请实施例提供的上述方案,通过预先提供大量的功能组件,能够大幅度提高大数据任务的开发效率。用户在可视化配置界面采用拖拉的方式即可实现流批一体的大数据任务开发,在提高任务开发效率的同时,无需用户深入掌握大数据相关技术,相比于编写代码的开发形式,能够简化配置流程。
对于结合上述配置的任务处理流程进行任务处理的过程可以结合图2进行如下详细描述。
参照图2,示出了本申请实施例提供的一种任务处理方法的步骤流程图,如图2所示,该任务处理方法可以包括:步骤201、步骤202、步骤203、步骤204和步骤205。
步骤201:获取待处理任务,并将所述待处理任务发送给Flink集群。
在本实施例中,待处理任务是指需要进行处理的任务。
在获取到待处理任务之后,可以将待处理任务发送给Flink集群。
在Flink的可视化配置界面内预先设置后启动按钮,在用户触控该按钮之后,即可驱动流批一体后端框架(针对Flink框架进行深度封装),读取通用的配置文件,实现Source、Transform、Sink等阶段的数据处理。
在将待处理任务发送给Flink集群之后,执行步骤202。
步骤202:根据所述待处理任务对应的目标数据源,确定与所述待处理任务对应的目标输入算子。
目标数据源是指处理待处理任务时所需数据的来源。
在将待处理任务发送给Flink集群之后,可以获取待处理任务对应的目标数据源,根据该目标数据源可以确定与待处理任务对应的目标输入算子。
在根据待处理任务对应的目标数据源确定与待处理任务对应的目标输入算子之后,执行步骤203。
步骤203:调用所述目标输入算子从所述目标数据源获取所述待处理任务对应的目标任务数据,并将所述目标任务数据发送给与所述待处理任务对应的目标转换算子。
在根据待处理任务对应的目标数据源确定与待处理任务对应的目标输入算子之后,可以调用目标输入算子从目标数据源获取待处理任务对应的目标任务数据,并将目标任务数据发送给与待处理任务对应的目标转换算子。
在将目标任务数据发送给与待处理任务对应的目标转换算子之后,执行步骤204。
步骤204:调用所述目标转换算子对所述目标任务数据进行处理,生成任务处理数据,并将所述任务处理数据发送给所述待处理任务对应的目标输出算子。
在将目标任务数据发送给与待处理任务对应的目标转换算子之后,可以调用目标转换算子对目标任务数据进行处理,生成任务处理数据,并将任务处理数据发送给待处理任务对应的目标输出算子。如图4所示,拉取的目标任务数据可以经过转换算子:表连接、新增字段、值映射、数据去重的处理,之后,可以将处理后的任务处理数据发送给JBDC输出算子等。
在将任务处理数据发送给待处理任务对应的目标输出算子之后,执行步骤205。
步骤205:调用所述目标输出算子将所述任务处理数据存储至所述待处理任务对应的目标存储位置。
在将任务处理数据发送给待处理任务对应的目标输出算子之后,可以调用输出算子将任务处理数据存储至待处理任务对应的目标存储位置。
在本实施例中,在将待处理任务发送给Flink集群之后,还可以将待处理任务的运行状态推送至运行监控系统,以实时检测待处理任务的运行状态,根据运行状态获取到处理任务的任务运行结果,并获取待处理任务的运行结果数据对应的数据存储路径。即后端框架将实时任务的运行状态推送到统一的运行监控系统中,实时检测任务运行状态,后端服务基于任务类型,实时获取运行结果,如果存在相关数据输出,将输出的结果路径识别出来并保存。
在此过程中,可以调用可视化配置界面基于各运行节点的节点状态,确定各运行节点是否运行成功。响应于各运行节点运行成功,根据数据存储路径,获取待处理任务的运行结果数据。并将运行结果数据渲染显示于可视化配置界面内。即流程前端画布基于运行节点的状态进行判断,如果节点运行成功后,基于节点的相关信息请求后端服务,将存在结果输出的相关数据读取出来,前端基于基础出来的数据类型,在流程画布中自动渲染,将日志、数据、报告等节点数据动态的呈现出来。
针对任务配置及任务处理流程可以结合图3进行描述。如图3所示,在开始进行任务流程配置之后,可以拖拽Flink流批一体开发插件,开始进行任务配置。配置过程可以为,1、配置输入算子,选择不同的数据输入算子,如:关系数据库、文件、分布式数据库等,同时配置相关的连接参数,以建立数据输入算子与对应的数据源之间的关联关系。2、配置转换算子,入相关转换算子:数据过滤、字符串替换、数据脱敏、数据设置、关联、去重、聚合分组、增加删除字段、行列转置等,把拖入的转换算子和可视化配置界面中的输入算子通过连线建立依赖关系,进行算子相关信息配置,可直接选择上一级算子的元数据作为当前节点的输入参数配置。3、配置输出算子:可以在可视化配置界面拖入输出算子,配置相应的输出规则,如离线输出(数据库、分布式数据、文件系统)、实时输出(Kafka、数据湖)。4、元数据生成:对开发任务进行保存,将相关配置项进行元数据解析,针对解析好的元数据进行标准化,生成流批一体框架端可识别的配置文件。5、任务运行:前端点击运行,驱动流批一体后端框架(针对Flink框架进行深度封装),读取通用的配置文件,实现Source、Transform、Sink等阶段的数据处理。6、任务监控:后端框架将实时任务的运行状态推送到统一的运行监控系统中,实时检测任务运行状态。7、运行内容抓取:后端服务基于任务类型,实时获取运行结果,如果存在相关数据输出,将输出的结果路径识别出来并保存。8、结果数据读取:流程前端画布基于运行节点的状态进行判断,如果节点运行成功后,基于节点的相关信息请求后端服务,将存在结果输出的相关数据读取出来。9、前端基于基础出来的数据类型,在流程画布中自动渲染,将日志、数据、报告等节点数据动态的呈现出来。
在上述方案中,通过可视化的进行任务配置、运行、监控、展示,可以实现大数据任务的完整闭环,可以让任务开发能够更加直观的展示,同时,提升了产品的可靠性,在出现问题时,通过配置的任务节点能够快速查找问题根源,便于问题的及时排查解决。并且,通过将运行结果数据渲染显示于可视化界面内,可以使用户直观了解任务处理结果,同时,在出现问题时,能够快速定位问题根源。
本申请实施例提供的任务处理流程的配置方法,通过在启动Flink的可视化配置界面之后,获取用户在可视化配置界面内拖入的输入算子,建立输入算子与输入算子对应的数据源之间的关联关系。获取用户述可视化配置界面内拖入的转换算子,建立转换算子与对应的输入算子之间的依赖关系。获取用户在可视化配置界面内拖入的输出算子,建立输出算子与转换算子之间的依赖关系。建立输出算子与输出算子对应的存储位置之间的关联关系。本申请实施例通过预先提供大量的功能组件,能够大幅度提高大数据任务的开发效率。用户在可视化配置界面采用拖拉的方式即可实现流批一体的大数据任务开发,无需用户深入掌握大数据相关技术,相比于编写代码的开发形式,能够简化配置流程。同时,本申请实施例通过与Flink框架结合可以进行实时计算,解决了数据处理性能低下的问题。
参照图6,示出了本申请实施例提供的一种任务处理流程的配置装置的结构示意图,如图6所示,该任务处理流程的配置装置600可以包括以下模块:
输入算子获取模块610,用于在启动Flink的可视化配置界面之后,获取用户在所述可视化配置界面内拖入的输入算子,建立所述输入算子与所述输入算子对应的数据源之间的关联关系;
转换算子获取模块620,用于获取所述用户在所述可视化配置界面内拖入的转换算子,建立所述转换算子与对应的所述输入算子之间的依赖关系;
输出算子获取模块630,用于获取所述用户在所述可视化配置界面内拖入的输出算子,建立所述输出算子与所述转换算子之间的依赖关系;
关联关系建立模块640,用于建立所述输出算子与所述输出算子对应的存储位置之间的关联关系。
可选地,所述数据源的数量与所述输入算子的数量相同,
所述输入算子获取模块包括:
第一关联关系建立单元,用于建立每个所述输入算子与每个所述输入算子对应的单个所述数据源之间的关联关系;
所述数据源包括:关系数据库、文件、分布式数据库中的至少一种。
可选地,所述转换算子获取模块包括:
任务类型确定单元,用于根据每个所述输入算子对应的数据源,确定每个所述输入算子对应的任务类型;
转换算子获取单元,用于根据所述任务类型,获取每个所述输入算子关联的转换算子,并建立每个所述输入算子与关联的所述转换算子之间的依赖关系,以将所述输入算子从所述数据源获取的数据作为关联的所述转换算子的输入。
可选地,所述关联关系建立模块包括:
存储位置确定单元,用于根据每个所述输出算子对应的同步类型,确定每个所述输出算子关联的存储位置;
第二关联关系建立单元,用于建立每个所述输出算子与对应的存储位置之间的关联关系。
可选地,所述装置还包括:
待处理任务获取模块,用于获取待处理任务,并将所述待处理任务发送给Flink集群;
目标输入算子确定模块,用于根据所述待处理任务对应的目标数据源,确定与所述待处理任务对应的目标输入算子;
目标任务数据发送模块,用于调用所述目标输入算子从所述目标数据源获取所述待处理任务对应的目标任务数据,并将所述目标任务数据发送给与所述待处理任务对应的目标转换算子;
任务处理数据发送模块,用于调用所述目标转换算子对所述目标任务数据进行处理,生成任务处理数据,并将所述任务处理数据发送给所述待处理任务对应的目标输出算子;
任务处理数据存储模块,用于调用所述目标输出算子将所述任务处理数据存储至所述待处理任务对应的目标存储位置。
可选地,所述装置还包括:
运行状态检测模块,用于将所述待处理任务的运行状态推送至运行监控系统,以实时检测所述待处理任务的运行状态;
数据存储路径获取模块,用于根据所述运行状态,获取所述待处理任务的任务运行结果,并获取所述待处理任务的运行结果数据对应的数据存储路径。
可选地,所述装置还包括:
运行节点确定模块,用于调用所述可视化配置界面基于各运行节点的节点状态,确定各所述运行节点是否运行成功;
运行结果数据获取模块,用于响应于各所述运行节点运行成功,根据所述数据存储路径,获取所述待处理任务的所述运行结果数据;
运行结果数据显示模块,用于将所述运行结果数据渲染显示于所述可视化配置界面内。
本申请实施例提供的任务处理流程的配置装置,通过在启动Flink的可视化配置界面之后,获取用户在可视化配置界面内拖入的输入算子,建立输入算子与输入算子对应的数据源之间的关联关系。获取用户述可视化配置界面内拖入的转换算子,建立转换算子与对应的输入算子之间的依赖关系。获取用户在可视化配置界面内拖入的输出算子,建立输出算子与转换算子之间的依赖关系。建立输出算子与输出算子对应的存储位置之间的关联关系。本申请实施例通过预先提供大量的功能组件,能够大幅度提高大数据任务的开发效率。用户在可视化配置界面采用拖拉的方式即可实现流批一体的大数据任务开发,无需用户深入掌握大数据相关技术,相比于编写代码的开发形式,能够简化配置流程。同时,本申请实施例通过与Flink框架结合可以进行实时计算,解决了数据处理性能低下的问题。
本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任务处理流程的配置方法。
图7示出了本发明实施例的一种电子设备700的结构示意图。如图7所示,电子设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM703中,还可存储电子设备700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标、麦克风等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,可由处理单元701执行。例如,上述任一实施例的方法可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序被加载到RAM703并由CPU701执行时,可以执行上文描述的方法中的一个或多个动作。
另外地,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任务处理流程的配置方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端上,使得在计算机或其他可编程终端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端中还存在另外的相同要素。
以上对本申请所提供的一种任务处理流程的配置方法、一种任务处理流程的配置装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种任务处理流程的配置方法,其特征在于,包括:
在启动Flink的可视化配置界面之后,获取用户在所述可视化配置界面内拖入的输入算子,建立所述输入算子与所述输入算子对应的数据源之间的关联关系;
获取所述用户在所述可视化配置界面内拖入的转换算子,建立所述转换算子与对应的所述输入算子之间的依赖关系;
获取所述用户在所述可视化配置界面内拖入的输出算子,建立所述输出算子与所述转换算子之间的依赖关系;
建立所述输出算子与所述输出算子对应的存储位置之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述数据源的数量与所述输入算子的数量相同,
所述建立所述输入算子与所述输入算子对应的数据源之间的关联关系,包括:
建立每个所述输入算子与每个所述输入算子对应的单个所述数据源之间的关联关系;
所述数据源包括:关系数据库、文件、分布式数据库中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述建立所述转换算子与对应的所述输入算子之间的依赖关系,包括:
根据每个所述输入算子对应的数据源,确定每个所述输入算子对应的任务类型;
根据所述任务类型,获取每个所述输入算子关联的转换算子,并建立每个所述输入算子与关联的所述转换算子之间的依赖关系,以将所述输入算子从所述数据源获取的数据作为关联的所述转换算子的输入。
4.根据权利要求1所述的方法,其特征在于,所述建立所述输出算子与所述输出算子对应的存储位置之间的关联关系,包括:
根据每个所述输出算子对应的同步类型,确定每个所述输出算子关联的存储位置;
建立每个所述输出算子与对应的存储位置之间的关联关系。
5.根据权利要求1所述的方法,其特征在于,在所述建立所述输出算子与所述输出算子对应的存储位置之间的关联关系之后,还包括:
获取待处理任务,并将所述待处理任务发送给Flink集群;
根据所述待处理任务对应的目标数据源,确定与所述待处理任务对应的目标输入算子;
调用所述目标输入算子从所述目标数据源获取所述待处理任务对应的目标任务数据,并将所述目标任务数据发送给与所述待处理任务对应的目标转换算子;
调用所述目标转换算子对所述目标任务数据进行处理,生成任务处理数据,并将所述任务处理数据发送给所述待处理任务对应的目标输出算子;
调用所述目标输出算子将所述任务处理数据存储至所述待处理任务对应的目标存储位置。
6.根据权利要求5所述的方法,其特征在于,在所述获取待处理任务,并将所述待处理任务发送给Flink集群之后,还包括:
将所述待处理任务的运行状态推送至运行监控系统,以实时检测所述待处理任务的运行状态;
根据所述运行状态,获取所述待处理任务的任务运行结果,并获取所述待处理任务的运行结果数据对应的数据存储路径。
7.根据权利要求6所述的方法,其特征在于,在所述获取待处理任务,并将所述待处理任务发送给Flink集群之后,还包括:
调用所述可视化配置界面基于各运行节点的节点状态,确定各所述运行节点是否运行成功;
响应于各所述运行节点运行成功,根据所述数据存储路径,获取所述待处理任务的所述运行结果数据;
将所述运行结果数据渲染显示于所述可视化配置界面内。
8.一种任务处理流程的配置装置,其特征在于,包括:
输入算子获取模块,用于在启动Flink的可视化配置界面之后,获取用户在所述可视化配置界面内拖入的输入算子,建立所述输入算子与所述输入算子对应的数据源之间的关联关系;
转换算子获取模块,用于获取所述用户在所述可视化配置界面内拖入的转换算子,建立所述转换算子与对应的所述输入算子之间的依赖关系;
输出算子获取模块,用于获取所述用户在所述可视化配置界面内拖入的输出算子,建立所述输出算子与所述转换算子之间的依赖关系;
关联关系建立模块,用于建立所述输出算子与所述输出算子对应的存储位置之间的关联关系。
9.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7中任一项所述的任务处理流程的配置方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1至7中任一项所述的任务处理流程的配置方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211312121.0A CN115794064B (zh) | 2022-10-25 | 2022-10-25 | 任务处理流程的配置方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211312121.0A CN115794064B (zh) | 2022-10-25 | 2022-10-25 | 任务处理流程的配置方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115794064A true CN115794064A (zh) | 2023-03-14 |
CN115794064B CN115794064B (zh) | 2024-02-06 |
Family
ID=85433689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211312121.0A Active CN115794064B (zh) | 2022-10-25 | 2022-10-25 | 任务处理流程的配置方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794064B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116382877A (zh) * | 2023-05-25 | 2023-07-04 | 之江实验室 | 一种任务的执行方法、装置、存储介质及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345377A (zh) * | 2018-09-28 | 2019-02-15 | 北京九章云极科技有限公司 | 一种数据实时处理系统及数据实时处理方法 |
CN112328220A (zh) * | 2020-11-06 | 2021-02-05 | 江苏云坤信息科技有限公司 | 基于拖拽编排方式的流式数据处理系统及其处理方法 |
CN112749194A (zh) * | 2020-06-03 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 可视化的数据处理方法、装置、电子设备及可读存储介质 |
CN113821538A (zh) * | 2021-08-27 | 2021-12-21 | 中通服公众信息产业股份有限公司 | 一种基于元数据的流式数据处理系统 |
WO2022057279A1 (zh) * | 2020-09-18 | 2022-03-24 | 银联商务股份有限公司 | 可视化的图计算方法及其系统、存储介质以及电子设备 |
CN114265680A (zh) * | 2021-12-24 | 2022-04-01 | 中电信数智科技有限公司 | 一种海量数据处理方法、装置、电子设备及存储介质 |
CN114328695A (zh) * | 2021-12-31 | 2022-04-12 | 北京安天网络安全技术有限公司 | Etl数据处理方法、装置、计算设备及存储介质 |
CN114371884A (zh) * | 2021-12-31 | 2022-04-19 | 南京星云数字技术有限公司 | Flink计算任务的处理方法、装置、设备和存储介质 |
CN114817241A (zh) * | 2022-03-25 | 2022-07-29 | 北京邮电大学 | 基于Flink引擎计算节点动态扩展的任务评价方法和装置 |
CN114969085A (zh) * | 2022-03-16 | 2022-08-30 | 杭州半云科技有限公司 | 一种基于可视化技术算法建模的方法和系统 |
CN115145652A (zh) * | 2022-06-27 | 2022-10-04 | 南京领行科技股份有限公司 | 一种数据处理任务的创建方法、装置、设备及介质 |
-
2022
- 2022-10-25 CN CN202211312121.0A patent/CN115794064B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345377A (zh) * | 2018-09-28 | 2019-02-15 | 北京九章云极科技有限公司 | 一种数据实时处理系统及数据实时处理方法 |
CN112749194A (zh) * | 2020-06-03 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 可视化的数据处理方法、装置、电子设备及可读存储介质 |
WO2022057279A1 (zh) * | 2020-09-18 | 2022-03-24 | 银联商务股份有限公司 | 可视化的图计算方法及其系统、存储介质以及电子设备 |
CN112328220A (zh) * | 2020-11-06 | 2021-02-05 | 江苏云坤信息科技有限公司 | 基于拖拽编排方式的流式数据处理系统及其处理方法 |
CN113821538A (zh) * | 2021-08-27 | 2021-12-21 | 中通服公众信息产业股份有限公司 | 一种基于元数据的流式数据处理系统 |
CN114265680A (zh) * | 2021-12-24 | 2022-04-01 | 中电信数智科技有限公司 | 一种海量数据处理方法、装置、电子设备及存储介质 |
CN114328695A (zh) * | 2021-12-31 | 2022-04-12 | 北京安天网络安全技术有限公司 | Etl数据处理方法、装置、计算设备及存储介质 |
CN114371884A (zh) * | 2021-12-31 | 2022-04-19 | 南京星云数字技术有限公司 | Flink计算任务的处理方法、装置、设备和存储介质 |
CN114969085A (zh) * | 2022-03-16 | 2022-08-30 | 杭州半云科技有限公司 | 一种基于可视化技术算法建模的方法和系统 |
CN114817241A (zh) * | 2022-03-25 | 2022-07-29 | 北京邮电大学 | 基于Flink引擎计算节点动态扩展的任务评价方法和装置 |
CN115145652A (zh) * | 2022-06-27 | 2022-10-04 | 南京领行科技股份有限公司 | 一种数据处理任务的创建方法、装置、设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116382877A (zh) * | 2023-05-25 | 2023-07-04 | 之江实验室 | 一种任务的执行方法、装置、存储介质及电子设备 |
CN116382877B (zh) * | 2023-05-25 | 2023-09-05 | 之江实验室 | 一种任务的执行方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115794064B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11394767B2 (en) | Central repository of configuration files and two-way replication of search node configuration files | |
US20200118030A1 (en) | Tool for machine-learning data analysis | |
US9979608B2 (en) | Context graph generation | |
US20200081885A1 (en) | Self-contained files for generating a visualization of query results | |
US10853399B2 (en) | User interface search tool for locating and summarizing data | |
US9710300B2 (en) | Flow topology of computer transactions | |
US11003691B2 (en) | Determining affinities for data set summarizations | |
US20190286509A1 (en) | Hierarchical fault determination in an application performance management system | |
US20140237554A1 (en) | Unified platform for big data processing | |
US11556592B1 (en) | Storage estimate generation | |
US11494395B2 (en) | Creating dashboards for viewing data in a data storage system based on natural language requests | |
CN110750458A (zh) | 大数据平台测试方法、装置、可读存储介质及电子设备 | |
US8918766B2 (en) | Analysis of propagated information using annotated forests | |
US20210096981A1 (en) | Identifying differences in resource usage across different versions of a software application | |
US20200348996A1 (en) | Application performance management system with dynamic discovery and extension | |
CN111651365B (zh) | 接口自动化测试方法及装置 | |
CN115794064B (zh) | 任务处理流程的配置方法、装置、电子设备及存储介质 | |
US20160366033A1 (en) | Compacted messaging for application performance management system | |
CN113962597A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN113157790A (zh) | 一种核聚变曲线编辑方法、系统、终端及介质 | |
US10848371B2 (en) | User interface for an application performance management system | |
CN112434831A (zh) | 故障排查方法、装置、存储介质及计算机设备 | |
CN113495723B (zh) | 一种调用功能组件的方法、装置及存储介质 | |
US11836869B1 (en) | Generating three-dimensional data visualizations in an extended reality environment | |
CN113326407A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |