CN115168457A - 一种基于元数据管理的可视化处理方法和可视化处理装置 - Google Patents

一种基于元数据管理的可视化处理方法和可视化处理装置 Download PDF

Info

Publication number
CN115168457A
CN115168457A CN202210473258.8A CN202210473258A CN115168457A CN 115168457 A CN115168457 A CN 115168457A CN 202210473258 A CN202210473258 A CN 202210473258A CN 115168457 A CN115168457 A CN 115168457A
Authority
CN
China
Prior art keywords
task
target
target task
metadata
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210473258.8A
Other languages
English (en)
Inventor
陆琨
丁士海
郭磊
王海英
李磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Anhui Industrial Co Ltd
Original Assignee
China Tobacco Anhui Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Anhui Industrial Co Ltd filed Critical China Tobacco Anhui Industrial Co Ltd
Priority to CN202210473258.8A priority Critical patent/CN115168457A/zh
Publication of CN115168457A publication Critical patent/CN115168457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于元数据管理的可视化处理方法和可视化处理装置,该可视化处理方法包括:接收用户设置的数据处理流程;针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。根据所述可视化处理方法和可视化处理装置,将有关系的目标任务串联起来形成对应的数据和任务的溯源拓扑关系图,实现了数据处理的可视化效果,解决了海量任务杂乱无章、无法有效治理和维护的问题。

Description

一种基于元数据管理的可视化处理方法和可视化处理装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种基于元数据管理的可视化处理方法和可视化处理装置。
背景技术
随着互联网技术的高速发展,数据产生的速度、数量也随之增加。为了有效利用这些隐藏价值的数据,数据在传输前或者传输过程中通常伴随着二次加工处理的需求,比如对敏感数据的加解密、脱敏,半结构化数据的解析、数据的二次计算等。
然而,通过传统的SQL语句对数据的处理存在不能实现可视化的效果、不能查看数据的血缘关系的问题。因此,如何实现数据处理的可视化效果成为了亟需解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种基于元数据管理的可视化处理方法和可视化处理装置,通过对数据处理流程中的每个目标任务进行元数据关系注册,形成数据处理流程的元数据溯源图,将有关系的目标任务串联起来形成对应的数据和任务的溯源拓扑关系图,以便用户根据溯源拓扑关系图对任务进行有效的管理,实现了数据处理的可视化效果。并且数据处理流程中集成了数据治理生命周期全链路来自于不同任务平台的、各个阶段的数据任务,提供了统一的数据任务调度和监控功能,实现了数据治理全生命周期数据任务的调度和监控,解决了现有技术中海量任务杂乱无章、无法有效治理和维护的问题。
第一方面,本申请实施例提供了一种基于元数据管理的可视化处理方法,所述可视化处理方法包括:
接收用户设置的数据处理流程;其中,所述数据处理流程中包括至少一个来自于不同任务平台的、能够实现不同功能逻辑的目标任务;
针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;其中,所述初始配置信息用于表征所述目标任务的处理方式,所述元数据关系图用于表征该目标任务的数据血缘关系;
基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。
进一步的,所述基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图,包括:
获取用户在设置该目标任务时所确定的至少一个初始配置信息;
根据该目标任务的任务类型,在至少一个初始配置信息中获取至少一个目标配置信息;其中,所述目标配置信息用于生成所述元数据关系图;
针对于每个目标配置信息,根据该目标配置信息所属的数据属性,确定该目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系;其中,所述连接关系包括连接线和所述连接线上的箭头指向;
将所述目标配置信息以及该目标任务对应的拓扑节点添加到所述可视化界面中,并根据所述目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系进行绘制,以生成该目标任务对应的元数据关系图。
进一步的,所述基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图,包括:
基于所述数据处理流程,确定每个目标任务的执行顺序;
针对于每个目标任务,基于该目标任务的执行顺序,从所述数据处理流程中确定出在该目标任务之前和/或之后执行的相邻任务;
将该目标任务的元数据关系图与所述相邻任务的元数据关系图进行连接,以生成所述数据处理流程对应的元数据溯源图。
进一步的,在所述生成所述数据处理流程对应的元数据溯源图之后,所述可视化处理方法还包括:
在执行所述数据处理流程对应的任务实例时,监控每个目标任务的执行情况;
针对于每个目标任务,基于该目标任务的执行情况,在所述元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染所述执行情况对应的显示颜色。
进一步的,所述可视化处理方法还包括:
针对于所述数据处理流程中的每个目标任务,按照预先设定的负载策略,在预先配置的至少一个执行节点中确定出该目标任务对应的目标执行节点,以使所述目标执行节点执行该目标任务。
进一步的,所述按照预先设定好的负载策略,为该目标任务选择对应的目标执行节点,包括:
当所述负载策略为随机负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
对至少一个执行节点进行随机选取,以确定出该目标任务对应的目标执行节点;
当所述负载策略为加权轮询负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的可用内存信息和可用负载信息;
利用该执行节点的可用内存信息和可用负载信息进行加权计算,得到该执行节点的可用资源值;
利用每个执行节点的可用资源值对每个执行节点进行排序,并将多个执行节点中可用资源值最高的执行节点作为所述目标执行节点;
当所述负载策略为并发负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的并发任务实例数量;
利用每个执行节点的并发任务实例数量对每个执行节点进行排序,并将多个执行节点中并发任务实例数量最少的执行节点作为所述目标执行节点;
当所述负载策略为资源加权负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的内存空闲信息和任务实例空闲信息;
利用该执行节点的内存空闲信息和任务实例空闲信息进行加权计算,得到该执行节点的空闲资源值;
利用每个执行节点的空闲资源值对每个执行节点进行排序,并将多个执行节点中空闲资源值最高的执行节点作为所述目标执行节点。
进一步的,在确定出每个目标任务对应的目标执行节点之后,所述可视化处理方法还包括:
针对于每个目标任务,判断该目标任务对应的目标执行节点的任务执行时间是否大于或等于执行时间阈值;
若是,则确定该目标任务出现运行异常,并基于所述负载策略为该目标任务重新确定对应的目标执行节点;
按照预先设定的通知方式,向预先设定的被通知用户发送该目标任务的异常运行信息,以使所述被通知用户根据所述异常运行信息判定该目标任务的运行情况。
第二方面,本申请实施例还提供了一种基于元数据管理的可视化处理装置,所述可视化处理装置包括:
接收模块,用于接收用户设置的数据处理流程;其中,所述数据处理流程中包括至少一个来自于不同任务平台的、能够实现不同功能逻辑的目标任务;
元数据关系图确定模块,用于针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;其中,所述初始配置信息用于表征所述目标任务的处理方式,所述元数据关系图用于表征该目标任务的数据血缘关系;
元数据溯源图确定模块,用于基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的基于元数据管理的可视化处理方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的基于元数据管理的可视化处理方法的步骤。
本申请实施例提供的基于元数据管理的可视化处理方法,首先接收用户设置的数据处理流程;然后,针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;最后,基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。与现有技术中的方法相比,本申请通过对数据处理流程中的每个目标任务进行元数据关系注册,对整个流程进行数据血缘关系分析,形成数据处理流程的元数据溯源图,将有关系的目标任务串联起来形成对应的数据和任务的溯源拓扑关系图,以便用户根据溯源拓扑关系图对任务进行有效的管理,实现了数据处理的可视化效果。并且数据处理流程中集成了数据治理生命周期全链路来自于不同任务平台的、各个阶段的数据任务,提供了统一的数据任务调度和监控功能,实现了数据治理全生命周期数据任务的调度和监控,解决了现有技术中海量任务杂乱无章、无法有效治理和维护的问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种基于元数据管理的可视化处理方法的流程图;
图2为本申请实施例所提供的元数据关系图的生成方法的流程图;
图3为本申请实施例所提供的一种基于元数据管理的可视化处理装置的结构示意图;
图4为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
随着互联网技术的高速发展,数据产生的速度、数量也随之增加。为了有效利用这些隐藏价值的数据,数据在传输前或者传输过程中通常伴随着二次加工处理的需求,比如对敏感数据的加解密、脱敏,半结构化数据的解析、数据的二次计算等。然而,通过传统的SQL语句对数据的处理存在不能实现可视化的效果、不能查看数据的血缘关系的问题。因此,如何实现数据处理的可视化效果成为了亟需解决的问题。
在企业信息化建设“数字化”这个大的时代背景下,数据中台方法论、大数据以及人工智能等一系列数字化技术逐渐成熟并在各个行业中实践出一定成果,企业的数字化转型已经逐渐成为企业未来发展的趋势。在新的数字化建设背景下,企业信息化建设的方式已经逐渐发生转变,从传统的烟囱式应用构建模式逐渐转变为以企业级数据平台为核心底座的数据运营模式,数据的业务分析及处理逻辑逐渐从传统的烟囱式应用中下沉到企业级数据平台中去。即传统的企业应用建设各个应用各自汇集数据,在应用中进行数据加工和业务分析,各个应用能力服务无法得到有效复用、共享及扩展,形成了企业“数据孤岛”问题。而新的模式下,企业级数据中心负责汇集所有数据,制定数据标准规范,梳理数据资产,并根据业务需求进行业务分析和数据加工,将处理后的数据结果开放共享给企业应用,这种模式下业务需求能得到快速敏捷高效的响应,且数据能力能得到高度的复用及共享,且基于数据平台的数据加工模式较传统的应用分析模式而言,因各类工具平台使得数据加工分析的方式更加便捷、可调整、可扩展、可管理。
为了推动企业数字化转型,打造企业级数据底座,建设面向全域的新型数据处理平台,解决复杂多变的海量数据处理场景问题。需要从以下几个方面进行考虑设计:数据处理能力方面,面对海量业务应用分析需求的下沉,数据平台需要具备全面的数据处理能力,已解决复杂多变的数据处理需求。包含传统的应用函数处理能力、Shell及Python等脚本处理能力,基于数据库SQL及存储过程的数据加工方式、大数据的实时和离线处理能力、数据的AI算法分析能力等等,且需要根据行业技术的发展提供相应处理能力的扩展能力。扩展性方面,因为是企业级数据平台的数据处理系统,面对的是海量业务的处理分析,故而数据处理的任务量会随着业务的扩展、数据的运营不断扩展。故从架构上考虑,数据的处理节点支持动态的扩展。任务的管理能力,因需支持大量的数据处理任务,故而对任务的管理调度,监控告警,以及任务链路追踪方面都有一定的要求。比如某项数据指标发生异常情况,能根据元数据快速追踪到数据对象及任务的ETL链路,精准高效的定位并解决问题。
为了实现上述可扩展的分布式调度的多元数据处理系统,调研业内主流的数据调度引擎,主要包含xxl-job、Ooize以及Apache的dolphinscheduler。ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。解决数据研发ETL错综复杂的依赖关系,不能直观监控任务健康状态等问题。
但是在企业级数据平台的落地时,DolphinScheduler无法进行任务及数据血缘关系的分析注册。在企业海量数据任务的场景下,没有数据血缘关系分析,导致任务管理杂乱无章,数据或指标无法有效进行任务链路追踪和溯源。DolphinScheduler是面向大数据分析处理而设计的一款可视化分布式调度系。在数据处理任务方面不管是大数据的MR、Flink、Spark,还是基于数据库的SQL、Produce,基本上都是基于脚本或者程序的,需要对使用人员有非常高的专业知识要求。当前DolphinScheduler缺乏一款可视化、易操作的,基于处理组件拖拽配置的数据处理任务构建方式。DolphinScheduler重点面向的是数据处理阶段,而在企业级数据平台架构中,任务的调度需要涵盖数据探查、数据集成、数据开发处理、数据质量检测、数据共享等全生命周期,而DolpinScheduler在于其他第三方数据任务的集成调度方面有些欠缺。无法做到一站式数据全生命周期任务构建和调度。
基于此,本申请实施例提供了一种基于元数据管理的可视化处理方法,通过对数据处理流程中的每个目标任务进行元数据关系注册,对整个流程进行数据血缘关系分析,形成数据处理流程的元数据溯源图,将有关系的目标任务串联起来形成对应的数据和任务的溯源拓扑关系图,以便用户根据溯源拓扑关系图对任务进行有效的管理,实现了数据处理的可视化效果。并且数据处理流程中集成了数据治理生命周期全链路来自于不同任务平台的、各个阶段的数据任务,提供了统一的数据任务调度和监控功能,实现了数据治理全生命周期数据任务的调度和监控,解决了现有技术中海量任务杂乱无章、无法有效治理和维护的问题。
请参阅图1,图1为本申请实施例所提供的一种基于元数据管理的可视化处理方法的流程图。如图1中所示,本申请实施例提供的基于元数据管理的可视化处理方法,包括:
S101,接收用户设置的数据处理流程。
需要说明的是,数据处理流程指的是对数据进行处理的数据处理过程。其中,数据处理流程中包括至少一个来自于不同任务平台的、能够实现不同功能逻辑的目标任务。这里,目标任务指的是数据处理流程中所配置的,用于对数据进行不同处理的任务。根据本申请提供的实施例,目标任务可与来自于不同的任务平台,用来实现不同的功能逻辑,作为示例,目标任务可以包含数据集成平台、数据管控平台、数据发布平台在内的数据探查任务、数据质量检查任务、数据对账任务、数据处理任务、数据集成任务数据共享任务等。
这里,应注意,上述对于目标任务的举例仅为实例,实际中,目标任务不限于上述例子。
在数据平台的落地场景中,面对一个业务需求场景,需要在数据平台的各个子系统中构建相应功能的数据任务,按照生命周期包含数据探查、数据集成、数据开发处理、数据质量检查、数据对账、数据共享等不同阶段的数据任务,同一个数据需求的数据治理任务往往分布在不同的系统中,彼此分开调度监控,极为不便,且无法构建数据治理链路及依赖关系,无法有效的实现任务间的依赖调度。为了解决这类问题,本申请使用统一的一站式的任务集成和调度系统,系统通过集成数据治理生命周期全链路各个阶段数据任务,包含数据集成平台、数据管控平台、数据发布平台在内的数据探查任务、数据集成任务、数据质量检查任务、数据对账任务、数据共享任务,并以此提供统一的数据任务调度和监控功能,系统通过各平台提供的集成接口实现跨平台调度和监控能力,并以此实现数据治理全生命周期数据任务的调度和监控。
根据本申请提供的实施例,用户在设置数据处理流程时,可以根据数据治理逻辑绘制作业DAG(Directed Acyclic Graph)工作流的方式,将不同系统的数据任务进行整合构建数据治理全生命周期数据任务依赖关系,实现数据治理全生命周期的作业一站式管理和调度。本申请在数据处理平台之上扩展了一种基于DIPE引擎组件可视化拖拽的流批一体数据任务构建方法。该方法在任务构建页面通过拖拽数据抽取、处理、加载组件并绘制任务处理拓扑,并根据组件要求进行组件参数配置,以此方式快速直观的构建数据集成、处理或共享任务。DIPE引擎除了可视化拖拽的简单易用的特点之外,较SQL、Hive、Flink等数据处理方式而言有其独特的优势:DIPE引擎运行的独立性,类似SQL、Hive、Flink等都是需要依托数据库、Yarn等进行运行,而DIPE引擎任务独立运行在引擎节点,依赖性较小。DIPE支持多源异构数据的处理,不同于SQL、Hive等,基本上仅支持数据库内数据的计算处理,而DIPE支持的数据源是依托抽取组件的全面性,基本上支持数据文件、消息中间件、数据库、大数据存储组件、分布式对象存储等各类数据源。另因DIPE是将各类数据源数据进行抽取再处理,故DIPE强大的多源数据融合计算处理的能力也是非常强大。DIPE引擎强大的扩展性,DIPE引擎支持根据要求定制各类组件,包含数据源的抽取和加载组件,比如根据业务扩展Http接口、WebSocket服务等数据抽取组件等,支持根据业务特性进行抽取和加载组件的定制,使得DIPE引擎高度适配业务生产场景。
同时DIPE引擎支持根据业务进行处理组件的定制,以及结合可扩展的自定义函数进行动态的数据处理,极大的提升了可视化组件的处理能力,极大的丰富了DIPE引擎的数据处理能力。该方式极大的降低了数据处理平台的使用门槛,让非技术的业务人员能够快速高效的进行数据治理。并且能够高效的将分散在各个子平台的数据治理生命周期全链路的任务进行集成和统一管理调度,通过将这些分散的任务以构建作业DAG工作流的方式进行关联,统一的管理和调度,从而解决任务间依赖调度的问题。
针对于上述步骤S101,在具体实施时,接收用户构建的数据处理流程,该数据处理流程中包括至少一个来自于不同任务平台的、能够实现不同功能逻辑的目标任务。
S102,针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图。
需要说明的是,任务类型指的是目标任务所对应的类型。根据本申请提供的实施例,不同的目标任务会对应不同的任务类型,任务类型可以包括数据探查任务、数据质量检测任务、数据对账任务、数据集成任务、数据处理任务、数据共享任务等。初始配置任务指的是用户在设置目标任务时所确定的一些配置参数,初始配置信息用于表征目标任务的处理方式。例如,用户想要配置数据集成组件时,初始配置信息可以是所需的数据表的名称和数据表中的数据字段中的至少一个,其中,数据表的名称可以是客户表、用户表等已有的数据表的名称。数据表中的数据属性对应的字段可以是例如姓名、性别这种在已有数据表中的数据属性。元数据指的是描述数据的数据,对数据及信息资源进行描述,是关于数据的更高层次抽象,元数据记录了系统包含的数据、数据的表示、数据的来源,以及在系统中的流转关系。元数据的应用广泛,可以使用其构建业务术语、数据标准、数据字典、数据资产目录、数据血缘关系以及数据地图等。元数据关系注册指的就是利用元数据来构建目标任务对应的数据血缘关系。元数据关系图就是进行元数据关系注册后所得到的结果,用于表征目标任务中的数据血缘关系。数据血缘能够表示数据与数据之间的关系,反映数据在系统中的生产加工流程,主要包括集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系。
这里,应注意,上述对于初始配置信息的举例仅为实例,实际中,初始配置信息不限于上述例子。
针对上述步骤S102,在具体实施时,针对于获取到的数据处理流程中的每个目标任务,根据该目标任务的任务类型以及用户在配置该目标任务时确定的初始配置信息,对该目标任务进行元数据关系注册,并在用户的可视化界面中生成该目标任务对应的元数据关系图。
请参阅图2,图2为本申请实施例所提供的元数据关系图的生成方法的流程图。如图2中所示,所述基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图,包括:
S201,获取用户在设置该目标任务时所确定的至少一个初始配置信息。
针对于上述步骤S201,在具体实施时,由于用户在配置数据处理流程中的目标任务时,可以选取该目标任务对应的组件模板,在组件模板中填写初始配置信息,以使该目标任务可以满足用户的业务需求。因此,需要获取用户在设置该目标任务时所确定的至少一个初始配置信息。
S202,根据该目标任务的任务类型,在至少一个初始配置信息中获取至少一个目标配置信息。
需要说明的是,目标配置信息指的是初始配置信息中的某一个或某几个配置信息,用于生成该目标任务的元数据关系图。
针对上述步骤S202,在具体实施时,由于数据处理流程中的每个目标任务的任务类型不同,在绘制元数据关系图时所需的配置信息也不同,不同的任务类型的目标任务的元数据关系图的表现形式不太一致。因此需要根据目标任务的任务类型来确定绘制元数据关系图时需要哪些配置信息,也就是根据该目标任务的任务类型,在至少一个初始配置信息中获取至少一个目标配置信息。延续步骤S101中的实施例,当目标任务包含数据探查任务、数据质量检查任务、数据对账任务、数据处理任务、数据集成任务数据共享任务时,数据探查任务、数据质量检测任务和数据对账任务属于一类,这类任务元数据关系图表达的是数据任务与一个或多个数据对象或者对象属性的关系,比如数据探查任务,该类任务元数据图表达的是针对一个或多个数据对象或对象属性的探查关系,所以这类任务需要注册任务和数据对象的关系,也就是,所需的目标配置信息可以为数据对象。而数据集成任务、数据处理任务、数据共享任务这三种又是另一类,这一类表达的是一种ETL(Extract-Transform-Load,抽取、转换、加载)任务,表达的是从一种或多种数据对象中进行数据抽取、加工、加载到一个或多个目的对象中去。该类关系图不仅需要注册任务和数据对象的关系,还要注册来源对象属性至目的对象属性的映射关系,也就是,所需的目标配置信息还包括来源数据和目标数据。作为一种可选的实施方式,目标配置信息还可以包括某个表中的某个或某几个数据字段,例如数据集成任务,用户需要获取数据表A中某个数据字段下的所有数据,例如获取客户表中的客户姓名和客户性别,这时用户在配置数据集成任务时则需要填写“来源数据”为数据表A以及数据表A中的数据字段客户姓名和客户性别,这时数据表A、客户姓名和客户性别都为生成元数据关系图所需的目标配置信息。
S203,针对于每个目标配置信息,根据该目标配置信息所属的数据属性,确定该目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系。
需要说明的是,数据属性指的是目标配置信息所对应的数据类型,具体的,可以根据用户在组件模板中配置的方式来确定目标配置信息所属的数据属性。目标任务对应的拓扑节点指的是在可视化界面中目标任务所对应的位置节点。目标配置信息与拓扑节点的连接关系包括目标配置信息与拓扑节点之间的连接线和连接线上的箭头指向。
针对上述步骤S203,在具体实施时,针对与该目标任务的每个目标配置信息,根据该目标配置信息所属的数据属性,确定该目标配置信息在元数据关系图中与该目标任务对应的拓扑节点之间的连接关系。作为示例,当用户在配置数据处理任务时,需要配置来源数据是哪些数据表或哪些数据,经过数据处理后得到的目标数据是什么样的数据表或数据,因此在数据处理组件模板中会存在“来源数据”和“目标数据”这两项的配置信息确定框,用户需在“来源数据”的配置信息确定框中输入或选择所需的源表,比如数据表A,在“目标数据”的配置信息确定框中输入或选择想要得到的目标表,比如数据表B,这样在步骤S203中获取到的数据处理任务的目标配置信息就可以为“数据表A”和“数据表B”。然后确定数据表A的数据属性为来源数据,数据表B的数据属性为目标数据。根据正常的数据处理流程可知,需要对来源数据进行数据处理后可以得到目标数据,这时就可以确定目标配置信息在元数据关系图中与该目标任务对应的拓扑节点之间的连接关系,“数据表A”需要通过连接线一连接拓扑节点,然后再由拓扑节点通过连接线二连接“数据表B”,连接线一上的箭头指向应指向拓扑节点,连接线二上的箭头指向应指向“数据表B”。
S204,将所述目标配置信息以及该目标任务对应的拓扑节点添加到所述可视化界面中,并根据所述目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系进行绘制,以生成该目标任务对应的元数据关系图。
针对上述步骤S204,在具体实施时,绘制元数据关系图所需的目标配置信息以及每个目标配置信息在元数据关系图中与该目标任务对应的拓扑节点之间的连接关系均确定好之后,分别将每个目标配置信息以及该目标任务对应的拓扑节点添加到可视化界面中,并根据步骤S203中确定出的每个目标配置信息在元数据关系图中与该目标任务对应的拓扑节点之间的连接关系进行绘制,以得到该目标任务对应的元数据关系图。
S103,基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。
需要说明的是,元数据溯源图指的是最终生成的、用于表征整个数据处理流程内数据血缘关系的示意图,用来反映整个数据处理流程的生产加工过程。
针对上述步骤S103,在具体实施时,由于数据处理流程中配置好了每个目标任务的执行顺序,则可以根据数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在可视化界面中生成数据处理流程对应的元数据溯源图,以使用户可以根据该元数据溯源图查看数据处理流程中的数据的血缘关系。
针对于上述步骤S103,所述基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图,包括:
步骤1031,基于所述数据处理流程,确定每个目标任务的执行顺序。
针对上述步骤1031,在具体实施时,基于用户设置的数据处理流程,确定每个目标任务的执行顺序。作为示例,当数据处理流程中目标任务A连接目标任务B,目标任务B连接目标任务C时,则目标任务的执行顺序为先执行目标任务A,再执行目标任务B,最后执行目标任务C。
步骤1032,针对于每个目标任务,基于该目标任务的执行顺序,从所述数据处理流程中确定出在该目标任务之前和/或之后执行的相邻任务。
针对上述步骤1032,在具体实施时,在每个目标任务的执行顺序都确定出来后,针对于每个目标任务,基于该目标任务的执行顺序,从数据处理流程中确定出在该目标任务之前和/或之后执行的相邻任务。延续步骤1031中的实施例,目标任务的执行顺序为先执行目标任务A,再执行目标任务B,最后执行目标任务C时,针对于目标任务A,与之相邻的相邻任务则为目标任务B;针对于目标任务B,与之相邻的相邻任务则为目标任务A和目标任务C;针对于C,与之相邻的相邻任务则为目标任务B。
步骤1033,将该目标任务的元数据关系图与所述相邻任务的元数据关系图进行连接,以生成所述数据处理流程对应的元数据溯源图。
针对于上述步骤1033,在具体实施时,每个目标任务的相邻任务均确定出后,可视化界面中已经绘制出了每个目标任务的元数据关系图,这时针对于每个目标任务,将该目标任务的元数据关系图与相邻任务的元数据关系图相连,即可生成数据处理流程对应的元数据溯源图。
本申请设计实现了一种基于元数据管理的可视化处理方法,在数据处理平台中,通过任务管理页面进行不同阶段的目标任务构建,构建完成后,对每个目标任务进入任务的元数据关系注册,处理平台后台会根据目标任务的任务类型和目标任务的配置信息进行元数据的自动解析,若任务支持自动解析情况,即利用上述实施例提供的步骤进行元数据关系注册,页面自动渲染任务涉及的来源数据和目标数据,并根据解析的关系数据自动绘制该目标任务的元数据关系图。之后也可经过人工确认调整后即可提交注册。若是平台不支持自动解析的任务类型,在注册页面需要手动选择数据源下的数据对象,在通过拖拽绘线的方式手动进行元数据关系注册。为了打造易管理、易维护的全生命周期数据任务调度平台,将数据治理生命周期全链路包含数据探查、数据集成、数据开发处理、数据质量检查、数据对账、数据共享等阶段的数据任务进行统一的元数据关系注册和管理,基于统一的元数据体系对数据治理链路进行分析和维护。
作为一种可选的实施方式,在所述生成所述数据处理流程对应的元数据溯源图之后,所述可视化处理方法还包括:
(1)在执行所述数据处理流程对应的任务实例时,监控每个目标任务的执行情况。
(2)针对于每个目标任务,基于该目标任务的执行情况,在所述元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染所述执行情况对应的显示颜色。
需要说明的是,执行情况指的是目标任务的执行情况,这里,执行情况可以包括“执行中”、“执行成功”、“执行失败”等,对此本申请不做具体限定。
针对上述步骤(1)和步骤(2),在具体实施时,当在执行数据处理流程对应的任务实例时,监控数据处理流程中的每个目标任务的执行情况。针对于每个目标任务,基于该目标任务的执行情况,在元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染执行情况对应的显示颜色。例如,当目标任务的执行情况为“执行中”时,可以在元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染黄色;当目标任务的执行情况为“执行成功”时,可以在元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染绿色;当目标任务的执行情况为“执行失败”时,可以在元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染红色。这样方便用户直接根据元数据溯源图中目标任务对应的拓扑节点所处的位置上的显示颜色来判断该目标任务的执行情况。
这里,应注意,上述对于不同的执行情况所对应的显示颜色的举例仅为实例,实际中,不同的执行情况所对应的显示颜色不限于上述例子。
根据本申请提供的实施例,因数据平台最终以数据对象表、数据指标或数据服务对内外提供数据资源服务。当数据服务、指标以及数据对象表提供的数据出现异常的情况下,可以通过元数据快速的进行服务、指标或表的溯源分析,通过可视化元数据溯源图的方式进行展示分析,元数据溯源图中通过不同的颜色对元数据或目标任务进行状态标记。当数据处理流程中出现故障异常时,可以通过拓扑节点的颜色快速的定位和分析到数据链路故障,并点击拓扑节点进行数据表、任务、指标、服务的跳转,查看其详情、数据以及运行日志,快速的分析定位故障环节并进行故障恢复。另支持快速的出具故障影响报告,推进数据故障的快速运维。根据本申请提供的基于元数据管理的可视化处理方法,基于元数据的管理方式,将海量不同业务场景的数据任务、数据对象、指标和服务进行关联,以最高效的方式进行管理和维护,并通过元数据的溯源关系图上对目标任务的颜色标记来标识任务的状态(执行成功、执行失败、执行中等状态),通过可视化的方式快速的定位数据链路的问题,并支持快速的定位问题的元数据节点,并跳转至该任务进行运行详细排查,快速的分析和解决故障问题。
作为一种可选的实施方式,所述可视化处理方法还包括:
针对于所述数据处理流程中的每个目标任务,按照预先设定的负载策略,在预先配置的至少一个执行节点中确定出该目标任务对应的目标执行节点,以使所述目标执行节点执行该目标任务。
需要说明的是,负载策略指的是需先设定好的,用于为目标任务选取所需的执行节点的策略。执行节点指的是预先配置好的、用于执行任务的节点。目标执行节点指的是针对于数据处理流程中的目标任务,执行该目标任务对应的任务实例的执行节点。
针对上述步骤,在具体实施时,针对于数据处理流程中的每个目标任务,按照预先设定的负载策略,在预先配置的至少一个执行节点中确定出该目标任务对应的目标执行节点,以使目标执行节点执行该目标任务。根据本申请提供的实施例,所有的执行节点上线后,会创建注册任务,周期性获取节点及任务实例运行信息进行分布式节点的信息注册。而调度节点会对分布式节点进行监听,当调度节点需要对任务进行分布式调度时会根据获取到的执行节点的实时注册信息结合配置的负载策略进行执行节点的选择,并将任务发送至指定的执行节点进行调度运行。
根据本申请提供的实施例,预先设定的负载策略可以包括四种:随机负载策略、加权轮询负载策略、并发负载策略以及资源加权负载策略。这里,随机负载策略是在已注册的所有执行节点中进行随机选择;加权轮询负载策略是根据执行节点的资源值计算后,根据高低排序后再进行轮训选择执行节点;并发负载策略是根据获取的执行节点的并发任务实例数,按照最低并发原则进行执行节点选择;资源加权负载策略是根据获取的执行节点的资源空闲情况以及插件并发任务实例数进行加权计算,选取最优资源的执行节点进行调度。所述按照预先设定好的负载策略,为该目标任务选择对应的目标执行节点,包括:
当所述负载策略为随机负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
对至少一个执行节点进行随机选取,以确定出该目标任务对应的目标执行节点。
针对上述步骤,当负载策略为随机负载策略时,针对于配置好的至少一个执行节点,对至少一个执行节点进行随机选取,以确定出该目标任务对应的目标执行节点。
当所述负载策略为加权轮询负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
A:针对于每个执行节点,确定该执行节点的可用内存信息和可用负载信息。
B:利用该执行节点的可用内存信息和可用负载信息进行加权计算,得到该执行节点的可用资源值。
C:利用每个执行节点的可用资源值对每个执行节点进行排序,并将多个执行节点中可用资源值最高的执行节点作为所述目标执行节点。
针对上述步骤A到步骤C,在具体实施时,当负载策略为加权轮询负载策略时,针对于配置好的每个执行节点,确定该执行节点当前的可用内存信息以及可用负载信息,然后利用可用内存信息和可用负载信息进行加权计算,以得到该执行节点的可用资源值。统计每个执行节点的可用资源值,利用每个执行节点的可用资源值对每个执行节点进行排序,并将多个执行节点中可用资源值最高的执行节点作为该目标任务对应的目标执行节点。
当所述负载策略为并发负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
a:针对于每个执行节点,确定该执行节点的并发任务实例数量。
b:利用每个执行节点的并发任务实例数量对每个执行节点进行排序,并将多个执行节点中并发任务实例数量最少的执行节点作为所述目标执行节点。
这里,并发任务实例数量指的是执行节点所挂载的任务实例的数量。
针对上述步骤a和步骤b,在具体实施时,针对于每个执行节点,确定该执行节点的并发任务实例数量。统计每个执行节点的并发任务实例数量,利用每个执行节点的并发任务实例数量对每个执行节点进行排序,并将多个执行节点中并发任务实例数量最少的执行节点作为该目标任务对应的目标执行节点。
当所述负载策略为资源加权负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
I:针对于每个执行节点,确定该执行节点的内存空闲信息和任务实例空闲信息。
II:利用该执行节点的内存空闲信息和任务实例空闲信息进行加权计算,得到该执行节点的空闲资源值。
III:利用每个执行节点的空闲资源值对每个执行节点进行排序,并将多个执行节点中空闲资源值最高的执行节点作为所述目标执行节点。
针对上述步骤I到步骤III,在具体实施时,当负载策略为资源加权负载策略时,针对于配置好的每个执行节点,确定该执行节点当前的内存空闲信息以及任务实例空闲信息,然后利用内存空闲信息和任务实例空闲信息进行加权计算,以得到该执行节点的空闲资源值。统计每个执行节点的空闲资源值,利用每个执行节点的空闲资源值对每个执行节点进行排序,并将多个执行节点中空闲资源值最高的执行节点作为该目标任务对应的目标执行节点。
根据本申请提供的实施例,往往利用调度节点来对执行节点进行选取和任务调度,因此本申请还提供了一种主从选举机制,该机制主要是为了分布式调度中调度组件的主从架构而设计,调度组件的主要功能是提供rest任务调度接口,以及组件本身Quartz定时器进行周期性任务调度。本调度组件主从设计的思路是在实施是部署运行多个调度组件,一个Master多个Slave,Master对外提供rest调度服务以及启动自身调度能力(包含定时Quzrtz等),而Slave所有能力休眠,停止其调度能力。当Master出现故障时,Slave自动竞选成Leader,而竞选成Leader的Slave组件开放rest服务并启动调度能力,实现调度组件的高可用性。而调度组件的Leader竞选机制是通过LeaderLatch机制实现,主要是通过在创建分布式节点锁,通过竞选机制选择master节点。
在确定出每个目标任务对应的目标执行节点之后,所述可视化处理方法还包括:
i:针对于每个目标任务,判断该目标任务对应的目标执行节点的任务执行时间是否大于或等于执行时间阈值。
需要说明的是,任务执行时间指的是目标任务对应的目标执行节点所执行的时间。执行时间阈值指的是预先设定的,用于判断目标任务是否存在异常的时间阈值。例如,可以设定执行时间阈值为5分钟,对此本申请不做具体限定。
针对上述步骤i,在具体实施时,针对于数据处理流程中的每个目标任务,首先获取该目标任务对应的目标执行节点的任务执行时间,然后判断该任务执行时间是否大于或等于执行时间阈值,若是,则执行步骤ii。
ii:若是,则确定该目标任务出现运行异常,并基于所述负载策略为该目标任务重新确定对应的目标执行节点。
针对上述步骤ii,在具体实施时,当判断该目标任务对应的目标执行节点的任务执行时间大于或等于预先设定的执行时间阈值时,则认为该目标任务出现运行异常,并根据预先设定的负载策略为该目标任务重新确定对应的目标执行节点,并将该目标任务对应的任务实例调度到重新选择的目标执行节点上进行执行。具体的,如何根据先设定的负载策略为该目标任务重新确定对应的目标执行节点的方法与本申请上述实施例所提供的方法相同,在此不再过多赘述。根据本申请提供的实施例,任务的超时机制基于worker执行组件进行统一设计实现,适用于包含DIPE引擎在内的所有任务插件。主要功能是通过任务调度JSON配置中指定任务的超时时长,当任务运行超过指定的超时时长时,则判定任务运行异常,自动进行任务终止操作。该机制主要是为了避免任务因配置或操作问题出现的任务运行假死挂起或超出预期的运行时长等,同时解决任务假死造成的监控状态不一致的问题,避免异常的状态误导监控人员。该项机制亦避免了有多项任务构成的处理作业中因前置任务假死或超时导致的后续任务无法及时运行的情况。该部分机制基于调度节点的分布式负载策略实现,任务在配置时可指定任务异常重试次数以及异常重试间隔,这两项配置指标表示任务启动后在指定的次数内出现异常情况下,会经过指定的异常重试间隔时间(min分钟),进行重启,即调度节点会根据分布式的负载策略进行运行节点选择并重新进行任务的执行节点调度运行。
根据本申请提供的实施例,DIPE引擎或部分任务插件在分布式调度中,相同任务在不同的时间,生成的任务实例在不同的节点进行调度,部分配置信息需要共享。比如在数据的CDC增量同步场景下,每次任务实例启动都是按照最新的增量值进行增量同步,任务结束时将最后的增量值进行存储,以供下次调度时进行CDC增量抽取。在单节点调度时通常的解决方案是将这些配置值存储至本地工作目录下以任务ID生成的配置文件中去。而在分布式调度中,需要进行配置的共享,而整体的调度方案中,为了实现组件间的弱耦合,降低组件间的依赖,以及降低数据库的连接压力,故总体设计中执行节点是不会和数据库进行通信的。故而采取分布式节点间配置的共享。按照分布式节点进行配置节点构建,并按照业务需要进行配置信息的注册和共享。
iii:按照预先设定的通知方式,向预先设定的被通知用户发送该目标任务的异常运行信息,以使所述被通知用户根据所述异常运行信息判定该目标任务的运行情况。
需要说明的是,通知方式指的是预先设定的、异常运行信息的发送方法,例如通过邮件发送、通过短信发送或通过钉钉发送等,对此本申请不做具体限定。异常运行信息可以包括异常时间、异常任务、异常信息、异常数据等关键信息。
针对上述步骤iii,在具体实施时,当某个目标任务出现异常运行后,按照预先设定的通知方式,向预先设定的被通知用户发送该目标任务的异常运行信息,以使被通知用户根据异常运行信息判定该目标任务的运行情况。根据本申请提供的实施例,该部分机制基于任务调度的元数据库监听进行实现,实现过程主要是通过监听元数据库的任务状态变更信息,结合任务配置过程中指定的通知策略(都不通知、仅失败通知、仅成功通知、都通知)、通知方式(邮件、短信、钉钉、微信公号),被通知用户等配置,当任务状态变更符合指定的通知策略时,按照指定的通知类型向通知人进行发送通知。该机制实现了任务运行的全方位监控,及时有效的进行任务异常的通知,使得监控人员快速的进行异常任务的跟踪和恢复,更加有效的保障任务的持续稳定运行。
本申请实施例提供的基于元数据管理的可视化处理方法,首先接收用户设置的数据处理流程;然后,针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;最后,基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。
与现有技术中的方法相比,本申请通过对数据处理流程中的每个目标任务进行元数据关系注册,对整个流程进行数据血缘关系分析,形成数据处理流程的元数据溯源图,将有关系的目标任务串联起来形成对应的数据和任务的溯源拓扑关系图,以便用户根据溯源拓扑关系图对任务进行有效的管理,实现了数据处理的可视化效果。并且数据处理流程中集成了数据治理生命周期全链路来自于不同任务平台的、各个阶段的数据任务,提供了统一的数据任务调度和监控功能,实现了数据治理全生命周期数据任务的调度和监控,解决了现有技术中海量任务杂乱无章、无法有效治理和维护的问题。
请参阅图3,图3为本申请实施例所提供的一种基于元数据管理的可视化处理装置的结构示意图。如图3中所示,所述可视化处理装置300包括:
接收模块301,用于接收用户设置的数据处理流程;其中,所述数据处理流程中包括至少一个来自于不同任务平台的、能够实现不同功能逻辑的目标任务;
元数据关系图确定模块302,用于针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;其中,所述初始配置信息用于表征所述目标任务的处理方式,所述元数据关系图用于表征该目标任务的数据血缘关系;
元数据溯源图确定模块303,用于基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。
进一步的,所述元数据关系图确定模块302在基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图时,所述元数据关系图确定模块302还用于:
获取用户在设置该目标任务时所确定的至少一个初始配置信息;
根据该目标任务的任务类型,在至少一个初始配置信息中获取至少一个目标配置信息;其中,所述目标配置信息用于生成所述元数据关系图;
针对于每个目标配置信息,根据该目标配置信息所属的数据属性,确定该目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系;其中,所述连接关系包括连接线和所述连接线上的箭头指向;
将所述目标配置信息以及该目标任务对应的拓扑节点添加到所述可视化界面中,并根据所述目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系进行绘制,以生成该目标任务对应的元数据关系图。
进一步的,所述元数据溯源图确定模块303在用于所述基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图时,所述元数据溯源图确定模块303还用于:
基于所述数据处理流程,确定每个目标任务的执行顺序;
针对于每个目标任务,基于该目标任务的执行顺序,从所述数据处理流程中确定出在该目标任务之前和/或之后执行的相邻任务;
将该目标任务的元数据关系图与所述相邻任务的元数据关系图进行连接,以生成所述数据处理流程对应的元数据溯源图。
进一步的,所述可视化处理装置300还包括监控模块,在所述生成所述数据处理流程对应的元数据溯源图之后,所述监控模块用于:
在执行所述数据处理流程对应的任务实例时,监控每个目标任务的执行情况;
针对于每个目标任务,基于该目标任务的执行情况,在所述元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染所述执行情况对应的显示颜色。
进一步的,所述可视化处理装置300还包括执行节点确定模块,所述执行节点确定模块用于:
针对于所述数据处理流程中的每个目标任务,按照预先设定的负载策略,在预先配置的至少一个执行节点中确定出该目标任务对应的目标执行节点,以使所述目标执行节点执行该目标任务。
进一步的,所述执行节点确定模块在用于按照预先设定好的负载策略,为该目标任务选择对应的目标执行节点时,所述执行节点确定模块用于:
当所述负载策略为随机负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
对至少一个执行节点进行随机选取,以确定出该目标任务对应的目标执行节点;
当所述负载策略为加权轮询负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的可用内存信息和可用负载信息;
利用该执行节点的可用内存信息和可用负载信息进行加权计算,得到该执行节点的可用资源值;
利用每个执行节点的可用资源值对每个执行节点进行排序,并将多个执行节点中可用资源值最高的执行节点作为所述目标执行节点;
当所述负载策略为并发负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的并发任务实例数量;
利用每个执行节点的并发任务实例数量对每个执行节点进行排序,并将多个执行节点中并发任务实例数量最少的执行节点作为所述目标执行节点;
当所述负载策略为资源加权负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的内存空闲信息和任务实例空闲信息;
利用该执行节点的内存空闲信息和任务实例空闲信息进行加权计算,得到该执行节点的空闲资源值;
利用每个执行节点的空闲资源值对每个执行节点进行排序,并将多个执行节点中空闲资源值最高的执行节点作为所述目标执行节点。
进一步的,所述可视化处理装置300还包括异常监控模块,在确定出每个目标任务对应的目标执行节点之后,所述异常监控模块用于:
针对于每个目标任务,判断该目标任务对应的目标执行节点的任务执行时间是否大于或等于执行时间阈值;
若是,则确定该目标任务出现运行异常,并基于所述负载策略为该目标任务重新确定对应的目标执行节点;
按照预先设定的通知方式,向预先设定的被通知用户发送该目标任务的异常运行信息,以使所述被通知用户根据所述异常运行信息判定该目标任务的运行情况。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1以及图2所示方法实施例中的基于元数据管理的可视化处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的基于元数据管理的可视化处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于元数据管理的可视化处理方法,其特征在于,所述可视化处理方法包括:
接收用户设置的数据处理流程;其中,所述数据处理流程中包括至少一个来自于不同任务平台的、能够实现不同功能逻辑的目标任务;
针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;其中,所述初始配置信息用于表征所述目标任务的处理方式,所述元数据关系图用于表征该目标任务的数据血缘关系;
基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。
2.根据权利要求1所述的可视化处理方法,其特征在于,所述基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图,包括:
获取用户在设置该目标任务时所确定的至少一个初始配置信息;
根据该目标任务的任务类型,在至少一个初始配置信息中获取至少一个目标配置信息;其中,所述目标配置信息用于生成所述元数据关系图;
针对于每个目标配置信息,根据该目标配置信息所属的数据属性,确定该目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系;其中,所述连接关系包括连接线和所述连接线上的箭头指向;
将所述目标配置信息以及该目标任务对应的拓扑节点添加到所述可视化界面中,并根据所述目标配置信息在所述元数据关系图中与该目标任务对应的拓扑节点之间的连接关系进行绘制,以生成该目标任务对应的元数据关系图。
3.根据权利要求1所述的可视化处理方法,其特征在于,所述基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图,包括:
基于所述数据处理流程,确定每个目标任务的执行顺序;
针对于每个目标任务,基于该目标任务的执行顺序,从所述数据处理流程中确定出在该目标任务之前和/或之后执行的相邻任务;
将该目标任务的元数据关系图与所述相邻任务的元数据关系图进行连接,以生成所述数据处理流程对应的元数据溯源图。
4.根据权利要求1所述的可视化处理方法,其特征在于,在所述生成所述数据处理流程对应的元数据溯源图之后,所述可视化处理方法还包括:
在执行所述数据处理流程对应的任务实例时,监控每个目标任务的执行情况;
针对于每个目标任务,基于该目标任务的执行情况,在所述元数据溯源图中该目标任务对应的拓扑节点所处的位置上渲染所述执行情况对应的显示颜色。
5.根据权利要求1所述的可视化处理方法,其特征在于,所述可视化处理方法还包括:
针对于所述数据处理流程中的每个目标任务,按照预先设定的负载策略,在预先配置的至少一个执行节点中确定出该目标任务对应的目标执行节点,以使所述目标执行节点执行该目标任务。
6.根据权利要求5所述的可视化处理方法,其特征在于,所述按照预先设定好的负载策略,为该目标任务选择对应的目标执行节点,包括:
当所述负载策略为随机负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
对至少一个执行节点进行随机选取,以确定出该目标任务对应的目标执行节点;
当所述负载策略为加权轮询负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的可用内存信息和可用负载信息;
利用该执行节点的可用内存信息和可用负载信息进行加权计算,得到该执行节点的可用资源值;
利用每个执行节点的可用资源值对每个执行节点进行排序,并将多个执行节点中可用资源值最高的执行节点作为所述目标执行节点;
当所述负载策略为并发负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的并发任务实例数量;
利用每个执行节点的并发任务实例数量对每个执行节点进行排序,并将多个执行节点中并发任务实例数量最少的执行节点作为所述目标执行节点;
当所述负载策略为资源加权负载策略时,通过以下步骤确定出该目标任务对应的目标执行节点:
针对于每个执行节点,确定该执行节点的内存空闲信息和任务实例空闲信息;
利用该执行节点的内存空闲信息和任务实例空闲信息进行加权计算,得到该执行节点的空闲资源值;
利用每个执行节点的空闲资源值对每个执行节点进行排序,并将多个执行节点中空闲资源值最高的执行节点作为所述目标执行节点。
7.根据权利要求5所述的可视化处理方法,其特征在于,在确定出每个目标任务对应的目标执行节点之后,所述可视化处理方法还包括:
针对于每个目标任务,判断该目标任务对应的目标执行节点的任务执行时间是否大于或等于执行时间阈值;
若是,则确定该目标任务出现运行异常,并基于所述负载策略为该目标任务重新确定对应的目标执行节点;
按照预先设定的通知方式,向预先设定的被通知用户发送该目标任务的异常运行信息,以使所述被通知用户根据所述异常运行信息判定该目标任务的运行情况。
8.一种基于元数据管理的可视化处理装置,其特征在于,所述可视化处理装置包括:
接收模块,用于接收用户设置的数据处理流程;其中,所述数据处理流程中包括至少一个来自于不同任务平台的、能够实现不同功能逻辑的目标任务;
元数据关系图确定模块,用于针对于所述数据处理流程中的每个目标任务,基于该目标任务的任务类型和初始配置信息,对该目标任务进行元数据关系注册,以在可视化界面中生成该目标任务对应的元数据关系图;其中,所述初始配置信息用于表征所述目标任务的处理方式,所述元数据关系图用于表征该目标任务的数据血缘关系;
元数据溯源图确定模块,用于基于所述数据处理流程中的每个目标任务的执行顺序,以及每个目标任务的元数据关系图,在所述可视化界面中生成所述数据处理流程对应的元数据溯源图。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的基于元数据管理的可视化处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的基于元数据管理的可视化处理方法的步骤。
CN202210473258.8A 2022-04-29 2022-04-29 一种基于元数据管理的可视化处理方法和可视化处理装置 Pending CN115168457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210473258.8A CN115168457A (zh) 2022-04-29 2022-04-29 一种基于元数据管理的可视化处理方法和可视化处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210473258.8A CN115168457A (zh) 2022-04-29 2022-04-29 一种基于元数据管理的可视化处理方法和可视化处理装置

Publications (1)

Publication Number Publication Date
CN115168457A true CN115168457A (zh) 2022-10-11

Family

ID=83483642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210473258.8A Pending CN115168457A (zh) 2022-04-29 2022-04-29 一种基于元数据管理的可视化处理方法和可视化处理装置

Country Status (1)

Country Link
CN (1) CN115168457A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116954587A (zh) * 2023-09-19 2023-10-27 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法
CN117193990A (zh) * 2023-11-08 2023-12-08 建信金融科技有限责任公司 http接口的调度管理方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116954587A (zh) * 2023-09-19 2023-10-27 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法
CN116954587B (zh) * 2023-09-19 2023-12-19 中电科大数据研究院有限公司 前端智能拖拽引擎、建立数据处理流程的方法
CN117193990A (zh) * 2023-11-08 2023-12-08 建信金融科技有限责任公司 http接口的调度管理方法、装置、设备及存储介质
CN117193990B (zh) * 2023-11-08 2024-02-23 建信金融科技有限责任公司 http接口的调度管理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109684053B (zh) 大数据的任务调度方法和系统
US10592561B2 (en) Co-located deployment of a data fabric service system
US11663033B2 (en) Design-time information based on run-time artifacts in a distributed computing cluster
US9710322B2 (en) Component dependency mapping service
US10216542B2 (en) Resource comparison based task scheduling method, apparatus, and device
US9336331B2 (en) Detecting, using, and sharing it design patterns and anti-patterns
US11983512B2 (en) Creation and management of data pipelines
CN105719126B (zh) 一种基于生命周期模型的互联网大数据任务调度的系统及方法
US20080065400A1 (en) System and Method for Producing Audit Trails
CN115168457A (zh) 一种基于元数据管理的可视化处理方法和可视化处理装置
CN114925045B (zh) 大数据集成和管理的PaaS平台
US8965959B2 (en) Processing event instance data in a client-server architecture
US20070226231A1 (en) Systems and methods for managing business issues
US11706084B2 (en) Self-monitoring
JP7009643B2 (ja) 実行可能論理を用いて構造化データアイテムを処理するためのキーベースのロギング
CN110457371A (zh) 数据管理方法、装置、存储介质及系统
CN103365946A (zh) 数据库性能分析
JP5989194B1 (ja) テスト管理システムおよびプログラム
Gupta et al. Process cube for software defect resolution
CN112506957A (zh) 工作流依赖关系的确定方法及装置
CN110336889B (zh) 一种数值天气预报模式运行智能监控平台和监控方法
CN113722141B (zh) 数据任务的延迟原因确定方法、装置、电子设备及介质
US20150242786A1 (en) Integrating process context from heterogeneous workflow containers to optimize workflow performance
AU2016228248A1 (en) Systems and methods for generating blueprints for enterprises
US20210342783A1 (en) System and method of automated extraction and visualization of knowledge about enterprise technology, personnel and business functions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination