CN111090665A - 一种数据任务调度方法及调度系统 - Google Patents

一种数据任务调度方法及调度系统 Download PDF

Info

Publication number
CN111090665A
CN111090665A CN201911122296.3A CN201911122296A CN111090665A CN 111090665 A CN111090665 A CN 111090665A CN 201911122296 A CN201911122296 A CN 201911122296A CN 111090665 A CN111090665 A CN 111090665A
Authority
CN
China
Prior art keywords
data
task
scheduling
execution
scheduling system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911122296.3A
Other languages
English (en)
Inventor
陈宇智
周建平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Sugo Technology Co ltd
Original Assignee
Guangdong Sugo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Sugo Technology Co ltd filed Critical Guangdong Sugo Technology Co ltd
Priority to CN201911122296.3A priority Critical patent/CN111090665A/zh
Publication of CN111090665A publication Critical patent/CN111090665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例大数据技术领域,公开了一种数据任务调度方法及调度系统,该方法包括:对数据仓库中的执行语句进行语法分析,以获得语法树;其中,所述语法树为所述执行语句的语法分析结果;根据所述语法分析结果,获取元数据信息;将所述元数据信息与数据调度任务进行关联,以获得所述元数据信息与所述数据调度任务之间的关系网;将所述关系网存储至数据库中;根据所述数据库中的所述关系网,构建数据地图。本发明实施例,能够在数据调度任务的层面上融合元数据的分析与管理,从元数据与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。

Description

一种数据任务调度方法及调度系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据任务调度方法及调度系统。
背景技术
近年来,随着移动互联网技术的不断发展,大数据的更新换代也越来越快,而现目前对大数据的周期执行大多数是采用数据任务调度的方法。这些数据任务调度方法或是使用linux自带的crontab工具设置本地定时调度任务,或是基于分布式的调度任务,以获得高质量与高集成度的决策支持数据。
但在实践中发现,上述的数据任务调度方法在设计和实现上往往更关注于任务,容易导致任务和元数据分离,进而使元数据出现管理混乱与数据结果前后不一致的问题,不利于任务流程的分析优化、数据的安全管控与问题排查。
发明内容
本发明实施例公开一种数据任务调度方法及调度系统,能够在数据调度任务的层面上融合元数据的分析与管理,从元数据与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。
本发明实施例第一方面公开一种数据任务调度方法,所述方法包括:
对数据仓库中的执行语句进行语法分析,以获得语法树;其中,所述语法树为所述执行语句的语法分析结果;
根据所述语法分析结果,获取元数据信息;
将所述元数据信息与数据调度任务进行关联,以获得所述元数据信息与所述数据调度任务之间的关系网;
将所述关系网存储至数据库中;
根据所述数据库中的所述关系网,构建数据地图。
作为一种可选的实施方式,在本发明实施例第一方面中,在对数据仓库中的执行语句进行语法分析之前,所述方法还包括:
在接收到用于启动所述数据调度任务的指令之后,控制用户管理界面输出至用户设备的电子显示屏上;其中,所述用户管理界面至少包括用户管理的权限认证与所述数据调度任务的修改权限;
在所述权限认证通过之后,定时获取通过所述修改权限提交的任务;其中,所述任务中至少包括所述数据调度任务;
控制调度系统执行所述对数据仓库中的执行语句进行语法分析的步骤。作为一种可选的实施方式,在本发明实施例第一方面中,
在定时获取通过所述修改权限提交的任务之后,以及控制调度系统执行所述对数据仓库中的执行语句进行语法分析的步骤之前,所述方法还包括:
获取所述执行语句与所述任务之间的依赖关系图;
根据所述依赖关系图,确定所述执行语句的分配路径;
生成待执行任务实例;
以及,在构建数据地图之后,所述方法还包括:
检测所述待执行任务实例中是否出现变化;若是,从所述数据地图中获取所述变化的来源。
作为一种可选的实施方式,在本发明实施例第一方面中,在从所述数据地图中获取所述变化的来源之后,所述方法还包括:
检测所述变化是否会影响所述数据仓库内其他数据的输出;若是,从所述数据仓库中获取受影响数据;
根据所述受影响数据,确定所述变化对所述数据调度任务的第一影响。
作为一种可选的实施方式,在本发明实施例第一方面中,
在控制用户管理界面输出至用户设备的电子显示屏上之后,以及所述权限认证通过之前,所述方法还包括:
检测所述用户管理界面能否顺利显示在所述电子显示屏上;若否,控制备用用户管理界面输出至所述电子显示屏上。
作为一种可选的实施方式,在本发明实施例第一方面中,所述控制调度系统执行所述对数据仓库中的执行语句进行语法分析的步骤,包括:
控制所述调度系统横向扩展部署在多个不同的服务设备上,并在这些服务设备上执行所述对数据仓库中的执行语句进行语法分析的步骤。
作为一种可选的实施方式,在本发明实施例第一方面中,所述方法还包括:
在所述数据调度任务执行完毕之后,通过所述数据地图获取所述数据调度任务的结果数据与所述执行语句之间的关系;
在任一所述执行语句被修改后,根据所述结果数据与所述执行语句之间的关系,检测与被修改的任一所述执行语句对应的所述结果数据是否被修改;若是,确定出所述执行语句对所述数据调度任务的第二影响。本发明实施例第二方面公开一种调度系统,所述调度系统包括:
分析单元,用于对数据仓库中的执行语句进行语法分析,以获得语法树;其中,所述语法树为所述执行语句的语法分析结果;
第一获取单元,用于根据所述语法分析结果,获取元数据信息;
关联单元,用于将所述元数据信息与所述数据仓库进行关联,以获得所述元数据信息与所述数据仓库之间的第一关系网;
存储单元,用于将所述第一关系网存储至数据库中;
第二获取单元,用于根据所述数据库中每一所述第一关系网,构建数据地图;其中,所述数据地图为任一所述元数据信息与任一所述数据仓库之间的第二关系网。
本发明实施例第三方面公开一种调度系统,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的一种数据任务调度方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种数据任务调度方法。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,调度系统能够对数据仓库中的执行语句进行语法分析,并获得语法树,其中,该语法树为上述执行语句的语法分析结果,调度系统根据该语法分析结果,获取元数据信息,并将上述元数据信息与数据调度任务进行关联,以获得上述元数据信息与上述数据调度任务之间的关系网,调度系统将该关系网存储至数据库中,并根据上述数据库中的关系网,构建数据地图。可见,实施本发明实施例,能够在数据调度任务的层面上融合元数据的分析与管理,从元数据与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种数据任务调度方法的流程示意图;
图2是本发明实施例公开的另一种数据任务调度方法的流程示意图;
图3是本发明实施例公开的另一种数据任务调度方法的流程示意图;
图4是本发明实施例公开的一种调度系统的结构示意图;
图5是本发明实施例公开的另一种调度系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种数据任务调度方法及调度系统,能够从执行语句与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。
实施例一
请参阅图1,图1是本发明实施例公开的一种数据任务调度方法的流程示意图。如图1所示,该数据任务调度方法可以包括以下步骤。
101、调度系统对数据仓库中的执行语句进行语法分析,以获得语法树;其中,上述语法树为上述执行语句的语法分析结果。
本发明实施例中,该调度系统可以由软件和/或硬件实现,本发明实施例不作任何的限制。
作为一种可选的实施方式,本发明实施例中,在调度系统对数据仓库中的执行语句进行语法分析之前,调度系统可以获取与调度相关的调度信息;其中,该调度信息至少包括数据仓库结构信息、处理过程的运行日志、任务名、任务的开始时间、任务的结束时间、执行脚本、状态和记录数,而数据仓库结构信息至少包括数据的表名、字段名、字段中文名、字段描述、字段类型和长度。
作为一种可选的实施方式,本发明实施例中,调度系统可以自动从数据仓库中直接获取执行语句,并对该执行语句进行语法分析;
和/或,调度系统可接收用户输入的执行语句,并对输入的执行语句进行词法分析,将执行语句中包含的表或字段分隔成独立的数据,得到数据序列;
以及,调度系统可以对分隔出的数据序列进行语法分析,判断数据序列中是否存在语法错误,并将存在语法错误的数据过滤掉;
以及,在调度系统将存在语法错误的数据过滤掉之后,调度系统可以根据最终的语法分析结果获取得到语法树。
作为一种可选的实施方式,本发明实施例中,在调度系统执行步骤101之前,调度系统可以将用户输入的数据明细表导入数据仓库中;其中,该数据明细库中的所有数据表中含有上述执行语句;
以及,调度系统可以从上述数据明细表中选择需要分析的执行语句,并将该执行语句导入分析平台;
以及,在上述执行语句导入分析平台之后,调度系统可以按照一定的规则将该执行语句进行分类,以方便快速查找,同时可以为缺失中文备注的表和字段手动添加中文备注,增加分析平台的可用性;
以及,在执行语句进行分类之后,调度系统可以在分析平台上对执行语句进行语法分析,并可以对该语法分析结果进行筛选、分析以及处理等,以获得有效的数据形成语法树。
102、调度系统根据上述语法分析结果,获取元数据信息。
作为一种可选的实施方式,本发明实施例中,调度系统可以将语法树中含有的数据转化成相对应的元数据,并计算各个元数据之间的语义相似度和特征项权重,并可以根据该语义相似度和特征项权重获取有效的元数据信息。
举例来说,调度系统可以通过计算元数据之间的语义相似度和特征项权重,得到执行语句的关键信息,并根据该关键信息获取得到有效的元数据信息。
103、调度系统将上述元数据信息与数据调度任务进行关联,以获得上述元数据信息与上述数据调度任务之间的关系网。
作为一种可选的实施方式,本发明实施例中,数据仓库中含有多个层级的元数据信息。其中,该元数据信息可以包括元数据信息中不同表格或字段之间的映射关系,以及数据抓取规则和任务调度的节点分配规则等各层级元数据信息的驱动规则。
作为一种可选的实施方式,本发明实施例中,上述元数据信息还可以包括调度系统中的任务数据流动信息和执行情况信息。
104、调度系统将上述关系网存储至数据库中。
作为一种可选的实施方式,本发明实施例中,调度系统还可以将调度系统中的任务数据流动信息、执行情况信息以及元数据信息存储至数据库中。
作为一种可选的实施方式,本发明实施例中,调度系统可以直接对数据库中的数据信息进行数据内容的新建、修改、删除操作。
105、调度系统根据上述数据库中的关系网,构建数据地图。
作为一种可选的实施方式,本发明实施例中,当数据调度任务执行完毕时,调度系统可以根据元数据信息与数据调度任务之间的关系网,生成调度任务结果数据,并获得与数据调度任务相对应的完整数据地图;
以及,调度系统可以检测调度任务结果数据中是否含有异常信息,若是,调度系统可以对数据地图进行数据回溯,并可以根据回溯关系线快速找到该异常信息经过了哪一步骤的数据调度任务处理,以及该异常信息的来源。
作为一种可选的实施方式,本发明实施例中,调度系统可以将调度任务对应的执行语句发送到分配的节点上,并可以使各个节点执行分配到的数据调度任务。
可见,实施图1所描述的数据任务调度方法,能够在数据调度任务的层面上融合元数据的分析与管理,从元数据与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。
此外,实施图1所描述的数据任务调度方法,通过对数据仓库中的执行语句进行语法分析,能够获得有效的元数据信息,以增强数据调度任务的数据流动透明性。
此外,实施图1所描述的数据任务调度方法,能够减少在数据调度任务中的人工参与度,降低了出错率。
此外,实施图1所描述的数据任务调度方法,通过对执行语句进行分类,能够方便调度系统快速查找数据仓库中的有效数据。
实施例二
请参阅图2,图2是本发明实施例公开的另一种数据任务调度方法的流程示意图。如图2所示,该数据任务调度方法可以包括以下步骤。
201、调度系统在接收到用于启动上述数据调度任务的指令之后,控制用户管理界面输出至用户设备的电子显示屏上;其中,上述用户管理界面至少包括用户管理的权限认证与上述数据调度任务的修改权限。
作为一种可选的实施方式,本发明实施例中,全文中所使用的术语“修改权限”从广义上说不仅包括通常使用的、允许用户修改数据元素的修改权限,还包括间接修改权限,例如修改具有属于其的修改权限或与其相关的分配表的用户群。
作为一种可选的实施方式,本发明实施例中,在调度系统通过权限认证之后,调度系统可以控制用户设备输出用于获取用户通过修改权限提交的任务之前的各项权限的批准的询问信息。
作为一种可选的实施方式,本发明实施例中,调度系统可以选择接收用户向上述用户管理界面输入固定的密码账号来进行权限认证;和/或,调度系统可以选择接收用户向上述用户管理界面输入的指纹来进行权限认证;和/或,调度系统可以选择接收用户向上述用户管理界面输入的用户面部图像信息来进行权限认证。
举例来说,在调度系统选择接收用户向上述用户管理界面输入固定的密码账号,和/或指纹,和/或用户面部图像信息之后,调度系统可以获取该密码账号,和/或指纹,和/或用户面部图像信息对应的身份标识信息,并检测该身份标识信息是否拥有用户管理的权限认证,若调度系统检测出该身份标识信息拥有用户管理的权限,调度系统可以判断出该密码账号,和/或指纹,和/或用户面部图像信息能够通过权限认证。
202、调度系统在权限认证通过之后,定时获取通过上述修改权限提交的任务;其中,上述任务中至少包括上述数据调度任务。
作为一种可选的实施方式,本发明实施例中,上述定时获取通过修改权限提交的任务的时间间隔可以由电子设备的系统默认设定的,也可以由用户自行设定。
作为一种可选的实施方式,本发明实施例中,在调试系统定时获取通过上述修改权限提交的任务之后,调试系统可以控制用户设备输出被修改后的数据调度任务模拟变化的报告,并控制用户设备输出询问信息,以询问用户是否确认执行通过修改权限提交的任务,若是,调试系统可执行步骤203。
203、调度系统获取上述执行语句与上述任务之间的依赖关系图。
作为一种可选的实施方式,本发明实施例中,上述任务依赖关系图可以是有向无环图,用于表示各个任务节点之间的依赖关系;其中,上述任务依赖关系图中的任务是指在特定环境下运行的一个程序或者命令,在数据仓库中,一个任务可以是一个数据集的抽取程序或者一个报表的生成程序。
204、调度系统根据上述依赖关系图,确定上述执行语句的分配路径。
作为一种可选的实施方式,本发明实施例中,上述执行语句的分配路径可以是根据数据抓取规则和任务调度的节点分配规则等各层级元数据信息的驱动规则进行分配。
205、调度系统生成待执行任务实例。
作为一种可选的实施方式,本发明实施例中,上述待执行任务实例为运维人员在启动任务时使用实参替换任务定义中的形参后所得到的任务表达,即为数据调度任务的实现过程。
206、调度系统控制调度系统执行上述对数据仓库中的执行语句进行语法分析的步骤。
作为一种可选的实施方式,本发明实施例中,在调度系统对数据仓库中的执行语句进行语法分析之前,调度系统可以获取与调度相关的调度信息;其中,该调度信息至少包括数据仓库结构信息、处理过程的运行日志、任务名、任务的开始时间、任务的结束时间、执行脚本、状态和记录数,而数据仓库结构信息至少包括数据表名、字段名、字段中文名、字段描述、字段类型和长度。
207、调度系统对数据仓库中的执行语句进行语法分析,以获得语法树;其中,上述语法树为上述执行语句的语法分析结果。
208、调度系统根据上述语法分析结果,获取元数据信息。
209、调度系统将上述元数据信息与数据调度任务进行关联,以获得上述元数据信息与上述数据调度任务之间的关系网。
210、调度系统将上述关系网存储至数据库中。
211、调度系统根据上述数据库中的关系网,构建数据地图。
212、调度系统检测上述待执行任务实例中是否出现变化;若是,执行步骤213~步骤214,若否,结束本次流程。
作为一种可选的实施方式,本发明实施例中,在调度系统检测出上述待执行任务实例中出现变化之后,调度系统可以对数据地图进行数据回溯,并可以根据回溯关系线快速找到该变化经过了哪一步骤的数据调度任务处理,以及该变化的来源。
213、调度系统从上述数据仓库中获取受影响数据。
作为一种可选的实施方式,本发明实施例中,调度系统可以将上述变化修改至正常状态,并重新执行该数据调度任务,以获得新待执行任务实例;
以及,调度系统可以将原待执行任务实例进行销毁。
214、调度系统根据上述受影响数据,确定上述变化对上述数据调度任务的第一影响。
作为一种可选的实施方式,本发明实施例中,调度系统可以将上述变化修改至正常状态,并重新执行该数据调度任务,以获得新任务结果;
以及,调度系统可以将新任务结果与原任务结果进行对比,以此确定上述变化对上述数据调度任务的第一影响。
可见,实施图2所描述的数据任务调度方法,能够在数据调度任务的层面上融合元数据的分析与管理,从元数据与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。
此外,实施图2所描述的数据任务调度方法,能够减少在数据调度任务中的人工参与度,降低了出错率。
此外,实施图2所描述的数据任务调度方法,能够获取用户通过修改权限提交的任务之前的各项权限的批准,有利于任务流程的分析优化。
此外,实施图2所描述的数据任务调度方法,通过基于依赖关系图的调度任务实例,能够更合理的利用集群资源。
实施例三
请参阅图3,图3是本发明实施例公开的另一种数据任务调度方法的流程示意图。如图3所示,该数据任务调度方法可以包括以下步骤。
301、调度系统在接收到用于启动上述数据调度任务的指令之后,控制用户管理界面输出至用户设备的电子显示屏上;其中,上述用户管理界面至少包括用户管理的权限认证与上述数据调度任务的修改权限。
302、调度系统检测上述用户管理界面能否顺利显示在上述电子显示屏上;若否,执行步骤303~步骤314,若是,执行步骤304~步骤314。
作为一种可选的实施方式,本发明实施例中,当上述用户管理界面能顺利显示在上述电子显示屏上时,调度系统可以检测该用户管理界面能否顺利进行权限认证以及使用上述数据调度任务的修改权限,若否,执行步骤303~步骤314,若是,执行步骤304~步骤314。
303、调度系统控制备用用户管理界面输出至上述电子显示屏上。
作为一种可选的实施方式,本发明实施例中,调度系统可以同时部署多个用户管理界面,并可以将其中一个用户管理界面作为主界面对外提供服务,其他的界面作为备用界面,从而保证系统的高可用性。
304、调度系统在权限认证通过之后,定时获取通过上述修改权限提交的任务;其中,上述任务中至少包括上述数据调度任务。
305、调度系统获取上述执行语句与上述任务之间的依赖关系图。
306、调度系统根据上述依赖关系图,确定上述执行语句的分配路径。
307、调度系统生成待执行任务实例。
308、调度系统控制上述调度系统横向扩展部署在多个不同的服务设备上,并在这些服务设备上执行上述对数据仓库中的执行语句进行语法分析的步骤。
作为一种可选的实施方式,本发明实施例中,用户可以通过调度系统设置调度服务器的数量,即分别设置数据调度任务管理节点服务器和数据调度任务工作节点服务器的数量及配置文件;
以及,调度系统可以根据用户设置的配置文件生成数据调度任务管理节点服务器和数据调度任务工作节点服务器的安装程序;
以及,调度系统可以控制数据调度任务管理节点服务器和数据调度任务工作节点服务器分别启动相对应的安装程序;
以及,在调度系统与用户设备组网成功之后,调度系统可以定时获取用户设备提交的任务;其中,调度系统可以控制数据调度任务管理节点接收用户设备提交的任务,并对接收的任务进行依赖关系处理和定时调度处理,以生成任务运行数据;
以及,调度系统可以控制数据调度任务工作节点收集数据调度任务运行的状态数据;
以及,调度系统可以通过上述任务运行状态数据获取任务工作节点服务器正在运行的任务,且该任务运行数据包括定时调度在任务工作节点服务器上的任务列表,根据任务工作节点服务器上正在运行的任务和任务列表,调度系统可以判断出任务工作节点服务器的负载情况。
作为一种可选的实施方式,本发明实施例中,在调度系统执行提交的任务时,调度系统可以从数据库中获取任务流程信息。
309、调度系统对数据仓库中的执行语句进行语法分析,以获得语法树;其中,上述语法树为上述执行语句的语法分析结果。
310、调度系统根据上述语法分析结果,获取元数据信息。
311、调度系统将上述元数据信息与数据调度任务进行关联,以获得上述元数据信息与上述数据调度任务之间的关系网。
312、调度系统将上述关系网存储至数据库中。
313、调度系统根据上述数据库中的关系网,构建数据地图。
314、调度系统检测上述待执行任务实例中是否出现变化;若是,执行步骤315~步骤318,若否,结束本次流程。
315、调度系统从上述数据仓库中获取受影响数据。
316、调度系统根据上述受影响数据,确定上述变化对上述数据调度任务的第一影响。
317、在上述数据调度任务执行完毕之后,调度系统通过上述数据地图获取上述数据调度任务的结果数据与上述执行语句之间的关系。
作为一种可选的实施方式,本发明实施例中,通过上述数据地图,调度系统可以获悉上述执行语句分别经过了哪一步骤的数据调度任务处理,以及该执行语句如何通过依赖关系图生成待执行任务实例,以获取上述数据调度任务的结果数据与上述执行语句之间的关系。
作为一种可选的实施方式,本发明实施例中,通过上述数据地图,调度系统可以从任务角度出发对数据调度任务进行分析和优化。
318、在任一上述执行语句被修改后,调度系统根据结果数据与执行语句之间的关系,检测与被修改的任一执行语句对应的结果数据是否被修改;若是,执行步骤319,若否,结束本次流程。
作为一种可选的实施方式,本发明实施例中,在调度系统检测出与被修改的任一上述执行语句对应的结果数据被修改之后,调度系统还可以检测其他结果数据是否发生变化;
以及,若调度系统检测出其他结果数据发生变化,调度系统可以获取发生变化的其他结果数据经过了哪一步骤的数据调度任务处理,以确定出数据调度任务对其他的执行语句的影响。
319、调度系统确定出上述执行语句对上述数据调度任务的第二影响。
作为一种可选的实施方式,本发明实施例中,调度系统可以对结果数据进行直接修改,并可以根据结果数据与执行语句之间的关系,检测出结果数据对应的执行语句是否被修改,若是,调度系统也可以由此确定出上述执行语句对上述数据调度任务的第二影响。
可见,实施图3所描述的数据任务调度方法,能够在数据调度任务的层面上融合元数据的分析与管理,从元数据与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。
此外,实施图3所描述的数据任务调度方法,能够保证系统的高可用性。
此外,实施图3所描述的数据任务调度方法,通过横向扩展部署在多个不同的服务设备上执行上述对数据仓库中的执行语句进行语法分析的步骤,能够更加充分的利用集群资源。
此外,实施图3所描述的数据任务调度方法,通过数据调度任务对执行语句的影响,能够直接对数据库中的数据信息进行数据内容的新建、修改、删除操作。
实施例四
请参阅图4,图4是本发明实施例公开的一种调度系统的结构示意图。如图4所示,该调度系统可以包括:
分析单元401,用于对数据仓库中的执行语句进行语法分析,以获得语法树;其中,上述语法树为上述执行语句的语法分析结果。
第一获取单元402,用于根据上述语法分析结果,获取元数据信息。
关联单元403,用于将上述元数据信息与上述数据仓库进行关联,以获得上述元数据信息与上述数据仓库之间的第一关系网。
存储单元404,用于将上述第一关系网存储至数据库中。
第二获取单元405,用于根据上述数据库中每一上述第一关系网,构建数据地图;其中,上述数据地图为任一上述元数据信息与任一上述数据仓库之间的第二关系网。
本发明实施例中,该调度系统可以由软件和/或硬件实现,本发明实施例不作任何的限制。
作为一种可选的实施方式,本发明实施例中,在调度系统对数据仓库中的执行语句进行语法分析之前,调度系统可以获取与调度相关的调度信息;其中,该调度信息至少包括数据仓库结构信息、处理过程的运行日志、任务名、任务的开始时间、任务的结束时间、执行脚本、状态和记录数,而数据仓库结构信息至少包括数据的表名、字段名、字段中文名、字段描述、字段类型和长度。
作为一种可选的实施方式,本发明实施例中,分析单元401可以自动从数据仓库中直接获取执行语句,并对该执行语句进行语法分析;
和/或,分析单元401可接收用户输入的执行语句,并对输入的执行语句进行词法分析,将执行语句中包含的表或字段分隔成独立的数据,得到数据序列;
以及,分析单元401可以对分隔出的数据序列进行语法分析,判断数据序列中是否存在语法错误,并将存在语法错误的数据过滤掉;
以及,在调度系统将存在语法错误的数据过滤掉之后,第一获取单元402可以根据最终的语法分析结果获取得到语法树。
作为一种可选的实施方式,本发明实施例中,在分析单元401对数据仓库中的执行语句进行语法分析之前,调度系统可以将用户输入的数据明细表导入数据仓库中;其中,该数据明细库中的所有数据表中含有上述执行语句;
以及,调度系统可以从上述数据明细表中选择需要分析的执行语句,并将该执行语句导入分析平台;
以及,在上述执行语句导入分析平台之后,调度系统可以按照一定的规则将该执行语句进行分类,以方便快速查找,同时可以为缺失中文备注的表和字段手动添加中文备注,增加分析平台的可用性;
以及,在执行语句进行分类之后,分析单元401可以在分析平台上对执行语句进行语法分析,并可以对该语法分析结果进行筛选、分析以及处理等,以获得有效的数据形成语法树。
作为一种可选的实施方式,本发明实施例中,第一获取单元402可以将语法树中含有的数据转化成相对应的元数据,并计算各个元数据之间的语义相似度和特征项权重,并可以根据该语义相似度和特征项权重获取有效的元数据信息。
举例来说,第一获取单元402可以通过计算元数据之间的语义相似度和特征项权重,得到执行语句的关键信息,并根据该关键信息获取得到有效的元数据信息。
作为一种可选的实施方式,本发明实施例中,数据仓库中含有多个层级的元数据信息。其中,该元数据信息可以包括元数据信息中不同表格或字段之间的映射关系,以及数据抓取规则和任务调度的节点分配规则等各层级元数据信息的驱动规则。
作为一种可选的实施方式,本发明实施例中,上述元数据信息还可以包括调度系统中的任务数据流动信息和执行情况信息。
作为一种可选的实施方式,本发明实施例中,存储单元404还可以将调度系统中的任务数据流动信息、执行情况信息以及元数据信息存储至数据库中。
作为一种可选的实施方式,本发明实施例中,调度系统可以直接对数据库中的数据信息进行数据内容的新建、修改、删除操作。
作为一种可选的实施方式,本发明实施例中,当数据调度任务执行完毕时,第二获取单元405可以根据元数据信息与数据调度任务之间的关系网,生成调度任务结果数据,并获得与数据调度任务相对应的完整数据地图;
以及,调度系统可以检测调度任务结果数据中是否含有异常信息,若是,调度系统可以对数据地图进行数据回溯,并可以根据回溯关系线快速找到该异常信息经过了哪一步骤的数据调度任务处理,以及该异常信息的来源。
作为一种可选的实施方式,本发明实施例中,调度系统可以将调度任务对应的执行语句送到分配的节点上,并可以使各个节点执行分配到的数据调度任务。
可见,实施图4所描述的调度系统,能够在数据调度任务的层面上融合元数据的分析与管理,从元数据与数据调度任务进行关联后所形成的数据地图中获取有效的决策支持数据,有利于任务流程的分析优化、数据的安全管控与问题排查。
此外,实施图4所描述的调度系统,通过对数据仓库中的执行语句进行语法分析,能够获得有效的元数据信息,以增强数据调度任务的数据流动透明性。
此外,实施图4所描述的调度系统,能够减少在数据调度任务中的人工参与度,降低了出错率。
此外,实施图4所描述的调度系统,通过对执行语句进行分类,能够方便调度系统快速查找数据仓库中的有效数据。
实施例五
请参阅图5,图5是本发明实施例公开的另一种调度系统的结构示意图。如图5所示,该调度系统可以包括:
存储有可执行程序代码的存储器501;
与存储器501耦合的处理器502;
其中,处理器502调用存储器501中存储的可执行程序代码,执行图1~图3
任意一种数据任务调度方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1~图3任意一种数据任务调度方法。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种数据任务调度方法及调度系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上上述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据任务调度方法,其特征在于,所述方法包括:
对数据仓库中的执行语句进行语法分析,以获得语法树;其中,所述语法树为所述执行语句的语法分析结果;
根据所述语法分析结果,获取元数据信息;
将所述元数据信息与数据调度任务进行关联,以获得所述元数据信息与所述数据调度任务之间的关系网;
将所述关系网存储至数据库中;
根据所述数据库中的所述关系网,构建数据地图。
2.根据权利要求1所述的数据任务调度方法,其特征在于,在对数据仓库中的执行语句进行语法分析之前,所述方法还包括:
在接收到用于启动所述数据调度任务的指令之后,控制用户管理界面输出至用户设备的电子显示屏上;其中,所述用户管理界面至少包括用户管理的权限认证与所述数据调度任务的修改权限;
在所述权限认证通过之后,定时获取通过所述修改权限提交的任务;其中,所述任务中至少包括所述数据调度任务;
控制调度系统执行所述对数据仓库中的执行语句进行语法分析的步骤。
3.根据权利要求2所述的数据任务调度方法,其特征在于,在定时获取通过所述修改权限提交的任务之后,以及控制调度系统执行所述对数据仓库中的执行语句进行语法分析的步骤之前,所述方法还包括:
获取所述执行语句与所述任务之间的依赖关系图;
根据所述依赖关系图,确定所述执行语句的分配路径;
生成待执行任务实例;
以及,在构建数据地图之后,所述方法还包括:
检测所述待执行任务实例中是否出现变化;若是,从所述数据地图中获取所述变化的来源。
4.根据权利要求3所述的数据任务调度方法,其特征在于,在从所述数据地图中获取所述变化的来源之后,所述方法还包括:
检测所述变化是否会影响所述数据仓库内其他数据的输出;若是,从所述数据仓库中获取受影响数据;
根据所述受影响数据,确定所述变化对所述数据调度任务的第一影响。
5.根据权利要求2所述的数据任务调度方法,其特征在于,在控制用户管理界面输出至用户设备的电子显示屏上之后,以及所述权限认证通过之前,所述方法还包括:
检测所述用户管理界面能否顺利显示在所述电子显示屏上;若否,控制备用用户管理界面输出至所述电子显示屏上。
6.根据权利要求2述的数据任务调度方法,其特征在于,所述控制调度系统执行所述对数据仓库中的执行语句进行语法分析的步骤,包括:
控制所述调度系统横向扩展部署在多个不同的服务设备上,并在所述服务设备上执行所述对数据仓库中的执行语句进行语法分析的步骤。
7.根据权利要求1~6任一项所述的数据任务调度方法,其特征在于,所述方法还包括:
在所述数据调度任务执行完毕之后,通过所述数据地图获取所述数据调度任务的结果数据与所述执行语句之间的关系;
在任一所述执行语句被修改后,根据所述结果数据与所述执行语句之间的关系,检测与被修改的任一所述执行语句对应的所述结果数据是否被修改;若是,确定出所述执行语句对所述数据调度任务的第二影响。
8.一种调度系统,其特征在于,所述调度系统包括:
分析单元,用于对数据仓库中的执行语句进行语法分析,以获得语法树;其中,所述语法树为所述执行语句的语法分析结果;
第一获取单元,用于根据所述语法分析结果,获取元数据信息;
关联单元,用于将所述元数据信息与所述数据仓库进行关联,以获得所述元数据信息与所述数据仓库之间的第一关系网;
存储单元,用于将所述第一关系网存储至数据库中;
第二获取单元,用于根据所述数据库中每一所述第一关系网,构建数据地图;其中,所述数据地图为任一所述元数据信息与任一所述数据仓库之间的第二关系网。
9.一种调度系统,其特征在于,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行权利要求1~7任一项所述的数据任务调度方法。
10.一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1~7任一项所述的数据任务调度方法。
CN201911122296.3A 2019-11-15 2019-11-15 一种数据任务调度方法及调度系统 Pending CN111090665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911122296.3A CN111090665A (zh) 2019-11-15 2019-11-15 一种数据任务调度方法及调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911122296.3A CN111090665A (zh) 2019-11-15 2019-11-15 一种数据任务调度方法及调度系统

Publications (1)

Publication Number Publication Date
CN111090665A true CN111090665A (zh) 2020-05-01

Family

ID=70393504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911122296.3A Pending CN111090665A (zh) 2019-11-15 2019-11-15 一种数据任务调度方法及调度系统

Country Status (1)

Country Link
CN (1) CN111090665A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181704A (zh) * 2020-09-28 2021-01-05 京东数字科技控股股份有限公司 一种大数据任务处理方法、装置、电子设备及存储介质
CN112965793A (zh) * 2021-01-21 2021-06-15 中国互联网络信息中心 一种面向标识解析数据的数据仓库任务调度方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104348913A (zh) * 2014-10-28 2015-02-11 浪潮电子信息产业股份有限公司 一种紧耦合可扩展的大数据交互方法
CN104714838A (zh) * 2013-12-12 2015-06-17 中国移动通信集团四川有限公司 一种任务调度方法及装置
CN108287897A (zh) * 2018-01-22 2018-07-17 中电福富信息科技有限公司 一种可视化的分布式数据修复工具及其方法
CN108519908A (zh) * 2018-02-24 2018-09-11 国家计算机网络与信息安全管理中心 一种任务动态管理方法和装置
CN109634730A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 任务调度方法、装置、计算机设备和存储介质
CN109710703A (zh) * 2019-01-03 2019-05-03 北京顺丰同城科技有限公司 一种血缘关系网络的生成方法及装置
CN109726535A (zh) * 2018-12-29 2019-05-07 杭州数澜科技有限公司 一种用于大数据平台的数据权限管理的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104714838A (zh) * 2013-12-12 2015-06-17 中国移动通信集团四川有限公司 一种任务调度方法及装置
CN104348913A (zh) * 2014-10-28 2015-02-11 浪潮电子信息产业股份有限公司 一种紧耦合可扩展的大数据交互方法
CN108287897A (zh) * 2018-01-22 2018-07-17 中电福富信息科技有限公司 一种可视化的分布式数据修复工具及其方法
CN108519908A (zh) * 2018-02-24 2018-09-11 国家计算机网络与信息安全管理中心 一种任务动态管理方法和装置
CN109634730A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 任务调度方法、装置、计算机设备和存储介质
CN109726535A (zh) * 2018-12-29 2019-05-07 杭州数澜科技有限公司 一种用于大数据平台的数据权限管理的方法和系统
CN109710703A (zh) * 2019-01-03 2019-05-03 北京顺丰同城科技有限公司 一种血缘关系网络的生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜欢: ""移动用户体验分析项目数据仓库管理子系统的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181704A (zh) * 2020-09-28 2021-01-05 京东数字科技控股股份有限公司 一种大数据任务处理方法、装置、电子设备及存储介质
CN112965793A (zh) * 2021-01-21 2021-06-15 中国互联网络信息中心 一种面向标识解析数据的数据仓库任务调度方法和系统
CN112965793B (zh) * 2021-01-21 2023-11-21 中国互联网络信息中心 一种面向标识解析数据的数据仓库任务调度方法和系统

Similar Documents

Publication Publication Date Title
KR20150111134A (ko) 코드 추천 및 공유 시스템 및 방법
CN104572085A (zh) 应用程序的分析方法及装置
CN115033894B (zh) 一种基于知识图谱的软件组件供应链安全检测方法及装置
US20180024912A1 (en) Application Testing System and Method
CN111090665A (zh) 一种数据任务调度方法及调度系统
CN112328489A (zh) 测试用例生成方法、装置、终端设备和存储介质
CN110532056A (zh) 一种应用于用户界面中的控件识别方法及装置
CN117693734A (zh) 前端项目处理方法、装置、设备、管理系统及存储介质
CN110473530B (zh) 指令分类方法、装置、电子设备及计算机可读存储介质
CN114035789A (zh) 日志解析模板的生成方法、日志解析方法、装置及设备
CN113378007B (zh) 数据回溯方法及装置、计算机可读存储介质、电子设备
KR102621633B1 (ko) 개발 제품의 인증 프로세스 정보 제공 시스템 및 그 방법
CN110956030A (zh) 变电站远动机组态配置信息比对方法及系统
CN113051262B (zh) 一种数据质检方法、装置、设备及存储介质
KR20210004505A (ko) 경영 표준 규격 자동 매핑 시스템
CN115469849A (zh) 一种业务处理系统、方法、电子设备和存储介质
CN105677827B (zh) 一种表单的获取方法及装置
KR102217092B1 (ko) 애플리케이션의 품질 정보 제공 방법 및 장치
US8090750B2 (en) Prompting of an end user with commands
CN113590667A (zh) 一种基于Spark Streaming的实时数据更新及管理方法
CN111158653B (zh) 基于sql语言的实时计算程序的集成开发及执行系统
CN113688134A (zh) 基于多维数据的可视化变量管理方法、系统及设备
CN113064811A (zh) 基于工作流的自动化测试方法、装置以及电子设备
KR20160088737A (ko) 토픽 모델과 다중 특성 기반의 버그 정정 개발자 추천 및 버그 심각성 예측 시스템 및 방법
CN113535843B (zh) 数据查询方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501