CN111309712A - 基于数据仓库的优化任务调度方法、装置、设备及介质 - Google Patents
基于数据仓库的优化任务调度方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111309712A CN111309712A CN202010183792.6A CN202010183792A CN111309712A CN 111309712 A CN111309712 A CN 111309712A CN 202010183792 A CN202010183792 A CN 202010183792A CN 111309712 A CN111309712 A CN 111309712A
- Authority
- CN
- China
- Prior art keywords
- task
- task node
- dependency
- execution time
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于数据仓库的优化任务调度方法、装置、设备及介质,属于数据仓库领域。该方法包括:获取第一任务节点在数据仓库中的执行路径;在执行路径中确定第一任务节点对应的最长依赖路径,最长依赖路径是第一任务节点和执行路径上的其他任务节点之间形成的最长路径;根据最长依赖路径生成依赖关系集,依赖关系集中的集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系;根据依赖关系集显示优化界面,优化界面包括关键任务节点,关键任务节点是影响第一任务节点进行执行时间优化的任务节点;响应于优化指令,对关键任务节点的执行时间进行优化。提高了数据仓库的优化任务调度的效率。
Description
技术领域
本申请涉及数据仓库技术领域,特别涉及一种基于数据仓库的优化任务调度方法、装置、设备及介质。
背景技术
数据仓库(Data Warehouse,DW)是一种用于为企业的决策提供多种类型的支持数据的数据存储集合。任务调度系统是数据仓库的重要组成部分,用于调度数据仓库的计算资源完成各个任务处理,各个任务之间存在依赖关系。
相关技术中,每个任务执行完成后,根据任务之间的依赖关系执行下一个任务,各个任务之间存在时效性,如任务A完成后,才能执行任务B。若任务A未在预设时间内完成,则任务B的开始执行时间也会延迟,数据仓库工程师需要根据任务之间的依赖关系确定任务延迟的原因(也即找到任务A所在的节点),解决对应的延迟问题。
基于上述情况,各个任务节点存在多个依赖关系,通过依赖关系确定任务延迟执行的原因需要耗费较多时间。
发明内容
本申请实施例提供了一种基于数据仓库的优化任务调度方法、装置、设备及介质,使得数据仓库工程师能够在多个依赖关系中快速确定影响优化的关键任务节点,提高了数据仓库的任务调度的优化效率。所述技术方案如下:
根据本申请的一个方面,提供了一种基于数据仓库的优化任务调度方法,所述方法包括:
获取第一任务节点在所述数据仓库中的执行路径;
在所述执行路径中确定所述第一任务节点对应的最长依赖路径,所述最长依赖路径是所述第一任务节点和所述执行路径上的其他任务节点之间形成的最长路径;
根据所述最长依赖路径生成依赖关系集,所述依赖关系集中的集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系;
根据所述依赖关系集显示优化界面,所述优化界面包括关键任务节点,所述关键任务节点是影响所述第一任务节点进行执行时间优化的任务节点;
响应于优化指令,对所述关键任务节点的执行时间进行优化。
在一个可选的实施例中,所述根据所述最长依赖路径生成依赖关系集,包括:
根据所述最长依赖路径生成第一依赖关系集,所述第一依赖关系集中的每个第一集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系;
根据最大执行时间差和所述第一依赖关系集生成第二依赖关系集,所述第二依赖关系集中的每个第二集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系以及优化执行时间,所述最大执行时间差是所述第二集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的最大差值。
在一个可选的实施例中,所述任务节点还包括:第二任务节点和第三任务节点,所述第二任务节点依赖于所述第三任务节点;
所述根据最大执行时间差和所述第一依赖关系集生成第二依赖关系集,包括:
获取所述第一任务节点的开始执行时间、所述第二任务节点的开始执行时间和结束执行时间、所述第三任务节点的结束执行时间;
结合所述开始执行时间和所述结束执行时间,对所述第一依赖关系集进行处理,得到中间依赖关系集,所述中间依赖关系集中的每个中间集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系以及执行时间差,所述执行时间差是所述中间集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的差值;
从所述中间依赖关系集中获取所述最大执行时间差,结合所述最大执行时间差对所述中间依赖关系集进行处理,得到所述第二依赖关系集。
在一个可选的实施例中,所述结合所述最大执行时间差对所述中间依赖关系集进行处理,得到所述第二依赖关系集,包括:
计算所述优化执行时间,所述优化执行时间是所述执行时间差与所述最大执行时间差的差值;
结合所述优化执行时间,对所述中间依赖关系集进行处理,得到所述第二依赖关系集。
在一个可选的实施例中,所述方法还包括:
根据所述第一依赖关系集确定所述各个任务节点在所述最长依赖路径上的任务节点层级;
根据所述任务节点层级生成第三依赖关系集,所述第三依赖关系集中的每个第三集合元素用于表示所述各个任务节点在所述最长依赖路径上的所述任务节点层级。
在一个可选的实施例中,所述优化界面还包括如下信息中的至少一种:所述关键任务节点的N个上游任务节点、经过优化的执行效果和优化建议;其中,N为正整数。
在一个可选的实施例中,所述任务节点包括:用于执行信息推送任务的任务节点、用于执行商品销售任务的任务节点、用于执行就餐管理任务的任务节点、用于执行酒店管理任务的任务节点中的任意一种。
根据本申请的另一方面,提供了一种基于数据仓库的优化任务调度装置,所述装置包括:
获取模块,用于获取第一任务节点在所述数据仓库中的执行路径;
处理模块,用于在所述执行路径中确定所述第一任务节点对应的最长依赖路径,所述最长依赖路径是所述第一任务节点和所述执行路径上的其他任务节点之间形成的最长路径;
生成模块,用于根据所述最长依赖路径生成依赖关系集,所述依赖关系集中的集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系;
显示模块,根据所述依赖关系集显示优化界面,所述优化界面包括关键任务节点,所述关键任务节点是影响所述第一任务节点进行执行时间优化的任务节点;
所述处理模块,用于响应于优化指令,对所述关键任务节点的执行时间进行优化。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的基于数据仓库的优化任务调度方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的基于数据仓库的优化任务调度方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过将第一任务节点对应的最长依赖路径生成依赖关系集,并自动根据依赖关系集显示优化界面,即使在多个依赖关系中,也能够快速确定影响第一任务节点进行执行时间优化的关键任务节点,从而对该关键任务节点进行优化,提高了数据仓库的优化任务调度的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的优化界面的界面示意图;
图2是本申请一个示例性实施例提供的计算机系统的框图;
图3是本申请一个示例性实施例提供的基于数据仓库的任务调度方法的流程图;
图4是本申请另一个示例性实施例提供的基于数据仓库的任务调度方法的流程图;
图5是本申请另一个示例性实施例提供的优化界面的界面示意图;
图6是本申请一个示例性实施例提供的结合应用场景的基于数据仓库的任务调度方法的流程图;
图7是本申请一个示例性实施例提供的优化调度任务系统的示意图;
图8是本申请一个示例性实施例提供的结合应用场景的优化界面的示意图;
图9是本申请一个示例性实施例提供的基于数据仓库的优化任务调度装置的框图;
图10是本申请一个示例性实施例提供的服务器的装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行介绍:
数据仓库(Data Warehouse,DW):是指数据存储集合,用于对多种类型的业务数据进行筛选与整合,以及为企业所有级别的决策提供各个类型的数据支撑,数据仓库的输入方向是各种各样的数据源,最终的输出方向是企业的数据分析、数据挖掘、数据报表等方向。
数据仓库中常用数据仓库技术(Extract Transform Load,ETL)对数据进行处理,数据仓库技术是将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,目的是将企业中分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
任务调度:任务是指在数据仓库中处理数据时要进行的基本操作。在一个数据仓库中,数据的处理是对成千上万个任务进行处理,任务调度的过程即是数据处理的过程。任务调度系统在处理数据仓库中的数据时,根据任务的优先级别、触发条件、执行顺序等因素对任务进行处理的过程。示意性的,任务A的优先级别高于任务B,执行完任务C触发任务A开始执行,因此,任务调度系统进行任务调度的过程是:执行任务C→执行任务A→执行任务B。
元数据(Metadata):又被命名为中介数据或中继数据,是指描述数据的数据,元数据用于描述数据属性的信息,用于支持指示存储位置、历史数据、资源查找、文件记录等功能。在数据仓库中,元数据相当于一种电子目录,能够帮助用户快速检索到目标数据。
依赖关系:是指一个任务的变更对另一个任务产生的影响所对应的关系,又被命名为逻辑关系。如任务A依赖于任务B,则任务B发生变更时,任务B的执行对任务A产生一定的影响,示意性的,任务B提前执行完成,任务A将提前开始执行。
依赖关系集:是指由多个集合元素构成的集合,用于表示如下信息中的至少一种:任务节点之间的依赖关系、任务节点在执行路径上的层级、执行任务的优化时间。
集合元素:是指构成依赖关系集的对象,集合元素包括任务节点、执行时长、层级中的至少一种。
上游任务节点:是指与目标任务节点对应的至少一个上游任务所对应的节点,如目标任务节点的上一层任务节点或上一个任务节点,在上游任务节点执行任务结束后,目标任务节点开始执行任务。
下游任务节点:是指与目标任务节点对应的至少一个下游任务所对应的节点,如目标任务节点的下一层任务节点或下一个任务节点。在目标任务节点执行任务结束后,下游任务节点开始执行任务。
数据仓库能够为公司的决策者提供决策支持所需要的各种类型的数据,通过数据仓库技术从数据来源提取目标数据,将目标数据转换为目标格式(如度量单位的转换)并进行数据清洗操作(如对错误数据或重复数据进行清洗),将转换后的目标数据加载到数据仓库。数据仓库将数据处理过程转化为大量任务的调度过程,如何高效地调度和管理大量的任务是提高数据仓库的使用性能和资源利用率的关键。本申请实施例提供了一种基于数据仓库的优化任务调度方法,能够在多个依赖关系中快速确定影响第一任务节点进行执行时间优化的关键任务节点,从而对该关键任务节点进行优化,提高了数据仓库的优化任务调度的效率。
图1示出了本申请一个示例性实施例提供的可视化分析窗口的界面示意图。在可视化分析窗口11中显示有分析报告12和存在依赖关系的部分任务节点(即ETL)。
其中,任务节点10依赖于任务节点101(依赖关系106),任务节点10依赖于任务节点102(依赖关系104),任务节点103依赖于任务节点102(依赖关系105)。任务节点103位于执行路径中的第i层,任务节点101和任务节点102位于执行路径中的第i+1层,任务节点10位于执行路径中的第i+2层,i为正整数。示意性的,任务节点102所在的执行路径与任务节点101所在的执行路径不是同一条执行路径。
在任务调度的过程中,任务节点103先执行,然后任务节点101与任务节点102两者执行,最后任务节点10再执行。可选地,任务节点101和任务节点102可同时执行,或任务节点101和任务节点102的结束时间一致,或任务节点101和任务节点102按照一定顺序执行。
示意性的,任务节点103的执行时间为07:00至07:10,任务节点101的执行时间与任务节点102的执行时间一致,均为07:10至07:20,任务节点10的执行时间是7:20至8:00。以任务节点10为第一任务节点举例说明,本申请实施例提供了一种基于数据仓库的优化任务调度方法,在上述任务节点执行完成后,对上述任务节点进行优化。该方法包括如下步骤:
第一步:示意性的,数据分析系统以任务节点10为第一任务节点,对任务节点10进行优化。
从第i层至第i+2层,确定任务节点10对应的最长依赖路径,最长依赖路径是指第一任务节点和执行路径上的其他任务节点之间形成的最长路径。示意性的,最长依赖路径为任务节点103至任务节点10所在的执行路径。数据分析系统根据最长依赖路径生成第一依赖关系集:{[任务节点103,任务节点10],[任务节点102,任务节点10],[任务节点103,任务节点102]}。
第二步:结合执行时间差对第一依赖关系集进行处理。
计算任务节点103的结束执行时间与任务节点10的开始执行时间的差值,计算任务节点102的结束执行时间与任务节点10的开始执行时间的差值,计算任务节点103的结束执行时间与任务节点102的开始执行时间的差值,结合执行时间差对第一依赖关系集进行处理,得到中间依赖关系集{[任务节点103,任务节点10,10],[任务节点102,任务节点10,0],[任务节点103,任务节点102,0]},最大执行时间差为10分钟。
第三步:结合最大执行时间差对中间依赖关系集进行处理。
计算最大执行时间差与中间依赖关系集中的执行时间差之间的差值,根据两者的差值生成第二依赖关系集:{[任务节点103,任务节点10,0],[任务节点102,任务节点10,10],[任务节点103,任务节点102,10]}。
可选地,数据分析系统根据第二依赖关系集生成分析报告12的建议。
任务节点102是影响任务节点10的关键任务节点(用粗线表示第一任务节点对应的上游任务节点具有较大的优化空间,细线表示第一任务节点对应的上游任务节点具有较小的优化空间),并将最大执行时间差作为预计优化提升效果。第一依赖关系集用于表征上述各个任务节点之间的依赖关系,中间依赖关系集用于表征具有依赖关系的两个任务节点之间对应的执行时间差,第二依赖关系集用于表征关键任务节点及优化执行时间。数据仓库工程师可结合分析报告12的建议对任务节点102进行优化,从而优化了任务节点10,提高了任务调度的优化效率。
图2示出了本申请一个示例性实施例提供的计算机系统的结构示意图。该计算机系统包括元数据系统20、数据仓库集群21和任务调度系统22,每个系统包括多个服务器201和服务器211,用于完成存储数据、执行任务、部署任务等工作。各个系统之间通过互联网或局域网进行连接。数据仓库集群21从元数据系统20中采集元数据并存储,任务调度系统22从数据仓库集群21中获取待处理的数据,并根据待处理的数据进行任务调度。管理人员对应的终端202通过有线网络或无线网络与任务调度系统22相连,用于解决任务调度过程中出现的问题,或者对任务调度过程进行优化。
可选地,元数据系统20中的数据可以是一家或多家机构、企业的数据,一个或多个数据仓库从元数据系统20中采集数据。
可选地,数据仓库集群21中包括至少一个数据仓库,数据仓库集群21中的服务器是同一机构不同部门的服务器,或同一机构同一部门的服务器,存储有同一机构或企业的数据,或者不同机构或企业的数据。数据仓库为用户提供数据的电子目录,方便用户检索到目标数据。可选地,数据仓库集群21还与决策人员、业务人员对应的终端相连。
可选地,任务调度系统22属于同一机构或企业的系统,或者属于不同机构或企业的系统。任务调度系统22中的服务器是同一机构不同部门的服务器或同一机构相同部门的服务器,可选地,任务调度系统22是具有拓扑结构的计算机系统,拓扑结构包括星型结构、雪花结构、环形结构中的至少一种,图2所示的是具有星型拓扑结构的任务调度系统。
上述用户对应的终端是能够访问多个服务器的电子设备,该电子设备可以是台式电脑、笔记本电脑、智能手机、平板电脑或其他电子设备。本申请实施例对终端的类型不加以限定。
图3示出了本申请一个示例性实施例提供的基于数据仓库的优化任务调度方法的流程图,该方法可应用于如图2所示的任务调度系统22中的服务器201中或其他服务器中。该方法包括如下步骤:
步骤301,获取第一任务节点在数据仓库中的执行路径。
第一任务节点是指待优化的任务节点,即目标任务节点,第一任务节点可以是执行路径中的任意节点。
数据仓库是指存储数据的集合,通常使用数据仓库技术对数据进行处理,数据的处理过程也是对大量的任务进行处理的过程。
各个任务节点对应有至少一个任务,各个任务节点完成各自对应的任务,推动数据的处理过程。各个任务节点按照优先级别、触发条件、层级关系、执行顺序等因素执行任务,构成执行路径。一个任务节点对应有至少一个上游任务节点,当任务节点不是最终的任务节点时,该任务节点对应有至少一个下游任务节点;当任务节点是最终的任务节点时,该任务节点无下游任务节点。最终任务节点是指执行路径终点对应的任务节点,在最终任务节点完成执行任务后,数据的处理过程结束。
示意性的,第一任务节点不是最终任务节点,第一任务节点对应有两个上游任务节点,一个下游任务节点。当优化第一任务节点时,需要对第一任务节点的上游任务节点进行优化。
步骤302,在执行路径中确定第一任务节点对应的最长依赖路径,最长依赖路径是第一任务节点和执行路径上的其他任务节点之间形成的最长路径。
执行路径上的各个任务节点之间存在依赖关系,依赖关系是指一个任务的变更对另一个任务产生的影响所对应的关系。
示意性的,第一任务节点对应有多个上游任务节点,第一任务节点在数据仓库中对应有多条执行路径,从该多条执行路径中确定最长依赖路径。
示意性的,以表一对第一任务节点、执行路径、最长依赖路径三者之间的关系进行说明。
表一
其中,箭头表示任务节点执行任务的顺序。
步骤303,根据最长依赖路径生成依赖关系集,依赖关系集中的集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系。
依赖关系集包括第一依赖关系集、第二依赖关系、中间依赖关系集、第三依赖关系集中的至少一种。
示意性的,第一依赖关系集由第一集合元素组成,第一集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系;第二依赖关系集由第二集合元素组成,第二集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系以及优化执行时间;中间依赖关系集由中间集合元素组成,中间集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系以及执行时间差,执行时间差是指中间集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的差值;第三依赖关系集由第三集合元素组成,第三集合元素用于表示各个任务节点在最长依赖路径上的任务节点层级。
步骤304,根据依赖关系集显示优化界面,优化界面包括关键任务节点,关键任务节点是影响第一任务节点进行执行时间优化的任务节点。
示意性的,第一任务节点对应有两个上游任务节点,分别是第二任务节点和第三任务节点,第一任务节点依赖于第二任务节点,第二任务节点依赖于第三任务节点,服务器根据依赖关系集显示第二任务节点是关键任务节点,需要对第二任务节点的执行时间进行优化。
将依赖关系集表示的信息以用户可见的方式进行表示,如图1所示的可视化分析窗口11(即优化界面),其将依赖路径上各个任务节点的依赖关系、在执行路径上的层级表示出来。可选地,在优化界面上还显示有分析报告,该分析报告包括优化建议,用于任务节点进行执行时间的优化。
示意性的,本实施例以粗箭头表示具有较大优化空间的任务节点,以细箭头表示具有较小优化空间的任务节点。还可通过其他方式区分关键任务节点和其他任务节点,如通过改变任务节点的颜色、字体、形状、大小或在优化界面上显示提示信息等方式。
步骤305,响应于优化指令,对关键任务节点的执行时间进行优化。
当用户使用的终端是具有触摸显示屏的终端时,如智能手机或平板电脑等,优化指令是通过用户触发用户界面(User Interface,UI)控件生成的或在触摸显示屏上实施优化操作对应的手势操作生成的,在一些实施例中,用户界面控件又被命名为优化控件,本申请实施例对控件的名称不加以限定。
当用户使用的终端是接有外部设备的终端时,如台式计算机、笔记本电脑等,优化指令是通过用户触发外部设备生成的。示意性的,用户点击连接有台式计算机的鼠标,选中关键任务节点,对关键任务节点的执行时间进行优化。
综上所述,本实施例提供的方法,通过将第一任务节点对应的最长依赖路径生成依赖关系集,并自动根据依赖关系节点显示优化界面,使得用户能够在多个依赖关系中快速确定影响第一任务节点进行执行时间优化的关键任务节点,用户只需要在优化界面上施加优化指令即可对关键任务节点进行优化,提高了数据仓库中优化任务调度的效率。
图4示出了本申请另一个示例性实施例提供的基于数据仓库的优化任务调度方法的流程图。该方法可应用于如图2所示的任务调度系统22中的服务器201中或其他服务器中。该方法包括如下步骤:
步骤401,获取第一任务节点在数据仓库中的执行路径。
示意性的,以第一任务节点为任务节点A,第一任务节点在数据仓库中的执行路径对应有两条:1、任务节点A→任务节点B→任务节点C;2、任务节点A→任务节点E。
步骤402,在执行路径中确定第一任务节点对应的最长依赖路径,最长依赖路径是第一任务节点和执行路径上的其他任务节点之间形成的最长路径。
由上述执行路径可知,最长依赖路径是:任务节点A→任务节点B→任务节点C。
步骤403,根据最长依赖路径生成第一依赖关系集,第一依赖关系集中的每个第一集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系。
示意性的,最长依赖路径是第一任务节点和执行路径上其他两个任务节点之间形成的最长路径,则最长依赖路径是三个任务节点形成的执行路径。
在一个示例中,第一任务节点是任务节点A,任务节点A对应有两个上游任务节点,分别是任务节点B和任务节点C,任务节点B依赖于任务节点C。第一依赖关系集可表示为如下形式:
{[任务节点C,任务节点A],[任务节点B,任务节点A],[任务节点C,任务节点B]}。
其中,第一依赖关系集中包括三个集合元素(每个中括号中的内容代表一个元素),一个集合元素表示一组依赖关系,如,[任务节点B,任务节点A]表示任务节点A依赖于任务节点B,任务节点B有被命名为被依赖元素,任务节点A又被命名为依赖元素。本实施例以被依赖任务节点在前,依赖任务节点在后的顺序表示(即按照任务节点在最长依赖路径上的层级排序进行表示),本申请实施例不对集合元素的顺序加以限定。
步骤404,根据最大执行时间差和第一依赖关系集生成第二依赖关系集,第二依赖关系集中的每个第二集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系以及优化执行时间,最大执行时间差是第二集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的最大差值。
示意性的,任务节点还包括:第二任务节点和第三任务节点,第二任务节点依赖于第三任务节点。第一任务节点依赖于第二任务节点和第三任务节点。
步骤404包括如下子步骤:
步骤4041,获取第一任务节点的开始执行时间、第二任务节点的开始执行时间和结束执行时间、第三任务节点的结束执行时间。
示意性的,各个任务节点的开始执行时间和结束执行时间如表二所示。
表二
任务节点 | 开始执行时间 | 结束执行时间 |
第一任务节点 | 上午9:00 | 上午9:10 |
第二任务节点 | 上午9:10 | 上午9:30 |
第三任务节点 | 上午9:30 | 上午9:50 |
步骤4042,结合开始执行时间和结束执行时间,对第一依赖关系集进行处理,得到中间依赖关系集,中间依赖关系集中的每个中间集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系以及执行时间差,执行时间差是中间集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的差值。
示意性的,第一依赖关系集可表示为如下形式:
{[第三任务节点,第一任务节点],[第二任务节点,第一任务节点],[第三任务节点,第二任务节点]}。
结合表二中的开始执行时间和结束执行时间,中间依赖关系集可表示为如下形式:
{[第三任务节点,第一任务节点,20],[第二任务节点,第一任务节点,0],[第三任务节点,第二任务节点,0]}。
其中,中间依赖关系集中包括三个集合元素(每个中括号中的内容代表一个元素),一个集合元素表示一组依赖关系和执行时间差,如,[第三任务节点,第一任务节点,20]表示第一任务节点依赖于第三任务节点,第三任务节点结束执行与第一任务节点开始执行之间存在20分钟的时间差。
步骤4043,从中间依赖关系集中获取最大执行时间差,结合最大执行时间差对中间依赖关系集进行处理,得到第二依赖关系集。
首先,计算优化执行时间,优化执行时间是执行时间差与最大执行时间差的差值。
由上述中间依赖关系集中可知,最大执行时间差为20分钟。示意性的,以表三对依赖关系、执行时间差、优化执行时间三者之间的关系进行说明。
表三
结合优化执行时间,对中间依赖关系集进行处理,得到第二依赖关系集。
示意性的,结合表三,第二依赖关系集可表示为如下形式:
{[第三任务节点,第一任务节点,0],[第二任务节点,第一任务节点,20],[第三任务节点,第二任务节点,20]}。
步骤405,根据依赖关系集显示优化界面,优化界面包括关键任务节点,关键任务节点是影响第一任务节点进行执行时间优化的任务节点。
服务器根据上述第二依赖关系集显示优化界面,如图5所示,在优化界面21显示有第一任务节点201、第二任务节点202、第三任务节点203和第四任务节点204,第一任务节点201是待优化的任务节点,第一任务节点201对应有两条执行路径,其中最长依赖路径是:第三任务节点203→第二任务节点202→第一任务节点201。优化界面21还显示有关键任务节点信息和预计优化时间信息,用户可快速从多个依赖关系中确定影响第一任务节点进行时间优化的关键任务节点。
示意性的,对第一任务节点201进行优化,影响第一任务节点进行执行时间优化的是第二任务节点202,第二任务节点202预计优化执行时间为20分钟。
步骤406,响应于优化指令,对关键任务节点的执行时间进行优化。
示意性的,第二任务节点202是关键任务节点,用户可通过点击的方式对第二任务节点202进行执行时间的优化。
综上所述,本实施例提供的方法,通过中间依赖关系集得到第二依赖关系集,以分步生成依赖关系集的方式,使得优化界面能够准确根据不同的依赖关系集显示不同的内容,通过优化界面显示各个任务节点之间的依赖关系和优化执行时间,使得用户能够在多个依赖关系中快速确定影响第一任务节点进行执行时间优化的关键任务节点并进行优化,提高了数据仓库中优化任务调度的效率。
可选地,任务节点包括:用于执行信息推送任务的任务节点、用于执行商品销售任务的任务节点、用于执行就餐管理任务的任务节点、用于执行酒店管理任务节点中的任意一种。
以执行酒店管理任务节点为例进行说明。
图6示出了本申请一个示例性实施例提供的结合应用场景的基于数据仓库的优化任务调度的方法的流程图。该方法可应用于如图2所示的任务调度系统22中的服务器201中或其他服务器中。该方法包括如下步骤:
步骤601,获取ETL配置信息。
数据仓库调度系统获取ETL配置信息,并将ETL配置信息同步发送至元数据系统(进入步骤605)。ETL配置信息是指需要调度的任务对应的信息或数据仓库中存储的数据对应的信息。
示意性的,数据仓库调度的任务对应的任务节点是酒店管理任务节点。酒店管理人员需要获取酒店A在7月至9月之间,客房价格的变化对客房入住率的影响,ETL配置信息是7月至9月客房的价格信息、7月至9月客房入住率的信息。
步骤602,依赖关系解析。
数据仓库调度系统对待调度的任务节点之间的依赖关系进行解析,并根据依赖关系获取各个任务节点之间的执行路径。
步骤603,执行依赖关系。
数据仓库调度系统沿执行路径执行任务。
步骤604,调度任务执行。
数据仓库调度系统对任务进行调度。
如图7所示,优化任务调度系统700中包括数据仓库710、元数据系统711、数据可视化系统712、数据治理系统713和用户端714。
数据仓库710从元数据系统711中获取任务调度使用的元数据,元数据是指描述数据的数据。数据仓库710根据元数据进行任务调度,确定需要待优化的任务节点。元数据系统711对任务调度对应的数据进行预处理,得到任务调度对应的数据集,并将任务调度对应的数据集发送给数据可视化系统712,数据可视化系统712将该数据集发送给数据治理系统713,由数据治理系统713生成分析报告,分析报告用于对数据仓库的任务调度进行执行时间的优化。用户端714从数据治理系统713中获取任务调度优化的分析报告,对数据仓库710的任务调度进行执行时间的优化。
下面对数据仓库的优化任务调度的过程进行说明。
元数据系统负责对元数据进行采集,如步骤605至步骤607所示:
步骤605,数据同步。
元数据系统接收数据仓库调度系统发送过来的ETL配置信息。
步骤606,获取ETL基础元数据。
元数据系统获取ETL基础元数据。ETL基础元数据是指记录ETL信息的模型集合,如记录酒店项目对应的负责人、编译代码的编辑者、代码托管链接等信息。
步骤607,读取ETL调度元数据。
在数据仓库调度系统对任务进行调度后(步骤604),元数据系统读取ETL调度元数据,ETL调度元数据是指记录ETL例行调度信息的模型集合,包括调度任务的开始时间、结束时间、执行时长、执行状态(如执行异常)等。
可选地,步骤608至步骤610可由数据仓库预处理系统执行,也可由元数据系统执行。本实施例以数据仓库预处理系统执行为例说明,数据仓库预处理系统用于对数据进行分析及预处理操作。
步骤608,对基础数据进行处理。
数据仓库预处理系统对基础数据进行处理,得到基础数据集。基础数据集是指全部的数据或所有任务。
步骤609,获取基础数据集。
示意性的,基础数据集是酒店A在7月至9月客房的价格对应的数据和客房入住率对应的数据所组成的集合。
步骤610,对数据集进行分析处理。
数据集是指各个任务节点之间的依赖关系集。首先,对第一任务节点对应的执行路径进行搜索,得到第一任务节点所在的最长依赖路径,根据依赖关系生成第一依赖关系集,结合第一任务节点和最长依赖路径上的其他任务节点的开始执行时间、结束执行时间对第一依赖关系集进行处理,得到中间依赖关系集,从中间依赖关系集获取最大执行差,结合最大执行时间差对中间依赖关系集进行处理,得到第二依赖关系集。
当第一任务节点存在多个上游任务节点,且各个上游任务节点之间存在依赖关系时,还可对最长依赖路径上的各个任务节点进行任务节点层级拉伸,获得各个任务节点在最长依赖路径上的层级。任务节点层级拉伸的方法包括如下步骤:
步骤1,根据第一依赖关系集确定各个任务节点在最长依赖路径上的任务节点层级。
示意性的,第一任务节点存在两个上游任务节点,分别是第二任务节点和第三任务节点,第二任务节点依赖于第三任务节点,将第三任务节点标记为第二任务节点的上游任务节点。
步骤2,根据任务节点层级生成第三依赖关系集,第三依赖关系集中的每个第三集合元素用于表示各个任务节点在最长依赖路径上的任务节点层级。
示意性的,第三依赖关系集可表示为如下形式:
{[第三任务节点,i],[第二任务节点,i+1],[第一任务节点,i+2]}。
其中,i表示任务节点层级,i为正整数,[第三任务节点,i]表示第三任务节点在最长依赖路径的第i层。
步骤611和步骤612是由数据可视化系统执行的。
步骤611,获取分析数据集。
数据可视化系统获取数据仓库预处理系统发送的分析数据集(依赖关系集)。示意性的,分析数据集包括第一依赖关系集、第二依赖关系集和第三依赖关系集。
步骤612,对优化执行时间进行预测,并进行可视化渲染。
示意性的,数据可视化系统根据第二依赖关系集对优化执行时间进行预测,并根据映射关系对第一依赖关系集、第二依赖关系集、第三依赖关系与优化界面上显示的信息进行映射。
步骤613至步骤615是由数据治理系统执行的。
步骤613,获取可视化分析报告。
数据治理系统获取可视化分析报告,该可视化分析报告包括如下信息中的至少一种:关键任务节点、关键任务节点的N个上游任务节点(N为正整数)、经过优化的执行效果和优化建议。可选地,优化界面显示根据优化建议对关键任务节点进行优化后的执行效果,使得用户确定是否依据优化建议对关键任务节点进行优化。在一个示例中,优化界面显示的优化建议是对影响第一任务节点的第二任务节点进行执行时间的优化,优化执行时间是20分钟,优化界面显示优化后的效果,任务调度的执行时间提前了20分钟,用户根据优化建议对第二任务节点的执行时间进行优化。
步骤614,将可视化分析报告发送至用户处。
数据治理系统将可视化分析报告发送至用户处(即数据仓库工程师或管理人员处)。
如图8所示,优化界面80显示有第一任务节点801、第二任务节点802和第三任务接节点803,此外,优化界面80还显示有各个任务节点的依赖关系。示意性的,数据仓库工程师可选择查看限定层级中待优化的任务节点,如数据仓库工程师选择第4层级(检测层数中以黑色表示选中的层级),显示第4层级中待优化的任务节点是第一任务节点801,并将第一任务节点801对应的各个执行路径显示出来,其中,优化界面80将具有较大优化空间的依赖关系以较粗的箭头表示,如依赖关系812的优化空间要大于依赖关系813的优化空间。
可选地,优化界面80还显示有相关信息,如目标任务节点、关键任务节点、最优可达到的效果、各个任务节点在执行路径上的层级、关键任务节点的N个上游任务节点(N为正整数)。
步骤615,对目标ETL进行分析。
数据治理系统根据可视化分析包括和数据仓库预处理系统中的数据集对目标ETL进行分析。
在一个示例中,由分析报告可知,酒店A在7月至8月之间,客房的入住率随着价格的提高而增加,在8月至9月之间,客房的入住率随着价格的提高而降低,酒店管理者可根据该分析报告及时调整客房的价格或实施相关促销活动,以提高客房的入住率。
在另一个示例中,酒店管理系统将顾客信息输入至经过训练的信息模型中,以获得顾客喜欢的客房类型。酒店管理系统需要及时更新信息模型,针对时效性差的信息模型,如酒店管理者要求信息模型在早上七点更新信息,而实际要到上午十点才能更新完成,通过本实施例提供的方法进行关键链路分析,方便数据仓库工程师定位到影响数据延迟更新的关键任务节点。
综上所述,本实施例提供的方法,可应用于多个领域,并结合多个系统对数据仓库的任务调度进行优化。通过对元数据进行分析,自动给出优化建议,并结合优化界面对关键任务节点对应的执行路径进行突出显示,方便用户快速从多个依赖关系中确定关键任务节点,提升了数据仓库的优化任务调度的效率。
本申请实施例提供的方法用于对数据仓库的优化任务调度及可视化分析,可应用于对有向拓扑结构的依赖关系进行分析,同时,本申请实施例提供的方法能够对优化任务调度的效率实现数量级的提升。
以任务节点包括用于执行信息推送任务的任务节点为例进行说明。
在一个示例中,将用户的历史浏览记录输入至训练后的信息推送模型中,该信息推送模型设置在新闻应用程序的后台服务器中,如用户经常浏览军事类型的新闻,则后台服务器优先向用户推送军事类型的新闻。后台服务器需要定期更新信息推送模型,比如,如每天早上六点更新完成信息推送模型,实际需要上午八点才能更新完成,通过上述实施例提供的方法对影响更新延迟的关键任务节点进行优化。
以任务节点包括用于执行商品销售任务的任务节点为例进行说明。
在一个示例中,将用户购买商品a的信息(如时间、数量、购买方式、是否为会员等)输入至训练后的销售模型中,该销售模型设置在购物应用程序的后台服务器中,如用户每两周购买一次商品a,则后台服务器可针对用户的购买习惯,向用户提供促销活动,后台服务器需要定期更新销售模型,比如每周末下午三点更新完成销售模型,实际需要下午五点才能更新完成,通过上述实施例提供的方法对影响更新延迟的关键任务节点进行优化。
以任务节点包括用于执行就餐管理任务的任务节点为例进行说明。
在一个示例中,将用户使用团购应用程序进行就餐的信息(如就餐方式、就餐人数、菜系等)输入至训练后的就餐模型中,该就餐模型设置在团购应用程序的后台服务器中,如用户每周三天在团购应用程序中点外卖,则后台服务器可向用户推荐与常点外卖同类型的外卖店铺,后台服务器需要定期更新就餐模型,比如每周上午十点半更新完成就餐模型,实际需要下午一点半才能更新完成,通过上述实施例提供的方法影响更新延迟的关键任务节点进行优化。
综上所述,本申请实施例提供的方法,能够应用于多个领域,提高模型的更新效率。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。
图9示出了本申请的一个示例性实施例提供的基于数据仓库的优化任务调度装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,该装置包括:
获取模块910,用于获取第一任务节点在数据仓库中的执行路径;
处理模块920,用于在执行路径中确定第一任务节点对应的最长依赖路径,最长依赖路径是第一任务节点和执行路径上的其他任务节点之间形成的最长路径;
生成模块930,用于根据最长依赖路径生成依赖关系集,依赖关系集中的集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系;
显示模块940,根据依赖关系集显示优化界面,优化界面包括关键任务节点,关键任务节点是影响第一任务节点进行执行时间优化的任务节点;
所述处理模块920,用于响应于优化指令,对关键任务节点的执行时间进行优化。
在一个可选的实施例中,所述生成模块930,用于根据最长依赖路径生成第一依赖关系集,第一依赖关系集中的每个第一集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系;
所述生成模块930,用于根据最大执行时间差和第一依赖关系集生成第二依赖关系集,第二依赖关系集中的每个第二集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系以及优化执行时间,最大执行时间差是第二集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的最大差值。
在一个可选的实施例中,任务节点还包括:第二任务节点和第三任务节点,第二任务节点依赖于第三任务节点;
所述获取模块910,用于获取第一任务节点的开始执行时间、第二任务节点的开始执行时间和结束执行时间、第三任务节点的结束执行时间;
所述处理模块920,用于结合开始执行时间和结束执行时间,对第一依赖关系集进行处理,得到中间依赖关系集,中间依赖关系集中的每个中间集合元素用于表示最长依赖路径上两个任务节点之间的依赖关系以及执行时间差,执行时间差是中间集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的差值;
所述处理模块920,用于从中间依赖关系集中获取最大执行时间差,结合最大执行时间差对中间依赖关系集进行处理,得到第二依赖关系集。
在一个可选的实施例中,该装置包括计算模块950;
所述计算模块950,用于计算优化执行时间,优化执行时间是执行时间差与最大执行时间差的差值;
所述处理模块920,用于结合优化执行时间,对中间依赖关系集进行处理,得到第二依赖关系集。
在一个可选的实施例中,所述处理模块920,用于根据第一依赖关系集确定各个任务节点在最长依赖路径上的任务节点层级;
所述生成模块930,用于根据任务节点层级生成第三依赖关系集,第三依赖关系集中的每个第三集合元素用于表示各个任务节点在最长依赖路径上的任务节点层级。
在一个可选的实施例中,优化界面还包括如下信息中的至少一种:关键任务节点的N个上游任务节点、经过优化的执行效果和优化建议,其中,N为正整数。
在一个可选的实施例中,任务节点包括:用于执行信息推送任务的任务节点、用于执行商品销售任务的任务节点、用于执行就餐管理任务的任务节点、用于执行酒店管理任务的任务节点中的任意一种。
图10示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是如图2所示的数据仓库集群21和任务调度系统22中的服务器211和服务器201。具体来讲:
服务器1000包括中央处理单元(CPU,Central Processing Unit)1001、包括随机存取存储器(RAM,Random Access Memory)1002和只读存储器(ROM,Read Only Memory)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input Output System)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
基本输入/输出系统1006包括有用于显示信息的显示器1007和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1007和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital Versatile Disc)或固态硬盘(SSD,Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一个可选的实施例中,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的基于数据仓库的优化任务调度的方法。
在一个可选的实施例中,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的基于数据仓库的优化任务调度的方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于数据仓库的优化任务调度方法,其特征在于,所述方法包括:
获取第一任务节点在所述数据仓库中的执行路径;
在所述执行路径中确定所述第一任务节点对应的最长依赖路径,所述最长依赖路径是所述第一任务节点和所述执行路径上的其他任务节点之间形成的最长路径;
根据所述最长依赖路径生成依赖关系集,所述依赖关系集中的集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系;
根据所述依赖关系集显示优化界面,所述优化界面包括关键任务节点,所述关键任务节点是影响所述第一任务节点进行执行时间优化的任务节点;
响应于优化指令,对所述关键任务节点的执行时间进行优化。
2.根据权利要求1所述的方法,其特征在于,所述根据所述最长依赖路径生成依赖关系集,包括:
根据所述最长依赖路径生成第一依赖关系集,所述第一依赖关系集中的每个第一集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系;
根据最大执行时间差和所述第一依赖关系集生成第二依赖关系集,所述第二依赖关系集中的每个第二集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系以及优化执行时间,所述最大执行时间差是所述第二集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的最大差值。
3.根据权利要求2所述的方法,其特征在于,所述任务节点还包括:第二任务节点和第三任务节点,所述第二任务节点依赖于所述第三任务节点;
所述根据最大执行时间差和所述第一依赖关系集生成第二依赖关系集,包括:
获取所述第一任务节点的开始执行时间、所述第二任务节点的开始执行时间和结束执行时间、所述第三任务节点的结束执行时间;
结合所述开始执行时间和所述结束执行时间,对所述第一依赖关系集进行处理,得到中间依赖关系集,所述中间依赖关系集中的每个中间集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系以及执行时间差,所述执行时间差是所述中间集合元素中的被依赖任务节点的结束执行时间和依赖任务节点的开始执行时间的差值;
从所述中间依赖关系集中获取所述最大执行时间差,结合所述最大执行时间差对所述中间依赖关系集进行处理,得到所述第二依赖关系集。
4.根据权利要求3所述的方法,其特征在于,所述结合所述最大执行时间差对所述中间依赖关系集进行处理,得到所述第二依赖关系集,包括:
计算所述优化执行时间,所述优化执行时间是所述执行时间差与所述最大执行时间差的差值;
结合所述优化执行时间,对所述中间依赖关系集进行处理,得到所述第二依赖关系集。
5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
根据所述第一依赖关系集确定各个任务节点在所述最长依赖路径上的任务节点层级;
根据所述任务节点层级生成第三依赖关系集,所述第三依赖关系集中的每个第三集合元素用于表示所述各个任务节点在所述最长依赖路径上的所述任务节点层级。
6.根据权利要求1至4任一所述的方法,其特征在于,所述优化界面还包括如下信息中的至少一种:所述关键任务节点的N个上游任务节点、经过优化的执行效果和优化建议,其中,N为正整数。
7.根据权利要求1至4任一所述的方法,其特征在于,所述任务节点包括:用于执行信息推送任务的任务节点、用于执行商品销售任务的任务节点、用于执行就餐管理任务的任务节点、用于执行酒店管理任务的任务节点中的任意一种。
8.一种基于数据仓库的优化任务调度装置,其特征在于,所述装置包括:
获取模块,用于获取第一任务节点在所述数据仓库中的执行路径;
处理模块,用于在所述执行路径中确定所述第一任务节点对应的最长依赖路径,所述最长依赖路径是所述第一任务节点和所述执行路径上的其他任务节点之间形成的最长路径;
生成模块,用于根据所述最长依赖路径生成依赖关系集,所述依赖关系集中的集合元素用于表示所述最长依赖路径上两个任务节点之间的依赖关系;
显示模块,根据所述依赖关系集显示优化界面,所述优化界面包括关键任务节点,所述关键任务节点是影响所述第一任务节点进行执行时间优化的任务节点;
所述处理模块,用于响应于优化指令,对所述关键任务节点的执行时间进行优化。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的基于数据仓库的优化任务调度方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行,以实现如权利要求1至7任一项所述的基于数据仓库的优化任务调度方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010183792.6A CN111309712A (zh) | 2020-03-16 | 2020-03-16 | 基于数据仓库的优化任务调度方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010183792.6A CN111309712A (zh) | 2020-03-16 | 2020-03-16 | 基于数据仓库的优化任务调度方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111309712A true CN111309712A (zh) | 2020-06-19 |
Family
ID=71158843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010183792.6A Withdrawn CN111309712A (zh) | 2020-03-16 | 2020-03-16 | 基于数据仓库的优化任务调度方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309712A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111880913A (zh) * | 2020-07-06 | 2020-11-03 | 北京三快在线科技有限公司 | 一种任务优化的方法及装置 |
CN112907055A (zh) * | 2021-02-08 | 2021-06-04 | 中国工商银行股份有限公司 | 数据处理时效测试方法和装置 |
CN113704076A (zh) * | 2021-10-27 | 2021-11-26 | 北京每日菜场科技有限公司 | 任务优化方法、装置、电子设备和计算机可读介质 |
CN115098600A (zh) * | 2022-06-21 | 2022-09-23 | 平安普惠企业管理有限公司 | 用于数据仓库的有向无环图构建方法、装置和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915251A (zh) * | 2015-06-05 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 任务调度方法及装置 |
CN106506188A (zh) * | 2015-09-08 | 2017-03-15 | 阿里巴巴集团控股有限公司 | 一种确定关键节点的方法和设备 |
CN107291533A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 确定上游节点瓶颈度及系统瓶颈度的方法、装置 |
CN108153587A (zh) * | 2017-12-26 | 2018-06-12 | 北京航空航天大学 | 一种针对大数据平台的慢任务原因检测方法 |
CN110058932A (zh) * | 2019-04-19 | 2019-07-26 | 中国科学院深圳先进技术研究院 | 一种用于数据流驱动计算的存储方法和存储系统 |
-
2020
- 2020-03-16 CN CN202010183792.6A patent/CN111309712A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915251A (zh) * | 2015-06-05 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 任务调度方法及装置 |
CN106506188A (zh) * | 2015-09-08 | 2017-03-15 | 阿里巴巴集团控股有限公司 | 一种确定关键节点的方法和设备 |
CN107291533A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 确定上游节点瓶颈度及系统瓶颈度的方法、装置 |
CN108153587A (zh) * | 2017-12-26 | 2018-06-12 | 北京航空航天大学 | 一种针对大数据平台的慢任务原因检测方法 |
CN110058932A (zh) * | 2019-04-19 | 2019-07-26 | 中国科学院深圳先进技术研究院 | 一种用于数据流驱动计算的存储方法和存储系统 |
Non-Patent Citations (1)
Title |
---|
张涛: "基于信任的Web服务组合关键技术研究" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111880913A (zh) * | 2020-07-06 | 2020-11-03 | 北京三快在线科技有限公司 | 一种任务优化的方法及装置 |
CN112907055A (zh) * | 2021-02-08 | 2021-06-04 | 中国工商银行股份有限公司 | 数据处理时效测试方法和装置 |
CN113704076A (zh) * | 2021-10-27 | 2021-11-26 | 北京每日菜场科技有限公司 | 任务优化方法、装置、电子设备和计算机可读介质 |
CN115098600A (zh) * | 2022-06-21 | 2022-09-23 | 平安普惠企业管理有限公司 | 用于数据仓库的有向无环图构建方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713594B2 (en) | Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism | |
US10067788B2 (en) | Automated invalidation of job output data in a job processing system | |
US9898522B2 (en) | Distributed storage of aggregated data | |
US8732118B1 (en) | Distributed performance of data aggregation operations | |
US20170032550A1 (en) | Visualization of Unique Field Values for a Field in a Set of Events | |
CN111309712A (zh) | 基于数据仓库的优化任务调度方法、装置、设备及介质 | |
US20180025065A1 (en) | Efficient query processing using histograms in a columnar database | |
US9311617B2 (en) | Processing event instance data in a client-server architecture | |
US9195700B1 (en) | Systems and methods for storing time-series data | |
US10902023B2 (en) | Database-management system comprising virtual dynamic representations of taxonomic groups | |
US20220261729A1 (en) | Minimizing unmet demands due to short supply | |
US20230004560A1 (en) | Systems and methods for monitoring user-defined metrics | |
CN112102099A (zh) | 保单数据处理方法、装置、电子设备及存储介质 | |
CN115640300A (zh) | 一种大数据管理方法、系统、电子设备和存储介质 | |
US11966868B2 (en) | Rapid sorting-based supply assignment tool for order fulfillment with short supply | |
JP2019101829A (ja) | ソフトウェア部品管理システム、計算機および方法 | |
CN113377604A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
US20240202287A1 (en) | Cyclic pattern detection and prediction execution | |
US11734245B1 (en) | Systems and methods for storing time-series data | |
KR102462689B1 (ko) | 복합단위 시간축을 적용한 그래프 디스플레이 방법 및 장치 | |
US20240320648A1 (en) | Creation and maintenance of hierarchical data objects | |
US20240311195A1 (en) | Parallelism with task dependencies in a curated experience | |
CN117609362A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN118838700A (zh) | 一种分布式数据挖掘任务调度方法及系统 | |
KR20240032493A (ko) | 목적 데이터 시각화 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200619 |