CN115481109A - 数据作业的调整方法、装置、计算机设备和存储介质 - Google Patents

数据作业的调整方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115481109A
CN115481109A CN202211150641.6A CN202211150641A CN115481109A CN 115481109 A CN115481109 A CN 115481109A CN 202211150641 A CN202211150641 A CN 202211150641A CN 115481109 A CN115481109 A CN 115481109A
Authority
CN
China
Prior art keywords
data operation
data
job
target data
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211150641.6A
Other languages
English (en)
Inventor
姜婷
张连明
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202211150641.6A priority Critical patent/CN115481109A/zh
Publication of CN115481109A publication Critical patent/CN115481109A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据作业的调整方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,其中,所述数据作业关系图中的节点与数据作业一一对应;根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配;根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路;对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求。采用本方法能够适用于不同场景的不同优化需求,提升了数据作业的调整效果。

Description

数据作业的调整方法、装置、计算机设备和存储介质
技术领域
本公开涉及数据作业技术领域,特别是涉及一种数据作业的调整方法、装置、计算机设备和存储介质。
背景技术
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,主要研究和解决从数据库中获取信息的问题。在数据仓库中进行数据作业时,通常需要通过多个数据作业节点完成目标数据作业。
数据作业过程中,数据作业节点或数据作业时间具有不可控性,无法确定目标数据作业最终的完成时间。
发明内容
基于此,有必要针对上述技术问题,提供一种能够优化数据作业效果的数据作业的调整方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本公开实施例提供了一种数据作业的调整方法。所述方法包括:
根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,其中,所述数据作业关系图中的节点与数据作业一一对应;
根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配;
根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路;
对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求。
在其中一个实施例中,所述预设的优化对象包括数据作业耗时;所述根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配,包括:
获取所述数据作业关系图中的每个数据作业对应的数据作业耗时;
根据所述数据作业耗时确定对应的节点权重,其中,所述节点权重与所述数据作业耗时之间为正相关关联关系或负相关关联关系。
在其中一个实施例中,所述根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路,包括:
确定所述数据作业关系图中的初始节点和终点,其中,所述终点与目标数据作业相对应;
根据所述节点权重利用预设路径算法,确定从所述初始节点至所述终点的满足预设条件的数据作业链路;
确定所述满足预设条件的数据作业链路为目标数据作业链路。
在其中一个实施例中,所述对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求,包括:
获取所述预设的优化对象对应的目标数据作业耗时;
在所述目标数据作业链路的数据作业耗时大于所述目标数据作业耗时的情况下,调整所述目标数据作业链路,直至调整后的目标数据作业链路的数据作业耗时小于等于所述目标数据作业耗时。
在其中一个实施例中,所述获取所述数据作业关系图中的每个数据作业对应的数据作业耗时,包括:
获取所述数据作业关系图中的数据作业在预设历史时段内的历史数据作业耗时;
确定所述历史数据作业耗时的平均耗时为所述数据作业对应的数据作业耗时;
获取所述数据作业关系图中的每个数据作业对应的数据作业耗时。
在其中一个实施例中,所述预设的优化对象包括数据作业层级。
第二方面,本公开实施例还提供了一种数据作业的调整装置。所述装置包括:
第一确定模块,用于根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,其中,所述数据作业关系图中的节点与数据作业一一对应;
第二确定模块,用于根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配;
第三确定模块,用于根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路;
调整模块,用于对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求。
在其中一个实施例中,所述预设的优化对象包括数据作业耗时;所述第二确定模块,包括:
获取模块,用于获取所述数据作业关系图中的每个数据作业对应的数据作业耗时;
确定子模块,用于根据所述数据作业耗时确定对应的节点权重,其中,所述节点权重与所述数据作业耗时之间为正相关关联关系或负相关关联关系。
在其中一个实施例中,所述第三确定模块,包括:
第一确定子模块,用于确定所述数据作业关系图中的初始节点和终点,其中,所述终点与目标数据作业相对应;
第二确定子模块,用于根据所述节点权重利用预设路径算法,确定从所述初始节点至所述终点的满足预设条件的数据作业链路;
第三确定子模块,用于确定所述满足预设条件的数据作业链路为目标数据作业链路。
在其中一个实施例中,所述调整模块,包括:
获取子模块,用于获取所述预设的优化对象对应的目标数据作业耗时;
调整子模块,用于在所述目标数据作业链路的数据作业耗时大于所述目标数据作业耗时的情况下,调整所述目标数据作业链路,直至调整后的目标数据作业链路的数据作业耗时小于等于所述目标数据作业耗时。
在其中一个实施例中,所述获取模块,包括:
第一获取子模块,用于获取所述数据作业关系图中的数据作业在预设历史时段内的历史数据作业耗时;
确定子模块,用于确定所述历史数据作业耗时的平均耗时为所述数据作业对应的数据作业耗时;
第二获取子模块,用于获取所述数据作业关系图中的每个数据作业对应的数据作业耗时。
在其中一个实施例中,所述预设的优化对象包括数据作业层级。
第三方面,本公开实施例还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
第五方面,本公开实施例还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
本公开实施例,根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,并根据预设的优化对象确定关系图中每个节点的节点权重,确定得到目标数据作业链路,对目标数据作业链路进行调整,直到调整后的目标数据作业链路满足预设要求,实现了对数据作业的调整,通过对数据作业链路的调整,使得调整后的数据作业满足要求,保证了目标数据作业完成效果,且通过预设的优化对象确定节点权重,能够适用于不同场景的不同优化需求,提升了数据作业的调整效果。
附图说明
图1为一个实施例中数据作业的调整方法的应用环境图;
图2为一个实施例中数据作业的调整方法的流程示意图;
图3为一个实施例中数据作业关系图的结构示意图;
图4为一个实施例中带权正权图的结构示意图;
图5为一个实施例中带权负权图的结构示意图;
图6为一个实施例中正等权图的结构示意图;
图7为一个实施例中负等权图的结构示意图;
图8为一个实施例中数据作业的调整方法的流程示意图;
图9为一个实施例中数据作业的调整方法的流程示意图;
图10为一个实施例中数据作业的调整装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开实施例,并不用于限定本公开实施例。
本公开实施例提供的数据作业的调整方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据作业的调整方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S210,根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,其中,所述数据作业关系图中的节点与数据作业一一对应;
通常情况下,在数据作业过程中,需要经过一系列上游数据作业后执行目标数据作业,数据作业之间存在依赖关系。通常情况下,本实施例中的数据作业流程结构为大数据领域内的标准数据作业链路结构,存在很多交叉点,数据链路复杂庞大,同时,相邻数据作业之间都存在串联式的强依赖关系。
本公开实施例中,获取数据库中待处理的目标数据作业的上游数据作业和作业依赖关系。在一个示例中,当一个数据作业需要依赖另一个数据作业执行时,认为两个数据作业之间存在作业依赖关系,其中,作业依赖关系可以为单向关系或双向关系,一个数据作业可以与一个或多个数据作业之间存在作业依赖关系。将目标数据作业和上游数据作业作为节点,根据作业依赖关系连接节点,得到目标数据作业对应的数据作业关系图。在一个示例中,可以设置一个虚拟节点,根据作业依赖关系连接节点后,将初始节点与虚拟节点连接,得到目标数据作业对应的数据作业关系图,其中,初始节点通常为没有对应上游数据作业的数据作业节点,本实施例中得到的数据作业关系图的起点为虚拟节点,终点为目标数据作业对应的节点;本实施例中基于数据作业全链路,包含了数据加载、数据整合、数据加工全流程,若针对单个数据源模块逐个计算,整体效率较低,因此通过创建虚拟节点,连接所有数据加载数据作业,整合优化数据作业链路结构,保证了源点,即起点的单一性,提高了计算效率。图3为根据一示范性实施例示出的一种数据作业关系图的结构示意图,参考图3所示,虚拟节点、目标数据作业节点、目标数据作业的上游数据作业的节点根据依赖关系相互连接,数据作业节点之间存在单向的依赖关系,用带箭头的连接线表示,其中,A1、A2、A3、A4可以为数据加载数据作业,B1、B2、B3、B4、B5、B6可以为数据整合数据作业,C1、C2、C3可以为公共层数据作业,D1、D2、D3可以为应用数据作业。
步骤S220,根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配;
本公开实施例中,得到数据作业关系图后,根据预设的优化对象确定数据作业关系图中每个节点的节点权重。其中,预设的优化对象通常为事先根据实际应用场景设置的想要进行优化的对象,在一个示例中,预设的优化对象可以包括但不限于数据作业耗时、数据作业层级等。获取到预设的优化对象后,确定优化对象对应的节点权重设置方式,其中,节点权重设置方式与优化对象相匹配,例如,当优化对象为数据作业耗时时,可以根据数据作业关系图中的每个节点对应的数据作业的耗时确定对应的节点权重。根据对应的节点权重设置方式确定数据作业关系图中每个节点的节点权重。在一个示例中,虚拟节点对应的权重可以为一个固定的预设值,如0。在一个示例中,可以通过设置数据作业关系图中的边权得到带有权重的数据作业关系图,根据不同需求场景,通过不同的权重设置方式设置边权,带有权重的数据作业关系图可以包括但不限于带权正权图、带权负权图、正等权图、负等权图。其中,带权正权图的普通节点之间的边权为正数或0,即初始权值不变,可以用于计算最短耗时加权路径;带权负权图的普通节点之间的边权为负数或0,即边权转换为初始权值的相反数,可以用于计算最长耗时加权路径,简称“最长加权路径”,即关键路径;正等权图中除了权值为0的边,所有普通节点之间的边权调整为1,可以用于计算最短层级链路;负等权图中除了权重为0的边,所有普通节点之间的边权调整为-1,可以用于计算最长层级链路。图4为一个实施例中的带权正权图的结构示意图,图5为一个实施例中的带权负权图的结构示意图,图6为一个实施例中的正等权图的结构示意图,图7为一个实施例中的负等权图的结构示意图。
步骤S230,根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路;
本公开实施例中,确定得到数据作业关系图中的节点权重后,根据节点权重及对应的优化对象确定目标数据作业链路。其中,在数据作业关系图中,由于作业依赖关系是有向的,因此在数据作业关系图中包括一个或多个数据作业链路,且数据作业链路以目标数据作业节点为终点。根据数据作业关系图中的节点权重就能够确定不同链路的链路权重。根据对应的优化对象从数据作业关系图中的数据作业链路中确定目标数据作业链路,其中,目标数据作业链路可以为一个或多个。在一个示例中,当对应的优化对象为数据作业耗时时,节点权重与数据作业耗时之间存在关联关系,此时可以确定数据作业耗时最长的链路为目标数据作业链路,根据节点权重与数据作业耗时之间的关联关系确定数据作业耗时最长的链路。在一个示例中,确定目标数据作业链路时,可以通过预设的算法对节点权重计算得到目标数据作业链路,也可以确定数据作业关系图中数据作业链路之后,再确定不同数据作业链路的链路权重,进而得到目标数据作业链路。
步骤S240,对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求。
本公开实施例中,得到目标数据作业链路后,对目标数据作业链路进行调整,直到调整后的目标数据作业链路满足预设要求。其中,预设要求与预设的优化对象之间存在对应关系,例如,若预设的优化对象为数据作业耗时,则预设要求可以设置为预设耗时;若预设的优化对象为数据作业层级,则预设要求可以设置为预设层级。在一个示例中,调整的方式可以包括但不限于删除数据作业节点、变更数据作业节点、新增数据作业节点、调整数据作业节点的具体数据作业参数等。在一个示例中,调整之后,重新计算得到新的目标数据作业链路,判断新的目标数据作业链路是否满足预设要求,若满足预设要求,则调整完成;若不满足预设要求,则继续进行调整,直到调整后的目标数据作业链路满足预设要求。在一个示例中,按照调整完成后的数据作业关系图执行目标数据作业。在一个示例中,调整方式可以为在不调整数据链路的情况下,对中间数据作业耗时进行降序排序,将高耗时数据作业的执行时间缩短到合理范围内,重新计算关键路径(即目标数据作业链路),并得出最佳的数据处理时效;还可以为支持用户自定义调整数据链路,基于关键路径(即目标数据作业链路),调整数据作业依赖和数据作业耗时、新增/变更/删除中间数据作业,基于最新的数据链路结构,迭代计算新的关键路径,预估数据作业完成时间,直至满足目标时效。
本公开实施例,根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,并根据预设的优化对象确定关系图中每个节点的节点权重,确定得到目标数据作业链路,对目标数据作业链路进行调整,直到调整后的目标数据作业链路满足预设要求,实现了对数据作业的调整,通过对数据作业链路的调整,使得调整后的数据作业满足要求,保证了目标数据作业完成效果,且通过预设的优化对象确定节点权重,能够适用于不同场景的不同优化需求,提升了数据作业的调整效果。
在一个实施例中,如图8所示,所述预设的优化对象包括数据作业耗时;所述根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配,包括:
步骤S221,获取所述数据作业关系图中的每个数据作业对应的数据作业耗时;
步骤S222,根据所述数据作业耗时确定对应的节点权重,其中,所述节点权重与所述数据作业耗时之间为正相关关联关系或负相关关联关系。
本公开实施例中,预设的优化对象包括数据作业耗时,确定节点权重时,获取数据作业关系图中的每个数据作业对应的数据作业耗时,根据数据作业耗时确定数据作业对应的节点权重。其中,设置节点权重时,节点权重与数据作业耗时之间为正相关或负相关关联关系。在一个示例中,每个数据作业对应的数据作业耗时可以通过对历史数据作业耗时数据进行分析获取,还可以通过对数据作业的具体内容进行分析确定得到。
本公开实施例,通过数据作业耗时确定节点权重,能够使得后续确定得到的数据作业链路与数据作业耗时之间存在关联关系,进而能够根据包括数据作业耗时的优化对象进行调整,使得调整后的数据作业链路满足要求,进而实现了对目标数据作业的耗时的优化,提升了目标数据作业的完成时效。
在一个实施例中,所述根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路,包括:
确定所述数据作业关系图中的初始节点和终点,其中,所述终点与目标数据作业相对应;
根据所述节点权重利用预设路径算法,确定从所述初始节点至所述终点的满足预设条件的数据作业链路;
确定所述满足预设条件的数据作业链路为目标数据作业链路。
本公开实施例中,确定目标数据作业链路时,获取数据作业关系图中的初始节点和终点,其中,终点对应于目标数据作业,初始节点可以为一个或多个。在一个示例中,初始节点可以为没有上游数据作业相对应的数据作业节点,也可以为事先设置的与没有上游数据作业相对应的数据作业节点相连接的虚拟节点。根据节点权重,利用预设的路径算法,确定初始节点到终点之间满足预设条件的数据作业链路。在一个示例中,预设的路径算法可以为最长路径算法、可以为最短路径算法,最短路径算法可以包括但不限于贝尔曼-福特算法。其中,预设条件通常为事先根据优化对象确定得到,在一个示例中,优化对象为数据作业耗时,想要使得优化后的数据作业耗时较短时,当节点权重与数据作业耗时之间存在正相关关联关系时,预设条件可以设置为链路权重大于预设阈值,也可以设置为链路权重为数据作业关系图中的最大权重;当节点权重与数据作业耗时之间存在负相关关联关系时,预设条件可以设置为链路权重小于预设阈值,也可以设置为链路权重为数据作业关系图中的最小权重。
在一个示例中,利用贝尔曼-福特算法计算目标数据作业链路时,假设n为节点数,s为起点,即源点,t为终点。数组Distant[i]表示源点s到节点i的路径长度,e(u,v)表示节点u和节点v的连接边,w(u,v)表示节点u和节点v之间的边权,Pre(u)=v表示节点u的前趋点为节点v;调整边权,每一个节点u代表一个数据作业,每一条边e(u,v)代表从节点u到节点v之间的边,即数据作业v依赖于数据作业u,对应边权w(u,v)取近一个月数据作业u平均耗时的相反数(即前趋点耗时);初始化所有节点的距离值,距离值表示从源点到达这个点的路径长度,虚拟节点作为源点s,初始距离值为0,即Distant[s]=0;其他点的初始距离值设置为0,即Distant[v]=0,v=1,2,3,…,t;循环遍历,从虚拟节点s开始,循环计算每个节点的路径长度。在单个节点的循环内部,遍历松弛每一条相关有向边,判断是否存在Distant[v]>Distant[u]+w(u,v)。若存在,则更新Distant[v]=Distant[u]+w(u,v),Pre(v)=u;若不满足,节点v的路径长度Distant[v]保持不变,节点v的前趋点保持不变。若遍历结束,Distant[v]无法更新,说明源点s到达节点v的最短路径已经查找完毕,执行下一次循环,直至终点路径长度Distant[t]不再更新,循环结束;根据计算结果,反向回溯连接前趋点,所得出的路径即关键路径,即此条链路耗时最长,得到目标数据作业路径。在本实施例中,由于在数据作业链路数据结构中,不存在循环依赖,因此不存在环图,可省略判断是否存在权值小于0的负环路操作。
本公开实施例,通过数据作业关系图中的节点、节点权重、预设路径算法,从而能够确定目标数据作业链路,进而能够进行后续的调整;通过预设路径算法能够快速准确的得到目标数据作业链路,保证了后续调整优化的效果,实现了对目标数据作业效果的优化。
在一个实施例中,所述对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求,包括:
获取所述预设的优化对象对应的目标数据作业耗时;
在所述目标数据作业链路的数据作业耗时大于所述目标数据作业耗时的情况下,调整所述目标数据作业链路,直至调整后的目标数据作业链路的数据作业耗时小于等于所述目标数据作业耗时。
本公开实施例中,获取预设的优化对象对应的目标数据作业耗时,其中,预设要求与优化对象之间存在关联关系,优化对象为数据作业耗时时,可以设置预设要求为目标数据作业耗时。比较目标数据作业链路的数据作业耗时与目标数据作业耗时,在目标数据作业链路的数据作业耗时大于目标数据作业耗时时,可以认为此时的数据作业关系图的数据作业耗时不满足要求,需要进行调整。在一个示例中,当目标链路的数据作业耗时小于等于目标数据作业耗时时,可以认为此时的数据作业关系图的数据作业耗时满足要求,不需要进行调整。本公开实施例中,通常情况下,目标数据作业的完成耗时与目标数据作业链路的数据作业耗时之间存在关联关系。当调整后的目标数据作业链路的数据作业耗时小于等于目标数据作业耗时时,认为满足要求,无需调整。在一个示例中,每调整一次后,都更新数据作业关系图,重新获取新的目标数据作业链路进行判断。
本公开实施例,设置目标数据作业耗时,并通过目标数据作业耗时对数据作业链路进行调整,能够使得调整后的目标数据作业的时效满足要求,实现了对目标数据作业耗时的优化,提高了数据作业的效率,保证了目标数据作业的完成效果。
在一个实施例中,所述获取所述数据作业关系图中的每个数据作业对应的数据作业耗时,包括:
获取所述数据作业关系图中的数据作业在预设历史时段内的历史数据作业耗时;
确定所述历史数据作业耗时的平均耗时为所述数据作业对应的数据作业耗时;
获取所述数据作业关系图中的每个数据作业对应的数据作业耗时。
本公开实施例中,获取数据作业关系图中的数据作业在预设历史时段内的历史数据作业耗时。其中,预设历史时段可以为事先根据实际应用场景确定得到。将获取到的历史数据作业耗时的平均耗时作为数据作业对应的数据作业耗时,获取数据作业关系图中每个数据作业对应的数据作业耗时。其中,可以根据数据作业的具体参数或执行过程获取对应的参数相同或执行过程相同的历史数据,作为该数据作业对应的历史数据作业耗时。
本公开实施例,通过历史数据作业耗时的平均耗时作为数据作业耗时,根据历史数据确定耗时,保证了确定得到的数据作业耗时的准确可靠性,进而能够保证后续的优化调整的效果,使得调整后的数据作业时效满足要求,提升了数据作业的效果。
在一个实施例中,所述预设的优化对象包括数据作业层级。
本公开实施例中,预设的优化对象还包括数据作业层级。在一个示例中,当优化对象为数据作业层级时,可以根据数据作业层级设置对应权重,如每个节点设置权重相等,从而能够直接根据链路权重得到层级最多、层级最少或层级数量满足预设要求的目标数据作业链路,从而能够通过对目标数据作业链路进行调整,使得调整优化后的数据作业链路层级满足预设要求。
本公开实施例,能够对数据作业层级进行优化调整,使得调整后的目标数据作业的数据作业层级满足预设要求,从而能够适用于需要调整数据作业层级的应用场景,保证了调整后的数据作业的效果,提升了用户的体验感。
在一个实施例中,可以对数据作业的时效进行优化,图9是根据一示例性实施例示出的一种数据作业的调整方法的示意图,参考图9所示,读取数据库信息,其中,读取信息包括作业依赖关系和数据作业耗时;根据目标数据作业,筛选其数据作业的所有上游数据作业;将每一个数据作业作为一个节点,取预设历史时段(如近一个月)内数据作业的平均耗时的相反数为初始权重;创建虚拟节点,连接目标数据作业上游所有的数据加载数据作业,边权值设置为0;创建带权负权有向图。以虚拟节点为起始点,目标数据作业(评估对象)为终点,通过Bellman-Ford最短路径算法(贝尔曼-福特最短路径算法),计算最短路径,从而得到耗时最长的路径作为关键路径,即目标数据作业链路;根据关键路径,反向回溯数据链路,预估数据作业完成时间;判断数据作业时效是否符合目标时效,若不符合,根据标准约束,利用预设的优化策略对链路进行优化,循环迭代计算关键路径和数据作业完成时间,直至时效满足;若满足,任务结束。其中,优化策略可以包括但不限于优化关键路径,按需停止;优化所有超时数据作业;接收用户输入的指令进行优化等。
本公开实施例,基于最短路径算法和数据作业链路结构,实时同步数据库数据作业信息,循环迭代计算数据作业关键路径;在复杂庞大的数据链路体系中,自动化快速定位数据作业关键路径,以此快速预估数据作业完成时间。基于数据作业关键路径和数据时效性要求,不仅支持多种预设标准约束,如数据作业层级标准、数据作业耗时标准等,而且支持自定义选择优化策略,比如变动影响范围最小、时效提升效果最好,快速提供数据作业时效的提升方案;并根据优化调整方案,动态迭代计算数据作业关键路径,直至满足时效要求。不局限实时动态计算数据作业关键路径,也支持实时计算数据作业层级最长、层级最短、耗时最短等多种数据链路,支持多方面分析数据模型的开发合理性和数据时效的提升空间。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的数据作业的调整方法的数据作业的调整装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据作业的调整装置实施例中的具体限定可以参见上文中对于数据作业的调整方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种数据作业的调整装置1000,包括:
第一确定模块1010,用于根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,其中,所述数据作业关系图中的节点与数据作业一一对应;
第二确定模块1020,用于根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配;
第三确定模块1030,用于根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路;
调整模块1040,用于对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求。
在一个实施例中,所述预设的优化对象包括数据作业耗时;所述第二确定模块,包括:
获取模块,用于获取所述数据作业关系图中的每个数据作业对应的数据作业耗时;
确定子模块,用于根据所述数据作业耗时确定对应的节点权重,其中,所述节点权重与所述数据作业耗时之间为正相关关联关系或负相关关联关系。
在一个实施例中,所述第三确定模块,包括:
第一确定子模块,用于确定所述数据作业关系图中的初始节点和终点,其中,所述终点与目标数据作业相对应;
第二确定子模块,用于根据所述节点权重利用预设路径算法,确定从所述初始节点至所述终点的满足预设条件的数据作业链路;
第三确定子模块,用于确定所述满足预设条件的数据作业链路为目标数据作业链路。
在一个实施例中,所述调整模块,包括:
获取子模块,用于获取所述预设的优化对象对应的目标数据作业耗时;
调整子模块,用于在所述目标数据作业链路的数据作业耗时大于所述目标数据作业耗时的情况下,调整所述目标数据作业链路,直至调整后的目标数据作业链路的数据作业耗时小于等于所述目标数据作业耗时。
在一个实施例中,所述获取模块,包括:
第一获取子模块,用于获取所述数据作业关系图中的数据作业在预设历史时段内的历史数据作业耗时;
确定子模块,用于确定所述历史数据作业耗时的平均耗时为所述数据作业对应的数据作业耗时;
第二获取子模块,用于获取所述数据作业关系图中的每个数据作业对应的数据作业耗时。
在一个实施例中,所述预设的优化对象包括数据作业层级。
上述数据作业的调整装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据作业数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据作业的调整方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本公开实施例方案相关的部分结构的框图,并不构成对本公开实施例方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开实施例所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开实施例所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开实施例专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开实施例构思的前提下,还可以做出若干变形和改进,这些都属于本公开实施例的保护范围。因此,本公开实施例的保护范围应以所附权利要求为准。

Claims (15)

1.一种数据作业的调整方法,其特征在于,所述方法包括:
根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,其中,所述数据作业关系图中的节点与数据作业一一对应;
根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配;
根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路;
对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求。
2.根据权利要求1所述的方法,其特征在于,所述预设的优化对象包括数据作业耗时;所述根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配,包括:
获取所述数据作业关系图中的每个数据作业对应的数据作业耗时;
根据所述数据作业耗时确定对应的节点权重,其中,所述节点权重与所述数据作业耗时之间为正相关关联关系或负相关关联关系。
3.根据权利要求2所述的方法,其特征在于,所述根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路,包括:
确定所述数据作业关系图中的初始节点和终点,其中,所述终点与目标数据作业相对应;
根据所述节点权重利用预设路径算法,确定从所述初始节点至所述终点的满足预设条件的数据作业链路;
确定所述满足预设条件的数据作业链路为目标数据作业链路。
4.根据权利要求2所述的方法,其特征在于,所述对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求,包括:
获取所述预设的优化对象对应的目标数据作业耗时;
在所述目标数据作业链路的数据作业耗时大于所述目标数据作业耗时的情况下,调整所述目标数据作业链路,直至调整后的目标数据作业链路的数据作业耗时小于等于所述目标数据作业耗时。
5.根据权利要求2所述的方法,其特征在于,所述获取所述数据作业关系图中的每个数据作业对应的数据作业耗时,包括:
获取所述数据作业关系图中的数据作业在预设历史时段内的历史数据作业耗时;
确定所述历史数据作业耗时的平均耗时为所述数据作业对应的数据作业耗时;
获取所述数据作业关系图中的每个数据作业对应的数据作业耗时。
6.根据权利要求1所述的方法,其特征在于,所述预设的优化对象包括数据作业层级。
7.一种数据作业的调整装置,其特征在于,所述装置包括:
第一确定模块,用于根据数据库中待处理的目标数据作业的上游数据作业和作业依赖关系,确定目标数据作业对应的数据作业关系图,其中,所述数据作业关系图中的节点与数据作业一一对应;
第二确定模块,用于根据预设的优化对象,确定所述数据作业关系图中每个节点的节点权重,所述节点权重与所述优化对象相匹配;
第三确定模块,用于根据所述优化对象及所述节点权重确定以所述目标数据作业节点为终点的目标数据作业链路;
调整模块,用于对所述目标数据作业链路进行调整,直至调整后的目标数据作业链路满足所述优化对象的预设要求。
8.根据权利要求7所述的装置,其特征在于,所述预设的优化对象包括数据作业耗时;所述第二确定模块,包括:
获取模块,用于获取所述数据作业关系图中的每个数据作业对应的数据作业耗时;
确定子模块,用于根据所述数据作业耗时确定对应的节点权重,其中,所述节点权重与所述数据作业耗时之间为正相关关联关系或负相关关联关系。
9.根据权利要求8所述的装置,其特征在于,所述第三确定模块,包括:
第一确定子模块,用于确定所述数据作业关系图中的初始节点和终点,其中,所述终点与目标数据作业相对应;
第二确定子模块,用于根据所述节点权重利用预设路径算法,确定从所述初始节点至所述终点的满足预设条件的数据作业链路;
第三确定子模块,用于确定所述满足预设条件的数据作业链路为目标数据作业链路。
10.根据权利要求8所述的装置,其特征在于,所述调整模块,包括:
获取子模块,用于获取所述预设的优化对象对应的目标数据作业耗时;
调整子模块,用于在所述目标数据作业链路的数据作业耗时大于所述目标数据作业耗时的情况下,调整所述目标数据作业链路,直至调整后的目标数据作业链路的数据作业耗时小于等于所述目标数据作业耗时。
11.根据权利要求8所述的装置,其特征在于,所述获取模块,包括:
第一获取子模块,用于获取所述数据作业关系图中的数据作业在预设历史时段内的历史数据作业耗时;
确定子模块,用于确定所述历史数据作业耗时的平均耗时为所述数据作业对应的数据作业耗时;
第二获取子模块,用于获取所述数据作业关系图中的每个数据作业对应的数据作业耗时。
12.根据权利要求7所述的装置,其特征在于,所述预设的优化对象包括数据作业层级。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的数据作业的调整方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据作业的调整方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据作业的调整方法的步骤。
CN202211150641.6A 2022-09-21 2022-09-21 数据作业的调整方法、装置、计算机设备和存储介质 Pending CN115481109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211150641.6A CN115481109A (zh) 2022-09-21 2022-09-21 数据作业的调整方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211150641.6A CN115481109A (zh) 2022-09-21 2022-09-21 数据作业的调整方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115481109A true CN115481109A (zh) 2022-12-16

Family

ID=84423740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211150641.6A Pending CN115481109A (zh) 2022-09-21 2022-09-21 数据作业的调整方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115481109A (zh)

Similar Documents

Publication Publication Date Title
US10748072B1 (en) Intermittent demand forecasting for large inventories
EP3432157B1 (en) Data table joining mode processing method and apparatus
US8712998B2 (en) Deadline-driven parallel execution of queries
US8584004B2 (en) Asynchronous user defined functions
US20160292608A1 (en) Multi-cluster management method and device
CN109446205B (zh) 判断数据状态的装置和方法以及数据更新的装置和方法
CN109840248B (zh) 一种作业流程优化方法、装置及存储介质
CN110516985B (zh) 仓库选择方法、系统、计算机系统和计算机可读存储介质
CN105677645B (zh) 一种数据表比对方法和装置
US20240176657A1 (en) Task processing method and apparatus, electronic device, storage medium and program product
US9003419B2 (en) Network balancing procedure that includes redistributing flows on arcs incident on a batch of vertices
WO2022104616A1 (en) Non-linear causal modeling based on encoded knowledge
CN112966054A (zh) 基于企业图谱节点间关系的族群划分方法和计算机设备
CN115859016B (zh) 基于处理器的运算方法、装置、计算机设备及存储介质
US10769651B2 (en) Estimating prospect lifetime values
CN116737373A (zh) 负载均衡方法、装置、计算机设备、存储介质
US20130103456A1 (en) Method, system and program storage device for production planning
CN115481109A (zh) 数据作业的调整方法、装置、计算机设备和存储介质
CN115409070A (zh) 离散数据序列临界点的确定方法、装置以及设备
CN115310709A (zh) 一种基于粒子群算法的电力工程项目信息优化方法
CN114201271A (zh) 节点确定方法、装置、计算机设备、存储介质
CN115730663A (zh) 量子计算任务映射方法以及量子计算机操作系统
CN113822610B (zh) 库存优化方法、装置、计算机设备和存储介质
CN116089063B (zh) 基于利用鲸鱼优化算法指导猎物生成的北方苍鹰优化wngo算法和相似整数编码的服务组合优化方法
CN117273115B (zh) 一种反向计算图的静态生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination