CN117493020A

CN117493020A - 一种数据网格的计算资源调度实现方法

Info

Publication number: CN117493020A
Application number: CN202311691885.XA
Authority: CN
Inventors: 于峰; 戴弘林; 王晟; 丁皓
Original assignee: Jiangsu Liangjie Data Technology Co ltd
Current assignee: Jiangsu Liangjie Data Technology Co ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-02-02

Abstract

本发明公开了一种数据网格的计算资源调度实现方法，包括：基于领域大类划分原则和自助数据平台分层次统计机制，建立数据网格计算拓扑架构：计算可用计算资源目标性能；计算节点目标性能需求；计算效率最大化调度；其中，计算资源需求表以单位时间序列统计，且为动态更新，当领域内有新资源请求时，自助数据平台在每一个单位时间点动态更新对应的性能总需求，并根据该需求，动态递归关联指标，得到满足条件的计算资源配备。本发明通过明确定义并给出全局计算资源的统计模式，基于网格节点计算资源的优先级、重要性、时长等因素确定节点目标性能，针对全局资源和各节点需要资源进行合理分配，保证负载均衡和网格的高效能运转，节省资金。

Description

一种数据网格的计算资源调度实现方法

技术领域

本发明涉及大数据分析、资源调度的技术领域，尤其涉及一种数据网格的计算资源调度实现方法。

背景技术

数据网格是一种分布式的架构框架，旨在解决多个数据来源的集成和数据安全挑战，它允许组织整合来自不同业务部门的多个数据来源，并通过联合治理的数据共享和治理准则将它们联系在一起，数据网格架构通过分散所有权的方式，将数据存储在各个业务领域中，从而提高了数据的安全性，数据从源系统传输到数据网格，并在需要时进行处理和分析，业务功能可以通过管理准则控制对共享数据的访问，例如确定谁可以访问共享数据、以及以何种格式进行访问。

在分布式系统和云计算环境中，计算资源调度非常重要，调度器可以根据资源需求和约束，将任务调度到合适的节点上执行，以实现负载均衡，提高整体系统性能，计算资源调度的目标是使得计算任务能够高效地利用可用资源，提高系统性能和资源利用率，这可以通过动态地将计算任务分配给适当的计算节点或服务器来实现，调度策略可以基于多种因素，如任务的优先级、资源需求、负载均衡、能源效率等。

数据网格架构的优势在于提供了更好的数据访问和安全性，它能够有效地解决数据来源多样性和数据分散的挑战，提供了统一且一致的数据视图，同时，数据网格还提供了可扩展性，可以根据需要添加新的数据来源和资源节点，以满足业务需求的增长，但作为一个新兴分布式数据管理架构，数据网格在分布式云环境的计算资源调度还未形成统一的方法论，导致目前应用数据网格架构是存在如下缺陷：(1)数据网格未形成全局计算资源的统计方法与调度方法；(2)对于计算任务的优先级不明确易导致服务阻塞，负载不均衡；(3)产生计算资源的能源效率浪费。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

本发明的目的是提供一种数据网格的计算资源调度实现方法，该方法从数据网格的分布式架构出发，分析计算资源调度在数据网格中的特点，并因地制宜的提出数据网格的计算资源效率和优先级方法，实现计算资源在数据网格中的高效合理调度，提升能效，促进负载均衡。

为实现上述目的，本发明提供如下技术方案：基于领域大类划分原则和自助数据平台分层次统计机制，建立数据网格计算拓扑架构：

计算可用计算资源目标性能；

计算节点目标性能需求；

计算效率最大化调度；

其中，计算资源需求表以单位时间序列统计，且为动态更新，当领域内有新资源请求时，自助数据平台在每一个单位时间点动态更新对应的性能总需求，并根据该需求，动态递归关联指标，得到满足条件的计算资源配备。

作为本发明所述的一种优选方案，所述自助数据平台分层次统计机制使数据网格根据领域大类实现分层次的统计接口，进行领域的技术设施层级资源等级统计。

作为本发明所述的一种优选方案，所述计算资源划分为三大类，分别为TPU、GPU、CPU；

所述计算资源包括四个主要统计参数，分别为单位数量、计划订阅时长、单位时长性能、单位时长费用。

作为本发明所述的一种优选方案，可用计算资源目标性能的计算公式如下：

其中，P为可用计算资源目标性能，X为单位数量，Y为计划订阅时长，Z为单位时长性能，i为每种计算资源类型。

作为本发明所述的一种优选方案，通过计算密度集以计算所述节点目标性能需求，包括：

计算密集度＝(CPU利用率*权重1+内存使用率*权重2+网络负载*权重3)/总权重

其中，各项权重为网格层级的统一设置权重，由自助数据平台接口的长期计算资源统计得出的动态值，且密集度是一个各节点同等看待的计算指标。

作为本发明所述的一种优选方案，所述计算密集度至少包含小样本统计评估任务计算的各项指标，其包括CPU利用率、内存使用率、网络负载；

其中，通过所述小样本统计评估，获得单位时间处理样本数，以统计节点目标性能总需求。

作为本发明所述的一种优选方案，基于所述计算密集度，利用优先级统计各节点任务的优先级指标，包括：

优先级＝(任务紧急程度*权重1+任务重要性*权重2+业务需求*权重3)/总权重

其中，任务紧急程度为0～5分，可根据任务的上线需求定义，任务重要性为0～5分，可根据领域支撑业务的重要性定义，业务需求为0～5分，基于临时业务侧需求定义。

作为本发明所述的一种优选方案，将所述优先级作为所述计算密集度的权重，将所述计算密集度作为各节点任务的单位性能需求，得到综合节点目标性能需求，其计算公式如下：

单位需求性能＝计算密集度*优先级

根据已知领域节点的单位性能需求，结合领域节点的总任务量，得到领域的总性能需求，其计算公式如下：

节点目标总性能＝计算总样本数/单位时间处理样本数*单位需求性能。

作为本发明所述的一种优选方案，效率最大化调度的数学计算公式如下：

E_j≤∑_iY_ij×Z_i

其中，E_j为当前时间序列j时段的性能总需求，Y_i为第i种类型的计算资源订阅时间，Z_i为第i种类型计算资源的单位时间性能。

本发明的有益效果：本发明通过明确定义并给出全局计算资源的统计模式，基于网格节点计算资源的优先级、重要性、时长等因素确定节点目标性能，针对全局资源和各节点需要资源进行合理分配，保证负载均衡和网格的高效能运转，节省资金；同时，采用自动化调度和负载均衡策略，以优化资源分配和任务调度，最大限度地利用可用资源，经由资源池管理，提供资源的共享和动态分配功能，以满足不同领域的计算需求，并定义有效的资源监控和管理机制，提供可视化和实时反馈，以更好地发现和利用网格内的资源状况。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明所示的一种数据网格的计算资源调度实现方法流程图；

图2为本发明所示的数据网格各原则组件结构图；

图3为本发明所示的虚拟领域大类指导原则拓扑图；

图4为本发明所示的动态单位时间序列计算资源分配示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。

基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

实施例1

为促进数据网格架构计算资源的高效调度，解决高度分布式架构的计算资源孤立与隔离问题，本发明实施例基于数据网格面相领域的所有权以及数据自助服务平台原则进行数据领域的虚拟大类聚合，并按单位时间序列进行动态统计领域大类下计算资源需求与计算效率最大化资源分配，提供一种数据网格的计算资源调度实现方法，以实现上述目的。

根据本发明的实施例，结合图1所示的流程图，一种数据网格的计算资源调度实现方法，包括以下步骤：

S1：基于领域大类划分原则和自助数据平台分层次统计机制，建立数据网格计算拓扑架构；

S2：计算可用计算资源目标性能；

S3：计算节点目标性能需求；

S4：计算效率最大化调度；

下面结合图2～图4的示意图以及本发明的一些优选或者可选的例子，更加具体地描述本发明的某些实例的实施过程和/或效果。

不难理解的是，计算资源调度在分布式云计算中是一个普遍需要关注的问题，对于数据网格架构来说，需要进一步细化，参照图2，其所示的数据网格架构基于四个基本原则开展，分别是基于领域的所有权、数据作为产品、自助数据服务平台以及联合计算治理，是基于一个全局系统的架构，保证系统高效运转且同时具有高度的自治权，其比常规的组织内分布式云架构复杂的多，为更好的适配数据网格的计算资源调度，本发明提出的第一个适配原则为对数据网格的数据领域大类进行有效划分。

较佳的，对领域大类进行划分既要保证原有的分布式和领域自治原则，同时也要考虑针对云资源配置的集中优化，且两者并不冲突，需根据自身业务属性进行合理配置，保证计算资源调度最大化，其中，本发明实施例的配置原则包括：

(1)基于数据网格进行领域大类计算资源配置

领域大类的划分，一方面是为了使得分布式的网格组织具有一定层次，方便组织架构的管理，同时也是为了计算资源的调度效率最大化，定义：组织中领域划分是以业务领域为集中代表的，而相同类型的业务领域具有类似的数据存储、管理与基础设施需求，甚至是类似的计算资源需求，因此基于大类划分领域有助于后续的计算资源的统一规划。

分布式自治系统不可避免复杂、互相耦合的资源交叉，一个组织从开始设计数据架构的时候就需要根据组织自身的领域划分来将同类型业务线在组织层面进行聚合，有助于后续的组织的高效扩充。

例如，某组织重点关注的营销内容为鞋服类，其中，运动鞋领域会具体包含跑鞋领域，而跑鞋领域又可以划分为短跑类、中长跑类，原本短跑类鞋与中长跑类鞋领域完全互相独立，在业务交互和基础设施构件上基本没有关联，基于本发明的划分原则，则将短跑类与中长跑类鞋进行统一划分为跑鞋类领域，原因是基于组织层面的洞察，短跑与中长跑鞋类业务数据处理具有极大的相似性，需要注意的是，这里短跑与中长跑领域依然是领域自治的，仅是在组织层次上进行聚合，为后续计算资源的集中调度做准备。

(2)避免和减少完全独立的云基础设施

第二个重要的指导原则为避免和尽量减少完全独立的云基础设施，通过上述第一个原则的说明，相似领域进行领域大类划分是基于组织洞察，一方面方便组织管理，另一方面因为相似领域具有相似的业务数据管理和基础设施需求，因此当组织已经根据相似领域进行了领域大类划分之后，自然而然的操作即是为领域大类划分统一的云基础设施，包括数据存储、管理、网络、计算资源等必要云基础设施，虚拟领域大类与计算基础设施的拓扑关系如图3所示。

本发明实施例还需要说明的是，当基于本发明的领域大类划分原则进行数据网格的领域划分之后，数据网格需要根据领域大类实现分层次的统计接口，目的是进行领域的技术设施层级资源等级统计，这是数据网格实现高效计算资源调度的关键。其中：

(1)领域节点性能统计接口开发

自助数据服务平台需要开发领域节点性能统计接口用于各领域在计算任务开发前进行计算资源申请测试，自助数据服务平台需要监控数据网格中各领域节点的实时计算资源和申请计算资源，一方面用于进行系统层级的历史信息统计另一方面为领域节点增加计算资源。

领域数据产品在发布数据产品前注册资源监控接口，通过JSON字典格式的文件表达示例如下：

通过接口注册，领域通知自助数据平台进行资源监控，自助数据服务平台可以监控唯一ID的数据产品计算资源的样本使用情况，通过一定数量的样本与数据领域申请的计算资源类型，对当前数据产品的单位时间计算资源目标进行统计。

(2)分层次聚合统计

数据网格是以领域为节点以数据产品为最小单元运行的数据架构，为了使得计算资源调度高效，本发明实施例提出以领域大类划分基础设施资源的指导原则，进一步为了将指导原则进行实现，本发明实施例提出基于自助数据服务平台的分层次统计编排。

自助数据平台是数据网格功能通用接口的提供者，数据领域大类的划分由所属组织指定，领域大类下的子领域在虚拟逻辑上隶属于领域大类，本发明的计算资源调度也是基于领域大类为同样基础设置为核心出发，因此各子领域数据产品发布时添加必要参数{“领域大类”：“xxx”}，多个子领域的计算资源聚合统计，后文中的‘节点’、‘领域’如无特殊说明均指虚拟领域大类层次。

进一步需要说明的是，可用计算资源目标性能计算，主要涉及的过程为对系统预设计算资源进行合理统计，为后续的计算资源效率调度的最大化做准备。

计算资源，划分为三大类：TPU、GPU、CPU，其中，TPU专注于人工智能类深度学习网络的数据处理，GPU为机器学习与图像渲染类数据处理，CPU主要为常规的数据计算处理，每种计算资源又涉及具体的型号，如CPU具有高频性能CPU和低频性能CPU的不同类型；为简洁说明，本发明仅以TPU、GPU、CPU进行举例。

针对每一种计算资源，均涉及四个主要统计参数，分别为单位数量、计划订阅时长、单位时长性能以及单位时长费用，其中，单位数量表示可以订阅的对应计算资源的基础单位，如CPU可以已核数为单位；计划订阅时长以基本单位时间作为参考，如云平台的计算资源最低订阅时长为1小时等；单位时长性能是以在单位时长标准下的计算资源能完成的理论工作量，单位费用为该资源在订阅单位时长内一个单位数量的花费，单位为云平台的对应单位如‘元/小时’，如下表所示：

表1：模拟示例数据表。

统计可用计算资源目标性能：

可用计算资源目标性能P可以通过每种资源的数量*时长*单位性能加和进行统计，统计公式如下：

P＝∑_iX_i×Y_i×Z_i

其中，i为代表每种计算资源类型。

确定全局费用支持构成：

系统的费用支出C可以通过每种资源的数量*时长*单位时长费用进行加和统计，统计公式如下：

C＝∑_iX_i×Y_i×U_i

再进一步的是，节点目标性能需求计算的目的是针对网格中涉及节点的目标性能进行有效且合理统计。

不难理解的是，节点目标性能指的是数据网格中不同领域节点的各时段性能需求，只有对需求进行有效统计，才能进行后续的资源合理调度，领域在进行计算时需要避免资源浪费，分配合理的计算资源。其中：

节点性能统计：

此处的节点主要指领域大类层面下的所有子领域，在本发明实施例中，组织将数据网格按照领域大类进行划分，这样划分的洞察是同类型领域可以划分同一个云设施，在领域大类层面进行计算资源的合理调度，即避免小领域过于细分导致的计算资源无法集中，同时又不影响各领域的数据自治。

针对数据网格，本发明给出领域节点的性能统计方法，包括：

(1)计算密集度

计算密集度包括小样本统计评估任务计算的各项指标，包括CPU利用率、内存使用率、网络负载，计算方式如下：

其中，各项权重为网格层级的统一设置权重，由自助数据平台接口的长期计算资源统计得出的动态值。

计算密集度是一个各节点同等看待的计算指标。

通过小样本统计评估同时可以获得单位时间处理样本数，该指标用于后续统计节点目标性能总需求。

(2)优先级

在实际的业务开展中，会存在各种原因提升某些任务的优先级，包括任务紧急程度、任务计算时长和交付截止时间限制，因此，在计算密集度的基础上，还需要各节点任务优先级指标的统计，本发明提出的统计方法如下：

其中，任务紧急程度为0～5分，可根据任务的上线需求定义，如小时内交付为5分，一天内交付为4分，一周内交付为3分，不定期离线任务为2分，由领域大类统一设定标准；任务重要性为0～5分，可根据领域支撑业务的重要性定义；业务需求为0～5分，基于临时业务侧需求定义。

针对优先级，如任务的重要且紧急、重要不紧急、紧急不重要和紧急且重要，优先级越高，则期望越早完成，这样给业务侧充分的时间来发现、排查隐含的问题，避免业务上的重大失误，统计增加业务需求权重作为临时的业务优先级评分应对突发情况。

节点总性能计算：

(1)综合节点目标性能需求

经过计算密集度和优先级两个指标的定义，当前节点的目标性能指标则可以由计算密集度与优先级两个指标的乘积实现，也就是优先级作为计算密集度的权重，计算密集度为节点的单位需求性能，如下式：

单位需求性能＝计算密集度*优先级

(2)节点总性能

已知领域节点的单位性能需求，结合领域节点的总任务量，则领域的总性能需求可知：

节点目标总性能＝计算总样本数/单位时间处理样本数*单位需求性能

再次需要说明的是，本发明实施例是为了实现数据网格的计算资源利用率最大化，可以将其看成是一个0～1背包问题，即目标是在计算资源(费用)固的情况下，如何达到最大效率。

在费用有限的情况下，系统需要调度计算资源获得最大化利用率，如果在当前的费用限制下依然确定满足不了调度需求，那么需要对应的提升费用限制；反之，如果在当前的费用限制下，调度资源满足了系统的计算资源需求，后续也应该对应的降低费用限制。

定义系统预设费用余额为M，费用上限阈值为t，并简化统计可用计算资源目标性能公式与确定全局费用支持构成公式中的X与Y的乘积统一为Y，代表每种型号计算资源订阅的总时长，如下所示：

0<t<＝1,C<＝M*t

计算当确定全局费用支持构成公式中P获取最大值时对应的Y；

当前最大P值满足节点性能总需求时，说明存在调度方案可以使得调度之后业务系统满足运转需求；

当前最大P值不满足节点性能总需求时，需要进一步提升t或M来求解满足P值大于等于节点需求性能的Y组合。

进一步的，统计领域大类中所有子领域节点的单位时间性能需求与对应的总时长，确定当前时刻的计算资源使用需求表，假设当前时刻有三个任务需求需要计算，三个任务的单位时间性能需求分别为8、10、3，三个任务的任务总时长分别为2，1，4，假设j为对应每种类型计算资源在单位时间序列上的排序，E为单位时间序列上的性能总需求，那么对应的计算资源需求表如下所示：

表2：计算资源需求表。

因此，除了系统最大计算性能P值满足节点性能总需求，同时还要满足每个单位时刻系统分配的计算资源满足各节点性能总需求，因此有如下计算关系：

E_j≤∑_iY_ij×Z_i

如图4所示，基于每一个单位时间序列，系统已知E_j，则可以随时在每个单位时间序列进行计算资源的调整分配，做到计算单元计算能力越大，调度之后其计算效率也最高。

需要说明的是，计算资源需求表以单位时间序列统计，且为动态更新，即当领域内有新资源请求时，自助数据平台在每一个单位时间点动态更新对应的性能总需求，并根据该需求，动态递归关联指标，得到满足条件的计算资源配备。

优选地，本发明所述的一种数据网格的计算资源调度实现方法，针对数据网格的新兴分布式数据架构的计算资源调度进行优化并给出具体实现路径，通过虚拟数据领域大类的聚合与自助数据服务平台的通用接口对接，实现云基础设施的集中化，提升资源利用率，减少重复开发。

优选的是，本发明实施例针对系统可用资源与领域节点的目标资源进行适配，进行单位时间序列的动态计算资源分配，有效提升数据网格的整体计算效率，并实现对数据网格各项节点的有效监控，针对数据领域的业务优先级进行定义并将其指标与目标计算资源相关联，保证业务层面的稳定，为数据网格的长期健康发展奠定基础。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种数据网格的计算资源调度实现方法，其特征在于，包括：

基于领域大类划分原则和自助数据平台分层次统计机制，建立数据网格计算拓扑架构：

计算可用计算资源目标性能；

计算节点目标性能需求；

计算效率最大化调度；

2.根据权利要求1所述的数据网格的计算资源调度实现方法，其特征在于，所述自助数据平台分层次统计机制使数据网格根据领域大类实现分层次的统计接口，进行领域的技术设施层级资源等级统计。

3.根据权利要求1所述的数据网格的计算资源调度实现方法，其特征在于，所述计算资源划分为三大类，分别为TPU、GPU、CPU；

4.根据权利要求3所述的数据网格的计算资源调度实现方法，其特征在于，可用计算资源目标性能的计算公式如下：

5.根据权利要求1所述的数据网格的计算资源调度实现方法，其特征在于，通过计算密度集以计算所述节点目标性能需求，包括：

6.根据权利要求5所述的数据网格的计算资源调度实现方法，其特征在于，所述计算密集度至少包含小样本统计评估任务计算的各项指标，其包括CPU利用率、内存使用率、网络负载；

7.根据权利要求5所述的数据网格的计算资源调度实现方法，其特征在于，基于所述计算密集度，利用优先级统计各节点任务的优先级指标，包括：

8.根据权利要求7所述的数据网格的计算资源调度实现方法，其特征在于，将所述优先级作为所述计算密集度的权重，将所述计算密集度作为各节点任务的单位性能需求，得到综合节点目标性能需求，其计算公式如下：

单位需求性能＝计算密集度*优先级

9.根据权利要求1所述的数据网格的计算资源调度实现方法，其特征在于，效率最大化调度的数学计算公式如下：

E_j≤∑_iY_ij×Z_i