CN115473901B - 一种分布式算力集群智慧调度方法、装置及计算机设备 - Google Patents

一种分布式算力集群智慧调度方法、装置及计算机设备 Download PDF

Info

Publication number
CN115473901B
CN115473901B CN202211421126.7A CN202211421126A CN115473901B CN 115473901 B CN115473901 B CN 115473901B CN 202211421126 A CN202211421126 A CN 202211421126A CN 115473901 B CN115473901 B CN 115473901B
Authority
CN
China
Prior art keywords
node
hidden
computing power
output
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211421126.7A
Other languages
English (en)
Other versions
CN115473901A (zh
Inventor
常春
陈适
黄虹兵
姚军
陈昌辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hantang Cloud Distributed Storage Technology Co ltd
Original Assignee
Sichuan Hantang Cloud Distributed Storage Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Hantang Cloud Distributed Storage Technology Co ltd filed Critical Sichuan Hantang Cloud Distributed Storage Technology Co ltd
Priority to CN202211421126.7A priority Critical patent/CN115473901B/zh
Publication of CN115473901A publication Critical patent/CN115473901A/zh
Application granted granted Critical
Publication of CN115473901B publication Critical patent/CN115473901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请公开了一种分布式算力集群智慧调度方法、装置及计算机设备,涉及算力网络技术领域。所述方法是在获取N个运算处理子业务的算力需求信息后,根据N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的BP神经网络,然后将与N个运算处理子业务一一对应的N个算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到依次满足负载均衡、用户算力需求和调度资源节约需求的且完成训练的新BP神经网络,最后根据新BP神经网络中各个隐藏节点的节点值,得到最终算力资源调度方案,实现分布式算力资源系统的负载均衡以及可结合分布式与集群的优点的目的。

Description

一种分布式算力集群智慧调度方法、装置及计算机设备
技术领域
本发明属于算力网络技术领域,具体涉及一种分布式算力集群智慧调度方法、装置及计算机设备。
背景技术
算力网络技术的实现需要对各种算力资源进行调度,当前的算力网络实现方案主要有分布式方案和集中式方案,其中,所述分布式方案是通过对边界网关协议(BorderGateway Protocol,BGP)和内部网关协议(Interior Gateway Protocol,IGP)等路由协议进行扩展,将算力资源作为路由信息发布到网络,而所述集中式方案主要基于集中式控制器对算力资源进行调度。但是在响应用户的算力调度请求时,如何基于分布式方案进行算力资源的集群调度(即将多个算力资源供应设备调度给同一个运算处理业务),以便实现分布式算力资源系统的负载均衡以及可结合分布式与集群的优点的目的,目前还缺乏有效的技术方案,是本领域技术人员亟需研究的课题。
发明内容
本发明的目的是提供一种分布式算力集群智慧调度方法、装置、计算机设备及计算机可读存储介质,用以解决现有技术在响应用户的算力调度请求时无法基于分布式方案进行算力资源的集群调度,进而还不能实现分布式算力资源系统的负载均衡以及可结合分布式与集群的优点的问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,提供了一种分布式算力集群智慧调度方法,包括:
获取来自用户终端的算力调度请求,其中,所述算力调度请求携带有N个运算处理子业务的算力需求信息,所述算力需求信息包含有对应运算处理子业务的算力资源所需数目,N表示非零自然数;
根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,其中,M表示非零自然数,所述第一隐藏层包含有与所述M个算力资源供应设备一一对应的M个第一隐藏节点,所述第二隐藏层包含有与所述M个算力资源供应设备一一对应的M个第二隐藏节点,所述输出层包含有与所述N个运算处理子业务一一对应的N个输出节点,所述M个第一隐藏节点与所述M个第二隐藏节点一对一连接,所述M个第二隐藏节点与所述N个输出节点多对多连接;
将与所述N个运算处理子业务一一对应的N个所述算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到完成训练的新BP神经网络,其中,所述BP神经网络的训练过程包括有如下步骤S31~S36:
S31.按照如下公式计算得到输出向量:
Figure 502588DEST_PATH_IMAGE001
式中,
Figure 424407DEST_PATH_IMAGE002
表示不大于N的非零自然数,
Figure 940839DEST_PATH_IMAGE003
表示所述N个输出节点中第
Figure 906390DEST_PATH_IMAGE004
个输出节点的 输出值,所述输出向量表示为
Figure 242694DEST_PATH_IMAGE005
Figure 30521DEST_PATH_IMAGE006
表示不大于M的非零自然数,
Figure 276826DEST_PATH_IMAGE007
表示所 述M个第一隐藏节点中第
Figure 288644DEST_PATH_IMAGE008
个第一隐藏节点的节点值,
Figure 768036DEST_PATH_IMAGE009
表示所述M个第二隐藏节点中第
Figure 890713DEST_PATH_IMAGE010
个第二隐藏节点的节点值,
Figure 991524DEST_PATH_IMAGE011
表示用于判断
Figure 110263DEST_PATH_IMAGE012
是否等于
Figure 421159DEST_PATH_IMAGE004
的函数,并在是时输 出1,而在否时输出0;
S32.按照如下公式计算得到所述M个算力资源供应设备的调度后算力资源占用率:
Figure 222893DEST_PATH_IMAGE013
式中,
Figure 568424DEST_PATH_IMAGE014
表示与所述第
Figure 781099DEST_PATH_IMAGE008
个第一隐藏节点对应的算力资源供应设备的调度后算 力资源占用率,
Figure 251395DEST_PATH_IMAGE015
表示与所述第
Figure 981453DEST_PATH_IMAGE008
个第一隐藏节点对应的算力资源供应设备的可用算力 资源总数,
Figure 306124DEST_PATH_IMAGE016
表示与所述第
Figure 33909DEST_PATH_IMAGE008
个第一隐藏节点对应的算力资源供应设备的调度前算力 资源占用率;
S33.判断所述M个算力资源供应设备的调度后算力资源占用率的标准差是否小于预设的第一目标阈值,若是,则执行步骤S34,否则执行步骤S36;
S34.判断所述输出向量中的各个元素是否均大于等于所述输出目标向量中的对应元素,若是,则执行步骤S35,否则执行步骤S36;
S35.判断所述输出向量与所述输出目标向量的误差平方值是否小于预设的第二目标阈值,若是,则停止训练,得到完成训练的新BP神经网络,否则执行步骤S36;
S36.基于BP神经网络的梯度下降法来调整所述M个第一隐藏节点以及所述M个第 二隐藏节点的节点值,然后返回执行步骤S31,其中,所述M个第一隐藏节点的节点值的调整 约束条件包括有取值为不大于N的自然数,所述M个第二隐藏节点的节点值的调整约束条件 包括有取值为不大于
Figure 319397DEST_PATH_IMAGE017
的自然数;
按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若对应的第一隐藏节点的节点值为第一非零数值x1,并且对应的第二隐藏节点的节点值为第二非零数值x2,则将对应的且算力资源数目为x2的算力资源调度给与第x1个输出节点对应的运算处理子业务。
基于上述发明内容,提供了一种基于BP神经网络自动进行算力资源集群调度的新方案,即在获取N个运算处理子业务的算力需求信息后,根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,然后将与所述N个运算处理子业务一一对应的N个算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到依次满足负载均衡、用户算力需求和调度资源节约需求的且完成训练的新BP神经网络,最后根据所述新BP神经网络中各个隐藏节点的节点值,得到最终的算力资源调度方案,进而在响应用户的算力调度请求时能够基于分布式方案进行算力资源的集群调度,并实现分布式算力资源系统的负载均衡以及可结合分布式与集群的优点的目的,便于实际应用和推广。
在一个可能的设计中,所述M个第一隐藏节点的节点值的调整约束条件还包括有:具有相同非零节点值的第一隐藏节点数目不大于预设的集群数目阈值。
在一个可能的设计中,当所述算力调度请求还携带有为所述N个运算处理子业务 中的某个运算处理子业务配置的集群数目指定值时,所述M个第一隐藏节点的节点值的调 整约束条件还包括有:具有相同非零节点值
Figure 728513DEST_PATH_IMAGE018
的第一隐藏节点数目等于所述集群数目指定 值,其中,
Figure 48635DEST_PATH_IMAGE019
表示与所述某个运算处理子业务对应的输出节点在所述N个输出节点中的序 号。
在一个可能的设计中,当所述算力调度请求还携带有为所述N个运算处理子业务 中的某个运算处理子业务配置的算力资源调度分辨率时,所述M个第二隐藏节点的节点值 的调整约束条件包括有:与节点值为
Figure 868693DEST_PATH_IMAGE019
的第一隐藏节点具有连接关系的第二隐藏节点的节 点值为所述算力资源调度分辨率的非零自然数倍,其中,
Figure 844739DEST_PATH_IMAGE020
表示与所述某个运算处理子业 务对应的输出节点在所述N个输出节点中的序号。
在一个可能的设计中,当所述算力调度请求还携带有算力资源供应设备筛选条件时,则在创建所述BP神经网络之后且将所述输出目标向量导入所述BP神经网络之前,所述方法还包括:
按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若判定对应设备不满足所述算力资源供应设备筛选条件,则将对应的两隐藏节点的节点值锁定为不可调整的零值。
在一个可能的设计中,当所述算力调度请求还携带有为所述N个运算处理子业务中的某个运算处理子业务配置的算力资源供应设备筛选条件时,则在创建所述BP神经网络之后且将所述输出目标向量导入所述BP神经网络之前,所述方法还包括:
按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若判 定对应设备不满足所述算力资源供应设备筛选条件,则将对应的第一隐藏节点的节点值锁 定在区间
Figure 916600DEST_PATH_IMAGE021
内,其中,
Figure 966596DEST_PATH_IMAGE020
表示与所述某个运算处理子业务对应的输出节点在所述N 个输出节点中的序号。
在一个可能的设计中,所述算力资源供应设备筛选条件包括有算力资源目标种类、供应设备目标厂商、供应设备目标品牌、供应设备响应时间目标范围和供应设备可用性指标目标范围中的任意一种或它们的任意组合。
第二方面,提供了一种分布式算力集群智慧调度装置,包括有依次连接的请求获取模块、网络创建模块、网络训练模块和设备遍历模块;
所述请求获取模块,用于获取来自用户终端的算力调度请求,其中,所述算力调度请求携带有N个运算处理子业务的算力需求信息,所述算力需求信息包含有对应运算处理子业务的算力资源所需数目,N表示非零自然数;
所述网络创建模块,用于根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,其中,M表示非零自然数,所述第一隐藏层包含有与所述M个算力资源供应设备一一对应的M个第一隐藏节点,所述第二隐藏层包含有与所述M个算力资源供应设备一一对应的M个第二隐藏节点,所述输出层包含有与所述N个运算处理子业务一一对应的N个输出节点,所述M个第一隐藏节点与所述M个第二隐藏节点一对一连接,所述M个第二隐藏节点与所述N个输出节点多对多连接;
所述网络训练模块,用于将与所述N个运算处理子业务一一对应的N个所述算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到完成训练的新BP神经网络,其中,所述网络训练模块包括有输出向量计算单元、资源占用率计算单元、第一判断单元、第二判断单元、第三判断单元和节点值调整单元;
所述输出向量计算单元,用于按照如下公式计算得到输出向量:
Figure 301762DEST_PATH_IMAGE022
式中,
Figure 296263DEST_PATH_IMAGE023
表示不大于N的非零自然数,
Figure 299379DEST_PATH_IMAGE024
表示所述N个输出节点中第
Figure 328515DEST_PATH_IMAGE023
个输出节点 的输出值,所述输出向量表示为
Figure 834582DEST_PATH_IMAGE025
Figure 191745DEST_PATH_IMAGE008
表示不大于M的非零自然数,
Figure 605409DEST_PATH_IMAGE026
表示所述M个第一隐藏节点中第
Figure 410423DEST_PATH_IMAGE008
个第一隐藏节点的节点值,
Figure 759496DEST_PATH_IMAGE027
表示所述M个第二 隐藏节点中第
Figure 728589DEST_PATH_IMAGE008
个第二隐藏节点的节点值,
Figure 70577DEST_PATH_IMAGE028
表示用于判断
Figure 11989DEST_PATH_IMAGE012
是否等于
Figure 656597DEST_PATH_IMAGE029
的 函数,并在是时输出1,而在否时输出0;
所述资源占用率计算单元,通信连接所述输出向量计算单元,用于按照如下公式计算得到所述M个算力资源供应设备的调度后算力资源占用率:
Figure 253931DEST_PATH_IMAGE030
式中,
Figure 9398DEST_PATH_IMAGE031
表示与所述第
Figure 70894DEST_PATH_IMAGE008
个第一隐藏节点对应的算力资源供应设备的调度后 算力资源占用率,
Figure 745458DEST_PATH_IMAGE032
表示与所述第
Figure 954723DEST_PATH_IMAGE008
个第一隐藏节点对应的算力资源供应设备的可用 算力资源总数,
Figure 389246DEST_PATH_IMAGE033
表示与所述第
Figure 305250DEST_PATH_IMAGE008
个第一隐藏节点对应的算力资源供应设备的调度前 算力资源占用率;
所述第一判断单元,分别通信连接所述资源占用率计算单元、所述第二判断单元和所述节点值调整单元,用于判断所述M个算力资源供应设备的调度后算力资源占用率的标准差是否小于预设的第一目标阈值,若是,则启动所述第二判断单元,否则启动所述节点值调整单元;
所述第二判断单元,分别通信连接所述第三判断单元和所述节点值调整单元,用于判断所述输出向量中的各个元素是否均大于等于所述输出目标向量中的对应元素,若是,则启动所述第三判断单元,否则启动所述节点值调整单元;
所述第三判断单元,通信连接所述节点值调整单元,用于判断所述输出向量与所述输出目标向量的误差平方值是否小于预设的第二目标阈值,若是,则停止训练,得到完成训练的新BP神经网络,否则启动所述节点值调整单元;
所述节点值调整单元,通信连接所述输出向量计算单元,用于基于BP神经网络的 梯度下降法来调整所述M个第一隐藏节点以及所述M个第二隐藏节点的节点值,然后返回启 动所述输出向量计算单元,其中,所述M个第一隐藏节点的节点值的调整约束条件包括有取 值为不大于N的自然数,所述M个第二隐藏节点的节点值的调整约束条件包括有取值为不大 于
Figure 215961DEST_PATH_IMAGE034
的自然数;
所述设备遍历模块,用于按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若对应的第一隐藏节点的节点值为第一非零数值x1,并且对应的第二隐藏节点的节点值为第二非零数值x2,则将对应的且算力资源数目为x2的算力资源调度给与第x1个输出节点对应的运算处理子业务。
第三方面,本发明提供了一种计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意可能设计所述的分布式算力集群智慧调度方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意可能设计所述的分布式算力集群智慧调度方法。
第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面中任意可能设计所述的分布式算力集群智慧调度方法。
上述方案的有益效果:
(1)本发明创造性提供了一种基于BP神经网络自动进行算力资源集群调度的新方案,即在获取N个运算处理子业务的算力需求信息后,根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,然后将与所述N个运算处理子业务一一对应的N个算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到依次满足负载均衡、用户算力需求和调度资源节约需求的且完成训练的新BP神经网络,最后根据所述新BP神经网络中各个隐藏节点的节点值,得到最终的算力资源调度方案,进而在响应用户的算力调度请求时能够基于分布式方案进行算力资源的集群调度,并实现分布式算力资源系统的负载均衡以及可结合分布式与集群的优点的目的;
(2)可以实现筛选算力资源供应设备的目的,以及还可以细化地针对不同运算处理子业务,实现对应的筛选算力资源供应设备的目的,进而可有效提升实用性和用户体验,便于实际应用和推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的分布式算力集群智慧调度方法的流程示意图。
图2为本申请实施例提供的BP神经网络的结构示意图。
图3为本申请实施例提供的分布式算力集群智慧调度装置的结构示意图。
图4为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
应当理解,尽管本文可能使用术语第一和第二等等来描述各种对象,但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A、单独存在B或者同时存在A和B等三种情况;又例如,A、B和/或C,可以表示存在A、B和C中的任意一种或他们的任意组合;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A或者同时存在A和B等两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
实施例:
如图1所示,本实施例第一方面提供的分布式算力集群智慧调度方法,可以但不限于由具有一定计算资源的计算机设备执行,例如由平台服务器、个人计算机(PersonalComputer,PC,指一种大小、价格和性能适用于个人使用的多用途计算机;台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal Digital Assistant,PDA)或可穿戴设备等电子设备执行。如图1所示,所述分布式算力集群智慧调度方法,可以但不限于包括有如下步骤S1~S4。
S1.获取来自用户终端的算力调度请求,其中,所述算力调度请求携带但不限于有N个运算处理子业务的算力需求信息,所述算力需求信息包含但不限于有对应运算处理子业务的算力资源所需数目,N表示非零自然数。
在所述步骤S1中,所述用户终端即为由用户所持有的电子设备,例如台式电脑、智能手机或平板电脑等,以便发起算力调度请求以及接收算力资源调度结果(即分配的算力资源供应设备的路由信息等内容)。所述N个运算处理子业务即为将一个大的运算处理业务拆分而得的且可独立运行的多个子业务(这些子业务之间相互协作最终完成整体的大业务,并且当N取值为1时,单个的运算处理子业务即为大的运算处理业务),因此每一个运算处理子业务都会有独立的所述算力需求信息。所述算力需求信息中的算力资源所需数目即为处理对应运算处理子业务所需的算力单位个数(算力单位具体举例为单精度浮点数)。此外,优选的,所述算力需求信息还可包含但不限于有为所述N个运算处理子业务中的某个运算处理子业务配置的集群数目指定值、算力资源调度分辨率和算力资源供应设备筛选条件等内容,其中,所述集群数目指定值用于预先指定为所述某个运算处理子业务配置的算力资源供应设备数目(例如若所述集群数目指定值为4,则表示在调度过程中,需将在分布式算力资源系统中的某4个算力资源供应设备调度给所述某个运算处理子业务);所述算力资源调度分辨率用于预先指定为所述某个运算处理子业务配置的算力资源调整步长(例如若所述算力资源调度分辨率为X个单精度浮点数,则表示在调度过程中,需将在分布式算力资源系统中的某个算力资源供应设备的且为整倍X个单精度浮点数的算力资源调度给所述某个运算处理子业务);所述算力资源供应设备筛选条件用于预先指定为所述某个运算处理子业务配置的设备筛选条件,具体包括但不限于有算力资源目标种类、供应设备目标厂商、供应设备目标品牌、供应设备响应时间目标范围和供应设备可用性指标目标范围等中的任意一种或它们的任意组合,所述算力资源目标种类可以但不限于包含有中央处理器算力、图形处理器算力以及现场可编程逻辑门阵列算力等,前述的响应时间和可用性指标均为现有分布式系统中的常用设备评价指标,例如,所述可用性指标是指设备停服务的总历史时长与设备正常服务的总历史时长的比值。
S2.根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,其中,M表示非零自然数,所述第一隐藏层包含有与所述M个算力资源供应设备一一对应的M个第一隐藏节点,所述第二隐藏层包含有与所述M个算力资源供应设备一一对应的M个第二隐藏节点,所述输出层包含有与所述N个运算处理子业务一一对应的N个输出节点,所述M个第一隐藏节点与所述M个第二隐藏节点一对一连接,所述M个第二隐藏节点与所述N个输出节点多对多连接。
在所述步骤S2中,由于BP(Back Propagation,反向传播)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法(即以误差平方为目标函数,采用梯度下降法来计算该目标函数的最小值)训练的多层前馈神经网络,是应用最广泛的神经网络模型之一;以及BP神经网络的基本结构是在输入层(其可以有若干个输入节点)与输出层(其可以有若干个输出节点)之间增加一层或多层神经元(这些神经元称为隐藏节点,它们与外界没有直接的联系,但是其状态的改变能影响输入与输出之间的关系),得到有若干个隐藏节点的隐藏层,因此创建而得的所述BP神经网络的网络结构可如图2所示,以便可用第一隐藏节点的节点值来作为用于将对应算力资源供应设备调度给某个运算处理子业务的且可基于BP神经网络的梯度下降法进行调整的运算子业务序号,以及用第二隐藏节点的节点值来作为用于将对应算力资源供应设备的算力资源调度给某个运算处理子业务的且可基于BP神经网络的梯度下降法进行调整的算力资源数目。所述多对多连接的具体建立方式可为:针对各个第二隐藏节点,都建立其与所述N个输出节点一对多的连接关系。
S3.将与所述N个运算处理子业务一一对应的N个所述算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到完成训练的新BP神经网络。
在所述步骤S3中,所述输出目标向量用于作为训练所需的验证数据,可具体表示 为
Figure 115784DEST_PATH_IMAGE035
,其中,
Figure 88419DEST_PATH_IMAGE004
表示不大于N的非零自然数,
Figure 921246DEST_PATH_IMAGE036
表示N个所述算力资源 所需数目中的第
Figure 203192DEST_PATH_IMAGE004
个算力资源所需数目。所述BP神经网络的训练过程包括但不限于有如下 步骤S31~S36。
S31.按照如下公式计算得到输出向量:
Figure 121469DEST_PATH_IMAGE037
式中,
Figure 897795DEST_PATH_IMAGE004
表示不大于N的非零自然数,
Figure 788391DEST_PATH_IMAGE038
表示所述N个输出节点中第
Figure 116604DEST_PATH_IMAGE004
个输出节点 的输出值,所述输出向量表示为
Figure 381232DEST_PATH_IMAGE039
Figure 85883DEST_PATH_IMAGE008
表示不大于M的非零自然数,
Figure 830985DEST_PATH_IMAGE026
表示所述M个第一隐藏节点中第
Figure 205466DEST_PATH_IMAGE008
个第一隐藏节点的节点值,
Figure 98336DEST_PATH_IMAGE040
表示所述M个第二 隐藏节点中第
Figure 544360DEST_PATH_IMAGE008
个第二隐藏节点的节点值,
Figure 65340DEST_PATH_IMAGE041
表示用于判断
Figure 935DEST_PATH_IMAGE012
是否等于
Figure 990888DEST_PATH_IMAGE004
的 函数,并在是时输出1,而在否时输出0。
在所述步骤S31中,
Figure 37342DEST_PATH_IMAGE012
的初始值可按照特定约束条件(即取值为不大于N的自然 数,等等)来随机生成;由于在初始化及后续调整过程中都是按照该特定约束条件来得到所 述M个第一隐藏节点的节点值,因此在初始化后或任意一次调整后,所有节点值中的N个非 零节点值(即1~N)能够一一对应的表示所述N个运算处理子业务中各个运算处理子业务的 序号,例如非零节点值10可作为所述N个运算处理子业务中第10个运算处理子业务的序号。
Figure 491457DEST_PATH_IMAGE040
的初始值可按照另一特定约束条件(即取值为不大于
Figure 459937DEST_PATH_IMAGE034
的自然数,等 等)来随机生成;由于在初始化及后续调整过程中都是按照该另一特定约束条件来得到所 述M个第二隐藏节点的节点值,因此在初始化后或任意一次调整后,得到的M个节点值能够 一一对应的表示对应算力资源供应设备被调度出去的算力资源数目。综合前述细节描述, 可通过上述公式计算得到:当仅序号为1、5和10的第一隐藏节点的节点值为非零自然数Y 时,可基于与该三个第一隐藏节点一一对应的三个第二隐藏节点的节点值计算得到为所述 N个运算处理子业务中第Y个运算处理子业务分配的算力资源总数,进而可作为所述N个输 出节点中第Y个输出节点的输出值参与后续的数据验证。此外,从上述公式也可以看出,输 出向量与输入向量无关,因此训练所需的输入向量可设计为任意值,所述输入层中的输入 节点也可以设置为任意数目。
S32.按照如下公式计算得到所述M个算力资源供应设备的调度后算力资源占用率:
Figure 61820DEST_PATH_IMAGE042
式中,
Figure 787330DEST_PATH_IMAGE031
表示与所述第
Figure 158269DEST_PATH_IMAGE043
个第一隐藏节点对应的算力资源供应设备的调度后 算力资源占用率,
Figure 373350DEST_PATH_IMAGE044
表示与所述第
Figure 852741DEST_PATH_IMAGE043
个第一隐藏节点对应的算力资源供应设备的可用 算力资源总数,
Figure 178680DEST_PATH_IMAGE045
表示与所述第
Figure 404125DEST_PATH_IMAGE046
个第一隐藏节点对应的算力资源供应设备的调度前 算力资源占用率。
在所述步骤S32中,所述调度前算力资源占用率可以基于历史调度结果直接计算得到。
S33.判断所述M个算力资源供应设备的调度后算力资源占用率的标准差是否小于预设的第一目标阈值,若是,则执行步骤S34,否则执行步骤S36。
在所述步骤S33中,所述第一目标阈值即为判断是否满足负载均衡需求的依据,可以举例为0.05。
S34.判断所述输出向量中的各个元素是否均大于等于所述输出目标向量中的对应元素,若是,则执行步骤S35,否则执行步骤S36。
在所述步骤S34中,若判定所述输出向量中的各个元素均大于等于所述输出目标 向量中的对应元素(即
Figure 993370DEST_PATH_IMAGE047
),则表明当前的算力资源调度方案能够满足用户算力需求。
S35.判断所述输出向量与所述输出目标向量的误差平方值是否小于预设的第二目标阈值,若是,则停止训练,得到完成训练的新BP神经网络,否则执行步骤S36。
在所述步骤S35中,所述误差平方值可以但不限于基于离均差平方和、方差或标准差公式等计算得到。所述第二目标阈值即为判断是否存在算力资源调度过多情况,以便判断是否满足调度资源节约需求。
S36.基于BP神经网络的梯度下降法来调整所述M个第一隐藏节点以及所述M个第 二隐藏节点的节点值,然后返回执行步骤S31,其中,所述M个第一隐藏节点的节点值的调整 约束条件包括但不限于有取值为不大于N的自然数,所述M个第二隐藏节点的节点值的调整 约束条件包括但不限于有取值为不大于
Figure 507528DEST_PATH_IMAGE048
的自然数。
在所述步骤S36中,基于BP神经网络的梯度下降法进行调整的现有原理是:转入误差(在从步骤S33和步骤S34跳转至步骤S36时,也需计算所述输出向量与所述输出目标向量的误差)的反向传播过程;误差反传是将输出误差通过隐含层向输入层逐层反传,并将误差分摊给各层所有节点,以从各层获得的误差信号作为调整各节点值的依据;通过调整输入节点与隐藏节点的连接强度和隐藏节点与输出节点的连接强度以及阈值,使误差沿梯度方向下降;最后经过反复学习训练,即可确定与最小误差相对应的网络参数。
在所述步骤S36中,为了避免为单个运算处理子业务调度过多的算力资源供应设备,优选的,所述M个第一隐藏节点的节点值的调整约束条件还包括有:具有相同非零节点值的第一隐藏节点数目不大于预设的集群数目阈值。所述集群数目阈值可以由本地设备提前设定,也可以在所述算力调度请求中携带,以便本地设备得到,即用户也可以自由指定调度设备数目的上限值,提升用户体验。
在所述步骤S36中,当所述算力调度请求还携带有为所述N个运算处理子业务中的 某个运算处理子业务配置的集群数目指定值时,所述M个第一隐藏节点的节点值的调整约 束条件还包括有:具有相同非零节点值
Figure 699475DEST_PATH_IMAGE019
的第一隐藏节点数目等于所述集群数目指定值, 其中,
Figure 248268DEST_PATH_IMAGE019
表示与所述某个运算处理子业务对应的输出节点在所述N个输出节点中的序号。如 此用户可以为不同的运算处理子业务指定对应的所需设备数目,提升用户体验。
在所述步骤S36中,当所述算力调度请求还携带有为所述N个运算处理子业务中的 某个运算处理子业务配置的算力资源调度分辨率时,所述M个第二隐藏节点的节点值的调 整约束条件包括有:与节点值为
Figure 992102DEST_PATH_IMAGE019
的第一隐藏节点具有连接关系的第二隐藏节点的节点值 为所述算力资源调度分辨率的非零自然数倍,其中,
Figure 993556DEST_PATH_IMAGE019
表示与所述某个运算处理子业务对 应的输出节点在所述N个输出节点中的序号。如此用户可以为不同的运算处理子业务指定 对应的算力资源调整步长,提升用户体验。
S4.按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若对应的第一隐藏节点的节点值为第一非零数值x1,并且对应的第二隐藏节点的节点值为第二非零数值x2,则将对应的且算力资源数目为x2的算力资源调度给与第x1个输出节点对应的运算处理子业务。
在所述步骤S4中,具体调度方式为现有技术,例如将调度的算力资源供应设备的路由信息及算力资源数目反馈给所述用户终端。
由此基于前述步骤S1~S4所描述的分布式算力集群智慧调度方法,提供了一种基于BP神经网络自动进行算力资源集群调度的新方案,即在获取N个运算处理子业务的算力需求信息后,根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,然后将与所述N个运算处理子业务一一对应的N个算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到依次满足负载均衡、用户算力需求和调度资源节约需求的且完成训练的新BP神经网络,最后根据所述新BP神经网络中各个隐藏节点的节点值,得到最终的算力资源调度方案,进而在响应用户的算力调度请求时能够基于分布式方案进行算力资源的集群调度,并实现分布式算力资源系统的负载均衡以及可结合分布式与集群的优点的目的,便于实际应用和推广。
本实施例在前述第一方面的技术方案基础上,还提供了一种如何筛选算力资源供 应设备的可能设计一,即当所述算力调度请求还携带有算力资源供应设备筛选条件时,则 在创建所述BP神经网络之后且将所述输出目标向量导入所述BP神经网络之前,所述方法还 包括:按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若判定对 应设备不满足所述算力资源供应设备筛选条件,则将对应的两隐藏节点的节点值锁定为不 可调整的零值。由于所述两隐藏节点的节点值被锁定为不可调整的零值,因此在基于BP神 经网络的梯度下降法进行节点值调整时,也就不会使对应的算力资源供应设备及其算力资 源参与本次调度,实现筛选算力资源供应设备的目的。进一步优选的,当所述算力调度请求 还携带有为所述N个运算处理子业务中的某个运算处理子业务配置的算力资源供应设备筛 选条件时,则在创建所述BP神经网络之后且将所述输出目标向量导入所述BP神经网络之 前,所述方法还包括:按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应 设备:若判定对应设备不满足所述算力资源供应设备筛选条件,则将对应的第一隐藏节点 的节点值锁定在区间
Figure 723614DEST_PATH_IMAGE049
内,其中,
Figure 64597DEST_PATH_IMAGE019
表示与所述某个运算处理子业务对应的 输出节点在所述N个输出节点中的序号。如此还可以细化地针对不同运算处理子业务,实现 对应的筛选算力资源供应设备的目的。
由此基于前述的可能设计一,可以实现筛选算力资源供应设备的目的,以及还可以细化地针对不同运算处理子业务,实现对应的筛选算力资源供应设备的目的,进而可有效提升实用性和用户体验。
如图3所示,本实施例第二方面提供了一种实现第一方面或可能设计一所述的分布式算力集群智慧调度方法的虚拟装置,包括有依次连接的请求获取模块、网络创建模块、网络训练模块和设备遍历模块;
所述请求获取模块,用于获取来自用户终端的算力调度请求,其中,所述算力调度请求携带有N个运算处理子业务的算力需求信息,所述算力需求信息包含有对应运算处理子业务的算力资源所需数目,N表示非零自然数;
所述网络创建模块,用于根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,其中,M表示非零自然数,所述第一隐藏层包含有与所述M个算力资源供应设备一一对应的M个第一隐藏节点,所述第二隐藏层包含有与所述M个算力资源供应设备一一对应的M个第二隐藏节点,所述输出层包含有与所述N个运算处理子业务一一对应的N个输出节点,所述M个第一隐藏节点与所述M个第二隐藏节点一对一连接,所述M个第二隐藏节点与所述N个输出节点多对多连接;
所述网络训练模块,用于将与所述N个运算处理子业务一一对应的N个所述算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到完成训练的新BP神经网络,其中,所述网络训练模块包括有输出向量计算单元、资源占用率计算单元、第一判断单元、第二判断单元、第三判断单元和节点值调整单元;
所述输出向量计算单元,用于按照如下公式计算得到输出向量:
Figure 792381DEST_PATH_IMAGE050
式中,
Figure 343448DEST_PATH_IMAGE004
表示不大于N的非零自然数,
Figure 736253DEST_PATH_IMAGE038
表示所述N个输出节点中第
Figure 994059DEST_PATH_IMAGE004
个输出节点 的输出值,所述输出向量表示为
Figure 220641DEST_PATH_IMAGE039
Figure 868791DEST_PATH_IMAGE008
表示不大于M的非零自然数,
Figure 878335DEST_PATH_IMAGE026
表示所述M个第一隐藏节点中第
Figure 318544DEST_PATH_IMAGE008
个第一隐藏节点的节点值,
Figure 300713DEST_PATH_IMAGE040
表示所述M个第二 隐藏节点中第
Figure 764056DEST_PATH_IMAGE008
个第二隐藏节点的节点值,
Figure 374028DEST_PATH_IMAGE051
表示用于判断
Figure 544110DEST_PATH_IMAGE012
是否等于
Figure 50177DEST_PATH_IMAGE004
的 函数,并在是时输出1,而在否时输出0;
所述资源占用率计算单元,通信连接所述输出向量计算单元,用于按照如下公式计算得到所述M个算力资源供应设备的调度后算力资源占用率:
Figure 531974DEST_PATH_IMAGE052
式中,
Figure 273534DEST_PATH_IMAGE053
表示与所述第
Figure 891597DEST_PATH_IMAGE054
个第一隐藏节点对应的算力资源供应设备的调度后 算力资源占用率,
Figure 755517DEST_PATH_IMAGE044
表示与所述第
Figure 724610DEST_PATH_IMAGE043
个第一隐藏节点对应的算力资源供应设备的可用 算力资源总数,
Figure 879648DEST_PATH_IMAGE055
表示与所述第
Figure 758742DEST_PATH_IMAGE008
个第一隐藏节点对应的算力资源供应设备的调度前 算力资源占用率;
所述第一判断单元,分别通信连接所述资源占用率计算单元、所述第二判断单元和所述节点值调整单元,用于判断所述M个算力资源供应设备的调度后算力资源占用率的标准差是否小于预设的第一目标阈值,若是,则启动所述第二判断单元,否则启动所述节点值调整单元;
所述第二判断单元,分别通信连接所述第三判断单元和所述节点值调整单元,用于判断所述输出向量中的各个元素是否均大于等于所述输出目标向量中的对应元素,若是,则启动所述第三判断单元,否则启动所述节点值调整单元;
所述第三判断单元,通信连接所述节点值调整单元,用于判断所述输出向量与所述输出目标向量的误差平方值是否小于预设的第二目标阈值,若是,则停止训练,得到完成训练的新BP神经网络,否则启动所述节点值调整单元;
所述节点值调整单元,通信连接所述输出向量计算单元,用于基于BP神经网络的 梯度下降法来调整所述M个第一隐藏节点以及所述M个第二隐藏节点的节点值,然后返回启 动所述输出向量计算单元,其中,所述M个第一隐藏节点的节点值的调整约束条件包括有取 值为不大于N的自然数,所述M个第二隐藏节点的节点值的调整约束条件包括有取值为不大 于
Figure 668929DEST_PATH_IMAGE048
的自然数;
所述设备遍历模块,用于按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若对应的第一隐藏节点的节点值为第一非零数值x1,并且对应的第二隐藏节点的节点值为第二非零数值x2,则将对应的且算力资源数目为x2的算力资源调度给与第x1个输出节点对应的运算处理子业务。
本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果,可以参见第一方面或可能设计一所述的分布式算力集群智慧调度方法,于此不再赘述。
如图4所示,本实施例第三方面提供了一种执行如第一方面或可能设计一所述的分布式算力集群智慧调度方法的计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或可能设计一所述的分布式算力集群智慧调度方法。具体举例的,所述存储器可以但不限于包括随机存取存储器(Random-Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(FirstInput First Output,FIFO)和/或先进后出存储器(First Input Last Output,FILO)等等;所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外,所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见第一方面或可能设计一所述的分布式算力集群智慧调度方法,于此不再赘述。
本实施例第四方面提供了一种存储包含如第一方面或可能设计一所述的分布式算力集群智慧调度方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或可能设计一所述的分布式算力集群智慧调度方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。
本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见如第一方面或可能设计一所述的分布式算力集群智慧调度方法,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或可能设计一所述的分布式算力集群智慧调度方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式算力集群智慧调度方法,其特征在于,包括:
获取来自用户终端的算力调度请求,其中,所述算力调度请求携带有N个运算处理子业务的算力需求信息,所述算力需求信息包含有对应运算处理子业务的算力资源所需数目,N表示非零自然数;
根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,其中,M表示非零自然数,所述第一隐藏层包含有与所述M个算力资源供应设备一一对应的M个第一隐藏节点,所述第二隐藏层包含有与所述M个算力资源供应设备一一对应的M个第二隐藏节点,所述输出层包含有与所述N个运算处理子业务一一对应的N个输出节点,所述M个第一隐藏节点与所述M个第二隐藏节点一对一连接,所述M个第二隐藏节点与所述N个输出节点多对多连接;
将与所述N个运算处理子业务一一对应的N个所述算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到完成训练的新BP神经网络,其中,所述BP神经网络的训练过程包括有如下步骤S31~S36:
S31.按照如下公式计算得到输出向量:
Figure 51867DEST_PATH_IMAGE001
式中,
Figure 391713DEST_PATH_IMAGE002
表示不大于N的非零自然数,
Figure 591750DEST_PATH_IMAGE003
表示所述N个输出节点中第
Figure 585114DEST_PATH_IMAGE002
个输出节点的输 出值,所述输出向量表示为
Figure 729656DEST_PATH_IMAGE004
Figure 528985DEST_PATH_IMAGE005
表示不大于M的非零自然数,
Figure 786791DEST_PATH_IMAGE006
表示所述M个第一隐藏节点中第
Figure 623160DEST_PATH_IMAGE005
个第一隐藏节点的节点值,
Figure 395944DEST_PATH_IMAGE007
表示所述M个第二隐藏 节点中第
Figure 671067DEST_PATH_IMAGE005
个第二隐藏节点的节点值,
Figure 970330DEST_PATH_IMAGE008
表示用于判断
Figure 305497DEST_PATH_IMAGE009
是否等于
Figure 565577DEST_PATH_IMAGE002
的函 数,并在是时输出1,而在否时输出0;
S32.按照如下公式计算得到所述M个算力资源供应设备的调度后算力资源占用率:
Figure 644391DEST_PATH_IMAGE010
式中,
Figure 548893DEST_PATH_IMAGE011
表示与所述第
Figure 851699DEST_PATH_IMAGE005
个第一隐藏节点对应的算力资源供应设备的调度后算力 资源占用率,
Figure 802337DEST_PATH_IMAGE012
表示与所述第
Figure 609144DEST_PATH_IMAGE005
个第一隐藏节点对应的算力资源供应设备的可用算力 资源总数,
Figure 696048DEST_PATH_IMAGE013
表示与所述第
Figure 169755DEST_PATH_IMAGE005
个第一隐藏节点对应的算力资源供应设备的调度前算力 资源占用率;
S33.判断所述M个算力资源供应设备的调度后算力资源占用率的标准差是否小于预设的第一目标阈值,若是,则执行步骤S34,否则执行步骤S36;
S34.判断所述输出向量中的各个元素是否均大于等于所述输出目标向量中的对应元素,若是,则执行步骤S35,否则执行步骤S36;
S35.判断所述输出向量与所述输出目标向量的误差平方值是否小于预设的第二目标阈值,若是,则停止训练,得到完成训练的新BP神经网络,否则执行步骤S36;
S36.基于BP神经网络的梯度下降法来调整所述M个第一隐藏节点以及所述M个第二隐 藏节点的节点值,然后返回执行步骤S31,其中,所述M个第一隐藏节点的节点值的调整约束 条件包括有取值为不大于N的自然数,所述M个第二隐藏节点的节点值的调整约束条件包括 有取值为不大于
Figure 14214DEST_PATH_IMAGE014
的自然数;
按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若对应的第一隐藏节点的节点值为第一非零数值x1,并且对应的第二隐藏节点的节点值为第二非零数值x2,则将对应的且算力资源数目为x2的算力资源调度给与第x1个输出节点对应的运算处理子业务。
2.根据权利要求1所述的分布式算力集群智慧调度方法,其特征在于,所述M个第一隐藏节点的节点值的调整约束条件还包括有:具有相同非零节点值的第一隐藏节点数目不大于预设的集群数目阈值。
3.根据权利要求1所述的分布式算力集群智慧调度方法,其特征在于,当所述算力调度 请求还携带有为所述N个运算处理子业务中的某个运算处理子业务配置的集群数目指定值 时,所述M个第一隐藏节点的节点值的调整约束条件还包括有:具有相同非零节点值
Figure 434831DEST_PATH_IMAGE015
的第 一隐藏节点数目等于所述集群数目指定值,其中,
Figure 438559DEST_PATH_IMAGE015
表示与所述某个运算处理子业务对应 的输出节点在所述N个输出节点中的序号。
4.根据权利要求1所述的分布式算力集群智慧调度方法,其特征在于,当所述算力调度 请求还携带有为所述N个运算处理子业务中的某个运算处理子业务配置的算力资源调度分 辨率时,所述M个第二隐藏节点的节点值的调整约束条件包括有:与节点值为
Figure 286430DEST_PATH_IMAGE015
的第一隐藏 节点具有连接关系的第二隐藏节点的节点值为所述算力资源调度分辨率的非零自然数倍, 其中,
Figure 867453DEST_PATH_IMAGE015
表示与所述某个运算处理子业务对应的输出节点在所述N个输出节点中的序号。
5.根据权利要求1所述的分布式算力集群智慧调度方法,其特征在于,当所述算力调度请求还携带有算力资源供应设备筛选条件时,则在创建所述BP神经网络之后且将所述输出目标向量导入所述BP神经网络之前,所述方法还包括:
按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若判定对应设备不满足所述算力资源供应设备筛选条件,则将对应的两隐藏节点的节点值锁定为不可调整的零值。
6.根据权利要求1所述的分布式算力集群智慧调度方法,其特征在于,当所述算力调度请求还携带有为所述N个运算处理子业务中的某个运算处理子业务配置的算力资源供应设备筛选条件时,则在创建所述BP神经网络之后且将所述输出目标向量导入所述BP神经网络之前,所述方法还包括:
按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若判定对 应设备不满足所述算力资源供应设备筛选条件,则将对应的第一隐藏节点的节点值锁定在 区间
Figure 888498DEST_PATH_IMAGE016
内,其中,
Figure 622099DEST_PATH_IMAGE015
表示与所述某个运算处理子业务对应的输出节点在所述N 个输出节点中的序号。
7.根据权利要求5或6所述的分布式算力集群智慧调度方法,其特征在于,所述算力资源供应设备筛选条件包括有算力资源目标种类、供应设备目标厂商、供应设备目标品牌、供应设备响应时间目标范围和供应设备可用性指标目标范围中的任意一种或它们的任意组合。
8.一种分布式算力集群智慧调度装置,其特征在于,包括有依次连接的请求获取模块、网络创建模块、网络训练模块和设备遍历模块;
所述请求获取模块,用于获取来自用户终端的算力调度请求,其中,所述算力调度请求携带有N个运算处理子业务的算力需求信息,所述算力需求信息包含有对应运算处理子业务的算力资源所需数目,N表示非零自然数;
所述网络创建模块,用于根据所述N个运算处理子业务和在分布式算力资源系统中当前正常服务的M个算力资源供应设备,创建包含有输入层、第一隐藏层、第二隐藏层和输出层的反向传播BP神经网络,其中,M表示非零自然数,所述第一隐藏层包含有与所述M个算力资源供应设备一一对应的M个第一隐藏节点,所述第二隐藏层包含有与所述M个算力资源供应设备一一对应的M个第二隐藏节点,所述输出层包含有与所述N个运算处理子业务一一对应的N个输出节点,所述M个第一隐藏节点与所述M个第二隐藏节点一对一连接,所述M个第二隐藏节点与所述N个输出节点多对多连接;
所述网络训练模块,用于将与所述N个运算处理子业务一一对应的N个所述算力资源所需数目作为输出目标向量导入所述BP神经网络中,得到完成训练的新BP神经网络,其中,所述网络训练模块包括有输出向量计算单元、资源占用率计算单元、第一判断单元、第二判断单元、第三判断单元和节点值调整单元;
所述输出向量计算单元,用于按照如下公式计算得到输出向量:
Figure 437608DEST_PATH_IMAGE017
式中,
Figure 318977DEST_PATH_IMAGE018
表示不大于N的非零自然数,
Figure 2768DEST_PATH_IMAGE019
表示所述N个输出节点中第
Figure 715509DEST_PATH_IMAGE018
个输出节点的输 出值,所述输出向量表示为
Figure 842865DEST_PATH_IMAGE004
Figure 273846DEST_PATH_IMAGE005
表示不大于M的非零自然数,
Figure 495749DEST_PATH_IMAGE006
表示所述M个第一隐藏节点中第
Figure 266259DEST_PATH_IMAGE005
个第一隐藏节点的节点值,
Figure 423571DEST_PATH_IMAGE007
表示所述M个第二隐藏 节点中第
Figure 217214DEST_PATH_IMAGE005
个第二隐藏节点的节点值,
Figure 321437DEST_PATH_IMAGE020
表示用于判断
Figure 8770DEST_PATH_IMAGE009
是否等于
Figure 464547DEST_PATH_IMAGE002
的函 数,并在是时输出1,而在否时输出0;
所述资源占用率计算单元,通信连接所述输出向量计算单元,用于按照如下公式计算得到所述M个算力资源供应设备的调度后算力资源占用率:
Figure 870120DEST_PATH_IMAGE021
式中,
Figure 184558DEST_PATH_IMAGE022
表示与所述第
Figure 929660DEST_PATH_IMAGE023
个第一隐藏节点对应的算力资源供应设备的调度后算力 资源占用率,
Figure 428774DEST_PATH_IMAGE024
表示与所述第
Figure 446278DEST_PATH_IMAGE023
个第一隐藏节点对应的算力资源供应设备的可用算力 资源总数,
Figure 892303DEST_PATH_IMAGE025
表示与所述第
Figure 819807DEST_PATH_IMAGE005
个第一隐藏节点对应的算力资源供应设备的调度前算力 资源占用率;
所述第一判断单元,分别通信连接所述资源占用率计算单元、所述第二判断单元和所述节点值调整单元,用于判断所述M个算力资源供应设备的调度后算力资源占用率的标准差是否小于预设的第一目标阈值,若是,则启动所述第二判断单元,否则启动所述节点值调整单元;
所述第二判断单元,分别通信连接所述第三判断单元和所述节点值调整单元,用于判断所述输出向量中的各个元素是否均大于等于所述输出目标向量中的对应元素,若是,则启动所述第三判断单元,否则启动所述节点值调整单元;
所述第三判断单元,通信连接所述节点值调整单元,用于判断所述输出向量与所述输出目标向量的误差平方值是否小于预设的第二目标阈值,若是,则停止训练,得到完成训练的新BP神经网络,否则启动所述节点值调整单元;
所述节点值调整单元,通信连接所述输出向量计算单元,用于基于BP神经网络的梯度 下降法来调整所述M个第一隐藏节点以及所述M个第二隐藏节点的节点值,然后返回启动所 述输出向量计算单元,其中,所述M个第一隐藏节点的节点值的调整约束条件包括有取值为 不大于N的自然数,所述M个第二隐藏节点的节点值的调整约束条件包括有取值为不大于
Figure 365189DEST_PATH_IMAGE026
的自然数;
所述设备遍历模块,用于按照如下方式遍历所述M个算力资源供应设备中的各个算力资源供应设备:若对应的第一隐藏节点的节点值为第一非零数值x1,并且对应的第二隐藏节点的节点值为第二非零数值x2,则将对应的且算力资源数目为x2的算力资源调度给与第x1个输出节点对应的运算处理子业务。
9.一种计算机设备,其特征在于,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~7中任意一项所述的分布式算力集群智慧调度方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~7中任意一项所述的分布式算力集群智慧调度方法。
CN202211421126.7A 2022-11-15 2022-11-15 一种分布式算力集群智慧调度方法、装置及计算机设备 Active CN115473901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211421126.7A CN115473901B (zh) 2022-11-15 2022-11-15 一种分布式算力集群智慧调度方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211421126.7A CN115473901B (zh) 2022-11-15 2022-11-15 一种分布式算力集群智慧调度方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN115473901A CN115473901A (zh) 2022-12-13
CN115473901B true CN115473901B (zh) 2023-03-10

Family

ID=84338046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211421126.7A Active CN115473901B (zh) 2022-11-15 2022-11-15 一种分布式算力集群智慧调度方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN115473901B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434928B (zh) * 2023-03-27 2024-04-05 峰禾(北京)科技有限公司 一种医疗spd供应链智慧管理方法、装置及计算机设备
CN117008821B (zh) * 2023-04-07 2024-04-19 豪越科技有限公司 一种后勤管理的数据存储方法及系统
CN116962176B (zh) * 2023-09-21 2024-01-23 浪潮电子信息产业股份有限公司 一种分布式集群的数据处理方法、装置、系统及存储介质
CN117331700B (zh) * 2023-10-24 2024-04-19 广州一玛网络科技有限公司 一种算力网络资源调度系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018119933A1 (zh) * 2016-12-29 2018-07-05 深圳天珑无线科技有限公司 一种路由表的生成方法和服务器
WO2019025004A1 (en) * 2017-08-04 2019-02-07 Trisomytest, S.R.O. METHOD FOR NON-INVASIVE PRENATAL DETECTION OF FETUS SEX CHROMOSOMAL ABNORMALITY AND FETUS SEX DETERMINATION FOR SINGLE PREGNANCY AND GEEMELLAR PREGNANCY
CN113434294A (zh) * 2021-06-29 2021-09-24 腾讯科技(深圳)有限公司 一种数据处理方法、计算机设备以及可读存储介质
CN113599803A (zh) * 2021-07-28 2021-11-05 腾讯科技(深圳)有限公司 一种基于边缘计算的数据处理方法、设备及可读存储介质
CN113806094A (zh) * 2021-09-23 2021-12-17 宝信软件(武汉)有限公司 一种基于深度学习的云平台资源动态调度方法
CN114997747A (zh) * 2022-07-29 2022-09-02 共幸科技(深圳)有限公司 一种实现上下游供需平衡的代驾服务调度方法及装置
CN115186803A (zh) * 2022-07-29 2022-10-14 武汉理工大学 一种考虑pue的数据中心算力负荷需求组合预测方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732291B2 (en) * 2012-01-13 2014-05-20 Accenture Global Services Limited Performance interference model for managing consolidated workloads in QOS-aware clouds
CN103426027B (zh) * 2013-07-24 2016-01-20 浙江大学 一种基于遗传神经网络模型的正常蓄水位智能优选方法
CN109376012A (zh) * 2018-10-10 2019-02-22 电子科技大学 一种针对异构环境的基于Spark的自适应任务调度方法
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN113867959A (zh) * 2021-09-29 2021-12-31 苏州浪潮智能科技有限公司 一种训练任务资源调度方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018119933A1 (zh) * 2016-12-29 2018-07-05 深圳天珑无线科技有限公司 一种路由表的生成方法和服务器
WO2019025004A1 (en) * 2017-08-04 2019-02-07 Trisomytest, S.R.O. METHOD FOR NON-INVASIVE PRENATAL DETECTION OF FETUS SEX CHROMOSOMAL ABNORMALITY AND FETUS SEX DETERMINATION FOR SINGLE PREGNANCY AND GEEMELLAR PREGNANCY
CN113434294A (zh) * 2021-06-29 2021-09-24 腾讯科技(深圳)有限公司 一种数据处理方法、计算机设备以及可读存储介质
CN113599803A (zh) * 2021-07-28 2021-11-05 腾讯科技(深圳)有限公司 一种基于边缘计算的数据处理方法、设备及可读存储介质
CN113806094A (zh) * 2021-09-23 2021-12-17 宝信软件(武汉)有限公司 一种基于深度学习的云平台资源动态调度方法
CN114997747A (zh) * 2022-07-29 2022-09-02 共幸科技(深圳)有限公司 一种实现上下游供需平衡的代驾服务调度方法及装置
CN115186803A (zh) * 2022-07-29 2022-10-14 武汉理工大学 一种考虑pue的数据中心算力负荷需求组合预测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Evaluation of Spare Parts Scheme Based on BP Neural Network;Liang ZHOU;《2019 Prognostics and System Health Management Conference (PHM-Qingdao)》;20191227;全文 *
虚拟网络动态资源分配策略与算法研究;肖宪翠;《信息科技辑》;20211215;全文 *

Also Published As

Publication number Publication date
CN115473901A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN115473901B (zh) 一种分布式算力集群智慧调度方法、装置及计算机设备
CN113315700B (zh) 算力资源调度方法、装置和存储介质
CN111045828B (zh) 基于配电网台区终端的分布式边缘计算方法和相关装置
CN108667657B (zh) 一种面向sdn的基于局部特征信息的虚拟网络映射方法
CN111538570B (zh) 一种面向节能和QoS保障的VNF部署方法及装置
CN111027736A (zh) 多目标优化下的微服务组合部署与调度方法
CN111556516B (zh) 面向时延和能效敏感业务的分布式无线网络任务协同分配方法
Zhang et al. Edge-to-edge cooperative artificial intelligence in smart cities with on-demand learning offloading
CN112650581A (zh) 一种面向智能楼宇的云边协同任务调度方法
CN113098711A (zh) 一种基于云边协同的配电物联网cps管控方法及系统
CN111324429B (zh) 一种基于多代血统参考距离的微服务组合调度方法
CN109639498A (zh) 一种基于sdn与nfv的面向业务质量的资源柔性配置方法
CN114726743A (zh) 一种基于联邦强化学习的服务功能链部署方法
CN115907038A (zh) 一种基于联邦拆分学习框架的多元控制决策方法
CN105335376B (zh) 一种流处理方法、装置及系统
CN110958192B (zh) 一种基于虚拟交换机的虚拟数据中心资源分配系统及方法
Yang et al. Trust-based scheduling strategy for cloud workflow applications
Wei et al. Drl-deploy: adaptive service function chains deployment with deep reinforcement learning
CN115879543A (zh) 一种模型训练方法、装置、设备、介质及系统
Shah et al. Optimization based AIMD saturated algorithms for public charging of electric vehicles
CN115633083A (zh) 一种电力通信网业务编排方法、装置及存储介质
CN110119300A (zh) 虚拟单元集群的负载均衡方法和装置
Guan et al. Multidimensional Resource Fragmentation-Aware Virtual Network Embedding for IoT Applications in MEC Networks
CN112165721A (zh) 基于边缘计算的多服务任务的卸载和服务迁移方法
WO2024001259A1 (zh) 一种分布式训练方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant