CN113326134B - 基于深度学习的虚拟资源调度系统与方法 - Google Patents

基于深度学习的虚拟资源调度系统与方法 Download PDF

Info

Publication number
CN113326134B
CN113326134B CN202110685996.4A CN202110685996A CN113326134B CN 113326134 B CN113326134 B CN 113326134B CN 202110685996 A CN202110685996 A CN 202110685996A CN 113326134 B CN113326134 B CN 113326134B
Authority
CN
China
Prior art keywords
deep learning
neural network
processor
node
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110685996.4A
Other languages
English (en)
Other versions
CN113326134A (zh
Inventor
曾念峰
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Easy Success Xiamen Information Technology Co ltd
Original Assignee
Easy Success Xiamen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Easy Success Xiamen Information Technology Co ltd filed Critical Easy Success Xiamen Information Technology Co ltd
Priority to CN202110685996.4A priority Critical patent/CN113326134B/zh
Publication of CN113326134A publication Critical patent/CN113326134A/zh
Application granted granted Critical
Publication of CN113326134B publication Critical patent/CN113326134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出基于深度学习的虚拟资源调度系统与方法。所述调度系统包括第一宿主机和第二宿主机,第一宿主机配置有第一深度学习神经网络处理器,第二宿主机上配置有第二深度学习神经网络处理器;第一深度学习神经网络处理器包含多个处理器分支;当处理器分支的第一节点包含输入数据并且第三节点包含输出数据时该处理器分支为激活分支;在第一宿主机上运行第一数量的容器,在第二宿主机上运行第二数量的容器,基于第一深度学习神经网络处理器的第一输入层的第一激活分支量,确定所述第一数量的值,基于第二深度学习神经网络处理器的第二输出层的第二激活分支量,确定所述第二数量的值。本发明还提出对应的虚拟资源调度方法。

Description

基于深度学习的虚拟资源调度系统与方法
技术领域
本发明属于深度学习与资源调度领域,尤其涉及一种基于深度学习的虚拟资源调度系统、方法与计算机可读介质。
背景技术
资源调度是指在特定的资源环境下,根据一定的资源使用规则,在不同的资源使用者之间进行资源调整的过程。这些资源使用者对应着不同的计算任务(例如一个虚拟解决方案),每个计算任务存操作系统中对应于一个或者多个进程。通常有两种途径可以实现计算任务的资源调度:在计算任务所在的机器上调整分配给它的资源使用量,或者将计算任务转移到其他机器上。
容器(可称为docker/contaier/pod等)拉取/启动快速,隔离资源效果好,因此成为最常见的虚拟资源形式。抽象来看,可以将容器的image作为job的一部分分发调度执行。基于Docker容器的资源管理方案,将资源管理整合成一个资源管理与调度平台,而作业控制则放到应用程序框架中从而解决扩展性差的问题。各个服务组件中的各个模块则采用虚拟化容器Docker进行资源隔离,提高了资源利用率,同时也保证了安全性。在基于容器的分布式资源管理平台之上,可以构建类似于视频流服务、深度学习计算框架等服务,形成媒体智能处理层,但是容器化后会引入gpu,网络等性能的代价。
国际申请PCT/CN2018/085714公开一种资源分配方法及装置、计算机存储介质,所述方法包括:第一设备获取第一资源配置信息,所述第一资源配置信息用于确定第一链路的可用资源,其中,所述第一链路是所述第一设备和第二设备之间的链路;
中国专利申请文件CN201310752071.2提出一种资源动态分配的管理方法和装置,该资源动态分配的管理方法包括:对将要执行的业务操作进行分析,确定该业务操作在不同时间段所需的资源量;根据确定出的业务操作在不同时间段所需的资源量,生成资源伸缩配置信息;根据资源伸缩配置信息,为不同时间段执行业务操作分配对应的资源。该发明通过预先对将要执行的业务操作进行分析,确定该业务操作在不同时间段所需的资源量,然后,根据该资源量,生成资源伸缩配置信息,并根据该资源伸缩配置信息,为不同时间执行业务操作分配对应的资源,从而实现了在不同的时间段,采用不同的伸缩策略进行资源的动态分配,进而有效的提高了资源池的使用效率,使得资源池更具有弹性。
然而,现有技术的虚拟资源调度尤其是容器资源调度,调度程序只能确保对于每种资源类型,所调度的容器的资源请求的总和小于节点的容量。如果节点上的实际内存或CPU资源使用量非常低,如果容量检查失败,调度程序仍会拒绝在该节点上放置Pod,无法根据实际情况进行动态的调整。这种限于总量满足的控制方式,导致虚拟资源的调度准确性不高。
发明内容
为解决上述技术问题,本发明提出一种基于深度学习的虚拟资源调度系统、方法与计算机可读介质。
所述调度系统包括第一宿主机和第二宿主机,第一宿主机配置有第一深度学习神经网络处理器,第二宿主机上配置有第二深度学习神经网络处理器;第一深度学习神经网络处理器包含多个处理器分支;当处理器分支的第一节点包含输入数据并且第三节点包含输出数据时该处理器分支为激活分支;在第一宿主机上运行第一数量的容器,在第二宿主机上运行第二数量的容器,基于第一深度学习神经网络处理器的第一输入层的第一激活分支量,确定所述第一数量的值,基于第二深度学习神经网络处理器的第二输出层的第二激活分支量,确定所述第二数量的值。
具体来说,本发明所述的一种基于深度学习的虚拟资源调度系统中,所述第一深度学习神经网络处理器包括第一输入层、第一隐含层和第一输出层;所述第二深度学习神经网络处理器包括第二输入层和第二输出层;
在所述第一宿主机上运行第一数量的容器,在所述第二宿主机上运行第二数量的容器,所述第一深度学习神经网络处理器的所述第一输入层、第一隐含层和第一输出层运行于所述第一宿主机上的同一个容器中;所述第二深度学习神经网络处理器的所述第二输入层和第二输出层运行于所述第二宿主机上的同一个容器中;并且,基于所述第一深度学习神经网络处理器的所述第一输入层的第一激活分支量,确定所述第一数量的值,基于所述第二深度学习神经网络处理器的所述第二输出层的第二激活分支量,确定所述第二数量的值。
首先需要说明的是,在本发明的技术方案中,神经网络处理器是用于实现神经网络模型的硬件设备,神经网络本身可以视为某种软件模型。在本发明的部分描述中,有时候神经网络处理器和神经网络(模型)可相互调用。
一般而言,一个神经网络模型包括输入层、中间层(隐含层)和输出层。输入层、中间层(隐含层)和输出层一般各自包含多个单元(节点),变现在硬件实现上,也可以描述为神经网络处理器包含输入层处理器组、中间层(隐含层)处理器组和输出层处理组,对应的各层的多个单元(节点)可以描述为处理器单元(节点)。
在简化的神经网络模型中,也可以省略中间层(隐含层)。
基于此,作为一般性的描述,在本发明的技术方案中,所述第一深度学习神经网络处理器包括第一输入层、第一隐含层和第一输出层;
所述第一输入层包含N个节点,所述隐含层包含M个节点,所述第一输出层包含P个节点;
所述第一深度学习神经网络处理器包含多个处理器分支,每个所述处理器分支由第一节点、第二节点和第三节点构成;
所述第一节点为所述N个节点之一,所述第二节点为所述M个节点之一,所述第三节点为所述P个节点之一;所述M、N、P为大于1的正整数。
当所述处理器分支的所述第一节点包含输入数据并且所述第三节点包含输出数据时,所述处理器分支为激活分支。
相对应的,在本发明中,所述第二深度学习神经网络处理器包括第二输入层和第二输出层;所述第二输入层包含x个第三节点,所述第二输出层包含y个第四节点;所述x/y为大于1的正整数。
所述第二深度学习神经网络处理器包含多个处理器分支,每个所述处理器分支包含至少一个第四节点;
当所述处理器分支中的所述第四节点包含数据输出时,所述处理器分支为激活分支;
将所述激活分支包含的第四节点对应的处理器进程、以及与所述第四节点连接的第三节点对应的处理器进程运行于所述第二宿主机上的同一个容器中。
基于上述系统,本发明还可以实现为一种基于深度学习的虚拟资源调度方法,所述方法应用于包含第一宿主机和第二宿主机的服务器集群系统,在所述第一宿主机上运行有第一深度学习神经网络处理器,在所述第二宿主机上运行有第二深度学习神经网络处理器,
基于此,所述方法包括如下步骤:
S600:在所述第一宿主机上创建第一数量的第一容器,在所述第二宿主机上创建第二数量的第二容器;
S610:基于所述第一深度学习神经网络处理器在运行过程中的第一激活分支数,调节所述第一容器的数量,基于所述第二深度学习神经网络处理器在运行过程中的第二激活分支数,调节所述第二容器的数量;
其中,所述第一数量大于所述第一深度学习神经网络处理器的输入层的节点数量,所述第二数量小于所述第二深度学习神经网络处理器的输出层的节点数量。
所述第二深度学习神经网络处理器包含输入层和输出层,所述输入层包含x个节点,所述输出层包含y个节点,每个节点对应一个处理器进程。
在所述步骤S600之后,在所述步骤S610之前,所述方法还包括如下步骤:
S601:获取所述第一深度学习神经网络处理器的输入层中存在数据输入的第一节点数目,并获取所述第一深度学习神经网络处理器的输出层中存在数据输出的第三节点数目,基于所述第一节点数目和所述第三节点数目,确定所述第一激活分支数;
S602:获取所述第二深度学习神经网络处理器的输出层存在数据输出的第四节点数目,基于所述第四节点数目,确定所述第二激活分支数。
本发明的上述方法可以通过包含处理器和存储器的终端设备,尤其是图像处理终端设备或者语音处理终端设备,包括移动终端、桌面终端、服务器以及服务器集群等,通过程序指令自动化的执行,因此,在本发明的第三个方面,还提供一种计算机可读存储介质,其上存储有计算机程序指令;通过包含处理器和存储器的图像终端处理设备或者语音处理终端设备,执行所述程序指令,用于实现第二个方面所述方法的全部或者部分步骤。
本发明的技术方案,能够基于在宿主机上运行的神经网络的实际激活支路数量,建立对应数量的容器,从而动态的调节容器数量,实现虚拟资源的动态调度;
基于本申请的方案,同一条激活支路上完全独立运行于同一个容器中,使得资源利用率最大的同时,避免了不同支路的干扰以及资源冗余。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种基于深度学习的虚拟资源调度系统的整体架构图
图2是图1所述系统中的第一深度学习神经网络处理器的结构示意图
图3是图1所述系统中的第二深度学习神经网络处理器的结构示意图
图4是图1所述系统中不同宿主机的每一个独立容器空间的示意图
图5是基于图1所述系统执行的虚拟资源调度方法的主体流程图
图6是图5所述方法的进一步优选实施例
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
参照图1,是本发明一个实施例的一种基于深度学习的虚拟资源调度系统的整体架构图。
在图1中,所述调度系统包括第一宿主机和第二宿主机,所述第一宿主机配置有第一深度学习神经网络处理器,在所述第二宿主机上配置有第二深度学习神经网络处理器。
指出的是,在图1中的实施例中,所述第一宿主机和所述第二宿主机通过数据管道(data pipeline)连接通信。
数据管道(data-pipeline)技术原本是用于不同数据库(数据源)之间的数据转移的技术,例如数据备份、数据还原等,采用数据管道技术,可以避免进程阻塞或者使用第三方代理进行数据传输。数据管道即是将不同进程连接起来用于数据传输。
单向数据管道管道则是意味着从一个进程到另一个进程之间的单向数据传输。
在本实施例中,进一步采用单向数据管道,更具体的,所述单向数据管道从所述第一宿主机指向所述第二宿主机,使得第一宿主机的容器数据,单向传输给所述第二宿主机的容器,从而使得所述第一深度学习神经网络处理器的激活支路与所述第一深度学习神经网络处理器的激活支路建立单向的直接的数据通道,提高数据处理效率的同时,进一步节省虚拟资源(避免资源冗余)。
在图1基础上,结合图2-图3,进一步介绍所述第一深度学习神经网络处理器和所述第二深度学习神经网络处理器的具体结构和原理。
在此之前,做一些相关原理的补充性介绍。
在机器学习和认知科学领域,人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN)或类神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统,可实现深度自学习。
现代神经网络是一种非线性统计性数据建模工具。典型的神经网络具有以下三个部分:
结构(Architecture)结构指定了网络中的变量和它们的拓扑关系。例如,神经网络中的变量可以是神经元连接的权重(weights)和神经元的激励值(activities of theneurons)。
激励函数(Activity Rule)大部分神经网络模型具有一个短时间尺度的动力学规则,来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于网络中的权重(即该网络的参数)。
学习规则(Learning Rule)学习规则指定了网络中的权重如何随着时间推进而调整。这一般被看做是一种长时间尺度的动力学规则。一般情况下,学习规则依赖于神经元的激励值。它也可能依赖于监督者提供的目标值和当前权重的值。
以三层的神经网络为例,输入层有d个节点,隐层有q个节点,输出层有l个节点。除了输入层,每一层的节点都包含一个非线性变换,可以对应一个处理器节点(单元)。
在后续的图2-图3中,设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定;
图2-图3中,神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向,跟训练时的数据流有一定的区别;
结构图里的关键不是圆圈(代表“神经元”、处理器节点),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。
以图2为例,所述第一深度学习神经网络处理器的第一输入层包括I1、I2、I3三个处理器节点,第一隐含层包括M1、M2、M3三个处理器节点,第一输出层包括P1、P2、P3三个处理器节点;
以图3为例,所述第二深度学习神经网络处理器的第二输入层包括i1、i2、两个处理器节点,第二输出层包括p1、p2、p3、p4四个处理器节点。
在初始状态下,在所述第一宿主机上运行第一数量的容器,在所述第二宿主机上运行第二数量的容器,
所述第一深度学习神经网络处理器的所述第一输入层、第一隐含层和第一输出层运行于所述第一宿主机上的同一个容器中;
所述第二深度学习神经网络处理器的所述第二输入层和第二输出层运行于所述第二宿主机上的同一个容器中。
其中,所述第一数量大于所述第一深度学习神经网络处理器的输入层的节点数量,所述第二数量小于所述第二深度学习神经网络处理器的输出层的节点数量。
接下来,随着数据处理的进行,判断激活分支的数量,从而调节所述第一数量和所述第二数量。
具体的,以所述第一输入层包含N个节点,所述隐含层包含M个节点,所述第一输出层包含P个节点为例;
所述第一深度学习神经网络处理器包含多个处理器分支,每个所述处理器分支由第一节点、第二节点和第三节点构成;
所述第一节点为所述N个节点之一,所述第二节点为所述M个节点之一,所述第三节点为所述P个节点之一;
当所述处理器分支的所述第一节点包含输入数据并且所述第三节点包含输出数据时,所述处理器分支为激活分支。
以图2为例,其中,I3包含输入数据,P3包含输出数据,因此,至少I3-M1-P3所在的处理器分支构成激活分支;
同样的,所述第二深度学习神经网络处理器包含多个处理器分支,
假设所述第二深度学习神经网络处理器,所述第二输入层包含x个第三节点,所述第二输出层包含y个第四节点;
每个所述处理器分支包含至少一个第四节点;
当所述处理器分支中的所述第四节点包含数据输出时,所述处理器分支为激活分支。
以图3为例,p4包含数据输出,因此,至少i2-p4构成激活分支。
基于所述第一深度学习神经网络处理器的所述第一输入层的第一激活分支量,确定所述第一数量的值,基于所述第二深度学习神经网络处理器的所述第二输出层的第二激活分支量,确定所述第二数量的值。
并且,参见图4,将构成所述激活分支的多个节点对应的处理器进程(I3-M1-P3)运行于所述第一宿主机上的同一个容器中;将所述激活分支包含的第四节点对应的处理器进程、以及与所述第四节点连接的第三节点对应的处理器进程(i2-p4)运行于所述第二宿主机上的同一个容器中。
前面已经指出,所述第一宿主机和所述第二宿主机通过数据管道(datapipeline)连接通信。
因此,在本发明的实施例中,将构成所述激活分支的多个节点对应的处理器进程(I3-M1-P3),通过单向数据管道连接至所述第四节点对应的处理器进程、以及与所述第四节点连接的第三节点对应的处理器进程(i2-p4)构成的激活分支,进一步降低资源消耗。
接下来参见图5-图6。
图5中,示出一种基于深度学习的虚拟资源调度方法,所述方法应用于包含第一宿主机和第二宿主机的服务器集群系统,在所述第一宿主机上运行有第一深度学习神经网络处理器,在所述第二宿主机上运行有第二深度学习神经网络处理器,
所述方法包括如下步骤:
S600:在所述第一宿主机上创建第一数量的第一容器,在所述第二宿主机上创建第二数量的第二容器;
S610:基于所述第一深度学习神经网络处理器在运行过程中的第一激活分支数,调节所述第一容器的数量,基于所述第二深度学习神经网络处理器在运行过程中的第二激活分支数,调节所述第二容器的数量;
其中,所述第一数量大于所述第一深度学习神经网络处理器的输入层的节点数量,所述第二数量小于所述第二深度学习神经网络处理器的输出层的节点数量。
在图5基础上,进一步参见图6。
在所述步骤S600之后,在所述步骤S610之前,所述方法还包括如下步骤:
S601:获取所述第一深度学习神经网络处理器的输入层中存在数据输入的第一节点数目,并获取所述第一深度学习神经网络处理器的输出层中存在数据输出的第三节点数目,基于所述第一节点数目和所述第三节点数目,确定所述第一激活分支数;
S602:获取所述第二深度学习神经网络处理器的输出层存在数据输出的第四节点数目,基于所述第四节点数目,确定所述第二激活分支数。
作为进一步的优选,所述步骤S610进一步包括:
若所述第一数量大于所述第一激活分支数,则释放部分在所述第一宿主机上创建的第一容器;
若所述第二数量小于所述第二激活分支数,则增加在所述第二宿主机上创建的第二容器的数量。
所述第一深度学习神经网络处理器的每个所述激活分支中包含的节点对应的处理器进程运行于所述第一宿主机上的同一个容器中;
所述第二深度学习神经网络处理器的每个所述激活分支中包含的节点对应的处理器进程运行于所述第二宿主机上的同一个容器中。
本发明的技术方案,能够基于在宿主机上运行的神经网络的实际激活支路数量,建立对应数量的容器,从而动态的调节容器数量,实现虚拟资源的动态调度;并且,同一条激活支路上完全独立运行于同一个容器中,而不同激活支路之间采用数据管道连接,使得资源利用率最大的同时,避免了不同支路的干扰。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于深度学习的虚拟资源调度系统,所述调度系统包括第一宿主机和第二宿主机,其特征在于:
所述第一宿主机配置有第一深度学习神经网络处理器,在所述第二宿主机上配置有第二深度学习神经网络处理器;
所述第一深度学习神经网络处理器包括第一输入层、第一隐含层和第一输出层;
所述第二深度学习神经网络处理器包括第二输入层和第二输出层;
在所述第一宿主机上运行第一数量的容器,在所述第二宿主机上运行第二数量的容器,
所述第一深度学习神经网络处理器的所述第一输入层、第一隐含层和第一输出层运行于所述第一宿主机上的同一个容器中;
所述第二深度学习神经网络处理器的所述第二输入层和第二输出层运行于所述第二宿主机上的同一个容器中;
并且,基于所述第一深度学习神经网络处理器的所述第一输入层的第一激活分支量,确定所述第一数量的值,基于所述第二深度学习神经网络处理器的所述第二输出层的第二激活分支量,确定所述第二数量的值;
所述第一输入层包含N个节点,所述隐含层包含M个节点,所述第一输出层包含P个节点;
所述第一深度学习神经网络处理器包含多个处理器分支,每个所述处理器分支由第一节点、第二节点和第三节点构成;
所述第一节点为所述N个节点之一,所述第二节点为所述M个节点之一,所述第三节点为所述P个节点之一;
所述M、N、P为大于1的正整数;
当所述处理器分支的所述第一节点包含输入数据并且所述第三节点包含输出数据时,所述处理器分支为激活分支;
将构成所述激活分支的多个节点对应的处理器进程运行于所述第一宿主机上的同一个容器中;
所述第二输入层包含x个第三节点,所述第二输出层包含y个第四节点;
所述第二深度学习神经网络处理器包含多个处理器分支,每个所述处理器分支包含至少一个第四节点;
当所述处理器分支中的所述第四节点包含数据输出时,所述处理器分支为激活分支;
将所述激活分支包含的第四节点对应的处理器进程、以及与所述第四节点连接的第三节点对应的处理器进程运行于所述第二宿主机上的同一个容器中。
2.一种基于深度学习的虚拟资源调度方法,所述方法应用于包含第一宿主机和第二宿主机的服务器集群系统,在所述第一宿主机上运行有第一深度学习神经网络处理器,在所述第二宿主机上运行有第二深度学习神经网络处理器,
其特征在于,所述方法包括如下步骤:
S600:在所述第一宿主机上创建第一数量的第一容器,在所述第二宿主机上创建第二数量的第二容器;
S610:基于所述第一深度学习神经网络处理器在运行过程中的第一激活分支数,调节所述第一容器的数量,基于所述第二深度学习神经网络处理器在运行过程中的第二激活分支数,调节所述第二容器的数量;
其中,所述第一数量大于所述第一深度学习神经网络处理器的输入层的节点数量,所述第二数量小于所述第二深度学习神经网络处理器的输出层的节点数量;
所述第二深度学习神经网络处理器包含输入层和输出层,所述输入层包含x个节点,所述输出层包含y个节点,每个节点对应一个处理器进程;
在所述步骤S600之后,在所述步骤S610之前,所述方法还包括如下步骤:
S601:获取所述第一深度学习神经网络处理器的输入层中存在数据输入的第一节点数目,并获取所述第一深度学习神经网络处理器的输出层中存在数据输出的第三节点数目,基于所述第一节点数目和所述第三节点数目,确定所述第一激活分支数;
S602:获取所述第二深度学习神经网络处理器的输出层存在数据输出的第四节点数目,基于所述第四节点数目,确定所述第二激活分支数;
所述步骤S610进一步包括:
若所述第一数量大于所述第一激活分支数,则释放部分在所述第一宿主机上创建的第一容器;
若所述第二数量小于所述第二激活分支数,则增加在所述第二宿主机上创建的第二容器的数量;
所述第一深度学习神经网络处理器的每个所述激活分支中包含的节点对应的处理器进程运行于所述第一宿主机上的同一个容器中;
所述第二深度学习神经网络处理器的每个所述激活分支中包含的节点对应的处理器进程运行于所述第二宿主机上的同一个容器中。
CN202110685996.4A 2021-06-21 2021-06-21 基于深度学习的虚拟资源调度系统与方法 Active CN113326134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110685996.4A CN113326134B (zh) 2021-06-21 2021-06-21 基于深度学习的虚拟资源调度系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110685996.4A CN113326134B (zh) 2021-06-21 2021-06-21 基于深度学习的虚拟资源调度系统与方法

Publications (2)

Publication Number Publication Date
CN113326134A CN113326134A (zh) 2021-08-31
CN113326134B true CN113326134B (zh) 2023-12-22

Family

ID=77423983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110685996.4A Active CN113326134B (zh) 2021-06-21 2021-06-21 基于深度学习的虚拟资源调度系统与方法

Country Status (1)

Country Link
CN (1) CN113326134B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190028210A (ko) * 2017-09-08 2019-03-18 (주)케이아이엔엑스 컨테이너 기반 인공지능 어플리케이션을 배포하는 클라우드 서비스 방법과 시스템
CN111857942A (zh) * 2019-04-30 2020-10-30 北京金山云网络技术有限公司 一种深度学习环境搭建方法、装置及服务器
CN111885137A (zh) * 2020-07-15 2020-11-03 国网河南省电力公司信息通信公司 一种基于深度强化学习的边缘容器资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11816552B2 (en) * 2017-10-26 2023-11-14 International Business Machines Corporation Dynamically reconfigurable networked virtual neurons for neural network processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190028210A (ko) * 2017-09-08 2019-03-18 (주)케이아이엔엑스 컨테이너 기반 인공지능 어플리케이션을 배포하는 클라우드 서비스 방법과 시스템
CN111857942A (zh) * 2019-04-30 2020-10-30 北京金山云网络技术有限公司 一种深度学习环境搭建方法、装置及服务器
CN111885137A (zh) * 2020-07-15 2020-11-03 国网河南省电力公司信息通信公司 一种基于深度强化学习的边缘容器资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向轻量云的嵌入式系统容器化资源管理技术研究;严亮亮;《中国优秀硕士论文全文数据库 信息科技辑》》;全文 *

Also Published As

Publication number Publication date
CN113326134A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
Zhang et al. Online adaptive interference-aware VNF deployment and migration for 5G network slice
Mechalikh et al. PureEdgeSim: A simulation framework for performance evaluation of cloud, edge and mist computing environments
CN112052092B (zh) 一种风险感知的边缘计算任务分配方法
Raj Improved response time and energy management for mobile cloud computing using computational offloading
US20240111586A1 (en) Multi-policy intelligent scheduling method and apparatus oriented to heterogeneous computing power
Nguyen et al. Monad: Self-adaptive micro-service infrastructure for heterogeneous scientific workflows
CN114610474A (zh) 一种异构超算环境下多策略的作业调度方法及系统
CN116257363B (zh) 资源调度方法、装置、设备及存储介质
Huang et al. Enabling dnn acceleration with data and model parallelization over ubiquitous end devices
CN115134371A (zh) 包含边缘网络算力资源的调度方法、系统、设备及介质
CN112732444A (zh) 一种面向分布式机器学习的数据划分方法
Incerto et al. Symbolic performance adaptation
CN114995994A (zh) 任务处理方法及系统
CN113014649B (zh) 一种基于深度学习的云物联负载均衡方法、装置及设备
Barika et al. Online scheduling technique to handle data velocity changes in stream workflows
Qaddoum et al. Elastic neural network method for load prediction in cloud computing grid.
CN113326134B (zh) 基于深度学习的虚拟资源调度系统与方法
CN110727511B (zh) 应用程序的控制方法、网络侧设备和计算机可读存储介质
CN111274018A (zh) 一种基于dl框架下的分布式训练方法
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
Nanjappan et al. HFTO: Hybrid firebug tunicate optimizer for fault tolerance and dynamic task scheduling in cloud computing
Tang et al. Edge computing energy-efficient resource scheduling based on deep reinforcement learning and imitation learning
CN108287762A (zh) 分布式计算交互式模式使用资源优化方法以及计算机设备
CN114090239A (zh) 一种基于模型的强化学习的边缘资源调度方法和装置
Bishop et al. Process migration for heterogeneous distributed systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant