CN115202836A

CN115202836A - 一种提高gpu利用效率的算力池化系统

Info

Publication number: CN115202836A
Application number: CN202210672092.2A
Authority: CN
Inventors: 海永军; 陈佩文; 赵龙
Original assignee: Nanjing Yunji Information Technology Co ltd
Current assignee: Nanjing Yunji Information Technology Co ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-18

Abstract

本发明公开了一种提高GPU利用效率的算力池化系统，包括最大指标检测模块、配额计算模块、算力运行指标检测模块和利用效率调度模块，通过对GPU进行资源池化处理，使计算机的整个数据中心在不同物理节点上的GPU资源被抽象成为虚拟的GPU资源池，通过GPU资源按需申请单元在计算机执行很多业务的过程中，通过对计算机GPU资源池化处理来解决单个业务独占GPU时会有大量显存空闲的问题，避免了计算机GPU资源的浪费，业务动态申请单元方便对利用不充分的GPU资源进行动态调度，从而使得闲置状态GPU资源能够被动态的分配到对应的运行环境中，使闲置的GPU资源能够进行动态的申请使用，并根据调度算法来使用空闲GPU资源，避免造成闲置GPU资源的浪费。

Description

一种提高GPU利用效率的算力池化系统

技术领域

本发明涉及GPU资源池化技术领域，具体为一种提高GPU利用效率的算力池化系统。

背景技术

近几年随着AI的快速发展，业务的快速落地，GPU、AI专用加速卡作为一种通用资源出现在数据中心，为了提高业务对它们的利用率、提高它们的运维效率，它们同样需要进行资源池化，GPU池化之后可以如同分布式共享存储一样，在数据中心被不同用户、业务弹性使用，把资源进行池化是数据中心提高资源利用率、提高运维效率的最重要的手段之一，资源池化是通过分布式软件、虚拟化等技术，把某一类资源抽象成为一种可以按照运维的管理要求、被整个数据中心各种用户和业务共享的资源，从而打破资源被用户和业务独占使用的模式，打破单台服务器的CPU、磁盘、网卡等物理资源数量的固定配比，并且能够动态根据用户和业务的需求来进行申请和释放，例如分布式的存储池、软件定义网络、云原生、云计算就是利用资源池化的思想和技术对磁盘、网络、服务器节点、业务应用等资源进行资源池化后的资源抽象；目前，使用各种硬件加速器包括GPU、AI专用加速卡等对AI算法进行加速已经成为必不可少的选择，这类GPU、AI专用加速卡的价值占据服务器成本相当大的比例，甚至超过一半的成本，因此如何使用好这些高价值的设备、提高业务对它们的利用率、提高对它们的运维效率成为目前亟需解决的问题。

发明内容

本发明提供一种提高GPU利用效率的算力池化系统，可以有效解决上述背景技术中提出如何使用好这些高价值的设备、提高业务对它们的利用率、提高对它们的运维效率的问题。

为实现上述目的，本发明提供如下技术方案：一种提高GPU利用效率的算力池化系统，包括最大指标检测模块、配额计算模块、算力运行指标检测模块和利用效率调度模块；

其中，利用效率调度模块包括GPU资源按需申请单元、业务动态申请单元、碎片化使用单元、资源动态调度单元、运维异构配置单元和服务器合理配置单元；所述GPU资源按需申请单元是指通过资源池化来避免资源浪费，所述业务动态申请单元是指通过动态申请释放和自动根据调度算法来使用整个计算机的空闲GPU资源，所述碎片化使用单元主要解决实际场景中各种可能导致GPU无法被分配使用的问题；

所述资源动态调度单元是指通过经过GPU资源池化来满足业务需求的前提下，扩大GPU的利用效率，所述运维异构配置单元主要解决传统的物理资源配比，提高计算机的运维效率和业务使用资源效率，所述服务器合理配置单元是指通过GPU资源池化来减少对基础设施的要求及成本。

根据上述技术方案，所述最大指标检测模块，用于对计算机GPU算力进行自动检测，得到历史最大运行指标；所述配额计算模块，用于根据所述历史最大运行指标，自动确定计算机的GPU算力配额。

根据上述技术方案，所述算力运行指标检测模块，用于检测计算机GPU算力在业务场景下的实时算力运行指标；所述利用效率调度模块，是指根据计算机GPU算力在业务场景下的实时运行指标，来自动调整计算机GPU利用效率的调度条件。

根据上述技术方案，所述GPU资源按需申请单元，具体的是指在计算机执行很多业务的过程中，尤其是在线生产业务并不是要求算力越高越好，且在线业务的负载来自于网络，只要在满足设定的计算延迟目标即可，并不是越快越好，而业务对于显存的使用一般都不是正好把单个GPU的显存用满，单个业务独占GPU会有大量显存空闲，因此相对传统的单个业务来独占使用一个物理GPU，而经过资源池化之后，避免了计算机GPU的资源浪费。

根据上述技术方案，所述业务动态申请单元，具体的是指目前大多数企业开发投入了大量的GPU资源，而开发人员对GPU的利用往往很不充分，在大量的时间里GPU都是处于闲置状态，而不同的运行模式中GPU资源会被独占地分配到一个运行环境中，即使不使用GPU，该GPU也不能被重新分配利用，从而造成GPU资源被闲置浪费，通过对GPU资源池化处理，来使闲置GPU支持动态进行申请释放，并自动根据调度算法来使用空闲GPU资源。

根据上述技术方案，所述碎片化使用单元具体的是指在实际场景中会有各种可能导致GPU无法被分配使用的情况，有的业务需求大量的CPU资源、内存资源，会导致某个节点的CPU、内存首先成为瓶颈从而有剩余GPU无法使用；通过GPU资源池化来支持远程使用GPU，从而将剩余GPU资源提供给计算中心的其他业务使用，实现了将碎片化资源进行有效的利用，一些分布式AI应用要求每个节点GPU数量一致，但是由于GPU被碎片化申请走，会导致这类业务不能很好地被排布，导致剩余碎片化资源无法被使用。

根据上述技术方案，所述资源动态调度单元，具体的是指传统的GPU管理分配模式下，GPU分配给不同的计算机器之后，就无法再干预应用程序对GPU资源的使用和访问，而经过GPU资源池化处理后，因应用程序对GPU的访问和使用会实时经过池化软件的控制路径和数据路径，配合池化软件的支持，从而实现了在满足业务需求的前提下，扩大GPU资源的利用空间。

根据上述技术方案，所述运维异构配置单元，具体的是指同一个计算机服务器的配置经常会不一样，而这些配置不同的计算机服务器极大提高了运维复杂性，也限制了业务对资源使用的有效性，固定配置的服务器与发展变化的业务是有天然的矛盾的，导致计算机服务器对于GPU资源的有效利用情况也不相同，通过资源池化的GPU资源池能够以整个数据中心作为一层分布式使用模式，可以打破这种物理资源配比，提高运维效率和业务使用资源效率。

根据上述技术方案，同一个计算机服务器的配置不一样的原因有两类，一类是用户主动引入异构配置服务器来为不同的业务选择优化的硬件配置，另外一类是由于历史原因，一些尚未被淘汰的服务器仍然在使用，而服务器的采购、淘汰是对任何企业都是一个相对缓慢的过程。

根据上述技术方案，所述服务器合理配置单元，具体的是指计算机的GPU服务器不仅是高价值资产，同时也是耗电大户，在安装高配的GPU服务器时，一些数据中心可能因此出现容量不够的情况，通过GPU资源池化，合理的配置GPU服务器和CPU服务器，从而大幅度的减少GPU服务器对基础设施的要求和成本。

与现有技术相比，本发明的有益效果：通过多种方式来对GPU进行资源池化处理，以此来使计算机的整个数据中心在不同物理节点上的GPU资源被抽象成为虚拟的GPU资源池，通过GPU资源按需申请单元能够在计算机执行很多业务的过程中，通过对计算机GPU资源池化处理来解决单个业务独占GPU时会有大量显存空闲的问题，同时也避免了计算机GPU资源的浪费，业务动态申请单元方便对利用不充分的GPU资源进行动态调度，从而使得闲置状态GPU资源能够被动态的分配到对应的运行环境中，使闲置的GPU资源能够进行动态的申请使用，并根据调度算法来使用空闲GPU资源，避免造成GPU资源被闲置浪费；

通过碎片化使用单元能够在实际应用场景中通过GPU资源池化处理来支持远程使用GPU，从而将剩余GPU资源提供给其他业务使用，实现了将碎片化资源进行有效的利用，解决了目前剩余碎片化资源无法被使用的问题，且结合资源动态调度单元，能够通过GPU资源池化处理来实现了在满足业务需求的前提下，扩大GPU资源的利用空间；

通过运维异构配置单元能够以整个数据中心作为一层分布式使用模式，可以打破这种物理资源配比，提高运维效率和业务使用资源效率，而服务器合理配置单元，方便合理的配置GPU服务器和CPU服务器，从而大幅度的减少GPU服务器对基础设施的要求和资源使用成本。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明的系统的结构框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供一种技术方案，一种提高GPU利用效率的算力池化系统，包括最大指标检测模块、配额计算模块、算力运行指标检测模块和利用效率调度模块；其中，利用效率调度模块包括GPU资源按需申请单元、业务动态申请单元、碎片化使用单元、资源动态调度单元、运维异构配置单元和服务器合理配置单元；GPU资源按需申请单元是指通过资源池化来避免资源浪费，业务动态申请单元是指通过动态申请释放和自动根据调度算法来使用整个计算机的空闲GPU资源，碎片化使用单元主要解决实际场景中各种可能导致GPU无法被分配使用的问题；资源动态调度单元是指通过经过GPU资源池化来满足业务需求的前提下，扩大GPU的利用效率，运维异构配置单元主要解决传统的物理资源配比，提高计算机的运维效率和业务使用资源效率，服务器合理配置单元是指通过GPU资源池化来减少对基础设施的要求及成本。

基于上述技术方案，最大指标检测模块，用于对计算机GPU算力进行自动检测，得到历史最大运行指标；配额计算模块，用于根据历史最大运行指标，自动确定计算机的GPU算力配额。

基于上述技术方案，算力运行指标检测模块，用于检测计算机GPU算力在业务场景下的实时算力运行指标；利用效率调度模块，是指根据计算机GPU算力在业务场景下的实时运行指标，来自动调整计算机GPU利用效率的调度条件。

基于上述技术方案，GPU资源按需申请单元，具体的是指在计算机执行很多业务的过程中，尤其是在线生产业务并不是要求算力越高越好，且在线业务的负载来自于网络，只要在满足设定的计算延迟目标即可，并不是越快越好，而业务对于显存的使用一般都不是正好把单个GPU的显存用满，单个业务独占GPU会有大量显存空闲，因此相对传统的单个业务来独占使用一个物理GPU，而经过资源池化之后，避免了计算机GPU的资源浪费。

基于上述技术方案，业务动态申请单元，具体的是指目前大多数企业开发投入了大量的GPU资源，而开发人员对GPU的利用往往很不充分，在大量的时间里GPU都是处于闲置状态，而不同的运行模式中GPU资源会被独占地分配到一个运行环境中，即使不使用GPU，该GPU也不能被重新分配利用，从而造成GPU资源被闲置浪费，通过对GPU资源池化处理，来使闲置GPU支持动态进行申请释放，并自动根据调度算法来使用空闲GPU资源。

基于上述技术方案，碎片化使用单元具体的是指在实际场景中会有各种可能导致GPU无法被分配使用的情况，有的业务需求大量的CPU资源、内存资源，会导致某个节点的CPU、内存首先成为瓶颈从而有剩余GPU无法使用；通过GPU资源池化来支持远程使用GPU，从而将剩余GPU资源提供给计算中心的其他业务使用，实现了将碎片化资源进行有效的利用。

基于上述技术方案，资源动态调度单元，具体的是指传统的GPU管理分配模式下，GPU分配给不同的计算机器之后，就无法再干预应用程序对GPU资源的使用和访问，而经过GPU资源池化处理后，因应用程序对GPU的访问和使用会实时经过池化软件的控制路径和数据路径，配合池化软件的支持，从而实现了在满足业务需求的前提下，扩大GPU资源的利用空间。

基于上述技术方案，运维异构配置单元，具体的是指同一个计算机服务器的配置经常会不一样，而这些配置不同的计算机服务器极大提高了运维复杂性，也限制了业务对资源使用的有效性，固定配置的服务器与发展变化的业务是有天然的矛盾的，导致计算机服务器对于GPU资源的有效利用情况也不相同，通过资源池化的GPU资源池能够以整个数据中心作为一层分布式使用模式，可以打破这种物理资源配比，提高运维效率和业务使用资源效率。

基于上述技术方案，同一个计算机服务器的配置不一样的原因有两类，一类是用户主动引入异构配置服务器来为不同的业务选择优化的硬件配置，另外一类是由于历史原因，一些尚未被淘汰的服务器仍然在使用，而服务器的采购、淘汰是对任何企业都是一个相对缓慢的过程。

基于上述技术方案，服务器合理配置单元，具体的是指计算机的GPU服务器不仅是高价值资产，同时也是耗电大户，在安装高配的GPU服务器时，一些数据中心可能因此出现容量不够的情况，通过GPU资源池化，合理的配置GPU服务器和CPU服务器，从而大幅度的减少GPU服务器对基础设施的要求和成本。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高GPU利用效率的算力池化系统，其特征在于：包括最大指标检测模块、配额计算模块、算力运行指标检测模块和利用效率调度模块；其中，利用效率调度模块包括GPU资源按需申请单元、业务动态申请单元、碎片化使用单元、资源动态调度单元、运维异构配置单元和服务器合理配置单元；所述GPU资源按需申请单元是指通过资源池化来避免资源浪费，所述业务动态申请单元是指通过动态申请释放和自动根据调度算法来使用整个计算机的空闲GPU资源，所述碎片化使用单元主要解决实际场景中各种可能导致GPU无法被分配使用的问题；所述资源动态调度单元是指通过经过GPU资源池化来满足业务需求的前提下，扩大GPU的利用效率，所述运维异构配置单元主要解决传统的物理资源配比，提高计算机的运维效率和业务使用资源效率，所述服务器合理配置单元是指通过GPU资源池化来减少对基础设施的要求及成本。

2.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述最大指标检测模块，用于对计算机GPU算力进行自动检测，得到历史最大运行指标；所述配额计算模块，用于根据所述历史最大运行指标，自动确定计算机的GPU算力配额。

3.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述算力运行指标检测模块，用于检测计算机GPU算力在业务场景下的实时算力运行指标；所述利用效率调度模块，是指根据计算机GPU算力在业务场景下的实时运行指标，来自动调整计算机GPU利用效率的调度条件。

4.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述GPU资源按需申请单元，具体的是指在计算机执行很多业务的过程中，尤其是在线生产业务并不是要求算力越高越好，且在线业务的负载来自于网络，只要在满足设定的计算延迟目标即可，并不是越快越好，而业务对于显存的使用一般都不是正好把单个GPU的显存用满，单个业务独占GPU会有大量显存空闲，因此相对传统的单个业务来独占使用一个物理GPU，而经过资源池化之后，避免了计算机GPU的资源浪费。

5.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述业务动态申请单元，具体的是指目前大多数企业开发投入了大量的GPU资源，而开发人员对GPU的利用往往很不充分，在大量的时间里GPU都是处于闲置状态，而不同的运行模式中GPU资源会被独占地分配到一个运行环境中，即使不使用GPU，该GPU也不能被重新分配利用，从而造成GPU资源被闲置浪费，通过对GPU资源池化处理，来使闲置GPU支持动态进行申请释放，并自动根据调度算法来使用空闲GPU资源。

6.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述碎片化使用单元具体的是指在实际场景中会有各种可能导致GPU无法被分配使用的情况，有的业务需求大量的CPU资源、内存资源，会导致某个节点的CPU、内存首先成为瓶颈从而有剩余GPU无法使用；通过GPU资源池化来支持远程使用GPU，从而将剩余GPU资源提供给计算中心的其他业务使用，实现了将碎片化资源进行有效的利用。

7.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述资源动态调度单元，具体的是指传统的GPU管理分配模式下，GPU分配给不同的计算机器之后，就无法再干预应用程序对GPU资源的使用和访问，而经过GPU资源池化处理后，因应用程序对GPU的访问和使用会实时经过池化软件的控制路径和数据路径，配合池化软件的支持，从而实现了在满足业务需求的前提下，扩大GPU资源的利用空间。

8.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述运维异构配置单元，具体的是指同一个计算机服务器的配置经常会不一样，而这些配置不同的计算机服务器极大提高了运维复杂性，也限制了业务对资源使用的有效性，固定配置的服务器与发展变化的业务是有天然的矛盾的，导致计算机服务器对于GPU资源的有效利用情况也不相同，通过资源池化的GPU资源池能够以整个数据中心作为一层分布式使用模式，可以打破这种物理资源配比，提高运维效率和业务使用资源效率。

9.根据权利要求8所述的一种提高GPU利用效率的算力池化系统，其特征在于：同一个计算机服务器的配置不一样的原因有两类，一类是用户主动引入异构配置服务器来为不同的业务选择优化的硬件配置，另外一类是由于历史原因，一些尚未被淘汰的服务器仍然在使用，而服务器的采购、淘汰是对任何企业都是一个相对缓慢的过程。

10.根据权利要求1所述的一种提高GPU利用效率的算力池化系统，其特征在于：所述服务器合理配置单元，具体的是指计算机的GPU服务器不仅是高价值资产，同时也是耗电大户，在安装高配的GPU服务器时，一些数据中心可能因此出现容量不够的情况，通过GPU资源池化，合理的配置GPU服务器和CPU服务器，从而大幅度的减少GPU服务器对基础设施的要求和成本。