CN113806077A

CN113806077A - 基于人工智能的数据中心服务器调控方法及装置

Info

Publication number: CN113806077A
Application number: CN202110962289.5A
Authority: CN
Inventors: 唐佳; 魏瑞; 杨慧
Original assignee: Guangzhou Clouddcs Co ltd
Current assignee: Guangzhou Clouddcs Co ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-17

Abstract

本发明公开了基于人工智能的数据中心服务器调控方法，包括步骤：获取数据中心服务器和平均使用率，建立性能和平均使用率的关系，获取数据中心任务集合和任务期限，根据性能和任务集合进行资源分配，每隔时间间隔T调整任务集合，计算任务的最短运行时间，调整任务运行序列，计算并输出任务执行的时间。本发明实现了动态的服务器调度算法使得任务高效地执行，通过建立使用率和性能的关系，更好地高效分配任务。

Description

基于人工智能的数据中心服务器调控方法及装置

技术领域

本发明涉及服务器调控技术领域，具体涉及基于人工智能的数据中心服务器调控方法及装置。

背景技术

庞大的数据中心的服务器调度一直是一个热门话题，如何高效地调度大量服务器是研究热点，但相关技术中的服务器的调度方法并不完善，在服务器的调度过程中存在安全性极低的技术问题。因此，如何合理配置服务器资源，确保对应电力、制冷设备能够以更好的效率运行，已成为了重要的研究方向之一。

计算机技术内容非常广泛，可粗略分为计算机系统技术、计算机器件技术、计算机部件技术和计算机组装技术等几个方面。计算机技术包括：运算方法的基本原理与运算器设计、指令系统、中央处理器(CPU)设计、流水线原理及其在CPU设计中的应用、存储体系、总线与输入输出。

人工智能是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心，是使计算机具有智能的根本途径。

深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

发明内容

本发明的目的在于提出基于人工智能的数据中心服务器调控方法，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。为实现上述技术目的，本发明技术方案如下：

基于人工智能的数据中心服务器调控方法，所述方法包括以下步骤：

步骤1，获取数据中心服务器平均使用率，建立性能和平均使用率的关系；

步骤2，获取数据中心任务集合和任务期限，根据性能和任务集合进行资源分配；

步骤3，每隔时间间隔T调整任务集合，计算任务的最短运行时间，调整任务运行序列；

步骤4，计算并输出任务执行的时间。

进一步地，步骤1中，获取数据中心服务器和平均使用率，建立性能和平均使用率的关系的子步骤为：

服务器的性能与平均使用率有关，不是简单的线性关系；

建立服务器性能与实时使用率的关系模型，具体如下：

PL(Li)＝exp((-(Li/Li0)-1)^2),

式中，Li0为第i个服务器的最佳使用率，Li为第i个服务器的当前实时使用率，^2是平方操作，PL(Li)为第i个服务器在使用率Li时的性能参数，记函数exp()为以自然常数e为底的指数函数；

所述最佳使用率为服务器在最大能效比时的使用率；

根据历史服务器性能和历史使用率，获得第i个服务器的最佳使用率Li0，最佳使用率Li0是服务器的特征参数。

进一步地，步骤2中，获取数据中心任务集合和任务期限，根据性能和任务集合进行资源分配的子步骤为：

获取初始服务器，任务集合和服务器功能集合，服务器表示为S＝{S1，S2，S3，……，Sn}，任务集合表示为J＝{J1，J2，J3，……，Jm}，服务器功能集合表示为F＝{NETWORK，DISK，CPU，GPU}；

每个服务器有一个服务器功能集合F(Si)＝{NETWORKi，DISKi，CPUi，GPUi}，一个最佳使用率Li0，一个已分配的任务集合TASK(Si)＝{TASK_i1，TASK_i2，TASK_i3，……，TASK_ik}；服务器功能集合F(Si)中的元素NETWORKi，DISKi，CPUi，GPUi分别表示服务器Si使用功能NETWORKi，DISKi，CPUi，GPUi中运行使用对应功能的任务的最佳运行速率，Li0为服务器Si处于最佳运行速率时的使用率，已分配的任务集合TASK(Si)表示第i个服务器已分配的任务，其中k为已分配的任务集合TASK(Si)里的元素数量，表示服务器Si里已分配的任务数量；

设置周期PT和退出时间QT，在退出时间QT之前每隔周期PT获取新的任务，加入现有的任务集合J，执行一次任务分配过程，更新每个服务器的已分配任务集合，其中所述任务Jx有工作量需求REQx和功能需求FUNCTIONx，Jx为第x个任务。

例如，任务集合J为：处理一个三维图像数据的渲染任务，将导入的三维图像数据进行平均分割为多个相同大小的子三维图像数据，对每个三维图像数据的渲染作为一个处理任务Jx，将各个处理任务Jx构成的序列作为任务集合J。

功能需求FUNCTIONx为，服务器是否安装有处理各个处理任务对应的所需要的软件或硬件。

工作量需求REQx为完成任务Jx所需要的CPU处理速度或者为了完成任务所需要消耗的缓存空间或内存空间的大小；

进一步地，步骤3中，每隔时间间隔T调整任务集合，计算任务的最短运行时间，调整任务运行序列的子步骤为：

每隔周期PT，触发任务调控步骤，对于每个服务器Si，构建一个新的任务集合，把所述任务集合加入现有已分配任务序列TASK(Si)，重新执行任务调控步骤；

对于一个服务器Si，初始化任务集合TASK(Si)，根据服务器的运行速率和使用率之间的关系，依次计算服务器Si在不同使用率下的性能参数，性能参数表示服务器在运行任务的实际运行速率与最快完成对应任务的时间之间的比值：MaxPerfi＝{MaxPerfi₁，MaxPerfi₂，MaxPerfi₃，……，MaxPerfi_|TASK(Si)|}，MaxPerfi_j＝PL(Li),

式中，PL(Li)为第i个服务器在执行已分配任务序列TASK(Si)的元素时的性能参数；

对性能参数MaxPerfi进行升序排列；

依次计算服务器Si运行其任务集合TASK(Si)中每个任务的最短时间，构成MinTi集合：

MinTi＝{i₁，i₂，i₃，……，i_|TASK(Si)|}，

i_j＝REQj/F(Si)，

式中，MinTi集合的元素为第i个服务器运行其任务集合TASK(Si)中每个任务的最短时间，REQj为任务j的工作量需求，F(Si)为第i个服务器的最佳运行速率，i_j为第i个服务器执行任务j的最短时间；|TASK(Si)|为取TASK(Si)中处理任务Jx的数量；

对最短时间集合MinTi进行降序排列，根据排序不等式原理，服务器Si在周期PT内最多可以运行的任务数量MaxTask，将任务集合中TASK(Si)的MaxTask个运行时间最短的任务调整到任务集合TASK(Si)的前端，依次对所有服务器进行任务调整。

进一步地，步骤4中，计算并输出任务执行的时间的子步骤为：

若第i个服务器Si的任务集合TASK(Si)为空，则此第i个服务器在周期PT内处于空闲状态；

计算第i个服务器运行任务TASK_ij所需要的时间为：

Tij＝REQj/(Si(FUNCTIONj)×PL(|TASK_ij|))，

式中，REQj为任务j的工作量需求。

基于人工智能的数据中心服务器调控装置，所述装置包括：

任务获取终端：用于与外界交互，获取用户的任务输入，并传输至服务器调度终端；

服务器调度终端：接收任务获取终端的任务输入，生成任务集合，对服务器进行任务调度；

服务器管理终端：负责收集服务器的信息，包括服务器的性能和使用率。

与现有技术相比，本发明具有以下有益的技术效果：

动态的服务器调度算法使得任务高效地执行，通过建立使用率和性能的关系，更好地高效分配任务。

附图说明

为了使本领域的技术人员更好地理解本发明的技术方案，下面通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1为本发明提供的基于人工智能的数据中心服务器调控方法的流程图；

图2为本发明一个实施例的基于人工智能的数据中心服务器调控装置结构示意框图。

具体实施方式

步骤1，获取数据中心服务器和平均使用率，建立性能和平均使用率的关系；

步骤4，计算并输出任务执行的时间。

服务器的性能与平均使用率有关，不是简单的线性关系；

建立服务器性能与实时使用率的关系模型，具体如下：

PL(Li)＝exp((-(Li/Li0)-1)^2),

所述最佳使用率为服务器在最大能效比时的使用率；

进一步地，步骤2中，获取数据中心任务集合，根据性能和任务集合进行资源分配的子步骤为：

设置周期PT和退出时间QT，在退出时间QT之前每隔周期PT获取新的任务，加入现有的任务集合J，执行一次任务分配过程，更新每个服务器的已分配任务集合，其中所述任务Jx有工作量需求REQx和功能需求FUNCTIONx，x为第x个任务。

每隔周期PT，触发以下任务调控步骤，对于每个服务器Si，将计算任务，计算任务为对三维图像的渲染，将三维图像平均分割成为多个子三维图像，对每个三维图像数据的渲染作为一个处理任务Jx，将各个Jx构建一个新的任务集合，把所述任务集合加入现有已分配任务序列TASK(Si)，重新执行任务调控步骤；

式中，PL(Li)为第i个服务器在执行已分配任务序列TASK(Si)的元素时的性能参数，|TASK(Si)|为取TASK(Si)中处理任务Jx的数量；

对性能参数MaxPerfi中各个元素进行升序排列；

MinTi＝{i₁，i₂，i₃，……，i_|TASK(Si)|}，

i_j＝REQj/F(Si)，

式中，MinTi集合的元素为第i个服务器运行其任务集合TASK(Si)中每个任务的最短时间，REQj为任务j的工作量需求，F(Si)为第i个服务器的最佳运行速率，i_j为第i个服务器执行任务j的最短时间；

对最短时间集合MinTi进行降序排列，根据排序不等式原理，统计服务器Si在周期PT内最多可以运行的任务数量MaxTask，将任务集合中TASK(Si)的MaxTask个运行时间最短的任务调整到任务集合TASK(Si)的前端，依次对所有服务器进行任务调整。

计算第i个服务器运行任务TASK_ij所需要的时间为：

Tij＝REQj/(Si(FUNCTIONj)×PL(|TASK_ij|))，

式中，REQj为任务j的工作量需求。

基于人工智能的数据中心服务器调控装置，所述装置包括：

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及实施例，对本发明进行进一步详尽说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

同样应理解，以下实施例只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限制，本领域的技术人员根据本发明上述内容做出的一些非本质的改进和调整均属于本发明的保护范围。下述示例具体的工艺参数等也仅是合适范围内的一个示例，即本领域技术人员可以通过本文的说明做合适的范围内选择，而并非要限定于下文示例的具体数值。

以下示例性地说明本发明提供的基于人工智能的数据中心服务器调控方法。如图1所示为基于人工智能的数据中心服务器调控方法的流程图，下面结合图1来阐述根据本发明的实施方式的基于人工智能的数据中心服务器调控方法，所述方法包括以下步骤：

步骤4，计算并输出任务执行的时间。

如图2所示是本发明一个实施例的基于人工智能的数据中心服务器调控装置结构示意框图；

所述基于基于人工智能的数据中心服务器调控装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述基于人工智能的数据中心服务器调控装置，可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是基于人工智能的数据中心服务器调控装置的示例，并不构成对基于人工智能的数据中心服务器调控装置的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于人工智能的数据中心服务器调控装置还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于人工智能的数据中心服务器调控装置运行系统的控制中心，利用各种接口和线路连接整个基于人工智能的数据中心服务器调控装置可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于人工智能的数据中心服务器调控装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.基于人工智能的数据中心服务器调控方法，其特征在于，所述方法包括以下步骤：

步骤4，计算并输出任务执行的时间。

2.根据权利要求1所述的基于人工智能的数据中心服务器调控方法，其特征在于，步骤1中，获取数据中心服务器和平均使用率，建立性能和平均使用率的关系的子步骤为：

建立服务器性能与实时使用率的关系模型，具体如下：

PL(Li)＝exp((-(Li/Li0)-1)^2),

式中，Li0为第i个服务器的最佳使用率，Li为第i个服务器的当前实时使用率，^2是平方操作，PL(Li)为第i个服务器在使用率Li时的性能参数，函数exp()为以自然常数e为底的指数函数；

3.根据权利要求1所述的基于人工智能的数据中心服务器调控方法，其特征在于，步骤2中，获取数据中心任务集合和任务期限，根据性能和任务集合进行资源分配的子步骤为：

4.根据权利要求1所述的基于人工智能的数据中心服务器调控方法，其特征在于，步骤3中，每隔时间间隔T调整任务集合，计算任务的最短运行时间，调整任务运行序列的子步骤为：

对于一个服务器Si，初始化任务集合TASK(Si)，根据服务器的运行速率和使用率之间的关系，依次计算服务器Si在不同使用率下的性能参数，性能参数表示服务器在运行任务的实际运行速率与最快完成对应任务的时间之间的比值：

MaxPerfi＝{MaxPerfi₁，MaxPerfi₂，MaxPerfi₃，……，MaxPerfi_|TASK(Si)|}，

MaxPerfi_j＝PL(Li),

对性能参数MaxPerfi进行升序排列；

MinTi＝{i₁，i₂，i₃，……，i_|TASK(Si)|}，

i_j＝REQj/F(Si)，

5.根据权利要求1所述的基于人工智能的数据中心服务器调控方法，其特征在于，步骤4中，计算并输出任务执行的时间的子步骤为：

计算第i个服务器运行任务TASK_ij所需要的时间为：

Tij＝REQj/(Si(FUNCTIONj)×PL(|TASK_ij|))，

式中，REQj为任务j的工作量需求。

6.基于人工智能的数据中心服务器调控装置，其特征在于，所述装置包括：