CN116594782A

CN116594782A - 基于智能运维系统的勘探数据中心的资源管理方法及装置

Info

Publication number: CN116594782A
Application number: CN202310855632.5A
Authority: CN
Inventors: 贾德利; 张向阳; 刘树仁; 李长春; 李书平; 张谦; 王西林
Original assignee: Petrochina Co Ltd
Current assignee: Petrochina Co Ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-08-15

Abstract

本公开提出一种基于智能运维系统的勘探数据中心的资源管理方法及装置，适用于勘探超算技术领域，可以解决勘探数据中心的资源过度占用和/或不足的问题，可提高勘探数据中心的资源利用率、运行效率和可靠性。该方案包括：获取勘探数据中心的设备运行状态，设备运行状态包括勘探数据中心中的各设备的可用状态和资源占用情况；获取勘探数据中心的资源分配信息，资源分配信息包括勘探数据中心为各个用户分配的资源的种类和数据量；根据设备运行状态和资源分配信息，确定勘探数据中心的资源利用率，资源利用率用于表征勘探数据中心中的各种资源的利用情况；基于资源利用率，确定勘探数据中心的资源调度策略。

Description

基于智能运维系统的勘探数据中心的资源管理方法及装置

技术领域

本公开属于勘探超算技术领域，特别涉及一种基于智能运维系统的勘探数据中心的资源管理方法及装置。

背景技术

勘探超算中心不同于传统数据中心，内部有图形处理器（Graphic ProcessingUnit，GPU）集群系统、中央处理器（Central Processing Unit，CPU）集群系统、高性能集群存储系统、互联网（Internet Protocol，IP）和无限带宽（Infiniband，IB）双核心网络系统，有着完备的高低压供电系统、不间断电源（Uninterruptible Power System，UPS）系统、空调及空气净化系统、消防系统、安防及动力环境监控系统等。

随着新技术尤其是开源技术的发展，各类平台已从传统的客户端/服务器（Client/Server，C/S）架构发展到浏览器/服务器（Browser/Server，B/S）架构，走开源平台开发路线，微服务架构、容器架构方便更新与扩容；同时国内石油勘探的发展，数据处理规模持续扩大，对计算机资源的需求持续增大，高强度运行负荷也增大了设备故障率。

发明内容

本公开提出一种基于智能运维系统的勘探数据中心的资源管理方法及装置，能够解决勘探数据中心的不同用户之间的资源过度占用和/或资源不足的问题，从而提高勘探数据中心的资源利用率和运行效率，且可以降低故障率，从而提高勘探数据中心的运行可靠性。

针对上述问题，本公开采用如下技术方案：

第一方面，提供一种基于智能运维系统的勘探数据中心的资源管理方法，该方法包括：获取勘探数据中心的设备运行状态，设备运行状态包括勘探数据中心中的各设备的可用状态和资源占用情况；

获取勘探数据中心的资源分配信息，资源分配信息包括勘探数据中心为各个用户分配的资源的种类和数据量；

根据设备运行状态和资源分配信息，确定勘探数据中心的资源利用率，资源利用率用于表征勘探数据中心中的各种资源的利用情况；

基于资源利用率，确定勘探数据中心的资源调度策略。

可选地，资源调度策略包括：

释放资源利用率低于第一利用率阈值的第一用户的部分或全部资源；

为资源利用率高于第二利用率阈值的第二用户增加资源；其中，

第一利用率阈值小于第二利用率阈值。

进一步地，释放资源利用率低于第一利用率阈值的第一用户的部分资源，包括：

释放为第一用户分配的部分资源，使得第一用户的剩余资源的资源利用率大于第一利用率阈值，且小于第二利用率阈值。

进一步地，为资源利用率高于第二利用率阈值的第二用户增加资源，包括：

为第二用户增加资源，使得为第二用户分配的总资源的资源利用率大于第一利用率阈值，且小于第二利用率阈值。

第二方面，提供一种基于智能运维系统的勘探数据中心的资源管理装置，包括：获取模块和处理模块；其中，

获取模块，用于获取勘探数据中心的设备运行状态，设备运行状态包括勘探数据中心中的各设备的可用状态和资源占用情况；

获取模块，还用于获取勘探数据中心的资源分配信息，资源分配信息包括勘探数据中心为各个用户分配的资源的种类和数据量；

处理模块，用于根据设备运行状态和资源分配信息，确定勘探数据中心的资源利用率，资源利用率用于表征勘探数据中心中的各种资源的利用情况；

处理模块，还用于基于资源利用率，确定勘探数据中心的资源调度策略。

可选地，处理模块，还用于释放资源利用率低于第一利用率阈值的第一用户的部分或全部资源，以及为资源利用率高于第二利用率阈值的第二用户增加资源；其中，

第一利用率阈值小于第二利用率阈值。

进一步地，处理模块，还用于释放为第一用户分配的部分资源，使得第一用户的剩余资源的资源利用率大于第一利用率阈值，且小于第二利用率阈值。

进一步地，处理模块，还用于为第二用户增加资源，使得为第二用户分配的总资源的资源利用率大于第一利用率阈值，且小于第二利用率阈值。

第三方面，提供一种基于智能运维系统的勘探数据中心的资源管理装置，包括：处理器，处理器与存储器耦合；

其中，处理器用于读取并执行存储器存储的程序或指令，使得装置执行第一方面所述的基于智能运维系统的勘探数据中心的资源管理方法。

第四方面，提供一种计算机可读存储介质，存储有程序或指令，当计算机读取并执行程序或指令时，使得计算机执行第一方面所述的基于智能运维系统的勘探数据中心的资源管理方法。

基于本公开提供的基于智能运维系统的勘探数据中心的资源管理方法及装置，可以根据勘探数据中心的设备运行状态和资源分配信息，计算资源利用率，并根据资源利用率调整资源调度策略，以释放资源占有量超过自身需求的用户的部分资源给其他用户使用，可以在高强度运行负荷场景下，尽可能降低不同用户之间占用的资源不平衡的问题，从而提高勘探数据中心的资源利用率和运行效率，且可以降低因资源不足而发生故障的概率，从而提高勘探数据中心的运行可靠性。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的基于智能运维系统的勘探数据中心的系统结构图；

图2为本公开实施例提供的可适用于基于智能运维系统的勘探数据中心的机器学习模型的训练样本集的构建示意图；

图3为本公开实施例提供的一种资源调度策略的示意图；

图4为本公开实施例提供的一种基于智能运维系统的勘探数据中心的资源管理方法的流程示意图；

图5为本公开实施例提供的一种基于智能运维系统的勘探数据中心的资源管理装置的结构示意图；

图6为本公开实施例提供的另一种基于智能运维系统的勘探数据中心的资源管理装置的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

示例性地，图1为本公开实施例提供的基于智能运维系统的勘探数据中心的系统结构图。如图1所示，该勘探数据中心包括：

A、数据采集层

通过在机房内部署各种传感器、采集设备，以及服务器操作系统级别信息采集措施等，以采集勘探数据中心的各种设备的运行状态，以及勘探数据中心的各种资源的分配信息。其中，所述各种设备可以包括但不限于：计算设备、存储设备、网络设备、UPS、蓄电池、配电设备、空调等，所述各种资源包括但不限于：计算资源（如CPU、GPU）、存储资源、网络资源等。此外还可以采集机房的环境信息，包括但不限于：温度、湿度、漏水、气压、光照强度等。

需要说明的是，上述各种设备的运行状态主要从设备角度出发，评估各种设备的运行状态（正常/故障、忙/空闲）、该各种设备可提供的资源的种类和数量、已经分配出去的各种资源（被占用资源）的种类和数量，以及可分配出去的各种资源（空闲资源）的种类和数量，资源分配信息主要以用户角度出发，统计勘探数据中心为各个用户分配的各种资源的数量。

数据采集层主要完成对服务器、存储、网络设备、基础设施的数据采集功能；可以采用相关技术（如智能化轮询技术）实现，既保证能察觉异常，又能确保小的系统开销，不影响科研生产运算任务。

现场采集设备采用工业级硬件设计，具备多层防护功能；具备良好的接地及电磁兼容性设计，可有效避免电磁干扰，保证数据及报警准确；高度集成化，内置绝大多数通用采集协议，可随时根据需求进行协议扩展；物理接口种类丰富（包括但不限于：RS232、RS485、DI、DO、AI、红外发射等），无需外置转换模块即可实现各类数据的采集及现场设备的控制；具备数据处理、数据过滤及数据缓存功能，以降低上层平台的运算负担，并在出现突发状况时（例如网络中断），保障采集数据的完整性。现场采集设备采用分布式部署方案，任一设备故障不会影响其他设备的正常工作。数据采集层将数据信息上传至数据处理层中的集中监控子系统，同时接受集中监控子系统的管控。

B、数据处理层

主要对采集到的数据进行统一的存储、处理与分析，将处理结果直接上传接入统一数据门户，通过拓扑图，告警界面，报表系统等形式的统一展示，以及传输给基于智能运维系统的管理层，以便对该管理层根据处理结果确定资源的调度策略。

数据处理层主要负责将下层设备上传的各种采集数据进行处理、分析、存储、展示及上传，处理所有的告警信息，记录告警事件，并发送告警通知。数据处理层通常具有强大的数据处理能力，实现各种数据分析、数据管理、告警管理、报表管理、权限管理、日志管理和组态配置等功能。可通过标准通讯协议，将处理后的数据上传至上层的统一访问门户和基于智能运维系统的管理层。

C、统一访问门户

通过实时变化的数据页面，向用户及管理人员展示勘探数据中心的整体运行情况及各个设备的详细运行状态。

勘探数据中心支持多种告警通知方式，包括但不限于：现场语音、声光、短信、电话、APP等。在告警产生时，可及时有效的通知运维人员。并且提供WEB浏览器及移动终端访问方式，便于运维人员随时随地了解机房的工作状况。同时，匹配相应的权限可以进行设备控制及系统配置修改等操作。

D、基于智能运维系统的管理层

基于智能运维系统的管理层主要用于根据数据处理层提供的数据分析结果，对勘探数据中心所属的各种资源进行调度。以勘探数据中心中的勘探超算服务器为例，可以综合勘探超算服务器资源占用特点及故障高发部件，对勘探超算服务器的资源占有情况进行预测，并基于预测结果调整资源调度策略。

具体地，可以基于机器学习算法，对勘探数据中心的各种资源进行预测。例如，针对CPU（CPU利用率、CPU 10分钟内平均负载、运行进程CPU使用率）、内存（内存利用率、Swap利用率）、IO（IO读取速率、IO写入速率、平均IO使用率）、温度（CPU温度、主板温度）、文件系统（静态目录使用空间、临时目录使用空间）、NFS服务状态（网络流入流量、网络流出流量、NFS连接次数、df -h运行速度）几类参数作为KPI属性，将这几个特征作为训练集。

示例性地，图2为本公开实施例提供的可适用于基于智能运维系统的勘探数据中心的机器学习模型的训练样本集的构建示意图。如图2所示，根据勘探超算服务器运行特点，将其运行状态划分为非常健康、健康、良好、带病运行、故障等几个类别，用支持向量机对故障原因进行分析。将多类问题转换为二分类，其中一类归为第一类样本，剩余的归为第二类样本。因此，样本的种类决定有多少个支持向量机，每个T对应一个类别，建立向量机是每次拿出一个类别，其余的类别组成一个对应组合，如此可划出n个向量机SVM1至SVMn。对测试样本进行判断时，测试样本依次进入每个分类器，按照分类的超平面函数计算出一个值m(x)。决策的规则是按照最大的m(x)值对应的支持向量机的比例作为输出的类别。

通过分析历史数据，预测未来一段时间趋势、获得动态阈值。可以通过合适的机器学习算法，如统计类、时间序列分解类、随机森林等，对历史数据进行指标聚类、指标分布预测、相似曲线识别和异常区间对比等操作。通过对基础设施的历史数据的洞察分析，优化基础设施资源，通过识别资源使用瓶颈来减少过度配置，提高资源利用率。

然后，基于智能运维系统的资源管理层可以结合各种设备的运行状态及项目组分配使用情况，进行资源智能调度。包括：集群设备管理，管理计算机设备信息、配置、具体分配给某个项目组信息；资源应用监控，计算机的CPU、内存相关资源的实时运行状态；项目组占用资源实时利用率计算，以及智能分配算法。

示例性地，图3为本公开实施例提供的一种资源调度策略的示意图。如图3所示，把历史数据集中按照负载特征分类，使用新的分配策略判别其类别，如服务器CPU、服务器内存、服务器IO、NFS服务状态等，进而用该类别的平均负载特征来表征新分配算法的负载特征，并采用机器学习中的聚类方法，结合资源申请信息和历史数据，进行分类方式的聚类。然后，基于聚类结果与资源本身的分类结果结合，根据资源申请信息和预测信息，确定调整资源调度策略，如对资源执行增加、删除、修改以及配置和调度等操作。

之后，基于智能运维系统的资源管理层可以向管理对象（即上文所述具有各种资源的设备）下发资源调度策略，以更新各管理对象的配置信息，从而完成资源调度。

示例性地，图4为本公开实施例提供的一种基于智能运维系统的勘探数据中心的资源管理方法的流程示意图。如图4所示，该方法包括：

S401，获取勘探数据中心的设备运行状态。

其中，设备运行状态包括勘探数据中心中的各设备的可用状态和资源占用情况。所述各设备包括但不限于勘探数据中心部署的计算设备、存储设备、网络设备、蓄电池、UPS、空调等，各设备的可用状态可以包括如下之一：非常健康、健康、良好、带病运行、故障几个类别，各设备的资源占用情况可以包括上述各设备所具有的各种资源的种类和数量、已分配资源的种类和数量，以及可分配资源的种类和数量。

具体地，可以由数据采集层通过设置的各种传感器以及各种技术措施采集上述设备运行状态，并上报给数据处理层。

需要说明的是，步骤S402主要用于从设备角度出发，统计各设备的运行状态、资源总量和资源分配情况，以便为后续计算各种资源的资源利用率做准备。

S402，获取勘探数据中心的资源分配信息。

其中，资源分配信息包括勘探数据中心为各个用户分配的资源的种类和数据量。例如，为各个用户分配的计算资源、存储资源、网络资源的数量。

具体采集、上报方式与S401类似，但与S401不同，S402主要用于从用户角度采集各种已分配资源的分配信息。

S403，根据设备运行状态和资源分配信息，确定勘探数据中心的资源利用率。

其中，资源利用率用于表征勘探数据中心中的各种资源的利用情况。具体地，既可以从设备角度出发，计算每个设备的每种资源的资源利用率，也可以从用户角度出发，计算为每个用户分配的每种资源的资源利用率。其中，从设备角度出发的资源利用率用于从资源提供方评估该设备可提供的空闲资源的种类和数量，从用户角度出发的资源利用率用于从资源消费方评估为该用户分配的各种资源的种类和数量，以及该用户还需要分配的资源的种类和数量，或者该用户可以释放的资源的种类和数量，以便供资源调度层在制定资源调度策略时参考。

S404，基于资源利用率，确定勘探数据中心的资源调度策略。

可选地，资源调度策略包括：

释放资源利用率低于第一利用率阈值的第一用户的部分资源；

为资源利用率高于第二利用率阈值的第二用户增加资源；其中，第一利用率阈值小于第二利用率阈值。

其中，第一利用率阈值和第二利用率阈值可以根据各用户的实际需求设置，本公开实施例不予限制。例如，第一利用率阈值可以为10%、15%等较小值，而第二利用率阈值可以为85%、90%等较大值。

资源利用率低于第一利用率阈值，表明为第一用户分配的资源的利用率较低，造成大量资源因闲置而浪费（过度占用），资源未能得到有效利用，此时可以考虑释放为第一用户分配的部分资源。

资源利用率高于第二利用率阈值，表明为第二用户分配的资源的资源利用率较高，存在不能满足第二用户的实际需求的风险（资源瓶颈）。为降低该风险，第一用户被释放掉的部分资源可以为其他资源不足的用户，如第二用户所用，以提高勘探数据中心的资源利用率。

也就是说，无论是过度占用资源的用户，还是存在资源瓶颈，需要增加资源的用户，在重新分配和调度资源后，每个用户所拥有的各类资源仍然能满足各自的业务需求，可以确保各用户不会因资源短缺而影响业务正常执行，又可以保留一定的资源余量以进一步提高业务处理效率，从而进一步提高客户数据中心的整体运营效率和可靠性。

需要说明的是，可以按照资源种类分别设置多种利用率阈值，如计算资源的利用率阈值、存储资源的利用率阈值、网络资源的利用率阈值等，并基于该每种资源的利用率阈值，实现该种资源的重新调度和分配。

基于本公开实施例提供的基于智能运维系统的勘探数据中心的资源管理方法及装置，可以根据勘探数据中心的设备运行状态和资源分配信息，计算资源利用率，并根据资源利用率调整资源调度策略，以释放资源占有量超过自身需求的用户的部分资源给其他用户使用，可以在高强度运行负荷场景下，尽可能降低不同用户之间占用的资源不平衡的问题，从而提高勘探数据中心的资源利用率和运行效率，且可以降低因资源不足而发生故障的概率，从而提高勘探数据中心的运行可靠性。

上面结合图1-图4详细说明了本公开实施例提供的基于智能运维系统的勘探数据中心的资源管理方法，下面结合图5和图6说明本公开实施例提供的基于智能运维系统的勘探数据中心的资源管理装置。

示例性地，图5为本公开实施例提供的一种基于智能运维系统的勘探数据中心的资源管理装置500的结构示意图。如图5所示，装置500包括：获取模块501和处理模块502；其中，

获取模块501，用于获取勘探数据中心的设备运行状态，设备运行状态包括勘探数据中心中的各设备的可用状态和资源占用情况；

获取模块501，还用于获取勘探数据中心的资源分配信息，资源分配信息包括勘探数据中心为各个用户分配的资源的种类和数据量；

处理模块502，用于根据设备运行状态和资源分配信息，确定勘探数据中心的资源利用率，资源利用率用于表征勘探数据中心中的各种资源的利用情况；

处理模块502，还用于基于资源利用率，确定勘探数据中心的资源调度策略。

可选地，处理模块502，还用于释放资源利用率低于第一利用率阈值的第一用户的部分或全部资源，以及为资源利用率高于第二利用率阈值的第二用户增加资源；其中，

第一利用率阈值小于第二利用率阈值。

进一步地，处理模块502，还用于释放为第一用户分配的部分资源，使得第一用户的剩余资源的资源利用率大于第一利用率阈值，且小于第二利用率阈值。

进一步地，处理模块502，还用于为第二用户增加资源，使得为第二用户分配的总资源的资源利用率大于第一利用率阈值，且小于第二利用率阈值。

示例性地，图6为本公开提供另一种基于智能运维系统的勘探数据中心的资源管理装置的结构示意图。如图6所示，该装置包括：处理器601，处理器601与存储器602耦合；

其中，处理器601用于读取并执行存储器602存储的程序或指令，使得装置600执行上述方法实施例所述的基于智能运维系统的勘探数据中心的资源管理方法。

可选地，装置600还可以包括收发器603，用于装置600与其他装置通信。

需要说明的是，为了便于说明，图5和图6仅示出了基于智能运维系统的勘探数据中心的资源管理装置的主要部件。实际应用中，基于智能运维系统的勘探数据中心的资源管理装置还可能包括图中未示出的部件或组件。

本公开实施例还提供一种计算机可读存储介质，该介质存储有程序或指令，当计算机读取并执行程序或指令时，使得计算机执行上述方法实施例所述的基于智能运维系统的勘探数据中心的资源管理方法。

尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

1.一种基于智能运维系统的勘探数据中心的资源管理方法，其特征在于，包括：

获取勘探数据中心的设备运行状态，所述设备运行状态包括所述勘探数据中心中的各设备的可用状态和资源占用情况；

获取所述勘探数据中心的资源分配信息，所述资源分配信息包括所述勘探数据中心为各个用户分配的资源的种类和数据量；

根据所述设备运行状态和所述资源分配信息，确定所述勘探数据中心的资源利用率，所述资源利用率用于表征所述勘探数据中心中的各种资源的利用情况；

基于所述资源利用率，确定所述勘探数据中心的资源调度策略。

2.根据权利要求1所述的方法，其特征在于，所述资源调度策略包括：

释放所述资源利用率低于第一利用率阈值的第一用户的部分资源；

为所述资源利用率高于第二利用率阈值的第二用户增加资源；其中，

所述第一利用率阈值小于所述第二利用率阈值。

3.根据权利要求2所述的方法，其特征在于，所述释放所述资源利用率低于第一利用率阈值的第一用户的部分资源，包括：

释放为所述第一用户分配的部分资源，使得所述第一用户的剩余资源的资源利用率大于所述第一利用率阈值，且小于所述第二利用率阈值。

4.根据权利要求2所述的方法，其特征在于，所述为所述资源利用率高于第二利用率阈值的第二用户增加资源，包括：

为所述第二用户增加资源，使得为所述第二用户分配的总资源的资源利用率大于所述第一利用率阈值，且小于所述第二利用率阈值。

5.一种基于智能运维系统的勘探数据中心的资源管理装置，其特征在于，包括：获取模块和处理模块；其中，

所述获取模块，用于获取勘探数据中心的设备运行状态，所述设备运行状态包括所述勘探数据中心中的各设备的可用状态和资源占用情况；

所述获取模块，还用于获取所述勘探数据中心的资源分配信息，所述资源分配信息包括所述勘探数据中心为各个用户分配的资源的种类和数据量；

所述处理模块，用于根据所述设备运行状态和所述资源分配信息，确定所述勘探数据中心的资源利用率，所述资源利用率用于表征所述勘探数据中心中的各种资源的利用情况；

所述处理模块，还用于基于所述资源利用率，确定所述勘探数据中心的资源调度策略。

6.根据权利要求5所述的装置，其特征在于，

所述处理模块，还用于释放所述资源利用率低于第一利用率阈值的第一用户的部分资源，以及为所述资源利用率高于第二利用率阈值的第二用户增加资源；其中，

所述第一利用率阈值小于所述第二利用率阈值。

7.根据权利要求6所述的装置，其特征在于，

所述处理模块，还用于释放为所述第一用户分配的部分资源，使得所述第一用户的剩余资源的资源利用率大于所述第一利用率阈值，且小于所述第二利用率阈值。

8.根据权利要求6所述的装置，其特征在于，

所述处理模块，还用于为所述第二用户增加资源，使得为所述第二用户分配的总资源的资源利用率大于所述第一利用率阈值，且小于所述第二利用率阈值。

9.一种基于智能运维系统的勘探数据中心的资源管理装置，其特征在于，包括：处理器，所述处理器与存储器耦合；

其中，所述处理器用于读取并执行所述存储器存储的程序或指令，使得所述装置执行如权利要求1-4中任一项所述的基于智能运维系统的勘探数据中心的资源管理方法。

10.一种计算机可读存储介质，其特征在于，存储有程序或指令，当计算机读取并执行所述程序或指令时，使得所述计算机执行如权利要求1-4中任一项所述的基于智能运维系统的勘探数据中心的资源管理方法。