CN111858284A - 一种人工智能服务器的资源监控方法和装置 - Google Patents

一种人工智能服务器的资源监控方法和装置 Download PDF

Info

Publication number
CN111858284A
CN111858284A CN202010724720.8A CN202010724720A CN111858284A CN 111858284 A CN111858284 A CN 111858284A CN 202010724720 A CN202010724720 A CN 202010724720A CN 111858284 A CN111858284 A CN 111858284A
Authority
CN
China
Prior art keywords
gpu
characteristic information
server
running state
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010724720.8A
Other languages
English (en)
Inventor
李磊
王月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010724720.8A priority Critical patent/CN111858284A/zh
Publication of CN111858284A publication Critical patent/CN111858284A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种人工智能服务器的资源监控方法和装置,方法包括:获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;将特征信息格式化为存储到数据库的格式以写入数据库;构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息。本发明能够支持图形化显示并提供充分的统计信息以执行性能分析,实现自动资源监控并解决系统问题。

Description

一种人工智能服务器的资源监控方法和装置
技术领域
本发明涉及监控领域,更具体地,特别是指一种人工智能服务器的资源监控方法和装置。
背景技术
AI(人工智能)服务器是人工智能模型训练和推理的计算载体,在当今的人工智能发展中扮演着重要角色。和通用服务器相比,AI服务器更加注重对计算性能的追求,因为该类型的服务器最主要用于计算数据,而且是异构计算系统。AI服务器除了具有通用的中央处理单元CPU之外,还有例如GPU(图形处理单元)、ASIC(专用集成电路)加速卡、FPGA(现场可编程门阵列)等专门针对大规模并行化矩阵运算而设计的计算加速器;CPU只负责少量的通用类计算,而AI模型训练和推理所需的计算力,主要由这些专用部件来提供。AI服务器比通用服务器在系统结构方面更加复杂,会用到高级通信链路,极大的拓展了系统的设备挂载能力和设备之间的通信能力。AI服务器所采用的主流操作系统为Linux,并且由于主要用于计算而没有显示的需求,操作系统在安装时往往采用文本界面,也就是没有图形化界面。
对于普通消费者来说,最常用的操作系统为Windows,它有一个重要的工具,任务管理器。通过它能够查看系统内运行的所有任务,CPU、内存、磁盘、网络等资源的利用率状态,使用者可以了解计算机的应用程序状态和主要部件的使用情况。但是对于AI服务器来说,这种任务管理器是不能够满足使用需求的。首先,如上所述,AI服务器往往没有图形化界面,无法显示任务管理器界面;其次,AI服务器需要此类工具的意义在于帮助管理员或者使用者进行性能分析,不但需要抓取CPU、内存、磁盘这些部件的利用率,还要抓取计算加速器的利用率、主板与计算板之间的通信带宽,加速器之间的通信带宽等IO数据,综合计算和IO等因素进行分析。
针对现有技术中AI服务器无法图形化显示、性能分析所需统计信息不足的问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种人工智能服务器的资源监控方法和装置,能够支持图形化显示并提供充分的统计信息以执行性能分析,实现自动资源监控并解决系统问题。
基于上述目的,本发明实施例的第一方面提供了一种人工智能服务器的资源监控方法,包括执行以下步骤:
获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;
响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;
将特征信息格式化为存储到数据库的格式以写入数据库;
构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息。
在一些实施方式中,获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,包括:获取目标进程所在的进程树中的所有进程的运行状态作为第一运行状态,并通过操作系统命令获取GPU应用程序中与目标进程相关的进程的运行状态作为第二运行状态。
在一些实施方式中,从服务器自动采集特征信息包括:使用性能监控计数器通过处理器微架构模块的计数功能将在单位时间内接收和/或发送数据的次数转化为接收和/或发送数据的量,以确定实时通信链路传输带宽,其中实时通信链路传输带宽包括计算机互联协议扩展带宽和/或内存带宽。
在一些实施方式中,从服务器自动采集特征信息包括:通过操作系统命令接口和/或状态文件获取控制设备工作状态,其中控制设备工作状态包括处理器利用率、内存利用率、磁盘利用率、处理器频率、磁盘速率、网络带宽、和/或网络延迟。
在一些实施方式中,从服务器自动采集特征信息包括:通过GPU管理工具的应用程序接口获取GPU工作状态,其中GPU工作状态包括:GPU显存利用率、GPU核心利用率、GPU带宽、和/或GPU功耗。
在一些实施方式中,从服务器自动采集特征信息包括:通过人工智能服务器管理接口获取设备温度,其中设备温度包括处理器温度、内存温度、磁盘温度、和/或GPU温度。
在一些实施方式中,从服务器自动采集特征信息包括:通过处理器管理工具应用程序接口获取设备功耗,其中设备功耗包括处理器功耗和/或内存功耗。
在一些实施方式中,方法还包括:将特征信息格式化为存储到数据库的格式以写入数据库的同时,还保存到客户端并由客户端分析特征信息所指示的服务器性能。
本发明实施例的第二方面提供了一种人工智能服务器的资源监控装置,包括:
处理器模块,用于获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;并且还用于将特征信息格式化为存储到数据库的格式以写入数据库;
特征信息采集模块,用于响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;
网页服务器模块,用于构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息。
在一些实施方式中,从服务器自动采集特征信息包括以下至少之一:
使用性能监控计数器通过处理器微架构模块的计数功能将在单位时间内接收和/或发送数据的次数转化为接收和/或发送数据的量,以确定实时通信链路传输带宽,其中实时通信链路传输带宽包括计算机互联协议扩展带宽和/或内存带宽;
通过操作系统命令接口和/或状态文件获取控制设备工作状态,其中控制设备工作状态包括处理器利用率、内存利用率、磁盘利用率、处理器频率、磁盘速率、网络带宽、和/或网络延迟;
通过GPU管理工具的应用程序接口获取GPU工作状态,其中GPU工作状态包括:GPU显存利用率、GPU核心利用率、GPU带宽、和/或GPU功耗;
通过人工智能服务器管理接口获取设备温度,其中设备温度包括处理器温度、内存温度、磁盘温度、和/或GPU温度;
通过处理器管理工具应用程序接口获取设备功耗,其中设备功耗包括处理器功耗和/或内存功耗。
本发明具有以下有益技术效果:本发明实施例提供的人工智能服务器的资源监控方法和装置,通过获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;将特征信息格式化为存储到数据库的格式以写入数据库;构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息的技术方案,能够支持图形化显示并提供充分的统计信息以执行性能分析,实现自动资源监控并解决系统问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的人工智能服务器的资源监控方法的流程示意图;
图2为本发明提供的人工智能服务器的资源监控方法的详细流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够支持图形化显示并提供充分的统计信息以执行性能分析的资源监控方法的一个实施例。图1示出的是本发明提供的人工智能服务器的资源监控方法的流程示意图。
所述的人工智能服务器的资源监控方法,如图1所示,包括执行以下步骤:
步骤S101:获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;
步骤S103:响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;
步骤S105:将特征信息格式化为存储到数据库的格式以写入数据库;
步骤S107:构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,包括:获取目标进程所在的进程树中的所有进程的运行状态作为第一运行状态,并通过操作系统命令获取GPU应用程序中与目标进程相关的进程的运行状态作为第二运行状态。
在一些实施方式中,从服务器自动采集特征信息包括:使用性能监控计数器通过处理器微架构模块的计数功能将在单位时间内接收和/或发送数据的次数转化为接收和/或发送数据的量,以确定实时通信链路传输带宽,其中实时通信链路传输带宽包括计算机互联协议扩展带宽和/或内存带宽。
在一些实施方式中,从服务器自动采集特征信息包括:通过操作系统命令接口和/或状态文件获取控制设备工作状态,其中控制设备工作状态包括处理器利用率、内存利用率、磁盘利用率、处理器频率、磁盘速率、网络带宽、和/或网络延迟。
在一些实施方式中,从服务器自动采集特征信息包括:通过GPU管理工具的应用程序接口获取GPU工作状态,其中GPU工作状态包括:GPU显存利用率、GPU核心利用率、GPU带宽、和/或GPU功耗。
在一些实施方式中,从服务器自动采集特征信息包括:通过人工智能服务器管理接口获取设备温度,其中设备温度包括处理器温度、内存温度、磁盘温度、和/或GPU温度。
在一些实施方式中,从服务器自动采集特征信息包括:通过处理器管理工具应用程序接口获取设备功耗,其中设备功耗包括处理器功耗和/或内存功耗。
在一些实施方式中,方法还包括:将特征信息格式化为存储到数据库的格式以写入数据库的同时,还保存到客户端并由客户端分析特征信息所指示的服务器性能。
下面根据图2所示的具体实施例进一步阐述本发明的具体实施方式。
本发明实施例提供一种AI服务器资源监控和性能分析的系统,系统由服务器端和客户端组成,服务器端为应用X86架构的AI服务器,服务器端由特征信息采集模块、处理器模块、网页服务器模块。
首先,处理器模块获取预定义的目标进程及其子进程的运行状态,通过系统命令获取GPU应用程序的相关进程状态,根据获取的状态结果来判断预定义的目标进程是否存在。
若目标进程存在,特征信息采集模块自动采集特征信息,进一步地本系统采用性能监控计数器代理的方式通过多种方式获取系统的特征数据,具体来讲,性能监控计数器代理利用处理器内部的微架构模块的计数功能,根据寄存器或者缓存的大小,将一定时间内数据的接收或者发送次数转换为数据的发送或者接收量,从而换算成实时传输带宽,包括PCIe(计算机互联协议扩展)带宽、内存带宽。同时,通过读取Linux系统内的/proc/stat中CPU活动信息,转换为CPU实时的利用率情况由于AI服务器可以搭配不同类型的计算加速卡,他们所使用的监控命令有所不同,因此这一部分定义为开放的接口,默认支持最主流的NVIDIA GPU。通过NVIDIA提供的NVML API(应用程序接口),实现对GPU和显存利用率读取,NVLINK通信带宽读取,PCIe带宽读取。此外,通过Linux Shell命令和文本处理工具,获取处理器运行频率、内存使用状态、硬盘带宽等其它特征数据。具体而言,使用turbostat获取处理器频率,使用free–h命令可以读取内存使用情况,使用iostat–xm 2可以读取硬盘实时带宽,然后使用awk和sed截取其中的关键实时数值字段。通过IPMI(智能平台管理接口)获取处理器温度、内存温度、GPU温度及硬盘温度。性能监控计数器代理除了监控上述特征信息之外,还会读取系统的基本配置,例如CPU数量,内存数量,GPU数量,硬件的型号,PCIe、NVLINK等链路的条数及额定带宽。
处理器模块将上述特征信息按照数据库要求的格式写入到数据库文件系统,同时将特征信息保存至本地,带后续分析使用。
最后,网页服务器模块通过javascript读取数据库中的实时特征数据,并将特征信息填充到网页图表中,图表中的显示数据按照指定频率进行刷新展示。
从上述实施例可以看出,本发明实施例提供的人工智能服务器的资源监控方法,通过获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;将特征信息格式化为存储到数据库的格式以写入数据库;构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息的技术方案,能够支持图形化显示并提供充分的统计信息以执行性能分析,实现自动资源监控并解决系统问题。
需要特别指出的是,上述人工智能服务器的资源监控方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于人工智能服务器的资源监控方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够支持图形化显示并提供充分的统计信息以执行性能分析的资源监控装置的一个实施例。人工智能服务器的资源监控装置包括:
处理器模块,用于获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;并且还用于将特征信息格式化为存储到数据库的格式以写入数据库;
特征信息采集模块,用于响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;
网页服务器模块,用于构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息。
在一些实施方式中,从服务器自动采集特征信息包括以下至少之一:
使用性能监控计数器通过处理器微架构模块的计数功能将在单位时间内接收和/或发送数据的次数转化为接收和/或发送数据的量,以确定实时通信链路传输带宽,其中实时通信链路传输带宽包括计算机互联协议扩展带宽和/或内存带宽;
通过操作系统命令接口和/或状态文件获取控制设备工作状态,其中控制设备工作状态包括处理器利用率、内存利用率、磁盘利用率、处理器频率、磁盘速率、网络带宽、和/或网络延迟;
通过GPU管理工具的应用程序接口获取GPU工作状态,其中GPU工作状态包括:GPU显存利用率、GPU核心利用率、GPU带宽、和/或GPU功耗;
通过人工智能服务器管理接口获取设备温度,其中设备温度包括处理器温度、内存温度、磁盘温度、和/或GPU温度;
通过处理器管理工具应用程序接口获取设备功耗,其中设备功耗包括处理器功耗和/或内存功耗。
从上述实施例可以看出,本发明实施例提供的人工智能服务器的资源监控装置,通过获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据第一运行状态和第二运行状态判断目标进程是否存在;响应于目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;将特征信息格式化为存储到数据库的格式以写入数据库;构建网页,并使用javascript周期性地从数据库中读取特征信息覆盖性地填入网页中以可视化地展示和刷新特征信息的技术方案,能够支持图形化显示并提供充分的统计信息以执行性能分析,实现自动资源监控并解决系统问题。
需要特别指出的是,上述人工智能服务器的资源监控装置的实施例采用了所述人工智能服务器的资源监控方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述人工智能服务器的资源监控方法的其他实施例中。当然,由于所述人工智能服务器的资源监控方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述人工智能服务器的资源监控装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种人工智能服务器的资源监控方法,其特征在于,包括执行以下步骤:
获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据所述第一运行状态和所述第二运行状态判断所述目标进程是否存在;
响应于所述目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,所述特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;
将所述特征信息格式化为存储到数据库的格式以写入所述数据库;
构建网页,并使用javascript周期性地从所述数据库中读取所述特征信息,覆盖性地填入所述网页中以可视化地展示和刷新所述特征信息。
2.根据权利要求1所述的方法,其特征在于,获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,包括:
获取所述目标进程所在的进程树中的所有进程的运行状态作为所述第一运行状态,并通过操作系统命令获取GPU应用程序中与所述目标进程相关的进程的运行状态作为所述第二运行状态。
3.根据权利要求1所述的方法,其特征在于,从所述服务器自动采集特征信息包括:
使用所述性能监控计数器通过处理器微架构模块的计数功能将在单位时间内接收和/或发送数据的次数转化为接收和/或发送数据的量,以确定所述实时通信链路传输带宽,其中所述实时通信链路传输带宽包括计算机互联协议扩展带宽和/或内存带宽。
4.根据权利要求1所述的方法,其特征在于,从所述服务器自动采集特征信息包括:
通过操作系统命令接口和/或状态文件获取所述控制设备工作状态,其中所述控制设备工作状态包括处理器利用率、内存利用率、磁盘利用率、处理器频率、磁盘速率、网络带宽、和/或网络延迟。
5.根据权利要求1所述的方法,其特征在于,从所述服务器自动采集特征信息包括:
通过GPU管理工具的应用程序接口获取所述GPU工作状态,其中所述GPU工作状态包括:GPU显存利用率、GPU核心利用率、GPU带宽、和/或GPU功耗。
6.根据权利要求1所述的方法,其特征在于,从所述服务器自动采集特征信息包括:
通过人工智能服务器管理接口获取所述设备温度,其中所述设备温度包括处理器温度、内存温度、磁盘温度、和/或GPU温度。
7.根据权利要求1所述的方法,其特征在于,从所述服务器自动采集特征信息包括:
通过处理器管理工具应用程序接口获取所述设备功耗,其中所述设备功耗包括处理器功耗和/或内存功耗。
8.根据权利要求1所述的方法,其特征在于,还包括:将所述特征信息格式化为存储到数据库的格式以写入所述数据库的同时,还保存到客户端并由客户端分析所述特征信息所指示的服务器性能。
9.一种人工智能服务器的资源监控装置,其特征在于,包括:
处理器模块,用于获取预定义的目标进程的第一运行状态和GPU应用程序的第二运行状态,并根据所述第一运行状态和所述第二运行状态判断所述目标进程是否存在;并且还用于将所述特征信息格式化为存储到数据库的格式以写入所述数据库;
特征信息采集模块,用于响应于所述目标进程存在,而使用性能监控计数器从服务器自动采集特征信息,所述特征信息包括以下至少之一:实时通信链路传输带宽、控制设备工作状态、GPU工作状态、设备温度、设备功耗;
网页服务器模块,用于构建网页,并使用javascript周期性地从所述数据库中读取所述特征信息覆盖性地填入所述网页中以可视化地展示和刷新所述特征信息。
10.根据权利要求9所述的装置,其特征在于,从所述服务器自动采集特征信息包括以下至少之一:
使用所述性能监控计数器通过处理器微架构模块的计数功能将在单位时间内接收和/或发送数据的次数转化为接收和/或发送数据的量,以确定所述实时通信链路传输带宽,其中所述实时通信链路传输带宽包括计算机互联协议扩展带宽和/或内存带宽;
通过操作系统命令接口和/或状态文件获取所述控制设备工作状态,其中所述控制设备工作状态包括处理器利用率、内存利用率、磁盘利用率、处理器频率、磁盘速率、网络带宽、和/或网络延迟;
通过GPU管理工具的应用程序接口获取所述GPU工作状态,其中所述GPU工作状态包括:GPU显存利用率、GPU核心利用率、GPU带宽、和/或GPU功耗;
通过人工智能服务器管理接口获取所述设备温度,其中所述设备温度包括处理器温度、内存温度、磁盘温度、和/或GPU温度;
通过处理器管理工具应用程序接口获取所述设备功耗,其中所述设备功耗包括处理器功耗和/或内存功耗。
CN202010724720.8A 2020-07-24 2020-07-24 一种人工智能服务器的资源监控方法和装置 Withdrawn CN111858284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724720.8A CN111858284A (zh) 2020-07-24 2020-07-24 一种人工智能服务器的资源监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724720.8A CN111858284A (zh) 2020-07-24 2020-07-24 一种人工智能服务器的资源监控方法和装置

Publications (1)

Publication Number Publication Date
CN111858284A true CN111858284A (zh) 2020-10-30

Family

ID=72949553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724720.8A Withdrawn CN111858284A (zh) 2020-07-24 2020-07-24 一种人工智能服务器的资源监控方法和装置

Country Status (1)

Country Link
CN (1) CN111858284A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381244A (zh) * 2020-11-16 2021-02-19 国网辽宁省电力有限公司辽阳供电公司 基于d5000电网调度系统的资源实时监测方法
CN112787855A (zh) * 2020-12-29 2021-05-11 中国电力科学研究院有限公司 一种面向广域分布式服务的主备管理系统及管理方法
CN115065525A (zh) * 2022-06-10 2022-09-16 苏州浪潮智能科技有限公司 一种基于人工智能算法的数据传输及存储的方法和装置
CN115878432A (zh) * 2023-02-16 2023-03-31 支付宝(杭州)信息技术有限公司 一种计算系统中的进程监控方法及相关设备
CN116401138A (zh) * 2023-06-08 2023-07-07 建信金融科技有限责任公司 操作系统的运行状态检测方法、装置、电子设备和介质
WO2024055663A1 (zh) * 2022-09-14 2024-03-21 华为云计算技术有限公司 一种数据库的性能监控方法及相关系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381244A (zh) * 2020-11-16 2021-02-19 国网辽宁省电力有限公司辽阳供电公司 基于d5000电网调度系统的资源实时监测方法
CN112787855A (zh) * 2020-12-29 2021-05-11 中国电力科学研究院有限公司 一种面向广域分布式服务的主备管理系统及管理方法
CN115065525A (zh) * 2022-06-10 2022-09-16 苏州浪潮智能科技有限公司 一种基于人工智能算法的数据传输及存储的方法和装置
WO2024055663A1 (zh) * 2022-09-14 2024-03-21 华为云计算技术有限公司 一种数据库的性能监控方法及相关系统
CN115878432A (zh) * 2023-02-16 2023-03-31 支付宝(杭州)信息技术有限公司 一种计算系统中的进程监控方法及相关设备
CN115878432B (zh) * 2023-02-16 2023-05-12 支付宝(杭州)信息技术有限公司 一种计算系统中的进程监控方法及相关设备
CN116401138A (zh) * 2023-06-08 2023-07-07 建信金融科技有限责任公司 操作系统的运行状态检测方法、装置、电子设备和介质
CN116401138B (zh) * 2023-06-08 2023-09-15 建信金融科技有限责任公司 操作系统的运行状态检测方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN111858284A (zh) 一种人工智能服务器的资源监控方法和装置
US11755452B2 (en) Log data collection method based on log data generated by container in application container environment, log data collection device, storage medium, and log data collection system
US10116534B2 (en) Systems and methods for WebSphere MQ performance metrics analysis
US20130081001A1 (en) Immediate delay tracker tool
CN115277566B (zh) 数据访问的负载均衡方法、装置、计算机设备及介质
CN112486789A (zh) 一种日志分析系统、方法及装置
CN112051771B (zh) 多云数据采集方法、装置、计算机设备和存储介质
CN112527600A (zh) 监控日志处理方法、装置、设备及存储介质
CN113590437A (zh) 一种告警信息处理方法、装置、设备和介质
CN110096339B (zh) 一种基于系统负载实现的扩缩容配置推荐系统及方法
CN110347546B (zh) 监控任务动态调整方法、装置、介质及电子设备
CN115202973A (zh) 应用运行状态的确定方法、装置、电子设备和介质
CN114238335A (zh) 一种埋点数据生成方法及其相关设备
CN114860563A (zh) 应用程序测试方法、装置、计算机可读存储介质及设备
CN111858070A (zh) 计算资源配置方法、装置、设备以及存储介质
CN104375924A (zh) 基于Flex技术的拓扑监控系统
CN114448976B (zh) 网络报文的组装方法、装置、设备、介质和程序产品
KR20030041612A (ko) 서버 병목을 실시간으로 분석하는 방법
CN116882724B (zh) 一种业务流程优化方案的生成方法、装置、设备及介质
CN112948206B (zh) 基于云计算的时序日志管理系统及包含该系统的电子设备
CN106130807A (zh) 一种Nginx日志的提取和分析方法及装置
CN109923846B (zh) 确定热点地址的方法及其设备
CN117176622A (zh) 跨idc访问的网络流量监控方法、系统、设备及存储介质
CN117389852A (zh) 获取日志信息的方法、装置、电子设备及可读存储介质
CN117827616A (zh) 一种系统性能数据的监测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201030