CN115733731A - 一种云主机中gpu监控方法、装置、宿主机和存储介质 - Google Patents

一种云主机中gpu监控方法、装置、宿主机和存储介质 Download PDF

Info

Publication number
CN115733731A
CN115733731A CN202211450683.1A CN202211450683A CN115733731A CN 115733731 A CN115733731 A CN 115733731A CN 202211450683 A CN202211450683 A CN 202211450683A CN 115733731 A CN115733731 A CN 115733731A
Authority
CN
China
Prior art keywords
gpu
monitoring
data
cloud host
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211450683.1A
Other languages
English (en)
Inventor
张连法
苏海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN202211450683.1A priority Critical patent/CN115733731A/zh
Publication of CN115733731A publication Critical patent/CN115733731A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请涉及计算机领域,公开了一种云主机中GPU监控方法装置、宿主机和计算机可读存储介质,包括通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;调度采集工具和数据采集脚本安装于宿主机,QGA安装于云主机;判断监控数据是否超过预设告警阈值;若监控数据超过预设告警阈值,则控制告警设备发出告警信息。本申请在监控云主机的GPU时,在宿主机上实现,云主机上安装有QGA,通过调度采集工具、数据采集脚本和QGA得到GPU的监控数据,根据监控数据判断是否告警。QGA为系统级工具,不会涉及到入侵云主机的问题,提升云主机上用户信息的安全性。且不需打通云主机和宿主机所在的网络,提升云平台的稳定性。

Description

一种云主机中GPU监控方法、装置、宿主机和存储介质
技术领域
本申请涉及计算机领域,特别是涉及一种云主机中GPU监控方法、装置、宿主机和计算机可读存储介质。
背景技术
GPU(Graphics Processing Unit,图形处理器)广泛用于云平台的云主机中,对云主机中GPU的监控告警对于了解GPU十分重要。目前,在对云主机中的GPU进行监控时,可以通过在云主机中安装相关监控告警插件来采集GPU的相关数据,并根据采集的数据进行监控报警。但是,由于云主机是属于用户的,云主机中还会有用户自己的数据信息等,所以目前在云主机中安装插件的方式会入侵到云主机中,会给用户造成一定的困扰,例如,是否会影响自己数据信息的安全性,是否会影响自己对云主机的使用等。另外,云主机中GPU在云主机内部,属于业务网,云平台监控告警系统在管理网,二者直接网络不互通,如果打通网络则提升了网络复杂度并存在安全隐患。
因此,如何解决上述技术问题应是本领域技术人员重点关注的。
发明内容
本申请的目的是提供一种云主机中GPU监控方法、装置、宿主机和计算机可读存储介质,以对云主机中GPU实现无侵入监控,并且,避免出现安全隐患,提升云平台的稳定性。。
为解决上述技术问题,本申请提供一种云主机中GPU监控方法,应用于云平台的宿主机,包括:
通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;所述调度采集工具和所述数据采集脚本预先安装于所述宿主机中,所述QGA预先安装于云主机中;
判断监控数据是否超过预设告警阈值;
若所述监控数据超过所述预设告警阈值,则控制告警设备发出告警信息。
可选的,所述通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据包括:
通过所述调度采集工具调用所述数据采集脚本;
通过所述数据采集脚本利用所述QGA获得所述监控数据。
可选的,通过所述数据采集脚本利用所述QGA获得所述监控数据包括:
通过所述数据采集脚本检测所述GPU的类型;
通过所述数据采集脚本利用所述QGA调用与所述GPU的类型对应的命令;
通过所述数据采集脚本根据所述命令获得所述监控数据。
可选的,还包括:
通过所述数据采集脚本解析所述监控数据;
通过所述数据采集脚本将解析后监控数据组装成目标数据库所需的标准格式的监控数据;
通过所述数据采集脚本将所述标准格式的监控数据、与所述GPU对应的所述云主机的标识信息存储至所述目标数据库。
可选的,通过所述调度采集工具调用数据采集脚本包括:
通过所述调度采集工具按照预设周期调用所述数据采集脚本。
可选的,通过所述调度采集工具调用数据采集脚本包括:
通过所述调度采集工具根据所述云主机的数量、所述数据采集脚本的数据采集容量确定所述数据采集脚本的调用数量;
通过所述调度采集工具调用所述调用数量的所述数据采集脚本。
可选的,还包括:
对每种所述监控数据对应创建告警任务;
将所述告警任务平均分配至各个告警实例,以便所述告警实例对所述监控数据进行判断。
本申请还提供一种云主机中GPU监控装置,包括:
获得模块,用于通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;所述调度采集工具和所述数据采集脚本预先安装于所述宿主机中,所述QGA预先安装于云主机中;
判断模块,用于判断监控数据是否超过预设告警阈值;
告警模块,用于若所述监控数据超过所述预设告警阈值,则控制告警设备发出告警信息。
本申请还提供一种宿主机,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一种所述云主机中GPU监控方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述云主机中GPU监控方法的步骤。
本申请所提供的一种云主机中GPU监控方法,应用于云平台的宿主机,包括:通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;所述调度采集工具和所述数据采集脚本预先安装于所述宿主机中,所述QGA预先安装于云主机中;判断监控数据是否超过预设告警阈值;若所述监控数据超过所述预设告警阈值,则控制告警设备发出告警信息。
可见,本申请中的监控方法在对云主机中的GPU进行监控时,在宿主机上实现,宿主机上预先安装有调度采集工具和数据采集脚本,需要监测的云主机上安装有QGA,通过调度采集工具、数据采集脚本和QGA得到云主机上GPU的监控数据,进而根据监控数据与预设告警阈值的大小关系进行告警。QGA属于系统级工具,是被用户用认可的,且不需在云主机上安装其他插件,不会涉及到入侵云主机的问题,提升云主机上用户数据信息的安全性,提升用户体验。并且,本申请的监控方法在宿主机上实现,不需打通云主机和宿主机所在的网络,不会导致网络复杂度提升,和避免出现安全隐患,提升云平台的稳定性。
此外,本申请还提供一种具有上述优点的装置、宿主机和计算机可读存储介质。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种云主机中GPU监控方法的流程图;
图2为本申请实施例所提供的另一种云主机中GPU监控方法的流程图;
图3为本申请实施例所提供的另一种云主机中GPU监控方法的流程图;
图4为本申请实施例所提供的另一种云主机中GPU监控方法的流程图;
图5为本申请实施例所提供的另一种云主机中GPU监控方法的流程图;
图6为本申请实施例宿主机对云主机中的GPU进行监控的框架图;
图7为本申请实施例提供的云主机中GPU监控装置的结构框图;
图8为本申请实施例提供的宿主机的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
正如背景技术部分所述,目前在对云主机中的GPU进行监控时,可以通过在云主机中安装插件来采集GPU的相关数据,并根据采集的数据进行监控报警。但是,在云主机中安装插件的方式会入侵到用户的云主机,影响用户的体验以及数据信息安全。另外,云主机中GPU在云主机内部,属于业务网,云平台监控告警系统在管理网,二者直接网络不互通,如果打通网络则提升了网络复杂度并存在安全隐患。
有鉴于此,本申请提供一种云主机中GPU监控方法,应用于云平台的宿主机,包括:
步骤S101:通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;调度采集工具和数据采集脚本预先安装于宿主机中,QGA预先安装于云主机中。
QGA(Qemu Guest Agent,虚拟化代理服务)安装于云主机(也可以成为虚拟机)中,是运行在云主机内部的一个系统服务,用来实现宿主机对云主机(虚拟机)的管理,扩展了对云主机(虚拟机)的控制能力,包括执行命令和获取数据。也可以理解为,QGA为宿主机和云主机提供了一个数据通道。
在获得GPU的监控数据时,涉及到的调度采集工具和数据采集脚本是安装在宿主机上的,并不安装在云主机上,而在云主机上安装QGA并不属于对云主机入侵,因为QGA属于系统级的工具,是被用户认可的。
调度采集工具包括但不限于telegraf,支持自研数据采集脚本。telegraf是一个插件驱动的服务器代理,用于从数据库、系统和IoT传感器收集和发送指标和事件。
需要说明的是,本申请中对GPU的监控数据不做限定,视情况而定。例如,监控数据可以包括使用率、内存使用率、解码使用率、显存的总量、温度、风扇转速等中的任意一种或者任意组合。
同一个宿主机上存在的云主机的数量既可以为一个,也可以为多个,云主机的数量可以达到100个以上。目前,单台宿主机最大支持120个云主机。每个云主机中GPU的数量既可以为一个,也可以为多个,视情况而定。
当一个云主机中GPU的数量有多个时,同时对多个GPU的监控数据进行采集。
步骤S102:判断监控数据是否超过预设告警阈值。
当监控数据有多种,且一个云主机中GPU的数量有多个时,对一个云主机中所有GPU的同一种监控数据进行判断。例如,假设一个云主机中GPU的数量为20个,获得的GPU的监控数据包括使用率、温度和内存使用率,则对20个GPU的使用率分别与预设告警阈值进行判断,对20个GPU的温度分别与预设告警阈值进行判断,20个GPU的内存使用率分别与预设告警阈值进行判断。
需要指出的是,本申请中对预设告警阈值不做限定,可自行设置。进一步的,本申请中对预设告警阈值的数量也不做限定。例如,预设告警阈值的数量可以为一个,或者,预设告警阈值的数量为两个甚至更多个。
步骤S103:若监控数据超过预设告警阈值,则控制告警设备发出告警信息。
可以理解的是,当监控数据没有超过预设告警阈值时,则不会发出告警信息。
告警信息包括但不限于声音告警信息、光告警信息、文字告警信息中的任一种或者任意组合。
需要指出的是,当预设告警阈值的数量在两个及以上时,预设告警阈值组成多个范围,不同的范围表明监控数据所达到的不同程度。监控数据。例如,对于监控数据GPU的使用率,对应设置有80%和90%两个预设告警阈值,当GPU的使用率不超过80%时不会告警,当GPU的使用率在80%和90%之间时,表明GPU的使用率达到中等程度,当GPU的使用率在90%以上时,表明GPU的使用率达到严重程度。对于监控数据GPU的温度,对应设置有50℃和60℃两个预设告警阈值,当GPU的温度不超过50℃时不会告警,当GPU的温度在50℃和60℃之间时,表明GPU的温度稍高,当GPU的温度在60℃以上时,表明GPU的温度很高。
相应的,对于达到不同程度的监控数据,告警设备发出的告警信息也不同。例如,可以直接用声音告警信息播报监控数据当前所达到的程度;或者,直接用文字告警信息显示监控数据当前所达到的程度;或者,用不同颜色的光告警信息表示监控数据当前所达到的程度,例如,当监控数据的程度较轻时,用黄色光告警信息,当监控数据的程度较重时,用红色光告警信息等等。当然,也可以将声音告警信息、文字告警信息以及光告警信息进行任意组合来表示监控数据当前所到达的程度。
本申请中的监控方法在对云主机中的GPU进行监控时,在宿主机上实现,宿主机上预先安装有调度采集工具和数据采集脚本,需要监测的云主机上安装有QGA,通过调度采集工具、数据采集脚本和QGA得到云主机上GPU的监控数据,进而根据监控数据与预设告警阈值的大小关系进行告警。QGA属于系统级工具,是被用户用认可的,且不需在云主机上安装其他插件,不会涉及到入侵云主机的问题,提升云主机上用户数据信息的安全性,提升用户体验。并且,本申请的监控方法在宿主机上实现,不需打通云主机和宿主机所在的网络,不会导致网络复杂度提升,和避免出现安全隐患,提升云平台的稳定性。
请参考图2,在上述实施例的基础上,在本申请的一个实施例中,云主机中GPU监控方法包括:
步骤S201:通过调度采集工具调用数据采集脚本,调度采集工具和数据采集脚本预先安装于宿主机中。
可选的,作为一种可实施方式,通过调度采集工具调用数据采集脚本包括:通过调度采集工具按照预设周期调用数据采集脚本。其中,预设周期可以为30秒,或者60秒,或者80秒等,本申请中不做具体限定,可自行设定。但是,本申请对此并不做限定,作为另一种可实施方式,调度采集工具也可以实施调用数据采集脚本。
步骤S202:通过数据采集脚本利用QGA获得监控数据,QGA预先安装于云主机中。
当一个云主机中包括多种不同种类的GPU时,数据采集脚本适配所有类型的GPU的数据采集。
数据采集脚本采集GPU的监控数据的具体过程请参见下文。
步骤S203:判断监控数据是否超过预设告警阈值。
步骤S204:若监控数据超过预设告警阈值,则控制告警设备发出告警信息。
需要指出的是,本实施例中的步骤S203和步骤S204具体可参考上述实施例中的步骤S102和步骤S103,此处不再详细赘述。
请参考图3,在上述实施例的基础上,在本申请的一个实施例中,云主机中GPU监控方法包括:
步骤S301:通过调度采集工具调用数据采集脚本,调度采集工具和数据采集脚本预先安装于宿主机中。
步骤S302:通过数据采集脚本检测GPU的类型。
GPU的类型包括但不限于英伟达、寒武纪。
步骤S303:通过数据采集脚本利用QGA调用与GPU的类型对应的命令;QGA预先安装于云主机中。
一种类型的GPU对应一种命令,例如,当GPU的类型为英伟达时,对应的最常用的命令为nvidia-smi,当GPU的类型为英伟达时,对应的命令可以为cnmon。
当GPU的类型为英伟达时,使用nvidia-smi–x命令可以获得GPU的所有性能数据(也即监控数据),性能数据为xml格式数据。
步骤S304:通过数据采集脚本根据命令获得监控数据。
需要指出的是,云主机中还安装有GPU驱动程序和客户端程序,GPU驱动程序和客户端程序属于GPU配套软件。数据采集脚本根据QGA调用与GPU类型对应的命令,也即调用GPU中不同客户端程序,得到监控数据。
步骤S305:判断监控数据是否超过预设告警阈值。
步骤S306:若监控数据超过预设告警阈值,则控制告警设备发出告警信息。
需要指出的是,本实施例中的步骤S305和步骤S306具体可参考上述实施例中的步骤S102和步骤S103,此处不再详细赘述。
请参考图4,在上述实施例的基础上,在本申请的一个实施例中,云主机中GPU监控方法包括:
步骤S401:通过调度采集工具调用数据采集脚本,调度采集工具和数据采集脚本预先安装于宿主机中。
步骤S402:通过数据采集脚本检测GPU的类型。
步骤S403:通过数据采集脚本利用QGA调用与GPU的类型对应的命令;QGA预先安装于云主机中。
步骤S404:通过数据采集脚本根据命令获得监控数据。
步骤S405:通过数据采集脚本解析监控数据。
步骤S406:通过数据采集脚本将解析后监控数据组装成目标数据库所需的标准格式的监控数据。
目标数据库位于宿主机中,本申请中对目标数据库的类型不做限定,视情况而定。例如,目标数据库可以为influxdb(时序数据库),或者其他类型的数据库。
以目标数据库为influxdb为例,influxdb数据库的数据格式为:
数据表,属性1=属性1的值,属性2=属性2的值空格性能数据1=性能数据1的值,性能数据2=性能数据2的值;例如:
gpu_utilization,instance_uuid=xxxxx,instance_name=xxxx,name=GPU_name1空格utilization=80;
gpu_mem_utilization,instance_uuid=xxxxx,instance_name=xxxx,name=GPU_name1空格mem_utilzation=12.1;等等。
步骤S407:通过数据采集脚本将标准格式的监控数据、与GPU对应的云主机的标识信息存储至目标数据库。
云主机的标识信息可以为名称、编号或者字母等等,标识信息与云主机一一对应。一般情况下,一个宿主机上会有很多个云主机,为了区分各个云主机,每个云主机都会有一个唯一与之对应的标识信息。同时存储GPU的监控数据和与GPU对应的云主机的标识信息,可以清楚的表明每个GPU所在的云主机是哪一个,避免发生混淆。
步骤S408:判断监控数据是否超过预设告警阈值。
由于将采集到的监控数据保存在了目标数据库中,本步骤可以从目标数据库中获取监控数据,并进行判断。
步骤S409:若监控数据超过预设告警阈值,则控制告警设备发出告警信息。
需要指出的是,本实施例中的步骤S408和步骤S409具体可参考上述实施例中的步骤S102和步骤S103,此处不再详细赘述。
本实施中将采集到的GPU的监控数据和与GPU对应的云主机的标识信息一同存储在目标数据库中,可以便于后续查看GPU监控数据的历史记录。
请参考图5,在上述实施例的基础上,在本申请的一个实施例中,云主机中GPU监控方法包括:
步骤S501:通过调度采集工具根据云主机的数量、数据采集脚本的数据采集容量确定数据采集脚本的调用数量;调度采集工具和数据采集脚本预先安装于宿主机中。
云主机的数量除以数据采集脚本的数据采集容量,便可以得到数据采集脚本的调用数量。数据采集脚本的采集容量指数据采集脚本可以对应采集的云主机的最大数值。例如,假设一个宿主机上云主机的数量有一百个,一个数据采集脚本可以采集20个云主机中GPU的数据,则调度采集工具需要调用5个数据采集脚本。
步骤S502:通过调度采集工具调用调用数量的数据采集脚本。
步骤S503:通过数据采集脚本利用QGA获得监控数据,QGA预先安装于云主机中。
步骤S504:判断监控数据是否超过预设告警阈值。
步骤S505:若监控数据超过预设告警阈值,则控制告警设备发出告警信息。
需要指出的是,本实施例中的步骤S504和步骤S505具体可参考上述实施例中的步骤S102和步骤S103,此处不再详细赘述。
本实施例中调度采集工具同时调用所有所需的数据采集脚本,使得数据采集并行化进行,以保证在数据采集周期内将所有云主机上的GPU的监控数据采集完成。
在上述任一实施例的基础上,在本申请的一个实施例中,云主机中GPU监控方法还包括:
对每种监控数据对应创建告警任务;
将告警任务平均分配至各个告警实例,以便告警实例对监控数据进行判断。
每一种监控数据对应一个告警任务,也即,采集GPU的多少种监控数据,就创建多少种告警任务。
本实施例中对每一类型的GPU的所有监控数据统一为告警模板,告警模板包括告警ID(identity,身份标识码)、资源种类ID、应用ID、性能数据表名、查询字段、过滤字段、分组字段、告警阈值等;其中告警ID与监控数据的种类一一对应。
本申请中对告警模板的具体形式不做限定,可以为表格或者其他形式。例如,告警模板的一种形式可以如表1所示。
表1
Figure BDA0003951106160000111
Figure BDA0003951106160000121
当调度采集工具按照预设周期调用数据采集脚本时,每一类告警任务都会自动生成周期性任务,每执行一次都会从目标数据库中查询出所有服务实例当前的性能数据值,从告警实例中查询出所有服务实例的此类告警任务的告警阈值,然后进行比较而产生告警。
当告警任务的数量为多个,告警实例也为多个时,本实施例中将告警任务平均分配至各个告警实例。可选的,在本申请的一个实施例中,将告警任务平均分配至各个告警实例时,根据告警任务的数量,将所有告警任务平均分配至各个告警实例。但是,本申请中对告警任务的分配方式不做限定,在本申请的其他实施例中,还可以根据告警任务的权重将告警任务平均分配至各个告警实例。
需要指出的是,当告警任务的数量发生变化时,告警任务会重新自动平均分配至各个告警实例,使各个告警实例上的告警任务保持平衡状态。
下面以一具体情况对本申请中云主机中GPU监控方法进行介绍,宿主机对云主机中的GPU进行监控的框架图如图6所示。
步骤1.云主机内部安装QGA、GPU驱动程序和GPU客户端程序;宿主机上安装telegraf和数据采集脚本;
步骤2.telegraf周期性调用数据采集脚本,数据采集脚本通过QGA调用云主机内部的GPU客户端并捕获数据输出。其中,数据采集脚本首先探测GPU类型,然后根据GPU类型调用对应的GPU数据采集客户端,比如英伟达的nvidia-smi,最后解析GPU的监控数据并按照标准格式输出;
步骤3.宿主机的监控系统部署时序数据库存储集群,将采集到的监控数据存储至时序数据库存储集群;
步骤4.对每一类GPU的所有监控数据统一为告警模板;
步骤5.对每一种监控数据启动一个告警任务,将所有告警任务平均分配至多个告警任务实例上,判断监控数据是否超过预设告警阈值,若超过则告警。
下面对本申请实施例提供的云主机中GPU监控装置进行介绍,下文描述的云主机中GPU监控装置与上文描述的云主机中GPU监控方法可相互对应参照。
图7为本申请实施例提供的云主机中GPU监控装置的结构框图,参照图7云主机中GPU监控装置可以包括:
获得模块100,用于通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;调度采集工具和数据采集脚本预先安装于宿主机中,QGA预先安装于云主机中;
判断模块200,用于判断监控数据是否超过预设告警阈值;
告警模块300,用于若监控数据超过预设告警阈值,则控制告警设备发出告警信息。
本实施例的云主机中GPU监控装置用于实现前述的云主机中GPU监控方法,因此云主机中GPU监控装置中的具体实施方式可见前文中的云主机中GPU监控方法的实施例部分,例如,获得模块100,判断模块200,告警模块300,分别用于实现上述云主机中GPU监控方法中步骤S101,S102,S103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本申请中的监控装置在对云主机中的GPU进行监控时,在宿主机上实现,宿主机上预先安装有调度采集工具和数据采集脚本,需要监测的云主机上安装有QGA,通过调度采集工具、数据采集脚本和QGA得到云主机上GPU的监控数据,进而根据监控数据与预设告警阈值的大小关系进行告警。QGA属于系统级工具,是被用户用认可的,且不需在云主机上安装其他插件,不会涉及到入侵云主机的问题,提升云主机上用户数据信息的安全性,提升用户体验。并且,本申请的监控方法在宿主机上实现,不需打通云主机和宿主机所在的网络,不会导致网络复杂度提升,和避免出现安全隐患,提升云平台的稳定性。
可选的,获得模块100包括:
调用单元,用于通过调度采集工具调用数据采集脚本;
获得单元,用于通过数据采集脚本利用QGA获得监控数据。
可选的,获得单元包括:
检测子单元,用于通过数据采集脚本检测GPU的类型;
命令调用子单元,用于通过数据采集脚本利用QGA调用与GPU的类型对应的命令;
获得子单元,用于通过数据采集脚本根据命令获得监控数据。
可选的,云主机中GPU监控装置还包括:
解析模块,用于通过数据采集脚本解析监控数据;
组装模块,用于通过数据采集脚本将解析后监控数据组装成目标数据库所需的标准格式的监控数据;
存储模块,用于通过数据采集脚本将标准格式的监控数据、与GPU对应的云主机的标识信息存储至目标数据库。
可选的,调用单元具体用于通过调度采集工具按照预设周期调用数据采集脚本。
可选的,调用单元包括:
确定子单元,用于通过调度采集工具根据云主机的数量、数据采集脚本的数据采集容量确定数据采集脚本的调用数量;
脚本调用子单元,用于通过调度采集工具调用调用数量的数据采集脚本。
可选的,云主机中GPU监控装置还包括:
创建模块,用于对每种监控数据对应创建告警任务;
分配模块,用于将告警任务平均分配至各个告警实例,以便告警实例对监控数据进行判断。
下面对本申请实施例提供的宿主机进行介绍,下文描述的宿主机与上文描述的云主机中GPU监控方法可相互对应参照。
图8为本申请实施例提供的宿主机的结构框图,包括:
存储器11,用于存储计算机程序;
处理器12,用于执行计算机程序时实现上述任一实施例云主机中GPU监控方法的步骤。
本申请中的宿主机在对云主机中的GPU进行监控时,宿主机上预先安装有调度采集工具和数据采集脚本,需要监测的云主机上安装有QGA,通过调度采集工具、数据采集脚本和QGA得到云主机上GPU的监控数据,进而根据监控数据与预设告警阈值的大小关系进行告警。QGA属于系统级工具,是被用户用认可的,且不需在云主机上安装其他插件,不会涉及到入侵云主机的问题,提升云主机上用户数据信息的安全性,提升用户体验。并且,本申请的监控方法在宿主机上实现,不需打通云主机和宿主机所在的网络,不会导致网络复杂度提升,和避免出现安全隐患,提升云平台的稳定性。
下面对本申请实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的云主机中GPU监控方法可相互对应参照。
一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例云主机中GPU监控方法的步骤。
本申请中的计算机可读存储介质在对云主机中的GPU进行监控时,宿主机上预先安装有调度采集工具和数据采集脚本,需要监测的云主机上安装有QGA,通过调度采集工具、数据采集脚本和QGA得到云主机上GPU的监控数据,进而根据监控数据与预设告警阈值的大小关系进行告警。QGA属于系统级工具,是被用户用认可的,且不需在云主机上安装其他插件,不会涉及到入侵云主机的问题,提升云主机上用户数据信息的安全性,提升用户体验。并且,本申请的监控方法在宿主机上实现,不需打通云主机和宿主机所在的网络,不会导致网络复杂度提升,和避免出现安全隐患,提升云平台的稳定性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的云主机中GPU监控方法、装置、宿主机和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种云主机中GPU监控方法,其特征在于,应用于云平台的宿主机,包括:
通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;所述调度采集工具和所述数据采集脚本预先安装于所述宿主机中,所述QGA预先安装于云主机中;
判断监控数据是否超过预设告警阈值;
若所述监控数据超过所述预设告警阈值,则控制告警设备发出告警信息。
2.如权利要求1所述的云主机中GPU监控方法,其特征在于,所述通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据包括:
通过所述调度采集工具调用所述数据采集脚本;
通过所述数据采集脚本利用所述QGA获得所述监控数据。
3.如权利要求2所述的云主机中GPU监控方法,其特征在于,通过所述数据采集脚本利用所述QGA获得所述监控数据包括:
通过所述数据采集脚本检测所述GPU的类型;
通过所述数据采集脚本利用所述QGA调用与所述GPU的类型对应的命令;
通过所述数据采集脚本根据所述命令获得所述监控数据。
4.如权利要求3所述的云主机中GPU监控方法,其特征在于,还包括:
通过所述数据采集脚本解析所述监控数据;
通过所述数据采集脚本将解析后监控数据组装成目标数据库所需的标准格式的监控数据;
通过所述数据采集脚本将所述标准格式的监控数据、与所述GPU对应的所述云主机的标识信息存储至所述目标数据库。
5.如权利要求2所述的云主机中GPU监控方法,其特征在于,通过所述调度采集工具调用数据采集脚本包括:
通过所述调度采集工具按照预设周期调用所述数据采集脚本。
6.如权利要求2所述的云主机中GPU监控方法,其特征在于,通过所述调度采集工具调用数据采集脚本包括:
通过所述调度采集工具根据所述云主机的数量、所述数据采集脚本的数据采集容量确定所述数据采集脚本的调用数量;
通过所述调度采集工具调用所述调用数量的所述数据采集脚本。
7.如权利要求1所述的云主机中GPU监控方法,其特征在于,还包括:
对每种所述监控数据对应创建告警任务;
将所述告警任务平均分配至各个告警实例,以便所述告警实例对所述监控数据进行判断。
8.一种云主机中GPU监控装置,其特征在于,包括:
获得模块,用于通过调度采集工具、数据采集脚本和QGA,获得云主机中GPU的监控数据;所述调度采集工具和所述数据采集脚本预先安装于所述宿主机中,所述QGA预先安装于云主机中;
判断模块,用于判断监控数据是否超过预设告警阈值;
告警模块,用于若所述监控数据超过所述预设告警阈值,则控制告警设备发出告警信息。
9.一种宿主机,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述云主机中GPU监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述云主机中GPU监控方法的步骤。
CN202211450683.1A 2022-11-18 2022-11-18 一种云主机中gpu监控方法、装置、宿主机和存储介质 Pending CN115733731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211450683.1A CN115733731A (zh) 2022-11-18 2022-11-18 一种云主机中gpu监控方法、装置、宿主机和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211450683.1A CN115733731A (zh) 2022-11-18 2022-11-18 一种云主机中gpu监控方法、装置、宿主机和存储介质

Publications (1)

Publication Number Publication Date
CN115733731A true CN115733731A (zh) 2023-03-03

Family

ID=85296689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211450683.1A Pending CN115733731A (zh) 2022-11-18 2022-11-18 一种云主机中gpu监控方法、装置、宿主机和存储介质

Country Status (1)

Country Link
CN (1) CN115733731A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140026000A1 (en) * 2012-07-17 2014-01-23 Jiangxi Electric Power Corporation Information And Communications Branch Highly available server system based on cloud computing
US20140095703A1 (en) * 2012-09-28 2014-04-03 Delta Electronics, Inc. System for managing and monitoring cloud hosts and method thereof
CN111625319A (zh) * 2020-05-25 2020-09-04 北京金山云网络技术有限公司 虚拟机监控数据的采集方法、装置及宿主机
CN112491980A (zh) * 2020-11-13 2021-03-12 苏州浪潮智能科技有限公司 一种云主机服务管理方法、系统、终端及存储介质
CN113438136A (zh) * 2021-08-27 2021-09-24 苏州浪潮智能科技有限公司 应用服务监控方法、装置、电子设备及可读存储介质
WO2021232842A1 (zh) * 2020-05-22 2021-11-25 国云科技股份有限公司 一种获取Docker容器内虚拟机监控数据的方法及装置
CN114116393A (zh) * 2021-11-26 2022-03-01 新华三大数据技术有限公司 一种采集虚拟机的gpu性能数据的方法、装置和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140026000A1 (en) * 2012-07-17 2014-01-23 Jiangxi Electric Power Corporation Information And Communications Branch Highly available server system based on cloud computing
US20140095703A1 (en) * 2012-09-28 2014-04-03 Delta Electronics, Inc. System for managing and monitoring cloud hosts and method thereof
WO2021232842A1 (zh) * 2020-05-22 2021-11-25 国云科技股份有限公司 一种获取Docker容器内虚拟机监控数据的方法及装置
CN111625319A (zh) * 2020-05-25 2020-09-04 北京金山云网络技术有限公司 虚拟机监控数据的采集方法、装置及宿主机
CN112491980A (zh) * 2020-11-13 2021-03-12 苏州浪潮智能科技有限公司 一种云主机服务管理方法、系统、终端及存储介质
CN113438136A (zh) * 2021-08-27 2021-09-24 苏州浪潮智能科技有限公司 应用服务监控方法、装置、电子设备及可读存储介质
CN114116393A (zh) * 2021-11-26 2022-03-01 新华三大数据技术有限公司 一种采集虚拟机的gpu性能数据的方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张倩;何汉东;: "基于私有云平台的云主机资源监控方案", 计算机系统应用, no. 08, 15 August 2017 (2017-08-15) *

Similar Documents

Publication Publication Date Title
CN107689953B (zh) 一种面向多租户云计算的容器安全监控方法及系统
US10268750B2 (en) Log event summarization for distributed server system
CN106027328B (zh) 一种基于应用容器部署的集群监控的方法及系统
CN106462702B (zh) 用于在分布式计算机基础设施中获取并且分析电子取证数据的方法和系统
CN104360878B (zh) 一种应用软件部署的方法及装置
US10938847B2 (en) Automated determination of relative asset importance in an enterprise system
US20240007346A1 (en) Method and Apparatus for Monitoring Application Service, Electronic Device, and Readable Storage Medium
US10848839B2 (en) Out-of-band telemetry data collection
EP1769353A2 (en) Method and apparatus for dynamic memory resource management
US10891164B2 (en) Resource setting control device, resource setting control system, resource setting control method, and computer-readable recording medium
CN110069925A (zh) 软件监测方法、系统及计算机可读存储介质
CN111984505A (zh) 一种运维数据采集引擎及采集方法
US20170034019A1 (en) Application centric network experience monitoring
CN111400720A (zh) 一种终端信息处理方法、系统及装置和一种可读存储介质
CN111277626A (zh) 服务器升级方法、装置、电子设备及介质
US11146447B2 (en) Method and apparatus of establishing computer network monitoring criteria
CN115712646A (zh) 一种告警策略生成方法、装置和存储介质
US10616081B2 (en) Application aware cluster monitoring
CN115733731A (zh) 一种云主机中gpu监控方法、装置、宿主机和存储介质
CN112307046A (zh) 数据采集方法和装置、计算机可读存储介质、电子设备
KR101320386B1 (ko) 클라우드 시스템에서의 가상 인스턴스 행동 분석 장치 및 방법
CN108289035B (zh) 一种直观的网络及业务系统运行状态展现方法及系统
CN106681894B (zh) 智能设备的监控方法和监控装置
CN109766238B (zh) 基于session数的运维平台性能监控方法、装置及相关设备
CN113672449A (zh) 智能运维异常监测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination