CN205983447U - Gpu集群功耗监控系统 - Google Patents

Gpu集群功耗监控系统 Download PDF

Info

Publication number
CN205983447U
CN205983447U CN201620679826.XU CN201620679826U CN205983447U CN 205983447 U CN205983447 U CN 205983447U CN 201620679826 U CN201620679826 U CN 201620679826U CN 205983447 U CN205983447 U CN 205983447U
Authority
CN
China
Prior art keywords
gpu
sensing node
monitor terminal
node
zigbee
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201620679826.XU
Other languages
English (en)
Inventor
陈庆奎
李超凡
曹渠成
易猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201620679826.XU priority Critical patent/CN205983447U/zh
Application granted granted Critical
Publication of CN205983447U publication Critical patent/CN205983447U/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

一种GPU集群功耗监控系统,涉及计算机技术领域,所解决的是监测GPU集群功耗的技术问题。该系统包括主监控终端、从监控终端、Zigbee协调器,及多个传感节点,由多个GPU构成的GPU集群;所述传感节点包括节点控制器,及分别连接节点控制器的霍尔电流传感器、Zigbee通信模块;所述Zigbee协调器通过通信线与主监控终端互联,各个传感节点中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器互联;各个传感节点中的节点控制器通过通信线与从监控终端互联,各个传感节点中的霍尔电流传感器分别套置在各个GPU的供电线路上。本实用新型提供的系统,可以为GPU集群的功耗优化提供依据。

Description

GPU集群功耗监控系统
技术领域
本实用新型涉及计算机技术,特别是涉及一种GPU集群功耗监控系统的技术。
背景技术
随着大数据、云计算、人工智能等新一代互联网技术的发展,大量的数据对计算机的计算速度、计算效率、计算可靠性要求不断的增加。而且数据规模已经达到了TB甚至PB量级,没有万亿次以上的计算能力是无法解决的。与此同时,我们在日常应用中面临的图形与数据计算也是越来越复杂,对计算速度提出了严峻的挑战。而GPU(图形处理器)以其高性能成为当前高性能集群计算机系统主要构成部件,GPU在处理能力和存储器带宽上相对CPU有明显的优势,在成本上也不需要付出太大的代价,另外由于其高可靠性、计算能力强、高性价比等优势,从而为这些问题提供了新的解决方案。但是大规模的GPU集群同样存在着一个功耗问题,GPU集群由多个GPU构成,每个GPU的任务不同,功耗也是不同的,对GPU的功耗进行监测,可以了解不同应用程序的对于GPU功耗的消耗,从而可以针对性的优化GPU,进而可以减小GPU的功耗,但是目前对于GPU集群的GPU功耗监测还没有行之有效的方法。
实用新型内容
针对上述现有技术中存在的缺陷,本实用新型所要解决的技术问题是提供一种能监测GPU集群中的各个GPU的功耗的GPU集群功耗监控系统。
为了解决上述技术问题,本实用新型所提供的一种GPU集群功耗监控系统,其特征在于:包括主监控终端、从监控终端、Zigbee协调器,及多个传感节点,由多个GPU构成的GPU集群;
所述传感节点包括节点控制器、霍尔电流传感器、Zigbee通信模块,其中的霍尔电流传感器接到节点控制器的电流采集端口,Zigbee通信模块通过通信线与节点控制器互联;
所述Zigbee协调器通过通信线与主监控终端互联,各个传感节点中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器互联;
各个传感节点中的节点控制器通过通信线与从监控终端互联,各个传感节点中的霍尔电流传感器分别套置在各个GPU的供电线路上。
本实用新型提供的GPU集群功耗监控系统及其监控方法,利用传感节点中的霍尔电流传感器测量GPU的供电电流,并通过Zigbee网络实现远程实时监控,还能利用从监控终端实现本地高密度数据采集、存储,能准确测量GPU集群中的各个GPU的功耗,从而可以为GPU集群的功耗优化提供依据。
附图说明
图1是本实用新型实施例的GPU集群功耗监控系统的结构示意图。
具体实施方式
以下结合附图说明对本实用新型的实施例作进一步详细描述,但本实施例并不用于限制本实用新型,凡是采用本实用新型的相似结构及其相似变化,均应列入本实用新型的保护范围,本实用新型中的顿号均表示和的关系。
如图1所示,本实用新型实施例所提供的一种GPU集群功耗监控系统,其特征在于:包括主监控终端U1、从监控终端(图中未示)、Zigbee协调器U2,及多个传感节点U3,由多个GPU(图形处理器)U4构成的GPU集群;
所述传感节点U3包括节点控制器、霍尔电流传感器、Zigbee通信模块,其中的霍尔电流传感器接到节点控制器的电流采集端口,Zigbee通信模块通过通信线与节点控制器互联;
所述Zigbee协调器U2通过通信线与主监控终端U1互联,各个传感节点U3中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器U2互联;
各个传感节点U3中的节点控制器通过通信线与从监控终端互联,各个传感节点U3中的霍尔电流传感器分别套置在各个GPU的供电线路上。
本实用新型实施例中,Zigbee协调器采用了型号为CC2530的芯片来负责网络的组建、数据包和指令的转发;传感节点负责采集GPU功耗数据,并将采集的数据打包成数据包后经过Zigbee协调器转到主监控终端,由主监控终端进行存储并实时显示,传感节点还可以将采集的数据传送到从监控终端,由从监控终端进行存储、显示;传感节点中的节点控制器采用的是型号为MSP430的微处理芯片,MSP430微处理芯片内含12个12位的模数转换器,非常适合传感节点的应用;传感节点中的Zigbee通信模块采用的是型号为CC2530的芯片,CC2530芯片结合了RF收发器及增强型8051 CPU,CC2530芯片具有不同的运行模式,特别适合超低功耗要求的系统,并且运行模式之间的转换时间短,进一步确保了低能源消耗;传感节点中的霍尔电流传感器的型号为WHB-LSP5S2H,霍尔电流传感器主要测量GPU供电线路的电流,并将测得的电流值传送给节点控制器,由节点控制器进行模数转换。
传感节点负责采集GPU功耗数据的原理如下:
根据电路的基本原理,功耗=电压×电流,由于GPU的供电电压为固定的12V,所以只需要利用霍尔电流传感器测量GPU的供电电流,即可算出GPU的功耗。
本实用新型实施例所提供的GPU集群功耗监控系统的监控方法,其特征在于,具体步骤如下:
为传感节点设定两种工作模式,其中的一种工作模式为无线模式,另一种工作模式为无线模式;
主监控终端通过BGC数据包向Zigbee协调器下发控制指令,BGC数据包由wx、dm、ed组成,BGC数据包中的wx为工作模式指令,wx的值有两种,wx的两种值分别代表无线模式、有线模式,BGC数据包中的dm为传感节点采集GPU供电电流的采样间隔时间,ed为指令结束标识;
传感节点工作在无线模式时通过BGA数据包向Zigbee协调器上传采集数据,BGA数据包为无线通信数据包,BGA数据包由st、dev、val组成,BGA数据包中的st为BGA数据包的起始标识,BGA数据包中的dev为传感节点的节点编号,BGA数据包中的val为霍尔电流传感器所测得的GPU供电电流数字量;
Zigbee协调器通过BGP数据包向主监控终端上传采集数据,传感节点工作在有线模式时通过BGP数据包向从监控终端上传采集数据,BGP数据包为串行通信数据包,BGP数据包由st、dev、val组成,BGP数据包中的st为BGP数据包的起始标识,BGP数据包中的dev为传感节点的节点编号,BGP数据包中的val为霍尔电流传感器所测得的GPU供电电流数字量;
Zigbee协调器与传感节点组网成功后,如果Zigbee协调器收到主监控终端发来的BGC数据包,则将BGC数据包发送给传感节点;
传感节点收到Zigbee协调器发来的BGC数据包后,对BGC数据包中的wx的值进行判别;如果传感节点工作在有线模式,并且BGC数据包中的wx的值代表的是无线模式,则将传感节点的工作模式切换为无线模式;如果传感节点工作在无线模式,并且BGC数据包中的wx的值代表的是有线模式,则将传感节点的工作模式切换为有线模式;
传感节点收到Zigbee协调器发来的BGC数据包后,将采集GPU供电电流的采样间隔时间设定为BGC数据包中的dm的值;
传感节点与Zigbee协调器组网成功后,根据设定的采样间隔时间,通过节点中的霍尔电流传感器对GPU供电电流进行采集,并对采集到GPU供电电流模拟量进行模数转换;
传感节点工作在无线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装成一个BGA数据包,然后再将封装好的BGA数据包发送给Zigbee协调器;
Zigbee协调器对接收到的通信数据包进行检测,如果接收到的通信数据包是传感节点发送来的BGA数据包,则先从BGA数据包中提取dev及val,再将所提取的dev、val重新封装为BGP数据包,并将封装好的BGP数据包发送给主监控终端;
主监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于0的异常值剔除后存储为M_cur,然后再将BGP数据包的接收时间、M_cur及所提取的dev封装为一个BGS数据包存储在本地,BGS数据包的内容也可以根据需要输出至数值显示界面或描绘到图形界面;
传感节点工作在有线模式时,将模数转换所得的GPU供电电流数字量与传感节点的节点编号封装为BGP数据包,并将封装好的BGP数据包发送给从监控终端;
从监控终端收到BGP数据包后,先从BGP数据包中提取dev及val,再将所提取的val中的小于0的异常值剔除后存储为S_cur,然后再将BGP数据包的接收时间、S_cur及所提取的dev封装为一个BGS数据包存储在本地,BGS数据包的内容也可以根据需要输出至数值显示界面或描绘到图形界面。

Claims (1)

1.一种GPU集群功耗监控系统,其特征在于:包括主监控终端、从监控终端、Zigbee协调器,及多个传感节点,由多个GPU构成的GPU集群;
所述传感节点包括节点控制器、霍尔电流传感器、Zigbee通信模块,其中的霍尔电流传感器接到节点控制器的电流采集端口,Zigbee通信模块通过通信线与节点控制器互联;
所述Zigbee协调器通过通信线与主监控终端互联,各个传感节点中的Zigbee通信模块以Zigbee通信方式与Zigbee协调器互联;
各个传感节点中的节点控制器通过通信线与从监控终端互联,各个传感节点中的霍尔电流传感器分别套置在各个GPU的供电线路上。
CN201620679826.XU 2016-07-01 2016-07-01 Gpu集群功耗监控系统 Expired - Fee Related CN205983447U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201620679826.XU CN205983447U (zh) 2016-07-01 2016-07-01 Gpu集群功耗监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201620679826.XU CN205983447U (zh) 2016-07-01 2016-07-01 Gpu集群功耗监控系统

Publications (1)

Publication Number Publication Date
CN205983447U true CN205983447U (zh) 2017-02-22

Family

ID=58023622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201620679826.XU Expired - Fee Related CN205983447U (zh) 2016-07-01 2016-07-01 Gpu集群功耗监控系统

Country Status (1)

Country Link
CN (1) CN205983447U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066825A (zh) * 2016-07-01 2016-11-02 上海理工大学 Gpu集群功耗监控系统及其监控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066825A (zh) * 2016-07-01 2016-11-02 上海理工大学 Gpu集群功耗监控系统及其监控方法
CN106066825B (zh) * 2016-07-01 2018-10-12 上海理工大学 Gpu集群功耗监控系统及其监控方法

Similar Documents

Publication Publication Date Title
CN201277904Y (zh) 一种水轮发电机组无线振动监测装置
CN103647351A (zh) 基于多代理和异构通信技术的微电网智能测控终端及方法
CN106595848A (zh) 一种输电线路舞动在线监控系统
CN206863941U (zh) 一种适用于光伏发电站的远程监控系统
CN102967778B (zh) 一种电网检测装置及其检测方法
CN202159111U (zh) 一种基于fpga的行波测距装置
CN106066825B (zh) Gpu集群功耗监控系统及其监控方法
CN205983447U (zh) Gpu集群功耗监控系统
CN206668460U (zh) 一种小水电机组节能综合化控制装置
CN105676058B (zh) 用于智能电网传感装置的高精度测量数据采样同步装置及方法
CN206930312U (zh) 铁塔运行状态在线监测装置
CN205941845U (zh) 一种基于stm32的ups电池在线监测系统
CN103986231A (zh) 一种网络化变电站智能计量系统
CN208316682U (zh) 一种基于物联网技术的光储能源运行参数监测装置
CN204098865U (zh) 一种智能监控石油开采设备系统
CN205643662U (zh) 一种具有远程监控功能的电源参数监控仪
CN103308761B (zh) 一种起重电机瞬时输入功率无线传感装置及测量方法
CN110012056A (zh) 一种基于云平台的智慧城市水务远程监控系统及方法
CN205506968U (zh) 一种三相电力测控仪表
CN208043142U (zh) 一种农业泵站用水智能在线监测系统
CN107786165A (zh) 一种基于ZigBee的光伏电池阵列性能监测系统
CN103178619B (zh) 一种实现3g监控的apf、svg控制装置
CN209821643U (zh) 发电机组安全控制系统
CN207731110U (zh) 一种基于无线网的同步定型机
CN205920365U (zh) 一种电力开关柜智能在线监测控制装置

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170222

Termination date: 20200701

CF01 Termination of patent right due to non-payment of annual fee