CN102811145B - 一种网络中板卡的温度监测方法及温度监测系统 - Google Patents

一种网络中板卡的温度监测方法及温度监测系统 Download PDF

Info

Publication number
CN102811145B
CN102811145B CN201210311701.8A CN201210311701A CN102811145B CN 102811145 B CN102811145 B CN 102811145B CN 201210311701 A CN201210311701 A CN 201210311701A CN 102811145 B CN102811145 B CN 102811145B
Authority
CN
China
Prior art keywords
temperature
network equipment
temperature data
infiniband
identification number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210311701.8A
Other languages
English (en)
Other versions
CN102811145A (zh
Inventor
赵振伟
王卫钢
陈进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201210311701.8A priority Critical patent/CN102811145B/zh
Publication of CN102811145A publication Critical patent/CN102811145A/zh
Application granted granted Critical
Publication of CN102811145B publication Critical patent/CN102811145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开的网络中板卡的温度监测方法,包括:具有无限带宽Infiniband板卡的网络设备将携带有网络设备的标识号温度数据信息发送给温度采集下位机,其中温度数据信息是Infiniband板卡的温度数据信息,所述标识号是网络设备在网络中的标识号;温度采集下位机将从各具有Infiniband板卡的网络设备接收到的携带有网络设备的标识号的温度数据信息发送给温度服务器;温度服务器接收携带有网络设备的标识号的温度数据信息,并根据网络设备的标识号将该网络设备的温度数据与预设置的温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。本发明还公开了温度监测系统。采用本发明,可以对网络中的具有Infiniband板卡的网络设备进行温度监测。

Description

一种网络中板卡的温度监测方法及温度监测系统
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种网络中板卡的温度监测方法及温度监测系统。
背景技术
无线带宽Infiniband技术是一种开放标准的高带宽、高速网络互联技术,广泛应用于服务器与服务器(比如复制,分布式工作等),服务器和存储设备(比如存储区域网络SAN和直接存储附件)以及服务器和网络之间(比如LAN、WAN和因特网)的通信。目前服务器领域Infiniband技术的数据速率已经发展到QDR(QuadDataRate,4倍数据倍率)和FDR(FourteenDataRate,14倍数据倍率),分别为每端口40Gbps和56Gbps。
对于这些高速的Infiniband网卡、交换机等,网络通信中每个节点是否正常运行跟服务器及交换机的散热情况有很大的关系,如果散热不良,则芯片无法正常工作,可能会使网络工作异常甚至瘫痪,因此监控Infiniband板卡的温度非常重要,这对于板卡的故障原因分析定位等也有很大的帮助。
目前服务器领域,有的没有温度监测模块来监测Infiniband网卡及交换机的温度,也有的是在Infiniband板卡上安装了温度传感器,然后将温度传感器测得的温度信息通过系统管理总线(SystemManagementBus,SMBus)传递到管理模块,由管理模块来监控子卡端的温度。
然而,通过SMBus获得板卡温度的方法只用于刀片或机架服务器的子卡端,对于与子卡通过Infiniband网络连接的交换机无法使用,因为交换机只通过Infiniband网络跟各个子卡对应的主机通道适配器(HostChannelAdapter,HCA)卡建立连接。而且,这种温度监测方法只能针对单独的服务器进行监测,并不能监测整个网络中的Infiniband服务器和/或Infiniband交换机的温度。此外,现有通过安装温度传感器来进行温度监测方法只能测出安装位置周围的温度,并不能准确测量出主芯片的内部温度。而且,目前服务器的管理模块没有做到可以查询、分析Infiniband板卡温度历史数据及趋势的功能。
发明内容
为解决现有技术存在的问题,本发明提供了网络中板卡的温度监测方法和温度监测系统,使得对网络中的具有Infiniband板卡的网络设备都进行温度监测。
根据本发明的一方面,提供了一种网络中板卡的温度监测方法,包括:
具有无限带宽Infiniband板卡的网络设备将携带有所述网络设备的标识号的温度数据信息发送给温度采集下位机,其中所述温度数据信息是所述Infiniband板卡的温度数据信息,所述标识号是所述网络设备在所述网络中的标识号;
所述温度采集下位机将从一个或多个具有Infiniband板卡的网络设备接收到的携带有网络设备的标识号的温度数据信息发送给温度服务器;
所述温度服务器根据接收到的温度数据信息中的网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。
在可选实施例中,所述网络设备装载有包括温度数据模块的Infiniband板卡驱动程序中,所述温度数据模块抓取该网络设备中的Infiniband板卡的温度数据,其中每一网络设备的温度数据模块结合网络设备的标识号抓取温度数据。
在可选实施例中,所述温度数据模块是mget_temp工具,所述mget_temp工具能够实时抓取Infiniband板卡的当前温度数据。
在可选实施例中,所述温度监测方法还包括:所述温度服务器将接收到的携带有网络设备的标识号的温度数据信息进行分类并存储。
在可选实施例中,所述温度服务器在比较出网络设备的温度数据超过预设置的温度阈值时,根据控制规则对该网络设备进行相应的控制。
根据本发明的另一方面,提供了一种温度监测系统,包括温度采集下位机和温度服务器,其中:
所述温度采集下位机用于从一个或多个具有无限带宽Infiniband板卡的网络设备接收携带有网络设备的标识号的温度数据信息,并发送给温度服务器,其中所述温度数据信息是所述Infiniband板卡的温度数据信息,所述标识号是所述网络设备在所述网络中的标识号;
所述温度服务器用于接收携带有网络设备的标识号的温度数据信息,并根据网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。
在可选实施例中,所述温度监测系统还包括:设置在Infiniband板卡驱动程序中的温度数据模块,其中所述Infiniband板卡驱动程序装载在网络设备上,所述温度数据模块用于抓取所述网络设备中的Infiniband板卡的温度数据,其中所述温度数据模块结合所述网络设备的标识号抓取温度数据;以及,所述网络设备将携带有网络设备的标识号的温度数据信息发送给温度采集下位机。
在可选实施例中,所述温度数据模块是mget_temp工具,所述mget_temp工具能够实时抓取Infiniband板卡的当前温度数据。
在可选实施例中,所述温度服务器还用于将接收到的携带有网络设备的标识号的温度数据信息进行分类并存储。
在可选实施例中,所述温度服务器还用于在比较出网络设备的温度数据超过预设置的温度阈值时,根据控制规则对该网络设备进行相应的控制。
本发明实施例的网络中板卡的温度监测方法和温度监测系统,通过获取对网络中的具有Infiniband板卡的网络设备的温度信息,使得可以对网络中的部分或全部Infinband网络设备都进行温度监测,从而可以更有效地管理和运用Infinband网络。
附图说明
图1是根据本发明一实施例的对具有Infiniband板卡的网络设备进行温度监测的温度监测系统的结构示意图。
图2是根据本发明一实施例的对具有Infiniband板卡的网络设备进行温度监测的方法流程图。
具体实施方式
下面结合附图对本发明进行详细说明。
图1是根据本发明一实施例的对具有Infiniband板卡的网络设备进行温度监测的温度监测系统的结构示意图。
参考图1,温度监测系统包括温度采集下位机30和温度服务器40。温度采集下位机30用于从各网络设备接收携带有网络设备的标识号的温度数据信息,并发送给温度服务器。所述网络设备具有Infiniband板卡,并且所述温度数据信息是Infiniband板卡的温度数据信息。在Infiniband网络中,网络设备包括服务器集群中的具有Infiniband板卡的服务器10和Infiniband交换机20。
具体地,可以是选择服务器集群中的一台服务器作为温度采集下位机30。温度采集下位机30可以收集整个网络上的部分或全部Infiniband板卡的温度信息。
在可选实施例中,温度采集下位机30在整个网络的实时温度信息抓取完之后将信息打包,然后通过TCP/IP协议将数据包传输到温度服务器40。
温度服务器40用于接收携带有网络设备的标识号的温度数据信息,并根据网络设备的标识号将该网络设备的温度数据与预设置的温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。
在可选实施例中,温度服务器40将温度数据包进行分类存储到数据库,这样使得温度服务器可以对数据库中的温度数据进行历史查询和分析。
在一实施例中,具有Infiniband板卡的服务器和/或Infiniband交换机装载有Infiniband板卡驱动程序。驱动程序中设置有温度数据模块,该温度数据模块用于抓取网络设备中的Infiniband板卡的温度数据,其中所述温度数据模块结合所述网络设备在Infiniband网络中的标识号抓取温度数据。
网络中,每个具有Infiniband板卡的服务器和/或Infiniband交换机会有一个标识号,该标识号用于该网络设备在网络中的逻辑位置。
然后,各网络设备将携带有网络设备的标识号的温度数据信息发送给温度采集下位机。
例如,温度数据模块可以是现有Infiniband驱动程序包中的mget_temp工具,该mget_temp工具可以结合Infiniband网络集群中每个节点的Lid号(即网络设备的标识号)抓取节点的温度数据。由于每个节点的Lid号唯一,因此可以实时抓取网络设备中的Infiniband板卡的当前温度数据。
在可选实施例中,温度服务器40还用于在比较出网络设备的温度数据超过预设置的温度阈值时,根据控制规则对该网络设备进行相应的控制。
在实施例中,可以对每一网络设备都设置温度阈值。例如温度阈值为90度,如果某一网络设备的温度数据大于90度,则温度服务器40会产生提示信息。温度监测系统可以通过显示模块来显示提示信息,也可以通过声音模块进行提示。
可选地,温度阈值可以包括第一阈值和第二阈值等。例如,当某一网络设备的温度数据大于第一阈值,小于第二阈值时,温度服务器指示对网络设备加大散热能力;而另一网络设备的温度数据大于第二阈值时,温度服务器对该网络设备发出关机命令,从而使得该网络设备停止工作。
此外,通过本发明实施例的温度监控系统还可以方便网络或服务器集群维护人员针对超出温度阈值的网络设备去查找网络出错情况,从而提高维护效率。
图2是根据本发明一实施例的对具有Infiniband板卡的网络设备进行温度监测的方法流程图。参考图2,对网络中的板卡进行温度监测的方法包括:
S101,网络设备将携带有该网络设备的标识号的温度数据信息发送给温度采集下位机,其中所述网络设备具有无限带宽Infiniband板卡,并且所述温度数据信息是所述Infiniband板卡的温度数据信息;
S102,温度采集下位机将从一个或多个具有Infiniband板卡的网络设备接收到的携带有网络设备的标识号的温度数据信息发送给温度服务器;
S103,温度服务器接收温度采集下位机发送得携带有网络设备的标识号的温度数据信息,并根据网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。此处,预设置的相应温度阈值是指对于不同的网络设备可以设置不同的温度阈值。例如,对于Infiniband服务器和Infiniband交换机可以具有不同的温度阈值。
在可选实施例中,网络设备利用装载的Infiniband板卡驱动程序中的温度数据模块抓取该网络设备中的Infiniband板卡的温度数据,其中所述温度数据模块结合该网络设备在Infiniband网络中的标识号抓取温度数据。
在一实施例中,所述温度数据模块是mget_temp工具,所述mget_temp工具能够实时抓取Infiniband板卡的当前温度数据。
在可选实施例中,所述温度监测方法还包括:所述温度服务器将接收到的携带有网络设备的标识号的温度数据信息进行分类并存储。
在可选实施例中,所述温度服务器在比较出网络设备的温度数据超过预设置的温度阈值时,根据控制规则对该网络设备进行相应的控制。
本发明实施例的温度监控系统或温度监控方法可以将各个时间段的整个网络节点中的Infiniband板卡的温度数据都采集并存储下来以供后续分析,避免了现有技术中只能实时显示,无法记录的缺点。通过mget_temp工具抓取的温度数据比传统板载温度传感器测量的方式更接近实际温度。进一步地,可以对整个网络中的网络设备进行温度监控和管理,从而能够提高维护人员对网络的维护管理能力和温度分析能力。例如,如果监测到网络设备的温度一直升高,则需要对机房设备加大散热能力。又如,在网络出现异常情况时,可以通过温度对比找出是否跟温度过高导致板卡工作不正常有关。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络中板卡的温度监测方法,包括:
具有无限带宽Infiniband板卡的网络设备将携带有所述网络设备的标识号的温度数据信息发送给温度采集下位机,其中所述温度数据信息是所述Infiniband板卡的温度数据信息,所述标识号是所述网络设备在所述网络中的标识号;
所述温度采集下位机将从一个或多个具有Infiniband板卡的网络设备接收到的携带有网络设备的标识号的温度数据信息发送给温度服务器;
所述温度服务器根据接收到的温度数据信息中的网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。
2.根据权利要求1所述的温度监测方法,其特征在于:
所述网络设备装载有包括温度数据模块的Infiniband板卡驱动程序,所述温度数据模块抓取该网络设备中的Infiniband板卡的温度数据,其中每一网络设备的温度数据模块结合网络设备的标识号抓取温度数据。
3.根据权利要求2所述的温度监测方法,其特征在于:
所述温度数据模块是mget_temp工具,所述mget_temp工具能够实时抓取Infiniband板卡的当前温度数据。
4.根据权利要求3所述的温度监测方法,其特征在于,所述温度监测方法还包括:
所述温度服务器将接收到的携带有网络设备的标识号的温度数据信息进行分类并存储。
5.根据权利要求3所述的温度监测方法,其特征在于,所述温度服务器在比较出网络设备的温度数据超过预设置的温度阈值时,根据控制规则对该网络设备进行相应的控制。
6.一种温度监测系统,包括温度采集下位机和温度服务器,其中:
所述温度采集下位机用于从一个或多个具有无限带宽Infiniband板卡的网络设备接收携带有网络设备的标识号的温度数据信息,并发送给温度服务器,其中所述温度数据信息是所述Infiniband板卡的温度数据信息,所述标识号是所述网络设备在所述网络中的标识号;
所述温度服务器用于接收携带有网络设备的标识号的温度数据信息,并根据网络设备的标识号将该网络设备的温度数据与预设置的相应温度阈值比较,在比较出该网络设备的温度数据超过所述温度阈值时,产生该网络设备温度过热的提示。
7.根据权利要求6所述的温度监测系统,其特征在于,所述温度监测系统还包括:
设置在Infiniband板卡驱动程序中的温度数据模块,其中所述Infiniband板卡驱动程序装载在网络设备上,所述温度数据模块用于抓取所述网络设备中的Infiniband板卡的温度数据,其中所述温度数据模块结合所述网络设备的标识号抓取温度数据;
所述网络设备将携带有网络设备的标识号的温度数据信息发送给温度采集下位机。
8.根据权利要求7所述的温度监测系统,其特征在于,所述温度数据模块是mget_temp工具,所述mget_temp工具能够实时抓取Infiniband板卡的当前温度数据。
9.根据权利要求8所述的温度监测系统,其特征在于:
所述温度服务器还用于将接收到的携带有网络设备的标识号的温度数据信息进行分类并存储。
10.根据权利要求8所述的温度监测系统,其特征在于:
所述温度服务器还用于在比较出网络设备的温度数据超过预设置的温度阈值时,根据控制规则对该网络设备进行相应的控制。
CN201210311701.8A 2012-08-28 2012-08-28 一种网络中板卡的温度监测方法及温度监测系统 Active CN102811145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210311701.8A CN102811145B (zh) 2012-08-28 2012-08-28 一种网络中板卡的温度监测方法及温度监测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210311701.8A CN102811145B (zh) 2012-08-28 2012-08-28 一种网络中板卡的温度监测方法及温度监测系统

Publications (2)

Publication Number Publication Date
CN102811145A CN102811145A (zh) 2012-12-05
CN102811145B true CN102811145B (zh) 2015-12-09

Family

ID=47234732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210311701.8A Active CN102811145B (zh) 2012-08-28 2012-08-28 一种网络中板卡的温度监测方法及温度监测系统

Country Status (1)

Country Link
CN (1) CN102811145B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104514742A (zh) * 2014-07-16 2015-04-15 浪潮电子信息产业股份有限公司 采集服务器系统内部立体空间温度服务于风扇调控的方法
CN109781283A (zh) * 2019-01-22 2019-05-21 上海宽带技术及应用工程研究中心 机柜板卡温度测试方法及装置
US11063851B2 (en) 2019-10-30 2021-07-13 Verizon Patent And Licensing Inc. Systems and methods for thermal mitigation of user equipment
CN112306814A (zh) * 2020-11-13 2021-02-02 苏州浪潮智能科技有限公司 网卡温度测量方法、装置、计算机设备及存储介质
CN113075976B (zh) * 2021-03-05 2023-03-24 山东英信计算机技术有限公司 一种服务器集群的备援散热系统、方法及介质
CN114124655B (zh) * 2021-10-20 2024-03-12 曙光信息产业(北京)有限公司 网络监控方法、系统、装置、计算机设备和存储介质
CN116359658A (zh) * 2023-05-31 2023-06-30 广东电网有限责任公司湛江供电局 一种电力设备异常判断方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1929410A (zh) * 2006-09-04 2007-03-14 曙光信息产业(北京)有限公司 一种智能化机群监控系统
CN101621424A (zh) * 2009-05-07 2010-01-06 曙光信息产业(北京)有限公司 一种Infiniband交换机智能监控方法
CN102055611A (zh) * 2010-12-02 2011-05-11 电子科技大学 一种低功耗无线数据采集系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1929410A (zh) * 2006-09-04 2007-03-14 曙光信息产业(北京)有限公司 一种智能化机群监控系统
CN101621424A (zh) * 2009-05-07 2010-01-06 曙光信息产业(北京)有限公司 一种Infiniband交换机智能监控方法
CN102055611A (zh) * 2010-12-02 2011-05-11 电子科技大学 一种低功耗无线数据采集系统

Also Published As

Publication number Publication date
CN102811145A (zh) 2012-12-05

Similar Documents

Publication Publication Date Title
CN102811145B (zh) 一种网络中板卡的温度监测方法及温度监测系统
CN202285113U (zh) 配电单元控制系统
CN109768870A (zh) 一种基于主动探测技术的工控网络资产发现方法及系统
CN110443908A (zh) 一种基于无人机的电力巡检方法及系统
US20070234425A1 (en) Multistep integrated security management system and method using intrusion detection log collection engine and traffic statistic generation engine
CN102158379B (zh) 一种针对保障性住宅住户身份识别网络管理系统及方法
CN106996367A (zh) 泵站运行的感知报警系统及感知报警方法
CN110995785A (zh) 基于物联网的低压配电网云平台
US20130198362A1 (en) System for Identifying a Server to be Decommissioned
CN108282355B (zh) 云桌面系统中设备巡检装置
CN115878356A (zh) 磁盘故障预测方法及装置
CN103428021A (zh) 机柜级服务器、机柜级服务器节点信息管理方法和系统
JP7019479B2 (ja) 受配電設備の監視システム
CN111679050A (zh) 基于物联网的水质监测及预警系统
CN107506281A (zh) 一种多路电源监控系统及方法
CN106330567A (zh) 一种服务器集群的服务器管理控制方法及系统
CN203365649U (zh) 一种带故障诊断仪的锂电池监控系统
CN109039278A (zh) 一种光伏组件的接线盒及监控方法、系统
CN106899420A (zh) 云端监控的警示设备
CN115494405A (zh) 电池监测系统及其异常处理方法、电子设备、存储介质
CN104483564A (zh) 电力计量自动化终端故障数据记录装置及记录方法
CN104410376A (zh) 一种带有故障监控的功率放大器系统
CN108174399A (zh) 一种终端设备的数据处理方法及系统、设备
CN103576673A (zh) 一种机载可替换单元检测系统及检测方法
CN205453732U (zh) 云端监控的警示设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 100193 Beijing, Haidian District, northeast Wang West Road, building 8, No. 36

Applicant after: Dawning Information Industry (Beijing) Co.,Ltd.

Address before: 100193 Shuguang building, Zhongguancun Software Park, Haidian District, Beijing

Applicant before: Dawning Information Industry (Beijing) Co.,Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Calendar Army

Inventor after: Zhao Zhenwei

Inventor after: Wang Weigang

Inventor after: Chen Jin

Inventor before: Zhao Zhenwei

Inventor before: Wang Weigang

Inventor before: Chen Jin

COR Change of bibliographic data
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220728

Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.