CN108880916A - 一种基于iic总线的故障定位方法及系统 - Google Patents

一种基于iic总线的故障定位方法及系统 Download PDF

Info

Publication number
CN108880916A
CN108880916A CN201810953526.XA CN201810953526A CN108880916A CN 108880916 A CN108880916 A CN 108880916A CN 201810953526 A CN201810953526 A CN 201810953526A CN 108880916 A CN108880916 A CN 108880916A
Authority
CN
China
Prior art keywords
temperature
address
iic bus
preset temperature
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810953526.XA
Other languages
English (en)
Other versions
CN108880916B (zh
Inventor
岳远斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810953526.XA priority Critical patent/CN108880916B/zh
Publication of CN108880916A publication Critical patent/CN108880916A/zh
Application granted granted Critical
Publication of CN108880916B publication Critical patent/CN108880916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40052High-speed IEEE 1394 serial bus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种基于IIC总线的故障定位方法及系统,方法包括:获取BMC中的预设温度;扫描IIC总线挂载的设备地址;获取每个设备地址的设备温度;根据所述预设温度以及设备温度进行故障定位。本发明当服务器中读取的预设温度与采集到的设备温度不同时,将读取到的预设温度与经过IIC地址扫描后采集到的设备温度保存至预设文件中,通过比对同一地址下的两个温度是否一致确定发生温度采集故障的地址,进行快速精准的故障定位,整个操作过程中服务器不需要停机,能够提高维护效率。

Description

一种基于IIC总线的故障定位方法及系统
技术领域
本发明涉及服务器故障维修技术领域,特别是涉及一种基于IIC总线的故障定位方法及系统。
背景技术
随着大数据、云计算、人工智能时代的到来,互联网业务量和数据量出现猛烈增长,计算量及计算频率随之增大;在服务器系统中,随着用于存储和计算的数据量的增加,服务器的运载压力越来越大,其核心部件如CPU、内存、硬盘等发热量变大,机器内部温度升高。在服务器运行过程中,如果环境温度过高,会导致服务器整体工作在一个高温环境中,此时CPU等核心部件本体的温度会更高,当CPU的温度达到一定高度时,服务器就会发生降频,严重影响服务器的计算性能;如果温度继续升高,服务器会发生异常关机,由此所引发的后果则是客户的业务中断,数据丢失,造成的损失不可预估;因此我们需要实时监控服务器的环境温度,保证其在合理温度范围内运行。
服务器系统中,我们通常使用BMC(Baseboard Management Controller,基板管理控制器)来对主板的健康状况进行监控和管理。主板上的一些重要参数如电压、温度、功耗等都是通过BMC监控记录的,服务器的温度监控也是通过BMC内部的IIC模块实现的。服务器温度主要包含环境温度、CPU/内存/硬盘等关键器件温度、入风口温度、出风口温度等等;温度的监控与记录方式基本是一样的,主要包含以下几个部分:一是,BMC通过IIC总线收集服务器关键部位及关键器件的温度寄存器信息,然后在BMC内部进行寄存器数值转化,形成我们所能识别的“摄氏度”,不同器件的总线地址是完全不一样的,因此,会通过多条IIC总线获取多个器件的温度信息;二是,获取到的温度信息会记录在BMC芯片的寄存器中,并显示在BMC WEB界面,以便于实时的观察温度状态变化;对于服务器中所有的需要温度监控的器件,在出厂前均已经定义好唯一的地址,根据需求被监控起来。
但是有时客户为了满足业务新的需求,在服务器中增加了自己单独购买的设备,而对于设备的地址也是设备厂商已经定义好的,这就会导致新增设备的地址和出厂前已定义设备的地址冲突,导致温度误读取,使用户难以定位故障位置,影响了维护效率。
发明内容
本发明实施例中提供了一种基于IIC总线的故障定位方法及系统,以解决现有技术中维护效率的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种基于IIC总线的故障定位方法,包括:
获取BMC中的预设温度;
扫描IIC总线挂载的设备地址;
获取每个设备地址的设备温度;
根据所述预设温度以及设备温度进行故障定位。
优选地,所述获取BMC中的预设温度具体包括:
通过IPMI抓取BMC中的预设温度。
优选地,获取每个设备地址的设备温度具体包括:
将IIC信号连接至待监控地址;
读取待监控地址对应的温度寄存器数值;
对所述温度寄存器数值进行转化获得设备温度。
优选地,对所述温度寄存器数值进行转化获得设备温度具体包括:
将通过温度寄存器数值按比特进行特定转化。
优选地,根据所述预设温度以及设备温度进行故障定位具体包括:
将所述预设温度以及设备温度保存至同一预设文件下;
从所述预设文件下读取一个设备地址的预设温度和设备温度;
比较同一设备地址对应的预设温度和设备温度是否一致;
如果是则读取下一设备地址的预设温度和设备温度,否则作为故障地址进行告警。
优选地,所述方法还包括:
当全部设备地址的预设温度和设备温度比对完毕后将故障地址进行统一显示。
优选地,所述预设温度以及设备温度按预设时间轮询获取。
本发明第二方面提供了一种基于IIC总线的故障定位系统,包括:地址扫描模块、温度采集模块、存储模块以及判断报警模块,其中,所述地址扫描模块连接待监控地址、温度采集模块以及BMC;所述温度采集模块连接待监控地址以及存储模块;所述存储模块以及判断报警模块通信连接。
优选地,所述温度采集模块包括设备温度采集单元、预设温度采集单元以及采集时间控制单元,其中,所述采集时间控制单元分别与所述设备温度采集单元、预设温度采集单元连接;所述设备温度采集单元以及预设温度采集单元分别与所述存储模块连接。
由以上技术方案可见,本发明当服务器中读取的预设温度与采集到的设备温度不同时,将读取到的预设温度与经过IIC地址扫描后采集到的设备温度保存至预设文件中,通过比对同一地址下的两个温度是否一致确定发生温度采集故障的地址,进行快速精准的故障定位,整个操作过程中服务器不需要停机,能够提高维护效率。
附图说明
了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于IIC总线的故障定位方法的流程示意图;
图2为本发明实施例提供的获取设备地址设备温度的方法的流程示意图;
图3为本发明实施例提供的根据预设温度以及设备温度进行故障定位的方法的流程示意图;
图4为本发明实施例提供的一种基于IIC总线的故障定位系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
参见图1,为本发明实施例提供的一种基于IIC总线的故障定位方法的流程示意图,如图1所示,本发明实施例提供的基于IIC总线的故障定位方法,包括:
S10:获取BMC中的预设温度。
用户根据实际情况对每个待监控地址设置预设温度,该预设温度为对应待监控地址允许的温度范围阈值,超过才预设温度则对应的设备地址温度异常将会发生告警,本发明实施例中,将预设温度保存在BMC中,通过IPMI抓取BMC中的预设温度,能够提高预设温度读取效率。
S20:扫描IIC总线挂载的设备地址。
现有技术中导致难以进行故障定位就是因为不能准确的确定发生故障的地址,因此,在本发明实施例中,通过IIC总线上挂载的设备地址,可以确定将服务器自身定义的地址与外部搭载的设备地址进行区分。
S30:获取每个设备地址的设备温度。
根据扫描后的设备地址采集每个待监控地址的设备温度,参见图2,为本发明实施例提供的获取设备地址设备温度的方法的流程示意图,采集过程具体包括:
S31:将IIC信号连接至待监控地址。
将BMC的IIC信号连接至待监控地址,通知BMC控制IIC总线扫描待监控地址后根据扫描的结果确定对应的温度寄存器。
S32:读取待监控地址对应的温度寄存器数值。
通过IIC总线读取待监控地址对应的温度寄存器的数值,需要说明的是,对于监控对象为设备的待监控地址,IIC总线直接采集设备中温度寄存器的数值,对于监控对象为某一位置(如出风口、入风口)的待监控地址,在监控位置处设置温度传感器,IIC采集该温度传感器中的温度寄存器的值。
S33:对所述温度寄存器数值进行转化获得设备温度。
IIC总线从温度寄存器中采集的温度信息的格式为16进制的寄存器格式,不能直观的显示给用户,因此需要进行格式转化,本发明实施例中通过采用将温度寄存器数值按每比特设置对应的温度值的方法进行转化,例如:bit7=1代表32℃,bit7=0代表0℃。
S40:根据所述预设温度以及设备温度进行故障定位。
参见图3,为本发明实施例提供的根据预设温度以及设备温度进行故障定位的方法的流程示意图,如图3所示,定位过程具体包括:
S41:将所述预设温度以及设备温度保存至同一预设文件下。
通过IIC总线采集到的设备温度以及读取的预设温度均保存在同一预设文件下,便于后续比较时的读取。
S42:从所述预设文件下读取一个设备地址的预设温度和设备温度。
从预设文件中按IIC总线扫描到的地址为依据读取该地址对应的预设温度和采集的设备温度。
S43:比较同一设备地址对应的预设温度和设备温度是否一致。
如果是则重新执行步骤S42读取下一设备地址的预设温度和设备温度,否则执行步骤S44:作为故障地址进行告警。
因为可能存在多个故障点发生温度告警故障,因此,本发明实施例中在将所有设备地址对应的预设温度以及设备温度对比完成后,将比对结果不一致的设备地址进行统一显示。
服务器的设备温度是随着设备的运行发生变化的,因此设备温度是一个动态变化量,为了保证能够实现实时监测,所述预设温度以及设备温度按预设时间轮询获取,轮询的预设时间又用户自行设定。
参加图4,为本发明实施例提供的一种基于IIC总线的故障定位系统的结构示意图,如图4所示,本发明实施例提供的基于IIC总线的故障定位系统,包括:地址扫描模块、温度采集模块、存储模块以及判断报警模块
所述地址扫描模块连接待监控地址、温度采集模块以及BMC;所述温度采集模块连接待监控地址以及存储模块;所述存储模块以及判断报警模块通信连接,其中,所述温度采集模块包括设备温度采集单元、预设温度采集单元以及采集时间控制单元,所述采集时间控制单元分别与所述设备温度采集单元、预设温度采集单元连接;所述设备温度采集单元以及预设温度采集单元分别与所述存储模块连接。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于IIC总线的故障定位方法,其特征在于,包括:
获取BMC中的预设温度;
扫描IIC总线挂载的设备地址;
获取每个设备地址的设备温度;
根据所述预设温度以及设备温度进行故障定位。
2.根据权利要求1所述的基于IIC总线的故障定位方法,其特征在于,所述获取BMC中的预设温度具体包括:
通过IPMI抓取BMC中的预设温度。
3.根据权利要求1所述的基于IIC总线的故障定位方法,其特征在于,获取每个设备地址的设备温度具体包括:
将IIC信号连接至待监控地址;
读取待监控地址对应的温度寄存器数值;
对所述温度寄存器数值进行转化获得设备温度。
4.根据权利要求1所述的基于IIC总线的故障定位方法,其特征在于,对所述温度寄存器数值进行转化获得设备温度具体包括:
将通过温度寄存器数值按比特进行特定转化。
5.根据权利要求1所述的基于IIC总线的故障定位方法,其特征在于,根据所述预设温度以及设备温度进行故障定位具体包括:
将所述预设温度以及设备温度保存至同一预设文件下;
从所述预设文件下读取一个设备地址的预设温度和设备温度;
比较同一设备地址对应的预设温度和设备温度是否一致;
如果是则读取下一设备地址的预设温度和设备温度,否则作为故障地址进行告警。
6.根据权利要求5所述的基于IIC总线的故障定位方法,其特征在于,所述方法还包括:
当全部设备地址的预设温度和设备温度比对完毕后将故障地址进行统一显示。
7.根据权利要求1-6任一所述的基于IIC总线的故障定位方法,其特征在于,所述预设温度以及设备温度按预设时间轮询获取。
8.一种基于IIC总线的故障定位系统,其特征在于,包括:地址扫描模块、温度采集模块、存储模块以及判断报警模块,其中,所述地址扫描模块连接待监控地址、温度采集模块以及BMC;所述温度采集模块连接待监控地址以及存储模块;所述存储模块以及判断报警模块通信连接。
9.根据权利要求8所述的基于IIC总线的故障定位系统,其特征在于,所述温度采集模块包括设备温度采集单元、预设温度采集单元以及采集时间控制单元,其中,所述采集时间控制单元分别与所述设备温度采集单元、预设温度采集单元连接;所述设备温度采集单元以及预设温度采集单元分别与所述存储模块连接。
CN201810953526.XA 2018-08-21 2018-08-21 一种基于iic总线的故障定位方法及系统 Active CN108880916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810953526.XA CN108880916B (zh) 2018-08-21 2018-08-21 一种基于iic总线的故障定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810953526.XA CN108880916B (zh) 2018-08-21 2018-08-21 一种基于iic总线的故障定位方法及系统

Publications (2)

Publication Number Publication Date
CN108880916A true CN108880916A (zh) 2018-11-23
CN108880916B CN108880916B (zh) 2021-06-29

Family

ID=64321184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810953526.XA Active CN108880916B (zh) 2018-08-21 2018-08-21 一种基于iic总线的故障定位方法及系统

Country Status (1)

Country Link
CN (1) CN108880916B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506182A (zh) * 2020-03-17 2020-08-07 上海申矽凌微电子科技有限公司 寄存器地址可配置的温度传感器

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621424A (zh) * 2009-05-07 2010-01-06 曙光信息产业(北京)有限公司 一种Infiniband交换机智能监控方法
CN102169463A (zh) * 2011-04-28 2011-08-31 杭州华三通信技术有限公司 一种基于iic总线的制造信息的获取方法和设备
CN103454016A (zh) * 2013-09-25 2013-12-18 浪潮电子信息产业股份有限公司 一种基于服务器的针对系统温度传感器故障的处理方法
CN104298625A (zh) * 2014-10-11 2015-01-21 龙迅半导体科技(合肥)有限公司 一种iic设备地址的检测方法及装置
CN104486456A (zh) * 2014-12-11 2015-04-01 山东超越数控电子有限公司 一种基于i2c总线实现配置ip地址的方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置
CN108073540A (zh) * 2018-02-11 2018-05-25 云丁网络技术(北京)有限公司 I2c总线系统、异常设备排查方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621424A (zh) * 2009-05-07 2010-01-06 曙光信息产业(北京)有限公司 一种Infiniband交换机智能监控方法
CN102169463A (zh) * 2011-04-28 2011-08-31 杭州华三通信技术有限公司 一种基于iic总线的制造信息的获取方法和设备
CN103454016A (zh) * 2013-09-25 2013-12-18 浪潮电子信息产业股份有限公司 一种基于服务器的针对系统温度传感器故障的处理方法
CN104298625A (zh) * 2014-10-11 2015-01-21 龙迅半导体科技(合肥)有限公司 一种iic设备地址的检测方法及装置
CN104486456A (zh) * 2014-12-11 2015-04-01 山东超越数控电子有限公司 一种基于i2c总线实现配置ip地址的方法
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置
CN108073540A (zh) * 2018-02-11 2018-05-25 云丁网络技术(北京)有限公司 I2c总线系统、异常设备排查方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506182A (zh) * 2020-03-17 2020-08-07 上海申矽凌微电子科技有限公司 寄存器地址可配置的温度传感器
CN111506182B (zh) * 2020-03-17 2022-05-06 上海申矽凌微电子科技有限公司 寄存器地址可配置的温度传感器

Also Published As

Publication number Publication date
CN108880916B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
JP5284469B2 (ja) パワー・アウトレットとit装置との間の物理的接続性の自動発見
KR102017561B1 (ko) 기계학습 기법에 기반한 기계의 오류 데이터를 검출하기 위한 알고리즘 및 방법
CN100431304C (zh) 基于远程的智能平台管理接口测试系统及方法
US8306782B2 (en) System for monitoring and diagnosing remote devices
CN111353911A (zh) 电力设备运维方法、系统、设备和存储介质
CN110119128B (zh) 一种用于实验室用电设备的监控管理系统
CN102546224A (zh) 服务器的远程管理系统及方法
CN108282355B (zh) 云桌面系统中设备巡检装置
CN103018545B (zh) 整机柜功耗测试方法
CN105389242A (zh) 一种实现批量获取整机柜服务器信息的方法
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
US11126490B2 (en) Apparatus and methods for fault detection in a system consisted of devices connected to a computer network
CN107277193A (zh) 一种基板管理控制器地址管理方法、装置和系统
CN114124655A (zh) 网络监控方法、系统、装置、计算机设备和存储介质
CN114978883B (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
JP2018185774A (ja) 設備管理装置、設備管理システム、プログラムおよび設備管理方法
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
CN108880916A (zh) 一种基于iic总线的故障定位方法及系统
CN109884533A (zh) 电池故障的诊断方法及装置、设备及存储介质
CN109631994A (zh) 操作显控台的自动化检测以及故障定位方法
CN106789185A (zh) 一种基于带外管理的it设备管理方法
KR100953510B1 (ko) 재기동 정보 관리 기능을 구비한 장치
JP7169706B2 (ja) 機械学習手法に基づく機械のエラーデータを検出するためのアルゴリズム及び方法
US20140359109A1 (en) Device monitoring
Atanasov MODELING ASPECTS OF AUTONOMOUS SMART METERING INFORMATION SYSTEMS.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant