CN110851322A - 硬件设备异常监控方法、服务器及计算机可读存储介质 - Google Patents

硬件设备异常监控方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN110851322A
CN110851322A CN201910967009.2A CN201910967009A CN110851322A CN 110851322 A CN110851322 A CN 110851322A CN 201910967009 A CN201910967009 A CN 201910967009A CN 110851322 A CN110851322 A CN 110851322A
Authority
CN
China
Prior art keywords
index
hardware device
hardware
monitoring method
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910967009.2A
Other languages
English (en)
Inventor
何明烨
龙凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910967009.2A priority Critical patent/CN110851322A/zh
Publication of CN110851322A publication Critical patent/CN110851322A/zh
Priority to PCT/CN2020/119081 priority patent/WO2021068814A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored

Abstract

本发明涉及一种硬件监控技术,揭露了一种硬件设备异常监控方法,该方法包括:通过SaltStack管理工具统一设置硬件设备需要监控的各项指标和对应的阈值;通过IPMI接口分别采用预设方式采集所述硬件设备的各项指标数据;获取各项指标所设置的阈值;比较所采集的各项指标数据与对应阈值,判断是否出现异常;当有指标出现异常时,按预设方式发出预警通知。本发明还提供一种服务器及计算机可读存储介质。本发明提供的硬件设备异常监控方法、服务器及计算机可读存储介质能够提高发现异常的及时性,以及处理异常的效率。

Description

硬件设备异常监控方法、服务器及计算机可读存储介质
技术领域
本发明涉及硬件监控技术领域,尤其涉及一种硬件设备异常监控方法、服务器及计算机可读存储介质。
背景技术
随着网络技术的不断进步和信息化进程的加快,机房设备种类和数量越来越多,相应的运维工作也越来越重,如何又快又准确的发现硬件故障问题,成为运维工作中亟需解决的问题。目前,针对各种硬件设备的异常检测,主要方式是人工巡检或是等待机器出现异常后再发现问题、处理问题。上述方式不仅浪费人力,而且效率低下,存在一定的滞后性。若发现问题后运维人员没有可靠的排除故障的方法,完全依赖于联系售后人员来解决问题,不能及时对发现的问题进行修复处理,也会影响硬件设备的工作进度,造成较大损失。另外,随着网络中的设备数量越来越多,运维人员已经不可能走进机房管理每台机器,如何有效进行远程控制管理也就愈加重要。
发明内容
有鉴于此,本发明提出一种硬件设备异常监控方法、服务器及计算机可读存储介质,以解决如何及时发现和处理硬件设备异常的问题。
首先,为实现上述目的,本发明提出一种硬件设备异常监控方法,该方法包括步骤:
通过SaltStack管理工具统一设置硬件设备需要监控的各项指标和对应的阈值;
通过智能平台管理接口IPMI分别采用预设方式采集所述硬件设备的各项指标数据;
获取各项指标所设置的阈值;
比较所采集的各项指标数据与对应阈值,判断是否出现异常;及
当有指标出现异常时,按预设方式发出预警通知。
可选地,该方法还包括步骤:
记录对所述异常的处理反馈信息;
保存所采集的所述各项指标数据和所述处理反馈信息,以便进行回溯操作。
可选地,该方法还包括步骤:
根据历史记录的所述处理反馈信息,筛选出所述异常的优选处理方案;
向用户提示所述优选处理方案,以便用户参照处理所述异常。
可选地,在所述通过SaltStack管理工具统一设置硬件设备需要监控的各项指标和对应的阈值的步骤中:
针对需要监控的多个所述硬件设备以及每个所述硬件设备需要监控的各项指标配置拓扑结构,并将针对各项指标所设置的阈值保存在所述拓扑结构中对应硬件设备和指标所在的节点位置。
可选地,在所述通过智能平台管理接口分别采用预设方式采集所述硬件设备的各项指标数据的步骤中:
遍历所述拓扑结构中的每个节点,向每个所述硬件设备发送相应的智能平台管理接口命令,以进行对应指标的数据采集。
可选地,在所述获取各项指标所设置的阈值的步骤中:
若所述指标为数值数据指标,则从所述SaltStack管理工具的统一设置中获取所述指标对应的报警阈值;若所述指标为非数值数据指标,则在监测到故障时,触发所述发出预警通知的步骤。
可选地,在所述按预设方式发出预警通知的步骤中:
采用页面的方式对所述各项指标进行报警展示,实现可视化预警。
可选地,所述优选处理方案为历史记录的与所述异常对应的处理反馈信息中,处理结果为成功且处理时间最短的处理方案。
此外,为实现上述目的,本发明还提供一种服务器,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的硬件设备异常监控系统,所述硬件设备异常监控系统被所述处理器执行时实现如上述的硬件设备异常监控方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有硬件设备异常监控系统,所述硬件设备异常监控系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的硬件设备异常监控方法的步骤。
相较于现有技术,本发明所提出的硬件设备异常监控方法、服务器及计算机可读存储介质,可以应用IPMI接口结合SaltStack管理工具实现对硬件设备的统一的批量管理和异常监控,统一设置硬件设备需要监控的指标和各项指标对应的阈值,通过IPMI接口采集所述硬件设备的各项指标数据,比较所采集的各项指标数据与对应阈值,判断是否出现异常,当有指标出现异常时,通过页面进行可视化预警。本发明可以基于特定业务场景对需要监控的硬件设备及相应指标和阈值进行自定义配置,针对通过IPMI接口采集的各项指标数据,根据所述配置进行定制化分析并检测报警。对于判断出现异常的指标,通过监控展示平台来达到可视化管理和配置、查询,便于监控的发现、处理,提高了发现异常的及时性,以及处理异常的效率。
附图说明
图1是本发明服务器一可选的硬件架构的示意图;
图2是本发明硬件设备异常监控系统第一实施例的程序模块示意图;
图3是本发明硬件设备异常监控系统第二实施例的程序模块示意图;
图4是本发明硬件设备异常监控系统第三实施例的程序模块示意图;
图5是本发明硬件设备异常监控方法第一实施例的流程示意图;
图6是本发明硬件设备异常监控方法第二实施例的流程示意图;
图7是本发明硬件设备异常监控方法第三实施例的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明服务器2一可选的硬件架构的示意图。
本实施例中,所述服务器2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-13的服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该服务器2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述服务器2的内部存储单元,例如该服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述服务器2的外部存储设备,例如该服务器2上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述服务器2的操作系统和各类应用软件,例如硬件设备异常监控系统200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器2的总体操作。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的硬件设备异常监控系统200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述服务器2与其他电子设备之间建立通信连接。
至此,己经详细介绍了本发明相关设备的硬件结构和功能。下面,将基于上述介绍提出本发明的各个实施例。
首先,本发明提出一种硬件设备异常监控系统200。
参阅图2所示,是本发明硬件设备异常监控系统200第一实施例的程序模块图。
本实施例中,所述硬件设备异常监控系统200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的硬件设备异常监控操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,硬件设备异常监控系统200可以被划分为一个或多个模块。例如,在图2中,所述硬件设备异常监控系统200可以被分割成设置模块201、采集模块202、获取模块203、判断模块204、通知模块205。其中:
所述设置模块201,用于设置硬件设备需要监控的指标和各项指标对应的阈值。
在本实施例中,应用智能平台管理接口(Intelligent Platform ManagementInterface,IPMI)结合SaltStack管理工具实现对硬件设备的统一的批量管理和异常监控。IPMI是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法,是管理基于Intel结构的企业系统中所使用的外围设备采用的一种工业标准。
SaltStack管理工具允许管理员对多个操作系统创建一个一致的管理系统,SaltStack的三大功能包括远程执行、配置管理和云管理。SaltStack作用于仆从和主拓扑。SaltStack与特定的命令结合使用可以在一个或多个下属执行。除了运行远程命令,SaltStack允许管理员使用“grain”。grain可以在SaltStack仆从运行远程查询,因此收集仆从的状态信息并允许管理员在一个中央位置存储信息。SaltStack也可以帮助管理员定义目标系统上的期望状态。这些状态在应用时会用到.sls文件,其中包含了如何在系统上获得所需的状态非常具体的要求。
针对IPMI规格下的底层硬件设备,所述指标可以包含电源、温度、电压、风扇、电池、处理器、内存、硬盘、日志等状态信息。其中,每项指标下面又包含多个细化指标。例如,硬盘状态信息包括RAID卡的芯片版本、状态、缓存状态数据、RAID级别状态等;电源状态信息包括电压、功耗、电源运行状态、出现失电、电源在位数量等;温度状态信息包括CPU温度、主板温度、风扇温度、硬盘温度以及室温等。
并且,所述指标包括数值数据指标和非数值数据指标两类,针对数值数据指标,需要预先设置对应的阈值,在与阈值进行比较后判断是否出现异常;针对非数值数据指标,监测到故障(不能正常工作)时直接报警。例如,监测到电源出现失电时直接报警;而温度和电压等是数值数据,有报警阀值,所述阀值是根据机房的标准和要求,按照实际情况进行设置。
通过SaltStack管理工具,可以对多个所述硬件设备统一进行批量设置。在本实施例中,可以针对需要监控的多个所述硬件设备以及每个硬件设备需要监控的指标配置相应的拓扑结构,例如树形结构等。而针对各项指标所设置的阈值,也保存在所述拓扑结构的相应位置,即所述拓扑结构中与该阈值对应的硬件设备和指标所在的节点位置。
所述采集模块202,用于分别通过预设方式采集所述硬件设备的各项指标数据。
在本实施例中,通过IPMI接口采集所述硬件设备的各项指标数据。IPMI信息通过位于IPMI规格的硬件组件上的基板管理控制器(Baseboard Management Controller,BMC)进行交流。使用低级硬件智能管理而不使用操作系统进行管理,具有两个主要优点:首先,此配置允许进行带外服务器管理;其次,操作系统不必负担传输系统状态数据的任务。用户可以利用IPMI接口监视硬件设备的物理健康特征,如温度、电压、风扇工作状态、电源状态等。此标准适用于不同的服务器拓扑学,以及Windows、Linux、Solaris、Mac或是混合型的操作系统。此外,由于IPMI可在不同的属性值下运作,即使服务器本身的运作不正常,或是由于任何原因而无法提供服务,IPMI仍可正常运作。因此,通过IPMI协议接口,可以对硬件设备进行所述各项指标数据的采集和监控。
在本实施例中,针对需要监控的多个所述硬件设备以及每个硬件设备需要监控的指标配置相应的树形结构,所述采集模块202根据所述树形结构遍历其中的每个节点,向每个硬件设备发送相应的IPMI命令,以进行对应指标的数据采集。
对于远程设备,可以通过SaltStack技术进行远程管理,结合所述IPMI接口远程采集所述各项指标数据。
所述获取模块203,用于获取各项指标所设置的阈值。
具体地,当采集到所述各项指标数据后,分别获取针对所述各项指标所设置的阈值。在本实施例中,针对所述数值数据指标,预先设置有对应的报警阈值,需要获取所述阈值;而针对所述非数值数据指标,不需要获取对应阈值,监测到故障时直接报警。
所述判断模块204,用于比较所采集的各项指标数据与对应阈值,判断是否出现异常。
具体地,将通过IPMI接口采集的所述硬件设备的各项指标数据分别与所获取的对应阈值进行比较。针对所述数值数据指标,根据机房的标准和要求,在所采集到的数据超过或低于(根据实际需要选择)对应阈值时,判断该指标出现异常。针对所述非数值数据指标,在所采集到的数据为发现故障时,直接判断该指标出现异常。
所述通知模块205,用于当有指标出现异常时,按预设方式发出预警通知。
具体地,针对判断出现异常的指标,可以通过多种预设的方式发出预警通知。在本实施例中,可以采用页面的方式对所述各项指标进行报警展示,实现可视化预警。
本实施例提供的硬件设备异常监控系统,可以应用IPMI接口结合SaltStack管理工具实现对硬件设备的统一的批量管理和异常监控,统一设置硬件设备需要监控的指标和各项指标对应的阈值,通过IPMI接口采集所述硬件设备的各项指标数据,比较所采集的各项指标数据与对应阈值,判断是否出现异常,当有指标出现异常时,通过页面进行可视化预警。该系统可以基于特定业务场景对需要监控的硬件设备及相应指标和阈值进行自定义配置,针对通过IPMI接口采集的各项指标数据,根据所述配置进行定制化分析并检测报警。对于判断出现异常的指标,通过监控展示平台来达到可视化管理和配置、查询,便于监控的发现、处理,提高了发现异常的及时性,以及处理异常的效率。
参阅图3所示,是本发明硬件设备异常监控系统200第二实施例的程序模块图。本实施例中,所述的硬件设备异常监控系统200除了包括第一实施例中的所述设置模块201、采集模块202、获取模块203、判断模块204、通知模块205之外,还包括记录模块206、回溯模块207。
所述记录模块206,用于记录对所述异常的处理反馈信息。
具体地,在监控报警页面出现异常预警后,则会由相关的运维人员跟进协调沟通相关人员(例如售后人员)进行进一步的排查和处理异常。当处理完成后,可以将处理记录反馈至系统中,记录对应的处理反馈信息。所述处理反馈信息可以包括异常原因、处理时间、处理过程、处理结果、处理人等。
所述回溯模块207,用于保存所采集的各项指标数据和处理反馈信息,以便进行回溯操作。
具体地,所采集的所述各项指标数据都是存入数据库的,所以所有的数据都是可查询的。至于处理过程,有的是通过邮件、有的是通过事件发起,有的是电话沟通,当记录处理反馈信息后,也是可以回溯的。在本实施例中,在数据库中保存所采集的所述各项指标数据以及对应的处理反馈信息,可以作为后续提供回溯服务的基础。当用户需要进行回溯时,可以查询到所记录的每一项指标数据以及对应的处理反馈信息,以便进行统计分析、硬件优化等进一步处理,有助于更好地进行设备监控和改进。
本实施例提供的硬件设备异常监控系统,可以应用IPMI接口结合saltstack技术,实现对IPMI底层硬件设备的远程及批量管理和采集数据。并且,记录对所述异常的处理反馈信息,并保存所采集的各项指标数据和处理反馈信息,提供回溯服务,便于后续进行回溯时查询所述数据和反馈信息,以进行统计分析和优化等。对于判断出现异常的指标,通过监控展示平台来达到可视化管理和配置、查询,便于监控的发现、处理和回溯,提高了发现异常的及时性,以及处理异常的效率。
参阅图4所示,是本发明硬件设备异常监控系统200第三实施例的程序模块图。本实施例中,所述的硬件设备异常监控系统200除了包括第二实施例中的所述设置模块201、采集模块202、获取模块203、判断模块204、通知模块205、记录模块206、回溯模块207之外,还包括筛选模块208、提示模块209。
所述筛选模块208,用于当有指标出现异常时,根据历史记录的所述处理反馈信息,筛选出所述异常的优选处理方案。
具体地,由于之前每一次发现和处理各个指标的异常之后,都会记录对应的处理反馈信息,并存入数据库以供查询,因此当判断出有指标出现异常时,可以从数据库中查询所述异常对应的每条历史记录。例如,当出现主板温度过高的异常时,可以查询到以往每次主板温度过高时的处理反馈信息。然后,根据所查询到的每条历史记录中的处理过程和处理结果等信息,筛选出所述异常的优选处理方案。所述优选处理方案可以是历史记录中处理结果为成功且处理时间最短的处理方案。
在其他实施例中,所述筛选模块208还可以根据预先设置的异常问题、异常原因、优选处理方案之间的映射关系表(可以由设备供应商提供),直接查询出所述异常对应的优选处理方案。或者,所述筛选模块208也可以通过网络或者大数据查询其他机房针对所述异常的处理反馈信息(不局限于本地的历史记录),从中筛选出所述优选处理方案。
所述提示模块209,用于向用户提示所述优选处理方案,以便用户参照处理所述异常。
具体地,当所述筛选模块208筛选出所述异常对应的优选处理方案后,通过预设方式向用户提示所述优选处理方案(例如采用页面的方式进行展示)。所述优选处理方案的内容包括所述异常对应的异常原因和处理方法等。
假设出现异常时用户只能获得预警,但是对于其故障的排除没有明确和有效的方法,这时候基本上都要联系售后客服来对此问题进行解决,且对于一些复杂的异常,售后人员可能也不太能快速定位并解决该问题,这样既浪费时间又浪费人力,并提高了维护成本。而本实施例中,用户根据提示,可以获知所述异常的优选处理方案,从而自行处理所述异常,而不需要联系和等待售后人员进行处理。
本实施例提供的硬件设备异常监控系统,可以根据历史记录的处理反馈信息,针对发现的各种异常提供对应的可靠的优选处理方案,提高了异常修复的效率和准确性,节省时间和人力,降低了机房硬件设备的维护成本。
此外,本发明还提出一种硬件设备异常监控方法。
参阅图5所示,是本发明硬件设备异常监控方法第一实施例的流程示意图。在本实施例中,根据不同的需求,图5所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
该方法包括以下步骤:
步骤S400,设置硬件设备需要监控的指标和各项指标对应的阈值。
在本实施例中,应用IPMI结合SaltStack管理工具实现对硬件设备的统一的批量管理和异常监控。IPMI是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法,是管理基于Intel结构的企业系统中所使用的外围设备采用的一种工业标准。
SaltStack管理工具允许管理员对多个操作系统创建一个一致的管理系统,SaltStack的三大功能包括远程执行、配置管理和云管理。SaltStack作用于仆从和主拓扑。SaltStack与特定的命令结合使用可以在一个或多个下属执行。除了运行远程命令,SaltStack允许管理员使用“grain”。grain可以在SaltStack仆从运行远程查询,因此收集仆从的状态信息并允许管理员在一个中央位置存储信息。SaltStack也可以帮助管理员定义目标系统上的期望状态。这些状态在应用时会用到.sls文件,其中包含了如何在系统上获得所需的状态非常具体的要求。
针对IPMI规格下的底层硬件设备,所述指标可以包含电源、温度、电压、风扇、电池、处理器、内存、硬盘、日志等状态信息。其中,每项指标下面又包含多个细化指标。例如,硬盘状态信息包括RAID卡的芯片版本、状态、缓存状态数据、RAID级别状态等;电源状态信息包括电压、功耗、电源运行状态、出现失电、电源在位数量等;温度状态信息包括CPU温度、主板温度、风扇温度、硬盘温度以及室温等。
并且,所述指标包括数值数据指标和非数值数据指标两类,针对数值数据指标,需要预先设置对应的阈值,在与阈值进行比较后判断是否出现异常;针对非数值数据指标,监测到故障(不能正常工作)时直接报警。例如,监测到电源出现失电时直接报警;而温度和电压等是数值数据,有报警阀值,所述阀值是根据机房的标准和要求,按照实际情况进行设置。
通过SaltStack管理工具,可以对多个所述硬件设备统一进行批量设置。在本实施例中,可以针对需要监控的多个所述硬件设备以及每个硬件设备需要监控的指标配置相应的拓扑结构,例如树形结构等。而针对各项指标所设置的阈值,也保存在所述拓扑结构的相应位置,即所述拓扑结构中与该阈值对应的硬件设备和指标所在的节点位置。
步骤S402,分别通过预设方式采集所述硬件设备的各项指标数据。
在本实施例中,通过IPMI接口采集所述硬件设备的各项指标数据。IPMI信息通过位于IPMI规格的硬件组件上的BMC进行交流。使用低级硬件智能管理而不使用操作系统进行管理,具有两个主要优点:首先,此配置允许进行带外服务器管理;其次,操作系统不必负担传输系统状态数据的任务。用户可以利用IPMI接口监视硬件设备的物理健康特征,如温度、电压、风扇工作状态、电源状态等。此标准适用于不同的服务器拓扑学,以及Windows、Linux、Solaris、Mac或是混合型的操作系统。此外,由于IPMI可在不同的属性值下运作,即使服务器本身的运作不正常,或是由于任何原因而无法提供服务,IPMI仍可正常运作。因此,通过IPMI协议接口,可以对硬件设备进行所述各项指标数据的采集和监控。
在本实施例中,针对需要监控的多个所述硬件设备以及每个硬件设备需要监控的指标配置相应的树形结构,根据所述树形结构遍历其中的每个节点,向每个硬件设备发送相应的IPMI命令,以进行对应指标的数据采集。
对于远程设备,可以通过SaltStack技术进行远程管理,结合所述IPMI接口远程采集所述各项指标数据。
步骤S404,获取各项指标所设置的阈值。
具体地,当采集到所述各项指标数据后,分别获取针对所述各项指标所设置的阈值。在本实施例中,针对所述数值数据指标,预先设置有对应的报警阈值,需要获取所述阈值;而针对所述非数值数据指标,不需要获取对应阈值,监测到故障时直接报警。
步骤S406,比较所采集的各项指标数据与对应阈值,判断是否出现异常。
具体地,将通过IPMI接口采集的所述硬件设备的各项指标数据分别与所获取的对应阈值进行比较。针对所述数值数据指标,根据机房的标准和要求,在所采集到的数据超过或低于(根据实际需要选择)对应阈值时,判断该指标出现异常。针对所述非数值数据指标,在所采集到的数据为发现故障时,直接判断该指标出现异常。
步骤S408,当有指标出现异常时,按预设方式发出预警通知。
具体地,针对判断出现异常的指标,可以通过多种预设的方式发出预警通知。在本实施例中,可以采用页面的方式对所述各项指标进行报警展示,实现可视化预警。
本实施例提供的硬件设备异常监控方法,可以应用IPMI接口结合SaltStack管理工具实现对硬件设备的统一的批量管理和异常监控,统一设置硬件设备需要监控的指标和各项指标对应的阈值,通过IPMI接口采集所述硬件设备的各项指标数据,比较所采集的各项指标数据与对应阈值,判断是否出现异常,当有指标出现异常时,通过页面进行可视化预警。该方法可以基于特定业务场景对需要监控的硬件设备及相应指标和阈值进行自定义配置,针对通过IPMI接口采集的各项指标数据,根据所述配置进行定制化分析并检测报警。对于判断出现异常的指标,通过监控展示平台来达到可视化管理和配置、查询,便于监控的发现、处理,提高了发现异常的及时性,以及处理异常的效率。
如图6所示,是本发明硬件设备异常监控方法的第二实施例的流程示意图。本实施例中,所述硬件设备异常监控方法的步骤S500-S508与第一实施例的步骤S400-S408相类似,区别在于该方法还包括步骤S510-S512。
该方法包括以下步骤:
步骤S500,设置硬件设备需要监控的指标和各项指标对应的阈值。
在本实施例中,应用IPMI结合SaltStack管理工具实现对硬件设备的统一的批量管理和异常监控。IPMI是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法,是管理基于Intel结构的企业系统中所使用的外围设备采用的一种工业标准。
SaltStack管理工具允许管理员对多个操作系统创建一个一致的管理系统,SaltStack的三大功能包括远程执行、配置管理和云管理。SaltStack作用于仆从和主拓扑。SaltStack与特定的命令结合使用可以在一个或多个下属执行。除了运行远程命令,SaltStack允许管理员使用“grain”。grain可以在SaltStack仆从运行远程查询,因此收集仆从的状态信息并允许管理员在一个中央位置存储信息。SaltStack也可以帮助管理员定义目标系统上的期望状态。这些状态在应用时会用到.sls文件,其中包含了如何在系统上获得所需的状态非常具体的要求。
针对IPMI规格下的底层硬件设备,所述指标可以包含电源、温度、电压、风扇、电池、处理器、内存、硬盘、日志等状态信息。其中,每项指标下面又包含多个细化指标。例如,硬盘状态信息包括RAID卡的芯片版本、状态、缓存状态数据、RAID级别状态等;电源状态信息包括电压、功耗、电源运行状态、出现失电、电源在位数量等;温度状态信息包括CPU温度、主板温度、风扇温度、硬盘温度以及室温等。
并且,所述指标包括数值数据指标和非数值数据指标两类,针对数值数据指标,需要预先设置对应的阈值,在与阈值进行比较后判断是否出现异常;针对非数值数据指标,监测到故障(不能正常工作)时直接报警。例如,监测到电源出现失电时直接报警;而温度和电压等是数值数据,有报警阀值,所述阀值是根据机房的标准和要求,按照实际情况进行设置。
通过SaltStack管理工具,可以对多个所述硬件设备统一进行批量设置。在本实施例中,可以针对需要监控的多个所述硬件设备以及每个硬件设备需要监控的指标配置相应的拓扑结构,例如树形结构等。而针对各项指标所设置的阈值,也保存在所述拓扑结构的相应位置,即所述拓扑结构中与该阈值对应的硬件设备和指标所在的节点位置。
步骤S502,分别通过预设方式采集所述硬件设备的各项指标数据。
在本实施例中,通过IPMI接口采集所述硬件设备的各项指标数据。IPMI信息通过位于IPMI规格的硬件组件上的BMC进行交流。使用低级硬件智能管理而不使用操作系统进行管理,具有两个主要优点:首先,此配置允许进行带外服务器管理;其次,操作系统不必负担传输系统状态数据的任务。用户可以利用IPMI接口监视硬件设备的物理健康特征,如温度、电压、风扇工作状态、电源状态等。此标准适用于不同的服务器拓扑学,以及Windows、Linux、Solaris、Mac或是混合型的操作系统。此外,由于IPMI可在不同的属性值下运作,即使服务器本身的运作不正常,或是由于任何原因而无法提供服务,IPMI仍可正常运作。因此,通过IPMI协议接口,可以对硬件设备进行所述各项指标数据的采集和监控。
在本实施例中,针对需要监控的多个所述硬件设备以及每个硬件设备需要监控的指标配置相应的树形结构,根据所述树形结构遍历其中的每个节点,向每个硬件设备发送相应的IPMI命令,以进行对应指标的数据采集。
对于远程设备,可以通过SaltStack技术进行远程管理,结合所述IPMI接口远程采集所述各项指标数据。
步骤S504,获取各项指标所设置的阈值。
具体地,当采集到所述各项指标数据后,分别获取针对所述各项指标所设置的阈值。在本实施例中,针对所述数值数据指标,预先设置有对应的报警阈值,需要获取所述阈值;而针对所述非数值数据指标,不需要获取对应阈值,监测到故障时直接报警。
步骤S506,比较所采集的各项指标数据与对应阈值,判断是否出现异常。
具体地,将通过IPMI接口采集的所述硬件设备的各项指标数据分别与所获取的对应阈值进行比较。针对所述数值数据指标,根据机房的标准和要求,在所采集到的数据超过或低于(根据实际需要选择)对应阈值时,判断该指标出现异常。针对所述非数值数据指标,在所采集到的数据为发现故障时,直接判断该指标出现异常。
步骤S508,当有指标出现异常时,按预设方式发出预警通知。
具体地,针对判断出现异常的指标,可以通过多种预设的方式发出预警通知。在本实施例中,可以采用页面的方式对所述各项指标进行报警展示,实现可视化预警。
步骤S510,记录对所述异常的处理反馈信息。
具体地,在监控报警页面出现异常预警后,则会由相关的运维人员跟进协调沟通相关人员(例如售后人员)进行进一步的排查和处理异常。当处理完成后,可以将处理记录反馈至系统中,记录对应的处理反馈信息。所述处理反馈信息可以包括异常原因、处理时间、处理过程、处理结果、处理人等。
步骤S512,保存所采集的各项指标数据和处理反馈信息,以便进行回溯操作。
具体地,所采集的所述各项指标数据都是存入数据库的,所以所有的数据都是可查询的。至于处理过程,有的是通过邮件、有的是通过事件发起,有的是电话沟通,当记录处理反馈信息后,也是可以回溯的。在本实施例中,在数据库中保存所采集的所述各项指标数据以及对应的处理反馈信息,可以作为后续提供回溯服务的基础。当用户需要进行回溯时,可以查询到所记录的每一项指标数据以及对应的处理反馈信息,以便进行统计分析、硬件优化等进一步处理,有助于更好地进行设备监控和改进。
本实施例提供的硬件设备异常监控方法,可以应用IPMI接口结合saltstack技术,实现对IPMI底层硬件设备的远程及批量管理和采集数据。并且,记录对所述异常的处理反馈信息,并保存所采集的各项指标数据和处理反馈信息,提供回溯服务,便于后续进行回溯时查询所述数据和反馈信息,以进行统计分析和优化等。对于判断出现异常的指标,通过监控展示平台来达到可视化管理和配置、查询,便于监控的发现、处理和回溯,提高了发现异常的及时性,以及处理异常的效率。
如图7所示,是本发明硬件设备异常监控方法的第三实施例的流程示意图。本实施例中,所述硬件设备异常监控方法的步骤S600-S612与第二实施例的步骤S500-S512相类似(不再赘述),区别在于该方法还包括步骤S614-S616。其中:
步骤S614,根据历史记录的所述处理反馈信息,筛选出所述异常的优选处理方案。
具体地,由于之前每一次发现和处理各个指标的异常之后,都会记录对应的处理反馈信息,并存入数据库以供查询,因此当判断出有指标出现异常时,可以从数据库中查询所述异常对应的每条历史记录。例如,当出现主板温度过高的异常时,可以查询到以往每次主板温度过高时的处理反馈信息。然后,根据所查询到的每条历史记录中的处理过程和处理结果等信息,筛选出所述异常的优选处理方案。所述优选处理方案可以是历史记录中处理结果为成功且处理时间最短的处理方案。
在其他实施例中,还可以根据预先设置的异常问题、异常原因、优选处理方案之间的映射关系表(可以由设备供应商提供),直接查询出所述异常对应的优选处理方案。或者,也可以通过网络或者大数据查询其他机房针对所述异常的处理反馈信息(不局限于本地的历史记录),从中筛选出所述优选处理方案。
步骤S616,向用户提示所述优选处理方案,以便用户参照处理所述异常。
具体地,当筛选出所述异常对应的优选处理方案后,通过预设方式向用户提示所述优选处理方案(例如采用页面的方式进行展示)。所述优选处理方案的内容包括所述异常对应的异常原因和处理方法等。
假设出现异常时用户只能获得预警,但是对于其故障的排除没有明确和有效的方法,这时候基本上都要联系售后客服来对此问题进行解决,且对于一些复杂的异常,售后人员可能也不太能快速定位并解决该问题,这样既浪费时间又浪费人力,并提高了维护成本。而本实施例中,用户根据提示,可以获知所述异常的优选处理方案,从而自行处理所述异常,而不需要联系和等待售后人员进行处理。
本实施例提供的硬件设备异常监控方法,可以根据历史记录的处理反馈信息,针对发现的各种异常提供对应的可靠的优选处理方案,提高了异常修复的效率和准确性,节省时间和人力,降低了机房硬件设备的维护成本。
本发明还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有硬件设备异常监控程序,所述硬件设备异常监控程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的硬件设备异常监控方法的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种硬件设备异常监控方法,其特征在于,所述方法包括步骤:
通过SaltStack管理工具统一设置硬件设备需要监控的各项指标和对应的阈值;
通过智能平台管理接口分别采用预设方式采集所述硬件设备的各项指标数据;
获取各项指标所设置的阈值;
比较所采集的各项指标数据与对应阈值,判断是否出现异常;及
当有指标出现异常时,按预设方式发出预警通知。
2.如权利要求1所述的硬件设备异常监控方法,其特征在于,该方法还包括步骤:
记录对所述异常的处理反馈信息;
保存所采集的所述各项指标数据和所述处理反馈信息,以便进行回溯操作。
3.如权利要求2所述的硬件设备异常监控方法,其特征在于,该方法还包括步骤:
根据历史记录的所述处理反馈信息,筛选出所述异常的优选处理方案;
向用户提示所述优选处理方案,以便用户参照处理所述异常。
4.如权利要求1-3任一项所述的硬件设备异常监控方法,其特征在于,在所述通过SaltStack管理工具统一设置硬件设备需要监控的各项指标和对应的阈值的步骤中:
针对需要监控的多个所述硬件设备以及每个所述硬件设备需要监控的各项指标配置拓扑结构,并将针对各项指标所设置的阈值保存在所述拓扑结构中对应硬件设备和指标所在的节点位置。
5.如权利要求4所述的硬件设备异常监控方法,其特征在于,在所述通过智能平台管理接口分别采用预设方式采集所述硬件设备的各项指标数据的步骤中:
遍历所述拓扑结构中的每个节点,向每个所述硬件设备发送相应的智能平台管理接口命令,以进行对应指标的数据采集。
6.如权利要求1-3任一项所述的硬件设备异常监控方法,其特征在于,在所述获取各项指标所设置的阈值的步骤中:
若所述指标为数值数据指标,则从所述SaltStack管理工具的统一设置中获取所述指标对应的报警阈值;若所述指标为非数值数据指标,则在监测到故障时,触发所述发出预警通知的步骤。
7.如权利要求1-3任一项所述的硬件设备异常监控方法,其特征在于,在所述按预设方式发出预警通知的步骤中:
采用页面的方式对所述各项指标进行报警展示,实现可视化预警。
8.如权利要求3所述的硬件设备异常监控方法,其特征在于,所述优选处理方案为历史记录的与所述异常对应的处理反馈信息中,处理结果为成功且处理时间最短的处理方案。
9.一种服务器,其特征在于,所述服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的硬件设备异常监控系统,所述硬件设备异常监控系统被所述处理器执行时实现如权利要求1-8中任一项所述的硬件设备异常监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有硬件设备异常监控系统,所述硬件设备异常监控系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-8中任一项所述的硬件设备异常监控方法的步骤。
CN201910967009.2A 2019-10-11 2019-10-11 硬件设备异常监控方法、服务器及计算机可读存储介质 Pending CN110851322A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910967009.2A CN110851322A (zh) 2019-10-11 2019-10-11 硬件设备异常监控方法、服务器及计算机可读存储介质
PCT/CN2020/119081 WO2021068814A1 (zh) 2019-10-11 2020-09-29 硬件设备异常监控方法、装置、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910967009.2A CN110851322A (zh) 2019-10-11 2019-10-11 硬件设备异常监控方法、服务器及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110851322A true CN110851322A (zh) 2020-02-28

Family

ID=69597412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910967009.2A Pending CN110851322A (zh) 2019-10-11 2019-10-11 硬件设备异常监控方法、服务器及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110851322A (zh)
WO (1) WO2021068814A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111679956A (zh) * 2020-05-07 2020-09-18 上海正网信息技术有限公司 一种带外管理系统及管理方法
CN112416712A (zh) * 2020-11-20 2021-02-26 常州微亿智造科技有限公司 基于工业云边服务数据采集的监控方法和装置
CN112506754A (zh) * 2020-12-13 2021-03-16 国网河北省电力有限公司雄安新区供电公司 一种系统性能监测方法及平台
CN112561385A (zh) * 2020-12-24 2021-03-26 平安银行股份有限公司 风险监控方法及系统
CN112631887A (zh) * 2020-12-25 2021-04-09 百度在线网络技术(北京)有限公司 异常检测方法、装置、电子设备和计算机可读存储介质
WO2021068814A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 硬件设备异常监控方法、装置、服务器及计算机可读存储介质
CN113535407A (zh) * 2021-07-30 2021-10-22 济南浪潮数据技术有限公司 一种服务器的优化方法、系统、设备及存储介质
CN113815636A (zh) * 2021-09-28 2021-12-21 国汽(北京)智能网联汽车研究院有限公司 一种车辆安全监控方法、装置、电子设备及存储介质
CN113965447A (zh) * 2020-07-20 2022-01-21 广东芬尼克兹节能设备有限公司 一种在线云诊断方法、装置、系统、设备及存储介质
CN114627627A (zh) * 2020-12-14 2022-06-14 深圳Tcl新技术有限公司 设备异常处理方法、装置、终端及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117215498B (zh) * 2023-11-07 2024-01-30 江苏荣泽信息科技股份有限公司 基于硬件存储监管的企业数据存储智能管理系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797915B (zh) * 2016-09-07 2021-03-26 北京国双科技有限公司 故障的修复方法、装置及系统
CN107222346A (zh) * 2017-06-09 2017-09-29 郑州云海信息技术有限公司 一种集群节点健康状态预警方法及系统
CN109165024A (zh) * 2018-07-26 2019-01-08 天讯瑞达通信技术有限公司 一种运维平台自动部署和监控服务器系统的方法
CN110851322A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 硬件设备异常监控方法、服务器及计算机可读存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068814A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 硬件设备异常监控方法、装置、服务器及计算机可读存储介质
CN111679956A (zh) * 2020-05-07 2020-09-18 上海正网信息技术有限公司 一种带外管理系统及管理方法
CN113965447A (zh) * 2020-07-20 2022-01-21 广东芬尼克兹节能设备有限公司 一种在线云诊断方法、装置、系统、设备及存储介质
CN112416712A (zh) * 2020-11-20 2021-02-26 常州微亿智造科技有限公司 基于工业云边服务数据采集的监控方法和装置
CN112506754A (zh) * 2020-12-13 2021-03-16 国网河北省电力有限公司雄安新区供电公司 一种系统性能监测方法及平台
CN114627627A (zh) * 2020-12-14 2022-06-14 深圳Tcl新技术有限公司 设备异常处理方法、装置、终端及计算机可读存储介质
CN112561385A (zh) * 2020-12-24 2021-03-26 平安银行股份有限公司 风险监控方法及系统
CN112631887A (zh) * 2020-12-25 2021-04-09 百度在线网络技术(北京)有限公司 异常检测方法、装置、电子设备和计算机可读存储介质
CN113535407A (zh) * 2021-07-30 2021-10-22 济南浪潮数据技术有限公司 一种服务器的优化方法、系统、设备及存储介质
CN113535407B (zh) * 2021-07-30 2024-03-19 济南浪潮数据技术有限公司 一种服务器的优化方法、系统、设备及存储介质
CN113815636A (zh) * 2021-09-28 2021-12-21 国汽(北京)智能网联汽车研究院有限公司 一种车辆安全监控方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2021068814A1 (zh) 2021-04-15

Similar Documents

Publication Publication Date Title
CN110851322A (zh) 硬件设备异常监控方法、服务器及计算机可读存储介质
CN108763038B (zh) 告警数据的管理方法、装置、计算机设备及存储介质
EP3314550B1 (en) One-click commissioning and push updates to distributed, large-scale information handling system
CN104699759B (zh) 一种数据库自动化运行维护方法
CN103135519B (zh) 设备状态显示装置与设备状态显示方法
CN114124655B (zh) 网络监控方法、系统、装置、计算机设备和存储介质
JP5659108B2 (ja) 運用監視装置、運用監視プログラム及び記録媒体
CN108809702B (zh) 一种设备管理方法及设备管理平台
CN116010456A (zh) 设备的处理方法、服务器和轨道交通系统
WO2004077184A1 (ja) 稼働管理システム
US10067549B1 (en) Computed devices
CN112925687A (zh) 用于监视现场装置状态的方法、系统和计算机程序产品
JP2010015246A (ja) 故障情報分析管理システム
JP2021144639A (ja) 資産情報管理システム、及び資産情報管理方法
CN111968356A (zh) 一种智能化建筑能耗监测系统及方法
CN116504039A (zh) 一种室内设备的异常识别方法、装置及电子设备
CN113010375B (zh) 设备告警方法及相关设备
CN110333006B (zh) 一种养殖区域的温度检测方法、装置、设备和存储介质
CN113727210B (zh) 一种设备信息管理方法、系统、存储介质及设备
CN105550094B (zh) 一种高可用系统状态自动监控方法
CN114500247A (zh) 工控网络故障诊断方法、装置、电子设备及可读存储介质
CN108023783A (zh) 网络设备监控系统及方法
CN104714776A (zh) 电子装置、基板管理控制器输入简化系统及简化方法
CN113419927B (zh) 一种监测和管理控制服务器的方法、系统、设备及介质
JP2019028573A (ja) 表示制御プログラム、表示制御方法及び表示制御装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination