CN117579624A - Ssd的智能化运维管理系统及方法 - Google Patents

Ssd的智能化运维管理系统及方法 Download PDF

Info

Publication number
CN117579624A
CN117579624A CN202311584876.0A CN202311584876A CN117579624A CN 117579624 A CN117579624 A CN 117579624A CN 202311584876 A CN202311584876 A CN 202311584876A CN 117579624 A CN117579624 A CN 117579624A
Authority
CN
China
Prior art keywords
ssd
band management
management system
state information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311584876.0A
Other languages
English (en)
Inventor
孙博兴
陈金凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dera Technology Co Ltd
Original Assignee
Beijing Dera Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dera Technology Co Ltd filed Critical Beijing Dera Technology Co Ltd
Priority to CN202311584876.0A priority Critical patent/CN117579624A/zh
Publication of CN117579624A publication Critical patent/CN117579624A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/18Network architectures or network communication protocols for network security using different networks or channels, e.g. using out of band channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1034Reaction to server failures by a load balancer
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种SSD的智能化运维管理系统及方法,所述系统包括:中央主机向带外管理系统发送信息获取命令;设置在各个主机服务器的带外管理系统将接收到的信息获取命令进行封装,并发送给SSD对应的带外管理芯片;带外管理芯片接收并解析封装后的命令,以此从SSD的主控制器获取SSD状态信息,并将SSD状态信息进行封装后返回带外管理系统;带外管理系统将接收并解析后的SSD状态信息上传到中央主机;中央主机采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,以预测各个SSD的运行状态以及处于异常运行状态的SSD的告警类型。本发明实现了SSD状态信息采集通道与实际业务通道隔离,使其状态获取更加独立和稳定。

Description

SSD的智能化运维管理系统及方法
技术领域
本发明涉及数据存储技术领域,尤其涉及一种SSD的智能化运维管理系统及方法。
背景技术
随着人工智能、大数据、移动互联网等网络架构的迅速演进和网络应用的不断丰富,互联网数据规模急剧增加。数据中心的数据存储容量及存储设备数量持续增加,数据中心的稳定性也越来越依赖于SSD存储设备的稳定性,因而数据存储系统的稳定性和可靠性面临着巨大的挑战,数据中心的运行状态是否良好极大程度上决定了企业的正常运营和用户体验。如何有效组织和管理大规模的数据存储设备,已成为未来全球数字化转型的重要课题。
现有技术中用于保证SSD数据存储系统的稳定性和可靠性的技术主要集中在SSD故障检测、预警方向,未从全局运维角度监控管理SSD状态,形成完整运维体系。而且,现有技术在对运行中的SSD进行状态信息收集及故障诊断时,会干扰SSD的正常使用,从而对正在运行的业务造成影响,无法做到将SSD上的业务运行与状态信息收集、故障诊断进行隔离。
可见,如何对SSD进行智能化运维管理,避免SSD状态信息收集及故障诊断对正在运行的业务造成影响,实现从全局运维角度监控管理SSD状态,对保障数据中心存储设备的安全性和可靠性具有重要意义。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的SSD的智能化运维管理系统及方法。
本发明的一个方面,提供了一种SSD的智能化运维管理系统,所述系统包括中央主机、设置在各个主机服务器的带外管理系统以及设置在SSD的带外管理芯片,所述中央主机通过带外管理系统和带外管理芯片采用带外管理方式对各个主机服务器中正在运行的SSD进行管理维护;
中央主机,用于向各个主机服务器的带外管理系统发送信息获取命令;
主机服务器的带外管理系统,用于接收信息获取命令,将接收到的信息获取命令进行封装,并将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
SSD的带外管理芯片,用于接收并解析封装后的命令,根据解析到的信息获取命令从SSD的主控制器侧获取相应的SSD状态信息,并将SSD状态信息进行封装后返回当前SSD所运行的主机服务器的带外管理系统;
主机服务器的带外管理系统,用于接收并解析封装后的SSD状态信息,将解析到的SSD状态信息上传到中央主机;
中央主机,还用于采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,以预测各个SSD的运行状态以及处于异常运行状态的SSD的告警类型。
可选地,所述SSD设备,还用于预先对SSD原始的标准域定义信息进行状态信息扩展,扩展后的标准域定义信息包括磨损状态相关信息、失败操作计数信息以及电气状态相关信息。
可选地,主机服务器的带外管理系统与运行在当前主机服务器的SSD对应的带外管理芯片通过预设的低速信号通路进行数据交互。
可选地,所述中央主机,具体用于从每一带外管理系统上传的各个SSD状态信息中提取用于指示各个告警类型的特征属性信息;采用预设的故障预警模型对得到的特征属性信息进行机器学习,以预测对应SSD的运行状态以及处于异常运行状态的SSD的告警类型。
可选地,所述中央主机,还用于预先通过带外管理系统和带外管理芯片采用带外管理方式获取各个主机服务器中正在运行SSD的SSD状态信息样本,从每一带外管理系统上传的各个SSD状态信息样本中提取用于指示各个告警类型的特征属性信息样本,将各个特征属性信息样本以及对应的告警类型作为训练数据,并采用预设的机器学习模型对所述训练数据进行学习训练,以构建故障预警模型。
可选地,所述中央主机,还用于查找预设的映射关系表以获取与故障预警得到的告警类型对应的处理建议,并将实时监测的SSD状态信息、故障预警得到的告警类型以及当前告警类型对应的处理建议进行可视化显示;
所述映射关系表中包括有告警类型与相应处理建议之间的对应关系。
第二方面,本发明还提供了一种SSD的智能化运维管理方法,所述方法包括:
中央主机向各个主机服务器的带外管理系统发送信息获取命令;
主机服务器的带外管理系统接收到信息获取命令后将信息获取命令进行封装,并将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
SSD的带外管理芯片接收到封装后的命令后进行命令解析,根据解析到的信息获取命令从SSD的主控制器获取相应的SSD状态信息,并将所述SSD状态信息进行封装后返回当前SSD所运行的主机服务器的带外管理系统;
带外管理系统接收到封装后的SSD状态信息后进行数据解析,将解析到的SSD状态信息上传到中央主机;
中央主机采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,以预测各个SSD的运行状态以及处于异常运行状态的SSD的告警类型。
可选地,所述方法还包括:
主机服务器的带外管理系统通过低速信号将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
SSD的带外管理芯片通过低速信号将封装后的SSD状态信息传输给当前SSD所运行的主机服务器的带外管理系统。
可选地,所述方法还包括:
中央主机查找预设的映射关系表以获取与故障预警得到的告警类型对应的处理建议,并将实时监测的SSD状态信息、故障预警得到的告警类型以及当前告警类型对应的处理建议进行可视化显示;
所述映射关系表中包括有告警类型与相应处理建议之间的对应关系。
可选地,所述中央主机采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,包括:
中央主机从每一带外管理系统上传的各个SSD状态信息中提取用于指示各个告警类型的特征属性信息;采用预设的故障预警模型对得到的特征属性信息进行机器学习。
本发明实施例提供的SSD的智能化运维管理系统及方法,中央主机通过带外管理系统和带外管理芯片采用带外管理方式对各个主机服务器中正在运行的SSD进行管理维护,不需要占用主机操作系统资源,通过SSD状态信息采集通道与SSD实际业务通道的隔离,实现在对SSD状态信息监控的同时不干扰SSD正常运行,使其状态获取更加独立和稳定。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的SSD的智能化运维管理系统的系统架构图;
图2为本发明实施例提供的SSD的智能化运维管理系统中告警预测功能的实现原理图;
图3为本发明实施例提供的SSD的智能化运维管理方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
图1示意性示出了本发明实施例的SSD的智能化运维管理系统的结构示意图。参照图1,本发明实施例的SSD的智能化运维管理系统具体包括中央主机10、设置在各个主机服务器的带外管理系统20以及设置在SSD的带外管理芯片30,所述中央主机10通过带外管理系统20和带外管理芯片30采用带外管理方式对各个主机服务器中正在运行的SSD进行管理维护。中央主机10通过自身的网络端口与每一数据中心部署的每一主机服务器的带外管理系统20连接,每一主机服务器的带外管理系统20与运行在当前主机服务器的SSD对应的带外管理芯片30通过预设的低速信号通路进行连接并实现数据交互。本发明实施例以一台主机服务器为例进行说明,可理解的,在实际数据中心,可设置多台主机服务器以运行SSD设备,本发明对此不做具体限定。
具体的,中央主机10,用于向各个主机服务器的带外管理系统20发送信息获取命令;
主机服务器的带外管理系统20,用于接收信息获取命令,将接收到的信息获取命令进行封装,并将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片30;
SSD的带外管理芯片30,用于接收并解析封装后的命令,根据解析到的信息获取命令从SSD的主控制器侧获取相应的SSD状态信息,并将SSD状态信息进行封装后返回当前SSD所运行的主机服务器的带外管理系统20;
主机服务器的带外管理系统20,用于接收并解析封装后的SSD状态信息,将解析到的SSD状态信息上传到中央主机10;
中央主机10,还用于采用预设的故障预警模型对各个主机服务器的带外管理系统20上传的SSD状态信息进行机器学习,以预测各个SSD的运行状态以及处于异常运行状态的SSD的告警类型。
本发明实施例提供的SSD的智能化运维管理系统,提出了一种SSD状态获取通路,使其独立于主机的操作系统,无需占用主机操作系统任务,即可实现SSD设备的状态信息获取。使用一台中央主机采用带外管理方式对各目标主机中正在运行的SSD进行管理维护,需要服务器主机带外管理系统、低速信号通路、SSD带外管理协议支持。具体实现方式如下:
服务器主机带外管理系统将想要发送的命令按照特定的协议规范组成报文1,再将此报文1根据带外管理组件传输协议再次封装为报文2。其中,生成报文1的协议规范具体可以为IPMI(Intelligent Platform Management Interface)接口协议,IPMI是一种用于管理和监控计算机系统硬件的标准接口。它提供了一种标准化的方式来监控服务器的硬件状态、控制电源、管理系统事件日志等。IPMI协议格式是IPMI协议的数据传输格式,它定义了IPMI消息的格式和传输方式。IPMI协议格式包括消息头、消息体和校验和三个部分。消息头包括了消息类型、消息长度、源地址、目的地址、请求响应标志等信息。消息体包括了具体的IPMI命令和参数。校验用于验证消息的完整性。生成报文2的带外管理组件传输协议可以为NVMe-MI(Management Interface)接口。NVMe-MI定义了一套完整的NVMe SSD管理方式,独立于NVMe协议且为NVMe SSD服务。NVMe-MI协议是通过MCTP协议进行传输,同时底层物理层支持PCIe或者SMBus/I2C,本发明可以在物理层使用I2C,物理层使用I2C的好处就是和NVMe协议完全隔离,即使SSD在NVMe看来是故障的,还能有另外一条路径查看SSD状态。
将完整的报文2通过低速信号链路发送给SSD。
SSD收到报文2后,按照带外管理组件传输协议解析为报文1,再将报文1按照特定协议规范解析后获取主机发送的消息。
SSD将要回复的数据按照特定协议规范组成报文1,再将报文1按照带外管理组件传输协议封装为报文2。
将完整的在通过低速信号通道返还给服务器主机。
服务器主机根据带外管理组件协议解封报文2,在根据特定协议规范解析报文1,获取SSD回复的消息。
本发明实施例提供的SSD的智能化运维管理系统,中央主机通过带外管理系统和带外管理芯片采用带外管理方式对各个主机服务器中正在运行的SSD进行管理维护,不需要占用主机操作系统资源,通过SSD状态信息采集通道与SSD实际业务通道的隔离,实现在对SSD状态信息监控的同时不干扰SSD正常运行,使其状态获取更加独立和稳定。采用中央主机对数据中心部署的各个SSD设备进行统一监测预警,实现了从全局运维角度监控管理SSD状态,对保障数据中心存储设备的安全性和可靠性具有重要意义。
进一步地,现有SSD故障检测、预警时收集的特征数据均来自标准域定义输出,对SSD内部状态信息收集不够全面,无法更准确的判断预测SSD状态信息及量化风险,不能实现故障分级预警。为解决上述问题,本发明实施例中SSD设备,还用于预先对SSD原始的标准域定义信息进行状态信息扩展,扩展后的标准域定义信息包括磨损状态相关信息、失败操作计数信息以及电气状态相关信息。
根据用户需求定制SSD可获取的状态信息,通过扩展标准SMART域定义信息,使用户可以通过SSD ADMIN命令获取到更加全面细致及符合自身场景关注指标的状态信息。标准域定义信息中只包含寿命、主机写入量、温度等状态信息。扩展后的主要包括磨损相关、失败操作相关计数、电气状态相关三大类属性。包括但不限于如下指标:percentage_used(SSD已使用寿命百分比)、host_bytes_written(主机写入数据量)、nand_bytes_written(NAND数据写入量)、wear_leveling_count(磨损均衡操作次数)、program_fail_count(NAND编程错误次数)、erase_fail_count(NAND擦除错误次数)、crc_error_count(循环冗余检验错误次数)、e2e_error_detect_count(端到端保护错误次数)、power_on_hours(历时上电时长)、cap_voltage(电容电压)、current_power(当前功耗)、temperature(温度)。如表1所示:
表1扩展后的标准域定义信息
磨损相关属性 失败操作计数 电气相关属性
percentage_used program_fail_count power_on_hours
host_bytes_written erase_fail_count cap_voltage
nand_bytes_written e2e_error_detect_count current_power
wear_leveling_count crc_error_count temperature
...... ...... ......
本发明对于SSD可获取的状态信息,拓展了SSD标准域定义信息,丰富了SSD可监控的状态属性,增加了SSD发生故障时的判断依据。
在本发明实施例中,所述中央主机10,具体用于从每一带外管理系统上传的各个SSD状态信息中提取用于指示各个告警类型的特征属性信息;采用预设的故障预警模型对得到的特征属性信息进行机器学习,以预测对应SSD的运行状态以及处于异常运行状态的SSD的告警类型。
本实施例中,即使拓展了SSD标准域定义信息,丰富了SSD可监控的状态属性,但监控的状态属性与SSD故障之间的相关性仍旧较低。标准域定义SMART与扩展域定义SMART属性的弱表征能力是SSD故障预测的主要挑战之一。为了提升对数据的归纳能力,需要对原始的SSD状态信息数据进行特征工程,选择和生成表征能力强的SSD状态信息作为特征属性信息。
具体的,首先基于对故障数据的分析和专家意见优先选择出能够指示某种故障的特征属性,然后采用多种过滤方法,如Pearson,方差检验,卡式分箱等,综合选出其他重要性较高的特征属性,去除无关属性和冗余属性,从而降低计算复杂度并提升模型预测效率和性能。
举例来讲,参见表2,比如监控的SSD状态信息是左边的一列,故障预警类型是右边一列。二者之间并无明确的相关性,机器可以通过大量数据学习,去归纳相关性。但直接靠机器去学习、归纳的二者之间的相关性,一是需要时间,二是本身在学习的过程中对于二者之间的对应关系判断也是会有不准确的地方。
表2 SSD状态信息与故障预警类型
监控的SSD状态信息 故障类型
A
B
C
D
E
F
G
H
I
J
K
为此,本发明通过特征工程,可以直接提供给机器一个监控的状态信息与故障类型的一个对应关系表。让其在这个基础上去继续学习、判断。
比如状态信息A,是个计数类型的状态,可以先通过特征工程定义,当计数到50时,就预警要发生故障类型Ⅰ了,这是个基础。那后续可以根据机器自己的学习,使得预测结果变得更加准确,例如计数到53时,预警发生故障类型Ⅰ。
比如状态ABCDE是个字符描述的状态类型,可以通过特征工程定义当状态信息A、D发生改变时,预警故障类型为Ⅴ。
进一步地,所述中央主机10,还用于预先构建故障预警模型。具体的,中央主机10预先通过带外管理系统20和带外管理芯片30采用带外管理方式获取各个主机服务器中正在运行SSD的SSD状态信息样本,从每一带外管理系统上传的各个SSD状态信息样本中提取用于指示各个告警类型的特征属性信息样本,将各个特征属性信息样本以及对应的告警类型作为训练数据,并采用预设的机器学习模型对所述训练数据进行学习训练,以构建故障预警模型。
本发明实施例中,带外管理系统20通过带外方式将被监测SSD的状态信息汇总到中央主机10,对于汇总到中央主机的海量数据,可通过加入模型训练与预测流程实现SSD故障监测的智能化。由于监控的SSD域定义状态与SSD故障之间无明显相关性,本发明通过引入特征工程,基于对常见故障数据的分析优先选出能够指示某种故障的特征属性信息,从而提升模型预测效率和准确率。进一步地,由于在实时运行的数据中心中,SSD发生故障的盘只占很小的比例,如果只靠线上的SSD发生故障的数据做为机器学习数据,样本量不足以支撑学习,数据样本量的不足也可能导致机器学习效率低下。因此,本发明还可以引入数据增强策略,通过在训练数据中加入历史故障数据库,用历史积累的故障样本作为训练数据补充,以优化机器学习。
本发明实施例将基于机器学习的SSD故障监测预警的实现分为在线、离线训练两个部分。具体如图2所示,首先,将预先得到的训练数据依次经过特征工程和数据增强处理,然后将其输入到训练模型中。将离线训练的模型做为初始模型,然后通过实时在线数据对原离线数据不断进行增量更新。在线监测的SSD状态信息经过与离线数据相同的特征工程后通过故障预警模型得到预测的故障类型,将最终结果输出。
本发明实施例中,所述中央主机10,还用于查找预设的映射关系表以获取与故障预警得到的告警类型对应的处理建议,并将实时监测的SSD状态信息、故障预警得到的告警类型以及当前告警类型对应的处理建议进行可视化显示;所述映射关系表中包括有告警类型与相应处理建议之间的对应关系。
本发明实施例不仅可以通过机器学习模型对可能出现故障的SSD进行故障预测,而且为了找到并给出故障是什么且应采取何种措施。本发明还通过映射关系表的方式预先定义了不同故障告警类型及相应处理建议之间的对应关系。包含但不限于如表3所示:
表3故障告警类型及处理意见映射关系表
本发明结合故障预警模型定义SSD故障类型及指导处理意见,让运维管理时有据可依,明晰故障原因、快速处理故障。
本发明实施例,通过将支持扩展状态信息的SSD部署到数据中心,中央主机可以通过网络给目标主机下发SSD状态信息获取指令,目标主机通过带外管理系统经由低速信号传输给目标主机上的SSD获取状态信息,将全部目标主机及SSD的状态信息传输到中央主机,然后通过将故障预测模型部署到中央主机,中央主机上的故障预测模型根据实时监测的SSD状态信息,进行故障预警。中央主机将实时监测SSD状态信息、故障告警类型及故障处理建议输出到大屏幕使其可视化。
本发明实施例提供的SSD的智能化运维管理系统,通过扩展传统SSD域定义信息,增加可获取的SSD内部状态信息,增加对SSD健康状态监控的维度,增强SSD故障时现场人员对故障的判断力;通过本发明提出的带外获取SSD状态信息的实现通路,实现了对SSD健康状态监控与SSD实际业务监控的隔离,提高系统稳定性;部署机器学习模型,对数据中心海量SSD状态信息进行故障预警模型训练、故障预测及处理建议指导,提高SSD运维管理效率。
图3示意性示出了本发明一个实施例的SSD的智能化运维管理方法的流程图。本发明实施例的SSD的智能化运维管理方法基于如上文实施例中的SSD的智能化运维管理系统实现。参照图3,本发明实施例的SSD的智能化运维管理方法具体包括以下步骤:
S11、中央主机向各个主机服务器的带外管理系统发送信息获取命令;
S12、主机服务器的带外管理系统接收到信息获取命令后将信息获取命令进行封装,并将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
S13、SSD的带外管理芯片接收到封装后的命令后进行命令解析,根据解析到的信息获取命令从SSD的主控制器获取相应的SSD状态信息,并将所述SSD状态信息进行封装后返回当前SSD所运行的主机服务器的带外管理系统;
S14、带外管理系统接收到封装后的SSD状态信息后进行数据解析,将解析到的SSD状态信息上传到中央主机;
S15、中央主机根据预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,以预测各个SSD的运行状态以及处于异常运行状态的SSD的告警类型。
本发明实施例中,所述方法还包括:SSD设备预先对SSD原始的标准域定义信息进行状态信息扩展,扩展后的标准域定义信息包括磨损状态相关信息、失败操作计数信息以及电气状态相关信息。本发明对于SSD可获取的状态信息,拓展了SSD标准域定义信息,丰富了SSD可监控的状态属性,增加了SSD发生故障时的判断依据。
本发明提出的SSD的智能化运维管理方法,拓展了SSD原域定义的状态信息,细化状态信息;添加机器学习算法进行故障模型训练,进行实时故障预测;采用带外状态监控方式,不需要占用主机操作系统资源,使其状态获取更加独立和稳定。
本发明实施例中,主机服务器的带外管理系统通过低速信号将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
SSD的带外管理芯片通过低速信号将封装后的SSD状态信息传输给当前SSD所运行的主机服务器的带外管理系统。
本发明实施例中,中央主机查找预设的映射关系表以获取与故障预警得到的告警类型对应的处理建议,并将实时监测的SSD状态信息、故障预警得到的告警类型以及当前告警类型对应的处理建议进行可视化显示;所述映射关系表中包括有告警类型与相应处理建议之间的对应关系。
本发明实施例中,所述中央主机采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,包括:中央主机从每一带外管理系统上传的各个SSD状态信息中提取用于指示各个告警类型的特征属性信息;采用预设的故障预警模型对得到的特征属性信息进行机器学习。
本发明实施例中,所述方法还包括预先构建故障预警模型的步骤。具体的,中央主机预先通过带外管理系统和带外管理芯片采用带外管理方式获取各个主机服务器中正在运行SSD的SSD状态信息样本,从每一带外管理系统上传的各个SSD状态信息样本中提取用于指示各个告警类型的特征属性信息样本,将各个特征属性信息样本以及对应的告警类型作为训练数据,并采用预设的机器学习模型对所述训练数据进行学习训练,以构建故障预警模型。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例提供的SSD的智能化运维管理系统及方法,在数据中心存储设备数量日益增长的当下,能够提高数据中心的海量SSD设备的管理效率,让SSD设备管理状态可视化、智能化;通过拓展可监控的SSD状态信息,可更准确的判断故障类型;将SSD状态信息采集通道与实际业务通道隔离,使其对SSD状态信息监控的同时不干扰其正常运行;基于机器学习的故障预警模型,对SSD进行故障预警,提前预警SSD可能发生的故障,有效提升SSD运维管理效率。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种SSD的智能化运维管理系统,其特征在于,所述系统包括中央主机、设置在各个主机服务器的带外管理系统以及设置在SSD的带外管理芯片,所述中央主机通过带外管理系统和带外管理芯片采用带外管理方式对各个主机服务器中正在运行的SSD进行管理维护;
中央主机,用于向各个主机服务器的带外管理系统发送信息获取命令;
主机服务器的带外管理系统,用于接收信息获取命令,将接收到的信息获取命令进行封装,并将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
SSD的带外管理芯片,用于接收并解析封装后的命令,根据解析到的信息获取命令从SSD的主控制器侧获取相应的SSD状态信息,并将SSD状态信息进行封装后返回当前SSD所运行的主机服务器的带外管理系统;
主机服务器的带外管理系统,用于接收并解析封装后的SSD状态信息,将解析到的SSD状态信息上传到中央主机;
中央主机,还用于采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,以预测各个SSD的运行状态以及处于异常运行状态的SSD的告警类型。
2.根据权利要求1所述的系统,其特征在于,所述SSD设备,还用于预先对SSD原始的标准域定义信息进行状态信息扩展,扩展后的标准域定义信息包括磨损状态相关信息、失败操作计数信息以及电气状态相关信息。
3.根据权利要求1所述的系统,其特征在于,主机服务器的带外管理系统与运行在当前主机服务器的SSD对应的带外管理芯片通过预设的低速信号通路进行数据交互。
4.根据权利要求1所述的系统,其特征在于,所述中央主机,具体用于从每一带外管理系统上传的各个SSD状态信息中提取用于指示各个告警类型的特征属性信息;采用预设的故障预警模型对得到的特征属性信息进行机器学习,以预测对应SSD的运行状态以及处于异常运行状态的SSD的告警类型。
5.根据权利要求3所述的系统,其特征在于,所述中央主机,还用于预先通过带外管理系统和带外管理芯片采用带外管理方式获取各个主机服务器中正在运行SSD的SSD状态信息样本,从每一带外管理系统上传的各个SSD状态信息样本中提取用于指示各个告警类型的特征属性信息样本,将各个特征属性信息样本以及对应的告警类型作为训练数据,并采用预设的机器学习模型对所述训练数据进行学习训练,以构建故障预警模型。
6.根据权利要求3所述的系统,其特征在于,所述中央主机,还用于查找预设的映射关系表以获取与故障预警得到的告警类型对应的处理建议,并将实时监测的SSD状态信息、故障预警得到的告警类型以及当前告警类型对应的处理建议进行可视化显示;
所述映射关系表中包括有告警类型与相应处理建议之间的对应关系。
7.一种SSD的智能化运维管理方法,其特征在于,所述方法包括:
中央主机向各个主机服务器的带外管理系统发送信息获取命令;
主机服务器的带外管理系统接收到信息获取命令后将信息获取命令进行封装,并将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
SSD的带外管理芯片接收到封装后的命令后进行命令解析,根据解析到的信息获取命令从SSD的主控制器获取相应的SSD状态信息,并将所述SSD状态信息进行封装后返回当前SSD所运行的主机服务器的带外管理系统;
带外管理系统接收到封装后的SSD状态信息后进行数据解析,将解析到的SSD状态信息上传到中央主机;
中央主机采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,以预测各个SSD的运行状态以及处于异常运行状态的SSD的告警类型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
主机服务器的带外管理系统通过低速信号将封装后的命令发送给运行在当前主机服务器的SSD对应的带外管理芯片;
SSD的带外管理芯片通过低速信号将封装后的SSD状态信息传输给当前SSD所运行的主机服务器的带外管理系统。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
中央主机查找预设的映射关系表以获取与故障预警得到的告警类型对应的处理建议,并将实时监测的SSD状态信息、故障预警得到的告警类型以及当前告警类型对应的处理建议进行可视化显示;
所述映射关系表中包括有告警类型与相应处理建议之间的对应关系。
10.根据权利要求7所述的方法,其特征在于,所述中央主机采用预设的故障预警模型对各个主机服务器的带外管理系统上传的SSD状态信息进行机器学习,包括:
中央主机从每一带外管理系统上传的各个SSD状态信息中提取用于指示各个告警类型的特征属性信息;采用预设的故障预警模型对得到的特征属性信息进行机器学习。
CN202311584876.0A 2023-11-24 2023-11-24 Ssd的智能化运维管理系统及方法 Pending CN117579624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311584876.0A CN117579624A (zh) 2023-11-24 2023-11-24 Ssd的智能化运维管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311584876.0A CN117579624A (zh) 2023-11-24 2023-11-24 Ssd的智能化运维管理系统及方法

Publications (1)

Publication Number Publication Date
CN117579624A true CN117579624A (zh) 2024-02-20

Family

ID=89887806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311584876.0A Pending CN117579624A (zh) 2023-11-24 2023-11-24 Ssd的智能化运维管理系统及方法

Country Status (1)

Country Link
CN (1) CN117579624A (zh)

Similar Documents

Publication Publication Date Title
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
US11348023B2 (en) Identifying locations and causes of network faults
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN107223243B (zh) 用于嵌入式控制器的分布式数据管理系统
CN115981984A (zh) 一种设备故障检测方法、装置、设备及存储介质
CN109213132A (zh) 一种uds诊断接口软件生成的方法、装置及设备
CN104777827A (zh) 高速铁路信号系统车载设备故障诊断方法
CN110196792B (zh) 故障预测方法、装置、计算设备及存储介质
US11736363B2 (en) Techniques for analyzing a network and increasing network availability
CN111949429A (zh) 基于密度聚类算法的服务器故障监测方法及系统
CN104076808A (zh) 工控设备的故障诊断系统和方法
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN113487086B (zh) 设备剩余使用寿命预测方法、装置、计算机设备和介质
CN113536658B (zh) 基于stm32嵌入式处理器的机电设备轻量化故障诊断方法
CN105447518A (zh) 一种基于K-means遥测数据判读系统
JP2018010430A (ja) 制御システムの遠隔監視を行う装置およびシステム
CN117579624A (zh) Ssd的智能化运维管理系统及方法
CN111614504A (zh) 基于时间序列和故障树分析的电网调控数据中心业务特性故障定位方法及系统
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
CN104484753A (zh) 一种服务器资产信息追溯方法
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
CN114237135A (zh) 基于数字孪生技术的信息通信机房3d可视化方法及系统
JP2011180673A (ja) ディスク劣化診断装置
Mossin et al. Intelligent diagnostic for PROFIBUS DP networks
CN105700996A (zh) 一种日志的输出方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination