CN112328454A - 存储设备的监测方法及装置 - Google Patents

存储设备的监测方法及装置 Download PDF

Info

Publication number
CN112328454A
CN112328454A CN202011255564.1A CN202011255564A CN112328454A CN 112328454 A CN112328454 A CN 112328454A CN 202011255564 A CN202011255564 A CN 202011255564A CN 112328454 A CN112328454 A CN 112328454A
Authority
CN
China
Prior art keywords
temperature
data
storage device
control system
storage equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011255564.1A
Other languages
English (en)
Inventor
尚召
柳擎
吴彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zeshi Technology Wuhan Co Ltd
Beijing Zeshi Technology Co ltd
Original Assignee
Zeshi Technology Wuhan Co Ltd
Beijing Zeshi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zeshi Technology Wuhan Co Ltd, Beijing Zeshi Technology Co ltd filed Critical Zeshi Technology Wuhan Co Ltd
Priority to CN202011255564.1A priority Critical patent/CN112328454A/zh
Priority to PCT/CN2020/132912 priority patent/WO2022099819A1/zh
Publication of CN112328454A publication Critical patent/CN112328454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储设备的监测方法及装置。其中,该方法包括:测量得到存储设备的实时温度;采用温度预测模型分析实时温度,预测得到存储设备在后续时间段内的温度数据;基于预测得到的温度数据,确定温度控制系统的工作模式,其中,温度控制系统通过控制写入存储设备的数据量来控制存储设备的温度处于可控范围内。本发明解决了现有技术中固态存储设备的检测,由于检测的时效性差,在存储设备温度上升过高过快的情况下,无法及时告警,从而导致无法准确及时监控,造成存储设备故障的技术问题。

Description

存储设备的监测方法及装置
技术领域
本发明涉及硬件监测领域,具体而言,涉及一种存储设备的监测方法及装置。
背景技术
固态硬盘温度控制系统大多数是在检测到硬盘温度过高后,通过减少存储颗粒的并发数目,或者降低写入速度来控制硬盘的温度。
首先这些检测机制属于被动调整,存在很大的滞后性,实时性较差,其次对写入带宽影响很大,容易出现写入速度的波动,对于客户特别是工业级客户非常不友好,而且不具备根据温度变化趋势和写入的数据复杂度自主学习并预判温度,及时进行写入调整的能力。在极端状况下温控系统会反应不及时,导致存储芯片温度过高,从而出现硬件可能会出现故障,进而数据面临丢失的风险。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种存储设备的监测方法及装置,以至少解决现有技术中固态存储设备的检测,由于检测的时效性差,在存储设备温度上升过高过快的情况下,无法及时告警,从而导致无法准确及时监控,造成存储设备故障的技术问题。
根据本发明实施例的一个方面,提供了一种存储设备的监测方法,包括:测量得到存储设备的实时温度;采用温度预测模型分析所述实时温度,预测得到所述存储设备在后续时间段内的温度数据;基于所述预测得到的温度数据,确定温度控制系统的工作模式,其中,所述温度控制系统通过控制写入所述存储设备的数据量来控制所述存储设备的温度处于可控范围内。
可选的,在采用机器学习模型分析所述实时温度之前,所述方法还包括:获取所述存储设备的温度样本数据,其中,所述温度样本数据包括:所述存储设备在历史时间段内的温度数据;采用所述温度样本数据训练神经网络模型,生成所述温度预测模型。
可选的,基于所述预测得到的温度数据,确定温度控制系统的工作模式,包括:判断所述预测得到的温度数据是否处于所述可控范围内;如果处于所述可控范围,所述温度控制系统的工作模式为停止工作;如果处于预警范围,所述温度控制系统的工作模式为控制往所述存储设备按照预定的控制等级执行写入操作;如果处于非可控范围,所述温度控制系统的工作模式为控制所述存储设备按照持续降低带宽的方式执行写入操作。
可选的,所述温度控制系统控制往所述存储设备按照预定的控制等级执行所述写入操作,包括:统计当前写入缓存,且未写入所述存储设备的数据总量;如果所述未写入所述存储设备的数据总量未超过预定阈值,控制所述未写入所述存储设备的数据按照第一控制等级执行所述写入操作;如果所述未写入所述存储设备的数据总量超过所述预定阈值,控制所述未写入所述存储设备的数据按照第二控制等级执行所述写入操作。
可选的,所述第一控制等级为保持当前的带宽,第二控制等级为按照预定的降低频率来逐渐降低当前的带宽。
可选的,所述带宽用于表征任意两次向所述存储设备写入数据的写入时间差。
可选的,构建针对所述存储设备的温度控制的三维向量表,所述三维向量表包含了所述存储设备的温度变化,写入的数据量以及写入时间差。
根据本发明实施例的另一方面,还提供了一种存储设备的监测装置,包括:测量模块,用于测量得到存储设备的实时温度;预测模块,用于采用温度预测模型分析所述实时温度,预测得到所述存储设备在后续时间段内的温度数据;确定模块,用于基于所述预测得到的温度数据,确定温度控制系统的工作模式,其中,所述温度控制系统通过控制写入所述存储设备的数据量来控制所述存储设备的温度处于可控范围内。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行上述中任意一项所述的存储设备的监测方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的存储设备的监测方法。
在本发明实施例中,采用测量得到存储设备的实时温度;采用温度预测模型分析实时温度,预测得到存储设备在后续时间段内的温度数据;基于预测得到的温度数据,确定温度控制系统的工作模式,其中,温度控制系统通过控制写入存储设备的数据量来控制存储设备的温度处于可控范围内的方式,通过测量的实时温度,通过温度预测模型预测存储设备在后续时间段内的温度数据,确定温度控制系统的工作模式,控制存储设备的温度处于可控范围内,达到了预先对存储设备进行控制,以使存储设备的温度处于可控范围内的目的,从而实现了提高存储设备的温度控制的及时性,避免了检测时效延迟,导致存储设备的温度难以得到有效控制的技术效果,进而解决了现有技术中固态存储设备的检测,由于检测的时效性差,在存储设备温度上升过高过快的情况下,无法及时告警,从而导致无法准确及时监控,造成存储设备故障的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种存储设备的监测方法的流程图;
图2是根据本发明实施方式的温度走向的示意图;
图3是根据本发明实施方式的监测系统架构的示意图;
图4是根据本发明实施例的一种存储设备的监测装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种存储设备的监测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种存储设备的监测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,测量得到存储设备的实时温度;
步骤S104,采用温度预测模型分析实时温度,预测得到存储设备在后续时间段内的温度数据;
步骤S106,基于预测得到的温度数据,确定温度控制系统的工作模式,其中,温度控制系统通过控制写入存储设备的数据量来控制存储设备的温度处于可控范围内。
通过上述步骤,采用测量得到存储设备的实时温度;采用温度预测模型分析实时温度,预测得到存储设备在后续时间段内的温度数据;基于预测得到的温度数据,确定温度控制系统的工作模式,其中,温度控制系统通过控制写入存储设备的数据量来控制存储设备的温度处于可控范围内的方式,通过测量的实时温度,通过温度预测模型预测存储设备在后续时间段内的温度数据,确定温度控制系统的工作模式,控制存储设备的温度处于可控范围内,达到了预先对存储设备进行控制,以使存储设备的温度处于可控范围内的目的,从而实现了提高存储设备的温度控制的及时性,避免了检测时效延迟,导致存储设备的温度难以得到有效控制的技术效果,进而解决了现有技术中固态存储设备的检测,由于检测的时效性差,在存储设备温度上升过高过快的情况下,无法及时告警,从而导致无法准确及时监控,造成存储设备故障的技术问题。
上述测量得到存储设备的实时温度,可以通过温度检测装置对存储设备的温度进行测量,例如,温度传感器。上述存储设备可以为固态硬盘,还可以为固态存储设备SSD。
上述温度预测模型可以为机器学习模型或者深度学习模型,上述温度预测模型可以由多组训练数据训练而成,每组训练数据包括输入的实时温度,以及对应的后续时间段内的温度数据。
具体的,训练上述温度测试模型可以包括:根据训练数据,确定数据集D={(x1,y1),(x2,y2),...,(xn,yn),xn为测量的实时温度,yn为预测温度。上述温度预测模型的原始模型可以为f(xi)=wxi+b,要使均方误差
Figure BDA0002773008800000041
最小,那么目标变量w和b的函数可以采用最小二乘法来计算,公式
Figure BDA0002773008800000042
进行方程求解,即可以得出:
Figure BDA0002773008800000051
Figure BDA0002773008800000052
其中
Figure BDA0002773008800000053
为x的平均值,对应的模型输出为f(xi)=w*xi+b*
通过不断计算和学习,可以逐渐精确w*和b*,对应的每一次输入指定温度参数xi,可以推算出将来的温度走向f(xi),并能继续纠正上述w*和b*。具体的,根据当前输入的实时温度,不断进行统计和学习,同时预判温度走向。根据学习的结果和当前的温度,确定下一步温度是否要保持在温度可控范围(例如,0℃~60℃),还是要升高到温度预警范围(例如,60℃~75℃),还是要升高到温度控制范围(例如,75℃以上)。
上述温度可控范围可以理解为存储设备可以正常工作的范围。
上述基于预测得到的温度数据,确定温度控制系统的工作模式,在预测的温度数据过高时,调整工作模式,以降低存储设备的温度。预测的温度数据不会超出可控范围时,可以保持当前的工作模式进行工作。或者在预测的温度数据较低时,可以改变工作模式,适当增加存储设备的温度,以提高存储设备的工作效率。
可选的,在采用机器学习模型分析实时温度之前,方法还包括:获取存储设备的温度样本数据,其中,温度样本数据包括:存储设备在历史时间段内的温度数据;采用温度样本数据训练神经网络模型,生成温度预测模型。
上述温度样本数据也即是上述训练数据,可以包括存储设备在历史时间段内的温度数据,采用温度样本数据训练神经网络模型,生成温度预测模型。从而使得温度预测模型足够准确,以提高温度预测的准确性,保证工作模式切换的正确性,进一步提高了存储设备监测的安全性。
可选的,基于预测得到的温度数据,确定温度控制系统的工作模式,包括:判断预测得到的温度数据是否处于可控范围内;如果处于可控范围,温度控制系统的工作模式为停止工作;如果处于预警范围,温度控制系统的工作模式为控制往存储设备按照预定的控制等级执行写入操作;如果处于非可控范围,温度控制系统的工作模式为控制存储设备按照持续降低带宽的方式执行写入操作。
上述预警范围的温度高于可控范围的温度,上述非可控范围的温度高于预警范围的温度。
如果处于可控范围,说明存储设备温度正常,温度控制系统的工作模式为停止工作,也即是可以停止温度控制系统对存储设备的工作,使其保持现状即可;如果处于预警范围,说明存储设备温度略高,可能存在高温隐患,温度控制系统的工作模式为控制往存储设备按照预定的控制等级执行写入操作。具体的,在写入存储设备的数据量小于预设数据量的情况下,说明存储设备的工作压力较小,此时预测数据产生的高温可能只是由于存储设备本身正常的温度波动,在后续时间段内存储设备发生高温危险的可能性较小,则可以保持当前的带宽写入;在写入存储设备的数据量不小于预设数据量的情况下,说明存储设备的工作压力较大,此时预测数据产生的高温,在后续时间段内存储设备发生高温危险的可能性较大,则可以逐渐降低当前的带宽写入,以避免可能存储设备可能出现的高温危险。如果处于非可控范围,则说明存储设备的温度非常可能出现高温危险,或者说马上就要出现高温危险,温度控制系统的工作模式为控制存储设备按照持续降低带宽的方式执行写入操作,也即是直接持续性的降低当前的宽带写入,以避免存储设备即将出现的高温危险。
可选的,温度控制系统控制往存储设备按照预定的控制等级执行写入操作,包括:统计当前写入缓存,且未写入存储设备的数据总量;如果未写入存储设备的数据总量未超过预定阈值,控制未写入存储设备的数据按照第一控制等级执行写入操作;如果未写入存储设备的数据总量超过预定阈值,控制未写入存储设备的数据按照第二控制等级执行写入操作。
上述第一控制等级执行写入操作可以为保持当前的带宽写入,上述第二控制等级执行写入操作可以为逐渐降低当前的带宽写入。
可选的,第一控制等级为保持当前的带宽,第二控制等级为按照预定的降低频率来逐渐降低当前的带宽。
也即是,在写入存储设备的数据量未超过预定阈值的情况下,说明存储设备的工作压力较小,此时预测数据产生的高温可能只是由于存储设备本身正常的温度波动,在后续时间段内存储设备发生高温危险的可能性较小,则可以保持当前的带宽写入;在写入存储设备的数据量超过预定阈值的情况下,说明存储设备的工作压力较大,此时预测数据产生的高温,在后续时间段内存储设备发生高温危险的可能性较大,则可以逐渐降低当前的带宽写入,以避免可能存储设备可能出现的高温危险。
可选的,带宽用于表征任意两次向存储设备写入数据的写入时间差。
带宽越高说明写入数据越快,相同单位时间内容写入的数据量越高,存储设备产生的温度升高。带宽越低说明写入数据越慢,相同单位时间内容写入的数据量越低,存储设备产生的温度降低。
需要说明的是,通过降低写入带宽的方法,可以采用增加两次写入存储介质之间的时间差的方式来降低控制温度。如何确定时间差,可以采用PI控制方法确定,已知的参数有两个,一个是当前温度和限制温度的差距,δ(Tc-Td),Tc是当前检测到的系统温度,Td是标准的限定温度,在当前的系统为70℃;另外一个参数就是从发生检测温度开始超过限定温度到目前为止,总的超过限度之和St=δ*f,其中f为统计次数。那么比例系数Kp和微分系数Ki的确定就决定了整个系统的快速响应和稳定性,按照PI控制方法的先比例(从中间到两边),后积分(从0到大),再微分(从0到大)的基本调试方法,结合Nand存储介质的写入时间,可以调试出以下基本计算方法:
Figure BDA0002773008800000071
将上述计算出来的写入时间差,按照比例插入两次写入过程中,即可以有效降低系统上升温度。
可选的,构建针对存储设备的温度控制的三维向量表,三维向量表包含了存储设备的温度变化,写入的数据量以及写入时间差。
上述三维向量表包括温度走向,数据量以及写入时间差,每次在调整写入时间差来控制温度的时候,可以参考并不断纠正这个三维表,每次都会是更深一步的学习,使用向量表的同时纠正这个表格,保证硬盘温度的稳定以及写入带宽的平稳性。
需要说明的是,本申请实施例还提供了一种可选的实施方式,下面对该实施方式进行详细说明。
本实施方式统计历史温度信息并结合当前温度,利用机器学习算法,预测下一步硬盘的温度走向。并根据温度走向,结合当前正准备写入的数据量以及数据的复杂度,确定是否需要启动温度控制系统,以及启动控制的等级。
启动对应等级的温度控制系统后,通过结合数据量的大小和复杂度,决定采用何种等级的控制模式对写入存储介质的速率进行适当延时。整个算法,结合温度预判,数据量大小分析,通过自适应的智能算法,在尽可能的保持原有的写入带宽以及控制温度在安全范围内的基础上,确保用户数据的完整性。解决了之前的温度控制系统滞后性,写入速度波动性大,不够灵活智能的一系列问题。
本实施方式提供一种自适应的工业级固态硬盘温度控制系统,可以主动学习并提前预判温度走向,根据温度未来走向及时调整写入策略,在尽可能维持写入带宽持续性的条件下,有效控制硬盘温度,保证用户数据的完整性和准确性。
获取固态硬盘实时温度,并将此温度输入机器学习模块。机器学习模块统计温度并进行学习,最终预测温度走向。考虑到一般测试过程中的温度变化是线性的,比如,如图2所示的温度走向,图2是根据本发明实施方式的温度走向的示意图。
所以采用机器算法中的线性回归模型,线性回归是针对两个或者多个变量之间存在线性关系,可以通过历史数据,摸清楚变量之间的联系,建立一个有效的模型,来预测未来的变量结果。它的优点是建模速度快,不需要非常复杂的计算,在数据量大的情况下依然运行速度很快,并且可以根据系数给出每个变量的理解和解释。
给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},xn为检测温度,yn为预测温度。对应的原始模型为f(xi)=wxi+b,要使均方误差
Figure BDA0002773008800000081
最小,那么目标变量w和b的函数可以采用最小二乘法来计算,公式
Figure BDA0002773008800000082
进行方程求解,即可以得出:
Figure BDA0002773008800000083
Figure BDA0002773008800000084
其中
Figure BDA0002773008800000085
为x的平均值,对应的模型输出为f(xi)=w*xi+b*
通过不断计算和学习,可以逐渐精确w*和b*,对应的每一次输入指定温度参数xi,可以推算出将来的温度走向f(xi),并能继续纠正上述两个参数。具体的,根据当前输入的实时温度,不断进行统计和学习,同时预判温度走向。根据学习的结果和当前的温度,确定下一步温度是否要保持在温度可控范围(0℃~60℃),还是要升高到温度预警范围(60℃~75℃),还是要升高到温度控制范围(75℃以上)。
系统统计分析模块,主要是数据量统计,统计当前写缓存中未写入存储介质的用户数据量,数据量统计结果结合上述温度的未来走向,判决采用哪种等级的温度控制动作。总共有以下几种工作方式:
1.高温可控范围,不需要启动温度控制;
2.高温预警范围,较少数据量,保持原带宽写入;
3.高温预警范围,较多数据量,逐渐降低原带宽写入;
4.高温控制范围,不管数据量多少,持续降低带宽写入。
通过降低写入带宽方法,亦即采用增加两次写入存储介质之间的时间差的方式来降低控制温度。如何确定时间差,采用PI控制方法确定,已知的参数有两个,一个是当前温度和限制温度的差距,δ=(Tc-Td),Tc是当前检测到的系统温度,Td是标准的限定温度,在当前的系统为70℃,另外一个参数就是从发生检测温度开始超过限定温度到目前为止,总的超过限度之和St=δ*f,其中f为统计次数。那么比例系数Kp和微分系数Ki的确定就决定了整个系统的快速响应和稳定性,按照PI控制方法的先比例(从中间到两边),后积分(从0到大),再微分(从0到大)的基本调试方法,结合Nand存储介质的写入时间,可以调试出以下基本计算方法:
Figure BDA0002773008800000091
将上述计算出来的写入时间差,按照比例插入两次写入过程中,即可以有效降低系统上升温度。
通过不同控制等级采用降低写入带宽控制温度的同时,结合数据量参数、温度走向参数以及控制时间差参数,可以建立起一个统计机器学习模块,输入参数是数据量和温度走向,输出是控制时间差,同时输出的控制时间差又结合数据量和温度走向有一个进一步的反馈,观察是否真正有效的控制了温度的持续升高。
图3是根据本发明实施方式的监测系统架构的示意图,如图3所示,当前模型中的统计机器学习策略,是根据计算写入时间差和温度以及数据量中挑选出参数最优的模型,模型的分类或者预测结果与实际情况的误差越小,亦即损失函数越小,模型策略就越有效,而这个策略可以通过引用损失函数的方式来度量模型的好坏,首先设定损失函数,这样监督学习问题就变成了最小化损失函数,那么按照这样的策略,就可以求解出最优化的模型了,最小化损失函数判断准则为
Figure BDA0002773008800000092
由此,结合统计机器学习算法,最终可以建立起一个三维向量表,包含了温度走向,数据量以及写入时间差,每次在调整写入时间差来控制温度的时候,可以参考并不断纠正这个三维表,每次都会是更深一步的学习,使用向量表的同时纠正这个表格,保证硬盘温度的稳定以及写入带宽的平稳性。
本实施方式采用线性回归机器算法对温度进行实时预测;根据温度层次和数据量复杂度,通过统计机器学算法动态调整温度控制方案,并不断优化方案。相比其它的被动温度检测机制,本方案通过结合机器算法,可以提前预测硬盘的温度走向,为温度控制模块提供可靠的预警机制;结合数据分析模块,根据硬盘自身状态和温度走向,做出分级的温度控制方式,智能的控制系统可以保证温度的稳定性,以及写入带宽的持续性。
图4是根据本发明实施例的一种存储设备的监测装置的示意图,如图4所示,根据本发明实施例的另一方面,还提供了一种存储设备的监测装置,包括:测量模块42,预测模块44和确定模块46,下面对该装置进行详细说明。
测量模块42,用于测量得到存储设备的实时温度;预测模块44,与上述测量模块42相连,用于采用温度预测模型分析实时温度,预测得到存储设备在后续时间段内的温度数据;确定模块46,与上述预测模块44相连,用于基于预测得到的温度数据,确定温度控制系统的工作模式,其中,温度控制系统通过控制写入存储设备的数据量来控制存储设备的温度处于可控范围内。
通过上述装置,采用测量模块42测量得到存储设备的实时温度;预测模块44采用温度预测模型分析实时温度,预测得到存储设备在后续时间段内的温度数据;确定模块46基于预测得到的温度数据,确定温度控制系统的工作模式,其中,温度控制系统通过控制写入存储设备的数据量来控制存储设备的温度处于可控范围内的方式,通过测量的实时温度,通过温度预测模型预测存储设备在后续时间段内的温度数据,确定温度控制系统的工作模式,控制存储设备的温度处于可控范围内,达到了预先对存储设备进行控制,以使存储设备的温度处于可控范围内的目的,从而实现了提高存储设备的温度控制的及时性,避免了检测时效延迟,导致存储设备的温度难以得到有效控制的技术效果,进而解决了现有技术中固态存储设备的检测,由于检测的时效性差,在存储设备温度上升过高过快的情况下,无法及时告警,从而导致无法准确及时监控,造成存储设备故障的技术问题。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质包括存储的程序,其中,在程序运行时控制计算机存储介质所在设备执行上述中任意一项的存储设备的监测方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的存储设备的监测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种存储设备的监测方法,其特征在于,包括:
测量得到存储设备的实时温度;
采用温度预测模型分析所述实时温度,预测得到所述存储设备在后续时间段内的温度数据;
基于所述预测得到的温度数据,确定温度控制系统的工作模式,其中,所述温度控制系统通过控制写入所述存储设备的数据量来控制所述存储设备的温度处于可控范围内。
2.根据权利要求1所述的方法,其特征在于,在采用机器学习模型分析所述实时温度之前,所述方法还包括:
获取所述存储设备的温度样本数据,其中,所述温度样本数据包括:所述存储设备在历史时间段内的温度数据;
采用所述温度样本数据训练神经网络模型,生成所述温度预测模型。
3.根据权利要求1所述的方法,其特征在于,基于所述预测得到的温度数据,确定温度控制系统的工作模式,包括:
判断所述预测得到的温度数据是否处于所述可控范围内;
如果处于所述可控范围,所述温度控制系统的工作模式为停止工作;
如果处于预警范围,所述温度控制系统的工作模式为控制往所述存储设备按照预定的控制等级执行写入操作;
如果处于非可控范围,所述温度控制系统的工作模式为控制所述存储设备按照持续降低带宽的方式执行写入操作。
4.根据权利要求3所述的方法,其特征在于,所述温度控制系统控制往所述存储设备按照预定的控制等级执行所述写入操作,包括:
统计当前写入缓存,且未写入所述存储设备的数据总量;
如果所述未写入所述存储设备的数据总量未超过预定阈值,控制所述未写入所述存储设备的数据按照第一控制等级执行所述写入操作;
如果所述未写入所述存储设备的数据总量超过所述预定阈值,控制所述未写入所述存储设备的数据按照第二控制等级执行所述写入操作。
5.根据权利要求4所述的方法,其特征在于,所述第一控制等级为保持当前的带宽,第二控制等级为按照预定的降低频率来逐渐降低当前的带宽。
6.根据权利要求5所述的方法,其特征在于,所述带宽用于表征任意两次向所述存储设备写入数据的写入时间差。
7.根据权利要求6所述的方法,其特征在于,构建针对所述存储设备的温度控制的三维向量表,所述三维向量表包含了所述存储设备的温度变化,写入的数据量以及写入时间差。
8.一种存储设备的监测装置,其特征在于,包括:
测量模块,用于测量得到存储设备的实时温度;
预测模块,用于采用温度预测模型分析所述实时温度,预测得到所述存储设备在后续时间段内的温度数据;
确定模块,用于基于所述预测得到的温度数据,确定温度控制系统的工作模式,其中,所述温度控制系统通过控制写入所述存储设备的数据量来控制所述存储设备的温度处于可控范围内。
9.一种计算机存储介质,其特征在于,所述计算机存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机存储介质所在设备执行权利要求1至7中任意一项所述的存储设备的监测方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的存储设备的监测方法。
CN202011255564.1A 2020-11-11 2020-11-11 存储设备的监测方法及装置 Pending CN112328454A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011255564.1A CN112328454A (zh) 2020-11-11 2020-11-11 存储设备的监测方法及装置
PCT/CN2020/132912 WO2022099819A1 (zh) 2020-11-11 2020-11-30 存储设备的监测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011255564.1A CN112328454A (zh) 2020-11-11 2020-11-11 存储设备的监测方法及装置

Publications (1)

Publication Number Publication Date
CN112328454A true CN112328454A (zh) 2021-02-05

Family

ID=74318487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011255564.1A Pending CN112328454A (zh) 2020-11-11 2020-11-11 存储设备的监测方法及装置

Country Status (2)

Country Link
CN (1) CN112328454A (zh)
WO (1) WO2022099819A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114296495A (zh) * 2021-11-30 2022-04-08 科华数据股份有限公司 温度控制方法、控制设备及温控系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806912B (zh) * 2024-02-28 2024-05-14 济南聚格信息技术有限公司 一种服务器异常监测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982836A (zh) * 2012-11-21 2013-03-20 记忆科技(深圳)有限公司 增强固态硬盘可靠性的方法及其固态硬盘
CN105917287A (zh) * 2013-09-09 2016-08-31 希捷科技有限公司 具有温度管理的移动数据存储设备
US20170060202A1 (en) * 2015-08-27 2017-03-02 Rajesh Sundaram Thermal monitoring of memory resources
CN107179877A (zh) * 2016-03-09 2017-09-19 群联电子股份有限公司 数据传输方法、存储器控制电路单元与存储器存储装置
CN108803576A (zh) * 2018-07-24 2018-11-13 广东工业大学 一种温控系统的故障预警方法及相关装置
CN109375994A (zh) * 2018-09-10 2019-02-22 西安交通大学 基于rbf神经网络的数据中心任务温度预测及调度方法
CN110489303A (zh) * 2019-08-22 2019-11-22 江苏华存电子科技有限公司 一种基于NVMe SSD硬盘的温度预测控制管理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810119B (zh) * 2014-02-28 2017-01-04 北京航空航天大学 利用片上温差降低stt-mram功耗的缓存设计方法
US9971609B2 (en) * 2014-06-05 2018-05-15 American Megatrends, Inc. Thermal watchdog process in host computer management and monitoring
US9668337B2 (en) * 2015-09-08 2017-05-30 Western Digital Technologies, Inc. Temperature management in data storage devices
CN107342101A (zh) * 2017-08-29 2017-11-10 郑州云海信息技术有限公司 一种固态硬盘的温度控制方法及温度控制系统
US11372460B2 (en) * 2018-02-24 2022-06-28 Samsung Electronics Co., Ltd. Systems, methods, and apparatus using artificial intelligent cooling method for server and ssd

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982836A (zh) * 2012-11-21 2013-03-20 记忆科技(深圳)有限公司 增强固态硬盘可靠性的方法及其固态硬盘
CN105917287A (zh) * 2013-09-09 2016-08-31 希捷科技有限公司 具有温度管理的移动数据存储设备
US20170060202A1 (en) * 2015-08-27 2017-03-02 Rajesh Sundaram Thermal monitoring of memory resources
CN107179877A (zh) * 2016-03-09 2017-09-19 群联电子股份有限公司 数据传输方法、存储器控制电路单元与存储器存储装置
CN108803576A (zh) * 2018-07-24 2018-11-13 广东工业大学 一种温控系统的故障预警方法及相关装置
CN109375994A (zh) * 2018-09-10 2019-02-22 西安交通大学 基于rbf神经网络的数据中心任务温度预测及调度方法
CN110489303A (zh) * 2019-08-22 2019-11-22 江苏华存电子科技有限公司 一种基于NVMe SSD硬盘的温度预测控制管理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114296495A (zh) * 2021-11-30 2022-04-08 科华数据股份有限公司 温度控制方法、控制设备及温控系统
CN114296495B (zh) * 2021-11-30 2023-02-28 科华数据股份有限公司 温度控制方法、控制设备及温控系统

Also Published As

Publication number Publication date
WO2022099819A1 (zh) 2022-05-19

Similar Documents

Publication Publication Date Title
CN108228377B (zh) 一种面向磁盘故障检测的smart阈值优化方法
CN108304287B (zh) 一种磁盘故障检测方法、装置以及相关设备
US8036764B2 (en) Virtual sensor network (VSN) system and method
CN112328454A (zh) 存储设备的监测方法及装置
US11657121B2 (en) Abnormality detection device, abnormality detection method and computer readable medium
JP2022534070A (ja) グラディエントベースのセンサ識別を利用した障害予測
Yang et al. A hybrid model-based fault detection strategy for air handling unit sensors
CN110112442B (zh) 一种燃料电池系统控制方法及装置
CN109359873B (zh) 一种基于pca-t2的滚珠丝杠副健康评估方法
CN110134536B (zh) 数据处理方法、数据处理装置及记录介质
US10565343B2 (en) Circuit configuration optimization apparatus and machine learning device
Zhong et al. Multimode non‐Gaussian process monitoring based on local entropy independent component analysis
CN111684367B (zh) 控制装置、控制系统、控制方法以及计算机可读存储介质
JP2012164314A (ja) 現象における変数の影響を決定する方法
TW201926041A (zh) 設備保養預測系統及其操作方法
CN115810554A (zh) 检测异常的方法
CN114994543A (zh) 储能电站电池故障诊断方法、装置及存储介质
KR101808461B1 (ko) 기계의 잔여수명 예측 방법 및 장치
CN107450509B (zh) 控制阀粘滞的检测或诊断方法
CN117436593A (zh) 基于人工智能的焚烧炉系统故障预测方法及系统
CN111258863B (zh) 数据异常检测方法、装置、服务器和计算机可读存储介质
US10394255B2 (en) Diagnostic device and method for monitoring frictional behavior in a control loop
JP7439467B2 (ja) 情報処理装置、情報処理システム、モデルの学習方法
CN113704323A (zh) 一种基于htm改进的时序异常检测算法
CN113778044A (zh) 一种火电厂送风机系统监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205