CN115221017A - 服务器温度传感器自检的方法、系统、设备及存储介质 - Google Patents

服务器温度传感器自检的方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115221017A
CN115221017A CN202210999707.2A CN202210999707A CN115221017A CN 115221017 A CN115221017 A CN 115221017A CN 202210999707 A CN202210999707 A CN 202210999707A CN 115221017 A CN115221017 A CN 115221017A
Authority
CN
China
Prior art keywords
server
temperature sensor
neural network
value
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210999707.2A
Other languages
English (en)
Inventor
马进
刘宝阳
孙明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Original Assignee
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd filed Critical Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority to CN202210999707.2A priority Critical patent/CN115221017A/zh
Publication of CN115221017A publication Critical patent/CN115221017A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明涉及服务器监测技术领域,具体涉及服务器温度传感器自检的方法、系统、设备及存储介质。该方法基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数;获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值;计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。

Description

服务器温度传感器自检的方法、系统、设备及存储介质
技术领域
本发明涉及服务器监测技术领域,尤其涉及服务器温度传感器自检的方法、系统、设备及存储介质。
背景技术
服务器内部应用了多种类型、且数量众多的传感器,用于检测服务器内部关键元器件的运行状态,为系统及维护人员提供数据,及时告警、用于系统调整运行策略等,其中又以温度传感器应用最为广泛。但是存在一个问题,如果温度传感器本身存在问题,就是温度传感器的检测值与被检测元器件的实际温度存在较大偏差时,目前在服务器监控策略中并没有相应的解决方法,所以本发明提出一种服务器温度传感器自检的方法,用于及时发现温度传感器自身运行状态问题。
现有技术中,如专利《自检测的电流型温度传感器及温度检测设备》的目的也是对温度传感器进行自检测,但是其实现方法为硬件电路形式,落地成本高,不易于推广使用。
发明内容
为了解决上述现有技术中存在的技术问题,本发明提供了一种服务器温度传感器自检的方法、系统、设备及存储介质,解决了只能离线检测服务器温度传感器运行状态与硬件实现方式检测成本高的痛点,可以达到实时检测、定位运行异常的温度传感器。循环神经网络是基于序列数据建模,可以学习序列数据前后之间的相关性,在本发明的应用场景下,便可以基于传感器历史检测值与服务器运行状态数据,预测出相关元器件下一刻的温度,从而可以与其对应的温度传感器实际检测值进行对比,用以评估温度传感器的运行状态。
为实现上述目的,本发明实施例提供了如下的技术方案:
第一方面,在本发明提供的一个实施例中,提供了服务器温度传感器自检的方法,该方法包括以下步骤:
基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数;
获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;
对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值;
计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
作为本发明的进一步方案,所述基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数,包括以下步骤:
获取历史离线传感器检测值及相关运行状态数据,权重系数初始化;
获取的历史离线传感器检测值及相关运行状态数据进行归一处理;
对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算;
对前向计算处理后得到的数据进行计算误差,若误差满足设定范围,则输出权重系数;若误差不满足设定范围,则经过反向传播更新权重系数处理后,返回至步骤三,继续计算;
满足训练终止条件后,终止训练。
作为本发明的进一步方案,所述权重系数初始化,均采用高斯分布N(0,0.01)进行初始化,且每一轮训练10个序列数据。
作为本发明的进一步方案,反向传播更新权重系数处理方法采用基于时间的反向传播算法。
作为本发明的进一步方案,所述归一化方法按如下公式计算:
Figure BDA0003807039080000031
其中,
Figure BDA0003807039080000032
指检测原始值;
Figure BDA0003807039080000033
指理论上可以获取的最小值,
Figure BDA0003807039080000034
指该理论上可以获取的最大值;./指点除;abs(x)指取数值x的绝对值;
Figure BDA0003807039080000035
指归一化后的值。
作为本发明的进一步方案,所述离线训练循环神经网络训练当满足如下之一条件时,则停止训练,结束条件为:
(1)训练轮数大于5000次时;
(2)累计误差Loss小于10时,则认为循环神经网络已经收敛,停止训练。
所述计算温度传感器的预估值与其实际检测值的相对误差包括:
作为本发明的进一步方案,将温度传感器预估值Oq,与该温度传感器q下一刻实际检测值的归一化数值yq,进行相对误差计算,按照如下公式进行计算:
Errorrelative=bs(Oq-yq)/yq
第二方面,在本发明提供的又一个实施例中,提供了服务器温度传感器自检的系统,该系统包括:
循环神经网络训练模块100、数据获取模块200、数据归一处理模块300和判断模块400。
所述循环神经网络训练模块100,用于基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数;
所述数据获取模块200,用于获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;
所述数据归一处理模块300,用于对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值;
所述判断模块400,计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
第三方面,在本发明提供的又一个实施例中,提供了一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现服务器温度传感器自检的方法的步骤。
第四方面,在本发明提供的再一个实施例中,提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现所述服务器温度传感器自检的方法的步骤。
本发明提供的技术方案,具有如下有益效果:
本发明提供的服务器温度传感器自检的方法、系统、设备及存储介质,解决了只能离线检测服务器温度传感器运行状态与硬件实现方式检测成本高的痛点,可以达到实时检测、定位运行异常的温度传感器。循环神经网络是基于序列数据建模,可以学习序列数据前后之间的相关性,在本发明的应用场景下,便可以基于传感器历史检测值与服务器运行状态数据,预测出相关元器件下一刻的温度,从而可以与其对应的温度传感器实际检测值进行对比,用以评估温度传感器的运行状态。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
图1为本发明一个实施例的服务器温度传感器自检方法的流程图。
图2为本发明一个实施例的服务器温度传感器自检方法中的循环神经网络的结构图。
图3为本发明一个实施例的服务器温度传感器自检方法中离线训练循环神经网络的流程图。
图4为本发明一个实施例的服务器温度传感器自检的方法示例具体流程图。
图5为本发明一个实施例的服务器温度传感器自检的方法中提供基于相对误差结果做出相对应的决策流程图。
图中:循环神经网络训练模块-100、历史数据处理模块-101、训练归一处理模块-102、训练前向计算模块-103、权重系数输出模块-104、终止模块-105、数据获取模块-200、数据归一处理模块-300、判断模块-400。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
具体地,下面结合附图,对本发明实施例作进一步阐述。
请参阅图1,图1是本发明实施例提供的一种服务器温度传感器自检的方法的流程图,如图1所示,该服务器温度传感器自检的方法包括步骤S10至步骤S30。
S10、基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数。
在本发明的实施例中,所述服务器关键运行状态数据包括CPU使用占比、GPU使用占比、硬盘吞吐、内存使用占比、每个风扇的转速。
请参阅图3,图3提供S10、示例具体流程图,具体的所述基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数,包括以下步骤:
步骤一:获取历史离线传感器检测值及相关运行状态数据,权重系数初始化;
步骤二:对获取的历史离线传感器检测值及相关运行状态数据进行归一处理;
步骤三:对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算;
步骤四:对前向计算处理后得到的数据进行计算误差,若误差满足设定范围,则输出权重系数;若误差不满足设定范围,则经过反向传播更新权重系数处理后,返回至步骤三,继续计算。
步骤五:满足训练终止条件后,终止训练。
具体的,温度传感器数值的预估模型采用循环神经网络,如2图所示为本发明所采用的具体结构,其中隐藏层采用4层结构,假设输入数据,即服务器传感器数量与运行状态数量之和,为N个;输出数据,即需要实时自检的温度传感器数量为M个,则当前模型每一层的单元数量分别为,输入层:N个;隐藏层第一层:4N个;隐藏层第二层:2N个;隐藏层第三层:2N个;隐藏层第四层:N个;输出层:M个。
其中:
Figure BDA0003807039080000071
指在序列索引号为t时输入的训练样本,即服务器内部传感器检测值及服务器关键运行状态数据的归一化值;
Figure BDA0003807039080000072
指该输入数据矩阵的维度为N×1,后续该符号意义一致,不再赘述,同理,Xt-1和Xt+1分别指t-1时刻和t+1时刻输入的训练样本;
Figure BDA0003807039080000073
指在序列索引号为t时模型隐藏层第L层的状态,NL具体值取决于其所在层数,比如第一层隐藏层即为
Figure BDA0003807039080000081
Figure BDA0003807039080000082
指在序列索引号为t时模型的预测输出;
隐藏层与输出层激活函数均采用sigmoid函数,如下公式1所示:
Figure BDA0003807039080000083
其中,e指自然对数。
U、V、W均为权重系数矩阵,是模型的线性变换系数,在整个RNN网络共享,其中:
Figure BDA0003807039080000084
指模型第L层的输入权重系数,系数矩阵的维度取决于层数,比如第二层隐藏层的输入权重系数为
Figure BDA0003807039080000085
Figure BDA0003807039080000086
指模型上一时刻与下一时刻隐藏层第L层的输入权重系数;NL具体值基于其所在层数,比如第二层隐藏层权重系数为
Figure BDA0003807039080000087
Figure BDA0003807039080000088
指模型隐藏层与输出层的权重系数。
输入数据归一化
对每个输入数据进行归一化处理,归一化方法按如下公式2计算:
Figure BDA0003807039080000089
其中,
Figure BDA00038070390800000810
指检测原始值;
Figure BDA00038070390800000811
指理论上可以获取的最小值,
Figure BDA00038070390800000812
指该理论上可以获取的最大值;./指点除;abs(x)指取数值x的绝对值;
Figure BDA00038070390800000813
指归一化后的值。
所述权重系数初始化,均采用高斯分布N(0,0.01)进行初始化,且每一轮训练10个序列数据。
所述前向计算,在t时刻,根据该时刻的输入Xt和上一时刻保留的隐藏层状态信息
Figure BDA00038070390800000814
按照如下公式3、4,计算该时刻的输出。此处以计算隐藏层状态
Figure BDA00038070390800000815
与最后输出层Ot为例,其它层以此类推:
Figure BDA0003807039080000091
Figure BDA0003807039080000092
其中,(x)′指对矩阵x进行转置。
其中,bL是每一层隐藏层对应的偏置系数,其维度与该层单元数量一致,其中L指层数。
所述计算累加误差,反向传播更新系数时,需要考虑当前一轮所有时刻的累加误差,计算方法如下公式所5示:
Figure BDA0003807039080000093
Figure BDA0003807039080000094
其中,∑指累加运算符号;
Figure BDA0003807039080000095
指求数值x的平方根;
Figure BDA0003807039080000096
指在序列索引号为t时训练样本序列的预期数值,即温度传感器的实际检测值;yt∈RM×1指yorg的归一化数值;
Figure BDA0003807039080000097
指温度传感器实际检测可以得到的理论最小值;
Figure BDA0003807039080000098
指温度传感器实际检测可以得到的理论最大值。
T指当前一轮训练序列的总数量,此处为设定值10。
反向传播更新权重系数处理方法采用基于时间的反向传播算法(Back-Propagation Through Time,BPTT),该方法为常规通用方法。
所述离线训练循环神经网络训练当满足如下之一条件时,则停止训练,结束条件为:
(1)训练轮数大于5000次时;
(2)累计误差Loss小于10时,则认为循环神经网络已经收敛,停止训练;
S20、获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;
S30、对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值。
S40、计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
示例性的,请参阅图4,图4提供一个实施例的服务器温度传感器自检的方法示例具体流程图,如图4所示,其步骤如下:
1)获取当前所有传感器检测值与服务器关键运行状态
每间隔2秒,读取存储在内存中的所有传感器的实际检测值,然后获取如下服务器运行状态数值:CPU使用占比、GPU使用占比、内存使用占比、硬盘吞吐、每个风扇的转速。
2)输入数据归一化
数据归一化方法与训练过程中一致。
3)前向计算
该过程与训练过程的前向计算一致,此时得到某温度传感器下一刻的预估值Oq,其中q表示某种特定的温度传感器,比如显卡温度传感器。
4)计算相对误差
将温度传感器预估值Oq,与该温度传感器q下一刻实际检测值的归一化数值yq,进行相对误差计算,按照如下公式7进行计算:
Errorrelative=bs(Oq-yq)/yq (公式7)
5)请参阅图5,图5提供基于相对误差结果,做出相对应的决策流程图,
其中0≤Prop1,0≤Prop2,Prop1<Prop2,两者具体阈值可以根据具体场景进行调整设定。
如果预估数值与实际检测值的相对误差Errorrelative≤Prop1,则认为该温度传感器运行状态正常;
如果预估数值与实际检测值的相对误差Prop1<Errorrelative≤Prop2,则认为该温度传感器状态异常,可以告警关注该异常,进行检测;
如果预估数值与实际检测值的相对误差Prop2<Errorrelative,则认为该温度传感器已经损坏,可以告警建议更换该温度传感器。
本发明解决了只能离线检测服务器温度传感器运行状态与硬件检测成本高的痛点,可以达到实时检测、定位运行异常的传感器,降低企业运行成本。可以做到对异常温度传感器实时告警,以避免异常温度传感器检测不准确引发的后续问题;方便定位异常传感器,排查问题;不需要针对运行平台设计特定的硬件,而是基于算法逻辑与软件编码实现,易于推广。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,参见图3所示,在本发明的实施例中还提供了服务器温度传感器自检的系统,该系统包括循环神经网络训练模块100、数据获取模块200、数据归一处理模块300和判断模块400。
所述循环神经网络训练模块100,用于基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数。
其中,所述循环神经网络训练模块100,包括历史数据处理模块101、训练归一处理模块102、训练前向计算模块103、权重系数输出模块104和终止模块105。
历史数据处理模块101,用于获取历史离线传感器检测值及相关运行状态数据,权重系数初始化;
训练归一处理模块102,用于对获取的历史离线传感器检测值及相关运行状态数据进行归一处理;
训练前向计算模块103,用于对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算;
权重系数输出模块104,用于对前向计算处理后得到的数据进行计算误差,若误差满足设定范围,则输出权重系数;若误差不满足设定范围,则经过反向传播更新权重系数处理后,返回至步骤三,继续计算。
终止模块105,用于满足训练终止条件后,终止训练。
所述数据获取模块200,用于获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据。
所述数据归一处理模块300,用于对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值。
所述判断模块400,计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
在一个实施例中,在本发明的实施例中还提供了一种设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的服务器温度传感器自检的方法,该处理器执行指令时实现上述方法实施例中的步骤:
S10、基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数。
在本发明的实施例中,所述服务器关键运行状态数据包括CPU使用占比、GPU使用占比、硬盘吞吐、内存使用占比、每个风扇的转速。
请参阅图3,图3提供S10、示例具体流程图,具体的所述基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数,包括以下步骤:
步骤一:获取历史离线传感器检测值及相关运行状态数据,权重系数初始化;
步骤二:对获取的历史离线传感器检测值及相关运行状态数据进行归一处理;
步骤三:对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算;
步骤四:对前向计算处理后得到的数据进行计算误差,若误差满足设定范围,则输出权重系数;若误差不满足设定范围,则经过反向传播更新权重系数处理后,返回至步骤三,继续计算。
步骤五:满足训练终止条件后,终止训练。
具体的,温度传感器数值的预估模型采用循环神经网络,如2图所示为本发明所采用的具体结构,其中隐藏层采用4层结构,假设输入数据,即服务器传感器数量与运行状态数量之和,为N个;输出数据,即需要实时自检的温度传感器数量为M个,则当前模型每一层的单元数量分别为,输入层:N个;隐藏层第一层:4N个;隐藏层第二层:2N个;隐藏层第三层:2N个;隐藏层第四层:N个;输出层:M个。
其中:
Figure BDA0003807039080000141
指在序列索引号为t时输入的训练样本,即服务器内部传感器检测值及服务器关键运行状态数据的归一化值;
Figure BDA0003807039080000142
指该输入数据矩阵的维度为N×1,后续该符号意义一致,不再赘述,同理,Xt-1和Xt+1分别指t-1时刻和t+1时刻输入的训练样本;
Figure BDA0003807039080000143
指在序列索引号为t时模型隐藏层第L层的状态,NL具体值取决于其所在层数,比如第一层隐藏层即为
Figure BDA0003807039080000144
Figure BDA0003807039080000145
指在序列索引号为t时模型的预测输出;
隐藏层与输出层激活函数均采用sigmoid函数,如下公式1所示:
Figure BDA0003807039080000146
其中,e指自然对数。
U、V、W均为权重系数矩阵,是模型的线性变换系数,在整个RNN网络共享,其中:
Figure BDA0003807039080000147
指模型第L层的输入权重系数,系数矩阵的维度取决于层数,比如第二层隐藏层的输入权重系数为
Figure BDA0003807039080000148
Figure BDA0003807039080000149
指模型上一时刻与下一时刻隐藏层第L层的输入权重系数;NL具体值基于其所在层数,比如第二层隐藏层权重系数为
Figure BDA00038070390800001410
Figure BDA00038070390800001411
指模型隐藏层与输出层的权重系数。
输入数据归一化
对每个输入数据进行归一化处理,归一化方法按如下公式2计算:
Figure BDA00038070390800001412
其中,
Figure BDA0003807039080000151
指检测原始值;
Figure BDA0003807039080000152
指理论上可以获取的最小值,
Figure BDA0003807039080000153
指该理论上可以获取的最大值;./指点除;abs(x)指取数值x的绝对值;
Figure BDA0003807039080000154
指归一化后的值。
所述权重系数初始化,均采用高斯分布N(0,0.01)进行初始化,且每一轮训练10个序列数据。
前向计算
在t时刻,根据该时刻的输入Xt和上一时刻保留的隐藏层状态信息
Figure BDA0003807039080000155
按照如下公式3、4,计算该时刻的输出。此处以计算隐藏层状态
Figure BDA0003807039080000156
与最后输出层Ot为例,其它层以此类推:
Figure BDA0003807039080000157
Figure BDA0003807039080000158
其中,(x)′指对矩阵x进行转置。
其中,bL是每一层隐藏层对应的偏置系数,其维度与该层单元数量一致,其中L指层数。
计算累加误差
反向传播更新系数时,需要考虑当前一轮所有时刻的累加误差,计算方法如下公式所5示:
Figure BDA0003807039080000159
Figure BDA00038070390800001510
其中,∑指累加运算符号;
Figure BDA00038070390800001511
指求数值x的平方根;
Figure BDA00038070390800001512
指在序列索引号为t时训练样本序列的预期数值,即温度传感器的实际检测值;yt∈RM×1指yorg的归一化数值;
Figure BDA0003807039080000161
指温度传感器实际检测可以得到的理论最小值;
Figure BDA0003807039080000162
指温度传感器实际检测可以得到的理论最大值。
T指当前一轮训练序列的总数量,此处为设定值10。
反向传播
反向传播更新权重系数处理方法采用基于时间的反向传播算法(Back-Propagation Through Time,BPTT),该方法为常规通用方法。
所述离线训练循环神经网络训练当满足如下之一条件时,则停止训练,结束条件为:
(1)训练轮数大于5000次时;
(2)累计误差Loss小于10时,则认为循环神经网络已经收敛,停止训练;
S20、获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;
S30、对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值。
S40、计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
本发明解决了只能离线检测服务器温度传感器运行状态与硬件检测成本高的痛点,可以达到实时检测、定位运行异常的传感器,降低企业运行成本。可以做到对异常温度传感器实时告警,以避免异常温度传感器检测不准确引发的后续问题;方便定位异常传感器,排查问题;不需要针对运行平台设计特定的硬件,而是基于算法逻辑与软件编码实现,易于推广。
所述设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他设备的交互操作来实现本发明。其中,所述设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
还应当进理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本发明的一个实施例中还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤:
S10、基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数。
在本发明的实施例中,所述服务器关键运行状态数据包括CPU使用占比、GPU使用占比、硬盘吞吐、内存使用占比、每个风扇的转速。
请参阅图3,图3提供S10、示例具体流程图,具体的所述基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数,包括以下步骤:
步骤一:获取历史离线传感器检测值及相关运行状态数据,权重系数初始化;
步骤二:对获取的历史离线传感器检测值及相关运行状态数据进行归一处理;
步骤三:对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算;
步骤四:对前向计算处理后得到的数据进行计算误差,若误差满足设定范围,则输出权重系数;若误差不满足设定范围,则经过反向传播更新权重系数处理后,返回至步骤三,继续计算。
步骤五:满足训练终止条件后,终止训练。
具体的,温度传感器数值的预估模型采用循环神经网络,如图2所示为本发明所采用的具体结构,其中隐藏层采用4层结构,假设输入数据,即服务器传感器数量与运行状态数量之和,为N个;输出数据,即需要实时自检的温度传感器数量为M个,则当前模型每一层的单元数量分别为,输入层:N个;隐藏层第一层:4N个;隐藏层第二层:2N个;隐藏层第三层:2N个;隐藏层第四层:N个;输出层:M个。
其中:
Figure BDA0003807039080000181
指在序列索引号为t时输入的训练样本,即服务器内部传感器检测值及服务器关键运行状态数据的归一化值;
Figure BDA0003807039080000182
指该输入数据矩阵的维度为N×1,后续该符号意义一致,不再赘述,同理,Xt-1和Xt+1分别指t-1时刻和t+1时刻输入的训练样本;
Figure BDA0003807039080000183
指在序列索引号为t时模型隐藏层第L层的状态,NL具体值取决于其所在层数,比如第一层隐藏层即为
Figure BDA0003807039080000184
Figure BDA0003807039080000185
指在序列索引号为t时模型的预测输出;
隐藏层与输出层激活函数均采用sigmoid函数,如下公式1所示:
Figure BDA0003807039080000186
其中,e指自然对数。
U、V、W均为权重系数矩阵,是模型的线性变换系数,在整个RNN网络共享,其中:
Figure BDA0003807039080000191
指模型第L层的输入权重系数,系数矩阵的维度取决于层数,比如第二层隐藏层的输入权重系数为
Figure BDA0003807039080000192
Figure BDA0003807039080000193
指模型上一时刻与下一时刻隐藏层第L层的输入权重系数;NL具体值基于其所在层数,比如第二层隐藏层权重系数为
Figure BDA0003807039080000194
Figure BDA0003807039080000195
指模型隐藏层与输出层的权重系数。
输入数据归一化
对每个输入数据进行归一化处理,归一化方法按如下公式2计算:
Figure BDA0003807039080000196
其中,
Figure BDA0003807039080000197
指检测原始值;
Figure BDA0003807039080000198
指理论上可以获取的最小值,
Figure BDA0003807039080000199
指该理论上可以获取的最大值;./指点除;abs(x)指取数值x的绝对值;
Figure BDA00038070390800001910
指归一化后的值。
所述权重系数初始化,均采用高斯分布N(0,0.01)进行初始化,且每一轮训练10个序列数据。
前向计算
在t时刻,根据该时刻的输入Xt和上一时刻保留的隐藏层状态信息
Figure BDA00038070390800001911
按照如下公式3、4,计算该时刻的输出。此处以计算隐藏层状态
Figure BDA00038070390800001912
与最后输出层Ot为例,其它层以此类推:
Figure BDA00038070390800001913
Figure BDA0003807039080000201
其中,(x)指对矩阵x进行转置。
其中,bL是每一层隐藏层对应的偏置系数,其维度与该层单元数量一致,其中L指层数。
计算累加误差
反向传播更新系数时,需要考虑当前一轮所有时刻的累加误差,计算方法如下公式所5示:
Figure BDA0003807039080000202
Figure BDA0003807039080000203
其中,∑指累加运算符号;
Figure BDA0003807039080000204
指求数值x的平方根;
Figure BDA0003807039080000205
指在序列索引号为t时训练样本序列的预期数值,即温度传感器的实际检测值;yt∈RM×1指yorg的归一化数值;
Figure BDA0003807039080000206
指温度传感器实际检测可以得到的理论最小值;
Figure BDA0003807039080000207
指温度传感器实际检测可以得到的理论最大值。
T指当前一轮训练序列的总数量,此处为设定值10。
反向传播
反向传播更新权重系数处理方法采用基于时间的反向传播算法(Back-Propagation Through Time,BPTT),该方法为常规通用方法。
所述离线训练循环神经网络训练当满足如下之一条件时,则停止训练,结束条件为:
(1)训练轮数大于5000次时;
(2)累计误差Loss小于10时,则认为循环神经网络已经收敛,停止训练;
S20、获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;
S30、对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值。
S40、计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
本发明解决了只能离线检测服务器温度传感器运行状态与硬件检测成本高的痛点,可以达到实时检测、定位运行异常的传感器,降低企业运行成本。可以做到对异常温度传感器实时告警,以避免异常温度传感器检测不准确引发的后续问题;方便定位异常传感器,排查问题;不需要针对运行平台设计特定的硬件,而是基于算法逻辑与软件编码实现,易于推广。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种服务器温度传感器自检的方法,其特征在于,该方法包括:
基于收集的服务器内部正常的传感器历史检测值及同时期服务器运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数;
获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;
对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值;
计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
2.如权利要求1所述的服务器温度传感器自检的方法,其特征在于,所述基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数,包括以下步骤:
获取历史离线传感器检测值及相关运行状态数据,权重系数初始化;
获取的历史离线传感器检测值及相关运行状态数据进行归一处理;
对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算;
对前向计算处理后得到的数据进行计算误差,若误差满足设定范围,则输出权重系数;若误差不满足设定范围,则经过反向传播更新权重系数处理后,返回至步骤三,继续计算;
满足训练终止条件后,终止训练。
3.如权利要求1所述的服务器温度传感器自检的方法,其特征在于,所述权重系数初始化,均采用高斯分布N(0,0.01)进行初始化,且每一轮训练10个序列数据。
4.如权利要求1所述的服务器温度传感器自检的方法,其特征在于,反向传播更新权重系数处理方法采用基于时间的反向传播算法。
5.如权利要求1所述的服务器温度传感器自检的方法,其特征在于,所述归一化方法按如下公式计算:
Figure FDA0003807039070000021
其中,
Figure FDA0003807039070000022
指检测原始值;
Figure FDA0003807039070000023
指理论上可以获取的最小值,
Figure FDA0003807039070000024
指该理论上可以获取的最大值;./指点除;abs(x)指取数值x的绝对值;
Figure FDA0003807039070000025
指归一化后的值。
6.如权利要求2-5任一所述的服务器温度传感器自检的方法,其特征在于,所述离线训练循环神经网络训练当满足如下之一条件时,则停止训练,结束条件为:
(1)训练轮数大于5000次时;
(2)累计误差Loss小于10时,则认为循环神经网络已经收敛,停止训练。
7.如权利要求1所述的服务器温度传感器自检的方法,其特征在于,所述计算温度传感器的预估值与其实际检测值的相对误差包括:
将温度传感器预估值Oq,与该温度传感器q下一刻实际检测值的归一化数值yq,进行相对误差计算,按照如下公式进行计算:
Errorrelative=abs(Oq-yq)/yq
8.服务器温度传感器自检的系统,其特征在于,该系统包括:循环神经网络训练模块、数据获取模块、数据归一处理模块和判断模块;
所述循环神经网络训练模块,用于基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据,离线训练循环神经网络,获得循环神经网络权重系数;
所述数据获取模块,用于获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据;
所述数据归一处理模块,用于对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理,并送入获得所述权重系数的循环神经网络进行前向计算,获得下一刻温度传感器的预估值;
所述判断模块,计算温度传感器的预估值与其实际检测值的相对误差,根据相对误差判断当前温度传感器是否正常工作,如果存在异常即可及时告警。
9.一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现如权利要求1-7任一项所述的服务器温度传感器自检的方法的步骤。
10.一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现如权利要求1-7任一项所述的服务器温度传感器自检的方法的步骤。
CN202210999707.2A 2022-08-19 2022-08-19 服务器温度传感器自检的方法、系统、设备及存储介质 Pending CN115221017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210999707.2A CN115221017A (zh) 2022-08-19 2022-08-19 服务器温度传感器自检的方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210999707.2A CN115221017A (zh) 2022-08-19 2022-08-19 服务器温度传感器自检的方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115221017A true CN115221017A (zh) 2022-10-21

Family

ID=83616009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210999707.2A Pending CN115221017A (zh) 2022-08-19 2022-08-19 服务器温度传感器自检的方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115221017A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627770A (zh) * 2023-07-18 2023-08-22 苏州浪潮智能科技有限公司 网卡温度预测方法、装置、计算机设备及存储介质
CN117553840A (zh) * 2024-01-11 2024-02-13 深圳汉光电子技术有限公司 一种基于智能化管理的仪表及其系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116627770A (zh) * 2023-07-18 2023-08-22 苏州浪潮智能科技有限公司 网卡温度预测方法、装置、计算机设备及存储介质
CN116627770B (zh) * 2023-07-18 2023-09-26 苏州浪潮智能科技有限公司 网卡温度预测方法、装置、计算机设备及存储介质
CN117553840A (zh) * 2024-01-11 2024-02-13 深圳汉光电子技术有限公司 一种基于智能化管理的仪表及其系统

Similar Documents

Publication Publication Date Title
CN112380098B (zh) 一种时序异常检测方法、装置、计算机设备及存储介质
CN115221017A (zh) 服务器温度传感器自检的方法、系统、设备及存储介质
CA2921054C (en) Anomaly detection system and method
Ramírez-Treviño et al. Observability of discrete event systems modeled by interpreted Petri nets
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN109978055B (zh) 多传感器系统的信息融合方法及系统、计算机设备及介质
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN110264270A (zh) 一种行为预测方法、装置、设备和存储介质
Challu et al. Deep generative model with hierarchical latent factors for time series anomaly detection
Ge et al. An improved PF remaining useful life prediction method based on quantum genetics and LSTM
CN112561180B (zh) 基于元学习的短期风速预测方法、装置、计算机设备及存储介质
CN111027591A (zh) 一种面向大规模集群系统的节点故障预测方法
CN108415819B (zh) 一种硬盘故障追踪方法和装置
Namasudra et al. Enhanced neural network-based univariate time-series forecasting model for big data
Sheng et al. Network traffic anomaly detection method based on chaotic neural network
KR20220145007A (ko) 텐서 스트림 데이터에서 손실, 이상치, 패턴을 검출 및 복구하는 데이터 처리 방법
US12001546B2 (en) Systems and methods for causality-based multivariate time series anomaly detection
CN112767190A (zh) 一种基于多层堆叠式神经网络的台区相序识别方法及装置
CN112988527A (zh) Gpu管理平台异常检测方法、装置以及存储介质
CN111144572A (zh) 一种基于树形贝叶斯网络的配电网灾情推断方法及系统
CN115409262A (zh) 铁路数据中心关键性能指标趋势预测方法、异常识别方法
CN111565118B (zh) 基于多观测维度hmm的虚拟化网元故障分析方法及系统
CN111461416B (zh) 风速预测方法、系统、电子设备及存储介质
CN113408676A (zh) 一种结合云端与边端的窃电用户识别方法及装置
Zhang et al. A reinforcement learning system for fault detection and diagnosis in mechatronic systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination