CN115221017A

CN115221017A - 服务器温度传感器自检的方法、系统、设备及存储介质

Info

Publication number: CN115221017A
Application number: CN202210999707.2A
Authority: CN
Inventors: 马进; 刘宝阳; 孙明
Original assignee: Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Current assignee: Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-10-21

Abstract

本发明涉及服务器监测技术领域，具体涉及服务器温度传感器自检的方法、系统、设备及存储介质。该方法基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据，离线训练循环神经网络，获得循环神经网络权重系数；获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据；对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理，并送入获得所述权重系数的循环神经网络进行前向计算，获得下一刻温度传感器的预估值；计算温度传感器的预估值与其实际检测值的相对误差，根据相对误差判断当前温度传感器是否正常工作，如果存在异常即可及时告警。

Description

服务器温度传感器自检的方法、系统、设备及存储介质

技术领域

本发明涉及服务器监测技术领域，尤其涉及服务器温度传感器自检的方法、系统、设备及存储介质。

背景技术

服务器内部应用了多种类型、且数量众多的传感器，用于检测服务器内部关键元器件的运行状态，为系统及维护人员提供数据，及时告警、用于系统调整运行策略等，其中又以温度传感器应用最为广泛。但是存在一个问题，如果温度传感器本身存在问题，就是温度传感器的检测值与被检测元器件的实际温度存在较大偏差时，目前在服务器监控策略中并没有相应的解决方法，所以本发明提出一种服务器温度传感器自检的方法，用于及时发现温度传感器自身运行状态问题。

现有技术中，如专利《自检测的电流型温度传感器及温度检测设备》的目的也是对温度传感器进行自检测，但是其实现方法为硬件电路形式，落地成本高，不易于推广使用。

发明内容

为了解决上述现有技术中存在的技术问题，本发明提供了一种服务器温度传感器自检的方法、系统、设备及存储介质，解决了只能离线检测服务器温度传感器运行状态与硬件实现方式检测成本高的痛点，可以达到实时检测、定位运行异常的温度传感器。循环神经网络是基于序列数据建模，可以学习序列数据前后之间的相关性，在本发明的应用场景下，便可以基于传感器历史检测值与服务器运行状态数据，预测出相关元器件下一刻的温度，从而可以与其对应的温度传感器实际检测值进行对比，用以评估温度传感器的运行状态。

为实现上述目的，本发明实施例提供了如下的技术方案：

第一方面，在本发明提供的一个实施例中，提供了服务器温度传感器自检的方法，该方法包括以下步骤：

基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据，离线训练循环神经网络，获得循环神经网络权重系数；

获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据；

对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理，并送入获得所述权重系数的循环神经网络进行前向计算，获得下一刻温度传感器的预估值；

计算温度传感器的预估值与其实际检测值的相对误差，根据相对误差判断当前温度传感器是否正常工作，如果存在异常即可及时告警。

作为本发明的进一步方案，所述基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据，离线训练循环神经网络，获得循环神经网络权重系数，包括以下步骤：

获取历史离线传感器检测值及相关运行状态数据，权重系数初始化；

获取的历史离线传感器检测值及相关运行状态数据进行归一处理；

对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算；

对前向计算处理后得到的数据进行计算误差，若误差满足设定范围，则输出权重系数；若误差不满足设定范围，则经过反向传播更新权重系数处理后，返回至步骤三，继续计算；

满足训练终止条件后，终止训练。

作为本发明的进一步方案，所述权重系数初始化，均采用高斯分布N(0,0.01)进行初始化，且每一轮训练10个序列数据。

作为本发明的进一步方案，反向传播更新权重系数处理方法采用基于时间的反向传播算法。

作为本发明的进一步方案，所述归一化方法按如下公式计算：

其中，

指检测原始值；

指理论上可以获取的最小值，

指该理论上可以获取的最大值；./指点除；abs(x)指取数值x的绝对值；

指归一化后的值。

作为本发明的进一步方案，所述离线训练循环神经网络训练当满足如下之一条件时，则停止训练，结束条件为：

(1)训练轮数大于5000次时；

(2)累计误差Loss小于10时，则认为循环神经网络已经收敛，停止训练。

所述计算温度传感器的预估值与其实际检测值的相对误差包括：

作为本发明的进一步方案，将温度传感器预估值O_q，与该温度传感器q下一刻实际检测值的归一化数值y_q，进行相对误差计算，按照如下公式进行计算：

Error_relative＝bs(O_q-y_q)/y_q。

第二方面，在本发明提供的又一个实施例中，提供了服务器温度传感器自检的系统，该系统包括：

循环神经网络训练模块100、数据获取模块200、数据归一处理模块300和判断模块400。

所述循环神经网络训练模块100，用于基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据，离线训练循环神经网络，获得循环神经网络权重系数；

所述数据获取模块200，用于获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据；

所述数据归一处理模块300，用于对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理，并送入获得所述权重系数的循环神经网络进行前向计算，获得下一刻温度传感器的预估值；

所述判断模块400，计算温度传感器的预估值与其实际检测值的相对误差，根据相对误差判断当前温度传感器是否正常工作，如果存在异常即可及时告警。

第三方面，在本发明提供的又一个实施例中，提供了一种设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器加载并执行所述计算机程序时实现服务器温度传感器自检的方法的步骤。

第四方面，在本发明提供的再一个实施例中，提供了一种存储介质，存储有计算机程序，所述计算机程序被处理器加载并执行时实现所述服务器温度传感器自检的方法的步骤。

本发明提供的技术方案，具有如下有益效果：

本发明提供的服务器温度传感器自检的方法、系统、设备及存储介质，解决了只能离线检测服务器温度传感器运行状态与硬件实现方式检测成本高的痛点，可以达到实时检测、定位运行异常的温度传感器。循环神经网络是基于序列数据建模，可以学习序列数据前后之间的相关性，在本发明的应用场景下，便可以基于传感器历史检测值与服务器运行状态数据，预测出相关元器件下一刻的温度，从而可以与其对应的温度传感器实际检测值进行对比，用以评估温度传感器的运行状态。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

图1为本发明一个实施例的服务器温度传感器自检方法的流程图。

图2为本发明一个实施例的服务器温度传感器自检方法中的循环神经网络的结构图。

图3为本发明一个实施例的服务器温度传感器自检方法中离线训练循环神经网络的流程图。

图4为本发明一个实施例的服务器温度传感器自检的方法示例具体流程图。

图5为本发明一个实施例的服务器温度传感器自检的方法中提供基于相对误差结果做出相对应的决策流程图。

图中：循环神经网络训练模块-100、历史数据处理模块-101、训练归一处理模块-102、训练前向计算模块-103、权重系数输出模块-104、终止模块-105、数据获取模块-200、数据归一处理模块-300、判断模块-400。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

具体地，下面结合附图，对本发明实施例作进一步阐述。

请参阅图1，图1是本发明实施例提供的一种服务器温度传感器自检的方法的流程图，如图1所示，该服务器温度传感器自检的方法包括步骤S10至步骤S30。

S10、基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据，离线训练循环神经网络，获得循环神经网络权重系数。

在本发明的实施例中，所述服务器关键运行状态数据包括CPU使用占比、GPU使用占比、硬盘吞吐、内存使用占比、每个风扇的转速。

请参阅图3，图3提供S10、示例具体流程图，具体的所述基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据，离线训练循环神经网络，获得循环神经网络权重系数，包括以下步骤：

步骤一：获取历史离线传感器检测值及相关运行状态数据，权重系数初始化；

步骤二：对获取的历史离线传感器检测值及相关运行状态数据进行归一处理；

步骤三：对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算；

步骤四：对前向计算处理后得到的数据进行计算误差，若误差满足设定范围，则输出权重系数；若误差不满足设定范围，则经过反向传播更新权重系数处理后，返回至步骤三，继续计算。

步骤五：满足训练终止条件后，终止训练。

具体的，温度传感器数值的预估模型采用循环神经网络，如2图所示为本发明所采用的具体结构，其中隐藏层采用4层结构，假设输入数据，即服务器传感器数量与运行状态数量之和，为N个；输出数据，即需要实时自检的温度传感器数量为M个，则当前模型每一层的单元数量分别为，输入层：N个；隐藏层第一层：4N个；隐藏层第二层：2N个；隐藏层第三层：2N个；隐藏层第四层：N个；输出层：M个。

其中：

指在序列索引号为t时输入的训练样本，即服务器内部传感器检测值及服务器关键运行状态数据的归一化值；

指该输入数据矩阵的维度为N×1，后续该符号意义一致，不再赘述，同理，X^t-1和X^t+1分别指t-1时刻和t+1时刻输入的训练样本；

指在序列索引号为t时模型隐藏层第L层的状态，N_L具体值取决于其所在层数，比如第一层隐藏层即为

指在序列索引号为t时模型的预测输出；

隐藏层与输出层激活函数均采用sigmoid函数，如下公式1所示：

其中，e指自然对数。

U、V、W均为权重系数矩阵，是模型的线性变换系数，在整个RNN网络共享，其中：

指模型第L层的输入权重系数，系数矩阵的维度取决于层数，比如第二层隐藏层的输入权重系数为

指模型上一时刻与下一时刻隐藏层第L层的输入权重系数；N_L具体值基于其所在层数，比如第二层隐藏层权重系数为

指模型隐藏层与输出层的权重系数。

输入数据归一化

对每个输入数据进行归一化处理，归一化方法按如下公式2计算：

其中，

指检测原始值；

指理论上可以获取的最小值，

指归一化后的值。

所述权重系数初始化，均采用高斯分布N(0,0.01)进行初始化，且每一轮训练10个序列数据。

所述前向计算，在t时刻，根据该时刻的输入X^t和上一时刻保留的隐藏层状态信息

按照如下公式3、4，计算该时刻的输出。此处以计算隐藏层状态

与最后输出层O^t为例，其它层以此类推：

其中，(x)′指对矩阵x进行转置。

其中，b_L是每一层隐藏层对应的偏置系数，其维度与该层单元数量一致，其中L指层数。

所述计算累加误差，反向传播更新系数时，需要考虑当前一轮所有时刻的累加误差，计算方法如下公式所5示：

其中，∑指累加运算符号；

指求数值x的平方根；

指在序列索引号为t时训练样本序列的预期数值，即温度传感器的实际检测值；y^t∈R^M×1指y_org的归一化数值；

指温度传感器实际检测可以得到的理论最小值；

指温度传感器实际检测可以得到的理论最大值。

T指当前一轮训练序列的总数量，此处为设定值10。

反向传播更新权重系数处理方法采用基于时间的反向传播算法(Back-Propagation Through Time，BPTT)，该方法为常规通用方法。

所述离线训练循环神经网络训练当满足如下之一条件时，则停止训练，结束条件为：

(1)训练轮数大于5000次时；

(2)累计误差Loss小于10时，则认为循环神经网络已经收敛，停止训练；

S20、获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据；

S30、对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理，并送入获得所述权重系数的循环神经网络进行前向计算，获得下一刻温度传感器的预估值。

S40、计算温度传感器的预估值与其实际检测值的相对误差，根据相对误差判断当前温度传感器是否正常工作，如果存在异常即可及时告警。

示例性的，请参阅图4，图4提供一个实施例的服务器温度传感器自检的方法示例具体流程图，如图4所示，其步骤如下：

1)获取当前所有传感器检测值与服务器关键运行状态

每间隔2秒，读取存储在内存中的所有传感器的实际检测值，然后获取如下服务器运行状态数值：CPU使用占比、GPU使用占比、内存使用占比、硬盘吞吐、每个风扇的转速。

2)输入数据归一化

数据归一化方法与训练过程中一致。

3)前向计算

该过程与训练过程的前向计算一致，此时得到某温度传感器下一刻的预估值O_q，其中q表示某种特定的温度传感器，比如显卡温度传感器。

4)计算相对误差

将温度传感器预估值O_q，与该温度传感器q下一刻实际检测值的归一化数值y_q，进行相对误差计算，按照如下公式7进行计算：

Error_relative＝bs(O_q-y_q)/y_q (公式7)

5)请参阅图5，图5提供基于相对误差结果，做出相对应的决策流程图，

其中0≤Prop1，0≤Prop2，Prop1<Prop2，两者具体阈值可以根据具体场景进行调整设定。

如果预估数值与实际检测值的相对误差Error_relative≤Prop1，则认为该温度传感器运行状态正常；

如果预估数值与实际检测值的相对误差Prop1<Error_relative≤Prop2，则认为该温度传感器状态异常，可以告警关注该异常，进行检测；

如果预估数值与实际检测值的相对误差Prop2<Error_relative，则认为该温度传感器已经损坏，可以告警建议更换该温度传感器。

本发明解决了只能离线检测服务器温度传感器运行状态与硬件检测成本高的痛点，可以达到实时检测、定位运行异常的传感器，降低企业运行成本。可以做到对异常温度传感器实时告警，以避免异常温度传感器检测不准确引发的后续问题；方便定位异常传感器，排查问题；不需要针对运行平台设计特定的硬件，而是基于算法逻辑与软件编码实现，易于推广。

应该理解的是，上述虽然是按照某一顺序描述的，但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本实施例的一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，参见图3所示，在本发明的实施例中还提供了服务器温度传感器自检的系统，该系统包括循环神经网络训练模块100、数据获取模块200、数据归一处理模块300和判断模块400。

所述循环神经网络训练模块100，用于基于收集的服务器内部正常的所有类型传感器历史检测值及同时期服务器关键运行状态数据，离线训练循环神经网络，获得循环神经网络权重系数。

其中，所述循环神经网络训练模块100，包括历史数据处理模块101、训练归一处理模块102、训练前向计算模块103、权重系数输出模块104和终止模块105。

历史数据处理模块101，用于获取历史离线传感器检测值及相关运行状态数据，权重系数初始化；

训练归一处理模块102，用于对获取的历史离线传感器检测值及相关运行状态数据进行归一处理；

训练前向计算模块103，用于对经过归一处理后的历史离线传感器检测值及相关运行状态数据进行前向计算；

权重系数输出模块104，用于对前向计算处理后得到的数据进行计算误差，若误差满足设定范围，则输出权重系数；若误差不满足设定范围，则经过反向传播更新权重系数处理后，返回至步骤三，继续计算。

终止模块105，用于满足训练终止条件后，终止训练。

所述数据获取模块200，用于获取当前时刻服务器所有传感器检测值以及服务器关键运行状态数据。

所述数据归一处理模块300，用于对获取的当前时刻服务器所有传感器检测值以及服务器关键运行状态数据进行归一化处理，并送入获得所述权重系数的循环神经网络进行前向计算，获得下一刻温度传感器的预估值。

在一个实施例中，在本发明的实施例中还提供了一种设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的服务器温度传感器自检的方法，该处理器执行指令时实现上述方法实施例中的步骤：

步骤五：满足训练终止条件后，终止训练。

其中：

指在序列索引号为t时模型的预测输出；

其中，e指自然对数。

指模型隐藏层与输出层的权重系数。

输入数据归一化

其中，

指检测原始值；

指理论上可以获取的最小值，

指归一化后的值。

前向计算

在t时刻，根据该时刻的输入X^t和上一时刻保留的隐藏层状态信息

与最后输出层O^t为例，其它层以此类推：

其中，(x)′指对矩阵x进行转置。

计算累加误差

反向传播更新系数时，需要考虑当前一轮所有时刻的累加误差，计算方法如下公式所5示：

其中，∑指累加运算符号；

指求数值x的平方根；

指温度传感器实际检测可以得到的理论最小值；

指温度传感器实际检测可以得到的理论最大值。

T指当前一轮训练序列的总数量，此处为设定值10。

反向传播

(1)训练轮数大于5000次时；

所述设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他设备的交互操作来实现本发明。其中，所述设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

还应当进理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本发明的一个实施例中还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤：

步骤五：满足训练终止条件后，终止训练。

具体的，温度传感器数值的预估模型采用循环神经网络，如图2所示为本发明所采用的具体结构，其中隐藏层采用4层结构，假设输入数据，即服务器传感器数量与运行状态数量之和，为N个；输出数据，即需要实时自检的温度传感器数量为M个，则当前模型每一层的单元数量分别为，输入层：N个；隐藏层第一层：4N个；隐藏层第二层：2N个；隐藏层第三层：2N个；隐藏层第四层：N个；输出层：M个。

其中：

指在序列索引号为t时模型的预测输出；

其中，e指自然对数。

指模型隐藏层与输出层的权重系数。

输入数据归一化

其中，

指检测原始值；

指理论上可以获取的最小值，

指归一化后的值。

前向计算

与最后输出层O^t为例，其它层以此类推：

其中，(x)^′指对矩阵x进行转置。

计算累加误差

其中，∑指累加运算符号；

指求数值x的平方根；

指温度传感器实际检测可以得到的理论最小值；

指温度传感器实际检测可以得到的理论最大值。

T指当前一轮训练序列的总数量，此处为设定值10。

反向传播

(1)训练轮数大于5000次时；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。