CN116860551A - 服务器的异常监测方法、装置、设备及存储介质 - Google Patents

服务器的异常监测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116860551A
CN116860551A CN202310798752.6A CN202310798752A CN116860551A CN 116860551 A CN116860551 A CN 116860551A CN 202310798752 A CN202310798752 A CN 202310798752A CN 116860551 A CN116860551 A CN 116860551A
Authority
CN
China
Prior art keywords
data
sample
server
value
temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310798752.6A
Other languages
English (en)
Inventor
刘昌松
曹绍猛
徐莉芳
陈红宇
田玉凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202310798752.6A priority Critical patent/CN116860551A/zh
Publication of CN116860551A publication Critical patent/CN116860551A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种服务器的异常监测方法、装置、设备及存储介质,应用于人工智能技术领域,包括:将服务器的监控数据输入至温度预测模型,在温度预测模型中,通过多个网络层依次对监控数据进行特征处理,得到特征数据,并根据双曲正切激活函数对特征数据进行非线性转换,得到预测温度值;计算预测温度值与实际温度值的差值;根据差值和预设阈值之间的大小关系得到服务器的异常监测结果。本申请通过温度预测模型得到预测温度值,并与实际温度值进行比较,实现对服务器的异常监测,从而在服务器从正常工作状态到故障工作状态的转变过程中提前感知服务器异常,提高了异常监测的效率,有效维护了服务器的正常运行,减少服务器数据受损情况的发生。

Description

服务器的异常监测方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种服务器的异常监测方法、装置、设备及存储介质。
背景技术
服务器在运行过程中需要存储处理大量数据,能够长期稳定运行的服务器是必不可少的,所以需要对服务器的异常故障进行维修处理。然而现有技术中往往是在服务器出现严重损坏或宕机之后,维护人员才开始对服务器的异常故障进行维修处理,其过程往往都是被动的、不及时的,对服务器的正常运行造成极大影响,且极易造成服务器存储的数据受损,从而降低了服务器异常监测和维修处理的效率。
发明内容
本申请实施例的主要目的在于提出一种服务器的异常监测方法、装置、设备及存储介质,旨在提高异常监测和维修处理的效率。
为实现上述目的,本申请实施例的第一方面提出了一种服务器的异常监测方法,所述异常监测方法包括:
获取所述服务器的监控数据,其中,所述监控数据包括入风口温度和至少一个芯片利用率;
将所述监控数据输入至预先训练好的温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述监控数据进行特征处理,得到特征数据,并根据预设的双曲正切激活函数对所述特征数据进行非线性转换,得到所述服务器的预测温度值;
获取所述服务器实际运行过程中的实际温度值,计算所述预测温度值与所述实际温度值的差值;
从预设的规则库中获取预设阈值,根据所述差值和所述预设阈值之间的大小关系得到所述服务器的异常监测结果。
在一些实施例,所述温度预测模型通过以下方式进行训练得到:
获取样本数据集,所述样本数据集包括样本监控数据和与所述样本监控数据对应的样本温度值;
将所述样本监控数据输入至所述温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述样本监控数据进行特征处理,得到样本特征数据,并根据预设的双曲正切激活函数对所述样本特征数据进行非线性转换,得到所述服务器的样本预测温度值;
根据所述样本预测温度值和所述样本温度值,得到所述温度预测模型的总损失值;
根据所述总损失值调整所述温度预测模型的参数,得到训练后的所述温度预测模型。
在一些实施例,所述温度预测模型的多个网络层包括输入层、第一隐藏层、第二隐藏层和输出层,所述将所述样本监控数据输入至所述温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述样本监控数据进行特征处理,得到样本特征数据,并根据预设的双曲正切激活函数对所述样本特征数据进行非线性转换,得到所述服务器的样本预测温度值,包括:
通过所述输入层对所述样本监控数据进行映射,得到样本映射数据;
由所述第一隐藏层根据多个第一权重对所述样本映射数据进行加权求和,并将加权求和得到的结果与对应的第一偏置相加,得到多个第一样本特征数据;
根据预设的双曲正切激活函数对所述第一样本特征数据进行非线性转换,得到第一样本转换数据;
由所述第二隐藏层根据多个第二权重对所述第一样本转换数据进行加权求和,并将加权求和得到的结果与对应的第二偏置相加,得到多个第二样本特征数据;
根据预设的双曲正切激活函数对所述第二样本特征数据进行非线性转换,得到第二样本转换数据;
由所述输出层根据多个第三权重对所述第二样本转换数据进行加权求和,并将加权求和得到的结果与对应的第三偏置相加,得到多个第三样本特征数据;
根据预设的双曲正切激活函数对所述第三样本特征数据进行非线性转换,得到所述服务器的样本预测温度值。
在一些实施例,所述根据预设的双曲正切激活函数对所述第一样本特征数据进行非线性转换,得到第一样本转换数据,包括:
将自然常数作为底数、所述第一样本特征数据作为指数进行计算,得到第一样本激活数据;
将自然常数作为底数、所述第一样本特征数据的相反数作为指数进行计算,得到第二样本激活数据;
将所述第一样本激活数据与所述第二样本激活数据的差作为分子、所述第一样本激活数据与所述第二样本激活数据的和作为分母进行计算,得到第一样本转换数据。
在一些实施例,所述根据所述总损失值调整所述温度预测模型的参数,得到训练后的所述温度预测模型,包括:
根据所述总损失值和对应的损失函数对所述温度预测模型的参数进行求导,得到多个参数梯度,所述温度预测模型的参数包括所述第一权重、所述第二权重、所述第三权重、所述第一偏置、所述第二偏置以及所述第三偏置;
计算预设的学习率和多个所述参数梯度的乘积;
将所述温度预测模型的参数与所述乘积相减,得到更新后的所述温度预测模型的参数;
根据更新后的所述温度预测模型的参数,得到训练后的所述温度预测模型。
在一些实施例,在所述获取样本数据集之后,所述异常监测方法还包括:
对所述样本数据集的数据进行清洗;
根据清洗后的所述样本数据集,得到最小值和最大值;
根据所述最小值和所述最大值对所述样本数据集中的数据进行转换,得到更新后的所述样本数据集。
在一些实施例,在所述获取所述服务器的监控数据之后,所述异常监测方法还包括:
对所述监控数据进行清洗;
根据所述最小值和所述最大值对所述监控数据进行转换,得到更新后的所述监控数据。
在一些实施例,在所述计算所述预测温度值与所述实际温度值的差值之前,所述异常监测方法还包括:
对所述预测温度值进行反归一化,并将反归一化后的结果作为更新后的所述预测温度值。
在一些实施例,述预测温度值包括预测芯片温度值和预测出风口温度值,所述从预设的规则库中获取预设阈值,根据所述差值和所述预设阈值之间的大小关系得到所述服务器的异常监测结果,包括:
从所述预设的规则库获取第一预设阈值和第二预设阈值;
当所述预测出风口温度值对应的所述差值大于或等于所述第一预设阈值时,所述服务器的温控系统工作异常;
当所述预测出风口温度值对应的所述差值小于第一预设阈值且所述预测芯片温度值对应的所述差值大于或等于所述第二预设阈值时,所述服务器的计算芯片异常。
在一些实施例,所述规则库通过以下方式进行设置:
获取多个历史数据,所述历史数据包括历史监控数据和与所述历史监控数据对应的多个历史温度值;
根据所述历史监控数据和多个所述历史温度值,确定所述服务器的的异常温度值和正常温度值;
根据所述异常温度值和所述正常温度值,得到预设阈值,进而确定规则库。
为实现上述目的,本申请实施例的第二方面提出了一种服务器的异常监测装置,包括:
数据获取模块,用于获取所述服务器的监控数据,其中,所述监控数据包括入风口温度和至少一个芯片利用率;
模型预测模块,用于将所述监控数据输入至预先训练好的温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述监控数据进行特征处理,得到特征数据,并根据预设的双曲正切激活函数对所述特征数据进行非线性转换,得到所述服务器的预测温度值;
差值计算模块,用于获取所述服务器实际运行过程中的实际温度值,计算所述预测温度值与所述实际温度值的差值;
位置确定模块,用于从预设的规则库中获取预设阈值,根据所述差值和所述预设阈值之间的大小关系得到所述服务器的异常监测结果。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的服务器的异常监测方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的服务器的异常监测方法。
本申请提出的服务器的异常监测方法、装置、设备及存储介质,其设置有预先训练好的温度预测模型,之后在服务器的工作状态中,获取服务器的监控数,并根据温度预测模型的多个网络层依次对监控数据进行特征处理,得到特征数据,在每个网络之后,根据预设的双曲正切激活函数对特征数据进行非线性转换,得到服务器的预测温度值,并计算服务器实际运行过程中的实际温度值与预测温度值的差值,根据该差值和预设阈值之间的大小关系得到服务器的异常监测结果,能够判断当前服务器工作状态是否异常,并得到异常的具体位置,如温控系统或计算芯片。本申请通过温度预测模型得到服务器的预测温度值,并与实际温度值进行比较,实现对服务器的异常监测,从而在服务器从正常工作状态到故障工作状态的转变过程中,即服务器彻底故障之间,提前感知服务器异常并及时处理,提高了异常监测和维修处理的效率,有效维护了服务器的正常运行,减少服务器数据受损情况的发生。
附图说明
图1是本申请实施例提供的服务器的异常监测方法的流程图。
图2是本申请实施例提供的服务器的异常监测方法的训练温度预测模型的流程图;
图3是本申请实施例提供的服务器的异常监测方法的训练温度预测模型的另一流程图;
图4是本申请实施例提供的服务器的异常监测方法的非线性处理的流程图;
图5是本申请实施例提供的服务器的异常监测方法的反向传播的流程图;
图6是本申请实施例提供的服务器的异常监测方法的样本数据集处理的流程图;
图7是本申请实施例提供的服务器的异常监测方法的监控数据处理的流程图;
图8是本申请实施例提供的服务器的异常监测方法的反归一化的流程图;
图9是本申请实施例提供的服务器的异常监测方法的服务器异常定位的流程图;
图10是本申请实施例提供的服务器的异常监测方法的规则库建立的流程图图;
图11是本申请实施例提供的服务器的异常监测方法的温度预测模型的示意图;
图12是本申请实施例提供的服务器的异常监测方法的单个神经元处理的流程图;
图13是本申请实施例提供的服务器的异常监测方法的激活函数结果的示意图;
图14是本申请实施例提供的服务器的异常监测方法的示意图;
图15是本申请实施例提供的服务器的异常监测装置的结构图;
图16是本申请实施例提供的电子设备的硬件结构的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
机器学习,是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。它是人工智能核心,是使计算机具有智能的根本途径。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(Information Extraction):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
服务器,是计算机的一种,它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机(如电脑、智能手机、智能取款机等终端甚至是火车系统等大型设备)提供计算或者应用服务。服务器具有高速的运算能力、长时间的可靠运行、强大的外部数据吞吐能力以及更好的扩展性。根据服务器所提供的服务,一般来说服务器都具备承担响应服务请求、承担服务、保障服务的能力。
中央处理器(Central Processing Unit,CPU)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。对于中央处理器来说,可将其看作一个规模较大的集成电路,其主要任务是加工和处理各种数据。传统计算机的储存容量相对较小,其对大规模数据的处理过程中具有一定难度,且处理效果相对较低。随着我国信息技术水平的迅速发展,随之出现了高配置的处理器计算机,将高配置处理器作为控制中心,对提高计算机CPU的结构功能发挥重要作用。中央处理器中的核心部分就是控制器、运算器,其对提高计算机的整体功能起着重要作用,能够实现寄存控制、逻辑运算、信号收发等多项功能的扩散,为提升计算机的性能奠定良好基础。
图形处理器(Graphics Processing Unit,GPU)又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在三维图形处理时GPU所采用的核心技术有硬件几何转换和光照处理、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件几何转换和光照处理技术可以说是GPU的标志。
网络处理器(Neural-Network Process Units)采用"数据驱动并行计算"的架构,特别擅长处理视频、图像类的海量多媒体数据。
服务器在运行过程中需要存储处理大量数据,能够长期稳定运行的服务器是必不可少的,所以需要对服务器的异常故障进行维修处理。然而现有技术中往往是在服务器出现严重损坏或宕机之后,维护人员才开始对服务器的异常故障进行维修处理,其过程往往都是被动的、不及时的,对服务器的正常运行造成极大影响,且极易造成服务器存储的数据受损,从而降低了服务器异常监测和维修处理的效率。
基于此,本申请提供一种服务器的异常监测方法、装置、设备及存储介质,本申请实施例提供的服务器的异常监测方法通过温度预测模型得到服务器的预测温度值,并与实际温度值进行比较,实现对服务器的异常监测,从而在服务器从正常工作状态到故障工作状态的转变过程中,即服务器彻底故障之间,提前感知服务器异常并及时处理,提高了异常监测和维修处理的效率,有效维护了服务器的正常运行,减少服务器数据受损情况的发生。
本申请实施例提供的服务器的异常监测方法、装置、设备及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的服务器的异常监测方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的服务器的异常监测方法,涉及人工智能技术领域。本申请实施例提供的服务器的异常监测方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现服务器的异常监测方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
参照图1,图1是本申请实施例提供的服务器的异常监测方法的流程图。本申请实施例提供的服务器的异常监测方法、装置、设备及存储介质包括但不限于以下步骤:
步骤S100、获取服务器的监控数据,其中,监控数据包括入风口温度和至少一个芯片利用率。
步骤S200、将监控数据输入至预先训练好的温度预测模型,在温度预测模型中,通过多个网络层依次对监控数据进行特征处理,得到特征数据,并根据预设的双曲正切激活函数对特征数据进行非线性转换,得到服务器的预测温度值。
步骤S300、获取服务器实际运行过程中的实际温度值,计算预测温度值与实际温度值的差值。
步骤S400、从预设的规则库中获取预设阈值,根据差值和预设阈值之间的大小关系得到服务器的异常监测结果。
需要说明的是,本申请实施例提供的的服务器的异常监测方法设置有预先训练好的温度预测模型,之后在服务器的工作状态中,获取服务器的监控数,并根据温度预测模型的多个网络层依次对监控数据进行特征处理,得到特征数据,在每个网络之后,根据预设的双曲正切激活函数对特征数据进行非线性转换,得到服务器的预测温度值,并计算服务器实际运行过程中的实际温度值与预测温度值的差值,根据该差值和预设阈值之间的大小关系得到服务器的异常监测结果,能够判断当前服务器工作状态是否异常,并得到异常的具体位置,如温控系统或计算芯片。本申请通过温度预测模型得到服务器的预测温度值,并与实际温度值进行比较,实现对服务器的异常监测,从而在服务器从正常工作状态到故障工作状态的转变过程中,即服务器彻底故障之间,提前感知服务器异常并及时处理,提高了异常监测和维修处理的效率,有效维护了服务器的正常运行,减少服务器数据受损情况的发生。
需要说明的是,本申请实施例提供的服务器至少包括温控系统和计算芯片,其中,温控系统是把运行过程中产生的热量高效率的排出,以保持服务器工作在正常的温度环境下,温控系统控制冷风从服务器的入风口进入,在服务器内部循环后从出风口送出,该过程把服务器的各部件产生的热量送到外部,对各部件起到降温作用,另外,服务器内部设置有多个计算芯片,如多个中央处理器、多个图形处理器、多个网络处理器。
在一些实施例的步骤S100中,本申请实施例中的计算芯片的芯片利用率影响芯片的温度,且温控系统能够将计算芯片所产生的热量排出服务器,服务器的入风口温度、芯片利用率影响服务器的出风口温度、芯片温度。因此,本申请将入风口温度和多个芯片利用率作为监控数据。
需要说明的是,本申请根据各种命令实现对数据的获取,其中,入风口温度来源于ipmitool sdr命令,图形处理器的芯片利用率的数据来源于系统nvidia-smi命令,网络处理器的芯片利用率的数据来自于系统npu-smi info命令,中央处理器的芯片利用率数据来源于系统sdr命令。
在一些实施例的步骤S200中,温度预测模型中的多个网络层依次对监控数据进行特征处理,在网络层之后,通过预设的双曲正切激活函数对特征处理得到的特征数据进行非线性转换,得到服务器的预测温度值,如果模型输入输出数据为线性关系,可能为造成输出数据与实际数据之间的误差较大,从而影响预测温度值的精确性,因此,本申请设置双曲正切激活函数,以对特征数据进行非线性转换。
需要说明的是,温度预测模型根据服务器处于正常工作状态下的样本数据集训练得到,且温度预测模型的输入数据为监控数据,即入风口温度和至少一个芯片利用率,其得到的预测温度值为服务器处于正常工作状态下的出风口温度和/或多个芯片温度。该温度预测模型在服务器的入风口温度、芯片利用率和出风口温度、芯片温度之间建立函数关系,自变量为服务器处于正常工作状态下的入风口温度、芯片利用率,因变量为服务器处于正常工作状态下的出风口温度、芯片温度,温度预测模型的输入项,即因变量可以表示为:入风口温度xTI、CPU0的芯片利用率为xCU0、CPUn的芯片利用率为xCUn、GPU0的芯片利用率为xGU0、GPUn的芯片利用率为xGUn、NPU0的芯片利用率为xNU0、NPUn的芯片利用率为xNUn,那么温度预测模型的输入项可以表示为:
温度预测模型的输出项,即因变量可以表示为:出风口温度yTO、CPU0的芯片利用率为yTC0、CPUn的芯片温度为yTCn、GPU0的芯片温度为yTG0、GPUn的芯片温度为yTGn、NPU0的芯片温度为yTN0、NPUn的芯片温度为yTNn,那么温度预测模型的输出项可以表示为:
在一些实施例的步骤S300中,实际温度值包括出风口温度和至少一个芯片温度,芯片温度包括图形处理器的芯片温度、网络处理器的芯片温度以及中央处理器的芯片温度,出风口温度以及芯片温度均来源于ipmitool sdr命令。
在一些实施例的步骤S400中,从预设的规则库中获取预设阈值,将预测温度值与实际温度值的差值和预设阈值进行比较,并根据二者的大小关系能够判断服务器是否发生异常以及异常位置,便于及时对服务器进行维修处理。
可以理解的是,参照图2,温度预测模型的训练方法包括但不限于以下步骤:
步骤S510、获取样本数据集,样本数据集包括样本监控数据和与样本监控数据对应的样本温度值。
步骤S520、将样本监控数据输入至温度预测模型,在温度预测模型中,通过多个网络层依次对样本监控数据进行特征处理,得到样本特征数据,并根据预设的双曲正切激活函数对样本特征数据进行非线性转换,得到服务器的样本预测温度值。
步骤S530、根据样本预测温度值和样本温度值,得到温度预测模型的总损失值。
步骤S540、根据总损失值调整温度预测模型的参数,得到训练后的温度预测模型。
需要说明的是,本申请中温度预测模型的网络架构为神经网络,并将样本数据集作为训练数据,通过深度学习框架实现对温度预测模型的训练,得到温度预测模型,具体地,将样本监控数据作为温度预测模型的输入数据,在温度预测模型中,通过多个网络层依次对样本监控数据进行特征处理,得到样本特征数据,并根据预设的双曲正切激活函数对样本特征数据进行非线性转换,得到服务器的样本预测温度值,根据样本预测温度值和样本温度值计算温度预测模型的总损失值,并根据总损失值调整温度预测模型的参数,得到训练后的温度预测模型,便于后续根据温度预测模型实现对服务器的异常监测。
在一些实施例的步骤S510中,样本数据集为服务器处于正常工作状态下的数据集,样本数据集包括样本监控数据和与样本监控数据对应的样本温度值,样本监控数据和监控数据的数据类型相对应,样本温度值和实际温度值的数据类型相对应,即样本监控数据为服务器处于正常工作状态下的入风口温度、芯片利用率,而样本温度值为服务器处于正常工作状态下的出风口温度、芯片温度。
需要说明的是,本申请根据各种命令实现对样本数据集的获取,其中,样本数据集中的温度数据,即服务器的入风口温度、出风口温度、芯片温度来源于ipmitool sdr命令,图形处理器的芯片利用率的数据来源于系统nvidia-smi命令,网络处理器的芯片利用率的数据来自于系统npu-smi info命令,中央处理器的芯片利用率数据来源于系统sdr命令。
在一些实施例的步骤S520中,温度预测模型的基础架构为神经网络模型,该神经网络模型包括一个输入层、一个输出层和两个隐藏层,两个隐藏层位于输入层与输出层之间,其用于连接输入层和输出层,输入层可用于接收信号,即样本监控数据,之后,通过隐藏层提取数据特征,最后输出层输出结果。在隐藏层和输出层对样本监控数据进行特征处理之后,根据预设的双曲正切激活函数对样本特征数据进行非线性转换。
在一些实施例的步骤S530中,样本预测温度值和样本温度值通常偏差较大,因此需要对温度预测模型进行训练,使得到的样本预测温度值接近样本温度值,甚至等于样本温度值。本申请实施例将均方误差作为本申请的损失函数,具体计算步骤如下:计算样本预测温度值与对应的样本温度值的差值,之后计算多个差值的平方值,并计算多个平方值的平均值,得到温度预测模型的损失函数。本申请根据该损失函数能够计算得到温度预测模型的总损失值。
在一些实施例的步骤S540中,本申请通过温度预测模型的总损失值进行反向传播,以对温度预测模型进行训练,经过多次训练,即重复步骤S510和步骤S530,以实现对温度预测模型的参数的多次调整,使训练后的温度预测模型的性能更加优良,其对应的损失函数值也越小。
需要说明的是,温度预测模型训练的停止条件为多种,当达到训练的停止条件时,停止训练,并将最后一次训练得到的温度预测模型作为训练好的温度预测模型,停止条件通常为温度预测模型的总损失值损失函数小于阈值或者温度预测模型的训练次数为设定阈值,通常情况下,将停止条件设置为设定阈值,设定阈值越大,得到的模型的性能更加优良,但设定阈值过大会造成资源的浪费,因此,本申请实施例的设定阈值设置为100次或者200次。
可以理解的是,参照图3,温度预测模型的多个网络层包括输入层、第一隐藏层、第二隐藏层和输出层,步骤S520包括但不限于以下步骤:
步骤S521、通过输入层对样本监控数据进行映射,得到样本映射数据。
步骤S522、由第一隐藏层根据多个第一权重对样本映射数据进行加权求和,并将加权求和得到的结果与对应的第一偏置相加,得到多个第一样本特征数据。
步骤S523、根据预设的双曲正切激活函数对第一样本特征数据进行非线性转换,得到第一样本转换数据。
步骤S524、由第二隐藏层根据多个第二权重对第一样本转换数据进行加权求和,并将加权求和得到的结果与对应的第二偏置相加,得到多个第二样本特征数据。
步骤S525、根据预设的双曲正切激活函数对第二样本特征数据进行非线性转换,得到第二样本转换数据;
步骤S526、由输出层根据多个第三权重对第二样本转换数据进行加权求和,并将加权求和得到的结果与对应的第三偏置相加,得到多个第三样本特征数据;
步骤S527、根据预设的双曲正切激活函数对第三样本特征数据进行非线性转换,得到服务器的样本预测温度值。
需要说明的是,输入层主要用于接收样本监控数据并进行映射,得到样本映射数据,第一隐藏层根据多个第一权重对样本映射数据进行加权求和,并将加权求和得到的结果与对应的第一偏置相加,得到多个第一样本特征数据,之后,根据预设的双曲正切激活函数对第一样本特征数据进行非线性转换,得到第一样本转换数据,第二隐藏层根据多个第二权重对第一样本转换数据进行加权求和,并将加权求和得到的结果与对应的第二偏置相加,得到多个第二样本特征数据,根据预设的双曲正切激活函数对第二样本特征数据进行非线性转换,得到第二样本转换数据,输出层根据第三权重对第二样本转换数据进行加权求和,并将加权求和得到的结果与对应的第三偏置相加,得到多个第三样本特征数据,之后根据预设的双曲正切激活函数对第三样本特征数据进行非线性转换,得到服务器的样本预测温度值。
需要说明的是,若不使用激活函数,每一网络层的输入数据和输出数据之间则为线性关系,得到的样本预测温度值与样本温度值偏差较大,即使经过多次训练得到的模型的性能也较差。
需要说明的是,输入层的神经元数目与样本监控数据相对应,输出层的神经元数目与样本预测数据相对应,即输入层与输出层的神经元的数目均为服务器中计算芯片的个数加1。而隐藏层的数目可根据需要进行设置。参照图11,输入层的神经元与样本监控数据一一对应,其需接收样本监控数据并进行映射,将得到的样本映射数据传递至隐藏层。
需要说明的是,第一隐藏层、第二隐藏层和输出层对数据的处理方法相同,首先根据多个权重对输入的数据进行加权求和,并将将加权求和得到的结果与对应的偏置相加,得到样本特征数据,之后根据预设的双曲正切激活函数对样本特征数据进行非线性转换,得到输出数据,输出层的输出数据即为样本预测温度值。
需要说明的是,在第一轮训练中,第一权重、第二权重、第三权重为初始化得到的,其中的每一权重均为随机分配,而在之后的训练轮次中,第一权重、第二权重、第三权重对应的每一个权重值为根据损失值更新得到的。
需要说明的是,在第一轮训练中,第一偏置、第二偏置、第三偏置为初始化得到的,其中的每一偏置均为随机分配,而在之后的训练轮次中,第一偏置、第二偏置、第三偏置对应的每一个偏置值为根据损失值更新得到的。
需要说明的是,参照图12,对于第一隐藏层、第二隐藏层和输出层的一神经元而言,输出数据可表示为其中,f为激活函数,即双曲正切激活函数,xi表示第i个输入数据,wi表示第i个输入数据对应的权重,b表示该神经元对应的偏置。
可以理解的是,参照图4,步骤S523包括但不限于以下步骤:
步骤S551、将自然常数作为底数、第一样本特征数据作为指数进行计算,得到第一样本激活数据。
步骤S552、将自然常数作为底数、第一样本特征数据的相反数作为指数进行计算,得到第二样本激活数据。
步骤S553、将第一样本激活数据与第二样本激活数据的差作为分子、第一样本激活数据与第二样本激活数据的和作为分母进行计算,得到第一样本转换数据。
需要说明的是,本申请实施例中的激活函数为双曲正切激活函数。具体地,将自然常数e作为底数、第一样本特征数据作为指数进行计算,得到第一样本激活数据,并将自然常数e作为底数、第一样本特征数据的相反数作为指数进行计算,得到第二样本激活数据,之后将第一样本激活数据与第二样本激活数据的差作为分子、第一样本激活数据与第二样本激活数据的和作为分母进行计算,得到第一样本转换数据。假设第一样本特征数据可以表示为x,那么该激活函数可以表示为:
另外,参照图13,该双曲正切激活函数的取值范围为[-1,1]。双曲正切激活函数的极值为1,与其他激活函数相比,其对于解决梯度消失问题更有帮助。
需要说明的是,双曲正切激活函数通过同样的方式对第二样本特征数据、第三样本特征数据进行非线性转换。具体地,对于第二样本特征数据,将自然常数e作为底数、第二样本特征数据作为指数进行计算,得到第三样本激活数据,并将自然常数e作为底数、第二样本特征数据的相反数作为指数进行计算,得到第四样本激活数据,之后将第三样本激活数据与第四样本激活数据的差作为分子、第三样本激活数据与第四样本激活数据的和作为分母进行计算,得到第一样本转换数据。对于第三样本特征数据,将自然常数e作为底数、第三样本特征数据作为指数进行计算,得到第五样本激活数据,并将自然常数e作为底数、第三样本特征数据的相反数作为指数进行计算,得到第六样本激活数据,之后将第五样本激活数据与第六样本激活数据的差作为分子、第五样本激活数据与第六样本激活数据的和作为分母进行计算,得到第一样本转换数据。
可以理解的是,参照图5,步骤S540包括但不限于以下步骤:
步骤S541、根据总损失值和对应的损失函数对温度预测模型的参数进行求导,得到多个参数梯度,温度预测模型的参数包括第一权重、第二权重、第三权重、第一偏置、第二偏置以及第三偏置。
步骤S542、计算预设的学习率和多个参数梯度的乘积。
步骤S543、将温度预测模型的参数与乘积相减,得到更新后的温度预测模型的参数。
步骤S544、根据更新后的温度预测模型的参数,得到训练后的温度预测模型。
需要说明的是,温度预测模型的参数包括第一权重、第二权重、第三权重、第一偏置、第二偏置以及第三偏置,根据总损失值对应的损失函数对温度预测模型的参数进行求导,并带入总损失值,得到多个参数梯度,并采用梯度下降的方法对温度预测模型的参数进行更新,以实现对温度预测模型的更新,具体可以为计算预设的学习率和多个参数梯度的乘积,将温度预测模型的参数与乘积相减,得到更新后的温度预测模型的参数。表示为:
其中,θj'表示更新后的参数,η为学习率,学习率可控制梯度更新的快慢,其具体值可根据需要进行设置,L(θj)为损失函数,θj为温度预测模型更新前的参数。最终根据更新后的温度预测模型的参数,得到训练后的温度预测模型。
可以理解的是,参照图6,在步骤S510之后,异常监测方法包括还不限于以下步骤:
步骤S561、对样本数据集的数据进行清洗。
步骤S562、根据清洗后的样本数据集,得到最小值和最大值。
步骤S563、根据最小值和最大值对样本数据集中的数据进行转换,得到更新后的样本数据集。
需要说明的是,根据历史数据集的数据类型,可将数据分为入风口温度、出风口温度以及多个计算芯片对应的芯片利用率、芯片温度。
在一些实施例的步骤S561中,获取到的样本数据集中的数据包括很多对训练无用的信息,直接使用会影响训练效果,还可能造成误差,因此,本申请实施例对样本数据集中的数据进行清洗,以尽可能去除数据中的无用信息。
在一些实施例的步骤S562和步骤S563中,本申请需要对样本数据集进行数据归一化,即将数据按比例缩放,使之落入一个小的特定区间,并去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行加权计算,加快温度预测模型的收敛性。具体地,本申请采用min-max表转化方法对样本数据集中的数据进行线性变换,以把数据转换为[0,1]区间的数值,具体公式如下:
其中,xmin和xmax为样本数据集中各类型数据的最小值和最大值,xscale为数据归一化后的数据,x为数据归一化前的数据。
可以理解的是,参照图7,在步骤S100之后,异常监测方法还包括但不限于以下步骤:
步骤S610、对监控数据进行清洗。
步骤S620、根据最小值和最大值对监控数据进行转换,得到更新后的监控数据。
需要说明的是,与步骤S561至步骤S563相对应,本申请需要对监控数据进行清洗,并根据样本数据集得到最小值和最大值对监控数据进行转换,得到更新后的监控数据,以使得监控数据与温度预测模型相对应。
可以理解的是,参照图8,在步骤S300之前,异常监测方法还包括但不限于以下步骤:
步骤S710、对预测温度值进行反归一化,并将反归一化后的结果作为更新后的预测温度值。
需要说明的是,与步骤S610和S620相对应,需要将预测温度值进行反归一化,使得预测温度值的区间大小与实际温度值相对应。
需要说明的是,参照图9,预测温度值包括预测芯片温度值和预测出风口温度值,步骤S400包括但不限于以下步骤:
步骤S410、从预设的规则库获取第一预设阈值和第二预设阈值;
步骤S420、当预测出风口温度值对应的差值大于或等于第一预设阈值时,服务器的温控系统工作异常;
步骤S430、当预测出风口温度值对应的差值小于第一预设阈值且预测芯片温度值对应的差值大于或等于第二预设阈值时,服务器的计算芯片异常。
在一些实施例的步骤S410中,第一预设阈值与预测出风口温度值相对应,第二预设阈值与预测芯片温度值相对应。
在一些实施例的步骤S420中,温控系统控制冷风从服务器的入风口进入,在服务器内部循环后从出风口送出,该过程把服务器的各部件产生的热量送到外部,对各部件起到降温作用,如果出现热量无法有效送出服务器,即实际出风口温度远小于预测出风口温度值,服务器内部的温度快速上升,从而导致实际芯片温度大于预测芯片温度值,因此,当预测出风口温度值对应的差值大于或等于第一预设阈值时,服务器的温控系统工作异常,服务器的温控系统工作异常。
在一些实施例的步骤S430中,服务器的温控系统正常工作,即预测出风口温度值对应的差值小于第一预设阈值时,也可能会出现计算芯片工作异常,例如芯片利用率很低,但芯片的温度却一直居高不下,或者,芯片利用率降低后,芯片温度需要较长时间才降下来。当芯片利用率很低,但芯片的温度却一直居高不下时,预测出风口温度值对应的差值小于第一预设阈值且预测芯片温度值对应的差值大于或等于第二预设阈值。当芯片利用率降低后,芯片温度需要较长时间才降下来时。芯片利用率在降低的过程中或降低之后,预测出风口温度值对应的差值小于第一预设阈值且预测芯片温度值对应的差值大于或等于第二预设阈值。综上,当预测出风口温度值对应的差值小于第一预设阈值且预测芯片温度值对应的差值大于或等于第二预设阈值时,服务器的计算芯片工作异常。
需要说明的是,参照图10,规则库的设置方法包括但不限于以下步骤:
步骤S810、获取多个历史数据,历史数据包括历史监控数据和与历史监控数据对应的多个历史温度值。
步骤S820、根据历史监控数据和多个历史温度值,确定服务器的的异常温度值和正常温度值。
步骤S830、根据异常温度值和正常温度值,得到预设阈值,进而确定规则库。
需要说明的是,历史数据包括历史监控数据和与历史监控数据对应的多个历史温度值,多个历史温度值包括服务器在正常工作状态以及在异常工作状态下对应的温度数据,根据历史监控数据和多个历史温度值,确定服务器在异常工作状态下的多个异常温度值以及在正常工作状态下对应的多个正常温度值,服务器由正常工作状态至异常工作状态是一个变化的过程,因此,对多个正常温度值与异常温度值进行拟合,能够得到历史监控数据对应的温度曲线,进而确定预设阈值,根据预设阈值,确规则库。
需要说明的是,参照图14,本申请实施例提供的异常监测方法首先对样本数据集中的数据进行数据采集、数据清洗和数据归一化,便于之后对数据进行统一处理,根据归一化后得到的数据进行模型训练,并对训练好的温度预测模型进行模型评价,使得温度预测模型得到的预测温度值与实际温度值相对应,之后,将训练好的温度预测模型部署在待监测的服务器上,将服务器的监控数据通过温度预测模型进行处理,根据温度预测模型的多个网络层依次对监控数据进行特征处理,得到特征数据,在每个网络之后,根据预设的双曲正切激活函数对特征数据进行非线性转换,得到服务器的预测温度值,对预测温度值进行反归一化,使其与实际温度值的区间相对应,并计算服务器实际运行过程中的实际温度值与预测温度值的差值,根据该差值和规则库中预设阈值之间的大小关系得到服务器的异常监测结果,能够判断当前服务器工作状态是否异常,并得到异常的具体位置。
需要说明的是,本申请实施例提供的异常监测方法设置有预先训练好的温度预测模型,之后在服务器的工作状态中,获取服务器的监控数据,并根据温度预测模型的多个网络层依次对监控数据进行特征处理,得到特征数据,在每个网络之后,根据预设的双曲正切激活函数对特征数据进行非线性转换,得到服务器的预测温度值,并计算服务器实际运行过程中的实际温度值与预测温度值的差值,根据该差值和预设阈值之间的大小关系得到服务器的异常监测结果,能够判断当前服务器工作状态是否异常,并得到异常的具体位置,如温控系统或计算芯片。本申请通过温度预测模型得到服务器的预测温度值,并与实际温度值进行比较,实现对服务器的异常监测,从而在服务器从正常工作状态到故障工作状态的转变过程中,即服务器彻底故障之间,提前感知服务器异常并及时处理,提高了异常监测和维修处理的效率,有效维护了服务器的正常运行,减少服务器数据受损情况的发生。
另外,参照图15,本申请实施例还提供一种服务器的异常监测装置,包括:
数据获取模块100,用于获取所述服务器的监控数据,其中,所述监控数据包括入风口温度和至少一个芯片利用率。
模型预测模块200,用于将所述监控数据输入至预先训练好的温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述监控数据进行特征处理,得到特征数据,并根据预设的双曲正切激活函数对所述特征数据进行非线性转换,得到所述服务器的预测温度值。
差值计算模块300,用于获取所述服务器实际运行过程中的实际温度值,计算所述预测温度值与所述实际温度值的差值。
位置确定模块400,用于从预设的规则库中获取预设阈值,根据所述差值和所述预设阈值之间的大小关系得到所述服务器的异常监测结果。
该服务器的异常监测装置的具体实施方式与上述服务器的异常监测方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述熵编码方法或熵解码方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图16,图16示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器901,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器902,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本申请实施例的服务器的异常监测方法。
输入/输出接口903,用于实现信息输入及输出。
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WI F I、蓝牙等)实现通信。
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息。
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述服务器的异常监测方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的服务器的异常监测方法、装置、设备及存储介质,该异常监测方法设置有预先训练好的温度预测模型,之后在服务器的工作状态中,获取服务器的监控数,并根据温度预测模型的多个网络层依次对监控数据进行特征处理,得到特征数据,在每个网络之后,根据预设的双曲正切激活函数对特征数据进行非线性转换,得到服务器的预测温度值,并计算服务器实际运行过程中的实际温度值与预测温度值的差值,根据该差值和预设阈值之间的大小关系得到服务器的异常监测结果,能够判断当前服务器工作状态是否异常,并得到异常的具体位置,如温控系统或计算芯片。本申请通过温度预测模型得到服务器的预测温度值,并与实际温度值进行比较,实现对服务器的异常监测,从而在服务器从正常工作状态到故障工作状态的转变过程中,即服务器彻底故障之间,提前感知服务器异常并及时处理,提高了异常监测和维修处理的效率,有效维护了服务器的正常运行,减少服务器数据受损情况的发生。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (13)

1.一种服务器的异常监测方法,其特征在于,所述异常监测方法包括:
获取所述服务器的监控数据,其中,所述监控数据包括入风口温度和至少一个芯片利用率;
将所述监控数据输入至预先训练好的温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述监控数据进行特征处理,得到特征数据,并根据预设的双曲正切激活函数对所述特征数据进行非线性转换,得到所述服务器的预测温度值;
获取所述服务器实际运行过程中的实际温度值,计算所述预测温度值与所述实际温度值的差值;
从预设的规则库中获取预设阈值,根据所述差值和所述预设阈值之间的大小关系得到所述服务器的异常监测结果。
2.根据权利要求1所述的异常监测方法,其特征在于,所述温度预测模型通过以下方式进行训练得到:
获取样本数据集,所述样本数据集包括样本监控数据和与所述样本监控数据对应的样本温度值;
将所述样本监控数据输入至所述温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述样本监控数据进行特征处理,得到样本特征数据,并根据预设的双曲正切激活函数对所述样本特征数据进行非线性转换,得到所述服务器的样本预测温度值;
根据所述样本预测温度值和所述样本温度值,得到所述温度预测模型的总损失值;
根据所述总损失值调整所述温度预测模型的参数,得到训练后的所述温度预测模型。
3.根据权利要求2所述的异常监测方法,其特征在于,所述温度预测模型的多个网络层包括输入层、第一隐藏层、第二隐藏层和输出层,所述将所述样本监控数据输入至所述温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述样本监控数据进行特征处理,得到样本特征数据,并根据预设的双曲正切激活函数对所述样本特征数据进行非线性转换,得到所述服务器的样本预测温度值,包括:
通过所述输入层对所述样本监控数据进行映射,得到样本映射数据;
由所述第一隐藏层根据多个第一权重对所述样本映射数据进行加权求和,并将加权求和得到的结果与对应的第一偏置相加,得到多个第一样本特征数据;
根据预设的双曲正切激活函数对所述第一样本特征数据进行非线性转换,得到第一样本转换数据;
由所述第二隐藏层根据多个第二权重对所述第一样本转换数据进行加权求和,并将加权求和得到的结果与对应的第二偏置相加,得到多个第二样本特征数据;
根据预设的双曲正切激活函数对所述第二样本特征数据进行非线性转换,得到第二样本转换数据;
由所述输出层根据多个第三权重对所述第二样本转换数据进行加权求和,并将加权求和得到的结果与对应的第三偏置相加,得到多个第三样本特征数据;
根据预设的双曲正切激活函数对所述第三样本特征数据进行非线性转换,得到所述服务器的样本预测温度值。
4.根据权利要求3所述的异常监测方法,其特征在于,所述根据预设的双曲正切激活函数对所述第一样本特征数据进行非线性转换,得到第一样本转换数据,包括:
将自然常数作为底数、所述第一样本特征数据作为指数进行计算,得到第一样本激活数据;
将自然常数作为底数、所述第一样本特征数据的相反数作为指数进行计算,得到第二样本激活数据;
将所述第一样本激活数据与所述第二样本激活数据的差作为分子、所述第一样本激活数据与所述第二样本激活数据的和作为分母进行计算,得到第一样本转换数据。
5.根据权利要求3所述的异常监测方法,其特征在于,所述根据所述总损失值调整所述温度预测模型的参数,得到训练后的所述温度预测模型,包括:
根据所述总损失值和对应的损失函数对所述温度预测模型的参数进行求导,得到多个参数梯度,所述温度预测模型的参数包括所述第一权重、所述第二权重、所述第三权重、所述第一偏置、所述第二偏置以及所述第三偏置;
计算预设的学习率和多个所述参数梯度的乘积;
将所述温度预测模型的参数与所述乘积相减,得到更新后的所述温度预测模型的参数;
根据更新后的所述温度预测模型的参数,得到训练后的所述温度预测模型。
6.根据权利要求2所述的异常监测方法,其特征在于,在所述获取样本数据集之后,所述异常监测方法还包括:
对所述样本数据集的数据进行清洗;
根据清洗后的所述样本数据集,得到最小值和最大值;
根据所述最小值和所述最大值对所述样本数据集中的数据进行转换,得到更新后的所述样本数据集。
7.根据权利要求6所述的异常监测方法,其特征在于,在所述获取所述服务器的监控数据之后,所述异常监测方法还包括:
对所述监控数据进行清洗;
根据所述最小值和所述最大值对所述监控数据进行转换,得到更新后的所述监控数据。
8.根据权利要求6所述的异常监测方法,其特征在于,在所述计算所述预测温度值与所述实际温度值的差值之前,所述异常监测方法还包括:
对所述预测温度值进行反归一化,并将反归一化后的结果作为更新后的所述预测温度值。
9.根据权利要求1所述的异常监测方法,其特征在于,所述预测温度值包括预测芯片温度值和预测出风口温度值,所述从预设的规则库中获取预设阈值,根据所述差值和所述预设阈值之间的大小关系得到所述服务器的异常监测结果,包括:
从所述预设的规则库获取第一预设阈值和第二预设阈值;
当所述预测出风口温度值对应的所述差值大于或等于所述第一预设阈值时,所述服务器的温控系统工作异常;
当所述预测出风口温度值对应的所述差值小于第一预设阈值且所述预测芯片温度值对应的所述差值大于或等于所述第二预设阈值时,所述服务器的计算芯片异常。
10.根据权利要求1所述的异常监测方法,其特征在于,所述规则库通过以下方式进行设置:
获取多个历史数据,所述历史数据包括历史监控数据和与所述历史监控数据对应的多个历史温度值;
根据所述历史监控数据和多个所述历史温度值,确定所述服务器的的异常温度值和正常温度值;
根据所述异常温度值和所述正常温度值,得到预设阈值,进而确定规则库。
11.一种服务器的异常监测装置,其特征在于,包括:
数据获取模块,用于获取所述服务器的监控数据,其中,所述监控数据包括入风口温度和至少一个芯片利用率;
模型预测模块,用于将所述监控数据输入至预先训练好的温度预测模型,在所述温度预测模型中,通过多个网络层依次对所述监控数据进行特征处理,得到特征数据,并根据预设的双曲正切激活函数对所述特征数据进行非线性转换,得到所述服务器的预测温度值;
差值计算模块,用于获取所述服务器实际运行过程中的实际温度值,计算所述预测温度值与所述实际温度值的差值;
位置确定模块,用于从预设的规则库中获取预设阈值,根据所述差值和所述预设阈值之间的大小关系得到所述服务器的异常监测结果。
12.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述的服务器的异常监测方法。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的服务器的异常监测方法。
CN202310798752.6A 2023-06-30 2023-06-30 服务器的异常监测方法、装置、设备及存储介质 Pending CN116860551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310798752.6A CN116860551A (zh) 2023-06-30 2023-06-30 服务器的异常监测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310798752.6A CN116860551A (zh) 2023-06-30 2023-06-30 服务器的异常监测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116860551A true CN116860551A (zh) 2023-10-10

Family

ID=88229854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310798752.6A Pending CN116860551A (zh) 2023-06-30 2023-06-30 服务器的异常监测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116860551A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117309195A (zh) * 2023-11-30 2023-12-29 中控技术股份有限公司 测温仪表的检测方法、装置及电子设备
CN117743965A (zh) * 2024-02-21 2024-03-22 深圳市互盟科技股份有限公司 基于机器学习的数据中心能效优化方法及系统
CN117806912A (zh) * 2024-02-28 2024-04-02 济南聚格信息技术有限公司 一种服务器异常监测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117309195A (zh) * 2023-11-30 2023-12-29 中控技术股份有限公司 测温仪表的检测方法、装置及电子设备
CN117309195B (zh) * 2023-11-30 2024-04-12 中控技术股份有限公司 测温仪表的检测方法、装置及电子设备
CN117743965A (zh) * 2024-02-21 2024-03-22 深圳市互盟科技股份有限公司 基于机器学习的数据中心能效优化方法及系统
CN117743965B (zh) * 2024-02-21 2024-05-07 深圳市互盟科技股份有限公司 基于机器学习的数据中心能效优化方法及系统
CN117806912A (zh) * 2024-02-28 2024-04-02 济南聚格信息技术有限公司 一种服务器异常监测方法及系统
CN117806912B (zh) * 2024-02-28 2024-05-14 济南聚格信息技术有限公司 一种服务器异常监测方法及系统

Similar Documents

Publication Publication Date Title
CN116860551A (zh) 服务器的异常监测方法、装置、设备及存储介质
CN110377984B (zh) 一种工业设备剩余有效寿命预测方法、系统及电子设备
CN113327279B (zh) 一种点云数据处理方法、装置、计算机设备及存储介质
Wang et al. Bearing intelligent fault diagnosis in the industrial Internet of Things context: A lightweight convolutional neural network
Lin et al. Online probabilistic operational safety assessment of multi-mode engineering systems using Bayesian methods
Zhang et al. Equipment health assessment based on improved incremental support vector data description
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN110969023B (zh) 文本相似度的确定方法及装置
Yang et al. An intelligent singular value diagnostic method for concrete dam deformation monitoring
CN114139781A (zh) 一种电力系统的运行趋势预测方法及系统
Pang et al. Discrete Cosine Transformation and Temporal Adjacent Convolutional Neural Network‐Based Remaining Useful Life Estimation of Bearings
CN113758652A (zh) 换流变压器漏油检测方法、装置、计算机设备和存储介质
CN116721454A (zh) 微表情识别方法和装置、电子设备及存储介质
CN116701574A (zh) 文本语义相似度计算方法、装置、设备及存储介质
CN116364054A (zh) 基于diffusion的语音合成方法、装置、设备、存储介质
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
CN114998041A (zh) 理赔预测模型的训练方法和装置、电子设备及存储介质
CN112560252A (zh) 一种航空发动机剩余寿命预测方法
CN117236178A (zh) 发动机剩余寿命预测方法、模型训练方法、装置及设备
CN108804411A (zh) 一种语义角色分析方法、计算机可读存储介质及终端设备
Huang et al. Research on text naming recognition algorithm based on text mining
Huang et al. Text analysis of power customer complaint work order based on data mining
CN116595419A (zh) 数据处理方法和装置、电子设备及存储介质
CN116432648A (zh) 命名实体识别方法和识别装置、电子设备及存储介质
CN116580015A (zh) 分布外样本检测方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination