CN117149569A - 一种板卡运行状态预警方法、装置及电子设备 - Google Patents
一种板卡运行状态预警方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117149569A CN117149569A CN202311124224.9A CN202311124224A CN117149569A CN 117149569 A CN117149569 A CN 117149569A CN 202311124224 A CN202311124224 A CN 202311124224A CN 117149569 A CN117149569 A CN 117149569A
- Authority
- CN
- China
- Prior art keywords
- early warning
- information
- result
- preset
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012544 monitoring process Methods 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims description 86
- 230000002159 abnormal effect Effects 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 51
- 230000007613 environmental effect Effects 0.000 claims description 21
- 230000005856 abnormality Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000013021 overheating Methods 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3031—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供一种板卡运行状态预警方法、装置及电子设备,涉及预警技术的技术领域。在该方法中,应用于服务器,方法包括:获取板卡的监控数据包;将监控数据包输入至预设预警模型中,得到输出结果;根据输出结果,结合历史运行状态信息,得到预警信息,预警信息用于对板卡的运行状态进行预警。实施本申请提供的技术方案,便于提高对板卡运行状态进行预警的准确性。
Description
技术领域
本申请涉及预警技术的技术领域,具体涉及一种板卡运行状态预警方法、装置及电子设备。
背景技术
随着互联网业务的快速发展,服务器基础设施的可用性也越来越受到业界的关注。然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。
目前,除了硬盘故障之外,板卡故障也是常见的硬件故障类型。板卡是印制电路板的一种,制作时带有插芯,可以插入服务器主电路板的插槽中,用来控制其它硬件的运行,比如显示器、采集卡以及显卡等硬件。所以,为了防止板卡故障对服务器其它硬件的影响,对板卡的日常运行状态进行判断是十分必要的。但是,相关技术中通常仅凭借人工经验对板卡运行状态进行判断,由于人工判断本身存在不可控的判断风险,使得判断结果容易发生偏差,从而导致对板卡运行状态的预警准确性较低。
因此,急需一种板卡运行状态预警方法、装置及电子设备。
发明内容
本申请提供了一种板卡运行状态预警方法、装置及电子设备,便于提高对板卡运行状态进行预警的准确性。
在本申请的第一方面提供了一种板卡运行状态预警方法,应用于服务器,所述方法包括:获取板卡的监控数据包;将所述监控数据包输入至预设预警模型中,得到输出结果;根据所述输出结果,结合历史运行状态信息,得到预警信息,所述预警信息用于对所述板卡的运行状态进行预警。
通过采用上述技术方案,服务器首先将会获取板卡的监控数据包,再将监控数据包输入至预设预警模型中,从而得到输出结果。最后,服务器根据输结果,再结合历史运行状态信息,从而得到预警信息。由此,通过服务器自动预警,使得根据预警信息对板卡的运行状态进行预警,便于提高对板卡运行状态进行预警的准确性。
可选的,所述监控数据包包括温度数据,所述将所述监控数据包输入至预设预警模型中,得到输出结果,具体包括:获取所述温度数据,所述温度数据包括内部温度数据和环境温度数据;根据所述内部温度数据和环境温度数据,确定内部温度值和环境温度值;判断所述内部温度值是否在预设内部温度范围内,若所述内部温度值未在所述预设内部温度范围内,则输出第一结果,所述第一结果用于指示所述内部温度数据异常;判断所述环境温度值是否在预设环境温度范围内,若所述环境温度值未在所述预设环境温度范围内,则输出第二结果,所述第二结果用于指示所述环境温度数据异常;将所述第一结果和所述第二结果进行融合,以得到所述输出结果。
通过采用上述技术方案,服务器首先将获取温度数据,并根据温度数据中的内部温度数据和环境温度数据,确定内部温度值和环境温度值。接下来,分别判断内部温度值和环境温度值是否在各对应的温度范围内。当内部温度值不在预设内部温度范围内时,服务器将输出第一结果;当环境温度值不在预设环境温度范围内时,服务器将输出第二结果。最后,服务器将第一结果和第二结果进行融合,从而得到输出结果。由此,服务器通过持续监控内部和环境的温度,可以实时了解板卡内外温度情况,并对异常温度数据进行预警警告,有助于全面地保证板卡的正常工作。
可选的,所述根据所述输出结果,结合历史运行状态信息,得到预警信息,具体包括:获取所述历史运行状态信息,所述历史状态信息包括异常现象集合;对所述输出结果进行识别,确定第一异常现象,所述第一异常现象为内部温度数据异常和环境数据异常中的一种或两种;判断所述第一异常现象是否存在于所述异常现象集合中;若所述第一异常现象存在于所述异常现象集合中,则生成第一预警信息,所述第一预警信息包括第一概率。
通过采用上述技术方案,服务器首先将获取历史运行状态信息,再通过对输出结果进行识别,从而快速确定第一异常现象。接下来,服务器将判断第一异常现象是否存在于异常现象集合中,当第一异常现象存在异常现象集合中时,服务器将生成第一预警信息。由此,服务器实现了对温度数据异常现象的监控,便于提高对板卡预警的准确性。
可选的,在所述将所述监控数据包输入至预设预警模型中,得到输出结果之前,训练所述预设预警模型;所述训练所述预设预警模型,具体包括:获取训练信息,所述训练信息包括监控数据包和所述预警信息;将所述训练信息输入至自适应特征融合网络中进行训练,得到第一训练结果;将所述第一训练结果与所述训练信息进行叠加与标准化处理后,得到第二训练结果;将所述第二训练结果输入至所述自适应特征融合网络中进行处理,得到第三训练结果;将所述第三训练结果与所述第二训练结果进行叠加与标准化处理,直至输出所述训练信息相似度矩阵,所述训练信息相似度矩阵满足预设逻辑回归条件。
通过采用上述技术方案,服务器首先将获取训练信息,再将训练信息输入至神经网络中进行训练,以得到第一训练结果。接下来,服务器再将第一训练结果与训练信息进行叠加与标准化处理,从而得到第二训练结果。然后,服务器将第二训练结果输入至神经网络中进行处理,从而得到第三训练结果,最后,服务器将第三训练结果与第二训练结果进行叠加与标准化处理,直至输出训练信息的相似度矩阵满足预设逻辑回归条件。由此,便于服务器根据神经网络,对监控数据包和输出结果进行相似度分析,从而便于服务器生成的预警信息更具准确性和鲁棒性。
可选的,所述监控数据包还包括板卡运行日志数据,所述将所述监控数据包输入至预设预警模型中,得到输出结果,具体还包括:根据多尺度通道注意力机制,对所述板卡运行日志数据进行多尺度特征提取,得到多尺度特征信息;将所述多尺度特征信息输入至所述预设预警模型中,得到第三结果,所述输出结果包括所述第三结果。
通过采用上述技术方案,服务器根据多尺度通道注意力机制对板卡运行日志数据进行多尺度特征提取,从而得到多尺度特征信息。接下来,服务器将多尺度特征信息输入至预设预警模型中,从而得到第三结果。由此,服务器通过对运行日志数据的实时检测,能够全面、及时地比较异常日志数据,从而便于对板卡的异常情况进行预测,与此同时提高了预警精度。
可选的,若所述第一异常现象未存在于所述异常现象集合中,则生成第二预警信息,所述第二预警信息包括第二概率,所述第二概率低于所述第一概率。
通过采用上述技术方案,当第一异常现象不存在于异常现象集合中时,服务器将生成第二预警信息以及第二概率。由此,通过提供不同等级的预警概率,能够不同程度地提醒管理人员进行相应的板卡检查,便于提高预警信息的时效性和鲁棒性。
可选的,所述将所述多尺度特征信息输入至所述预设预警模型中,得到第三结果,具体包括:计算所述多尺度特征信息与预设异常特征信息之间的相似度值,所述预设预警模型中预先存储有多种所述预设异常特征信息;将所述相似度值与预设相似度阈值进行比较,得到所述第三结果,所述预设相似度阈值由历史运行状态信息中的异常日志集合确定。
通过采用上述技术方案,服务器还将计算多尺度特征信息与预设异常特征信息之间的相似度值。接下来,服务器将相似度值与预设相似度阈值进行比较,从而得到第三结果。由此,服务器能够实现对异常日志数据的精细化分析,从而提高对板卡的全面预警,便于提高预警准确性。
可选的,所述根据所述输出结果,结合历史运行状态信息,得到预警信息,具体还包括:若所述第三结果指示所述相似度值大于或等于所述预设相似度阈值,则生成第三预警信息,所述第三预警信息包括第三概率,所述第三概率高于第一概率。
通过采用上述技术方案,当第三结果指示相似度值大于或等于预设相似度阈值时,说明板卡的异常日志数据与历史运行异常日志数据高度重合,从而便于可以帮助管理人员更好地做出决策和采取相应的措施。故障预警的准确性和可靠性得到提升,有助于提前发现潜在的异常并及时采取预防措施,从而减少板卡异常带来的损失和影响,提高板卡的可靠性和稳定性。
在本申请的第二方面提供了一种板卡运行状态预警装置,所述预警装置为服务器,所述服务器包括获取模块和处理模块,其中,所述获取模块,用于获取板卡的监控数据包;所述处理模块,用于将所述监控数据包输入至预设预警模型中,得到输出结果;所述处理模块,还用于根据所述输出结果,结合历史运行状态信息,得到预警信息,所述预警信息用于对所述板卡的运行状态进行预警。
在本申请的第三方面提供了一种电子设备,所述电子设备包括处理器、存储器、用户接口以及网络接口,所述存储器用于存储指令,所述用户接口和所述网络接口均用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上所述的方法。
在本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如上所述的方法。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1.服务器首先将会获取板卡的监控数据包,再将监控数据包输入至预设预警模型中,从而得到输出结果。最后,服务器根据输结果,再结合历史运行状态信息,从而得到预警信息。由此,通过服务器自动预警,使得根据预警信息对板卡的运行状态进行预警,便于提高对板卡运行状态进行预警的准确性;
2.当输出结果指示相似度值大于或等于预设相似度阈值时,说明板卡的异常日志数据与历史运行异常日志数据高度重合,从而便于可以帮助管理人员更好地做出决策和采取相应的措施。另外,故障预警的准确性和可靠性得到提升,有助于提前发现潜在的异常并及时采取预防措施,从而减少板卡异常带来的损失和影响,提高板卡的可靠性和稳定性;
3.通过提供不同等级的预警概率,能够不同程度地提醒管理人员进行相应的板卡检查,便于提高预警信息的时效性和鲁棒性。
附图说明
图1为本申请实施例提供的一种板卡运行状态预警方法的流程示意图。
图2为本申请实施例提供的一种板卡运行状态预警装置的模块示意图。
图3为本申请实施例提供的一种电子设备的结构示意图。
附图标记说明:21、获取模块;22、处理模块;31、处理器;32、通信总线;33、用户接口;34、网络接口;35、存储器。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在对本申请实施例进行介绍之前,首先对本申请实施例中涉及的一些名词进行定义和说明。
通道注意力机制:是注意力机制(attention)旨在引导计算资源偏向输入信号中信息量最大的部分。通过和门限函数(如softmax、sigmoid)联合使用,通过网络根据最后的损失进行反向传播去学习特征权重,使得有效的特征图权重大,无效或效果小的特征图权重小的方式训练模型达到更好的结果。通道注意力机制可以根据输入动态调整各通道的特征,增强网络的表示能力。
随着数据科技的不断创新,云计算基础设施的稳定性成为行业内的焦点。尽管技术持续进步,硬件故障仍然是一种普遍的问题,这样的问题往往会造成巨大的经济损失。
在现今的硬件故障类型中,除了硬盘故障,板卡故障也是一个常见的情况。板卡是电脑的大脑,控制着电脑所有其他部分的运行,例如硬盘、RAM和显卡等设备。因此,防止板卡故障对电脑其他部件产生影响,对板卡的运行状态进行监控是非常必要的。然而,相关技术中,通常依靠人工经验来评估板卡的运行状态,由于人工评估本身存在不可避免的风险,可能导致评估结果存在偏差,从而降低了对板卡运行状态预警的准确性。
为了解决上述技术问题,本申请提供了一种板卡运行状态预警方法,参照图1,图1为本申请实施例提供的一种板卡运行状态预警方法的流程示意图。该板卡运行状态预警方法包括步骤S110至步骤S130,上述步骤如下:
S110、获取板卡的监控数据包。
具体地,服务器在对板卡运行状态预警之前,服务器本身将自带有一些接口,比如IPMI接口(Intelligent Platform Management Interface)。IPMI是一种硬件管理接口标准,服务器通过IPMI,可以从服务器上获取各种硬件信息。由此服务器可以通过该接口来获取板卡的监控数据包。并且,服务器通过使用命令行或Web界面来访问和提取监控数据包中的监控数据。除此之外,服务器还可以通过接收传感器发送的监控数据包的方式进行获取。
其中,监控数据包内存储有对板卡的各项监控数据,各项监控数据均是实时监控获取的。监控数据包内的监控数据包括但不限于温度数据、CPU使用率数据、内存使用率数据、电源数据以及板卡运行日志数据等。除此之外,对于监控数据包内的监控数据需要进行数据去重、清洗等预处理操作,确保监控数据的清晰直观。具体预处理方式不作限定,这里不再赘述。
在本申请实施例中,服务器为管理板卡和监控数据包的服务器,用于提供后台服务,服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。
S120、将监控数据包输入至预设预警模型中,得到输出结果。
具体地,服务器在获取到板卡的监控数据包之后,将把监控数据包输入至预设预警模型中,从而得到输出结果。其中,预设预警模型是预先构建的神经网络模型,通过存储监控数据包与输出结果之间的对应关系,来对板卡的潜在异常进行分析和预警。输出结果可以反映监控数据正常或者异常,从而便于分析异常监控数据对板卡的影响,从而有利于预设预警模型对板卡运行状态进行实时预测。
在一种可能的实施方式中,监控数据包包括温度数据,将监控数据包输入至预设预警模型中,得到输出结果,具体包括:获取温度数据,温度数据包括内部温度数据和环境温度数据;根据内部温度数据和环境温度数据,确定内部温度值和环境温度值;判断内部温度值是否在预设内部温度范围内,若内部温度值未在预设内部温度范围内,则输出第一结果,第一结果用于指示内部温度数据异常;判断环境温度值是否在预设环境温度范围内,若环境温度值未在预设环境温度范围内,则输出第二结果,第二结果用于指示环境温度数据异常;将第一结果和第二结果进行融合,以得到输出结果。
具体地,温度数据包括内部温度数据和环境温度数据,在本申请实施例中,内部温度数据指的是板卡自身的温度数据,环境温度数据指的是板卡周围的硬件或者板卡所处环境的温度数据,例如环境温度数据可以是室内温度数据。其中,预设内部温度范围和预设环境温度范围均为服务器预先设置,服务器通过分析板卡的基本信息,从而确定板卡的正常工作温度范围。第一结果用于表示内部温度异常,例如,板卡过热可能导致故障,从而导致运行状态为关闭状态。第二结果用于表示环境温度异常,例如,当板卡所处的工作环境温度过高时,久而久之使得板卡容易死机。因此,服务器对内部温度和外部温度进行双重监控和分析是十分必要的。
S130、根据输出结果,结合历史运行状态信息,得到预警信息,预警信息用于对板卡的运行状态进行预警。
具体地,服务器根据输出结果,并结合历史运行状态信息,从而得到预警信息,以便于服务器根据预警信息来对板卡的运行状态进行预警。相比于相关技术,不再需要人工进行经验判断,极大地提高了对板卡运行状态的预警准确性。举例来说,预警信息可以为“板卡内部温度出现异常,建议尽快检查”,还可以为“注意,XX板卡易发生与2022年6月27日15:06:33同种温度异常现象”。
在一种可能的实施方式中,服务器生成预警信息之后,将向管理人员对应的用户设备发送预警信息,从而进一步提醒管理人员进行检修,保证板卡乃至服务器的正常工作。
在一种可能的实施方式中,根据输出结果,结合历史运行状态信息,得到预警信息,具体包括:获取历史运行状态信息,历史状态信息包括异常现象集合;对输出结果进行识别,确定第一异常现象,第一异常现象为内部温度数据异常和环境数据异常中的一种或两种;判断第一异常现象是否存在于异常现象集合中;若第一异常现象存在于异常现象集合中,则生成第一预警信息,第一预警信息包括第一概率。
具体地,服务器得到预警信息的具体过程为:服务器首先将获取历史运行状态信息,再根据历史运行状态信息中的异常现象集合,确定出输出结果中的第一异常现象。接下来,服务器将判断第一异常现象是否存在于异常现象集合,即判断第一异常现象是不是过往历史发生过的异常现象。当第一异常现象存在与异常现象集合中时,服务器将生成第一预警信息以及第一概率。其中,异常现象指的是板卡或服务器因为板卡本身数据异常导致的外在现象,异常现象集合中存储有多种异常现象。
举例来说,异常现象包括板卡过热、板卡发生大范围振动、显示器蓝屏、文件损坏、应用程序崩溃、服务器宕机以及服务器意外重启等。其次,第一概率表示的是服务器对板卡预测发生异常的概率值,比如,第一概率为80%。
在一种可能的实施方式中,若第一异常现象未存在于异常现象集合中,则生成第二预警信息,第二预警信息包括第二概率,第二概率低于第一概率。
具体地,当第一异常现象不存在于异常现象集合中时,服务器将生成第二预警信息以及第二概率。其中,当板卡出现某种未知异常现象时,因为过往历史中出现过大量的异常现象,所以服务器认为该异常现象的可靠性偏低,则设置生成的第二概率低于第一概率。举例来说,板卡存在XX异常现象,而历史异常现象集合中并不存在XX现象,则该异常现象预警的概率为65%。
在一种可能的实施方式中,监控数据包还包括板卡运行日志数据,将监控数据包输入至预设预警模型中,得到输出结果,具体还包括:根据多尺度通道注意力机制,对板卡运行日志数据进行多尺度特征提取,得到多尺度特征信息;将多尺度特征信息输入至预设预警模型中,得到第三结果,输出结果包括第三结果。
具体地,当监控数据包中包括板卡运行日志数据时,服务器将根据多尺度通道注意力机制,对板卡运行日志数据进行多尺度特征提取,从而得到多尺度特征信息。最后,服务器将多尺度特征信息输入至预设预警模型中,从而得到第三结果。其中,多尺度通道注意力机制是指在多个尺度上对特征信息的通道进行加权,以强化重要的通道特征,减少无用的通道信息。在本申请实施例中,多尺度通道注意力机制可以提高特征信息的表达能力和鲁棒性,从而提高预设预警模型对于日志数据的分析和处理性能。
在一种可能的实施方式中,将多尺度特征信息输入至预设预警模型中,得到第三结果,具体包括:计算多尺度特征信息与预设异常特征信息之间的相似度值,预设预警模型中预先存储有多种预设异常特征信息;将相似度值与预设相似度阈值进行比较,得到第三结果,预设相似度阈值由历史运行状态信息中的异常日志集合确定。
具体地,服务器得到第三结果的具体过程为:服务器首先将计算多尺度特征信息与预设异常特征信息之间的相似度值,接下来,服务器将相似度值与预设相似度阈值进行比较,从而得到第三结果。其中,服务器采用汉明相似度计算相似度值,汉明相似度能够在大规模的数据信息中,快速匹配到对应的预设异常特征信息,在保证匹配效率的同时,提高了数据准确性。历史运行状态信息包括异常日志集合,在监控数据中,异常日志即记载错误校验与纠正的日志数据,是最能反映历史记录中板卡发生异常的指标。
在一种可能的实施方式中,根据输出结果,结合历史运行状态信息,得到预警信息,具体还包括:若第三结果指示相似度值大于或等于预设相似度阈值,则生成第三预警信息,第三预警信息包括第三概率,第三概率高于第一概率。
具体地,服务器根据输出结果与历史运行状态信息,得到预警信息的具体过程为:当第三结果指示相似度值大于或等于预设相似度阈值,则服务器将生成第三预警信息以及第三概率。由此,第三概率>第一概率>第二概率。因为板卡运行日志数据是最能反映板卡异常的指标,所以服务器对板卡运行日志数据的信任度是高于其他监控数据的。举例来说,第一概率为80%,第二概率为65%,第三概率为90%。
在一种可能的实施方式中,在将监控数据包输入至预设预警模型中,得到输出结果之前,训练预设预警模型;训练预设预警模型,具体包括:获取训练信息,训练信息包括监控数据包和输出结果;将训练信息输入至自适应特征融合网络中进行训练,得到第一训练结果;将第一训练结果与训练信息进行叠加与标准化处理后,得到第二训练结果;将第二训练结果输入至自适应特征融合网络中进行处理,得到第三训练结果;将第三训练结果与第二训练结果进行叠加与标准化处理,直至输出训练信息相似度矩阵,训练信息相似度矩阵满足预设逻辑回归条件。
具体地,服务器将会获取训练信息,再将训练信息输入至自适应特征融合网络中进行训练,从而得到第一训练结果。接下来,服务器将第一训练结果与训练信息进行叠加与标准化处理后,得到第二训练结果。其次,服务器再将第二训练结果输入至自适应特征融合网络中进行处理,从而得到第三训练结果。最后,服务器将第三训练结果和第二训练结果进行叠加与标准化处理,直至输出训练信息相似度矩阵。
其中,预设逻辑回归条件由服务器的管理人员预先设置。传统的各层特征级联或特征融合方法,通常基于经验或手工设计的权重和规则进行特征加权、选择和融合。在本申请实施例中,训练信息包括监控数据包和输出结果,采用自适应特征融合网络则可通过数据自适应学习和优化模型架构及参数,进而提高模型对于复杂、变异场景的适应能力。由此,通过不断地训练和处理的过程,可以提高模型的准确性和稳定性,使其能够更好地适应不同的数据情况并进行有效的预测和分析。
本申请还提供了一种板卡运行状态预警装置,参照图2,图2为本申请实施例提供的一种板卡运行状态预警装置的模块示意图。预警装置为服务器,服务器包括获取模块21和处理模块22,其中,获取模块21,用于获取板卡的监控数据包;处理模块22,用于将监控数据包输入至预设预警模型中,得到输出结果;处理模块22,还用于根据输出结果,结合历史运行状态信息,得到预警信息,预警信息用于对板卡的运行状态进行预警。
在一种可能的实施方式中,监控数据包包括温度数据,将监控数据包输入至预设预警模型中,得到输出结果,具体包括:获取模块21获取温度数据,温度数据包括内部温度数据和环境温度数据;处理模块22根据内部温度数据和环境温度数据,确定内部温度值和环境温度值;处理模块22判断内部温度值是否在预设内部温度范围内,若内部温度值未在预设内部温度范围内,则输出第一结果,第一结果用于指示内部温度数据异常;处理模块22判断环境温度值是否在预设环境温度范围内,若环境温度值未在预设环境温度范围内,则输出第二结果,第二结果用于指示环境温度数据异常;处理模块22将第一结果和第二结果进行融合,以得到输出结果。
在一种可能的实施方式中,处理模块22根据输出结果,结合历史运行状态信息,得到预警信息,具体包括:获取模块21获取历史运行状态信息,历史状态信息包括异常现象集合;处理模块22对输出结果进行识别,确定第一异常现象,第一异常现象为内部温度数据异常和环境数据异常中的一种或两种;处理模块22判断第一异常现象是否存在于异常现象集合中;处理模块22若第一异常现象存在于异常现象集合中,则生成第一预警信息,第一预警信息包括第一概率。
在一种可能的实施方式中,处理模块22在将监控数据包输入至预设预警模型中,得到输出结果之前,训练预设预警模型;训练预设预警模型,具体包括:获取模块21获取训练信息,训练信息包括监控数据包和输出结果;处理模块22将训练信息输入至自适应特征融合网络中进行训练,得到第一训练结果;处理模块22将第一训练结果与训练信息进行叠加与标准化处理后,得到第二训练结果;处理模块22将第二训练结果输入至自适应特征融合网络中进行处理,得到第三训练结果;处理模块22将第三训练结果与第二训练结果进行叠加与标准化处理,直至输出训练信息相似度矩阵,训练信息相似度矩阵满足预设逻辑回归条件。
在一种可能的实施方式中,监控数据包还包括板卡运行日志数据,将监控数据包输入至预设预警模型中,得到输出结果,具体还包括:处理模块22根据多尺度通道注意力机制,对板卡运行日志数据进行多尺度特征提取,得到多尺度特征信息;处理模块22将多尺度特征信息输入至预设预警模型中,得到第三结果,输出结果包括第三结果。
在一种可能的实施方式中,若第一异常现象未存在于异常现象集合中,则处理模块22生成第二预警信息,第二预警信息包括第二概率,第二概率低于第一概率。
在一种可能的实施方式中,处理模块22将多尺度特征信息输入至预设预警模型中,得到第三结果,具体包括:处理模块22计算多尺度特征信息与预设异常特征信息之间的相似度值,预设预警模型中预先存储有多种预设异常特征信息;处理模块22将相似度值与预设相似度阈值进行比较,得到第三结果,预设相似度阈值由历史运行状态信息中的异常日志集合确定。
在一种可能的实施方式中,处理模块22根据输出结果,结合历史运行状态信息,得到预警信息,具体还包括:若第三结果指示相似度值大于或等于预设相似度阈值,则处理模块22生成第三预警信息,第三预警信息包括第三概率,第三概率高于第一概率。
本申请还提供了一种电子设备,参照图3,图3为本申请实施例提供的一种电子设备的结构示意图。电子设备可以包括:至少一个处理器31,至少一个网络接口34,用户接口33,存储器35,至少一个通信总线32。
其中,通信总线32用于实现这些组件之间的连接通信。
其中,用户接口33可以包括显示屏(Display)、摄像头(Camera),可选用户接口33还可以包括标准的有线接口、无线接口。
其中,网络接口34可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器31可以包括一个或者多个处理核心。处理器31利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器35内的指令、程序、代码集或指令集,以及调用存储在存储器35内的数据,执行服务器的各种功能和处理数据。可选的,处理器31可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器31可集成中央处理器(Central ProcessingUnit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器31中,单独通过一块芯片进行实现。
其中,存储器35可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器35包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器35可用于存储指令、程序、代码、代码集或指令集。存储器35可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器35可选的还可以是至少一个位于远离前述处理器31的存储装置。如图3所示,作为一种计算机存储介质的存储器35中可以包括操作系统、网络通信模块、用户接口模块以及一种板卡运行状态预警方法的应用程序。
在图3所示的电子设备中,用户接口33主要用于为用户提供输入的接口,获取用户输入的数据;而处理器31可以用于调用存储器35中存储一种板卡运行状态预警方法的应用程序,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有指令。当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (10)
1.一种板卡运行状态预警方法,其特征在于,应用于服务器,所述方法包括:
获取板卡的监控数据包;
将所述监控数据包输入至预设预警模型中,得到输出结果;
根据所述输出结果,结合历史运行状态信息,得到预警信息,所述预警信息用于对所述板卡的运行状态进行预警。
2.根据权利要求1所述的板卡运行状态预警方法,其特征在于,所述监控数据包包括温度数据,所述将所述监控数据包输入至预设预警模型中,得到输出结果,具体包括:
获取所述温度数据,所述温度数据包括内部温度数据和环境温度数据;
根据所述内部温度数据和环境温度数据,确定内部温度值和环境温度值;
判断所述内部温度值是否在预设内部温度范围内,若所述内部温度值未在所述预设内部温度范围内,则输出第一结果,所述第一结果用于指示所述内部温度数据异常;
判断所述环境温度值是否在预设环境温度范围内,若所述环境温度值未在所述预设环境温度范围内,则输出第二结果,所述第二结果用于指示所述环境温度数据异常;
将所述第一结果和所述第二结果进行融合,以得到所述输出结果。
3.根据权利要求1所述的板卡运行状态预警方法,其特征在于,所述根据所述输出结果,结合历史运行状态信息,得到预警信息,具体包括:
获取所述历史运行状态信息,所述历史状态信息包括异常现象集合;
对所述输出结果进行识别,确定第一异常现象,所述第一异常现象为内部温度数据异常和环境数据异常中的一种或两种;
判断所述第一异常现象是否存在于所述异常现象集合中;
若所述第一异常现象存在于所述异常现象集合中,则生成第一预警信息,所述第一预警信息包括第一概率。
4.根据权利要求1所述板卡运行状态预警方法,其特征在于,在所述将所述监控数据包输入至预设预警模型中,得到输出结果之前,训练所述预设预警模型;所述训练所述预设预警模型,具体包括:
获取训练信息,所述训练信息包括监控数据包和所述输出结果;
将所述训练信息输入至自适应特征融合网络中进行训练,得到第一训练结果;
将所述第一训练结果与所述训练信息进行叠加与标准化处理后,得到第二训练结果;
将所述第二训练结果输入至所述自适应特征融合网络中进行处理,得到第三训练结果;
将所述第三训练结果与所述第二训练结果进行叠加与标准化处理,直至输出所述训练信息相似度矩阵,所述训练信息相似度矩阵满足预设逻辑回归条件。
5.根据权利要求2所述的板卡运行状态预警方法,其特征在于,所述监控数据包还包括板卡运行日志数据,所述将所述监控数据包输入至预设预警模型中,得到输出结果,具体还包括:
根据多尺度通道注意力机制,对所述板卡运行日志数据进行多尺度特征提取,得到多尺度特征信息;
将所述多尺度特征信息输入至所述预设预警模型中,得到第三结果,所述输出结果包括所述第三结果。
6.根据权利要求3所述的板卡运行状态预警方法,其特征在于,所述方法还包括:
若所述第一异常现象未存在于所述异常现象集合中,则生成第二预警信息,所述第二预警信息包括第二概率,所述第二概率低于所述第一概率。
7.根据权利要求5所述的板卡运行状态预警方法,其特征在于,所述将所述多尺度特征信息输入至所述预设预警模型中,得到第三结果,具体包括:
计算所述多尺度特征信息与预设异常特征信息之间的相似度值,所述预设预警模型中预先存储有多种所述预设异常特征信息;
将所述相似度值与预设相似度阈值进行比较,得到所述第三结果,所述预设相似度阈值由历史运行状态信息中的异常日志集合确定。
8.根据权利要求7所述的板卡运行状态预警方法,其特征在于,所述根据所述输出结果,结合历史运行状态信息,得到预警信息,具体还包括:
若所述第三结果指示所述相似度值大于或等于所述预设相似度阈值,则生成第三预警信息,所述第三预警信息包括第三概率,所述第三概率高于第一概率。
9.一种板卡运行状态预警装置,其特征在于,所述预警装置为服务器,所述服务器包括获取模块(21)和处理模块(22),其中,
所述获取模块(21),用于获取板卡的监控数据包;
所述处理模块(22),用于将所述监控数据包输入至预设预警模型中,得到输出结果;
所述处理模块(22),还用于根据所述输出结果,结合历史运行状态信息,得到预警信息,所述预警信息用于对所述板卡的运行状态进行预警。
10.一种电子设备,其特征在于,所述电子设备包括处理器(31)、存储器(35)、用户接口(33)以及网络接口(34),所述存储器(35)用于存储指令,所述用户接口(33)和所述网络接口(34)均用于给其他设备通信,所述处理器(31)用于执行所述存储器(35)中存储的指令,以使所述电子设备执行如权利要求1至8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311124224.9A CN117149569A (zh) | 2023-09-01 | 2023-09-01 | 一种板卡运行状态预警方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311124224.9A CN117149569A (zh) | 2023-09-01 | 2023-09-01 | 一种板卡运行状态预警方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117149569A true CN117149569A (zh) | 2023-12-01 |
Family
ID=88911451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311124224.9A Pending CN117149569A (zh) | 2023-09-01 | 2023-09-01 | 一种板卡运行状态预警方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117149569A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542184A (zh) * | 2023-12-28 | 2024-02-09 | 唐山东润自动化工程股份有限公司 | 一种矿用本安型遥控方法、装置及电子设备 |
-
2023
- 2023-09-01 CN CN202311124224.9A patent/CN117149569A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542184A (zh) * | 2023-12-28 | 2024-02-09 | 唐山东润自动化工程股份有限公司 | 一种矿用本安型遥控方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200151079A1 (en) | System to manage economics and operational dynamics of it systems and infrastructure in a multi-vendor service environment | |
US9084937B2 (en) | Faults and performance issue prediction | |
CN112162878A (zh) | 数据库故障发现方法、装置、电子设备及存储介质 | |
JP2018045403A (ja) | 異常検知システム及び異常検知方法 | |
CN110674009B (zh) | 应用服务器性能监测方法、装置、存储介质及电子设备 | |
US11291077B2 (en) | Internet of things sensor major and minor event blockchain decisioning | |
US20210081501A1 (en) | System and method for automated insight curation and alerting | |
CN107924360A (zh) | 计算系统中的诊断框架 | |
CN112380089A (zh) | 一种数据中心监控预警方法及系统 | |
CN108170581A (zh) | 一种故障预警方法、装置及电子设备 | |
CN117149569A (zh) | 一种板卡运行状态预警方法、装置及电子设备 | |
CN111539493A (zh) | 一种告警预测方法、装置、电子设备及存储介质 | |
CN112702184A (zh) | 故障预警方法及装置、计算机可存储介质 | |
CN112651367A (zh) | 一种多维度航显屏智能监控的方法 | |
CN111901156B (zh) | 一种监控故障的方法及装置 | |
CN117408561A (zh) | 一种住宅工程建设监理方法、装置及电子设备 | |
CN116755974A (zh) | 云计算平台运维方法、装置、电子设备及存储介质 | |
CN114385398A (zh) | 一种请求响应状态确定方法、装置、设备和存储介质 | |
CN115408236A (zh) | 一种日志数据审计系统、方法、设备及介质 | |
CN115550141A (zh) | 事件处理方法、装置、电子设备及可读存储介质 | |
CN116932324A (zh) | 一种内存条故障预测方法、装置及电子设备 | |
CN112307271A (zh) | 一种配电自动化系统遥控业务的安全监测方法及装置 | |
CN117457059A (zh) | 一种ssd的故障检测方法、装置及电子设备 | |
CN117473248A (zh) | 一种薄膜电容器的寿命预测方法、装置及电子设备 | |
US20230188408A1 (en) | Enhanced analysis and remediation of network performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |