CN117806912A - 一种服务器异常监测方法及系统 - Google Patents

一种服务器异常监测方法及系统 Download PDF

Info

Publication number
CN117806912A
CN117806912A CN202410217519.9A CN202410217519A CN117806912A CN 117806912 A CN117806912 A CN 117806912A CN 202410217519 A CN202410217519 A CN 202410217519A CN 117806912 A CN117806912 A CN 117806912A
Authority
CN
China
Prior art keywords
temperature
external interface
external
diffusion
connection state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410217519.9A
Other languages
English (en)
Other versions
CN117806912B (zh
Inventor
张鲁佳
张德彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Juge Information Technology Co ltd
Original Assignee
Jinan Juge Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Juge Information Technology Co ltd filed Critical Jinan Juge Information Technology Co ltd
Priority to CN202410217519.9A priority Critical patent/CN117806912B/zh
Publication of CN117806912A publication Critical patent/CN117806912A/zh
Application granted granted Critical
Publication of CN117806912B publication Critical patent/CN117806912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请提供了一种服务器异常监测方法及系统,涉及异常监测技术领域,该方法包括:获取服务器的外接接口配置信息;确定各个外接接口的连接状态;获取处于连接状态的标识外接接口;建立温度异常联合监测模块;获取温度场监测数据集;输出第一预测温度;生成第一预警信号,将所述第一预警信号发送至上位机进行预警提醒,解决了现有技术中存在的由于缺乏对多个接口处的温度扩散分析,导致温度监测准确性不佳,进而导致异常预警准确性不足的技术问题,通过对服务器中处于连接状态的多个外接接口进行温度监测后的温度扩散融合分析,从而进行温度异常预警,达到提升异常温度识别准确性,进而提升异常预警的准确性,保证服务器安全运行的技术效果。

Description

一种服务器异常监测方法及系统
技术领域
本申请涉及异常监测技术领域,具体涉及一种服务器异常监测方法及系统。
背景技术
服务器是现代信息技术中不可或缺的部分,负责提供各种服务,如计算、存储、通信等。然而,由于各种原因,服务器可能会发生异常,其中,外接接口的连接是服务器故障的一个重要原因,因此对外接接口进行监测,可以有效解决接口导致的服务器异常。
常用的异常监测方法大多只是通过传感器进行温度传感后进行阈值判别,但是,不同的接口在发热后温度会发生扩散,且多个接口可能对同一区域产生扩散影响,现有技术中缺乏对多个接口处的温度扩散分析,导致温度监测准确性不佳,进而导致异常预警准确性不足。
发明内容
本申请提供了一种服务器异常监测方法及系统,用以解决现有技术中存在的由于缺乏对多个接口处的温度扩散分析,导致温度监测准确性不佳,进而导致异常预警准确性不足的技术问题。
根据本申请的第一方面,提供了一种服务器异常监测方法,包括:获取服务器的外接接口配置信息,所述外接接口配置信息包括外接接口配置数量;根据所述外接接口配置信息确定各个外接接口的连接状态,其中,所述连接状态包括连接状态和未连接状态;根据各个外接接口的连接状态,获取处于连接状态的标识外接接口;针对所述标识外接接口建立温度异常联合监测模块,其中,所述温度异常联合监测模块包括温度场监测模块和温度联合预测模块,所述温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取;利用所述温度场监测模块对所述标识外接接口进行实时监测,获取温度场监测数据集;将所述温度场监测数据集输入所述温度联合预测模块中,输出第一预测温度;若所述第一预测温度大于预设预测温度,生成第一预警信号,将所述第一预警信号发送至上位机进行预警提醒。
根据本申请的第二方面,提供了一种服务器异常监测系统,包括:接口配置信息获取单元,所述接口配置信息获取单元用于获取服务器的外接接口配置信息,所述外接接口配置信息包括外接接口配置数量;连接状态确定单元,所述连接状态确定单元用于根据所述外接接口配置信息确定各个外接接口的连接状态,其中,所述连接状态包括连接状态和未连接状态;标识外接接口获取单元,所述标识外接接口获取单元用于根据各个外接接口的连接状态,获取处于连接状态的标识外接接口;模型建立单元,所述模型建立单元用于针对所述标识外接接口建立温度异常联合监测模块,其中,所述温度异常联合监测模块包括温度场监测模块和温度联合预测模块,所述温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取;实时监测单元,所述实时监测单元用于利用所述温度场监测模块对所述标识外接接口进行实时监测,获取温度场监测数据集;温度预测单元,所述温度预测单元用于将所述温度场监测数据集输入所述温度联合预测模块中,输出第一预测温度;预警提醒单元,所述预警提醒单元用于若所述第一预测温度大于预设预测温度,生成第一预警信号,将所述第一预警信号发送至上位机进行预警提醒。
根据本申请采用的一个或多个技术方案,其可达到的有益效果如下:
获取服务器的外接接口配置信息,外接接口配置信息包括外接接口配置数量,根据外接接口配置信息确定各个外接接口的连接状态,其中,连接状态包括连接状态和未连接状态,根据各个外接接口的连接状态,获取处于连接状态的标识外接接口,针对标识外接接口建立温度异常联合监测模块,其中,温度异常联合监测模块包括温度场监测模块和温度联合预测模块,温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取,利用温度场监测模块对标识外接接口进行实时监测,获取温度场监测数据集,将温度场监测数据集输入温度联合预测模块中,输出第一预测温度,若第一预测温度大于预设预测温度,生成第一预警信号,将第一预警信号发送至上位机进行预警提醒。由此通过对服务器中处于连接状态的多个外接接口进行温度监测后的温度扩散融合分析,从而进行温度异常预警,达到提升异常温度识别准确性,进而提升异常预警的准确性,保证服务器安全运行的技术效果。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种服务器异常监测方法的流程示意图。
图2为本申请实施例提供的一种服务器异常监测系统的结构示意图。
附图标记说明:接口配置信息获取单元11,连接状态确定单元12,标识外接接口获取单元13,模型建立单元14,实时监测单元15,温度预测单元16,预警提醒单元17。
具体实施方式
为了使得本申请的目的、技术方案和优点更为明显,下面将参照附图详细描述本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
说明书中使用的术语用于描述实施例,而不是限制本申请。如在说明书中所使用的,单数术语“一”“一个”和“该”旨在也包括复数形式,除非上下文另有清楚指示。当在说明书中使用时,术语“包括”和/或“包含”指定了步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他步骤、操作、元件、组件和/或其组的存在或添加。
除非另有定义,本说明书中使用的所有术语(包括技术和科学术语)应具有与本申请所属领域的技术人员通常理解的相同含义。术语,如常用词典中定义的术语,不应以理想化或过于正式的意义来解释,除非在此明确定义。在整个说明书中,相同的附图标记表示相同的元件。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
实施例一
图1为本申请实施例提供的一种服务器异常监测方法图,所述方法包括:
获取服务器的外接接口配置信息,所述外接接口配置信息包括外接接口配置数量。
具体来说,常见的服务器的外接接口包括USB、SATA、SAS、PCIe等。通常可以通过服务器的IP地址或管理账号登录到服务器的管理界面,在服务器的管理界面中,可以查找外接接口的配置信息,如接口类型、接口数量、接口速率等,从中提取接口数量作为所述外接接口配置数量,将外接接口配置数量和对应的接口类型、接口位置等作为外接接口配置信息。
根据所述外接接口配置信息确定各个外接接口的连接状态,其中,所述连接状态包括连接状态和未连接状态。
基于所述外接接口配置信息中的外接接口配置数量、接口位置、接口类型等确定需要进行连接状态检查的接口,可以由本领域技术人员针对所有的外接接口进行连接状态检查,具体可通过观察或使用特定的工具检查各个外接接口的连接情况。示例性地,对于USB接口,可以观察接口是否有设备连接或使用现有的软件工具进行检查,根据检查的结果,可以确定各个外接接口的连接状态。一般来说,如果接口有设备连接,则状态为已连接;如果接口没有设备连接,则状态为未连接。将确定的各个外接接口的连接状态记录下来,由此得到各个外接接口的连接状态。
根据各个外接接口的连接状态,获取处于连接状态的标识外接接口。
所述连接状态包括连接状态和未连接状态,对处于连接状态的外接接口进行标识,作为标识外接接口。通俗地讲,如果外接接口处于未连接状态,其对于服务器不会产生影响,自然不会导致服务器发热,因此无需对处于未连接状态的外接接口进行温度监测,只需对处于连接状态的标识外接接口进行温度监测,节省监测资源,提升监测效率。
针对所述标识外接接口建立温度异常联合监测模块,其中,所述温度异常联合监测模块包括温度场监测模块和温度联合预测模块,所述温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取。
可以理解的,温度场监测模块包括用于进行温度监测的温度传感器,就是在每一个标识外接接口设置温度传感器,用于对标识外接接口进行温度传感监测,具体的温度传感器可由本领域专业技术人员结合实际需求确定,比如红外,由此得到所有的标识外接接口对应的温度传感器组成温度场监测模块。
温度联合预测模块则是用于根据温度场监测模块采集到的监测数据进行服务器的温度预测的功能模块,通过热量扩散网络层以及融合预测网络层训练获取,就是说,标识外接接口发热后,产生的热量会以标识外接接口为中心在服务器扩散,热量扩散网络层就是用于对扩散后的不同扩散位置的温度进行预测。其中,热量扩散网络层通过现有技术中的机器学习模型构建,比如神经网络模型,具体来说,可通过采集标识外接接口的历史温度扩散记录进行热量扩散网络层的训练,历史温度扩散记录包括标识外接接口处的历史温度以及扩散至标识外接接口四周不同距离的历史扩散温度,以标识外接接口处的历史温度作为输入,以标识外接接口四周不同距离的历史扩散温度对热量扩散网络层进行输出监督调整,直至将热量扩散网络层训练至收敛,机器模型的训练构建为本领域技术人员常用技术手段,在此不进行赘述。
热量扩散后,如果任意两个标识外接接口的距离较近,就会存在扩散重合区域,即可能存在被两个或者两个以上的标识外接接口进行热量扩散的区域,那么该区域的温度一定是两个标识外接接口的热量扩散结果的融合结果,融合预测网络层就是用于对热量扩散网络层输出的各个标识外接接口输出的热量扩散结果进行融合,即对受到多个标识外接接口影响的区域进行温度融合。融合预测网络层均通过现有技术中的机器学习模型构建,比如神经网络模型,具体来说,可通过采集标识外接接口的历史融合温度记录进行融合预测网络层的训练,历史融合温度记录包括同一区域对应的两个接口的历史扩散温度组合以及最终的历史融合温度。机器模型的训练构建为本领域技术人员常用技术手段,在此不进行赘述。由此为服务器异常预警提供模型支持,便于提升对各个标识外接接口的温度监测准确性,进而保证服务器的温度异常预警准确性。
利用所述温度场监测模块对所述标识外接接口进行实时监测,获取温度场监测数据集。
在一个优选实施例中,还包括:
利用所述温度场监测模块对所述标识外接接口进行实时监测,获取各个外接接口的温度监测数据;所述空间坐标转化层按照所述标识外接接口的空间分布位置对所述外接接口进行空间坐标转化,获取所述标识外接接口中各个外接接口的空间坐标,输出空间坐标集合;按照所述空间坐标集合对应接入所述各个外接接口的温度监测数据,生成温度场监测数据集。
利用所述温度场监测模块对所述标识外接接口进行实时监测,获取温度场监测数据集,温度场监测数据集包括不同位置,即映射在空间坐标下的温度数据,具体获取方法如下:
利用所述温度场监测模块中的温度传感器对所述标识外接接口进行实时监测,提取设置于各个外接接口的温度传感器输出的温度传感数据作为各个外接接口的温度监测数据。所述温度场监测模块还包括空间坐标转化层,所述空间坐标转化层按照所述标识外接接口的空间分布位置对所述外接接口进行空间坐标转化,就是为标识外接接口中各个外接接口分配一个唯一的空间坐标,以各个外接接口分别对应的空间坐标组成空间坐标集合。
具体来说,首先可确定一个固定的基准坐标系,这个基准坐标系可以是以服务器上的任一点作为原点构建的空间坐标系,由本领域专业技术人员结合实际确定,对此不做限制。进一步采集所述标识外接接口的空间分布位置,空间分布位置为标识外接接口中各个外接接口在服务器上的位置,将其映射至基准坐标系中,确定每个外接接口在基准坐标系中的空间坐标,由此将标识外接接口中各个外接接口的空间坐标集合输出。
按照所述空间坐标集合对应接入所述各个外接接口的温度监测数据,简单来说,就是建立各个外接接口的空间坐标与温度监测数据的映射关系,得到各个外接接口对应的空间坐标处的温度数据作为温度场监测数据集。由此实现外接接口温度监测数据的空间位置的可视化,便于后续进行温度扩散分析。
将所述温度场监测数据集输入所述温度联合预测模块中,输出第一预测温度。
将所述温度场监测数据集输入所述温度联合预测模块中,所述温度联合预测模块包括热量扩散网络层和融合预测网络层,首先通过热量扩散网络层对所述温度场监测数据集进行热量扩散分析,得到所述标识外接接口中各个标识接口的热量扩散指标,然后通过融合预测网络层对进行各个标识接口的热量扩散指标进行融合分析,各个标识接口下的不同扩散区域的预测温度,提取最大预测温度作为第一预测温度,具体实现过程如下详述。
在一个优选实施例中,还包括:
将所述温度场监测数据集输入所述温度联合预测模块,根据所述热量扩散网络层对每个标识接口的温度监测数据进行扩散预测,得到每个标识接口的热量扩散指标;将所述热量扩散指标输入所述融合预测网络层中进行重合域温度融合预测,输出所有重合域的预测温度集;从所述预测温度集中筛选第一预测温度,其中,所述第一预测温度为所述预测温度集中温度最大的温度。
在一个优选实施例中,还包括:
设置各个外接接口的扩散半径;其中,所述扩散半径通过第一约束条件获取,所述第一约束条件为基于所述扩散半径的边缘条件下,扩散域内任一空间点的温度均大于预设温度;由每个外接接口的扩散半径所对应的空间域,生成每个外接接口的扩散域。
在一个优选实施例中,还包括:
确定重合域的方法包括对所述标识外接接口中各个外接接口的扩散域进行分析,若至少两个外接接口的扩散域存在重合,将重合的部分作为重合域。
在一个优选实施例中,还包括:
获取N个重合域,N为重合域的数量;获取所述N个重合域对应的N组热量扩散指标,每个重合域对应一组热量扩散指标,每组的热量扩散指标个数至少为2;对每组热量扩散指标进行指标融合,得到基于所述N个重合域对应的N个预测温度,将所述N个预测温度作为所述预测温度集输出。
具体而言,将所述温度场监测数据集输入所述温度联合预测模块,根据所述热量扩散网络层对每个标识接口的温度监测数据进行扩散预测,得到每个标识接口的热量扩散指标,其中,热量扩散指标是指以每个标识接口为中心,温度向四周扩散的区域以及扩散到周围区域的温度,可通过所述热量扩散网络层预测输出,即每个标识接口的热量扩散指标包括对应扩散区域和扩散后的温度。
进一步将所述热量扩散指标输入所述融合预测网络层中进行重合域温度融合预测,输出所有重合域的预测温度集,就是对两个或两个以上的标识接口的重合扩散区域的扩散温度进行融合,重合域则是指不同的标识接口对应的重合的扩散区域。
具体地,首先设置各个外接接口的扩散半径,其中,所述扩散半径通过第一约束条件获取,所述第一约束条件为基于所述扩散半径的边缘条件下,扩散域内任一空间点的温度均大于预设温度,其中,预设温度由本领域专业技术人员结合实际经验设定,其为服务器正常工作允许存在的温度,需结合服务器的类型确定。就是说,前述根据所述热量扩散网络层得到每个标识接口的热量扩散指标,每个标识接口的热量扩散指标包括对应扩散区域和扩散后的温度,基于此,对于扩散后的温度与预设温度进行比较,在扩散区域中将扩散后的温度大于预设温度的空间点至标识接口的距离作为各个外接接口的扩散半径。进而以每个外接接口为中心,基于每个外接接口的扩散半径进行圆形区域绘制,得到每个外接接口对应的空间域,以此作为每个外接接口的扩散域。由此通过对各个外接接口的温度扩散区域分析,筛除温度较低区域,降低数据分析量,提升效率。
进一步地,对每个外接接口的扩散域进行重合分析,前述进行了标识外接接口的空间坐标转化,基于此也可得到每个外接接口的扩散域的坐标集,对各个外接接口的扩散域的坐标集进行重合识别,若至少两个外接接口的扩散域存在重合,即若至少两个外接接口的扩散域的坐标集中存在相同坐标,将重合的部分作为重合域,可以得到多个重合域。便于进行多个外接接口的温度扩散指标的融合分析,提升温度异常预警的准确性。
基于上述分析,可以获取N个重合域,N为重合域的数量,N为大于0的整数。获取所述N个重合域对应的N组热量扩散指标,每个重合域对应一组热量扩散指标重合域是指两个或者两个以上的外接接口的扩散域中重合的部分,因此,每个重合域至少对应两个外接接口,因此,每组的热量扩散指标个数至少为2。前述步骤中,得到了每个标识接口的热量扩散指标,基于此提取N个重合域所对应的外接接口的热量扩散指标,得到N组热量扩散指标。进而对每组热量扩散指标进行指标融合,就是两个扩散温度的融合,可通过融合预测网络层预测分析,输出得到基于所述N个重合域对应的N个预测温度,将所述N个预测温度组合作为所述预测温度集输出。由此实现多个外接接口的温度扩散指标的融合分析,提升温度预测准确性,进而提升异常预警的准确性。
最后,从所述预测温度集中筛选第一预测温度,其中,所述第一预测温度为所述预测温度集中温度最大的温度。
在一个优选实施例中,还包括:
获取所述外接接口中的外接接口连接对象以及外接接口传输通道;根据所述外接接口连接对象以及外接接口传输通道进行负载评估,得到各个外接接口的负载指标;根据所述各个外接接口的负载指标,获取各个外接接口的温度影响系数;在进行重合域温度融合预测时,利用各个外接接口的温度影响系数进行调用反馈优化。
具体而言,外接接口连接对象是指通过外接接口与服务器连接的设备,可连接服务器的管理界面读取。外接接口传输通道则是指外接接口用于进行数据或者消息传输的网络通道,可通过现有技术获取。根据所述外接接口连接对象以及外接接口传输通道进行负载评估,得到各个外接接口的负载指标,负载指标可以理解为外接接口进行数据处理、传输或存储的能力,具体来说,对所述外接接口连接对象以及外接接口传输通道,采集带宽使用率、数据传输速率或者延迟等数据作为各个外接接口的负载指标。就是说,带宽使用率、数据传输速率、延迟等数据可以体现外接接口的进行数据处理、传输或存储的能力。
根据所述各个外接接口的负载指标,具体来说,可通过现有技术获取各个外接接口对应的多组历史负载指标,并采集多组历史负载指标所对应的多组历史接口温度,基于现有技术中对多组历史接口温度和所述多组历史负载指标进行统计分析,获取接口温度与负载指标之间的相关性关系,例如,某一数值的带宽使用率导致的温度变化程度,进而基于所述各个外接接口的负载指标进行温度影响匹配分析,得到各个外接接口的负载指标导致的温度变化程度,作为各个外接接口的温度影响系数。进一步地,在进行重合域温度融合预测时,利用各个外接接口的温度影响系数进行调用反馈优化,就是以各个外接接口的温度影响系数对获得的每个标识接口的热量扩散指标进行反馈补偿,以补偿后的热量扩散指标进行重合域温度融合预测,提升温度预测的准确性,进而提升异常预警准确性,保证服务器的安全运行。
若所述第一预测温度大于预设预测温度,生成第一预警信号,将所述第一预警信号发送至上位机进行预警提醒。
预设预测温度由本领域专业技术人员结合实际经验设定,其是指对服务器运行没有影响的最大临界温度值。若所述第一预测温度大于预设预测温度,说明服务器的外接接口温度异常,此时,生成第一预警信号,第一预警信号可以是声光电或者文字等任意形式,将所述第一预警信号发送至上位机进行预警提醒,上位机可以理解为对服务器进行管理的监控中心,便于及时提醒工作人员服务器温度异常,及时进行维护。
基于上述分析可知,本申请提供的一个或多个技术方案,其可达到的有益效果如下:
获取服务器的外接接口配置信息,外接接口配置信息包括外接接口配置数量,根据外接接口配置信息确定各个外接接口的连接状态,其中,连接状态包括连接状态和未连接状态,根据各个外接接口的连接状态,获取处于连接状态的标识外接接口,针对标识外接接口建立温度异常联合监测模块,其中,温度异常联合监测模块包括温度场监测模块和温度联合预测模块,温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取,利用温度场监测模块对标识外接接口进行实时监测,获取温度场监测数据集,将温度场监测数据集输入温度联合预测模块中,输出第一预测温度,若第一预测温度大于预设预测温度,生成第一预警信号,将第一预警信号发送至上位机进行预警提醒。由此通过对服务器中处于连接状态的多个外接接口进行温度监测后的温度扩散融合分析,从而进行温度异常预警,达到提升异常温度识别准确性,进而提升异常预警的准确性,保证服务器安全运行的技术效果。
实施例二
基于与前述实施例中一种服务器异常监测方法同样的发明构思,如图2所示,本申请还提供了一种服务器异常监测系统,所述系统包括:
接口配置信息获取单元11,所述接口配置信息获取单元11用于获取服务器的外接接口配置信息,所述外接接口配置信息包括外接接口配置数量。
连接状态确定单元12,所述连接状态确定单元12用于根据所述外接接口配置信息确定各个外接接口的连接状态,其中,所述连接状态包括连接状态和未连接状态。
标识外接接口获取单元13,所述标识外接接口获取单元13用于根据各个外接接口的连接状态,获取处于连接状态的标识外接接口。
模型建立单元14,所述模型建立单元14用于针对所述标识外接接口建立温度异常联合监测模块,其中,所述温度异常联合监测模块包括温度场监测模块和温度联合预测模块,所述温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取。
实时监测单元15,所述实时监测单元15用于利用所述温度场监测模块对所述标识外接接口进行实时监测,获取温度场监测数据集。
温度预测单元16,所述温度预测单元16用于将所述温度场监测数据集输入所述温度联合预测模块中,输出第一预测温度。
预警提醒单元17,所述预警提醒单元17用于若所述第一预测温度大于预设预测温度,生成第一预警信号,将所述第一预警信号发送至上位机进行预警提醒。
进一步而言,所述实时监测单元15还包括:
利用所述温度场监测模块对所述标识外接接口进行实时监测,获取各个外接接口的温度监测数据。
所述空间坐标转化层按照所述标识外接接口的空间分布位置对所述外接接口进行空间坐标转化,获取所述标识外接接口中各个外接接口的空间坐标,输出空间坐标集合。
按照所述空间坐标集合对应接入所述各个外接接口的温度监测数据,生成温度场监测数据集。
进一步而言,所述温度预测单元16还包括:
将所述温度场监测数据集输入所述温度联合预测模块,根据所述热量扩散网络层对每个标识接口的温度监测数据进行扩散预测,得到每个标识接口的热量扩散指标。
将所述热量扩散指标输入所述融合预测网络层中进行重合域温度融合预测,输出所有重合域的预测温度集。
从所述预测温度集中筛选第一预测温度,其中,所述第一预测温度为所述预测温度集中温度最大的温度。
进一步而言,所述温度预测单元16还包括:
设置各个外接接口的扩散半径。
其中,所述扩散半径通过第一约束条件获取,所述第一约束条件为基于所述扩散半径的边缘条件下,扩散域内任一空间点的温度均大于预设温度。
由每个外接接口的扩散半径所对应的空间域,生成每个外接接口的扩散域。
进一步而言,所述温度预测单元16还包括:
确定重合域的方法包括对所述标识外接接口中各个外接接口的扩散域进行分析,若至少两个外接接口的扩散域存在重合,将重合的部分作为重合域。
进一步而言,所述温度预测单元16还包括:
获取N个重合域,N为重合域的数量。
获取所述N个重合域对应的N组热量扩散指标,每个重合域对应一组热量扩散指标,每组的热量扩散指标个数至少为2。
对每组热量扩散指标进行指标融合,得到基于所述N个重合域对应的N个预测温度,将所述N个预测温度作为所述预测温度集输出。
进一步而言,所述温度预测单元16还包括:
获取所述外接接口中的外接接口连接对象以及外接接口传输通道。
根据所述外接接口连接对象以及外接接口传输通道进行负载评估,得到各个外接接口的负载指标。
根据所述各个外接接口的负载指标,获取各个外接接口的温度影响系数。
在进行重合域温度融合预测时,利用各个外接接口的温度影响系数进行调用反馈优化。
前述实施例一中的一种服务器异常监测方法具体实例同样适用于本实施例的一种服务器异常监测系统,通过前述对一种服务器异常监测方法的详细描述,本领域技术人员可以清楚地知道本实施例中一种服务器异常监测系统,所以为了说明书的简洁,在此不再详述。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (8)

1.一种服务器异常监测方法,其特征在于,所述方法包括:
获取服务器的外接接口配置信息,所述外接接口配置信息包括外接接口配置数量;
根据所述外接接口配置信息确定各个外接接口的连接状态,其中,所述连接状态包括连接状态和未连接状态;
根据各个外接接口的连接状态,获取处于连接状态的标识外接接口;
针对所述标识外接接口建立温度异常联合监测模块,其中,所述温度异常联合监测模块包括温度场监测模块和温度联合预测模块,所述温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取;
利用所述温度场监测模块对所述标识外接接口进行实时监测,获取温度场监测数据集;
将所述温度场监测数据集输入所述温度联合预测模块中,输出第一预测温度;
若所述第一预测温度大于预设预测温度,生成第一预警信号,将所述第一预警信号发送至上位机进行预警提醒。
2.如权利要求1所述的方法,其特征在于,利用所述温度场监测模块对所述标识外接接口进行实时监测,所述温度场监测模块包括空间坐标转化层,包括:
利用所述温度场监测模块对所述标识外接接口进行实时监测,获取各个外接接口的温度监测数据;
所述空间坐标转化层按照所述标识外接接口的空间分布位置对所述外接接口进行空间坐标转化,获取所述标识外接接口中各个外接接口的空间坐标,输出空间坐标集合;
按照所述空间坐标集合对应接入所述各个外接接口的温度监测数据,生成温度场监测数据集。
3.如权利要求2所述的方法,其特征在于,将所述温度场监测数据集输入所述温度联合预测模块中,方法包括:
将所述温度场监测数据集输入所述温度联合预测模块,根据所述热量扩散网络层对每个标识接口的温度监测数据进行扩散预测,得到每个标识接口的热量扩散指标;
将所述热量扩散指标输入所述融合预测网络层中进行重合域温度融合预测,输出所有重合域的预测温度集;
从所述预测温度集中筛选第一预测温度,其中,所述第一预测温度为所述预测温度集中温度最大的温度。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
设置各个外接接口的扩散半径;
其中,所述扩散半径通过第一约束条件获取,所述第一约束条件为基于所述扩散半径的边缘条件下,扩散域内任一空间点的温度均大于预设温度;
由每个外接接口的扩散半径所对应的空间域,生成每个外接接口的扩散域。
5.如权利要求4所述的方法,其特征在于,确定重合域的方法包括对所述标识外接接口中各个外接接口的扩散域进行分析,若至少两个外接接口的扩散域存在重合,将重合的部分作为重合域。
6.如权利要求3所述的方法,其特征在于,将所述热量扩散指标输入所述融合预测网络层中进行重合域温度融合预测,包括:
获取N个重合域,N为重合域的数量;
获取所述N个重合域对应的N组热量扩散指标,每个重合域对应一组热量扩散指标,每组的热量扩散指标个数至少为2;
对每组热量扩散指标进行指标融合,得到基于所述N个重合域对应的N个预测温度,将所述N个预测温度作为所述预测温度集输出。
7.如权利要求3所述的方法,其特征在于,将所述热量扩散指标输入所述融合预测网络层中进行重合域温度融合预测,方法还包括:
获取所述外接接口中的外接接口连接对象以及外接接口传输通道;
根据所述外接接口连接对象以及外接接口传输通道进行负载评估,得到各个外接接口的负载指标;
根据所述各个外接接口的负载指标,获取各个外接接口的温度影响系数;
在进行重合域温度融合预测时,利用各个外接接口的温度影响系数进行调用反馈优化。
8.一种服务器异常监测系统,其特征在于,所述系统包括:
接口配置信息获取单元,所述接口配置信息获取单元用于获取服务器的外接接口配置信息,所述外接接口配置信息包括外接接口配置数量;
连接状态确定单元,所述连接状态确定单元用于根据所述外接接口配置信息确定各个外接接口的连接状态,其中,所述连接状态包括连接状态和未连接状态;
标识外接接口获取单元,所述标识外接接口获取单元用于根据各个外接接口的连接状态,获取处于连接状态的标识外接接口;
模型建立单元,所述模型建立单元用于针对所述标识外接接口建立温度异常联合监测模块,其中,所述温度异常联合监测模块包括温度场监测模块和温度联合预测模块,所述温度联合预测模块通过热量扩散网络层以及融合预测网络层训练获取;
实时监测单元,所述实时监测单元用于利用所述温度场监测模块对所述标识外接接口进行实时监测,获取温度场监测数据集;
温度预测单元,所述温度预测单元用于将所述温度场监测数据集输入所述温度联合预测模块中,输出第一预测温度;
预警提醒单元,所述预警提醒单元用于若所述第一预测温度大于预设预测温度,生成第一预警信号,将所述第一预警信号发送至上位机进行预警提醒。
CN202410217519.9A 2024-02-28 2024-02-28 一种服务器异常监测方法及系统 Active CN117806912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410217519.9A CN117806912B (zh) 2024-02-28 2024-02-28 一种服务器异常监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410217519.9A CN117806912B (zh) 2024-02-28 2024-02-28 一种服务器异常监测方法及系统

Publications (2)

Publication Number Publication Date
CN117806912A true CN117806912A (zh) 2024-04-02
CN117806912B CN117806912B (zh) 2024-05-14

Family

ID=90423606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410217519.9A Active CN117806912B (zh) 2024-02-28 2024-02-28 一种服务器异常监测方法及系统

Country Status (1)

Country Link
CN (1) CN117806912B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN112085930A (zh) * 2020-09-14 2020-12-15 武汉瑞莱保能源技术有限公司 一种发电机组智能监测预警系统及方法
CN113849052A (zh) * 2021-08-20 2021-12-28 广州云硕科技发展有限公司 基于人工智能的机房温度预测方法及系统
CN114491943A (zh) * 2021-12-23 2022-05-13 北京达佳互联信息技术有限公司 信息处理方法、温度预测模型训练方法、装置及电子设备
WO2022099819A1 (zh) * 2020-11-11 2022-05-19 北京泽石科技有限公司 存储设备的监测方法及装置
CN115833400A (zh) * 2023-02-07 2023-03-21 山东盛日电力集团有限公司 一种变电站电力设备的监测预警方法及系统
CN116069079A (zh) * 2023-04-06 2023-05-05 山东海冠电气有限公司 一种智能开关柜的散热智能控制方法及系统
CN116164843A (zh) * 2022-11-25 2023-05-26 大唐珲春发电厂 一种基于物联网的电缆监测预警方法及系统
CN116627770A (zh) * 2023-07-18 2023-08-22 苏州浪潮智能科技有限公司 网卡温度预测方法、装置、计算机设备及存储介质
CN116820820A (zh) * 2023-06-28 2023-09-29 苏州浪潮智能科技有限公司 服务器故障监测方法及系统
CN116860551A (zh) * 2023-06-30 2023-10-10 鹏城实验室 服务器的异常监测方法、装置、设备及存储介质
US20230377067A1 (en) * 2022-05-23 2023-11-23 Chengdu Puhuidao Smart Energy Technology Co., Ltd. Methods for monitoring distributed energy storage safety and internet of things systems thereof
CN117234301A (zh) * 2023-07-30 2023-12-15 四川华鲲振宇智能科技有限责任公司 一种基于人工智能的服务器热管理方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491305A (zh) * 2018-03-09 2018-09-04 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN112085930A (zh) * 2020-09-14 2020-12-15 武汉瑞莱保能源技术有限公司 一种发电机组智能监测预警系统及方法
WO2022099819A1 (zh) * 2020-11-11 2022-05-19 北京泽石科技有限公司 存储设备的监测方法及装置
CN113849052A (zh) * 2021-08-20 2021-12-28 广州云硕科技发展有限公司 基于人工智能的机房温度预测方法及系统
CN114491943A (zh) * 2021-12-23 2022-05-13 北京达佳互联信息技术有限公司 信息处理方法、温度预测模型训练方法、装置及电子设备
US20230377067A1 (en) * 2022-05-23 2023-11-23 Chengdu Puhuidao Smart Energy Technology Co., Ltd. Methods for monitoring distributed energy storage safety and internet of things systems thereof
CN116164843A (zh) * 2022-11-25 2023-05-26 大唐珲春发电厂 一种基于物联网的电缆监测预警方法及系统
CN115833400A (zh) * 2023-02-07 2023-03-21 山东盛日电力集团有限公司 一种变电站电力设备的监测预警方法及系统
CN116069079A (zh) * 2023-04-06 2023-05-05 山东海冠电气有限公司 一种智能开关柜的散热智能控制方法及系统
CN116820820A (zh) * 2023-06-28 2023-09-29 苏州浪潮智能科技有限公司 服务器故障监测方法及系统
CN116860551A (zh) * 2023-06-30 2023-10-10 鹏城实验室 服务器的异常监测方法、装置、设备及存储介质
CN116627770A (zh) * 2023-07-18 2023-08-22 苏州浪潮智能科技有限公司 网卡温度预测方法、装置、计算机设备及存储介质
CN117234301A (zh) * 2023-07-30 2023-12-15 四川华鲲振宇智能科技有限责任公司 一种基于人工智能的服务器热管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SETYAWAN N等: "Jaya-Neural Network for Server Room Temperature Forecasting Through Sensor Network", 《2019 INTERNATIONAL ELECTRONICS SYMPOSIUM (IES)》, 18 November 2019 (2019-11-18), pages 428 - 431 *
徐一轩;伍卫国;王思敏;胡壮;崔舜;: "基于长短期记忆网络(LSTM)的数据中心温度预测算法", 计算机技术与发展, no. 12, 31 December 2019 (2019-12-31), pages 7 - 13 *

Also Published As

Publication number Publication date
CN117806912B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN103246265B (zh) 机电设备检测维护方法
CN105574593B (zh) 基于云计算和大数据的轨道状态静态检控系统及方法
CN116932523B (zh) 一种整合和监管第三方环境检测机构的平台
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN114325405A (zh) 电池组一致性分析方法、建模方法、装置、设备及介质
CN117743909A (zh) 一种基于人工智能的供热系统故障分析方法及装置
CN117436846B (zh) 基于神经网络的设备预测性维护方法及系统
CN117806912B (zh) 一种服务器异常监测方法及系统
CN116705163B (zh) 一种实时荧光pcr数据管理系统
CN116756505B (zh) 一种基于大数据的光伏设备智能管理系统及方法
CN114429256A (zh) 数据监测方法、装置、电子设备及存储介质
CN106503240A (zh) 一种电力设备图像分析数据库构建方法及装置
CA2793952C (en) Extracting data related to clinical diagnostic instruments
CN115097070A (zh) 一种实验室智能一体化管理系统及方法
CN115187086A (zh) 一种应急管理智能化管控系统
KR20200002433A (ko) 빅데이터 분석을 이용한 통계적 품질 관리 시스템
CN114189506A (zh) 一种设备巡检方法、装置及系统
CN103580933B (zh) 环境在线分析仪的故障点识别方法及系统
CN113839956A (zh) 数据安全评估方法、装置、设备及存储介质
CN111865699A (zh) 故障识别方法、装置、计算设备和介质
CN104468699A (zh) 电力系统信息状态服务系统及核心交换机
CN117172139B (zh) 通信用铜包铝合金电缆的性能测试方法及系统
CN115809950B (zh) 一种机房运维管理平台及管理办法
CN116773238B (zh) 一种基于工业数据的故障监测方法及系统
CN110519314A (zh) 基于大数据技术的航空运营数据采集系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant