CN112988545B - 一种基于深度学习的vpx设备健康控制方法及系统 - Google Patents

一种基于深度学习的vpx设备健康控制方法及系统 Download PDF

Info

Publication number
CN112988545B
CN112988545B CN202110422705.2A CN202110422705A CN112988545B CN 112988545 B CN112988545 B CN 112988545B CN 202110422705 A CN202110422705 A CN 202110422705A CN 112988545 B CN112988545 B CN 112988545B
Authority
CN
China
Prior art keywords
board card
service
value
module
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110422705.2A
Other languages
English (en)
Other versions
CN112988545A (zh
Inventor
洪琳琅
田海山
王树
谭德辉
谢启友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Bojiang Information Technology Co Ltd
Original Assignee
Hunan Bojiang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Bojiang Information Technology Co Ltd filed Critical Hunan Bojiang Information Technology Co Ltd
Priority to CN202110422705.2A priority Critical patent/CN112988545B/zh
Publication of CN112988545A publication Critical patent/CN112988545A/zh
Application granted granted Critical
Publication of CN112988545B publication Critical patent/CN112988545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Abstract

本发明公开了一种基于深度学习的VPX设备健康控制方法及系统,所述方法包括:通过上位机建立健康信息‑工作状态映射模型;获取通过IPMC模块、CHMC模块和控制板卡采集的业务板卡的训练数据库,其中,所述训练数据库包括所述业务板卡的健康信息和对应的状态信息;本发明提出的一种基于深度学习的VPX设备健康控制方法,通过建立健康信息‑工作状态映射模型,然后对模型进训练;训练完成后的模型,能够反映业务板卡工作时其健康信息与运行状态的对应关系;将业务板卡的实时健康信息输入模型,即可获取业务板卡的实时运行状态,不再需要人工依据经验判断VPX板卡的工作状态,且判断效率和准确率更高。

Description

一种基于深度学习的VPX设备健康控制方法及系统
技术领域
本发明涉及VPX设备控制技术领域,具体涉及一种基于深度学习的VPX设备健康控制方法及系统。
背景技术
VPX是由VITA组织提出的新一代高速串行总线标准,它的特点是支持更高的背板带宽,支持Rapid IO、万兆以太网等高速数据交换,因此得到了广泛的应用。VPX系统即是主要由VPX板卡组成的应用于不同实际需求的计算平台系统,广泛应用于自动化控制、通信、航天和物联网等领域。
现有技术中,通过人工依据经验判断VPX板卡的工作状态,效率低下,且准确率低。
发明内容
本发明的主要目的是提供一种基于深度学习的VPX设备健康控制方法及系统,旨在解决现有技术中,通过人工依据经验判断VPX板卡的工作状态,效率低下,且准确率低的问题。
本发明提出的技术方案为:
本发明提出一种基于深度学习的VPX设备健康控制方法,包括如下步骤:
通过上位机建立健康信息-工作状态映射模型;
获取通过IPMC模块、CHMC模块和控制板卡采集的业务板卡的训练数据库,其中,所述训练数据库包括所述业务板卡的健康信息和对应的状态信息,所述状态信息包括运行正常和运行异常中的任一项;
将所述健康信息作为所述模型的训练输入变量,将对应的所述状态信息作为所述模型的训练输出变量,采用BP神经网络对所述模型进行训练;
获取通过所述IPMC模块采集的所述业务板卡的实时健康信息;
将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息;
根据所述实时状态信息对所述业务板卡进行运行控制。
优选的,所述获取通过IPMC模块、CHMC模块和控制板卡采集的业务板卡的训练数据库,包括:
获取通过所述IPMC模块采集的所述业务板卡的所述健康信息;
将所述健康信息通过所述CHMC模块和所述控制板卡发送至所述上位机;
获取所述业务板卡的所述状态信息;
将所述状态信息通过所述CHMC模块和所述控制板卡发送至所述上位机。
优选的,所述业务板卡包括业务芯片;所述获取所述业务板卡的所述状态信息,包括:
通过所述业务芯片运行检测程序,每隔第一预设时间段生成所述业务芯片的实际功率值;
通过所述IPMC模块获取所述实际功率值;
通过所述CHMC模块将所述实际功率值发送至所述控制板卡;
判断所述控制板卡是否接收到了所述实际功率值;
若是,生成所述状态信息并发送至所述上位机,且所述状态信息为运行正常;
若否,生成所述状态信息并发送至所述上位机,且所述状态信息为运行异常。
优选的,所述判断所述控制板卡是否接收到了所述实际功率值,之后还包括:
若是,判断所述实际功率值是否大于预设功率值;
若大于,执行所述生成所述状态信息并发送至所述上位机,且所述状态信息为运行异常的步骤。
优选的,所述实时健康信息包括板卡电流值、板卡电压值和板卡温度值;所述获取通过所述IPMC模块采集的所述业务板卡的所述实时健康信息,之后还包括:
获取所述业务板卡正常工作时的正常电压区间;
判断所述板卡电压值是否大于第一预设值,或小于第二预设值,其中,所述第一预设值大于所述第二预设值,且所述第一预设值大于所述正常电压区间的上限值,所述第二预设值小于所述正常电压区间的下限值;
若是,将所述板卡电压值重新赋值为所述正常电压区间的平均值,并执行所述将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息的步骤。
优选的,所述判断所述板卡电压值是否大于第一预设值,或小于第二预设值,之后还包括:
若是,将所述板卡电压值标记为异常电压值;
获取所述业务板卡的与所述异常电压值同一时刻的电源电压值;
判断所述电源电压值是否大于所述第一预设值,或小于所述第二预设值;
若是,执行所述将所述板卡电压值重新赋值为所述正常电压区间的平均值的步骤;
若否,执行所述将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息的步骤。
优选的,所述业务板卡还包括存储模块;所述获取通过所述IPMC模块采集的所述业务板卡的所述实时健康信息,还包括:
通过所述上位机获取板卡工作信息,其中,板卡工作信息用于表述所述业务板卡运行时的业务侧重方向;
分析所述板卡工作信息,以判断所述业务板卡运行时更加侧重于存储型业务或计算型业务;
若更加侧重于存储型业务,获取通过所述IPMC模块采集的所述业务板卡的所述存储模块的温度值,并作为所述板卡温度值;
若更加侧重于计算型业务,获取通过所述IPMC模块采集的所述业务板卡的所述业务芯片的温度值,并作为所述板卡温度值。
优选的,所述通过所述上位机获取板卡工作信息,包括:
获取通过所述IPMC模块采集的所述业务板卡的所述存储模块的历史温度信息;
获取通过所述IPMC模块采集的所述业务板卡的所述业务芯片的历史温度信息;
分析所述存储模块的历史温度信息,以得到所述存储模块的过去第二预设时间段内的平均温度值,并标记为第一平均值;
分析所述业务芯片的历史温度信息,以得到所述业务芯片的过去第二预设时间段内的平均温度值,并标记为第二平均值;
将所述第一平均值和所述第二平均值进行比对;
当所述第一平均值大于所述第二平均值时,生成所述板卡工作信息,且所述板卡工作信息表述为所述所述业务板卡运行时更加侧重于存储型业务;
当所述第一平均值小于所述第二平均值时,生成所述板卡工作信息,且所述板卡工作信息表述为所述所述业务板卡运行时更加侧重于计算型业务。
优选的,所述根据所述实时状态信息对所述业务板卡进行运行控制,包括:
判断所述对应的实时状态信息是否为运行异常;
若是,通过所述CHMC模块和所述IPMC模块控制所述业务板卡断电。
本发明还提出一种基于深度学习的VPX设备健康控制系统,应用如上述中任一项所述的基于深度学习的VPX设备健康控制方法;所述基于深度学习的VPX设备健康控制系统包括VPX板卡、IPMC模块、CHMC模块和上位机;所述VPX板卡包括控制板卡和业务板卡;所述IPMC模块设置于所述业务板卡;所述IPMC模块通信连接于所述CHMC模块;所述CHMC模块通信连接于所述控制板卡;所述控制板卡通信连接于所述上位机。
通过上述技术方案,能实现以下有益效果:
本发明提出的一种基于深度学习的VPX设备健康控制方法,通过建立健康信息-工作状态映射模型,然后对模型进训练;训练完成后的模型,能够反映业务板卡工作时其健康信息(业务板卡的工作电压)与运行状态的对应关系;然后在业务板卡的实际运行过程中,将业务板卡的实时健康信息输入模型,即可获取业务板卡的实时运行状态,该实时运行状态即是业务板卡的工作状态,不再需要人工依据经验判断VPX板卡的工作状态,且判断效率和准确率更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明提出的一种基于深度学习的VPX设备健康控制方法第一实施例的流程图;
图2为本发明提出的一种基于深度学习的VPX设备健康控制系统一实施例的结构图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出一种基于深度学习的VPX设备健康控制方法及系统。
如附图1所示,在本发明提出的一种基于深度学习的VPX设备健康控制方法的第一实施例中,本实施例,包括如下步骤:
步骤S110:通过上位机建立健康信息-工作状态映射模型。
步骤S120:获取通过IPMC模块、CHMC模块和控制板卡采集的业务板卡的训练数据库,其中,所述训练数据库包括所述业务板卡的健康信息和对应的状态信息,所述状态信息包括运行正常和运行异常中的任一项。
具体的,上位机获取通过IPMC模块、CHMC模块和控制板卡采集的业务板卡的训练数据库,其中,所述训练数据库包括所述业务板卡的健康信息和对应的状态信息,所述状态信息包括运行正常和运行异常中的任一项。
IPMC模块连接于业务板卡,这里的IPMC模块为智能平台管理控制器模块(Intelligent Platform ManagementController),用于对业务板卡的单板、电源、风扇、温度传感器、电压传感器和电流传感器等单元进行智能调节和管理。
这里的CHMC模块连接于控制板卡,控制板卡通信连接于上位机;且IPMC模块连接于CHMC模块,CHMC模块为机架管理控制器模块(Chassis Management Controller),其功能包括:管理整个机架平台的机架管理功能。
步骤S130:将所述健康信息作为所述模型的训练输入变量,将对应的所述状态信息作为所述模型的训练输出变量,采用BP神经网络对所述模型进行训练。
具体的,上位机将所述健康信息作为所述模型的训练输入变量,将对应的所述状态信息作为所述模型的训练输出变量,采用BP神经网络对所述模型进行训练。
步骤S140:获取通过所述IPMC模块采集的所述业务板卡的实时健康信息。
具体的,上位机获取通过所述IPMC模块采集的所述业务板卡的实时健康信息。
步骤S150:将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息。
具体的,上位机将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息。
步骤S160:根据所述实时状态信息对所述业务板卡进行运行控制。
具体的,上位机根据所述实时状态信息对所述业务板卡进行运行控制。
本发明提出的一种基于深度学习的VPX设备健康控制方法,通过建立健康信息-工作状态映射模型,然后对模型进训练;训练完成后的模型,能够反映业务板卡工作时其健康信息(例如,业务板卡的工作电压)与运行状态的对应关系;然后在业务板卡的实际运行过程中,将业务板卡的实时健康信息输入模型,即可获取业务板卡的实时运行状态,该实时运行状态即是业务板卡的工作状态,不再需要人工依据经验判断VPX板卡的工作状态,且判断效率和准确率更高。
具体的,IPMC模块可以为多个,每个IPMC模块分别连接至少一个业务板卡,每个所述业务板卡内包括存储模块和存储芯片,以执行对应的业务工作。当存在多个业务板卡时,获取通过所述IPMC模块采集的各个所述业务板卡的实时健康信息,所述实时健康信息中附加有对应业务板卡的ID编码,将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息,其中,所述实时状态信息中也附加有对应业务板卡的ID编码,从而,可以根据所述实时状态信息对所述ID编码对应的所述业务板卡进行运行控制,因此,本发明的技术方案可以针对每个业务板卡的状态信息对各个业务板卡实现针对性的运行控制操作。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第二实施例中,基于第一实施例,步骤S120,包括如下步骤:
步骤S210:获取通过所述IPMC模块采集的所述业务板卡的所述健康信息。
具体的,CHMC模块获取通过所述IPMC模块采集的所述业务板卡的所述健康信息。
步骤S220:将所述健康信息通过所述CHMC模块和所述控制板卡发送至所述上位机。
具体的,将所述健康信息通过所述CHMC模块和所述控制板卡发送至所述上位机。
步骤S230:获取所述业务板卡的所述状态信息。
具体的,CHMC模块获取所述业务板卡的所述状态信息。
步骤S240:将所述状态信息通过所述CHMC模块和所述控制板卡发送至所述上位机。
具体的,CHMC模块将所述状态信息通过所述CHMC模块和所述控制板卡发送至所述上位机。
本实施例的目的在于,公开了第一实施例的步骤120中,如何具体获取训练数据库的详细步骤。
在本发明提出的的一种基于深度学习的VPX设备健康控制方法的第三实施例中,基于第二实施例,所述业务板卡包括业务芯片(优选为FPGA芯片);步骤S230,包括如下步骤:
步骤S310:通过所述业务芯片运行检测程序,每隔第一预设时间段生成所述业务芯片的实际功率值。
具体的,这里的检测程序为固化于FPGA内的程序,当业务芯片上电后,该程序即一直运行,运行的结果是每隔第一预设时间段(这里的第一预设时间段和上述第一实施例中,健康信息的采集间隔时间一致,优选为1秒)生成该业务芯片的实际功率值。其中,检测程序可以设置一个或多个,当设置多个检测程序时,每个检测程序触发后对应不同的实际功率值。
步骤S320:通过所述IPMC模块获取所述实际功率值。
步骤S330:通过所述CHMC模块将所述实际功率值发送至所述控制板卡。
步骤S340:判断所述控制板卡是否接收到了所述实际功率值。
若是,执行步骤S350:生成所述状态信息并发送至所述上位机,且所述状态信息为运行正常。
具体的,这里的控制板卡若接收到了实际功率值,则说明检测程序被正常运行,从而说明业务芯片正常运行,故生成状态信息,状态信息为运行正常,以表述业务板卡的状态信息是正常运行。
若否,执行步骤S360:生成所述状态信息并发送至所述上位机,且所述状态信息为运行异常。
具体的,这里的控制板卡若未接收到实际功率值,则说明检测程序未被正常运行,从而说明业务芯片的运行出现了异常(如卡顿),故生成状态信息,状态信息为运行异常,以表述业务板卡的状态信息是异常运行。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第四实施例中,基于第三实施例,步骤S340,之后还包括如下步骤:
若是,执行步骤S410:判断所述实际功率值是否大于预设功率值。
具体的,控制板卡判断所述实际功率值是否大于预设功率值(这里的预设功率值为业务芯片正常工作时的功率上限值,例如80瓦)。
若大于,执行步骤S360。
具体的,若实际功率值大于预设功率值,说明业务板卡的业务芯片正常超负荷工作,进而说明业务芯片的运行状态是异常。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第五实施例中,基于第三实施例,所述实时健康信息包括板卡电流值、板卡电压值和板卡温度值;步骤S140,之后还包括如下步骤:
步骤S510:获取所述业务板卡正常工作时的正常电压区间。
具体的,上位机获取所述业务板卡正常工作时的正常电压区间(优选为5V-12V)。
步骤S520:判断所述板卡电压值是否大于第一预设值,或小于第二预设值,其中,所述第一预设值大于所述第二预设值,且所述第一预设值大于所述正常电压区间的上限值,所述第二预设值小于所述正常电压区间的下限值。
具体的,上位机判断所述板卡电压值是否大于第一预设值(优选为15V),或小于第二预设值(优选为1V),其中,所述第一预设值大于所述第二预设值,且所述第一预设值大于所述正常电压区间的上限值,所述第二预设值小于所述正常电压区间的下限值。
若是,执行步骤S530:将所述板卡电压值重新赋值为所述正常电压区间的平均值,并执行步骤S150。
若是,说明板卡电压值的波动已经超出了板卡的正常电压波动,此为外部电压波动而导致的板卡电压波动,和板卡的工作状态没有关系,故将板卡电压值重新赋值为所述正常电压区间的平均值。
将板卡电压值重新赋值为所述正常电压区间的平均值后,模型的输出结果(即业务板卡的实时状态)为运行正常,如此即可防止因外界电压波动而造成的运行状态判断错误。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第六实施例中,基于第五实施例,步骤S520,之后还包括如下步骤:
若是,执行步骤S610:将所述板卡电压值标记为异常电压值。
具体的,若是,说明板卡电压值的波动已经超出了板卡的正常电压波动,但为了进一步判断这里的电压波动是否确实为外界供电电压波动而引起的,需要进一步进行分析判断;故上位机将大于所述第一预设值或小于第二预设值的所述板卡电压值标记为异常电压值。
步骤S620:获取所述业务板卡的与所述异常电压值同一时刻的电源电压值。
具体的,上位机获取所述业务板卡的与所述异常电压值同一时刻的电源电压值。
步骤S630:判断所述电源电压值是否大于所述第一预设值,或小于所述第二预设值。
若是,执行步骤S530。若电源电压值确实大于第一预设值,或确实小于第二预设值,即说明确实是外部供电波动而导致业务板卡的工作电压出现波动。故重新执行步骤S530,将板卡电压值重新赋值为所述正常电压区间的平均值,防止因外界电压波动而造成的运行状态判断错误。
若否,执行步骤S150。
具体的,若不是,则说明虽然业务板卡的板卡电压值超出了正常电压区间,但却不是外部供电电压波动而引起的,故直接执行后续的步骤S150。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第七实施例中,基于第五实施例,所述业务板卡还包括存储模块;步骤S140,还包括如下步骤:
步骤S710:通过所述上位机获取板卡工作信息,其中,板卡工作信息用于表述所述业务板卡运行时的业务侧重方向。
步骤S720:分析所述板卡工作信息,以判断所述业务板卡运行时更加侧重于存储型业务或计算型业务。
具体的,上位机分析所述板卡工作信息,以判断所述业务板卡运行时更加侧重于存储型业务或计算型业务。因业务板卡在实际的应用中,通常有2种主要的应用类型,一种是存储型业务应用,即业务板卡主要用于存储数据,一种是计算型业务应用,即业务板卡主要用于计算。
步骤S730:若业务板卡更加侧重于存储型业务,获取通过所述IPMC模块采集的所述业务板卡的所述存储模块的温度值,并作为所述板卡温度值。
具体的,若更加侧重于存储型业务,说明业务板卡的存储模块为主要工作模块,存储模块的温度更能反应整个业务板卡的运行状态,故将存储模块的温度值作为所述板卡温度值,以输入模型,得到业务板卡的实时状态信息。
步骤S740:若更加侧重于计算型业务,获取通过所述IPMC模块采集的所述业务板卡的所述业务芯片的温度值,并作为所述板卡温度值。
具体的,若业务板卡更加侧重于计算型业务,说明业务板卡的业务芯片为主要工作模块,业务芯片的温度更能反应整个业务板卡的运行状态,故将业务芯片的温度值作为所述板卡温度值,以输入模型,得到业务板卡的实时状态信息。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第八实施例中,基于第七实施例,步骤S710,包括如下步骤:
步骤S810:获取通过所述IPMC模块采集的所述业务板卡的所述存储模块的历史温度信息。
具体的,上位机获取通过所述IPMC模块采集的所述业务板卡的所述存储模块的历史温度信息。
步骤S820:获取通过所述IPMC模块采集的所述业务板卡的所述业务芯片的历史温度信息。
具体的,上位机获取通过所述IPMC模块采集的所述业务板卡的所述业务芯片的历史温度信息。
步骤S830:分析所述存储模块的历史温度信息,以得到所述存储模块的过去第二预设时间段内的平均温度值,并标记为第一平均值。
具体的,上位机分析所述存储模块的历史温度信息,以得到所述存储模块的过去第二预设时间段(例如30天)内的平均温度值,并标记为第一平均值。
步骤S840:分析所述业务芯片的历史温度信息,以得到所述业务芯片的过去第二预设时间段内的平均温度值,并标记为第二平均值。
具体的,上位机分析所述业务芯片的历史温度信息,以得到所述业务芯片的过去第二预设时间段(例如30天)内的平均温度值,并标记为第二平均值。
步骤S850:将所述第一平均值和所述第二平均值进行比对。
具体的,上位机将所述第一平均值和所述第二平均值进行比对。
步骤S860:当所述第一平均值大于所述第二平均值时,生成所述板卡工作信息,且所述板卡工作信息表述为所述所述业务板卡运行时更加侧重于存储型业务。
当所述第一平均值大于所述第二平均值时,,说明存储模块的历史平均温度大于业务芯片的历史平均温度,即说明存储模块工作时的温度要高于业务芯片工作时的温度,即说明业务板卡运行时更加侧重于存储型业务。
步骤S870:当所述第一平均值小于所述第二平均值时,生成所述板卡工作信息,且所述板卡工作信息表述为所述所述业务板卡运行时更加侧重于计算型业务。
当所述第一平均值小于所述第二平均值时,说明存储模块的历史平均温度小于业务芯片的历史平均温度,即说明存储模块工作时的温度要低于业务芯片工作时的温度,即说明业务板卡运行时更加侧重于计算型业务。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第九实施例中,基于上述任一实施例,步骤S160,包括如下步骤:
步骤S910:判断所述对应的实时状态信息是否为运行异常。
若是,执行步骤S920:通过所述CHMC模块和所述IPMC模块控制所述业务板卡断电。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第十实施例中,基于第九实施例,步骤S920,之后还包括如下步骤:
步骤S1010:获取所述业务板卡正常工作时的正常温度区间。
具体的,上位机获取所述业务板卡正常工作时的正常温度区间(例如30-70摄氏度)。
步骤S1020:基于所述正常温度区间,生成降温上限值,其中,所述降温上限值低于所述正常温度区间的上限值。
具体的,上位机基于所述正常温度区间,生成降温上限值(例如45摄氏度),其中,所述降温上限值低于所述正常温度区间的上限值。这里的降温上限值表示为业务板卡因超过了正常温度区间的上限值而断电后,冷却所需要降至的温度值,即业务板卡断电后能够再次启动的温度值指标。
步骤S1030:判断实时采集的所述板卡温度值是否低于所述降温上限值。
若是,执行步骤S1040:通过所述CHMC模块和所述IPMC模块控制所述业务板卡重新上电。
具体的,业务板卡断电后,只有当业务板卡的板卡温度值降至降温上限值后,才能重新上电。
在本发明提出的一种基于深度学习的VPX设备健康控制方法的第十一实施例中,基于上述任一实施例,步骤S140之前,还包括如下步骤:
步骤S1110:通过所述上位机判断所述业务板卡是否已经开机上电。
若是,执行步骤S140。
具体的,即只有业务板卡重新上电后,才能执行步骤S140。
若否,执行步骤S1120:通过上位机远程控制所述业务板卡开机上电。
具体的,若业务板卡没有开机上电,则通过上位机远程控制业务板卡开机上电。
如附图2所示,本发明还提出一种基于深度学习的VPX设备健康控制系统,应用如上述中任一项所述的基于深度学习的VPX设备健康控制方法;所述基于深度学习的VPX设备健康控制系统包括VPX板卡、IPMC模块、CHMC模块和上位机;所述VPX板卡包括控制板卡和业务板卡;所述IPMC模块设置于所述业务板卡;所述IPMC模块通信连接于所述CHMC模块;所述CHMC模块通信连接于所述控制板卡;所述控制板卡通信连接于所述上位机。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种基于深度学习的VPX设备健康控制方法,其特征在于,包括如下步骤:
通过上位机建立健康信息-工作状态映射模型;
获取通过IPMC模块、CHMC模块和控制板卡采集的业务板卡的训练数据库,其中,所述训练数据库包括所述业务板卡的健康信息和对应的状态信息,所述状态信息包括运行正常和运行异常中的任一项;
将所述健康信息作为所述模型的训练输入变量,将对应的所述状态信息作为所述模型的训练输出变量,采用BP神经网络对所述模型进行训练;
获取通过所述IPMC模块采集的所述业务板卡的实时健康信息;
将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息;
根据所述实时状态信息对所述业务板卡进行运行控制;
所述获取通过IPMC模块、CHMC模块和控制板卡采集的业务板卡的训练数据库,包括:
获取通过所述IPMC模块采集的所述业务板卡的所述健康信息;
将所述健康信息通过所述CHMC模块和所述控制板卡发送至所述上位机;
获取所述业务板卡的所述状态信息;
将所述状态信息通过所述CHMC模块和所述控制板卡发送至所述上位机;
所述业务板卡包括业务芯片,业务芯片为FPGA芯片;所述获取所述业务板卡的所述状态信息,包括:
通过所述业务芯片运行检测程序,每隔第一预设时间段生成所述业务芯片的实际功率值,其中,检测程序为固化于FPGA内的程序,当业务芯片上电后,该程序即一直运行,运行的结果是每隔第一预设时间段生成该业务芯片的实际功率值,第一预设时间段和上述健康信息的采集间隔时间一致;
通过所述IPMC模块获取所述实际功率值;
通过所述CHMC模块将所述实际功率值发送至所述控制板卡;
判断所述控制板卡是否接收到了所述实际功率值;
若是,生成所述状态信息并发送至所述上位机,且所述状态信息为运行正常;
若否,生成所述状态信息并发送至所述上位机,且所述状态信息为运行异常。
2.根据权利要求1所述的一种基于深度学习的VPX设备健康控制方法,其特征在于,所述判断所述控制板卡是否接收到了所述实际功率值,之后还包括:
若是,判断所述实际功率值是否大于预设功率值;
若大于,执行所述生成所述状态信息并发送至所述上位机,且所述状态信息为运行异常的步骤。
3.根据权利要求1所述的一种基于深度学习的VPX设备健康控制方法,其特征在于,所述实时健康信息包括板卡电流值、板卡电压值和板卡温度值;所述获取通过所述IPMC模块采集的所述业务板卡的所述实时健康信息,之后还包括:
获取所述业务板卡正常工作时的正常电压区间;
判断所述板卡电压值是否大于第一预设值,或小于第二预设值,其中,所述第一预设值大于所述第二预设值,且所述第一预设值大于所述正常电压区间的上限值,所述第二预设值小于所述正常电压区间的下限值;
若是,将所述板卡电压值重新赋值为所述正常电压区间的平均值,并执行所述将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息的步骤。
4.根据权利要求3所述的一种基于深度学习的VPX设备健康控制方法,其特征在于,所述判断所述板卡电压值是否大于第一预设值,或小于第二预设值,之后还包括:
若是,将所述板卡电压值标记为异常电压值;
获取所述业务板卡的与所述异常电压值同一时刻的电源电压值;
判断所述电源电压值是否大于所述第一预设值,或小于所述第二预设值;
若是,执行所述将所述板卡电压值重新赋值为所述正常电压区间的平均值的步骤;
若否,执行所述将所述实时健康信息输入训练完成后的所述模型,以得到对应的实时状态信息的步骤。
5.根据权利要求3所述的一种基于深度学习的VPX设备健康控制方法,其特征在于,所述业务板卡还包括存储模块;所述获取通过所述IPMC模块采集的所述业务板卡的所述实时健康信息,还包括:
通过所述上位机获取板卡工作信息;
分析所述板卡工作信息,以判断所述业务板卡运行时更加侧重于存储型业务或计算型业务;
若更加侧重于存储型业务,获取通过所述IPMC模块采集的所述业务板卡的所述存储模块的温度值,并作为所述板卡温度值;
若更加侧重于计算型业务,获取通过所述IPMC模块采集的所述业务板卡的所述业务芯片的温度值,并作为所述板卡温度值。
6.根据权利要求5所述的一种基于深度学习的VPX设备健康控制方法,其特征在于,所述通过所述上位机获取板卡工作信息,包括:
获取通过所述IPMC模块采集的所述业务板卡的所述存储模块的历史温度信息;
获取通过所述IPMC模块采集的所述业务板卡的所述业务芯片的历史温度信息;
分析所述存储模块的历史温度信息,以得到所述存储模块的过去第二预设时间段内的平均温度值,并标记为第一平均值;
分析所述业务芯片的历史温度信息,以得到所述业务芯片的过去第二预设时间段内的平均温度值,并标记为第二平均值;
将所述第一平均值和所述第二平均值进行比对;
当所述第一平均值大于所述第二平均值时,生成所述板卡工作信息,且所述板卡工作信息表述为所述业务板卡运行时更加侧重于存储型业务;
当所述第一平均值小于所述第二平均值时,生成所述板卡工作信息,且所述板卡工作信息表述为所述业务板卡运行时更加侧重于计算型业务。
7.根据权利要求1至6中任一项所述的一种基于深度学习的VPX设备健康控制方法,其特征在于,所述根据所述实时状态信息对所述业务板卡进行运行控制,包括:
判断所述对应的实时状态信息是否为运行异常;
若是,通过所述CHMC模块和所述IPMC模块控制所述业务板卡断电。
8.一种基于深度学习的VPX设备健康控制系统,其特征在于,应用如权利要求1-7 中任一项所述的基于深度学习的VPX设备健康控制方法;所述基于深度学习的VPX设备健康控制系统包括VPX板卡、IPMC模块、CHMC模块和上位机;所述VPX板卡包括控制板卡和业务板卡;所述IPMC模块设置于所述业务板卡;所述IPMC模块通信连接于所述CHMC模块;所述CHMC模块通信连接于所述控制板卡;所述控制板卡通信连接于所述上位机。
CN202110422705.2A 2021-04-20 2021-04-20 一种基于深度学习的vpx设备健康控制方法及系统 Active CN112988545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110422705.2A CN112988545B (zh) 2021-04-20 2021-04-20 一种基于深度学习的vpx设备健康控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110422705.2A CN112988545B (zh) 2021-04-20 2021-04-20 一种基于深度学习的vpx设备健康控制方法及系统

Publications (2)

Publication Number Publication Date
CN112988545A CN112988545A (zh) 2021-06-18
CN112988545B true CN112988545B (zh) 2021-08-17

Family

ID=76341228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110422705.2A Active CN112988545B (zh) 2021-04-20 2021-04-20 一种基于深度学习的vpx设备健康控制方法及系统

Country Status (1)

Country Link
CN (1) CN112988545B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020028626A (ko) * 2000-10-11 2002-04-17 윤종용 동적 문턱값에 의한 비선형 시스템의 고장 진단장치 및 방법
CN106066821A (zh) * 2016-05-30 2016-11-02 中国电子科技集团公司第五十四研究所 Vpx设备的智能机箱管理系统
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
CN110119333A (zh) * 2019-02-21 2019-08-13 北京天泽智云科技有限公司 一种异常检测边缘计算系统
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491305B (zh) * 2018-03-09 2021-05-25 网宿科技股份有限公司 一种服务器故障的检测方法及系统
CN108803435A (zh) * 2018-07-13 2018-11-13 北京计算机技术及应用研究所 一种基于国产化微控制器的vpx板卡的通用智能管理装置
US11222287B2 (en) * 2019-07-25 2022-01-11 International Business Machines Corporation Machine learning for failure event identification and prediction
CN111382029B (zh) * 2020-03-05 2021-09-03 清华大学 基于pca和多维监测数据的主板异常诊断方法及装置
TWM605603U (zh) * 2020-07-28 2020-12-21 遠傳電信股份有限公司 基於機器學習用於偵測設備異常的電子裝置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020028626A (ko) * 2000-10-11 2002-04-17 윤종용 동적 문턱값에 의한 비선형 시스템의 고장 진단장치 및 방법
CN106066821A (zh) * 2016-05-30 2016-11-02 中国电子科技集团公司第五十四研究所 Vpx设备的智能机箱管理系统
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
CN110119333A (zh) * 2019-02-21 2019-08-13 北京天泽智云科技有限公司 一种异常检测边缘计算系统
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置

Also Published As

Publication number Publication date
CN112988545A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN107169744A (zh) 一种电子工单的时限监控方法及系统
US20110251966A1 (en) Source Aware Data Center Power Profiles
US20200174435A1 (en) Energy Information System, and Method and Device for Processing Energy Information
CN112988381B (zh) 为云资源生成优化信息的方法、装置和电子设备
CN114442794B (zh) 服务器功耗控制方法、系统、终端及存储介质
CN107294778A (zh) 一种基于云物联平台实现工业设备采集的方法
CN112911013A (zh) 云应用的处理方法、装置、计算机设备和存储介质
CN112988545B (zh) 一种基于深度学习的vpx设备健康控制方法及系统
CN115086148A (zh) 光网络告警处理方法、系统、设备及存储介质
CN109800082B (zh) 结合实际功耗采购服务器的方法、装置及存储介质
CN110781340A (zh) 一种推荐系统召回策略的离线评估方法、系统、装置及存储介质
CN110688098A (zh) 生成系统框架代码的方法、装置、电子设备及存储介质
CN113452852B (zh) 机器外呼的数量调控方法、装置、电子设备及存储介质
CN116169794A (zh) 电力系统用提示装置与提示方法
CN106330567A (zh) 一种服务器集群的服务器管理控制方法及系统
CN110989518B (zh) 一种集成制造现场的控制方法和控制系统
CN113112311A (zh) 训练因果推断模型的方法、信息提示方法以装置
CN111598671B (zh) 一种基于人机交互的商品推荐方法
CN115883626A (zh) 一种基于互联网的多功能信息技术咨询服务系统
CN114817671A (zh) 一种空调物联网的日志分析方法及系统
CN115080197A (zh) 计算任务调度方法、装置、电子设备和存储介质
CN112560325A (zh) 换电业务的预测方法、系统、设备及存储介质
CN110472523A (zh) 用于生成虚拟形象的表情采集方法、系统、装置和介质
US20230092978A1 (en) Resource Tapping Method, Resource Tapping Apparatus and Electronic Device
CN113242561B (zh) 一种变电站的ap部署方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A VPX Device Health Control Method and System Based on Deep Learning

Effective date of registration: 20221028

Granted publication date: 20210817

Pledgee: Hunan Xiangjiang Zhongying Investment Management Co.,Ltd.

Pledgor: HUNAN BOJIANG INFORMATION TECHNOLOGY CO.,LTD.

Registration number: Y2022980020182

PE01 Entry into force of the registration of the contract for pledge of patent right