CN116069565A - 一种更换板卡的方法和装置 - Google Patents

一种更换板卡的方法和装置 Download PDF

Info

Publication number
CN116069565A
CN116069565A CN202310246185.3A CN202310246185A CN116069565A CN 116069565 A CN116069565 A CN 116069565A CN 202310246185 A CN202310246185 A CN 202310246185A CN 116069565 A CN116069565 A CN 116069565A
Authority
CN
China
Prior art keywords
board
tested
deep learning
learning model
service life
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310246185.3A
Other languages
English (en)
Other versions
CN116069565B (zh
Inventor
吴正中
张辉
唐才荣
汪永刚
张云飞
王晓东
邓能文
武涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Urban Construction Intelligent Control Technology Co ltd
Original Assignee
Beijing Urban Construction Intelligent Control Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Urban Construction Intelligent Control Technology Co ltd filed Critical Beijing Urban Construction Intelligent Control Technology Co ltd
Priority to CN202310246185.3A priority Critical patent/CN116069565B/zh
Publication of CN116069565A publication Critical patent/CN116069565A/zh
Application granted granted Critical
Publication of CN116069565B publication Critical patent/CN116069565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)

Abstract

本发明提供了一种更换板卡的方法和装置,该方法采集待测板卡的设备状态参数,得到设备状态参数的特征值,设备状态参数用于表示待测板卡的使用状态;将特征值输入至预设深度学习模型中,预设深度学习模型用于根据特征值输出待测板卡的剩余使用寿命,预设深度学习模型用于表示待测板卡的参数与剩余使用寿命的关系;当预设深度学习模型输出的剩余使用寿命满足更换板卡的条件时,提示更换待测板卡。本发明可以实时检测待测板卡的设备状态参数,并实时计算出待测板卡的剩余使用寿命,能够在剩余使用寿命满足更换板卡的条件时,提示更换板卡,能够在出现故障前更换板卡避免数据丢失,还能够避免过早更换板卡造成资源的浪费。

Description

一种更换板卡的方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种更换板卡的方法和装置。
背景技术
现有技术中,为了保证业务正常进行,一般是对计算板块做冗余设计,在某一计算板块发生故障后,另一个计算板卡才启动工作。该技术属于被动式,只有在故障后才能进行数据迁移,容易在故障的瞬间出现数据丢失的情况,会影响业务运行。另外现有技术中,只是机械化的规定了设备(计算板卡)的更换时间,对还能继续使用的板卡也定期更换,无法充分利用计算板卡,造成了成本浪费。
发明内容
本发明的主要目的在于提供一种更换板卡的方法和装置,以解决现有技术中板卡更换不及时的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种更换板卡的方法,包括:采集待测板卡的设备状态参数,得到所述设备状态参数的特征值,所述设备状态参数用于表示所述待测板卡的使用状态;将所述特征值输入至预设深度学习模型中,所述预设深度学习模型用于根据所述特征值输出所述待测板卡的剩余使用寿命,所述预设深度学习模型用于表示所述待测板卡的参数与剩余使用寿命的关系;当所述预设深度学习模型输出的剩余使用寿命满足更换板卡的条件时,提示更换所述待测板卡。
进一步地,所述采集待测板卡的设备状态参数,得到所述设备状态参数的特征值包括:剔除所述设备状态参数中的离群值;对剔除所述离群值之后的数据进行归一化处理;对所述归一化处理后的数据进行小波变换,得到所述设备状态参数的特征值。
进一步地,在提示更换所述待测板卡之前,对所述预设深度学习模型输出的至少两个输出结果对所述预设深度学习模型进行验证;当验证结果指示所述预设深度学习模型输出的结果准确性满足预设指标时,继续判断所述预设深度学习模型输出的结果是否提示更换所述待测板卡。
进一步地,所述提示更换所述待测板卡包括:判断所述预设深度学习模型输出的结果是否指示所述待测板卡的剩余使用寿命小于第一目标值,其中,所述第一目标值用于判断所述待测板卡是否需要迁移;在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命小于第一目标值时,提示迁移所述待测板卡;在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命大于所述第一目标值时,继续验证所述预设深度学习模型输出结果的准确性。
进一步地,在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命小于第一目标值时,提示迁移所述待测板卡包括:判断所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命是否小于第二目标值,所述第二目标值小于所述第一目标值;在所述待测板卡的剩余使用寿命小于所述第二目标值,自动迁移所述待测板卡的数据;在所述待测板卡的剩余使用寿命小于所述第一目标值,且大于所述第二目标值时,提示人工迁移所述待测板卡的数据。
为了实现上述目的,根据本发明的一个方面,提供了一种更换板卡的装置,包括:采集单元,用于采集待测板卡的设备状态参数,得到所述设备状态参数的特征值,所述设备状态参数用于表示所述待测板卡的使用状态;计算单元,用于将所述特征值输入至预设深度学习模型中,所述预设深度学习模型用于根据所述特征值输出所述待测板卡的剩余使用寿命,所述预设深度学习模型用于表示所述待测板卡的参数与剩余使用寿命的关系;提示单元,用于当所述预设深度学习模型输出的剩余使用寿命满足更换板卡的条件时,提示更换所述待测板卡。
进一步地,所述采集单元包括:剔除模块,用于剔除所述设备状态参数中的离群值;计算模块,用于对剔除所述离群值之后的数据进行归一化处理;变换模块,用于对所述归一化处理后的数据进行小波变换,得到所述设备状态参数的特征值。
进一步地,所述装置包括:第一验证单元,用于在提示更换所述待测板卡之前,对所述预设深度学习模型输出的至少两个输出结果对所述预设深度学习模型进行验证;第一判断单元,用于当验证结果指示所述预设深度学习模型输出的结果准确性满足预设指标时,继续判断所述预设深度学习模型输出的结果是否提示更换所述待测板卡。
进一步地,所述提示单元包括:第二判断模块,用于判断所述预设深度学习模型输出的结果是否指示所述待测板卡的剩余使用寿命小于第一目标值,其中,所述第一目标值用于判断所述待测板卡是否需要迁移;提示模块,用于在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命小于第一目标值时,提示迁移所述待测板卡;第二验证模块,用于在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命大于所述第一目标值时,继续验证所述预设深度学习模型输出结果的准确性。
进一步地,所述提示模块包括:判断子模块,用于判断所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命是否小于第二目标值,所述第二目标值小于所述第一目标值;迁移子模块,用于在所述待测板卡的剩余使用寿命小于所述第二目标值,自动迁移所述待测板卡的数据;提示子模块,用于在所述待测板卡的剩余使用寿命小于所述第一目标值,且大于所述第二目标值时,提示人工迁移所述待测板卡的数据。
应用本发明的技术方案,可以实时检测待测板卡的设备状态参数,并实时计算出待测板卡的剩余使用寿命,能够在剩余使用寿命满足更换板卡的条件时,提示更换板卡,能够在出现故障前更换板卡避免数据丢失,还能够避免过早更换板卡造成资源的浪费。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的更换板卡的方法的实施例的示意图;
图2示出了根据本发明的更换板卡的方法的实施例的流程图;
图3示出了根据本发明的基于决策树的板卡迁移方法的流程图;
图4示出了动态温度生命曲线示意图;
图5示出了30度温度生命曲线示意图;
图6示出了60度温度生命曲线示意图;
图7示出了根据本发明的更换板卡的装置的实施例的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明实施了公开了一种更换板卡的方法。该方法以计算板卡的温度、电压、电流等表示板卡状态的参数作为特征,以寿命状态为标签,采用深度学习的方法对计算板卡的寿命进行实时预测。该方法可以精准预测板卡的剩余使用寿命,并通过决策树的方式,确定板卡的迁移时间。
图1是根据本发明实施例的更换板卡的方法的流程图。
如图1所示,该更换板卡的方法包括如下步骤:
S102,采集待测板卡的设备状态参数,得到设备状态参数的特征值,设备状态参数用于表示待测板卡的使用状态;
待测板卡即计算板卡,设备状态参数包括但不限于板卡的温度、电压和电流等,记为<mi>[</mi><msub><mi>T</mi><mi>t-P+1</mi></msub><mi>,</mi><msub><mi>T</mi><mi>t-P</mi></msub><mi>,...,</mi><msub><mi>T</mi><mi>t</mi></msub><mi>]</mi>,<mi>[</mi><msub><mi>V</mi><mi>t-P+1</mi></msub><mi>,</mi><msub><mi>V</mi><mi>t-P</mi></msub><mi>,...,</mi><msub><mi>V</mi><mi>t</mi></msub><mi>]</mi>,<mi>[</mi><msub><mi>I</mi><mi>t-P+1</mi></msub><mi>,</mi><msub><mi>I</mi><mi>t-P</mi></msub><mi>,...,</mi><msub><mi>I</mi><mi>t</mi></msub><mi>]</mi>。本发明实施例利用设备状态参数计算待测板卡的剩余使用寿命。
具体地,采集待测板卡的设备状态参数,得到设备状态参数的特征值包括:剔除设备状态参数中的离群值;对剔除离群值之后的数据进行归一化处理;对归一化处理后的数据进行小波变换,得到设备状态参数的特征值。
采集到设备状态参数后,检测并剔除其中的离群值。离群值(outlier),也称逸出值,是指在数据中有一个或几个数值与其他数值相比差异较大。例如,chanwennt准则规定,如果一个数值偏离观测平均值的概率小于等于1/(2n),则该数据应当舍弃(其中n为观察例数,概率可以根据数据的分布进行估计)。对剔除离群值之后的数据进行归一化处理,归一化就是要把需要处理的数据经过处理后(通过某种算法)限制需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。
小波变换是一种信号的时间——尺度(时间——频率)分析方法,它具有多分辨分析的特点,而且在时频两域都具有表征信号局部特征的能力,是一种窗口大小固定不变但其形状可改变,时间窗和频率窗都可以改变的时频局部化分析方法。即在低频部分具有较低的时间分辨率和较高的频率分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,很适合于分析非平稳的信号和提取信号的局部特征。
本发明实施例中的采集的温度、电压和电流的参数被剔除离群值之后,经过归一化和小波变换后,得到能够被计算机分析和处理的特征值,即设备状态参数的特征值,记为
S104,将特征值输入至预设深度学习模型中,预设深度学习模型用于根据特征值输出待测板卡的剩余使用寿命,预设深度学习模型用于表示待测板卡的参数与剩余使用寿命的关系;
本发明实施例中预设深度学习模型 长短期记忆模型(LSTM)模型,以作为输入,以作为输出,并将数据集进行划分,按常规6:2:2的方法划分为训练集、验证集、测试集,对模型各层的权重W和修正量b进行优化,可获得一个适用于板卡寿命预测的LSTM模型,并可准确预测板卡剩余寿命。本发明实施例中训练LSTM模型的过程可以采用常规算法,此处不做赘述。
本发明实施例将LSTM模型作为一种多分类方法进行使用,使得计算板卡的迁移时间更加准确。将采集到的设备状态参数输入到LSTM模型后,输出剩余使用寿命。
该模型在训练过程中,采用了待测板卡的失效模型。计算板卡由IC器件(存储器、处理器、数字逻辑类电路、模拟集成电路等)、晶体管、二极管、功率半导体器、电阻、电容、电感、LED灯、连接器、继电器、光耦等组成。
在设备固定应用的条件下,主要是由温度因素导致元器件失效率会不一样。根据待测板卡的失效模型,分别在不通过温度条件下对计算板卡的各种元器件进行失效率计算。
S106,当预设深度学习模型输出的剩余使用寿命满足更换板卡的条件时,提示更换待测板卡。提示更换待测板卡可以是提示已经自动更换为备用板卡,或者提示人工更换板卡,可以根据当前板卡的使用状态来确定。
如图2所示,本发明实施例,可以实时检测待测板卡的设备状态参数,并实时计算出待测板卡的剩余使用寿命,能够在剩余使用寿命满足更换板卡的条件时,提示更换板卡,能够在出现故障前更换板卡避免数据丢失,还能够避免过早更换板卡造成资源的浪费。
如图3所示,本发明实施例区别于传统的采用阈值预警进行板卡迁移时间确定的方法,而是通过一种多分类模型性能验证方法和采用决策树的分析方法进行结合,对板卡迁移时间进行了优化。
第一步,基于决策树的板卡迁移时间确定;本发明实施例的深度学习模型可以采用基于决策树的分类算法,定义一个多分类问题,针对多分类问题,通过二分类两两对比,加权取平均对算法模型进行验证;
第二步,算法模型剔除异常点,输出剩余使用寿命;
第三步,模型性能验证,正确率>0.8?若是,判断剩余使用寿命<720h?,若否,则对模型进行调整或者采用其他失效率检测方法,即,在提示更换待测板卡之前,该方法包括:对预设深度学习模型输出的至少两个输出结果对预设深度学习模型进行验证;当验证结果指示预设深度学习模型输出的结果准确性满足预设指标时,继续判断预设深度学习模型输出的结果是否提示更换待测板卡。对模型的性能进行验证,以避免过学习或者欠学习的情况,保证输出结果的正确率。
第四步,判断剩余使用寿命<720h?如果是,判断剩余使用寿命<168h?,若否,则使用失效率检测方法进行二次验证,即,提示更换待测板卡包括:判断预设深度学习模型输出的结果是否指示待测板卡的剩余使用寿命小于第一目标值(720h),其中,第一目标值用于判断待测板卡是否需要迁移;在预设深度学习模型输出的结果指示待测板卡的剩余使用寿命小于第一目标值时,提示迁移待测板卡;在预设深度学习模型输出的结果指示待测板卡的剩余使用寿命大于第一目标值时,继续验证预设深度学习模型输出结果的准确性。
第五步,判断剩余使用寿命<168h?如果是,则自动迁移数据更换板卡,若够,则人工迁移数据更换板卡。进一步地,在预设深度学习模型输出的结果指示待测板卡的剩余使用寿命小于第一目标值时,提示迁移待测板卡包括:判断预设深度学习模型输出的结果指示待测板卡的剩余使用寿命是否小于第二目标值(168h),第二目标值小于第一目标值;在待测板卡的剩余使用寿命小于第二目标值,自动迁移待测板卡的数据;在待测板卡的剩余使用寿命小于第一目标值,且大于第二目标值时,提示人工迁移待测板卡的数据。
第一目标值和第二目标值可以根据计算板卡的实际使用场景确定,如果使用场景的安全性要求比较高,可以将第一目标值和第二目标值设置为比较大的数值,反之,可以将第一目标值和第二目标值设置为比较小的数值,这样既能满足板卡更换的需要,还能避免板卡过于频繁的更换所导致的浪费。
本发明实施例可以根据初始设定的环境温度为30度时计算板卡的寿命(MTBF),对每个计算板卡按照每1小时的环境温度动态更新寿命,截取其中某一天曲线如图4所示。根据动态温度计算出来的计算板卡的生命曲线一天从190000小时降为189940小时,减少了60小时。按照既往的算法,分别列出30度时和60度的生命曲线如图5和图6所示。从图5、图6中可以看出,计算板卡在30度时计算出来的生命曲线一天从190000小时降为189976小时,减少了24小时;计算板卡在60度时计算出来的生命曲线一天从190000小时降为189916小时,减少了84小时。
根据图4-图6的3条生命曲线图可以看出,利用动态温度进行出来计算板卡的1天的寿命减少60小时,既大于按照常规算法计算的24小时又小于按照最严酷环境计算的84小时,可以有效监控计算板卡的生命状态,不会在故障发生(寿命减为0)后才能发现造成业务停止,又不会造成板卡未到寿命就更换设备导致成本增加。由于每天的温度曲线略有差异,在此不一一展示。
本申请实施例还可以设定几个寿命参数,根据几个寿命参数做相应的策略。比如:计算板卡寿命在剩余半年的时候,可以弹出预警提示;寿命在剩余720个小时的时候,自动提醒维护人员准备备品备件,由人工进行业务软件迁移;在寿命在剩余168个小时的时候,自动进行业务状态的迁移。
本发明实施例还提供了一种板卡更换的装置,如图7所示,该板卡更换的装置包括:
采集单元702,用于采集待测板卡的设备状态参数,得到设备状态参数的特征值,设备状态参数用于表示待测板卡的使用状态;
待测板卡即计算板卡,设备状态参数包括但不限于板卡的温度、电压和电流等,记为<mi>[</mi><msub><mi>T</mi><mi>t-P+1</mi></msub><mi>,</mi><msub><mi>T</mi><mi>t-P</mi></msub><mi>,...,</mi><msub><mi>T</mi><mi>t</mi></msub><mi>]</mi>,<mi>[</mi><msub><mi>V</mi><mi>t-P+1</mi></msub><mi>,</mi><msub><mi>V</mi><mi>t-P</mi></msub><mi>,...,</mi><msub><mi>V</mi><mi>t</mi></msub><mi>]</mi>,<mi>[</mi><msub><mi>I</mi><mi>t-P+1</mi></msub><mi>,</mi><msub><mi>I</mi><mi>t-P</mi></msub><mi>,...,</mi><msub><mi>I</mi><mi>t</mi></msub><mi>]</mi>。本发明实施例利用设备状态参数计算待测板卡的剩余使用寿命。
该采集单元包括:剔除模块,用于剔除设备状态参数中的离群值;计算模块,用于对剔除离群值之后的数据进行归一化处理;变换模块,用于对归一化处理后的数据进行小波变换,得到设备状态参数的特征值。
采集到设备状态参数后,检测并剔除其中的离群值。离群值(outlier),也称逸出值,是指在数据中有一个或几个数值与其他数值相比差异较大。例如,chanwennt准则规定,如果一个数值偏离观测平均值的概率小于等于1/(2n),则该数据应当舍弃(其中n为观察例数,概率可以根据数据的分布进行估计)。对剔除离群值之后的数据进行归一化处理,归一化就是要把需要处理的数据经过处理后(通过某种算法)限制需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。
小波变换是一种信号的时间——尺度(时间——频率)分析方法,它具有多分辨分析的特点,而且在时频两域都具有表征信号局部特征的能力,是一种窗口大小固定不变但其形状可改变,时间窗和频率窗都可以改变的时频局部化分析方法。即在低频部分具有较低的时间分辨率和较高的频率分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,很适合于分析非平稳的信号和提取信号的局部特征。
本发明实施例中的采集的温度、电压和电流的参数被剔除离群值之后,经过归一化和小波变换后,得到能够被计算机分析和处理的特征值,即设备状态参数的特征值,记为
计算单元704,用于将特征值输入至预设深度学习模型中,预设深度学习模型用于根据特征值输出待测板卡的剩余使用寿命,预设深度学习模型用于表示待测板卡的参数与剩余使用寿命的关系;
本发明实施例中预设深度学习模型长短期记忆模型(LSTM)模型,以作为输入,以作为输出,并将数据集进行划分,按常规6:2:2的方法划分为训练集、验证集、测试集,对模型各层的权重W和修正量b进行优化,可获得一个适用于板卡寿命预测的LSTM模型,并可准确预测板卡剩余寿命。本发明实施例中训练LSTM模型的过程可以采用常规算法,此处不做赘述。
本发明实施例将LSTM模型作为一种多分类方法进行使用,使得计算板卡的迁移时间更加准确。将采集到的设备状态参数输入到LSTM模型后,输出剩余使用寿命。
该模型在训练过程中,采用了待测板卡的失效模型。计算板卡由IC器件(存储器、处理器、数字逻辑类电路、模拟集成电路等)、晶体管、二极管、功率半导体器、电阻、电容、电感、LED灯、连接器、继电器、光耦等组成。
在设备固定应用的条件下,主要是由温度因素导致元器件失效率会不一样。根据待测板卡的失效模型,分别在不通过温度条件下对计算板卡的各种元器件进行失效率计算。
提示单元706,用于当预设深度学习模型输出的剩余使用寿命满足更换板卡的条件时,提示更换待测板卡。提示更换待测板卡可以是提示已经自动更换为备用板卡,或者提示人工更换板卡,可以根据当前板卡的使用状态来确定。
本发明实施例,可以实时检测待测板卡的设备状态参数,并实时计算出待测板卡的剩余使用寿命,能够在剩余使用寿命满足更换板卡的条件时,提示更换板卡,能够在出现故障前更换板卡避免数据丢失,还能够避免过早更换板卡造成资源的浪费。
本发明实施例区别于传统的采用阈值预警进行板卡迁移时间确定的方法,而是通过一种多分类模型性能验证方法和采用决策树的分析方法进行结合,对板卡迁移时间进行了优化。
首先,基于决策树的板卡迁移时间确定;本发明实施例的深度学习模型可以采用基于决策树的分类算法,定义一个多分类问题,针对多分类问题,通过二分类两两对比,加权取平均对算法模型进行验证;
其次,算法模型剔除异常点,输出剩余使用寿命;
再次,模型性能验证,正确率>0.8?若否,则对模型进行调整或者采用其他失效率检测方法,即,第一验证单元,用于在提示更换待测板卡之前,对预设深度学习模型输出的至少两个输出结果对预设深度学习模型进行验证;第一判断单元,用于当验证结果指示预设深度学习模型输出的结果准确性满足预设指标时,继续判断预设深度学习模型输出的结果是否提示更换待测板卡。对模型的性能进行验证,以避免过学习或者欠学习的情况,保证输出结果的正确率。
最后,判断剩余使用寿命<720h?若否,则使用失效率检测方法进行二次验证,判断剩余使用寿命<168h?如果是,则自动迁移数据更换板卡,若够,则人工迁移数据更换板卡。即,提示单元包括:第二判断模块,用于判断预设深度学习模型输出的结果是否指示待测板卡的剩余使用寿命小于第一目标值,其中,第一目标值用于判断待测板卡是否需要迁移;提示模块,用于在预设深度学习模型输出的结果指示待测板卡的剩余使用寿命小于第一目标值时,提示迁移待测板卡;第二验证模块,用于在预设深度学习模型输出的结果指示待测板卡的剩余使用寿命大于第一目标值时,继续验证预设深度学习模型输出结果的准确性。该提示模块包括:判断子模块,用于判断预设深度学习模型输出的结果指示待测板卡的剩余使用寿命是否小于第二目标值,第二目标值小于第一目标值;迁移子模块,用于在待测板卡的剩余使用寿命小于第二目标值,自动迁移待测板卡的数据;提示子模块,用于在待测板卡的剩余使用寿命小于第一目标值,且大于第二目标值时,提示人工迁移待测板卡的数据。
第一目标值和第二目标值可以根据计算板卡的实际使用场景确定,如果使用场景的安全性要求比较高,可以将第一目标值和第二目标值设置为比较大的数值,反之,可以将第一目标值和第二目标值设置为比较小的数值,这样既能满足板卡更换的需要,还能避免板卡过于频繁的更换所导致的浪费。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制;方位词“内、外”是指相对于各部件本身的轮廓的内外。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种更换板卡的方法,其特征在于,包括:
采集待测板卡的设备状态参数,得到所述设备状态参数的特征值,所述设备状态参数用于表示所述待测板卡的使用状态;
将所述特征值输入至预设深度学习模型中,所述预设深度学习模型用于根据所述特征值输出所述待测板卡的剩余使用寿命,所述预设深度学习模型用于表示所述待测板卡的参数与剩余使用寿命的关系;
当所述预设深度学习模型输出的剩余使用寿命满足更换板卡的条件时,提示更换所述待测板卡。
2.根据权利要求1所述的方法,其特征在于,所述采集待测板卡的设备状态参数,得到所述设备状态参数的特征值包括:
剔除所述设备状态参数中的离群值;
对剔除所述离群值之后的数据进行归一化处理;
对所述归一化处理后的数据进行小波变换,得到所述设备状态参数的特征值。
3.根据权利要求1所述的方法,其特征在于,在提示更换所述待测板卡之前,所述方法包括:
对所述预设深度学习模型输出的至少两个输出结果对所述预设深度学习模型进行验证;
当验证结果指示所述预设深度学习模型输出的结果准确性满足预设指标时,继续判断所述预设深度学习模型输出的结果是否提示更换所述待测板卡。
4.根据权利要求1所述的方法,其特征在于,所述提示更换所述待测板卡包括:
判断所述预设深度学习模型输出的结果是否指示所述待测板卡的剩余使用寿命小于第一目标值,其中,所述第一目标值用于判断所述待测板卡是否需要迁移;
在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命小于第一目标值时,提示迁移所述待测板卡;
在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命大于所述第一目标值时,继续验证所述预设深度学习模型输出结果的准确性。
5.根据权利要求4所述的方法,其特征在于,在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命小于第一目标值时,提示迁移所述待测板卡包括:
判断所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命是否小于第二目标值,所述第二目标值小于所述第一目标值;
在所述待测板卡的剩余使用寿命小于所述第二目标值,自动迁移所述待测板卡的数据;
在所述待测板卡的剩余使用寿命小于所述第一目标值,且大于所述第二目标值时,提示人工迁移所述待测板卡的数据。
6.一种更换板卡的装置,其特征在于,包括:
采集单元,用于采集待测板卡的设备状态参数,得到所述设备状态参数的特征值,所述设备状态参数用于表示所述待测板卡的使用状态;
计算单元,用于将所述特征值输入至预设深度学习模型中,所述预设深度学习模型用于根据所述特征值输出所述待测板卡的剩余使用寿命,所述预设深度学习模型用于表示所述待测板卡的参数与剩余使用寿命的关系;
提示单元,用于当所述预设深度学习模型输出的剩余使用寿命满足更换板卡的条件时,提示更换所述待测板卡。
7.根据权利要求6所述的装置,其特征在于,所述采集单元包括:
剔除模块,用于剔除所述设备状态参数中的离群值;
计算模块,用于对剔除所述离群值之后的数据进行归一化处理;
变换模块,用于对所述归一化处理后的数据进行小波变换,得到所述设备状态参数的特征值。
8.根据权利要求6所述的装置,其特征在于,所述装置包括:
第一验证单元,用于在提示更换所述待测板卡之前,对所述预设深度学习模型输出的至少两个输出结果对所述预设深度学习模型进行验证;
第一判断单元,用于当验证结果指示所述预设深度学习模型输出的结果准确性满足预设指标时,继续判断所述预设深度学习模型输出的结果是否提示更换所述待测板卡。
9.根据权利要求6所述的装置,其特征在于,所述提示单元包括:
第二判断模块,用于判断所述预设深度学习模型输出的结果是否指示所述待测板卡的剩余使用寿命小于第一目标值,其中,所述第一目标值用于判断所述待测板卡是否需要迁移;
提示模块,用于在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命小于第一目标值时,提示迁移所述待测板卡;
第二验证模块,用于在所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命大于所述第一目标值时,继续验证所述预设深度学习模型输出结果的准确性。
10.根据权利要求9所述的装置,其特征在于,所述提示模块包括:
判断子模块,用于判断所述预设深度学习模型输出的结果指示所述待测板卡的剩余使用寿命是否小于第二目标值,所述第二目标值小于所述第一目标值;
迁移子模块,用于在所述待测板卡的剩余使用寿命小于所述第二目标值,自动迁移所述待测板卡的数据;
提示子模块,用于在所述待测板卡的剩余使用寿命小于所述第一目标值,且大于所述第二目标值时,提示人工迁移所述待测板卡的数据。
CN202310246185.3A 2023-03-15 2023-03-15 一种更换板卡的方法和装置 Active CN116069565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310246185.3A CN116069565B (zh) 2023-03-15 2023-03-15 一种更换板卡的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310246185.3A CN116069565B (zh) 2023-03-15 2023-03-15 一种更换板卡的方法和装置

Publications (2)

Publication Number Publication Date
CN116069565A true CN116069565A (zh) 2023-05-05
CN116069565B CN116069565B (zh) 2023-06-20

Family

ID=86177079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310246185.3A Active CN116069565B (zh) 2023-03-15 2023-03-15 一种更换板卡的方法和装置

Country Status (1)

Country Link
CN (1) CN116069565B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341876A1 (en) * 2017-05-25 2018-11-29 Hitachi, Ltd. Deep learning network architecture optimization for uncertainty estimation in regression
US20190235484A1 (en) * 2018-01-31 2019-08-01 Hitachi, Ltd. Deep learning architecture for maintenance predictions with multiple modes
CN110738360A (zh) * 2019-09-27 2020-01-31 华中科技大学 一种设备剩余寿命预测方法及系统
CN113221382A (zh) * 2021-06-01 2021-08-06 中国科学院自动化研究所 一种工业设备剩余寿命预测方法、系统及设备
CN114690716A (zh) * 2020-12-31 2022-07-01 中核控制系统工程有限公司 一种dcs系统电路板卡寿命自动诊断报警系统的设计方法
US20220215273A1 (en) * 2021-01-05 2022-07-07 Dell Products, L.P. Using prediction uncertainty quantifier with machine leaning classifier to predict the survival of a storage device
WO2022189613A1 (en) * 2021-03-11 2022-09-15 Tridonic Gmbh & Co Kg Method for predicting a remaining failure or lifetime of an electrical component of an electrical circuit
CN115080342A (zh) * 2022-06-08 2022-09-20 中国船舶重工集团公司第七一九研究所 一种电源板卡试验数据自动处理方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180341876A1 (en) * 2017-05-25 2018-11-29 Hitachi, Ltd. Deep learning network architecture optimization for uncertainty estimation in regression
US20190235484A1 (en) * 2018-01-31 2019-08-01 Hitachi, Ltd. Deep learning architecture for maintenance predictions with multiple modes
CN110738360A (zh) * 2019-09-27 2020-01-31 华中科技大学 一种设备剩余寿命预测方法及系统
CN114690716A (zh) * 2020-12-31 2022-07-01 中核控制系统工程有限公司 一种dcs系统电路板卡寿命自动诊断报警系统的设计方法
US20220215273A1 (en) * 2021-01-05 2022-07-07 Dell Products, L.P. Using prediction uncertainty quantifier with machine leaning classifier to predict the survival of a storage device
WO2022189613A1 (en) * 2021-03-11 2022-09-15 Tridonic Gmbh & Co Kg Method for predicting a remaining failure or lifetime of an electrical component of an electrical circuit
CN113221382A (zh) * 2021-06-01 2021-08-06 中国科学院自动化研究所 一种工业设备剩余寿命预测方法、系统及设备
CN115080342A (zh) * 2022-06-08 2022-09-20 中国船舶重工集团公司第七一九研究所 一种电源板卡试验数据自动处理方法及系统

Also Published As

Publication number Publication date
CN116069565B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
US20170314961A1 (en) A data analytic engine towards the self-management of complex physical systems
US20160369777A1 (en) System and method for detecting anomaly conditions of sensor attached devices
CN107677903B (zh) 一种变压器状态监测数据的聚类分析方法
CN104200288A (zh) 一种基于因素与事件间相关关系识别的设备故障预测方法
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN105675038A (zh) 一种仪表的故障预测装置
US20200125970A1 (en) Defect factor estimation device and defect factor estimation method
CN105488539A (zh) 分类模型的生成方法及装置、系统容量的预估方法及装置
CN106405384A (zh) 模拟电路健康状态评估方法
CN110794360A (zh) 一种基于机器学习预测智能电能表故障的方法及系统
CN117370847B (zh) 基于深度学习的隔离开关检测方法及装置
CN115081673B (zh) 一种油气管道的异常预测方法、装置、电子设备及介质
CN110490329A (zh) 一种基于机器学习的大规模电力异常数据检测方法及系统
CN116401137A (zh) 一种芯粒健康状态预测方法、装置、电子设备及存储介质
CN116380438A (zh) 一种故障诊断方法、装置、电子设备及存储介质
CN115664038A (zh) 一种用于电气安全管理的智能配电运维监控系统
CN113810792B (zh) 一种基于云计算的边缘数据采集分析系统
CN117193088B (zh) 一种工业设备监控方法、装置以及服务器
Rizvi et al. Real-time zip load parameter tracking using sensitivity-based adaptive window and variable elimination with realistic synchrophasor data
CN117335409B (zh) 基于人工智能的电力用户负荷预测系统
CN109711450A (zh) 一种电网预想故障集预测方法、装置、电子设备及存储介质
CN116069565B (zh) 一种更换板卡的方法和装置
CN118014018A (zh) 一种楼宇能源消耗预测方法、装置、设备及存储介质
CN116755974A (zh) 云计算平台运维方法、装置、电子设备及存储介质
CN116188445A (zh) 一种产品表面缺陷的检测定位方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant