CN112506718B - 一种故障冗余机制的安全芯片处理器及处理方法 - Google Patents

一种故障冗余机制的安全芯片处理器及处理方法 Download PDF

Info

Publication number
CN112506718B
CN112506718B CN202110162352.7A CN202110162352A CN112506718B CN 112506718 B CN112506718 B CN 112506718B CN 202110162352 A CN202110162352 A CN 202110162352A CN 112506718 B CN112506718 B CN 112506718B
Authority
CN
China
Prior art keywords
fault
operation unit
current operation
model
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110162352.7A
Other languages
English (en)
Other versions
CN112506718A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Geoforcechip Technology Co Ltd
Original Assignee
Zhejiang Geoforcechip Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Geoforcechip Technology Co Ltd filed Critical Zhejiang Geoforcechip Technology Co Ltd
Priority to CN202110162352.7A priority Critical patent/CN112506718B/zh
Publication of CN112506718A publication Critical patent/CN112506718A/zh
Application granted granted Critical
Publication of CN112506718B publication Critical patent/CN112506718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种故障冗余机制的安全芯片处理器及处理方法,包括:安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元;特征参数提取模块,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;故障预测模块,采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;故障处理模块,让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。

Description

一种故障冗余机制的安全芯片处理器及处理方法
技术领域
本发明涉及芯片处理器技术领域,具体涉及一种故障冗余机制的安全芯片处理器及处理方法。
背景技术
近年来,随着电子科技产业的高速发展,数字芯片在工业、通信、军事、电子消费领域的应用越来越广泛。数字芯片是现代电子设备的核心器件,随着集成化电子系统芯片的结构日益复杂,数字芯片的功能不断增强,作用越来越大,对数字芯片的稳定性要求也更加严格。
和其他电子设备一样,数字芯片容易随着时间增加或工作环境变化发生故障,高故障率已成为制约其发展的重要因素之一,在潜水、军事、太空等领域中,设备的数字芯片如果发生故障将造成巨大的损失。数字芯片故障受诸多因素的共同影响,主要包括工作温度、环境温度、工作电压、环境辐射、器件老化、机械振动等等;这些因素会影响电路中的元器件性能参数,影响电路功能,最终导致电路故障。现有技术中数字芯片处理器存在以下不足:
1、数字芯片如果发生故障,相应的电子设备就会停止工作等待维修或维护;针对数字芯片的高故障率,目前一般都会对数字芯片进行定期维护,可以一定程度降低芯片故障造成的损失,但是,由于故障发生是随机性的,就存在了维护不足或过度维度等情况。
2、现有技术中也存在一些方法可以对数字芯片故障进行预测,一般是选择重要器件作为研究对象来预测,但由于集成电路芯片的物理结构复杂,芯片中器件数量很大,相互连接关系复杂,将会形成数以万计的特征参数,且不同变量之间相互影响,形成更加复杂的函数关系。现有的算法不足以应付如此规模的变量参数,特征参数的提取效率低,难以准确预测参数的变化,计算精度也不能满足应用要求。
发明内容
针对现有技术存在的上述不足,本发明的目的在于:提供一种故障冗余机制的安全芯片处理器及处理方法,设立了多组并行独立的运算单元,避免因当前运算单元出现故障,导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,预测故障,提前预警,让芯片处理器持续有效地执行安全运算任务。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
一种故障冗余机制的安全芯片处理器,包括:
安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,用于根据安全运算逻辑进行安全运算任务;
特征参数提取模块,用于实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
故障预测模块,用于采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
故障处理模块,用于让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
进一步地,还包括特征参数分析模块,用于实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率。
进一步地,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
进一步地,所述故障预测模型包括温度故障模型和预测模型,所述温度故障模型和预测模型均包括输入层、隐含层和输出层;温度故障模型的输入层有两个节点数,分别输入芯片表面温度和环境温度,输出层有一个节点数,输出芯片输出频率,隐含层有八个节点数,用于分析是否存在温度故障;预测模型的输入层有五个节点数,分别输入当前五个连续时刻的工作频率,输出层有一个节点数,输出预测的未来下一时刻的工作频率,隐含层有十二个节点数,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
进一步地,所述温度故障模型的隐含层的节点数目的计算,包括:
根据温度故障模型的输入层节点数目、输出层节点数目选择初始值,选择初始模型的隐含层节点数目为5;对所述温度故障模型进行训练,采用公式
Figure 720544DEST_PATH_IMAGE001
计算隐含层的节点数目,其中,
Figure 935624DEST_PATH_IMAGE002
为第i个节点的总输入,X表示多种输入参数向量,W为模型的连接权值向量;增加或减少模型的隐含层节点数目,根据模型精度和收敛速度选择误差最小的隐含层节点数;根据数据仿真计算得出,隐含层节点数目增加,模型输出误差逐渐减小,节点数目为8时,模型输出误差最小,节点数目超过8之后,模型输出误差逐渐增大。
一种故障冗余机制的安全芯片处理器方法,包括以下步骤:
采用当前运算单元根据安全运算逻辑进行安全运算任务,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
若当前运算单元存在故障,则让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
进一步地,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
进一步地,所述故障预测模型包括温度故障模型和预测模型,温度故障模型的输入为芯片表面温度和环境温度,输出为芯片输出频率,用于分析芯片表面温度和环境温度对芯片输出频率、以及芯片输出频率在预设工作条件下随时间的变化趋势;预测模型的输入为当前五个连续时刻的工作频率,输出为预测的未来下一时刻的工作频率,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
进一步地,所述温度故障模型的训练包括:
将采集的输入特征参数信号经过预处理,形成期望输出样本
Figure 24803DEST_PATH_IMAGE003
Figure 881901DEST_PATH_IMAGE004
;输入特征参数信号包括频率f、输出电压V和输出电流I;
将采集的输出特征参数信号经过预处理,得到输入样本
Figure 310608DEST_PATH_IMAGE005
Figure 962169DEST_PATH_IMAGE006
;输出特征参数信号包括温度T、湿度
Figure 804223DEST_PATH_IMAGE007
、辐射强度
Figure 933853DEST_PATH_IMAGE008
、振动频率
Figure 482646DEST_PATH_IMAGE009
、振动幅度
Figure 367426DEST_PATH_IMAGE010
将输入样本
Figure 634459DEST_PATH_IMAGE011
输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出
Figure 567780DEST_PATH_IMAGE012
的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的温度故障模型,得到满足条件的隐含层连接权值矩阵
Figure 767817DEST_PATH_IMAGE013
和输出层连接权值矩阵
Figure 26760DEST_PATH_IMAGE014
Figure 515510DEST_PATH_IMAGE015
根据收敛的温度故障模型、隐含层连接权值矩阵
Figure 252522DEST_PATH_IMAGE016
和输出层连接权值矩阵
Figure 572645DEST_PATH_IMAGE017
,完成所述温度故障模型的训练。
进一步地,所述预测模型的训练包括:
选取连续五个时刻的频率参数作为预测模型的样本输入
Figure 736910DEST_PATH_IMAGE018
,选取第六组频率参数作为样本期望输出
Figure 712956DEST_PATH_IMAGE019
Figure 50397DEST_PATH_IMAGE020
将输入样本
Figure 693868DEST_PATH_IMAGE021
输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出
Figure 763455DEST_PATH_IMAGE022
的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的预测模型,得到满足条件的隐含层连接权值矩阵
Figure 492377DEST_PATH_IMAGE023
和输出层连接权值矩阵
Figure 367929DEST_PATH_IMAGE024
Figure 600327DEST_PATH_IMAGE025
根据收敛的预测模型、隐含层连接权值矩阵
Figure 106395DEST_PATH_IMAGE026
和输出层连接权值矩阵
Figure 119350DEST_PATH_IMAGE027
,完成所述预测模型的训练。
相比于现有技术,本发明具有以下优点:
本发明提供了一种故障冗余机制的安全芯片处理器及处理方法,设立多组并行独立的运算单元,避免因当前运算单元出现故障,导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,预测故障,提前预警,让芯片处理器持续有效地执行安全运算任务。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
附图说明
图1为本发明实施例一中故障冗余机制的安全芯片处理器的原理框图;
图2为本发明实施例二中故障冗余机制的安全芯片处理方法的控制流程图;
图3为本发明实施例一和实施例二中预测芯片处理器故障的预测流程图;
图4为本发明实施例一和实施例二中故障预测模型训练时的误差控制流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一:
参照图1,一种故障冗余机制的安全芯片处理器,包括:
安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,用于根据安全运算逻辑进行安全运算任务;具体地,可以将当前运算单元和多组冗余备份运算单元设计成相同结构,各个运算单元可以并行独立工作、独立完成安全运算任务。
特征参数提取模块,用于实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;具体地,指定的特征参数包括芯片表面温度、环境温度和芯片输出频率,除此之外,在后文训练温度故障模型时,还需要提取的特征参数包括输入特征参数信号和输出特征参数信号,输入特征参数信号包括频率f、输出电压V、输出电流I等,输出特征参数信号包括温度T、湿度
Figure 1855DEST_PATH_IMAGE007
、辐射强度
Figure 88760DEST_PATH_IMAGE008
、振动频率
Figure 828046DEST_PATH_IMAGE009
、振动幅度
Figure 265981DEST_PATH_IMAGE028
等。
特征参数分析模块,用于实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律。
故障预测模块,用于采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障。具体地,所述故障预测模型包括温度故障模型和预测模型,所述温度故障模型和预测模型均包括输入层、隐含层和输出层;温度故障模型的输入层有两个节点数,分别输入芯片表面温度和环境温度,输出层有一个节点数,输出芯片输出频率,隐含层有八个节点数,用于分析是否存在温度故障;预测模型的输入层有五个节点数,分别输入当前五个连续时刻的工作频率,输出层有一个节点数,输出预测的未来下一时刻的工作频率,隐含层有十二个节点数,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
故障处理模块,用于让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
上述故障冗余机制的安全芯片处理器,在芯片处理器内部设立了多组并行独立的运算单元,若当前运算单元出现故障,可以停止该运算单元,并将另外的运算单元提升为当前运算单元,继续执行安全运算任务,可以有效防止因故障导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,能够在芯片处理器发生故障前预测故障的发生,提前预警,能够根据芯片处理器工作状态进行维护,可以提前对运算单元进行更换,让芯片处理器持续有效地执行安全运算任务,无需等到芯片处理器完全停运,进一步降低维护成本并将故障造成的损失降到最低。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
上述故障冗余机制的安全芯片处理器,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,具体方法包括:
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。这样,可以提高芯片处理器的故障预测准确率,让故障预测精确度满足应用要求。具体地,安全运算单元的运算特征参数的函数变化关系一般包括阶跃型函数、线性函数、Sigmoid函数和双曲线正切函数。通过监测特征参数的变化频率值是否发生故障,从而分析输出频率与使用时间的关系,预测芯片是否发生故障。
上述故障冗余机制的安全芯片处理器,所述温度故障模型的隐含层的节点数目的计算方法如下:
根据温度故障模型的输入层节点数目、输出层节点数目选择初始值,选择初始模型的隐含层节点数目为5;对所述温度故障模型进行训练,采用公式
Figure 421018DEST_PATH_IMAGE001
计算隐含层的节点数目,其中,
Figure 893588DEST_PATH_IMAGE002
为第i个节点的总输入,X表示多种输入参数向量,W为模型的连接权值向量;增加或减少模型的隐含层节点数目,根据模型精度和收敛速度选择误差最小的隐含层节点数;根据数据仿真计算得出,隐含层节点数目增加,模型输出误差逐渐减小,节点数目为8时,模型输出误差最小,节点数目超过8之后,模型输出误差逐渐增大。
具体实施时,可以将多个安全运算单元的输入接口相互连通、输出接口相互连通,每个安全运算单元可以包括计算处理块和故障处理开关块;未发生故障时,只有当前运算单元的故障处理开关块处于开启状态,并由对应的计算处理块按照安全运算逻辑进行安全运算任务,其余运算单元的故障处理开关块均处于关闭状态;若当前运算单元发生故障,则通过故障处理模块将对应的故障处理开关块关闭,并标记故障和通知维护,以便维护人员及时维护/维修,同时,从其余的运算单元中提取一个运算单元,将其故障处理开关块打开,继续执行安全运算任务。
由于芯片处理器的性能发生恶化,并不会直接表现为功能故障,首先表现为性能参数下降,比如电路延迟、工作频率降低、噪声大等,当性能参数下降幅度达到一定程度,芯片性能恶化,影响正常工作。因此,通过分析运算特征参数的性能变化,可以判断出是否出现故障,提前预警,可以提前停止有预测故障的运算单元,让其他运行单元替换,让芯片处理器持续有效地执行安全运算任务,无需等到芯片处理器完全停运,进而降低维护成本并将故障造成的损失降到最低。这样,可以提高故障预测准确率,让故障预测精确度满足应用要求。
实施例二:
参照图2,一种故障冗余机制的安全芯片处理器方法,包括以下步骤:
采用当前运算单元根据安全运算逻辑进行安全运算任务,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数。具体地,在芯片处理器内部设有一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,可以将当前运算单元和多组冗余备份运算单元设计成相同结构,各个运算单元可以并行独立工作、独立完成安全运算任务。指定的特征参数包括芯片表面温度、环境温度和芯片输出频率,除此之外,在后文训练温度故障模型时,还需要提取的特征参数包括输入特征参数信号和输出特征参数信号,输入特征参数信号包括频率f、输出电压V、输出电流I等,输出特征参数信号包括温度T、湿度
Figure 538196DEST_PATH_IMAGE029
、辐射强度
Figure 197847DEST_PATH_IMAGE008
、振动频率
Figure 422155DEST_PATH_IMAGE009
、振动幅度
Figure 545969DEST_PATH_IMAGE028
等。
采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障。具体地,所述故障预测模型包括温度故障模型和预测模型,温度故障模型的输入为芯片表面温度和环境温度,输出为芯片输出频率,用于分析芯片表面温度和环境温度对芯片输出频率、以及芯片输出频率在预设工作条件下随时间的变化趋势;预测模型的输入为当前五个连续时刻的工作频率,输出为预测的未来下一时刻的工作频率,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
若当前运算单元存在故障,则让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务。
上述故障冗余机制的安全芯片处理方法,在芯片处理器内部设立了多组并行独立的运算单元,若当前运算单元出现故障,可以停止该运算单元,并将另外的运算单元提升为当前运算单元,继续执行安全运算任务,可以有效防止因故障导致整个处理器停止运行,降低因故障造成的损失。通过提取和分析运算参数信息中的特征参数,能够在芯片处理器发生故障前预测故障的发生,提前预警,能够根据芯片处理器工作状态进行维护,可以提前对运算单元进行更换,让芯片处理器持续有效地执行安全运算任务,无需等到芯片处理器完全停运,进一步降低维护成本并将故障造成的损失降到最低。具有可预测芯片处理器的故障、防止芯片处理器因故障停止运算、提高故障预测准确率和故障预测精确度满足应用要求等优点。
上述故障冗余机制的安全芯片处理方法,参照图3,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
这样,可以提高芯片处理器的故障预测准确率,让故障预测精确度满足应用要求。具体地,安全运算单元的运算特征参数的函数变化关系一般包括阶跃型函数、线性函数、Sigmoid函数和双曲线正切函数。通过监测特征参数的变化频率值是否发生故障,从而分析输出频率与使用时间的关系,预测芯片是否发生故障。
上述故障冗余机制的安全芯片处理方法,所述温度故障模型的训练包括:
将采集的输入特征参数信号经过预处理,形成期望输出样本
Figure 830320DEST_PATH_IMAGE003
Figure 977268DEST_PATH_IMAGE004
;输入特征参数信号包括频率f、输出电压V和输出电流I;
将采集的输出特征参数信号经过预处理,得到输入样本
Figure 739687DEST_PATH_IMAGE005
Figure 718008DEST_PATH_IMAGE006
;输出特征参数信号包括温度T、湿度
Figure 907680DEST_PATH_IMAGE007
、辐射强度
Figure 807503DEST_PATH_IMAGE008
、振动频率
Figure 170352DEST_PATH_IMAGE009
、振动幅度
Figure 206441DEST_PATH_IMAGE010
将输入样本
Figure 567015DEST_PATH_IMAGE011
输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出
Figure 750871DEST_PATH_IMAGE012
的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的温度故障模型,得到满足条件的隐含层连接权值矩阵
Figure 855094DEST_PATH_IMAGE013
和输出层连接权值矩阵
Figure 745689DEST_PATH_IMAGE014
Figure 542744DEST_PATH_IMAGE015
根据收敛的温度故障模型、隐含层连接权值矩阵
Figure 948318DEST_PATH_IMAGE016
和输出层连接权值矩阵
Figure 856231DEST_PATH_IMAGE017
,完成所述温度故障模型的训练。
上述故障冗余机制的安全芯片处理方法,所述预测模型的训练包括:
选取连续五个时刻的频率参数作为预测模型的样本输入
Figure 866912DEST_PATH_IMAGE018
,选取第六组频率参数作为样本期望输出
Figure 631606DEST_PATH_IMAGE019
Figure 727738DEST_PATH_IMAGE020
将输入样本
Figure 908183DEST_PATH_IMAGE021
输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出
Figure 38950DEST_PATH_IMAGE022
的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的预测模型,得到满足条件的隐含层连接权值矩阵
Figure 974545DEST_PATH_IMAGE023
和输出层连接权值矩阵
Figure 292394DEST_PATH_IMAGE024
Figure 542110DEST_PATH_IMAGE025
根据收敛的预测模型、隐含层连接权值矩阵
Figure 335840DEST_PATH_IMAGE026
和输出层连接权值矩阵
Figure 645599DEST_PATH_IMAGE027
,完成所述预测模型的训练.
在上述温度故障模型和预测模型的训练过程中,参照图4,首先根据公式
Figure 450743DEST_PATH_IMAGE030
依次计算出各层节点的输出值,再根据公式
Figure 300888DEST_PATH_IMAGE031
计算模型的误差;判断误差是否满足要求,若是则结束训练,若否则说明误差偏大,需要进行误差反向传播计算,根据隐含层输出向量和输出层输出向量计算期望输出向量,计算输出层和隐含层的修改量,修改连接权值后,再计算模型的误差,并判断误差是否满足要求。当实际误差小于期望误差则判定满足要求。其中,H表示隐含层节点数目,M表示输入层节点数目,
Figure 140668DEST_PATH_IMAGE032
表示模型内部的激活函数类型,可以采用Sigmoid函数,R表示所有实数的集合。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的保护范围当中。

Claims (4)

1.一种故障冗余机制的安全芯片处理器,其特征在于,包括:
安全运算模块,包括一组当前运算单元和至少一组冗余备份运算单元,当前运算单元和冗余备份运算单元并行运作,用于根据安全运算逻辑进行安全运算任务;
特征参数提取模块,用于实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
故障预测模块,用于采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
故障处理模块,用于让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务;
特征参数分析模块,用于实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
所述故障预测模型包括温度故障模型和预测模型,所述温度故障模型和预测模型均包括输入层、隐含层和输出层;温度故障模型的输入层有两个节点数,分别输入芯片表面温度和环境温度,输出层有一个节点数,输出芯片输出频率,隐含层有八个节点数,用于分析是否存在温度故障;预测模型的输入层有五个节点数,分别输入当前五个连续时刻的工作频率,输出层有一个节点数,输出预测的未来下一时刻的工作频率,隐含层有十二个节点数,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值。
2.根据权利要求1所述的故障冗余机制的安全芯片处理器,其特征在于,所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障。
3.一种故障冗余机制的安全芯片处理方法,其特征在于,包括以下步骤:
采用当前运算单元和至少一组冗余备份运算单元根据安全运算逻辑进行安全运算任务,实时获取当前运算单元的运算参数信息,并从运算参数信息中提取指定的特征参数;
采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大,则判定当前运算单元存在故障;
若当前运算单元存在故障,则让当前运算单元停止运行,并将该运算单元标记为故障运算单元;将其中一个冗余备份运算单元提升为当前运算单元,继续执行安全运算任务;
所述采用故障预测模型根据特征参数预测分析当前运算单元的故障可能性,若故障可能性持续增大时,则判定当前运算单元存在故障,包括:
实时监测所述特征参数的变化频率,并分析特征参数之间的函数关系和变化规律;所述特征参数包括芯片表面温度、环境温度和芯片输出频率;
采用故障预测模型根据特征参数的变化频率、特征参数间的变化关系来预测分析当前运算单元发生故障的特征参数的取值,将监测的实时特征参数和预测的故障特征参数进行对比,若实时特征参数和故障特征参数的绝对差值持续减小,则认为当前运算单元的故障可能性持续增大,判定当前运算单元存在故障;
所述故障预测模型包括温度故障模型和预测模型,温度故障模型的输入为芯片表面温度和环境温度,输出为芯片输出频率,用于分析芯片表面温度和环境温度对芯片输出频率、以及芯片输出频率在预设工作条件下随时间的变化趋势;预测模型的输入为当前五个连续时刻的工作频率,输出为预测的未来下一时刻的工作频率,用于根据当前时刻的工作频率预测分析当前运算单元在未来时刻的故障工作频率的取值;
所述温度故障模型的训练包括:
将采集的输入特征参数信号经过预处理,形成期望输出样本
Figure 995800DEST_PATH_IMAGE001
Figure 178520DEST_PATH_IMAGE002
;输入特征参数信号包括频率f、输出电压V和输出电流I;
将采集的输出特征参数信号经过预处理,得到输入样本
Figure 995076DEST_PATH_IMAGE003
Figure 655865DEST_PATH_IMAGE004
;输出特征参数信号包括温度T、湿度
Figure 266975DEST_PATH_IMAGE005
、辐射强度
Figure 355017DEST_PATH_IMAGE006
、振动频率
Figure 887629DEST_PATH_IMAGE007
、振动幅度
Figure 352108DEST_PATH_IMAGE008
将输入样本
Figure 302878DEST_PATH_IMAGE009
输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出
Figure 561821DEST_PATH_IMAGE010
的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的温度故障模型,得到满足条件的隐含层连接权值矩阵
Figure 581730DEST_PATH_IMAGE011
和输出层连接权值矩阵
Figure 584321DEST_PATH_IMAGE012
Figure 373285DEST_PATH_IMAGE013
根据收敛的温度故障模型、隐含层连接权值矩阵
Figure 334288DEST_PATH_IMAGE014
和输出层连接权值矩阵
Figure 592225DEST_PATH_IMAGE015
,完成所述温度故障模型的训练。
4.根据权利要求3所述的故障冗余机制的安全芯片处理方法,其特征在于,所述预测模型的训练包括:
选取连续五个时刻的频率参数作为预测模型的样本输入
Figure 132928DEST_PATH_IMAGE016
,选取第六组频率参数作为样本期望输出
Figure 41978DEST_PATH_IMAGE017
Figure 642724DEST_PATH_IMAGE018
将输入样本
Figure 637224DEST_PATH_IMAGE019
输入所述温度故障模型,按照模型的正向传播计算模型的实际输出,计算实际输出与期望输出
Figure 981618DEST_PATH_IMAGE020
的误差,判断误差是否满足预设要求,若是,则训练结束,若否,则进行误差反向传播计算;经过反复迭代,计算得到满足预设要求的连接权值;得到收敛的预测模型,得到满足条件的隐含层连接权值矩阵
Figure 10754DEST_PATH_IMAGE021
和输出层连接权值矩阵
Figure 798713DEST_PATH_IMAGE022
Figure 14930DEST_PATH_IMAGE023
根据收敛的预测模型、隐含层连接权值矩阵
Figure 163015DEST_PATH_IMAGE024
和输出层连接权值矩阵
Figure 781078DEST_PATH_IMAGE025
,完成所述预测模型的训练。
CN202110162352.7A 2021-02-05 2021-02-05 一种故障冗余机制的安全芯片处理器及处理方法 Active CN112506718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110162352.7A CN112506718B (zh) 2021-02-05 2021-02-05 一种故障冗余机制的安全芯片处理器及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110162352.7A CN112506718B (zh) 2021-02-05 2021-02-05 一种故障冗余机制的安全芯片处理器及处理方法

Publications (2)

Publication Number Publication Date
CN112506718A CN112506718A (zh) 2021-03-16
CN112506718B true CN112506718B (zh) 2021-05-11

Family

ID=74953125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110162352.7A Active CN112506718B (zh) 2021-02-05 2021-02-05 一种故障冗余机制的安全芯片处理器及处理方法

Country Status (1)

Country Link
CN (1) CN112506718B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936117A (zh) * 2021-09-02 2022-08-23 华为技术有限公司 模型训练的方法、服务器、芯片以及系统
CN116149897B (zh) * 2023-04-19 2023-07-04 苏州云途半导体有限公司 一种芯片功能安全故障处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988918B (zh) * 2015-02-26 2019-03-08 阿里巴巴集团控股有限公司 预测gpu故障的方法和装置
CN106933145B (zh) * 2017-03-09 2019-04-23 上海微小卫星工程中心 一种星载处理系统及其控制运行方法
CN111242357B (zh) * 2020-01-06 2024-02-02 北京锦鸿希电信息技术股份有限公司 基于神经网络学习的列车车载设备故障预测方法及装置

Also Published As

Publication number Publication date
CN112506718A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112202736B (zh) 基于统计学习和深度学习的通信网络异常分类方法
CN112506718B (zh) 一种故障冗余机制的安全芯片处理器及处理方法
US9483049B2 (en) Anomaly detection and diagnosis/prognosis method, anomaly detection and diagnosis/prognosis system, and anomaly detection and diagnosis/prognosis program
CN113642754B (zh) 一种基于rf降噪自编码信息重构和时间卷积网络的复杂工业过程故障预测方法
Saeed et al. Online fault monitoring based on deep neural network & sliding window technique
CN110530650B (zh) 基于广义回归神经网络与箱型图分析的重型燃气轮机性能状态监测方法
KR102501883B1 (ko) 기계 학습 기반의 설비 이상 분류 시스템 및 방법
CN112799898B (zh) 基于分布式故障检测的互联系统故障节点定位方法及系统
Kim et al. Abnormality diagnosis model for nuclear power plants using two-stage gated recurrent units
CN112632845B (zh) 基于数据的小型反应堆在线故障诊断方法、介质及设备
CN115017826B (zh) 一种装备剩余使用寿命预测方法
KR102501884B1 (ko) 기계 학습 기반의 설비 이상 진단 시스템 및 방법
CN112598144A (zh) 基于相关性分析的cnn-lstm突发故障预警方法
CN106354125A (zh) 一种利用分块pca检测化工过程故障的方法
Duan Dynamic Bayesian monitoring and detection for partially observable machines under multivariate observations
CN113743750B (zh) 核电厂工艺系统过程风险评估系统及方法
Ahmadi et al. Fault detection Automation in Distributed Control Systems using Data-driven methods: SVM and KNN
WO2015037066A1 (ja) プラント事故時運転支援システム及びプラント事故時運転支援方法
CN112380763A (zh) 一种基于数据挖掘的堆内构件可靠性分析系统及方法
CN114943281B (zh) 一种热管冷却反应堆智能决策方法及系统
KR20230102431A (ko) 인공지능 기반의 오일가스 플랜트 설비 고장 예측 및 진단시스템
Cao et al. An adaptive UKF algorithm for process fault prognostics
Lorenti et al. Predictive maintenance in the industry: A comparative study on deep learning-based remaining useful life estimation
CN107463164B (zh) 基于工业大数据多层核学习的连续加热釜快速故障检测法
CN110783007A (zh) 一种反应堆控制室系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210316

Assignee: Hangzhou Weiming Information Technology Co.,Ltd.

Assignor: Zhejiang core Gravity Technology Co.,Ltd.

Contract record no.: X2021330000325

Denomination of invention: A safety chip processor with fault redundancy mechanism and its processing method

Granted publication date: 20210511

License type: Common License

Record date: 20210927