CN103246562B - 一种基于众核阵列架构的故障主动预防策略及装置 - Google Patents

一种基于众核阵列架构的故障主动预防策略及装置 Download PDF

Info

Publication number
CN103246562B
CN103246562B CN201310142355.XA CN201310142355A CN103246562B CN 103246562 B CN103246562 B CN 103246562B CN 201310142355 A CN201310142355 A CN 201310142355A CN 103246562 B CN103246562 B CN 103246562B
Authority
CN
China
Prior art keywords
core
processor core
processor
duty
many
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310142355.XA
Other languages
English (en)
Other versions
CN103246562A (zh
Inventor
应忍冬
叶凝
陈鹰翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310142355.XA priority Critical patent/CN103246562B/zh
Publication of CN103246562A publication Critical patent/CN103246562A/zh
Application granted granted Critical
Publication of CN103246562B publication Critical patent/CN103246562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种基于众核阵列架构的故障主动预防策略及装置。该策略主要包括:确认系统中空闲的处理器核的数量与位置;依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找一批同等数量的处于工作状态的处理器核;定时地将处于空闲状态的与工作状态的处理器核进行状态同步并互换功能;对从工作状态切换到空闲状态的处理器核进行集中维护。相比于现有的技术方案,本发明提出的处理器核切换方法对阵列架构下的拓扑结构影响小,对阵列架构中路由器的设置改动小,切换时状态同步步骤与输入输出接口变更步骤消耗的代价小,能在使用最少的冗余处理器核的情况下,对全部处理器核进行定期维护。

Description

一种基于众核阵列架构的故障主动预防策略及装置
技术领域
本发明涉及处理器核阵列架构领域,特别涉及一种主动预防故障的处理器核的定期切换策略以及相应的装置。
背景技术
相比较单核处理器,多核处理器阵列具有并行处理能力强、计算性能好、可靠性高等特点。究其原因,多核处理器阵列中的各个处理器核可以独立地配置、执行功能。这就给多核处理器阵列带来的可重构、自修复和自适应等关键特征。多核处理器阵列取代单核处理器将是可预见的。
而多核处理器阵列可重构、自修复和自适应的特征决定了多核处理器阵列可以应用多种不同的策略进一步地提高系统的可靠性。
目前,关于多核处理器阵列在可靠性方面会有如下两个事实:
1)对于一个处于工作状态的处理器核而言,在长时间的正常工作后,其出现错误的概率会由于软件内存泄漏和硬件升温等问题逐渐上升。因而在一定时间的正常工作后,特定时刻的出错概率增大到一定的程度,从而随时可能产生错误造成系统故障。
2)把一个正常工作的处理器核与空闲的备份核进行切换所花费的代价要远远小于系统故障后再将出错的处理器核与空闲的备份核进行切换所花费的代价。这其中包括了技术上状态同步的原因与对实际任务造成的损失。
一般而言,定时进行处理器核的更换和维修可以在较小的代价下较好地解决上述处理器核长时间持续工作的出错率上升问题。
现有的定时处理器核更换技术方案使用固定的冗余结构,这意味着特定处理器核的备用处理器核是固定的,在阵列不够大、处理器核数量不足的情况下,不能够保证所有处理器核都能得到备用或轮换。
本发明针对上述问题,在国家高技术研究发展计划(863计划)编号为2011AA120201的课题的资助下,提出了一套新的定时更换处理器核的策略。在本策略中,特定处理器核的备用处理器核不是固定的,而是按照一定的原则进行遍历轮换,而且使得系统能够更大程度地减少更换、维修处理器核的代价,能在处理器核数量有限的情况下让所有处理器核都得到轮换。
发明内容
本发明针对现有技术存在的上述不足,提供了一种基于众核阵列架构的故障主动预防策略,其目的在于解决处理器核长时间工作出错率上升的问题,要求消耗的代价尽可能小并且所有处理器核都能得到轮换。
本发明通过以下技术方案实现:
一种基于众核阵列架构的故障主动预防策略,包括:
S1、确认众核阵列中空闲状态处理器核的数量与位置;
S2、依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找一组同等数量的工作状态处理器核;
S3、将S2中的工作状态处理器核与S1中的空闲状态处理器核进行状态同步与状态切换;
S4、对从工作状态切换到空闲状态的处理器核进行断电重配置与维护;
S5、工作一段固定的时间后,再次执行本策略。
较佳的,依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找一组同等数量的处于工作状态的处理器核,包括步骤:
第一步,确定空闲状态处理器核组成的拓扑结构;
第二步,依次查找每一个空闲状态处理器核相邻的工作状态处理器核;
第三步,在所有空闲状态处理器核的相邻工作状态处理器核中查找能够组成相同拓扑结构的若干组工作状态处理器核;
第四步,在第三步的结果中,查找已经持续工作时间最长的一组处理器核;如果能查找到不止一组持续时间最长的工作处理器核,则进行第五步,否则进行第七步;
第五步,在第四步的结果中,查找被维护次数最少的一组处理器核;如果能查找到不止一组维护次数最少的处理器核,则进行第六步,否则进行第七步;
第六步,在第五步的结果中,依次确认各个处理器核的ID,查找包含具有最小ID的一组处理器核;
第七步,查找到的唯一的一组工作状态处理器核即为查找结果。
较佳的,定期地将工作状态处理器核与空闲状态处理器核进行状态同步与状态切换,还包括:
进行切换的工作状态处理器核是依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找得到的一组工作状态处理器核。
较佳的,定期地将工作状态处理器核与空闲状态处理器核进行状态同步与状态切换,包括步骤:
第一步,对空闲状态处理器核进行功能配置;
第二步,将工作状态处理器核的状态、数据等内容同步到相对应的已完成配置的空闲状态处理器核中;
第三步,将工作状态处理器核的输入同时输入给已完成配置与同步的空闲状态处理器核;
第四步,空闲状态处理器核开始工作但不将结果输出给后续功能模块;
第五步,比较原工作状态处理器核与原空闲状态处理器核的工作结果是否同步并一致;如果结果同步并一致,则进行第六步,否则进行第一步;
第六步,将原空闲状态处理器核的结果输出给后续功能模块,开始记录工作时间;
第七步,切断原工作状态处理器核的输入与输出,停止其功能。
较佳的,对从工作状态切换到空闲状态的处理器核进行断电重配置与维护,还包括:
记录完成重新配置与维护的处理器核的已维护次数,为之后的切换过程提供依据。
本发明还提供了一种基于众核阵列架构的故障主动预防装置,其目的在于解决处理器核长时间工作出错率上升的问题,要求消耗的代价尽可能小并且所有处理器核都能得到轮换。
一种基于众核阵列架构的故障主动预防装置,包括:
处理器众核阵列模块,包括若干空闲状态处理器核和工作状态处理器核,以及处理器核重构控制模块;
切换处理器核查找模块,用于确认空闲状态处理器核与查找需要切换的工作状态处理器核;
记录模块,用于记录处理器众核阵列模块中各个处理器核的ID与已维护次数以及工作状态处理器核的持续工作时间;
切换模块,用于控制空闲状态处理器核与工作状态处理器核的切换过程,能够调用处理器核重构控制模块;
计时模块,用于监视处理器众核阵列模块所在系统的工作时间、处理器众核阵列模块中工作状态处理器核的持续工作时间,并为切换模块的工作提供使能信号。
较佳的,的切换处理器核查找模块,将确认空闲状态处理器核的数量、位置与组成的拓扑结构;
依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找用于切换的工作状态处理器核。
较佳的,的记录模块,记录处理器众核阵列模块中各个处理器核的ID;
在原空闲状态处理器核切换至工作状态后,开始记录该处理器核的持续工作时间;
在原工作状态处理器核切换至空闲状态并完成维护后,修改和记录该处理器核的维护次数。
较佳的,的切换模块,在使能信号的控制下,将处理器众核阵列模块中的空闲状态处理器核与切换处理器核查找模块输出的查找结果进行状态同步与状态切换;
对切换至空闲状态的处理器核进行维护;
将维护情况报告至记录模块进行记录。
较佳的,的计时模块,为切换模块提供使能信号控制其进行切换操作;
监视处理器众核阵列模块所在系统的工作时间、处理器众核阵列模块中被切换至工作状态的处理器核的持续工作时间;
将该监视结果报告至记录模块进行记录。
较佳的,的处理器众核阵列模块,是其所在系统的硬件基础,执行系统功能,具有对处理器核进行重构配置的能力和修改处理器众核阵列模块中的路由设备配置信息的能力。
与现有的固定冗余备用技术方案相比,应用本发明提供的一种基于众核阵列架构的故障主动预防策略与装置,因为切换工作处理器核的查找是按照空闲处理器核的拓扑结构的,所以对系统拓扑结构的影响是最小的;因为切换工作处理器核查找的是相邻的处理器核,所以切换过程中同步步骤的耗时是最少的、对处理器阵列中路由器配置的修改是最小的;因为切换工作处理器核的查找是按照遍历和长时优先原则的,所以最大程度地解决了处理器核长时间持续工作的出错率上升问题,延长了处理器阵列整体的寿命;本策略还能够遍历所有处理器核,能在硬件资源不足的情况下让所有处理器核都能得到轮换。
附图说明
图1所示的是一个4×4处理器阵列架构;
图2所示的是本发明实施例一提供的一种基于众核阵列架构的故障主动预防策略的流程图;
图3所示的是本发明实施例一提供的一种基于众核阵列架构的故障主动预防策略实施过程中查找合适的切换工作处理器核组的具体步骤流程图;
图4所示的是本发明实施例一提供的一种基于众核阵列架构的故障主动预防策略实施过程中执行切换的具体步骤流程图;
图5所示的是本发明实施例一提供的在空闲处理器核数量为四的情况下执行主动预防错误处理器核切换策略的具体步骤的示意图;
图6所示的是本发明实施例一提供的在空闲处理器核数量为一的情况下执行主动预防错误处理器核切换策略的具体步骤的示意图;
图7所示的是本发明实施例二提供的一种基于众核阵列架构的故障主动预防装置的具体结构图。
具体实施方式
以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述和讨论,显然,这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例作进一步的解释说明,且各个实施例不构成对本发明实施例的限定。
实施例一
该实施例提供的一种基于众核阵列架构的故障主动预防策略的执行流程图如图2所示,包括以下步骤:
步骤201,对于一个处于工作状态的处理器众核阵列,其中会有部分处理器核不参与功能的实现而是作为备用处理器核,平时处于空闲状态;在进行主动预防错误的处理器核切换过程的第一步就是确认当前的处理器阵列中的空闲处理器核的数量与位置,这些空闲的处理器核将在之后的步骤中依次替换当前正在工作的一组处理器核,以完成定期维护预防错误的目的;
步骤202,将根据步骤201得到的空闲处理器核数量与位置信息,依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找一组同等数量的处于工作状态的处理器核;
该实例提供了一种具体的查找合适的切换工作处理器核组的策略,其流程图如图3所示,主要包括:
步骤300,初始步骤;
步骤301,获得步骤201中确认的空闲处理器核的数量与位置信息;
步骤302,确定空闲处理器核组成的拓扑结构;
步骤303,依次查找每一个空闲处理器核相邻的工作处理器核;
步骤304,查找能够组成相同拓扑结构的工作处理器核组;
步骤305,检查步骤304中得到的结果是否唯一,如果唯一,执行步骤306;否则执行步骤307;
步骤306,结果确定;然后执行步骤310;
步骤307,查找已经持续工作时间最长的处理器核组;
步骤308,检查步骤307中得到的结果是否唯一,如果唯一,执行步骤306;否则执行步骤309;
步骤309,确认各个处理器核的ID,查找包含最小ID处理器核的工作处理器核组;然后执行步骤306;
步骤310,查找完毕,得到最为合适的一组工作处理器核;
在以上的步骤中,我们得到了用于切换的工作处理器核组;
步骤203,将处于空闲状态的与处于工作状态的处理器核进行状态同步;
步骤204,将处于空闲状态的与处于工作状态的处理器核进行状态切换;
该实例提供了一种具体的执行状态同步与状态切换过程的策略,其流程图如图4所示,主要包括:
步骤400,初始步骤;
步骤401,对空闲处理器核按照即将替换的工作处理器核的功能进行重新配置;
步骤402,将工作处理器核的状态、数据等信息同步到相应的已完成配置的空闲处理器核中;
步骤403,将工作处理器核组的输入同时输入给新完成配置与同步的空闲处理器核组;
步骤404,空闲处理器核组开始工作但不将结果输出至后续功能模块;
步骤405,比较原工作处理器核组与原空闲处理器核组的工作结果;
步骤406,如果两者结果同步且一致,则执行步骤407;否则执行步骤401;
步骤407,将原空闲处理器核组的输出输出给后续功能模块,并开始记录工作时间;
步骤408,切断原工作处理器核组的输入与输出,停止其功能;
步骤409,完成切换过程;
在以上的步骤中,我们完成了合适的工作处理器核与空闲处理器核的切换过程;之后,原空闲处理器核将代替原工作处理器核完成功能,而原工作处理器核则转为空闲处理器核,执行后续步骤;
步骤204,新系统开始工作;对从工作状态切换到空闲状态的处理器核进行断电重配置处理与适当的维护、维修,并记录各个处理器被维护的次数;这些新的空闲处理器将在之后的定期主动预防错误处理器核切换过程中被使用;在系统工作一段固定的时间后,再次执行本策略。
例如图5所示的在空闲处理器核数量为四的情况下执行主动预防错误处理器核切换策略的具体步骤的示意图,其中处理器阵列中各个处理器核上标注的数字是各个处理器核的ID,并且在图中,无填充的处理器核表示空闲状态的处理器核,有斜线阴影填充的处理器核表示工作状态的处理器核;
初始情况如左上图所示,除了核3,7,11,15空闲以外,其余12个处理器核处于工作状态且持续工作时间相同,另外全部16个处理器核之前的维护次数都为0;
首先确定了四个处理器核:核3,7,11,15;它们的位置分别处于各行的最右端;
然后确认这四个空闲处理器核的拓扑结构:这四个处理器核组成了一个上下方向的直线型拓扑结构;
然后查找每个空闲处理器核的相邻工作处理器核:核3的相邻核为核2、0,核7的相邻核为核6、4,核11的相邻核为核10、8,核15的相邻核为核14、12;一共8个;
在这8个处理器核中查找能够组成相同拓扑结构的若干组处理器核:可以找到两组,分别是核2,6,10,14与核0,4,8,12;
显然目前结果还不唯一;
这两组处理器核持续工作的时间相同;
在这两组处理器核中,最小的处理器核ID为0,所以选择处理器核组0,4,8,12;
在系统工作了一段固定的时间之后,将核3与核0,核7与核4,核11与核8,核15与核12进行切换;
核3,7,11,15开始工作;核0,4,8,12空闲,开始维护,并记录这四个核的维护次数加一;
此时系统的情况如图5 的右上所示;
空闲处理器核组0,4,8,12,相邻的同拓扑结构处理器核组1,5,9,13与核组3,7,11,15;
由于核组3,7,11,15是之前步骤刚刚切换进入工作的,它们的持续工作时间少于核组1,5,9,13,所以选择处理器核组1,5,9,13;
在规定时间进行切换后,系统情况如图5右下所示;
此时,空闲处理器核组1,5,9,13,相邻的同拓扑结构处理器核组0,4,8,12与核组2,6,10,14;
由于核组0,4,8,12是之前步骤刚刚切换进入工作的,它们的持续工作时间少于核组2,6,10,14,所以选择处理器核组2,6,10,14;
在规定时间进行切换后,系统情况如图5左下所示;
此时,空闲处理器核组2,6,10,14,相邻的同拓扑结构处理器核组1,5,9,13与核组3,7,11,15;
由于核组1,5,9,13是之前步骤刚刚切换进入工作的,它们的持续工作时间少于核组3,7,11,15,所以选择处理器核组3,7,11,15;
在规定时间进行切换后,系统情况如图5左上所示;
至此,整个系统完成了一个周期的遍历,在这个周期中,每一个处理器核都得到了依次空闲整修的机会,而且由于是相邻的同拓扑切换,切换过程的代价最小。
例如图6所示的在空闲处理器核数量为一的情况下执行主动预防错误处理器核切换策略的具体步骤的示意图,其中处理器阵列中各个处理器核上标注的数字是各个处理器核的ID,并且在图中,无填充的处理器核表示空闲状态的处理器核,有斜线阴影填充的处理器核表示工作状态的处理器核;
初始情况如左上图所示,除了核3空闲以外,其余15个处理器核处于工作状态且持续工作时间相同,另外全部16个处理器核之前的维护次数都为0;
首先确定了一个处理器核:核3;位置处于第一行的最右端;
然后确认这个空闲处理器核的拓扑结构:单处理器核;
然后查找空闲处理器核的相邻工作处理器核:核3的相邻核为核0,2,7,15,一共4个;
在这4个处理器核中查找能够组成相同拓扑结构的若干组处理器核:可以找到4组,分别是核0,核2,核7与核15;
显然目前结果还不唯一;
这4组处理器核持续工作的时间相同;
在这4组处理器核中,最小的处理器核ID为0,所以选择处理器核组0;
在系统工作了一段固定的时间之后,将核3与核0进行切换;
核3开始工作;核0空闲,开始维护,并记录核0的维护次数加一;
此时系统的情况如图6 第一行第二张图所示;
依此类推,之后的各次切换情况与之相似,依次将核0与核1切换;核1与核2切换;核2与核6切换;核6与核5切换;核5与核4切换;核4与核7切换;核7与核11切换;核11与核8切换;核8与核9切换;核9与核10切换;核10与核14切换;核14与核13切换;核13与核12切换;核12与核15切换;核15与核3切换;
至此,整个系统完成了一个周期的遍历,在这个周期中,每一个处理器核都得到了依次空闲整修的机会,而且由于是相邻的同拓扑切换,切换过程的代价最小。
实施例二
该实施例提供了一种基于众核阵列架构的故障主动预防装置,其具体结构如图7所示,包括如下模块:
切换处理器核查找模块701,用于确认空闲处理器核与查找需要切换的工作处理器核;
记录模块702,用于记录处理器阵列中各个处理器核的ID与已维护次数以及工作处理器核的持续工作时间;
切换模块703,用于控制空闲处理器核与工作处理器核的状态同步与状态切换过程,能够调用处理器阵列的处理器核重构控制模块;
计时模块704,用于监视系统的工作时间、处理器阵列中工作处理器核的持续工作时间,并为切换模块的工作提供使能信号;
处理器阵列模块705,为实际完成功能的系统与本发明实施例的实施对象。
具体地,切换处理器核查找模块701,将确认空闲处理器核的数量、位置与组成的拓扑结构,并按照相邻、同拓扑结构、长时优先以及遍历的原则查找用于切换的工作处理器核;
具体地,记录模块702,将记录处理器阵列中各个处理器核的ID;在原空闲处理器核切换至工作状态后,开始记录该处理器核的持续工作时间;在原工作处理器核切换至空闲状态并完成维护后,修改记录的该处理器核的维护次数;
具体地,切换模块703,将在周期性的使能信号的控制下,将处理器阵列中的空闲处理器核与701模块输出的查找结果进行状态同步与状态切换,然后对切换至空闲状态的处理器核进行维护,并将维护情况报告至702模块进行记录;
具体地,计时模块704,将为模块703提供的使能信号控制其进行切换操作;将监视模块705的工作时间、处理器阵列中被切换至工作状态的处理器核的持续工作时间,并将该监视结果报告至模块702进行记录。
具体地,处理器阵列模块705,是多核系统的硬件基础,执行系统功能;除此之外,还具有对处理器核进行重构配置的能力和修改阵列中的路由设备配置信息的能力。
利用本发明实施例中提供的上述装置,能够以最小的代价实现基于阵列结构的主动预防错误的处理器核切换策略。
本领域普通技术人员可以理解上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括上述各方法的实施例流程。其中,所述的存储介质可谓磁碟、光盘、只读存储记忆体或随机存储记忆体等。
综上所述,本发明实施例通过查找与处理器阵列中空闲处理器核相邻的、相同拓扑结构的,按照长时优先和遍历的原则,对处理器阵列中的空闲处理器核与工作处理器核进行切换,从而能够以最小的代价与消耗,解决处理器核长时间持续工作的出错率上升问题,同时能够使每个处理器核获得轮换,延长了处理器阵列整体的寿命。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限与此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于众核阵列架构的故障主动预防策略,其特征在于,包括:
S1、确认众核阵列中空闲状态处理器核的数量与位置;
S2、依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找一组同等数量的工作状态处理器核;所述遍历包括:确认各个处理器核的ID,查找包含最小ID处理器核的工作处理器核组;
S3、将S2中的工作状态处理器核与S1中的空闲状态处理器核进行状态同步与状态切换;
S4、对从工作状态切换到空闲状态的处理器核进行断电重配置与维护;
S5、工作一段固定的时间后,再次执行本策略。
2.根据权利要求1所述的一种基于众核阵列架构的故障主动预防策略,其特征在于,所述依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找一组同等数量的处于工作状态的处理器核,包括步骤:
第一步,确定空闲状态处理器核组成的拓扑结构;
第二步,依次查找每一个空闲状态处理器核相邻的工作状态处理器核;
第三步,在所有空闲状态处理器核的相邻工作状态处理器核中查找能够组成相同拓扑结构的若干组工作状态处理器核;
第四步,在第三步的结果中,查找已经持续工作时间最长的一组处理器核;如果能查找到不止一组持续时间最长的工作处理器核,则进行第五步,否则进行第七步;
第五步,在第四步的结果中,查找被维护次数最少的一组处理器核;如果能查找到不止一组维护次数最少的处理器核,则进行第六步,否则进行第七步;
第六步,在第五步的结果中,依次确认各个处理器核的ID,查找包含具有最小ID的一组处理器核;
第七步,查找到的唯一的一组工作状态处理器核即为查找结果。
3.根据权利要求1所述的一种基于众核阵列架构的故障主动预防策略,其特征在于,定期地将工作状态处理器核与空闲状态处理器核进行状态同步与状态切换,还包括:
进行切换的工作状态处理器核是依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找得到的一组工作状态处理器核。
4.根据权利要求1所述的一种基于众核阵列架构的故障主动预防策略,其特征在于,定期地将工作状态处理器核与空闲状态处理器核进行状态同步与状态切换,包括步骤:
第一步,对空闲状态处理器核进行功能配置;
第二步,将工作状态处理器核的状态、数据等内容同步到相对应的已完成配置的空闲状态处理器核中;
第三步,将工作状态处理器核的输入同时输入给已完成配置与同步的空闲状态处理器核;
第四步,空闲状态处理器核开始工作但不将结果输出给后续功能模块;
第五步,比较原工作状态处理器核与原空闲状态处理器核的工作结果是否同步并一致;如果结果同步并一致,则进行第六步,否则进行第一步;
第六步,将原空闲状态处理器核的结果输出给后续功能模块,开始记录工作时间;
第七步,切断原工作状态处理器核的输入与输出,停止其功能。
5.根据权利要求1所述的一种基于众核阵列架构的故障主动预防策略,其特征在于,所述对从工作状态切换到空闲状态的处理器核进行断电重配置与维护,还包括:
记录完成重新配置与维护的处理器核的已维护次数,为之后的切换过程提供依据。
6.一种基于众核阵列架构的故障主动预防装置,其特征在于,包括:
处理器众核阵列模块,包括若干空闲状态处理器核和工作状态处理器核,以及处理器核重构控制模块;
切换处理器核查找模块,用于确认空闲状态处理器核与查找需要切换的工作状态处理器核;
记录模块,用于记录处理器众核阵列模块中各个处理器核的ID与已维护次数以及工作状态处理器核的持续工作时间;
切换模块,用于控制空闲状态处理器核与工作状态处理器核的切换过程,能够调用所述处理器核重构控制模块;
计时模块,用于监视所述处理器众核阵列模块所在系统的工作时间、处理器众核阵列模块中工作状态处理器核的持续工作时间,并为切换模块的工作提供使能信号;
所述的切换处理器核查找模块,将确认空闲状态处理器核的数量、位置与组成的拓扑结构;
依次按照4个优先级准则:1)拓扑相邻、2)同拓扑结构、3)长时优先、4)遍历,查找用于切换的工作状态处理器核;所述遍历包括:确认各个处理器核的ID,查找包含最小ID处理器核的工作处理器核组。
7.根据权利要求6所述的一种基于众核阵列架构的故障主动预防装置,其特征在于:
所述的记录模块,记录所述处理器众核阵列模块中各个处理器核的ID;
在原空闲状态处理器核切换至工作状态后,开始记录该处理器核的持续工作时间;
在原工作状态处理器核切换至空闲状态并完成维护后,修改和记录该处理器核的维护次数。
8.根据权利要求6所述的一种基于众核阵列架构的故障主动预防装置,其特征在于:
所述的切换模块,在所述使能信号的控制下,将处理器众核阵列模块中的空闲状态处理器核与切换处理器核查找模块输出的查找结果进行状态同步与状态切换;
对切换至空闲状态的处理器核进行维护;
将维护情况报告至所述记录模块进行记录。
9.根据权利要求6所述的一种基于众核阵列架构的故障主动预防装置,其特征在于:
所述的计时模块,为所述切换模块提供所述使能信号控制其进行切换操作;
监视所述处理器众核阵列模块所在系统的工作时间、处理器众核阵列模块中被切换至工作状态的处理器核的持续工作时间;
将该监视结果报告至所述记录模块进行记录。
10.根据权利要求6所述的一种基于众核阵列架构的故障主动预防装置,其特征在于:
所述的处理器众核阵列模块,是其所在系统的硬件基础,执行系统功能,具有对处理器核进行重构配置的能力和修改所述处理器众核阵列模块中的路由设备配置信息的能力。
CN201310142355.XA 2013-04-23 2013-04-23 一种基于众核阵列架构的故障主动预防策略及装置 Active CN103246562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310142355.XA CN103246562B (zh) 2013-04-23 2013-04-23 一种基于众核阵列架构的故障主动预防策略及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310142355.XA CN103246562B (zh) 2013-04-23 2013-04-23 一种基于众核阵列架构的故障主动预防策略及装置

Publications (2)

Publication Number Publication Date
CN103246562A CN103246562A (zh) 2013-08-14
CN103246562B true CN103246562B (zh) 2016-12-28

Family

ID=48926093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310142355.XA Active CN103246562B (zh) 2013-04-23 2013-04-23 一种基于众核阵列架构的故障主动预防策略及装置

Country Status (1)

Country Link
CN (1) CN103246562B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010354A (zh) * 2021-03-22 2021-06-22 北京灵汐科技有限公司 核分类方法、映射方法、数据传输方法及装置、芯片

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146089B (zh) * 2007-08-22 2011-12-28 杭州华三通信技术有限公司 在多核系统上配置核资源的方法、多核系统及管理核
CN101751317B (zh) * 2008-12-12 2013-11-20 上海芯豪微电子有限公司 多运算单元/多核/众核系统的自测试自修复机制与结构
CN101876926B (zh) * 2009-11-26 2012-06-20 北京航空航天大学 一种非对称结构的软件三机热备容错方法
CN102779075B (zh) * 2012-06-28 2014-12-24 华为技术有限公司 一种在多处理器核系统中进行调度的方法、装置及系统

Also Published As

Publication number Publication date
CN103246562A (zh) 2013-08-14

Similar Documents

Publication Publication Date Title
CN104331478B (zh) 一种自精简存储系统数据一致性管理方法
CN101179432A (zh) 一种多机环境中实现系统高可用的方法
JP2005018510A (ja) データセンタシステム及びその制御方法
CN106155943B (zh) 一种双控存储设备的掉电保护的方法及装置
CN106293934B (zh) 一种集群系统管理优化方法及平台
CN104102535A (zh) 进程迁移方法和可迁移操作系统
CN102902602A (zh) 数据热备份的方法、装置及存储系统
CN103139033A (zh) 单主通信控制总线主设备冗余切换方法
CN107704343A (zh) 一种多控制器的数据备份方法、装置、设备及存储介质
WO2015116078A1 (en) Memory data versioning
CN103810174A (zh) 数据库切换方法和数据库切换系统
CN116561096A (zh) 一种基于容器平台的数据库管理方法及系统
CN103246562B (zh) 一种基于众核阵列架构的故障主动预防策略及装置
CN105740049A (zh) 一种控制方法及装置
CN101958782A (zh) 一种实现节点备份的方法及系统
CN104753992A (zh) 一种数据存储、虚拟平台故障恢复的方法、设备和系统
CN105988885B (zh) 基于补偿回滚的操作系统故障自恢复方法
CN100426875C (zh) 数据主备内存处理方法
CN101714064A (zh) 数据存取方法及服务器
CN102663226A (zh) 具有表决功能的可修混合公共贮备系统模型及可靠性仿真算法
CN105373451A (zh) 一种虚拟机放置的方法及装置
CN102355370B (zh) 以太网板级保护的方法、装置和系统
CN102043660B (zh) 实现配电设备软件模拟调试的方法及装置
CN209014940U (zh) 一种基于fpga的核电站数字控制计算机系统架构
CN112328512A (zh) 一种应用于多控存储系统的缓存同步系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant