CN105975435A - 一种含开关及连线故障的处理器阵列的重构方法 - Google Patents

一种含开关及连线故障的处理器阵列的重构方法 Download PDF

Info

Publication number
CN105975435A
CN105975435A CN201610447461.2A CN201610447461A CN105975435A CN 105975435 A CN105975435 A CN 105975435A CN 201610447461 A CN201610447461 A CN 201610447461A CN 105975435 A CN105975435 A CN 105975435A
Authority
CN
China
Prior art keywords
processor
array
algorithm
line
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610447461.2A
Other languages
English (en)
Inventor
武继刚
姜文超
祝龙婷
章子凯
朱金彬
刘竹松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610447461.2A priority Critical patent/CN105975435A/zh
Publication of CN105975435A publication Critical patent/CN105975435A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开的一种含开关及连线故障的处理器阵列的重构方法,包含以下步骤:通过预处理,将开关故障转化为连线故障,并将故障连线进行分类;通过A‑MLA算法生成最大逻辑阵列;通过A‑TMLA算法对生成的最大逻辑阵列的连线进行优化,从而降低通信延迟和功耗。本发明的重构方法,即使考虑开关和连线故障,与当前最优的算法相比,本发明的算法生成的逻辑阵列规模更大,且连线长度更短。

Description

一种含开关及连线故障的处理器阵列的重构方法
技术领域
本发明涉及多核容错阵列的重构领域,特别涉及一种含开关及连线故障的处理器阵列的重构方法。
背景技术
随着集成技术的快速发展,成百上千的处理器被集成到单一芯片上来执行大规模并行计算任务。然而,急剧增长的芯片集成密度使得芯片在制造或实际运行过程中发生故障的可能性大大增加。故障的处理器单元破坏了通信网络规则的结构,导致多处理器阵列的处理能力下降。因此,我们需要使用容错重构技术来重构网络拓朴结构,从而提高多处理阵列的计算能力和多处理器系统的稳定性。
一般来说,容错重构有两种策略,分别是冗余策略和降阶策略。冗余策略要求重构后的逻辑阵列和物理阵列的规模相等,一旦不能满足该条件,则整个重构无法完成。而降阶策略试图获得一个尽可能大的逻辑阵列,因而在航天卫星、极端环境下工作的电子系统中有着重要的应用。本发明就是在基于网格互连的网络中,使用降阶策略完成故障阵列的重构。
现有的工作假设故障仅发生在处理器单元上,忽略开关及连线发生故障的可能性,即使他们发生故障的可能性很小。目前唯一的考虑了开关故障的容错重构技术,是通过同时使用行列选路策略来构造无故障的逻辑阵列,但是该方法中还存在着很多问题:首先是该工作仅考虑了故障发生在处理器单元和开关上,假设了所有的连线都是无故障的;其次是该方法并未充分的利用无故障处理器单元,也就是说还存在着相当一部分的处理器单元是无故障的,但是并未被用于构造无故障的逻辑阵列;最重要的一点是,该方法在构造无故障逻辑阵列时,采用的是行列同时选路的策略,这就引入了大量的长连接,从而导致了大量的通信延迟和功耗。鉴于这些原因,特此提出了本发明内容。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种含开关及连线故障的处理器阵列的重构方法。
本发明的目的通过以下的技术方案实现:
一种含开关及连线故障的处理器阵列的重构方法,包含以下步骤:
通过预处理,将开关故障转化为连线故障,并将故障连线进行分类;
通过A-MLA算法生成处理器最大逻辑阵列;
通过A-TMLA算法对生成的处理器最大逻辑阵列的连线进行优化,从而降低通信延迟和功耗。
所述将开关故障转化为连线故障,具体为:对于物理阵列中的每个故障开关,将所有与该故障开关相邻的连线设为故障,即得到连线故障。这样处理后,在后续过程中将不再考虑这些故障开关。
所述将故障连线进行分类,具体为:将位于物理行Ri的所有非故障单元作为集合Ei的元素,且集合Ei中的所有非故障单元初始化为未标记的,其中1≤i≤m。
所述通过A-MLA算法生成处理器最大逻辑阵列,具体为:
对于E1中最左边未标记的处理器单元,将其做上标记,并检查该处理器单元与其行方向上的前驱单元之间,是否存在未被标记过的无故障的连线:如果不存在,继续找E1最左边未标记过的处理器单元,并重复上面的过程;如果存在,算法A-MLA重复进行下面的迭代过程:总是试图连接当前的处理器单元和其下一物理行中最左边的处理器单元,并检查对应的行、列连线是否无故障且未被使用过,若连接不成功,则算法进行回溯,并撤销相应连线上的标记;
算法A-MLA一直重复进行,直到E1中不再包含未被标记过的处理器单元停止,由此得到处理器最大逻辑阵列。
所述通过A-TMLA算法对生成的最大逻辑阵列的连线进行优化,具体为:
将由A-MLA算法得到的最大逻辑阵列从右向左,依次修复,对每一个逻辑列的修复过程中,A-TMLA算法依次调用两个子过程Up_Rerouting和Down_Rerouting,从而获得一个修复后的逻辑列,最终完成对A-MLA中生成的逻辑阵列的连线长度进行优化,从而降低网络延迟和功耗。
本发明与现有技术相比,具有如下优点和有益效果:
本发明不仅考虑处理器发生故障,还同时考虑了开关及连线上发生故障的可能性。大量的试验结果表明,即使考虑开关和连线故障,与当前最优的算法相比,本发明的算法生成的逻辑阵列规模更大,且连线长度更短。
附图说明
图1为本发明的容错处理器阵列的结构图。
图2a为行方向上连接处理器和开关的连线示意图,图2b是行方向上连接两个开关的连线示意图,图2c是行方向上的外部穿越连线示意图,图2d是列方向上连接处理器和开关的连线示意图,图2e是列方向上连接两个开关的连线示意图,图2f是列方向上的外部穿越连线示意图。
图3a为一个规模为4*4的物理阵列示意图;图3b为将故障开关转化为故障连线的结果示意图;图3c为将故障连线按分类进行处理的示意图;图3d为经过算法A-MLA后所得到的处理器最大逻辑阵列示意图。
图4为本发明所述一种含开关及连线故障的处理器阵列的重构方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图4,一种含开关及连线故障的处理器阵列的重构方法,包含以下步骤:
通过预处理,将开关故障转化为连线故障,并将故障连线进行分类;
通过A-MLA算法生成处理器最大逻辑阵列;
通过A-TMLA算法对生成的处理器最大逻辑阵列的连线进行优化,从而降低通信延迟和功耗。
所述将开关故障转化为连线故障,具体为:对于物理阵列中的每个故障开关,将所有与该故障开关相邻的连线设为故障,即得到连线故障。这样处理后,在后续过程中将不再考虑这些故障开关。
所述将故障连线进行分类,具体为:将位于物理行Ri的所有非故障单元作为集合Ei的元素,且集合Ei中的所有非故障单元初始化为未标记的,其中1≤i≤m。
所述通过A-MLA算法生成处理器最大逻辑阵列,具体为:
对于E1中最左边未标记的处理器单元,将其做上标记,并检查该处理器单元与其行方向上的前驱单元之间,是否存在未被标记过的无故障的连线:如果不存在,继续找E1最左边未标记过的处理器单元,并重复上面的过程;如果存在,算法A-MLA重复进行下面的迭代过程:总是试图连接当前的处理器单元和其下一物理行中最左边的处理器单元,并检查对应的行、列连线是否无故障且未被使用过,若连接不成功,则算法进行回溯,并撤销相应连线上的标记;
算法A-MLA一直重复进行,直到E1中不再包含未被标记过的处理器单元停止,由此得到最大逻辑阵列。算法A-MLA的具体描述如下,其中Adj+(cur)表示处理单元cur的下一物理行中的候选邻居,row_prec(cur)表示处理单元cur在行方向上的前驱,colum_prec(cur)类似定义。
所述通过A-TMLA算法对生成的处理器最大逻辑阵列的连线进行优化,具体为:
将由A-MLA算法得到的最大逻辑阵列从右向左,依次修复,对每一个逻辑列的修复过程中,A-TMLA算法依次调用两个子过程Up_Rerouting和Down_Rerouting,从而获得一个修复后的逻辑列,最终完成对A-MLA中生成的逻辑阵列的连线长度进行优化,从而降低网络延迟和功耗。
算法A-TMLA的具体描述如下,其中row_succ(q)表示处理单元q在行方向上的后继,column_succ(q)类似定义。
其中,子过程Up_Rerouting和Down_Rerouting的具体描述如下所示:
图1是本发明的容错处理器阵列的结构图。其中左边展示的是规模为4*4的容错处理器阵列,中间是处理器阵列中所使用开关的四种状态,右边是当某个处理器单元发生故障时,与其相连的处理器单元由三种方式进行选路,分别是直接穿过该故障单元(Mid_link),走其上方连线跨过该故障单元(Up_link),及走其下方连线跨过该故障单元(Down_link)。
图2a~2f是本发明中连线的分类示意图,算法A-MLA和A-TMLA会对这六种不同类型连线的故障分别进行处理;其中图2a是行方向上连接处理器和开关的连线示意图,图2b是行方向上连接两个开关的连线示意图,图2c是行方向上的外部穿越连线示意图,图2d是列方向上连接处理器和开关的连线示意图,图2e是列方向上连接两个开关的连线示意图,图2f是列方向上的外部穿越连线示意图。
图3a~3d为本发明中算法A-MLA的整个执行过程,其中图3a为一个规模为4*4的物理阵列示意图,其中包含一个故障单元,一个故障开关及两个故障连线;图3b为将故障开关转化为故障连线的结果示意图;图3c为将故障连线按分类进行处理的示意图;图3d为经过算法A-MLA后所得到的处理器最大逻辑阵列示意图。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种含开关及连线故障的处理器阵列的重构方法,其特征在于,包含以下步骤:
通过预处理,将开关故障转化为连线故障,并将故障连线进行分类;
通过A-MLA算法生成处理器最大逻辑阵列;
通过A-TMLA算法对生成的处理器最大逻辑阵列的连线进行优化,从而降低通信延迟和功耗。
2.根据权利要求1所述含开关及连线故障的处理器阵列的重构方法,其特征在于,所述将开关故障转化为连线故障,具体为:对于物理阵列中的每个故障开关,将所有与该故障开关相邻的连线设为故障,即得到连线故障。
3.根据权利要求1所述含开关及连线故障的处理器阵列的重构方法,其特征在于,所述将故障连线进行分类,具体为:将位于物理行Ri的所有非故障单元作为集合Ei的元素,且集合Ei中的所有非故障单元初始化为未标记的,其中1≤i≤m。
4.根据权利要求3所述含开关及连线故障的处理器阵列的重构方法,其特征在于,所述通过A-MLA算法生成处理器最大逻辑阵列,具体为:
对于E1中最左边未标记的处理器单元,将其做上标记,并检查该处理器单元与其行方向上的前驱单元之间,是否存在未被标记过的无故障的连线:如果不存在,继续找E1最左边未标记过的处理器单元,并重复上面的过程;如果存在,算法A-MLA重复进行下面的迭代过程:总是试图连接当前的处理器单元和其下一物理行中最左边的处理器单元,并检查对应的行、列连线是否无故障且未被使用过,若连接不成功,则算法进行回溯,并撤销相应连线上的标记;
算法A-MLA一直重复进行,直到E1中不再包含未被标记过的处理器单元停止,由此得到处理器最大逻辑阵列。
5.根据权利要求4所述含开关及连线故障的处理器阵列的重构方法,其特征在于,所述通过A-TMLA算法对生成的最大逻辑阵列的连线进行优化,具体为:
将由A-MLA算法得到的最大逻辑阵列从右向左,依次修复,对每一个逻辑列的修复过程中,A-TMLA算法依次调用两个子过程Up_Rerouting和Down_Rerouting,从而获得一个修复后的逻辑列,最终完成对A-MLA中生成的逻辑阵列的连线长度进行优化,从而降低网络延迟和功耗。
CN201610447461.2A 2016-06-17 2016-06-17 一种含开关及连线故障的处理器阵列的重构方法 Pending CN105975435A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610447461.2A CN105975435A (zh) 2016-06-17 2016-06-17 一种含开关及连线故障的处理器阵列的重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610447461.2A CN105975435A (zh) 2016-06-17 2016-06-17 一种含开关及连线故障的处理器阵列的重构方法

Publications (1)

Publication Number Publication Date
CN105975435A true CN105975435A (zh) 2016-09-28

Family

ID=57022284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610447461.2A Pending CN105975435A (zh) 2016-06-17 2016-06-17 一种含开关及连线故障的处理器阵列的重构方法

Country Status (1)

Country Link
CN (1) CN105975435A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0142510A4 (en) * 1983-04-11 1987-12-17 Commw Of Australia METHOD FOR SELF-HEALING HIGHLY INTEGRATED CIRCUITS AND SELF-HEALING HIGHLY INTEGRATED CIRCUIT.
FR2795840A1 (fr) * 1999-07-02 2001-01-05 Commissariat Energie Atomique Reseau de processeurs paralleles avec tolerance aux fautes de ces processeurs, et procede de reconfiguration applicable a un tel reseau
CN101881811A (zh) * 2009-05-08 2010-11-10 复旦大学 一种可编程逻辑器件互连资源的故障测试方法
CN103164386A (zh) * 2011-12-12 2013-06-19 天津工业大学 大规模集成电路可重构处理器阵列的同步性能优化的方法
CN103164291A (zh) * 2011-12-12 2013-06-19 天津工业大学 一种求解可重构多处理器阵列容错上界的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0142510A4 (en) * 1983-04-11 1987-12-17 Commw Of Australia METHOD FOR SELF-HEALING HIGHLY INTEGRATED CIRCUITS AND SELF-HEALING HIGHLY INTEGRATED CIRCUIT.
FR2795840A1 (fr) * 1999-07-02 2001-01-05 Commissariat Energie Atomique Reseau de processeurs paralleles avec tolerance aux fautes de ces processeurs, et procede de reconfiguration applicable a un tel reseau
CN101881811A (zh) * 2009-05-08 2010-11-10 复旦大学 一种可编程逻辑器件互连资源的故障测试方法
CN103164386A (zh) * 2011-12-12 2013-06-19 天津工业大学 大规模集成电路可重构处理器阵列的同步性能优化的方法
CN103164291A (zh) * 2011-12-12 2013-06-19 天津工业大学 一种求解可重构多处理器阵列容错上界的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIGANG WU等: "Reconfigurations for Processor Arrays with Faulty Switches and Links", 《CLUSTER, CLOUD AND GRID COMPUTING (CCGRID), 2015 15TH IEEE/ACM INTERNATIONAL SYMPOSIUM ON》 *
祝龙婷等: "环网处理器阵列的容错重构技术", 《计算机工程与科学》 *

Similar Documents

Publication Publication Date Title
Liu et al. Low cost fault-tolerant routing algorithm for networks-on-chip
CN107632590B (zh) 一种基于优先级的底事件排序方法
JPH0628330A (ja) フォールト・トレラント・メッシュおよびその構成方法
Silveira et al. Preprocessing of Scenarios for Fast and Efficient Routing Reconfiguration in Fault-Tolerant NoCs
CN110086709A (zh) 针对超大规模片上网络容忍众故障的确定性路径路由方法
Shamshiri et al. Yield and cost analysis of a reliable NoC
Jigang et al. Preprocessing and partial rerouting techniques for accelerating reconfiguration of degradable VLSI arrays
CN105975435A (zh) 一种含开关及连线故障的处理器阵列的重构方法
An et al. Fault tolerant xy-yx routing algorithm supporting backtracking strategy for noc
Martin et al. Astrocyte to spiking neuron communication using networks-on-chip ring topology
Jiang et al. Flexible rerouting schemes for reconfiguration of multiprocessor arrays
Hosseini et al. Distributed fault-tolerance of tree structures
Garbade et al. Fault localization in NoCs exploiting periodic heartbeat messages in a many-core environment
Shen et al. Multithread reconfiguration algorithm for mesh-connected processor arrays
Killian et al. Hybrid fault detection for adaptive noc
Yang A linear time fault diagnosis algorithm for hypercube multiprocessors under the MM* comparison model
Wu et al. Exploration of a reconfigurable 2D mesh network-on-chip architecture and a topology reconfiguration algorithm
Manghwani et al. Leader based adaptive fault diagnosis algorithm for distributed systems
Jiang et al. Reducing the interconnection length for 3d fault-tolerant processor arrays
Jiang et al. Efficiency of flexible rerouting scheme for maximizing logical arrays
Wang et al. A real-time fault location mechanism combining CGP code and deep learning
UPADHYAYA et al. Design of a Multi-Level Fault-Tolerant Mesh (MFTM) for High Reliability Applications
Sujatha et al. A Review on Hybrid Network on Chip
Qu et al. Fault-tolerant controller design using Petri nets with minimum initial state specifications
Bhanu et al. Fault-Tolerant Application-Specific Network-on-Chip Design using Discrete Particle Swarm Optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160928

WD01 Invention patent application deemed withdrawn after publication