CN102647303B - 一种数据传输链路动态自愈机制的设计方法 - Google Patents

一种数据传输链路动态自愈机制的设计方法 Download PDF

Info

Publication number
CN102647303B
CN102647303B CN201210128972.XA CN201210128972A CN102647303B CN 102647303 B CN102647303 B CN 102647303B CN 201210128972 A CN201210128972 A CN 201210128972A CN 102647303 B CN102647303 B CN 102647303B
Authority
CN
China
Prior art keywords
link
transmission
passage
transmission link
reset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210128972.XA
Other languages
English (en)
Other versions
CN102647303A (zh
Inventor
王恩东
胡雷均
李仁刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201210128972.XA priority Critical patent/CN102647303B/zh
Publication of CN102647303A publication Critical patent/CN102647303A/zh
Application granted granted Critical
Publication of CN102647303B publication Critical patent/CN102647303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Communication Control (AREA)

Abstract

本发明提供一种数据传输链路动态自愈机制的设计方法,传输链路故障自愈的特性,主要是指通过芯片内部设计实现物理链路传输宽度可以根据链路的实际状态降级使用,摈弃发生故障的物理链路;物理链路的动态重构的特性,主要是指在系统运行过程中,当物理链路发生故障时动态发起复位机制,并保护系统当前场景,启动链路降级,而不影响系统运行;故障判定与复位发起的特性,主要是指通过数据校验验证数据传输的正确性,当错误数据达到一定规模则判定为链路故障,通过向自身物理层发起复位,同时向发送方物理层发起带内复位,实现故障判定并保持传输链路同步。

Description

一种数据传输链路动态自愈机制的设计方法
技术领域
本发明涉及集成电路设计领域, 具体地说是一种数据传输链路动态自愈机制的设计方法。
背景技术
随着集成电路技术的飞速发展,高性能计算机系统越来越成为行业发展的基本特征,这就提出了对计算机系统内部的带宽要求。高带宽的设计要求,一方面增加了高速信号设计难度,需要实现高效的传输机制,以保证系统内部数据传输;另一方面也使系统硬件设计陷入了多通道高速信号设计的困境中,单通道10GT/s以上的传输速率为硬件设计提出了极高的挑战。因此采用高可靠的数据链路传输机制是保证高性能计算机系统的关键技术之一,采用多通道的传输机制,并且实现链路传输通道自愈机制可以有效保证链路传输的可靠性,减少硬件设计缺陷带来的设计故障,同时也减少因生产工艺的影响所带来的缺陷。
发明内容
本发明的目的是提供一种数据传输链路动态自愈机制的设计方法。
本发明的目的是按以下方式实现的,充分考虑硬件设计和制造工艺对数据传输链路的影响,采用链路动态自愈的修复方法,通过芯片内部校验逻辑、复位逻辑、故障判定逻辑的逻辑功能设计,实现数据传输链路的高可用性,降低设计研发成本,数据传输链路动态自愈机制的设计包括:1)链路多通道传输降级的方式,2)系统物理传输链路动态重构设计;3)故障判定与复位发起方式;其中:
1)链路多通道传输降级的方式;是当链路发生故障时,物理传输链路可以摈弃发生故障的链路,将多通道传输链路重构为原传输宽度的1/2、1/4、1/8,通过故障判定逻辑确认故障链路的存在,发起系统场景保护和传输物理层复位,使传输链路动态重构为降级传输宽度,而不影响系统运行;
2)系统物理传输链路动态重构设计;在系统运行过程中,数据由发送方的链路层、物理层,经过物理通道到达接收方的物理层、链路层,并且在接收方接受到数据之后进行数据校验,当错误数据达到一定的规模,则系统认为某一条或者某几条传输链路发生故障,并进行故障定位,假设通道“0”发生故障,此时芯片内部逻辑触发场景保护逻辑,保存当前的系统状态,同时发起底层物理层复位,为了保持传输链路发送方和接收方的同步,该复位信号同时被传达给数据发送方的物理层,执行复位动作,复位过程中多通道链路摈弃通道“0”所在的1/2传输宽度部分,重新初始化完成的多通道链路的传输宽度仅为原来的1/2,即通道“4”、通道“5”、通道“6”、通道“7”,并且继续调用先前保护的系统场景继续运行;
如果故障判定逻辑再次判定某条或者某些通道发生故障,则继续实施同样的传输链路自愈机制保证链路的可用性,包括再次判定的故障通道为通道“4”,那么传输链路再次初始化完成,并摈弃故障通道之后的传输通道为通道“6”、通道“7”;
3)故障的判定与复位发起方式;是在芯片内部实现数据校验逻辑,以此判定传输链路的可用性,当传输链路无故障时,传输数据经由接收方的物理层、链路层等发送给上层逻辑,当发生故障时则发起底层复位,并将复位信号发送给发送方的物理层,以此保证传输链路同步。
本发明的有益效果是:传输链路故障自愈的特性,主要是指通过芯片内部设计实现物理链路传输宽度可以根据链路的实际状态降级使用,摈弃发生故障的物理链路;物理链路的动态重构的特性,主要是指在系统运行过程中,当物理链路发生故障时动态发起复位机制,并保护系统当前场景,启动链路降级,而不影响系统运行;故障判定与复位发起的特性,主要是指通过数据校验验证数据传输的正确性,当错误数据达到一定规模则判定为链路故障,通过向自身物理层发起复位,同时向发送方物理层发起带内复位,实现故障判定并保持传输链路同步。这种数据传输链路动态自愈机制通过芯片级的逻辑设计实现了物理传输链路的故障诊断与修正机制,大大提高了系统的可用性,弥补了硬件设计或者工艺制造所带来的缺陷,因而具有非常广阔的发展前景,具有很高的技术价值。
附图说明
图1是单通道数据传输流图;
图2是多通道数据传输链路自愈结构图;
图3是数据传输链路动态自愈机制复位触发。
具体实施方式
参照说明书附图对本发明的内容以模拟发生链路传输故障,并且采用链路动态自愈机制修复的方式来描述这一结构的实现过程。
正如发明内容中所描述的,本发明中数据传输链路动态自愈的修复方法主要包括:1)链路多通道传输降级的方式;2)物理链路的动态重构方式;3)故障判定与复位发起方式,其中:
1)链路多通道传输降级的方式;是当链路发生故障时,物理传输链路可以摈弃发生故障的链路,将多通道传输链路重构为原传输宽度的1/2、1/4、1/8等,通过故障判定逻辑确认故障链路的存在,发起系统场景保护和传输物理层复位,使传输链路动态重构为降级传输宽度,而不影响系统运行;
2)在系统运行过程中,数据由发送方的链路层、物理层,经过物理通道到达接收方的物理层、链路层,并且在接收方接受到数据之后进行数据校验,当错误数据达到一定的规模,则系统认为某一条或者某几条传输链路发生故障,并进行故障定位,假设通道“0”发生故障,此时芯片内部逻辑触发场景保护逻辑,保存当前的系统状态,同时发起底层物理层复位,为了保持传输链路发送方和接收方的同步,该复位信号同时被传达给数据发送方的物理层,执行复位动作,复位过程中多通道链路摈弃通道“0”所在的1/2传输宽度部分,重新初始化完成的多通道链路的传输宽度仅为原来的1/2,即通道“4”、通道“5”、通道“6”、通道“7”,并且继续调用先前保护的系统场景继续运行;
如果故障判定逻辑再次判定某条或者某些通道发生故障,则继续实施同样的传输链路自愈机制保证链路的可用性,例如再次判定的故障通道为通道“4”,那么传输链路再次初始化完成,并摈弃故障通道之后的传输通道为通道“6”、通道“7”。
3)故障的判定与复位发起主要是在芯片内部实现数据校验逻辑,以此判定传输链路的可用性,当传输链路无故障时,传输数据经由接收方的物理层、链路层等发送给上层逻辑,当发生故障时则发起底层复位,并将复位信号发送给发送方的物理层,以此保证传输链路同步。
本发明的结构设计主要考虑多通道高速信号设计和传输的影响,采用数据传输链路动态降级自愈的特殊设计方式,以提高系统的可靠性。本发明的结构设计方法是在芯片内部多通道设计时将多传输通道设计为可降级使用,并且通过系统底层传输结构动态复位的方式实现多通道的降级传输,这是根据链路传输特性和芯片体系结构的特点提出来的。因为高性能计算机系统中高带宽的设计要求导致系统内部互连带宽极高,因此芯片间互连链路信号传输速率极高,采用多通道的传输方式才能达到高带宽的设计要求,但是高速信号传输的硬件设计不可避免的存在设计缺陷,同时硬件生产制造的过程中也不可避免的存在缺陷,因此为了提高系统的可用性在芯片级设计链路的动态自愈机制,可有效提高系统的可用性,当链路发生故障时可动态重构为低传输宽度的传输链路。链路的动态重构自愈机制通过数据传输控制机制发起底层物理层复位来实现,以此保证系统的动态重构,进一步提高了系统的可用性与可靠性。当通过判断逻辑判定物理链路不可用时,启动复位机制,而传输链路上层启动保护机制,保护当前的系统场景,复位机制使底层物理层产生复位,使传输链路降级使用,同时将复位行为发送给远端物理层,以保持传输链路同步。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种数据传输链路动态自愈机制的设计方法, 其特征在于充分考虑硬件设计和制造工艺对数据传输链路的影响,采用链路动态自愈的修复方法,通过芯片内部校验逻辑、复位逻辑、故障判定逻辑的逻辑功能设计,实现数据传输链路的高可用性,降低设计研发成本,数据传输链路动态自愈机制的设计包括:1)链路多通道传输降级的方式,2)系统物理传输链路动态重构设计;3)故障判定与复位发起方式;其中:
1)链路多通道传输降级的方式;是当链路发生故障时,物理传输链路可以摈弃发生故障的链路,将多通道传输链路重构为原传输宽度的1/2、1/4、1/8,通过故障判定逻辑确认故障链路的存在,发起系统场景保护和传输物理层复位,使传输链路动态重构为降级传输宽度,而不影响系统运行;
2)系统物理传输链路动态重构设计;在系统运行过程中,数据由发送方的链路层、物理层,经过物理通道到达接收方的物理层、链路层,并且在接收方接受到数据之后进行数据校验,当错误数据达到一定的规模,则系统认为某一条或者某几条传输链路发生故障,并进行故障定位,当通道“0”发生故障,此时芯片内部逻辑触发场景保护逻辑,保存当前的系统状态,同时发起底层物理层复位,为了保持传输链路发送方和接收方的同步,发起底层物理层复位的信号同时被传达给数据发送方的物理层执行复位动作,复位过程中多通道链路摈弃通道“0”所在的1/2传输宽度部分,重新初始化完成的多通道链路的传输宽度仅为原来的1/2,即通道“4”、通道“5”、通道“6”、通道“7”,并且继续调用先前保护的系统场景继续运行;
当故障判定逻辑再次判定某条或者某些通道发生故障,则继续实施同样的传输链路自愈机制保证链路的可用性,包括再次判定的故障通道为通道“4”,那么传输链路再次初始化完成,并摈弃故障通道之后的传输通道为通道“6”、通道“7”;
3)故障的判定与复位发起方式;是在芯片内部实现数据校验逻辑,以此判定传输链路的可用性,当传输链路无故障时,传输数据经由接收方的物理层、链路层发送给上层逻辑,当发生故障时则发起底层复位,并将复位信号发送给发送方的物理层,以此保证传输链路同步。
CN201210128972.XA 2012-04-28 2012-04-28 一种数据传输链路动态自愈机制的设计方法 Active CN102647303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210128972.XA CN102647303B (zh) 2012-04-28 2012-04-28 一种数据传输链路动态自愈机制的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210128972.XA CN102647303B (zh) 2012-04-28 2012-04-28 一种数据传输链路动态自愈机制的设计方法

Publications (2)

Publication Number Publication Date
CN102647303A CN102647303A (zh) 2012-08-22
CN102647303B true CN102647303B (zh) 2015-08-26

Family

ID=46659888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210128972.XA Active CN102647303B (zh) 2012-04-28 2012-04-28 一种数据传输链路动态自愈机制的设计方法

Country Status (1)

Country Link
CN (1) CN102647303B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857302A (zh) * 2020-06-19 2020-10-30 浪潮电子信息产业股份有限公司 一种系统管理总线的复位方法、装置以及设备
CN113472969B (zh) * 2021-06-08 2022-05-10 苏州华兴源创科技股份有限公司 多通道链路同步控制方法、装置和视频图像处理设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661454A (zh) * 2009-10-16 2010-03-03 首都师范大学 一种可动态重构的高速串行总线系统及控制方法
CN101833491A (zh) * 2010-04-26 2010-09-15 浪潮电子信息产业股份有限公司 一种节点互连系统链路检测电路的设计与fpga实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8228946B2 (en) * 2009-07-29 2012-07-24 General Electric Company Method for fail-safe communication

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661454A (zh) * 2009-10-16 2010-03-03 首都师范大学 一种可动态重构的高速串行总线系统及控制方法
CN101833491A (zh) * 2010-04-26 2010-09-15 浪潮电子信息产业股份有限公司 一种节点互连系统链路检测电路的设计与fpga实现方法

Also Published As

Publication number Publication date
CN102647303A (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
US11055170B2 (en) Multiple reset modes for a PCI host bridge
CN102647303B (zh) 一种数据传输链路动态自愈机制的设计方法
RU2014131267A (ru) Метод управления изменением состояния в узле межсоединения
WO2010000623A4 (en) Cyclical redundancy code for use in a high-speed serial link
CN102129418B (zh) 一种高端容错计算机系统及实现方法
CN101267392B (zh) 一种上行链路状态切换时通知下游设备的实现方法
JP2011505755A5 (zh)
CN104270231A (zh) 一种实现双节点互联伪线的系统及方法
CN111106904A (zh) 一种DigRF传输端的帧发送处理方法及系统
CN111614553B (zh) 一种通信方法和装置
WO2015058696A1 (zh) 一种数据传输方法及装置
CN102763087B (zh) Cpu间互联容错的实现方法及系统
JP5839713B2 (ja) 電子端末装置及び電子連動装置
US8909979B2 (en) Method and system for implementing interconnection fault tolerance between CPU
CN102831037A (zh) 一种数据通路分片的冗余保护结构
CN101299205A (zh) 基于表决的优先排队仲裁系统总线控制方法
CN105656773B (zh) 片上网络中针对瞬时故障和间歇性故障的高可靠链路容错模块及其方法
WO2008119626A3 (de) Verfahren zum rekonfigurieren eines kommunikationsnetzwerks
CN104486036A (zh) 一种满足1394协议要求消息容错处理电路及方法
CN101729349B (zh) 一种基于rrpp的主环通道连通性检测方法及装置
CN101192911B (zh) 一种时分复用模式下传输数据的方法和系统
CN102244612A (zh) 数据的接收方法、装置和通信系统
JP6394727B1 (ja) 制御装置、制御方法、及び、フォールトトレラント装置
CN104092689A (zh) 一种嵌入式系统中高可靠多机通信架构方法
CN111404812B (zh) 一种通信方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant