CN102473121A - 系统芯片的缺点检测 - Google Patents

系统芯片的缺点检测 Download PDF

Info

Publication number
CN102473121A
CN102473121A CN2010800311123A CN201080031112A CN102473121A CN 102473121 A CN102473121 A CN 102473121A CN 2010800311123 A CN2010800311123 A CN 2010800311123A CN 201080031112 A CN201080031112 A CN 201080031112A CN 102473121 A CN102473121 A CN 102473121A
Authority
CN
China
Prior art keywords
core
information
trm
shortcoming
preferential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800311123A
Other languages
English (en)
Inventor
斯蒂芬·波莱德纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FTS Computertechnik GmbH
Original Assignee
FTS Computertechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FTS Computertechnik GmbH filed Critical FTS Computertechnik GmbH
Publication of CN102473121A publication Critical patent/CN102473121A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/555Error detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/7825Globally asynchronous, locally synchronous, e.g. network on chip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • H04L49/109Integrated on microchip, e.g. switch-on-chip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/552Prevention, detection or correction of errors by ensuring the integrity of packets received through redundant connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/183Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
    • G06F11/184Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及用于在包含若干IP芯核的系统芯片(SoC)中辨识缺点的方法,其中各IP芯核均为缺点包容单位,且当中该些IP芯核通过网络芯片,以信息的方式互相通信,此外,其中优等的IP芯核提供TRM(可信资源监视器),其中(独立的)缺点包容单位会辨识和推出从一个非优先IP芯核发送至另一非优先IP芯核的带缺点的控制信息,如此一来,这带缺点的控制信息就不会导致信息接受方有任何故障。

Description

系统芯片的缺点检测
技术领域
本发明涉及用于改善在嵌入式计算机系统中的系统芯片(system on cgip)的可靠性的方法和装置。
本发明尤其涉及在包含若干IP芯(IP cores)的系统片(SoC)中侦测错误的方法,其中各IP芯核均为缺点包容单位(fault containment unit),且其中该些IP芯核通过网络芯片(networkon chip),以信息的方式互相通信,此外,其中优等的IP芯核实现可信资源监视器(trusted resource monitor)(TRM)。
背景技术
系统芯片(SoC)是将大部分系统功能整合在单个硅片上的系统。根据Pollack定律(Borkar,S.(2007)Thousand-Core Chips,A Technology Perspective,Proc.of the 44thACM IEEE Design Automation Conference,第746-749页,纽约,ACM出版社),高效的SoC是由若干通过网络芯片通信的IP芯核组成的。IP芯核是发挥预定功能的硬件/软件部分。IP芯核可通过存取共享内存或以信息的方式通信。PCT/AT 2009/00207专利申请提出了一种SoC架构,当中的IP芯核仅以信息的方式通信。
发明内容
本发明的目的是防止SoC中存有缺点的IP芯核导致另一并不直接受该错误影响的IP芯核发生故障。
因此,本发明的目的是防止IP芯核的错误传递至另一并不直接受该在系统芯片(SoC)(其中多个部件(IP芯核)仅以信息的方式通信)中的错误影响的IP芯核。这个目的透过由缺点包容单位(其被限定为独立的)侦测和丢弃从非优先IP芯核发送到另一非优先IP芯核(non-privileged IP core)_的带缺点的控制信息(faulty control message),以致这带缺点的控制信息不会导致信息接收方发生故障而达成的。
所有可能会触发另一IP芯核发生故障的IP芯核信息都可由第三IP芯核检核出来,其亦可选择性地丢弃这些信息,以防止这由存有缺点的IP芯核发送的存有缺点的信息造成另一IP芯核的故障。
当各个将由非优先IP芯核发送到另一非优先IP芯核的控制信息首先被发送至第三IP芯核时会达到特别的好处,其中这第三IP芯核会检核该信息,且其中若该信息并非存有缺点,则此信息会由这第三IP芯核转发到預定的最终接收方。
若作出检核的IP芯核先验已知断言(assertion)的评估为有“缺点”值,则该作出检核的IP芯核可将信息分类为存有缺点的。
该第三IP芯核为TRM是有利的。
更有利的是TRM只转发来自获授权发送控制信息的发送方的信息到在该信息中所列的IP芯核。
此外,可配置成只有TRM可发送控制信息到非优先IP芯核的技术无关接口(TII)。
若各控制信息必须被发送到IP芯核的TII则为有用。
亦可配置成在预先定义的时距内必须发送至少三个各来自不同的IP芯核的信息到该TRM,并在转发这信息到所定址的IP芯核的TII前,由该接收TRM检核在该三个信息中,是否至少两个信息含有相同的指令。
另外再可配置成在预先定义的时距内必须发送至少三个各来自不同的SoC的信息到该TRM,并在转发这信息到所定址的IP芯核的TII前,由该接收TRM检核在该三个信息中,是否至少两个信息含有相同的指令。
对优先子系统(privileged subsystem)的功能作纠错编码保护是有用的,该优先子系统包含TRM、网络芯片和网络接口。
本发明更涉及实现上述方法的装置,其中一个或多个,或所有方法步骤都在SoC的硬件中直接进行。
附图说明
上述有关本发明的目的和其他新颖的特性将会在附图中描述。
图1所示为系统芯片(SoC)的设计。
图2所示为SoC的IP芯核的构造。
图3所示为从一在SoC的IP芯核传送控制信息到另一IP芯核。
具体实施方式
以下部分以一个包含八个IP芯核的SoC的可行例子为基础,展示出该新颖方法的实施方案。
图1所示为包含该八个IP芯核111、112、113、114、115、116、117和118的SoC 100。这八个IP芯核可通过网络芯片101交换信息。各IP芯核,如IP芯核114,均通过网络接口(NI)102连接到NoC 101。这八个IP芯核的其中一个芯核,比如说IP芯核111,为优先IP芯核,其被称为可信资源监视器(TRM),而余下的七个IP芯核112、113、114、115、116、117和118则为非优先IP芯核。该TRM 111、网络芯片101和该8个网络接口102组成SoC 100的优先子统。在这优先子系统中的错误可导致整个SoC发生故障。根据本发明,该优先子系统的功能应因此受到特别的错误防护方案保护,举例来说,如使用纠错编码。合适的纠错编码可侦测和修正优先系统中的短暂性和永久性的硬件错误。
该七个非优先IP芯核各自组成专用的缺点包容单位(FCU)(Kopetz,H.(1997).Real-Time Systems,Design Principles for Distributed Embedded Applications;ISBN:0-7923-9894-7.波士顿.Kluwer Academic出版社.),即是说,非优先IP芯核内的随机软件错误或硬件故障的后果只可直接干扰相应的IP芯核的功能,但它们亦只可透过存有缺点的信息这个方式,间接地影响其他IP芯核的功能。若有可能侦测到和丢弃存有缺点的信息,则IP芯核错误的间接后果便不能传递开去。PCT/AT 2006/00278描述了一种由NoC 101的优先网络接口(NI)102侦测和丢弃IP芯核信息的时间错误的架构。根据PCT/AT 2009/00207(WO 2009/140707),只有TRM 111获准对NI 102编写时间参数,以防止存有缺点的IP芯核独立地改变信息的传送参数。然而,如PCT/AT2006/00278所描述的方法并不会防止带有不正确内容的控制信息从存有缺点的非优先IP芯核发送至其他非优先IP芯核。
图2所示为非优先IP芯核的设计,如IP芯核114。这IP芯核具有四个外部接口:211、212、213和122。该三个信息接口211、212和213被连接到图1的网络接口(NI)102。接口122是该IP芯核的本地接口,与SoC 100外部的连接通过此接口而实现。这接口122可例如是输入/输出网络(如控制器区域(CAN)网络),或是连至SoC 100四周的无线连接。
信息接口211在此被称为IP芯核114的链接接口(linking interface)(LIF)。IP芯核104通过该LIF 211向SoC 100的其他七个IP芯核提供服务。
信息接口212在此被称为技术相关接口(technology-dependent interface)(TDI),其允许维修技术员与IP芯核114的内部功能通信。由于这些TDI信息的格式和内容取决于该IP芯核的特定实现技术,因此这接口取决于实施方案。
信息接口213在此被称为技术无关接口(technology-independent interface)(TII)。IP芯核114的组态和流程控制是通过这TII 213,以控制信息的方式而实现的。控制信息(control message)为在IP芯核中控制计算流程的信息。举例来说,整个IP芯核114的硬件重设是以控制信息、或者命令启动或排程进行IP芯核114的程序执行的方式促使的。另外,SoC的组态和重新组态可以控制信息的方式引发。发送至IP芯核的TII的带缺点的控制信息可能会引致IP芯核114发生故障,例如在IP芯核114正确操作期间,突然在TII 213接收到存有缺点的硬件重设信息。图2亦展示IP芯核114的内部设计。IP芯核硬件执行加载于IP芯核114的软件,且位于最低水平201。IP芯核内部操作系统位于上一水平202,而IP芯核内部中间件(middleware)则位于水平203。最后,应用软件位于水平204。中间件203和应用软件204之间的IP芯核内部接口214被称为应用程序编程接口(API)214。通过TII 123接收的信息直接与IP芯核硬件201(如重设信息)、与操作系统202(如用于处理排程的控制信息)或中间件203通信,但并不会与应用软件204通信。因此,非优先IP芯核的应用软件不能侦测到通过TII 213而到达的带缺点的控制信息。
图3所示为传送控制信息到非优先IP芯核的TII。举例来说,根据本发明,若IP芯核115想发送重设信息140到IP芯核116,其必须先将这信息140发送至独立的第三IP芯核,即TRM 111。该TRM 111会检核信息140是否存有缺点。这检核是按照TRM必须对断言先验已知而进行的。这些断言可与整体系统的状态、与发送方的身份、信息时间和信息内容有关。若所有经该TRM评估的断言是正确的话,则该TRM便会发送重设信息141到IP芯核115的TII。根据本发明,该架构必须确保只有(优先)TRM 111能够发送信息到非优先IP芯核的TII。非优先IP芯核的实施方案必须确保可导致IP芯核发生故障的控制信息(举例来说,如重设信息)只可通过TII来接收。所以,根据本发明,非优先IP芯核不可能直接发送控制信息到另一非优先IP芯核。
在与安全性相关的系统中,以断言的方式来对控制信息进行缺点侦测可被视为并不足够。在这样的系统中,三个并行操作的IP芯核必须计算出藏在控制信息中的控制指令。TRM会比较这三个控制信息,而如果这些信息中至少两个是相同的,其只会转发相应的信息到接收方的TII。这遮蔽了在该三个发送IP芯核中任一芯核中的任何错误。在高度可靠的系统中,这三个并行的控制信息必须是来自三个独立的SoC,以防止可能会在个别SoC内发生的共同模式(common mode)故障。
由于本发明能防止存有缺点的IP芯核导致另一IP芯核发生故障,所以其大大改善了SoC的可靠性。在接收IP芯核中进行缺点侦测是没有用处的,因为倘若出现故障的话,则该接收IP芯核根本无法正确地进行自身的缺点侦测。
在此描述的有关本发明的特定实施方案仅为本发明的多个实施方案选择中的其中之一。

Claims (11)

1.用来在包含若干IP芯核的系统芯片(SoC)中侦测缺点的方法,各IP芯核均为缺点包容单位,该些IP芯核通过网络芯片以信息的方式互相通信,而优等的IP芯核则执行TRM(可信资源监视器),其特征在于从非优先IP芯核发送到另一非优先IP芯核的带缺点的控制信息是由缺点包容单位侦测出来和丢弃的,以致这带缺点的控制信息不会导致信息接收方发生故障。
2.根据权利要求1所述的方法,其特征在于各个将由非优先IP芯核发送到另一非优先IP芯核的控制信息首先被发送至第三IP芯核,其中这第三IP芯核会检核该信息,且其中若该信息并非存有缺点,则该信息会由这第三IP芯核转发到預定的最终接收方。
3.根据权利要求1或2所述的方法,其特征在于若作出检核的IP芯核先验已知断言的评估为有“缺点”值,则该作出检核的IP芯核可将信息分类为存有缺点的。
4.根据权利要求2或3所述的方法,其特征在于该第三IP芯核为该TRM。
5.根据权利要求1至4中任一权利要求所述的方法,其特征在于该TRM只转发来自获授权发送控制信息的发送方的信息到在该信息中所列的IP芯核。
6.根据权利要求1至5中任一权利要求所述的方法,其特征在于只有该TRM可发送控制信息到非优先IP芯核的技术无关接口(TII)。
7.根据权利要求1至6中任一权利要求所述的方法,其特征在于各控制信息必须被发送至IP芯核的TII。
8.根据权利要求1至7中任一权利要求所述的方法,其特征在于在预先定义的时距内必须发送至少三个各来自不同的IP芯核的信息到该TRM,并在转发这信息到所定址的IP芯核的TII前,由该接收TRM检核在该三个信息中,是否至少两个信息含有相同的指令。
9.根据权利要求1至8中任一权利要求所述的方法,其特征在于在预先定义的时距内必须发送至少三个各来自不同的SoC的信息到该TRM,并在转发这信息到所定址的IP芯核的TII前,由该接收TRM检核在该三个信息中,是否至少两个信息含有相同的指令。
10.根据权利要求1至9中任一权利要求所述的方法,其特征在于对优先子系统的功能作纠错编码保护,该优先子系统包含TRM、网络芯片和网络接口。
11.用于实施权利要求1至10中任一权利要求所述的方法的装置,其特征在于一个或多个、或所有的方法步骤都在SoC的硬件中直接进行。
CN2010800311123A 2009-07-09 2010-07-07 系统芯片的缺点检测 Pending CN102473121A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
ATA1077/2009 2009-07-09
AT10772009 2009-07-09
PCT/AT2010/000248 WO2011003121A1 (de) 2009-07-09 2010-07-07 System-on-chip fehlererkennung

Publications (1)

Publication Number Publication Date
CN102473121A true CN102473121A (zh) 2012-05-23

Family

ID=43012654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800311123A Pending CN102473121A (zh) 2009-07-09 2010-07-07 系统芯片的缺点检测

Country Status (5)

Country Link
US (1) US8732522B2 (zh)
EP (1) EP2452264A1 (zh)
JP (1) JP2012532385A (zh)
CN (1) CN102473121A (zh)
WO (1) WO2011003121A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9164852B2 (en) 2009-07-09 2015-10-20 Fts Computertechnik Gmbh System on chip fault detection
US9575859B2 (en) 2012-02-22 2017-02-21 Fts Computertechnik Gmbh Method for fault recognition in a system of systems
AT512665B1 (de) * 2012-03-20 2013-12-15 Fts Computertechnik Gmbh Verfahren und Apparat zur Bildung von Software Fault Containment Units in einem verteilten Echtzeitsystem
US8990616B2 (en) 2012-09-28 2015-03-24 International Business Machines Corporation Final faulty core recovery mechanisms for a two-dimensional network on a processor array
US9160617B2 (en) 2012-09-28 2015-10-13 International Business Machines Corporation Faulty core recovery mechanisms for a three-dimensional network on a processor array
AT515454A3 (de) * 2013-03-14 2018-07-15 Fts Computertechnik Gmbh Verfahren zur Behandlung von Fehlern in einem zentralen Steuergerät sowie Steuergerät
WO2015024680A1 (de) * 2013-08-21 2015-02-26 Siemens Ag Österreich Verfahren und schaltungsanordnung zur zeitlichen eingrenzung und trennung von zugriffen in einem ein-chip-system
FR3026869B1 (fr) * 2014-10-07 2016-10-28 Sagem Defense Securite Systeme embarque sur puce a haute surete de fonctionnement
CN105991384B (zh) * 2016-06-23 2019-03-08 天津大学 兼容时间触发以太网与1553b的航天以太网通信方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050265279A1 (en) * 2002-10-18 2005-12-01 Milan Markovic Apparatus and messages for interworking between unlicensed access network and GPRS network for data services
WO2007085028A1 (de) * 2006-01-27 2007-08-02 Fts Computertechnik Gmbh Zeitgesteuerte sichere kommunikation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153020A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 疎結合計算機システム
US7007099B1 (en) * 1999-05-03 2006-02-28 Lucent Technologies Inc. High speed multi-port serial-to-PCI bus interface
AT411948B (de) * 2002-06-13 2004-07-26 Fts Computertechnik Gmbh Kommunikationsverfahren und apparat zur übertragung von zeitgesteuerten und ereignisgesteuerten ethernet nachrichten
ATE527780T1 (de) * 2007-04-11 2011-10-15 Fts Computertechnik Gmbh Kommunikationsverfahren und apparat zur effizienten und sicheren übertragung von tt- ethernet nachrichten

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050265279A1 (en) * 2002-10-18 2005-12-01 Milan Markovic Apparatus and messages for interworking between unlicensed access network and GPRS network for data services
WO2007085028A1 (de) * 2006-01-27 2007-08-02 Fts Computertechnik Gmbh Zeitgesteuerte sichere kommunikation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERNHARD HUBER等: "A resource management framework for mixed-criticality embedded systems", 《INDUSTRIAL ELECTRONICS, 2008. IECON 2008. 34TH ANNUAL CONFERENCE OF IEEE》 *
SHEKHAR BORKAR: "Thousand Core Chips—A Technology Perspective", 《DESIGN AUTOMATION CONFERENCE, 2007. DAC ’07. 44TH ACM/IEEE》 *

Also Published As

Publication number Publication date
JP2012532385A (ja) 2012-12-13
EP2452264A1 (de) 2012-05-16
WO2011003121A1 (de) 2011-01-13
US8732522B2 (en) 2014-05-20
US20120124411A1 (en) 2012-05-17

Similar Documents

Publication Publication Date Title
CN102473121A (zh) 系统芯片的缺点检测
US7552241B2 (en) Method and system for managing a plurality of I/O interfaces with an array of multicore processor resources in a semiconductor chip
US9218203B2 (en) Packet scheduling in a multiprocessor system using inter-core switchover policy
JP3640187B2 (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
KR101619078B1 (ko) 원격통신 네트워크들 내에서 셀 복구를 위한 방법 및 시스템
US8937949B2 (en) Method and system for Infiniband host channel adapter multicast packet replication mechanism
US7032052B2 (en) Information handling system capable of operating with multiple types of expansion cards in a common industry standard connector
US8804752B2 (en) Method and system for temporary data unit storage on infiniband host channel adaptor
CN106878164A (zh) 一种报文传输方法和装置
TW201719444A (zh) 用於在封閉商品設備上建立可信診斷/調試代理 的系統和方法
US11989556B2 (en) Detecting infinite loops in a programmable atomic transaction
CN103647820A (zh) 用于分布式集群系统的仲裁方法及仲裁装置
CN110520849A (zh) 改进的计算装置
CN103970601A (zh) 执行操作指令方法和装置
CN108804938A (zh) 一种权限检测方法、装置、电子设备及可读存储介质
CN102998994B (zh) 嵌入式血液分析仪控制系统及其控制方法
CN104683486A (zh) 分布式系统中处理同步消息的方法、装置、分布式系统
CN107526677A (zh) 一种软件错误现场定位及处理的方法及装置
CN108881060A (zh) 一种处理通信报文的方法及装置
US8139595B2 (en) Packet transfer in a virtual partitioned environment
CN104346306A (zh) 高完整性dma操作的系统和方法
CN109254795B (zh) 并行控制方法及电子设备
US9164852B2 (en) System on chip fault detection
CN104811391B (zh) 数据包的处理方法、装置及服务器
CN105939258B (zh) Vrrp报文的发送方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120523