EP2452264A1

EP2452264A1 - System-on-chip fehlererkennung

Info

Publication number: EP2452264A1
Application number: EP10744654A
Authority: EP
Inventors: Stefan Poledna
Original assignee: FTS Computertechnik GmbH
Current assignee: FTS Computertechnik GmbH
Priority date: 2009-07-09
Filing date: 2010-07-07
Publication date: 2012-05-16
Also published as: US8732522B2; JP2012532385A; WO2011003121A1; CN102473121A; US20120124411A1

Abstract

Die Erfindung betrifft ein Verfahren zur Fehlererkennung in einem System-on-Chip (SoC) bestehend aus einer Anzahl von IP-Cores, wobei jedes IP-Core eine Fault-Containment Unit ist, und wo die IP-Cores über ein Network-on-Chip mittels Nachrichten miteinander kommunizieren und wobei ein ausgezeichnetes IP-Core einen TRM (Trusted Resource Monitor) realisiert, wobei eine fehlerhafte Steuerungsnachricht, die von einem nicht privilegierten IP-Core an ein anderes nicht privilegierten IP-Core gesendet wird, von einer (unabhängigen) Fault-Containment Unit erkannt und verworfen wird, so dass diese fehlerhafte Steuerungsnachricht keinen Ausfall des Nachrichtenempfängers verursachen kann.

Description

SYSTEM-ON-CHIP FEHLERERKENNUNG

Diese Erfindung betrifft ein Verfahren und eine Vorrichtung zur Verbesserung der Zuverlässigkeit eines System-on-Chips in einem eingebetteten Computersystem.

Insbesondere betrifft die Erfindung ein Verfahren zur Fehlererkennung in einem System-on- Chip (SoC) bestehend aus einer Anzahl von IP-Cores, wobei jedes IP-Core eine Fault- Containment Unit ist, und wo die IP-Cores über ein Network-on-Chip mittels Nachrichten miteinander kommunizieren und wobei ein ausgezeichnetes IP-Core einen TRM (Trusted Resource Monitor) realisiert.

Unter einem System-on-Chip (SoC) versteht man ein System, bei dem der Grossteil der Systemfunktionen auf einem einzigen Stück Silizium integriert sind. Aufgrund von Pollack's Regel (Borkar, S. (2007) Thousand-Core Chips, A Technology Perspective, Proc. of the 44⁰¹ ACM IEEE Design Automation Conference, p. 746-749, ACM Press, New York) bestehen leistungsfähige SoCs aus einer Anzahl von IP-Cores, die über ein Network-on-Chip kommunizieren. Ein IP-Core ist eine Hardware /Software Komponente, die eine vorgegebene Funktion erfüllt. Die Kommunikation von IP-Cores kann entweder über den Zugriff der IP-Cores auf einen gemeinsamen Speicher oder über Nachrichten erfolgen. In der Anmeldung PCT/AT 2009/00207 wird eine SoC Architektur vorgestellt, bei der die IP-Cores ausschließlich über Nachrichten kommunizieren.

Die vorliegende Erfindung verfolgt das Ziel zu verhindern, dass ein fehlerhaftes IP-Core eines SoCs andere, vom Fehler nicht unmittelbar betroffene IP-Cores, zum Ausfall bringt.

Die vorliegende Erfindung hat somit zum Ziel, in einem System-on-Chip (SoC) in dem eine Vielzahl von Komponenten (IP-Cores) ausschließlich mittels Nachrichten kommunizieren, zu verhindern, dass sich ein Fehler eines IP-Cores auf die anderen, vom Fehler nicht unmittelbar betroffenen IP-Cores, fortpflanzt. Dieses Ziel wird dadurch erreicht, dass eine fehlerhafte Steuerungsnachricht, die von einem nicht privilegierten IP-Core an ein anderes nicht privilegierten IP-Core gesendet wird, von einer (per Definition unabhängigen) Fault- Containment Unit erkannt und verworfen wird, so dass diese fehlerhafte Steuerungsnachricht keinen Ausfall des Nachrichtenempfängers verursachen kann.

Es kann jede Nachricht eines IP-Cores, die einen Ausfall eines anderen IP-Cores hervorrufen kann, von einem dritten IP-Core überprüft und gegebenenfalls verworfen werden, um zu verhindem, dass diese fehlerhafte Nachricht die von einem fehlerhaften IP-Core gesendet wird, den Ausfall eines anderer IP-Cores bewirken kann.

Besondere Vorteile ergeben sich wenn jede Steuerungsnachricht, die von einem nicht privilegierten IP-Core an ein anderes nicht privilegiertes IP-Core gesendet werden soll, zuerst an ein drittes IP-Core gesendet wird, wobei dieses dritte IP-Core die Nachricht überprüft, und wobei, falls die Nachricht nicht fehlerhaft ist, die Nachricht von diesem dritten IP-Core an den beabsichtigten endgültigen Empfänger weitergeleitet wird.

Das überprüfende IP-Core kann eine Nachricht als fehlerhaft klassifizieren, wenn die Evaluierung einer der dem überprüfenden IP-Core a priori bekannten Zusicherung den Wert falsch hat.

Mit Vorteil ist das dritte IP-Core der TRM.

Weiters ist es günstig, wenn der TRM nur Nachrichten von einem Sender, der berechtigt ist, eine Steuerungsnachricht an das in der Nachricht angeführte IP-Core zu senden, weiterleitet.

Außerdem kann vorgesehen sein, dass nur der TRM eine Steuerungsnachricht an die TII (technology-independent interface) eines nicht privilegiertes IP-Core senden kann.

Zweckmäßig ist es, wenn jede Steuerungsnachricht an die TII Schnittstelle eines IP-Cores gesendet werden muss.

Weiters kann vorgesehen sein, dass mindestens drei Nachrichten, jede von einem anderen IP-Core, innerhalb eines vorgegebenen Zeitintervalls an den TRM gesendet werden müssen, und wo der empfangende TRM überprüft, ob mindesten zwei der drei Nachrichten denselben Befehl enthalten, ehe diese Nachricht an die TII Schnittstelle des angesprochenen IP- Cores weitergeleitet wird.

Außerdem kann vorgesehen sein, dass mindestens drei Nachrichten, jede von einem anderen SoC, innerhalb eines vorgegebenen Zeitintervalls an den TRM gesendet werden müssen, und wo der empfangende TRM überprüft, ob mindesten zwei der drei Nachrichten denselben Befehl enthalten, ehe diese Nachricht an die TII Schnittstelle des angesprochenen IP-Cores weitergeleitet wird. Zweckmäßig ist es, wenn die Funktionen des privilegierten Subsystems, welches aus dem TRM, dem Network on Chip und den Network Interfaces besteht, durch fehlerkorrigierende Codes abgesichert werden.

Außerdem betrifft die Erfindung eine Vorrichtung zum Durchführen eines oben beschriebenen Verfahrens, wobei ein oder mehrere bzw. alle Verfahrensschritte direkt in der Hardware des SoCs ausgeführt werden.

Das vorab beschriebene Ziel und andere neue Eigenschaften der vorliegenden Erfindung werden in den angeführten Abbildungen erläutert.

Fig. 1 zeigt den Aufbau eines System-on-Chip (SoC). Fig. 2 zeigt die Struktur eines IP-Cores eines SoCs.

Fig. 3 zeigt das Senden einer Steuerungsnachricht von einem IP-Core an ein anderes IP-Core eines SoCs.

Im folgenden Abschnitt wird eine Realisierung des neuen Verfahrens an einem möglichen Beispiel eines SoCs mit acht IP-Cores gezeigt.

Fig. 1 zeigt einen SoC 100 mit den acht IP-Cores 111, 112, 113, 114, 115, 116, 117 und 118. Diese acht IP-Cores können über ein Network-on-Chip 101 Nachrichten austauschen. Jedes IP-Core, z.B., das IP-Core 114, wird über ein Netzwerk-Interface (NI) 102 an das NoC 101 angebunden. Eines dieser acht IP-Cores, z.B. das IP-Core 111, ist ein privilegiertes IP-Core, das Trusted Resource Monitor (TRM) genannt wird, während die übrigen sieben IP-Cores 112, 113, 114, 115, 116, 117 und 118 nicht privilegierte IP-Cores sind. Der TRM 111, das Network on Chip 101 und die acht Network Interfaces 102 bilden das privilegierte Subsystem des SoC 100. Ein Fehler in diesem privilegierten Subsystem kann zu einem Ausfall des gesamten SoC führen. Deshalb sollen erfindungsgemäss die Funktionen des privilegierten Subsystems durch besondere Fehlersicherungsmaßnahmen, wie zum Beispiel durch den Einsatz von fehlerkorrigierenden Codes, abgesichert werden. Durch entsprechende fehlerkorrigierende Codes können transiente und permanente Hardwarefehler im privilegierten Subsystem erkannt und korrigiert werden.

Jedes der sieben nicht-privilegierten IP-Cores bildet eine eigene Fault-Containment Unit (FCU) (Kopetz, H. (1997). Real-Time Systems, Design Principles for Distributed Embedded Applications; ISBN: 0-7923-9894-7. Boston. Kluwer Academic Publishers.), d.h. die Folgen eines beliebigen Software- oder Hardwarefehlers innerhalb eines nicht privilegierten IP-Cores können nur die Funktionen des betroffenen IP-Cores unmittelbar stören, sie können sich jedoch auf die Funktionen der anderen IP-Cores nur mittelbar über fehlerhafte Nachrichten auswirken. Wenn es gelingt, fehlerhafte Nachrichten zu erkennen und zu verwerfen, so können sich die mittelbaren Folgen eines IP-Core Fehlers nicht fortpflanzen. In der PCT/AT 2006/00278 wird eine Architektur beschrieben, in der temporale Fehler von IP-Core Nachrichten durch das privilegierte Netzwerk Interface (NI) 102 des NoC 101 erkannt und verworfen werden. Entsprechend der PCT/AT 2009/00207 (WO 2009/140707) ist es nur dem TRM 111 erlaubt, temporalen Parameter in das NI 102 zu schreiben, um zu verhindern, dass ein fehlerhaftes IP-Core die Sendeparameter einer Nachricht selbständig ändern kann. Das Verfahren wie in der PCT/AT 2006/00278 beschrieben verhindert jedoch nicht, dass inhaltlich falsche Steuerungsnachrichten von einem nicht privilegiertem fehlerhaften IP-Core an die anderen nicht privilegierten IP-Cores gesendet werden können.

Fig. 2 zeigt den Aufbau eines nicht privilegierten IP-Cores, z.B. das IP-Core 114. Dieses IP- Core verfügt über vier äußere Schnittstellen: 211, 212, 213 und 122. Die drei Nachrichtenschnittstellen 211, 212 und 213 sind mit dem Network Interface (NI) 102 der Fig. 1 verbunden. Die Schnittstelle 122 ist eine lokale Schnittstelle des IP-Cores, über die eine Verbindung zur Außenwelt des SoC 100 realisiert wird. Diese Schnittstelle 122 kann z.B. ein In- put/Output Netzwerk (z.B. ein CAN Netzwerk) oder eine drahtlose Verbindung zur Umgebung des SoC 100 sein.

Die Nachrichtenschnittstelle 211 bezeichnen wir als Linking Interface (LIF) des IP-Cores 114. Über das LIF 211 werden die Dienste des IP-Cores 114 den sieben anderen IP-Cores des SoC 100 angeboten.

Die Nachrichtenschnittstelle 212 bezeichnen wird als Technology-Dependant Interface (TDI), die es dem Wartungstechniker ermöglicht, mit den internen Funktionen des IP-Cores 114 zu kommunizieren. Da das Format und der Inhalt dieser TDI Nachrichten von der konkreten Implementierungstechnik des IP-Cores abhängen, ist diese Schnittstelle implementierungsabhängig.

Die Nachrichtenschnittstelle 213 bezeichnen wir als TII (Technology-Independent Interface). Über diese TII Schnittstelle 213 wird die Konfiguration und die Ablaufsteuerung des IP- Cores 114 mittels Steuerungsnachrichten realisiert. Eine Steuerungsnachricht ist eine Nachricht, die den Ablauf der Berechnung in einem IP Core steuert. Zum Beispiel wird mittels Steuerungsnachrichten ein Hardware-Reset des gesamten IP-Cores 114 veranlasst, oder der Start einer Programmausführung oder die Terminierung einer Programmausführung des IP- Cores 114 angeordnet. Weiters kann mittels Steuerungsnachrichten die Konfiguration oder eine Rekonfiguration des SoCs veranlasst werden. Eine fehlerhafte Steuerungsnachricht, die an die TII Schnittstelle des IP-Cores gesendet wird, kann den Ausfall des IP-Cores 114 bewirken, z.B. wenn während der korrekten Arbeit des IP-Cores 114 plötzlich eine fehlerhafte Hardware-Reset Nachricht an der TII Schnittstelle 213 empfangen wird. In Fig. 2 ist auch der innere Aufbau des IP-Cores 114 dargestellt. Auf der untersten Ebene 201 befindet sich IP-Core Hardware, die die im IP-Core 114 geladene Software ausführt. Auf der nächsten Ebene 202 befindet sich das IP-Core interne Betriebssystem und auf der Ebene 203 befindet sich die IP-Core interne Middleware. Schließlich befindet auf der Ebene 204 die Applikationssoftware. Die IP-Core interne Schnittstelle 214 zwischen der Middleware 203 und der Applikationssoftware 204 bezeichnet man als das Application-Program-Interface (API) 214. Die Nachrichten, die über die TII Schnittstelle 213 empfangen werden, kommunizieren entweder direkt mit der IP-Core Hardware 201 (z.B. eine Reset Nachricht), mit dem Betriebssystem 202 (z.B. eine Steuerungsnachricht zur Terminierung eines Prozesses) oder der Middleware 203, jedoch nicht mit der Applikationssoftware 204. Es ist deshalb der Applikationssoftware eines nicht privilegierten IP-Cores nicht möglich, fehlerhafte Steuerungsnachrichten, die über die TII Schnittstelle 213 eintreffen, zu erkennen.

Fig. 3 zeigt das Senden einer Steuerungsnachricht an die TII Schnittstelle eines nicht privilegierten IP-Cores. Wenn z.B. das IP-Core 115 eine Reset Nachricht 140 an das IP-Core 116 senden will, so muss es diese Nachricht 140 erfindungsgemäß zuerst an ein unabhängiges drittes IP-Core, den TRM 111 senden. Der TRM 111 überprüft ob die Nachricht 140 fehlerhaft ist. Diese Überprüfung erfolgt anhand von Zusicherungen (Assertions), die dem TRM a priori bekannt sein müssen. Diese Zusicherungen können sich auf den Zustand des Gesamtsystems, auf die Identität des Senders, den Zeitpunkt der Nachricht und dem Inhalt der Nachricht beziehen. Wenn alle von der TRM evaluierten Zusicherungen richtig sind, dann sendet das TRM die Reset Nachricht 141 an das TII Interface des IP-Cores 115. Erfindungsgemäß muss durch die Architektur sichergestellt werden, dass nur der (privilegierte) TRM 111 in der Lage ist, Nachrichten an das TII Interface eines nicht privilegierten IP-Cores zu senden. Die Implementierung eines nicht privilegierten IP-Cores muss sicherstellen, dass Steuerungsnachrichten (wie zum Beispiel die Reset Nachricht), die zu einem Ausfall eines IP- Cores führen könnten, nur über das TII Interface empfangen werden können. Erfindungsgemäß ist es daher nicht möglich, dass ein nicht privilegiertes IP-Core direkt eine Steuerungsnachricht an ein anderes nicht privilegiertes IP-Core senden kann.

In einem sicherheitsrelevanten System kann die Fehlererkennung der Steuerungsnachrichten über Zusicherungen als nicht ausreichend betrachtet werden. In einem solchen System müssen drei parallel laufende IP-Cores die Steuerungsbefehle, die in den Steuerungsnach- richten eingebettete sind, errechnen. Der TRM vergleicht diese drei Steuerungsnachrichten und sendet eine entsprechende Nachricht an das TII Interface des Empfängers nur weiter, wenn mindestens zwei dieser Nachrichten identisch sind. Damit wird ein beliebiger Fehler in einem der drei sendenden IP-Cores maskiert. In hochzuverlässigen Systemen müssen diese drei parallelen Steuerungsnachrichten von drei unabhängigen SoCs stammen, um einen common-mode Fehler, der innerhalb eines einzigen SoCs auftreten kann, zu verhindern.

Durch diese Erfindung wird die Zuverlässigkeit eines SoC wesentlich verbessert, da verhindert wird, dass ein fehlerhaftes IP-Core den Ausfall eines anderen IP-Cores verursachen kann. Die Fehlererkennung im empfangenen IP Core ist nicht sinnvoll, da das empfangende IP-Core im Fehlerfall nicht die eigene Fehlererkennung korrekt ausführen kann.

Die hier beschriebene konkrete Realisierung der Erfindung stellt nur eine von vielen Realisierungsmöglichkeiten dieser Erfindung dar.

Claims

ANSPRÜCHE

1. Verfahren zur Fehlererkennung in einem System-on-Chip (SoC) bestehend aus einer Anzahl von IP-Cores, wobei jedes IP-Core eine Fault-Containment Unit ist, und wo die IP- Cores über ein Network-on-Chip mittels Nachrichten miteinander kommunizieren und wobei ein ausgezeichnetes IP-Core einen TRM (Trusted Resource Monitor) realisiert, dadurch gekennzeichnet, dass eine fehlerhafte Steuerungsnachricht, die von einem nicht privilegierten IP-Core an ein anderes nicht privilegierten IP-Core gesendet wird, von einer Fault- Containment Unit erkannt und verworfen wird, so dass diese fehlerhafte Steuerungsnachricht keinen Ausfall des Nachrichtenempfängers verursachen kann.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jede Steuerungsnachricht, die von einem nicht privilegierten IP-Core an ein anderes nicht privilegiertes IP-Core gesendet werden soll, zuerst an ein drittes IP-Core gesendet wird, wobei dieses dritte IP-Core die Nachricht überprüft, und wobei, falls die Nachricht nicht fehlerhaft ist, die Nachricht von diesem dritten IP-Core an den beabsichtigten endgültigen Empfänger weiter geleitet wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das überprüfende IP- Core eine Nachricht als fehlerhaft klassifiziert, wenn die Evaluierung einer der dem überprüfenden IP-Core a priori bekannten Zusicherung den Wert falsch hat.

4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass das dritte IP-Core der TRM ist.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der TRM nur Nachrichten von einem Sender, der berechtigt ist, eine Steuerungsnachricht an das in der Nachricht angeführte IP-Core zu senden, weiterleitet.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass nur der TRM eine Steuerungsnachricht an die TII (technology-independent interface) eines nicht privilegiertes IP-Core senden kann.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass jede Steuerungsnachricht an die TII Schnittstelle eines IP-Cores gesendet werden muss.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass mindestens drei Nachrichten, jede von einem anderen IP-Core, innerhalb eines vorgegebenen Zeitintervalls an den TRM gesendet werden müssen, und wo der empfangende TRM überprüft, ob mindesten zwei der drei Nachrichten denselben Befehl enthalten, ehe diese Nachricht an die TII Schnittstelle des angesprochenen IP-Cores weitergeleitet wird.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass mindestens drei Nachrichten, jede von einem anderen SoC, innerhalb eines vorgegebenen Zeitintervalls an den TRM gesendet werden müssen, und wo der empfangende TRM überprüft, ob mindesten zwei der drei Nachrichten denselben Befehl enthalten, ehe diese Nachricht an die TII Schnittstelle des angesprochenen IP-Cores weitergeleitet wird.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die Funktionen des privilegierten Subsystems, welches aus dem TRM, dem Network on Chip und den Network Interfaces besteht, durch fehlerkorrigierende Codes abgesichert werden.

11. Vorrichtung zum Durchführen eines Verfahrens nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass ein oder mehrere bzw. alle Verfahrensschritte direkt in der Hardware des SoCs ausgeführt werden.