FR2872604A1 - "architecture d'ordinateur pour l'espace" - Google Patents

"architecture d'ordinateur pour l'espace" Download PDF

Info

Publication number
FR2872604A1
FR2872604A1 FR0506156A FR0506156A FR2872604A1 FR 2872604 A1 FR2872604 A1 FR 2872604A1 FR 0506156 A FR0506156 A FR 0506156A FR 0506156 A FR0506156 A FR 0506156A FR 2872604 A1 FR2872604 A1 FR 2872604A1
Authority
FR
France
Prior art keywords
processors
monitoring device
processor
space
computer architecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR0506156A
Other languages
English (en)
Inventor
Herbert Muller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Diehl BGT Defence GmbH and Co KG
Original Assignee
Diehl BGT Defence GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Diehl BGT Defence GmbH and Co KG filed Critical Diehl BGT Defence GmbH and Co KG
Publication of FR2872604A1 publication Critical patent/FR2872604A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/181Eliminating the failing redundant component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • G06F11/183Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
    • G06F11/184Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

Une architecture d'ordinateur (10), convenant à l'espace parce que supportant les défauts, présente une complexité réduite pour la décision majoritaire entre des processeurs (12) fonctionnant de manière redondante, si la décision majoritaire ne s'effectue pas sur le plan des processeurs mais sur le plan PCI faisant suite au processeur (12).

Description

L'invention concerne une architecture d'ordinateur supportant les
défauts et convenant donc au fonctionnement dans l'espace, notamment à son utilisation en astronautique et dans les satellites, avec fonctionnement parallèle redondant de plusieurs processeurs et un 5 dispositif de surveillance pour bloquer une valeur de sortie d'un processeur erronée par rapport aux autres.
Du fait que dans le cas d'un fonctionnement redondant plusieurs processeurs traitent les mêmes tâches parallèlement et de manière synchrone, il faudrait qu'ils fournissent toujours des jeux de données coïncidant les uns avec les autres. Ceci n'est plus le cas lorsque l'un des processeurs fonctionne momentanément de façon défectueuse, en particulier parce que dans le cas d'une utilisation dans l'espace par exemple les irradiations intensives d'électrons des structures étroites des pistes conductrices d'un circuit de processeur a entraîné des erreurs de données au moins passagères. D'autres dysfonctionnements momentanés et défaillants, se produisant de manière caractéristique précisément dans le cas d'une utilisation dans l'espace sont dus à des facteurs thermiques passagers, car la chaleur dissipée dans les processeurs ne peut être évacuée dans le vide de l'espace, par convection.
Pour le fonctionnement dans l'espace on utilise donc des architectures d'ordinateurs du type considéré qui travaillent de manière à tolérer les défauts par le fait que les valeurs de sortie, fournies par trois processeurs fonctionnant en parallèle, sont constamment comparées les unes aux autres dans un dispositif de surveillance. En cas de survenance d'un écart, il est pris une décision majoritaire deux sur trois qui consiste à exécuter une réinitialisation du système pour celui des trois processeurs dont la valeur de sortie actuelle s'écarte précisément de celles des deux autres qui coïncident. Ce processus pour obtenir une architecture d'ordinateur résistante aux défauts et convenant à l'espace est connu par exemple comme SEU-Mitigation- System de la société BAE Systems. Pour la réalisation pratique, il présente toutefois ce grand inconvénient de nécessiter une capacité de calcul supplémentaire tout à fait considérable, notamment du fait de la nécessité de devoir comparer les unes aux autres dans le dispositif de surveillance des valeurs de sortie des processeurs d'une largeur habituelle de 64 bits à la fréquence de rythme élevée des processeurs, qui est de manière caractéristique supérieure à 100 MHz, sur le grand nombre de contacts de raccordement des processeurs, bien supérieur à 100 de manière caractéristique (dans la mesure où ils ne présentent pas un potentiel constant).
La présente invention se pose donc le problème technique d'indiquer une architecture d'ordinateur tolérant les défauts, convenant en particulier à son utilisation dans des satellites et en astronautique, qui permette une correction fiable des défauts sur la base d'une décision majoritaire avec une complexité réduite des circuits.
Ce but est atteint suivant l'invention avec un ordinateur du type considéré, avec fonctionnement parallèle redondant de plusieurs processeurs et avec un dispositif de surveillance pour bloquer une valeur de sortie d'un processeur, erronée par rapport aux autres, caractérisée en ce que le dispositif de surveillance est relié au bus PCI respectif des processeurs). Pour la vérification au cours de la décision majoritaire, on ne recourt donc plus aux données qui se trouvent dans l'unité centrale du processeur avec une fréquence élevée, dans la largeur de 64 bits; mais la comparaison s'effectue seulement sur la base du bus périphérique (PCI) par lequel les valeurs de sortie du processeur ne sont plus synchronisées qu'à 33 MHz, de manière caractéristique, et sont transmises avec seulement une largeur de 32 bits aux composants fonctionnels raccordés et appareils périphériques similaires.
Selon une caractéristique particulière de l'invention, une mémoire 30 tampon est prévue entre l'interface PCI respective d'un processeur et le dispositif de surveillance. Ces mémoires peuvent être conçues comme registre FIFO.
Selon l'invention, le dispositif de surveillance peut être commandé par une porte de temps. Il délivre l'une des valeurs de sortie provenant des différents processeurs, mais concordantes, à des appareils périphériques, par un bus PCI.
Cette solution suivant l'invention est expliquée de manière plus détaillée à l'aide du schéma-blocs représenté sur le dessin. Le schéma- blocs montre la manière dont trois processeurs fonctionnant en parallèle de manière redondante commandent des dispositifs périphériques, par un dispositif de surveillance qui a accès au bus PCI externe, par l'intermédiaire de ce bus PCI.
Dans l'architecture d'ordinateur 10 tolérant les défauts, représentée sous la forme d'un schéma-blocs simplifié, plusieurs processeurs 12 (12.1, 12.2 et 12.3), au nombre caractéristique de trois comme ici, sont alimentés en parallèle avec un jeu de données 11 à traiter. Etant donné que les processeurs 12 fonctionnent de manière numérique et synchronisée dans le temps, chacun devrait toujours fournir les mêmes valeurs de sortie 13. C'est pourquoi en principe l'une quelconque de ces trois valeurs de sortie 13 peut être transmise par une interface dite Periphal Computer (PCI) 14 (14.1, 14.2 ou 14.3 respectivement 14.4) à un bus PCI 15 et, par celui-ci, à un appareil périphérique 16 individuel, afin de commander celui-ci suivant les valeurs de sortie 13 du processeur, valables à l'instant.
S'il s'établit toutefois une divergence entre les valeurs de sortie 13, parce que l'un des processeurs 12 ne fonctionne pas correctement, seules les valeurs de sortie 13 valables de l'un des processeurs 12 fonctionnant encore correctement doivent être transmises par le bus PCI 15. Pour cela, en aval des processeurs 12 est couplé un dispositif de surveillance 17 dans lequel sont comparées les unes aux autres les valeurs de sortie 13 se produisant derrière les interfaces de processeur 14 (14.1, 14.2, 14.3), c'est-à-dire sur le plan PCI, de manière connue, pour vérifier la concordance de leur modèle de bit. On définit comme valable le modèle de bit, c'est-à-dire la valeur de sortie 13 actuelle du processeur, qui est confirmée comme coïncidente par au moins une autre valeur de sortie.
Pour cela les valeurs de sortie 13 des processeurs 12 sont chargées, par leurs interfaces de processeur 14, dans des mémoires tampons FIFO 18 (18. 1, 18.2, 18.3) associées dans celles-ci en ce qui concerne leurs circuits, lesquelles mémoires sont réalisées par exemple comme registres pipeline. De ces mémoires, les valeurs de sortie 13 sont appelées cycliquement par le dispositif de surveillance 17 pour le processus de comparaison et de sélection. Si aucune valeur de sortie 13 to n'est disponible, les sorties sur le bus PCI 15 sont bloquées au moins provisoirement par la fonction de chien de garde d'une porte de temps 19.
Si l'on constate une divergence entre des valeurs de sortie 13 qui vont ensemble, il est établi un protocole dans une mémoire de défauts 20. A partir de là une réinitialisation est déclenchée (non représenté sur le dessin) dans le processeur 12 fonctionnant apparemment de manière perturbée. Celui-ci est enfin totalement mis à l'arrêt si, après apparition du dérangement, il n'est plus en état de fournir des valeurs de sortie 13 coïncidant avec les autres.
Dans tous les cas, une architecture d'ordinateur 10 convenant à l'espace parce que tolérant les défauts, présente une complexité réduite pour la décision majoritaire entre des processeurs 12 fonctionnant de manière redondante, si la décision majoritaire ne s'effectue plus sur le plan des processeurs mais suivant l'invention sur un plan PCI faisant suite au processeur 12.

Claims (5)

REVENDICATIONS
1. Architecture d'ordinateur (10) convenant à l'espace avec fonctionnement parallèle redondant de plusieurs processeurs (12) et avec un dispositif de surveillance (17) pour bloquer une valeur de sortie (13) d'un processeur, erronée par rapport aux autres, caractérisée en ce que le dispositif de surveillance (17) est relié au bus PCI (15) respectif des processeurs (12).
io
2. Architecture d'ordinateur selon la revendication 1, caractérisée en ce qu'une mémoire tampon (18) est prévue entre l'interface PCI (14) respective d'un processeur (12) et le dispositif de surveillance (17) .
3. Ordinateur selon la revendication 2, caractérisée en ce que 15 la mémoire tampon (18) est conçue comme registre FIFO.
4. Ordinateur selon l'une des revendications précédentes, caractérisée en ce que le dispositif de surveillance (10) peut être commandé par une porte de temps (19).
5. Ordinateur selon l'une des revendications précédentes, caractérisée en ce que le dispositif de surveillance (17) délivre l'une des valeurs de sortie (13) provenant de différents processeurs (12), mais concordantes, à des appareils périphériques (16), par un bus PCI (15).
FR0506156A 2004-07-03 2005-06-17 "architecture d'ordinateur pour l'espace" Pending FR2872604A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200410032405 DE102004032405A1 (de) 2004-07-03 2004-07-03 Weltraum-taugliche Rechnerarchitektur

Publications (1)

Publication Number Publication Date
FR2872604A1 true FR2872604A1 (fr) 2006-01-06

Family

ID=34854168

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0506156A Pending FR2872604A1 (fr) 2004-07-03 2005-06-17 "architecture d'ordinateur pour l'espace"

Country Status (3)

Country Link
DE (1) DE102004032405A1 (fr)
FR (1) FR2872604A1 (fr)
GB (1) GB2415805A (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2432931A (en) * 2005-12-03 2007-06-06 Mira Ltd Error location in a microprocessor using three pipeline execution units
WO2008014940A1 (fr) 2006-08-02 2008-02-07 Autoliv Development Ab Dispositif de commande et procédé pour la commande de fonctions
DE102012204361A1 (de) * 2012-03-20 2013-09-26 Siemens Aktiengesellschaft Verfahren zum Erkennen einer fehlerhaften Funktionsweise einer Schnittstelleneinrichtung, Schaltungsanordnung mit einer Schnittstelleneinrichtung sowie medizinisches Gerät mit einer solchen Schaltungsanordnung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1246033A1 (fr) * 2001-08-23 2002-10-02 Siemens Aktiengesellschaft Procédé pour surveiller les contenus de mémoire identiques dans un système redondant
EP1380953A1 (fr) * 2002-07-12 2004-01-14 Nec Corporation Machine informatique à tolérance de fautes, son procédé de resynchronisation et logiciel de resynchronisation correspondant

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2238143A (en) * 1989-10-10 1991-05-22 Univ Essex Voters for fault-tolerant computer systems
KR100293950B1 (ko) * 1998-01-22 2001-08-07 윤종용 주변소자 내부연결 버스 모니터를 이용한 장애 감지 장치 및 방법
US6247143B1 (en) * 1998-06-30 2001-06-12 Sun Microsystems, Inc. I/O handling for a multiprocessor computer system
AU2001257027A1 (en) * 2000-04-14 2001-10-30 Stratus Technologies International, S.A.R.L. Methods and apparatus for robust startup of a computer system having redundant components
US6766479B2 (en) * 2001-02-28 2004-07-20 Stratus Technologies Bermuda, Ltd. Apparatus and methods for identifying bus protocol violations
JP3982353B2 (ja) * 2002-07-12 2007-09-26 日本電気株式会社 フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム
JP4155088B2 (ja) * 2003-04-18 2008-09-24 日本電気株式会社 情報処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1246033A1 (fr) * 2001-08-23 2002-10-02 Siemens Aktiengesellschaft Procédé pour surveiller les contenus de mémoire identiques dans un système redondant
EP1380953A1 (fr) * 2002-07-12 2004-01-14 Nec Corporation Machine informatique à tolérance de fautes, son procédé de resynchronisation et logiciel de resynchronisation correspondant

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUEFNER H ET AL: "Dynamic fault tolerance in DCMA-a dynamically configurable multicomputer architecture", RELIABLE DISTRIBUTED SYSTEMS, 1996. PROCEEDINGS., 15TH SYMPOSIUM ON NIGARA-ON-THE-LAKE, ONT., CANADA 23-25 OCT. 1996, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 23 October 1996 (1996-10-23), pages 22 - 31, XP010200945, ISBN: 0-8186-7481-4 *

Also Published As

Publication number Publication date
GB0512040D0 (en) 2005-07-20
GB2415805A (en) 2006-01-04
DE102004032405A1 (de) 2006-02-09

Similar Documents

Publication Publication Date Title
US11729044B2 (en) Service resiliency using a recovery controller
US9069729B2 (en) Method and system for providing high availability to distributed computer applications
US20100318746A1 (en) Memory change track logging
US9146864B2 (en) Address mapping including generic bits for universal addressing independent of memory type
WO2018048723A1 (fr) Procédés et systèmes permettant d'obtenir une tolérance aux pannes de confiance d'un système de sous-systèmes non sécurisés
JP2001526809A (ja) コンピュータ・システム用非割り込み電力制御
US10191821B2 (en) Cooperative data recovery in a storage stack
US20070022318A1 (en) Method and system for environmentally adaptive fault tolerant computing
US8996953B2 (en) Self monitoring and self repairing ECC
JP5785477B2 (ja) ミラー化データ・ストレージ・システムにおけるエラーを検出するための方法、コンピュータ・プログラム及びシステム
JP2001505338A (ja) フォールト・トレラント・コンピュータ・システム
FR2872604A1 (fr) "architecture d'ordinateur pour l'espace"
US20030041290A1 (en) Method for monitoring consistent memory contents in redundant systems
WO2014207893A1 (fr) Circuit de calcul et ordinateur
Pawlitzki et al. multiMIND–high performance processing system for robust newspace payloads
US8595442B1 (en) Redundantly validating values with a processor and a check circuit
US8880957B2 (en) Facilitating processing in a communications environment using stop signaling
Dumitriu et al. Decentralized run-time recovery mechanism for transient and permanent hardware faults for space-borne FPGA-based computing systems
JP6710142B2 (ja) 制御システム
US8468421B2 (en) Memory system for error checking fetch and store data
KR20220033157A (ko) 위성 데이터 처리 시스템에서 싱글 이벤트 이펙트를 처리하기 위한 장치 및 이를 이용한 방법
US20200409794A1 (en) Diagnostics for high-availability systems and devices
US20100231601A1 (en) Viewing Device Comprising an Electronic Means of Freezing the Display
WO2016071329A1 (fr) Procede et dispositif de tolerance aux fautes sur des composants electroniques
EP1340147B1 (fr) Dispositif et procede de codage pour un sous-ensemble de detection et correction d'erreurs memoire dans un systeme electronique