FR2872604A1 - "architecture d'ordinateur pour l'espace" - Google Patents
"architecture d'ordinateur pour l'espace" Download PDFInfo
- Publication number
- FR2872604A1 FR2872604A1 FR0506156A FR0506156A FR2872604A1 FR 2872604 A1 FR2872604 A1 FR 2872604A1 FR 0506156 A FR0506156 A FR 0506156A FR 0506156 A FR0506156 A FR 0506156A FR 2872604 A1 FR2872604 A1 FR 2872604A1
- Authority
- FR
- France
- Prior art keywords
- processors
- monitoring device
- processor
- space
- computer architecture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/181—Eliminating the failing redundant component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/18—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
- G06F11/183—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components
- G06F11/184—Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits by voting, the voting not being performed by the redundant components where the redundant components implement processing functionality
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
Une architecture d'ordinateur (10), convenant à l'espace parce que supportant les défauts, présente une complexité réduite pour la décision majoritaire entre des processeurs (12) fonctionnant de manière redondante, si la décision majoritaire ne s'effectue pas sur le plan des processeurs mais sur le plan PCI faisant suite au processeur (12).
Description
L'invention concerne une architecture d'ordinateur supportant les
défauts et convenant donc au fonctionnement dans l'espace, notamment à son utilisation en astronautique et dans les satellites, avec fonctionnement parallèle redondant de plusieurs processeurs et un 5 dispositif de surveillance pour bloquer une valeur de sortie d'un processeur erronée par rapport aux autres.
Du fait que dans le cas d'un fonctionnement redondant plusieurs processeurs traitent les mêmes tâches parallèlement et de manière synchrone, il faudrait qu'ils fournissent toujours des jeux de données coïncidant les uns avec les autres. Ceci n'est plus le cas lorsque l'un des processeurs fonctionne momentanément de façon défectueuse, en particulier parce que dans le cas d'une utilisation dans l'espace par exemple les irradiations intensives d'électrons des structures étroites des pistes conductrices d'un circuit de processeur a entraîné des erreurs de données au moins passagères. D'autres dysfonctionnements momentanés et défaillants, se produisant de manière caractéristique précisément dans le cas d'une utilisation dans l'espace sont dus à des facteurs thermiques passagers, car la chaleur dissipée dans les processeurs ne peut être évacuée dans le vide de l'espace, par convection.
Pour le fonctionnement dans l'espace on utilise donc des architectures d'ordinateurs du type considéré qui travaillent de manière à tolérer les défauts par le fait que les valeurs de sortie, fournies par trois processeurs fonctionnant en parallèle, sont constamment comparées les unes aux autres dans un dispositif de surveillance. En cas de survenance d'un écart, il est pris une décision majoritaire deux sur trois qui consiste à exécuter une réinitialisation du système pour celui des trois processeurs dont la valeur de sortie actuelle s'écarte précisément de celles des deux autres qui coïncident. Ce processus pour obtenir une architecture d'ordinateur résistante aux défauts et convenant à l'espace est connu par exemple comme SEU-Mitigation- System de la société BAE Systems. Pour la réalisation pratique, il présente toutefois ce grand inconvénient de nécessiter une capacité de calcul supplémentaire tout à fait considérable, notamment du fait de la nécessité de devoir comparer les unes aux autres dans le dispositif de surveillance des valeurs de sortie des processeurs d'une largeur habituelle de 64 bits à la fréquence de rythme élevée des processeurs, qui est de manière caractéristique supérieure à 100 MHz, sur le grand nombre de contacts de raccordement des processeurs, bien supérieur à 100 de manière caractéristique (dans la mesure où ils ne présentent pas un potentiel constant).
La présente invention se pose donc le problème technique d'indiquer une architecture d'ordinateur tolérant les défauts, convenant en particulier à son utilisation dans des satellites et en astronautique, qui permette une correction fiable des défauts sur la base d'une décision majoritaire avec une complexité réduite des circuits.
Ce but est atteint suivant l'invention avec un ordinateur du type considéré, avec fonctionnement parallèle redondant de plusieurs processeurs et avec un dispositif de surveillance pour bloquer une valeur de sortie d'un processeur, erronée par rapport aux autres, caractérisée en ce que le dispositif de surveillance est relié au bus PCI respectif des processeurs). Pour la vérification au cours de la décision majoritaire, on ne recourt donc plus aux données qui se trouvent dans l'unité centrale du processeur avec une fréquence élevée, dans la largeur de 64 bits; mais la comparaison s'effectue seulement sur la base du bus périphérique (PCI) par lequel les valeurs de sortie du processeur ne sont plus synchronisées qu'à 33 MHz, de manière caractéristique, et sont transmises avec seulement une largeur de 32 bits aux composants fonctionnels raccordés et appareils périphériques similaires.
Selon une caractéristique particulière de l'invention, une mémoire 30 tampon est prévue entre l'interface PCI respective d'un processeur et le dispositif de surveillance. Ces mémoires peuvent être conçues comme registre FIFO.
Selon l'invention, le dispositif de surveillance peut être commandé par une porte de temps. Il délivre l'une des valeurs de sortie provenant des différents processeurs, mais concordantes, à des appareils périphériques, par un bus PCI.
Cette solution suivant l'invention est expliquée de manière plus détaillée à l'aide du schéma-blocs représenté sur le dessin. Le schéma- blocs montre la manière dont trois processeurs fonctionnant en parallèle de manière redondante commandent des dispositifs périphériques, par un dispositif de surveillance qui a accès au bus PCI externe, par l'intermédiaire de ce bus PCI.
Dans l'architecture d'ordinateur 10 tolérant les défauts, représentée sous la forme d'un schéma-blocs simplifié, plusieurs processeurs 12 (12.1, 12.2 et 12.3), au nombre caractéristique de trois comme ici, sont alimentés en parallèle avec un jeu de données 11 à traiter. Etant donné que les processeurs 12 fonctionnent de manière numérique et synchronisée dans le temps, chacun devrait toujours fournir les mêmes valeurs de sortie 13. C'est pourquoi en principe l'une quelconque de ces trois valeurs de sortie 13 peut être transmise par une interface dite Periphal Computer (PCI) 14 (14.1, 14.2 ou 14.3 respectivement 14.4) à un bus PCI 15 et, par celui-ci, à un appareil périphérique 16 individuel, afin de commander celui-ci suivant les valeurs de sortie 13 du processeur, valables à l'instant.
S'il s'établit toutefois une divergence entre les valeurs de sortie 13, parce que l'un des processeurs 12 ne fonctionne pas correctement, seules les valeurs de sortie 13 valables de l'un des processeurs 12 fonctionnant encore correctement doivent être transmises par le bus PCI 15. Pour cela, en aval des processeurs 12 est couplé un dispositif de surveillance 17 dans lequel sont comparées les unes aux autres les valeurs de sortie 13 se produisant derrière les interfaces de processeur 14 (14.1, 14.2, 14.3), c'est-à-dire sur le plan PCI, de manière connue, pour vérifier la concordance de leur modèle de bit. On définit comme valable le modèle de bit, c'est-à-dire la valeur de sortie 13 actuelle du processeur, qui est confirmée comme coïncidente par au moins une autre valeur de sortie.
Pour cela les valeurs de sortie 13 des processeurs 12 sont chargées, par leurs interfaces de processeur 14, dans des mémoires tampons FIFO 18 (18. 1, 18.2, 18.3) associées dans celles-ci en ce qui concerne leurs circuits, lesquelles mémoires sont réalisées par exemple comme registres pipeline. De ces mémoires, les valeurs de sortie 13 sont appelées cycliquement par le dispositif de surveillance 17 pour le processus de comparaison et de sélection. Si aucune valeur de sortie 13 to n'est disponible, les sorties sur le bus PCI 15 sont bloquées au moins provisoirement par la fonction de chien de garde d'une porte de temps 19.
Si l'on constate une divergence entre des valeurs de sortie 13 qui vont ensemble, il est établi un protocole dans une mémoire de défauts 20. A partir de là une réinitialisation est déclenchée (non représenté sur le dessin) dans le processeur 12 fonctionnant apparemment de manière perturbée. Celui-ci est enfin totalement mis à l'arrêt si, après apparition du dérangement, il n'est plus en état de fournir des valeurs de sortie 13 coïncidant avec les autres.
Dans tous les cas, une architecture d'ordinateur 10 convenant à l'espace parce que tolérant les défauts, présente une complexité réduite pour la décision majoritaire entre des processeurs 12 fonctionnant de manière redondante, si la décision majoritaire ne s'effectue plus sur le plan des processeurs mais suivant l'invention sur un plan PCI faisant suite au processeur 12.
Claims (5)
1. Architecture d'ordinateur (10) convenant à l'espace avec fonctionnement parallèle redondant de plusieurs processeurs (12) et avec un dispositif de surveillance (17) pour bloquer une valeur de sortie (13) d'un processeur, erronée par rapport aux autres, caractérisée en ce que le dispositif de surveillance (17) est relié au bus PCI (15) respectif des processeurs (12).
io
2. Architecture d'ordinateur selon la revendication 1, caractérisée en ce qu'une mémoire tampon (18) est prévue entre l'interface PCI (14) respective d'un processeur (12) et le dispositif de surveillance (17) .
3. Ordinateur selon la revendication 2, caractérisée en ce que 15 la mémoire tampon (18) est conçue comme registre FIFO.
4. Ordinateur selon l'une des revendications précédentes, caractérisée en ce que le dispositif de surveillance (10) peut être commandé par une porte de temps (19).
5. Ordinateur selon l'une des revendications précédentes, caractérisée en ce que le dispositif de surveillance (17) délivre l'une des valeurs de sortie (13) provenant de différents processeurs (12), mais concordantes, à des appareils périphériques (16), par un bus PCI (15).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200410032405 DE102004032405A1 (de) | 2004-07-03 | 2004-07-03 | Weltraum-taugliche Rechnerarchitektur |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2872604A1 true FR2872604A1 (fr) | 2006-01-06 |
Family
ID=34854168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0506156A Pending FR2872604A1 (fr) | 2004-07-03 | 2005-06-17 | "architecture d'ordinateur pour l'espace" |
Country Status (3)
Country | Link |
---|---|
DE (1) | DE102004032405A1 (fr) |
FR (1) | FR2872604A1 (fr) |
GB (1) | GB2415805A (fr) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2432931A (en) * | 2005-12-03 | 2007-06-06 | Mira Ltd | Error location in a microprocessor using three pipeline execution units |
WO2008014940A1 (fr) | 2006-08-02 | 2008-02-07 | Autoliv Development Ab | Dispositif de commande et procédé pour la commande de fonctions |
DE102012204361A1 (de) * | 2012-03-20 | 2013-09-26 | Siemens Aktiengesellschaft | Verfahren zum Erkennen einer fehlerhaften Funktionsweise einer Schnittstelleneinrichtung, Schaltungsanordnung mit einer Schnittstelleneinrichtung sowie medizinisches Gerät mit einer solchen Schaltungsanordnung |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1246033A1 (fr) * | 2001-08-23 | 2002-10-02 | Siemens Aktiengesellschaft | Procédé pour surveiller les contenus de mémoire identiques dans un système redondant |
EP1380953A1 (fr) * | 2002-07-12 | 2004-01-14 | Nec Corporation | Machine informatique à tolérance de fautes, son procédé de resynchronisation et logiciel de resynchronisation correspondant |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2238143A (en) * | 1989-10-10 | 1991-05-22 | Univ Essex | Voters for fault-tolerant computer systems |
KR100293950B1 (ko) * | 1998-01-22 | 2001-08-07 | 윤종용 | 주변소자 내부연결 버스 모니터를 이용한 장애 감지 장치 및 방법 |
US6247143B1 (en) * | 1998-06-30 | 2001-06-12 | Sun Microsystems, Inc. | I/O handling for a multiprocessor computer system |
AU2001257027A1 (en) * | 2000-04-14 | 2001-10-30 | Stratus Technologies International, S.A.R.L. | Methods and apparatus for robust startup of a computer system having redundant components |
US6766479B2 (en) * | 2001-02-28 | 2004-07-20 | Stratus Technologies Bermuda, Ltd. | Apparatus and methods for identifying bus protocol violations |
JP3982353B2 (ja) * | 2002-07-12 | 2007-09-26 | 日本電気株式会社 | フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム |
JP4155088B2 (ja) * | 2003-04-18 | 2008-09-24 | 日本電気株式会社 | 情報処理装置 |
-
2004
- 2004-07-03 DE DE200410032405 patent/DE102004032405A1/de not_active Withdrawn
-
2005
- 2005-06-14 GB GB0512040A patent/GB2415805A/en not_active Withdrawn
- 2005-06-17 FR FR0506156A patent/FR2872604A1/fr active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1246033A1 (fr) * | 2001-08-23 | 2002-10-02 | Siemens Aktiengesellschaft | Procédé pour surveiller les contenus de mémoire identiques dans un système redondant |
EP1380953A1 (fr) * | 2002-07-12 | 2004-01-14 | Nec Corporation | Machine informatique à tolérance de fautes, son procédé de resynchronisation et logiciel de resynchronisation correspondant |
Non-Patent Citations (1)
Title |
---|
KUEFNER H ET AL: "Dynamic fault tolerance in DCMA-a dynamically configurable multicomputer architecture", RELIABLE DISTRIBUTED SYSTEMS, 1996. PROCEEDINGS., 15TH SYMPOSIUM ON NIGARA-ON-THE-LAKE, ONT., CANADA 23-25 OCT. 1996, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 23 October 1996 (1996-10-23), pages 22 - 31, XP010200945, ISBN: 0-8186-7481-4 * |
Also Published As
Publication number | Publication date |
---|---|
GB0512040D0 (en) | 2005-07-20 |
GB2415805A (en) | 2006-01-04 |
DE102004032405A1 (de) | 2006-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11729044B2 (en) | Service resiliency using a recovery controller | |
US9069729B2 (en) | Method and system for providing high availability to distributed computer applications | |
US20100318746A1 (en) | Memory change track logging | |
US9146864B2 (en) | Address mapping including generic bits for universal addressing independent of memory type | |
WO2018048723A1 (fr) | Procédés et systèmes permettant d'obtenir une tolérance aux pannes de confiance d'un système de sous-systèmes non sécurisés | |
JP2001526809A (ja) | コンピュータ・システム用非割り込み電力制御 | |
US10191821B2 (en) | Cooperative data recovery in a storage stack | |
US20070022318A1 (en) | Method and system for environmentally adaptive fault tolerant computing | |
US8996953B2 (en) | Self monitoring and self repairing ECC | |
JP5785477B2 (ja) | ミラー化データ・ストレージ・システムにおけるエラーを検出するための方法、コンピュータ・プログラム及びシステム | |
JP2001505338A (ja) | フォールト・トレラント・コンピュータ・システム | |
FR2872604A1 (fr) | "architecture d'ordinateur pour l'espace" | |
US20030041290A1 (en) | Method for monitoring consistent memory contents in redundant systems | |
WO2014207893A1 (fr) | Circuit de calcul et ordinateur | |
Pawlitzki et al. | multiMIND–high performance processing system for robust newspace payloads | |
US8595442B1 (en) | Redundantly validating values with a processor and a check circuit | |
US8880957B2 (en) | Facilitating processing in a communications environment using stop signaling | |
Dumitriu et al. | Decentralized run-time recovery mechanism for transient and permanent hardware faults for space-borne FPGA-based computing systems | |
JP6710142B2 (ja) | 制御システム | |
US8468421B2 (en) | Memory system for error checking fetch and store data | |
KR20220033157A (ko) | 위성 데이터 처리 시스템에서 싱글 이벤트 이펙트를 처리하기 위한 장치 및 이를 이용한 방법 | |
US20200409794A1 (en) | Diagnostics for high-availability systems and devices | |
US20100231601A1 (en) | Viewing Device Comprising an Electronic Means of Freezing the Display | |
WO2016071329A1 (fr) | Procede et dispositif de tolerance aux fautes sur des composants electroniques | |
EP1340147B1 (fr) | Dispositif et procede de codage pour un sous-ensemble de detection et correction d'erreurs memoire dans un systeme electronique |