FR2892210A1 - Procede et systeme de journalisation d'erreurs recuperables - Google Patents
Procede et systeme de journalisation d'erreurs recuperables Download PDFInfo
- Publication number
- FR2892210A1 FR2892210A1 FR0608925A FR0608925A FR2892210A1 FR 2892210 A1 FR2892210 A1 FR 2892210A1 FR 0608925 A FR0608925 A FR 0608925A FR 0608925 A FR0608925 A FR 0608925A FR 2892210 A1 FR2892210 A1 FR 2892210A1
- Authority
- FR
- France
- Prior art keywords
- recoverable
- status register
- memory unit
- recoverable error
- chipset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000010365 information processing Effects 0.000 claims abstract description 44
- 238000004891 communication Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 11
- 230000000737 periodic effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 230000002950 deficient Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003100 immobilizing effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2268—Logging of test results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Prevention of errors by analysis, debugging or testing of software
- G06F11/362—Debugging of software
- G06F11/3648—Debugging of software using additional hardware
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
La présente description concerne un procédé et un système de journalisation d'erreurs récupérables dans un système de traitement d'informations. Le système inclut une unité centrale de traitement (110), un jeu de puces (130, 150) couplé à celle-ci, au moins une unité de mémoire de jeu de puces (140) couplée et associée à celui-ci, un Contrôleur de Gestion de Carte de Base (BMC) (180), et une unité de mémoire contenant un Système de Base d'Entrée/Sortie (BIOS) (170). Une Interruption de Gestion de Système (SMI) est périodiquement appelée. Un registre d'état est balayé pour détecter si une erreur est survenue. Si celle-ci est détectée, le système la journalise dans une unité de mémoire (190) associée au contrôleur (180) ainsi que la source de l'erreur et son emplacement. Si aucune erreur n'est détectée, le système la modifie.
Description
t La présente description concerne de manière générale les systèmes
informatiques et les systèmes de traitement d'informations, et plus spécifiquement un système et un procédé de journalisation d'erreurs récupérables.
Du fait de la valeur et de l'utilisation croissantes des informations, les individus et les entreprises cherchent des moyens supplémentaires pour traiter et mémoriser les informations. L'un des choix mis à la disposition de ces utilisateurs est un système de traitement d'informations.
Un système de traitement d'informations, de manière générale, traite, compile, mémorise et/ou communique des in-formations ou des données à des fins commerciales, personnelles ou autres de manière à permettre aux utilisateurs d'exploiter la valeur des informations. Du fait que les besoins et les impératifs en termes de technologie et de traitement d'informations varient entre des utilisateurs différents ou des applications différentes, les systèmes de traitement d'informations peuvent varier en fonction du type d'informations traitées ; des procédés pour traiter les informations ; des procédés pour traiter, mémoriser ou communiquer les informations ; de la quantité d'informations traitées, mémorisées, ou communiquées ; et de la vitesse et de l'efficacité avec lesquelles les informations sont traitées, mémorisées, ou commu- piquées. Les variations dans les systèmes de traitement d'informations permettent aux systèmes de traitement d'informations d'être généraux ou configurés pour un utilisateur spécifique ou une utilisation spécifique telle que le traitement de transactions financières, les réser- vations de vols, la mémorisation de données d'entreprise, ou les communications globales. De plus, les systèmes de traitement d'informations peuvent inclure ou comprendre une variété de composants matériels et logiciels qui peu-vent être configurés pour traiter, mémoriser et communi- quer des informations et peuvent inclure un ou plusieurs systèmes informatiques, systèmes de mémorisation de don-nées et systèmes de gestion de réseau. Les systèmes serveurs peuvent subir des erreurs pouvant être récupérées ou corrigées durant un fonctionnement normal du système. Ces erreurs récupérables peuvent se produire par exemple lorsque des unités de mémoire couplées au système serveur sont défectueuses. Pour augmenter la fiabilité du système, les systèmes serveurs sont souvent conçus pour capturer et journaliser, lorsqu'elles surviennent, les erreurs pouvant être récupérées ou corrigées. Du fait que les erreurs récupérables sont souvent des signaux d'avertissement d'une défaillance imminente de la mémoire, ce traitement de capture et de journalisation donne à l'utilisateur d'un système serveur une chance de remplacer les unités de mémoire défectueuses avant que tout le système ne tombe en panne. Les systèmes serveurs acheminent souvent des erreurs destinées à être journalisées en générant une Interruption de Gestion de Système (SMI) via des signaux de bande latérale. L'inter-ruption SMI transite par la bande latérale jusqu'à la CPU, et la CPU bloque alors les traitements en cours du système serveur. Ces pauses du traitement provoquées par l'interruption SMI activent le Système de Base d'Entrée-Sortie (BIOS) résidant sur le système serveur pour journaliser les erreurs récupérables lorsqu'elles surviennent, en utilisant un gestionnaire de SMI. Une fois que le système BIOS journalise les erreurs, les interruptions SMI se terminent, et le système serveur peut reprendre l'exécution de tous traitements interrompus. Le Contrô- leur de Gestion de Carte de Base (BMC), qui gère l'inter-face entre un logiciel de gestion de système et le maté-riel de plateforme, traite les commandes de journalisation d'erreurs reçues du système BIOS et effectue l'écriture réelle sur sa mémoire non volatile. Pendant tout le traitement de notification, le système d'exploitation (OS) résidant sur le système serveur n'a pas connaissance de l'erreur et de la journalisation qui s'ensuit de cette erreur. Certains systèmes serveurs, cependant, n'incluent pas de fonctionnalité de signal de bande latérale. Toutes les communications doivent transiter par la liaison de trans-port principale. Du fait que les erreurs récupérables peuvent être corrigées, le système serveur ne génère pas de notification lorsque des erreurs récupérables se pro- duisent. Ces systèmes serveurs peuvent être alors conçus pour désigner des erreurs récupérables en utilisant le système BIOS du système serveur ou le jeu de puces pour exécuter des balayages périodiques, tels que des interruptions SMI périodiques. De manière similaire, ces systèmes serveurs peuvent exiger que le système d'exploitation du système serveur contrôle périodiquement le système. Par exemple, le système d'exploitation peut contrôler périodiquement le système et journaliser toutes erreurs récupérables qui ont été détectées dans le registre d'état de contrôle de machine. Un système d'exploitation typique balaiera environ une fois par minute. L'utilisation du système d'exploitation du système serveur pour balayer périodiquement le système a ses inconvénients, cependant. Par exemple, la plupart des erreurs matériel- les sont spécifiques au système. Typiquement, cependant, un système d'exploitation ne dispose pas d'une compréhension de l'architecture spécifique du système. Le système d'exploitation souvent ne peut pas identifier quel composant est défectueux sans avoir recours à l'aide du sys- terne BIOS du système, immobilisant ainsi les deux ressources. Les utilisateurs du système serveur exigent sou-vent plus de spécificité qu'une journalisation d'erreurs génériques effectuée par un système d'exploitation, particulièrement si le système en question est un système serveur haut de gamme. De plus, le système d'exploitation réalisera souvent une journalisation des erreurs dans un registre d'état de contrôle de machine, qui ne mémorise pas des informations concernant la source d'erreur et par conséquent ne permet pas au système ou à l'utilisateur de déterminer plus tard l'emplacement de cette source d'erreurs. Bien que certaines versions de système d'exploitation puissent entretenir un journal de quelques dizaines d'erreurs récupérables par balayage, typiquement un système d'exploitation n'autorisera pas une autre journali- sation d'erreurs récupérables une fois que cela arrive, empêchant ainsi l'utilisateur de rechercher des erreurs dans le temps pour déterminer la source des problèmes. La présente invention propose un procédé et un système pour journaliser les erreurs récupérables dans un système de traitement d'informations. Le système inclut une unité centrale de traitement, un jeu de puces couplé à l'unité centrale de traitement, et au moins une unité de mémoire de jeu de puces couplée et associée au jeu de puces. Le système inclut également un Contrôleur de Gestion de Carte de Base (BMC), et une unité de mémoire contenant un Système de Base d'Entrée-Sortie (BIOS). Une Interruption de Gestion de Système (SMI) est périodiquement appelée. Des registres d'états d'erreurs sont balayés pour détecter si une erreur récupérable est surve- nue. Si une erreur récupérable est détectée, le système journalise l'erreur récupérable dans une unité de mémoire non volatile associée au contrôleur BMC. Le système journalise des informations qui indiquent une source de l'erreur récupérable et l'emplacement de cette source. Si au- cuve erreur récupérable n'est détectée, le système trans-met une communication indiquant qu'aucune erreur récupérable n'est survenue. XXXXXXXXXX Plus précisément, le procédé de l'invention comporte les étapes consistant à : û appeler périodiquement une Interruption de Gestion de Système SMI, û balayer un registre d'état pour détecter si une erreur récupérable est survenue, û journaliser une erreur récupérable si une erreur récupérable est détectée, la journalisation d'une erreur récupérable incluant la journalisation dans une unité de mémoire non volatile (190) associée à des informations de contrôleur de gestion de carte de base (180) qui indiquent une source de l'erreur récupérable et l'emplacement de cette source, et - transmettre une communication indiquant qu'aucune erreur récupérable n'est survenue, si aucune erreur récupérable n'est détectée.
L'étape d'appel d'une interruption SMI peut comporter l'appel d'une interruption en utilisant le contrôleur de gestion de carte de base. L'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue peut inclure l'étape de balayage : - d'un registre d'état en utilisant un Système de Base d'Entrée et de Sortie BIOS mémorisé dans une unité de mémoire du système de traitement d'informations, ù d'un registre d'état en utilisant le contrôleur BMC, ù d'un registre d'état de processeur associé à une unité centrale de traitement, û d'un registre d'état de jeu de puces associé à un jeu de puces, û d'un registre d'état de mémoire associé à au moins une unité de mémoire couplée à un jeu de puces. De préférence, le procédé comporte de plus les étapes consistant à documenter des erreurs récupérables provenant d'erreurs durant le fonctionnement d'au moins une unité de mémoire associée à un jeu de puces dans un re- gistre d'état d'unité de mémoire, et suivre dans un re- gistre d'état de jeu de puces toutes erreurs récupérables documentées dans le registre d'état d'unité de mémoire. Le balayage d'un registre d'état pour détecter si une erreur récupérable est survenue comporte de préférence le balayage du registre d'état de jeu de puces pour détecter si une erreur récupérable est survenue. Le procédé peut comporter de plus la modification de la fréquence à laquelle l'interruption SMI est périodique-ment appelée sur la base d'un évènement durant le fonc- tionnement du système de traitement d'informations. La modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un évènement durant le fonctionnement du système de traitement d'in-formations comporte la modification de la fréquence à la- quelle l'interruption SMI est périodiquement appelée sur la base du fait qu'une erreur récupérable a été détectée. Le procédé peut comporter de plus la modification de la fréquence à laquelle l'interruption SMI est périodique-ment appelée sur la base d'un changement de fonctionne- ment du système de traitement d'informations. L'étape de modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un change-ment de fonctionnement du système de traitement d'informations comporte de préférence la modification de la fré- quence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de charge de travail d'un Système de Base d'Entrée et de Sortie mémorisé dans le système de traitement d'informations. L'invention vise également un système de journalisation d'erreurs récupérables comportant : û une unité centrale de traitement, û un jeu de puces couplé à l'unité centrale de traite-ment, û au moins une unité de mémoire de jeu de puces couplée et associée au jeu de puces, ù au moins une unité de mémoire de micrologiciel contenant un Système de Base d'Entrée et de Sortie BIOS, la au moins une unité de mémoire de micrologiciel étant couplée audit au moins un jeu de puces, un contrôleur de gestion de carte de base BMC couplé au jeu de puces et à la au moins une unité de mémoire de micrologiciel, le contrôleur BMC pouvant appeler une interruption qui demande au système BIOS de contrôler les erreurs récupérables et de journaliser toutes erreurs récupérables détectées, et - au moins une unité de mémoire de contrôleur BMC couplée et associée au contrôleur BMC, dans lequel la au moins une unité de mémoire de contrôleur BMC peut mémoriser un journal d'erreurs récupérables détectées.
Selon diverses formes de réalisation avantageuses, le système comporte de plus : ù une ligne de demande d'interruption qui relie le contrôleur BMC au jeu de puces, le contrôleur BMC pouvant transmettre une interruption à travers la ligne de demande d'interruption au jeu de puces ; ù un registre d'état de mémoire associé à la au moins une unité de mémoire de jeu de puces, le système BIOS pouvant contrôler le registre d'état de mémoire pour vérifier les erreurs récupérables ; ù un registre d'état de processeur associé à l'unité centrale de traitement, le système BIOS pouvant contrôler le registre d'état de processeur pour contrôler les erreurs récupérables ; un registre d'état de jeu de puces associé au jeu de puces, le système BIOS pouvant contrôler le registre d'état de jeu de puces pour contrôler les erreurs récupérables. Selon un autre aspect, l'invention propose un système comportant : ù une unité centrale de traitement, û un jeu de puces couplé à l'unité centrale de traite-ment, û au moins une unité de mémoire de jeu de puces couplée et associée au jeu de puces, dans lequel la au moins une unité de mémoire de jeu de puces est associée à un registre d'état de mémoire, û un registre d'état de jeu de puces associé au jeu de puces, dans lequel le registre d'état de jeu de puces peut suivre le contenu du registre d'état de mémoire, û au moins une unité de mémoire de micrologiciel contenant un Système de Base d'Entrée et de Sortie BIOS, dans lequel la au moins une unité de mémoire de micro-logiciel est couplée audit au moins un jeu de puces, û un contrôleur de gestion de carte de base BMC couplé au jeu de puces et à la au moins une unité de mémoire de micrologiciel, dans lequel le contrôleur BMC peut appeler une interruption, vérifier les erreurs récupérables dans le registre d'état de jeu de puces, et de-mander que le système BIOS journalise toutes erreurs récupérables détectées, et û au moins une unité de mémoire de contrôleur BMC couplée et associée au contrôleur BMC, dans lequel la au moins une unité de mémoire de contrôleur BMC peut mémoriser un journal d'erreurs récupérables détectées.
Le système peut éventuellement comporter un bus d'Inter- Interconnexion qui relie le contrôleur BMC au jeu de pu- ces. Le système et le procédé décrits ici sont avantageux en ce qu'ils permettent au système de traitement d'informa- tions de déterminer la source d'erreurs récupérables et l'emplacement de cette source, même si le système de traitement d'informations n'a pas la capacité d'envoyer des signaux via une bande latérale. Le contrôleur BMC ou le système BIOS, et pas le système d'exploitation, iden- tifie et journalise la source d'erreurs récupérables. Le système et le procédé décrits ici sont également avantageux du fait qu'ils peuvent permettre à la périodicité de l'interruption SMI d'être dynamiquement ajustée sur la base d'un évènement durant le fonctionnement du système de traitement d'informations ou un changement de fonctionnement du système de traitement d'informations. Le balayage périodique peut être plus rapide que la vitesse de balayage d'erreurs récupérables par le système d'exploitation.
Une compréhension plus complète des présents modes de réalisation et de leurs avantages peut être acquise en faisant référence à la description qui va suivre faite conjointement avec les dessins annexés, sur lesquels des références numériques analogues indiquent des caractéris- tiques analogues, et sur lesquels : - la figure 1 est un schéma fonctionnel d'un exemple d'architecture pour un exemple de carte mère, - la figure 2 est un ordinogramme illustrant un exemple de procédé pour adapter la fréquence à laquelle le système exécute un balayage périodique, et ù la figure 3 est un schéma fonctionnel d'un exemple d'architecture pour un exemple de carte mère. Aux fins de la présente description, un système de traitement d'informations peut inclure tout dispositif ou en- sembles de dispositifs opérationnels pour calculer, classer, traiter, transmettre, recevoir, récupérer, émettre, commuter, mémoriser, afficher, manifester, détecter, en-registrer, lire, gérer ou utiliser toute forme d'informations, d'intelligence ou de données à des fins commercia- les, scientifiques, de contrôle ou autre. Par exemple, un système de traitement d'informations peut être un ordinateur individuel, un dispositif mémorisation de réseau, ou tout autre dispositif adapté et peut varier en taille, forme, performance, fonctionnalité et prix. Le système de traitement d'informations peut inclure une mémoire à ac- cès direct (RAM), une ou plusieurs ressources de traite-ment telles qu'une unité centrale de traitement (CPU) ou une logique de commande matérielle ou logicielle, une mémoire à lecture seule (ROM) et/ou autres types de mémoire non volatile. Des composants supplémentaires du système de traitement d'informations peuvent inclure une ou plu-sieurs unités de disque, un ou plusieurs ports réseau pour communiquer avec des dispositifs externes ainsi que divers périphériques d'entrée et de sortie (E/S) tels qu'un clavier, une souris et un afficheur vidéo. Le système de traitement d'informations peut également inclure un ou plusieurs bus opérationnels pour transmettre des communications entre les divers composants matériels. La figure 1 illustre une architecture d'une carte mère, indiquée de manière générale par la référence numérique 100, destinée à être utilisée dans un système de traite-ment d'informations tel qu'un système serveur. L'architecture représentée sur la figure 1 est utilisée à des fins d'exemple seulement et doit être entendue comme dé- crivant seulement l'une des nombreuses architectures possibles des cartes mère. Comme représentée sur la figure 1, la carte mère 100 peut inclure un microprocesseur 110. Le microprocesseur 110 peut agir comme la CPU de la carte mère. Le microprocesseur 110 peut être relié à une puce communément appelée le "Pont Nord", désignée par la référence numérique 130 sur la figure 1, via un bus de processeur 120. Le Pont Nord 130 gère typiquement les communications entre la CPU et d'autres composants du système de traitement d'informations, tels que des unités de mé- moire. Par conséquent, une ou plusieurs unités de mémoire et un contrôleur de mémoire, indiqués généralement par la référence numérique 140, peuvent être couplés au Pont Nord 130. Une puce connue sous le nom de "Pont Sud", dé-signée par la référence numérique 150 sur la figure 1, peut être également couplée au Pont Nord 130. Le Pont Sud 150 implémente typiquement des services plus lents pour la carte mère que ceux implémentés par le Pont Nord 130, tels que la gestion d'énergie et le fonctionnement de l'Interface de Composants Périphériques (PCI). Le Pont Sud 150 peut être couplé via un bus LCP "Low Pin Count" 160 à une unité de mémoire contenant un système BIOS 170. Le système BIOS est quelquefois appelé "micrologiciel". Le Pont Nord 130 et le Pont Sud 150 sont quelquefois collectivement appelés le "jeu de puces" de la carte mère 100. Cependant, si la carte mère 100 inclut d'autres pu-ces ou des puces supplémentaires, ces composants peuvent faire partie du jeu de puces également. Un contrôleur BMC 180 peut être également couplé au bus LPC 160, comme indiqué sur la partie inférieure de la fi- gure 1. Un contrôleur et une ou plusieurs unités de mémoire, indiqués généralement par la référence numérique 190, sont couplés au contrôleur BMC 180. L'unité ou les unités de mémoire 190 peuvent être de préférence des uni-tés de mémoire non volatile. Le contrôleur BMC 180 peut avoir sa propre alimentation en énergie, bien qu'aucune alimentation en énergie ne soit indiquée sur la figure 1. Comme décrit précédemment dans cette description, le contrôleur BMC 180 gèrera typiquement l'interface entre le logiciel de gestion de système et le matériel de la plateforme. Différents capteurs intégrés dans le système de traitement d'informations peuvent notifier au contrôleur BMC 180 des paramètres relevant de l'état et de l'opérabilité du système de traitement d'informations, tels que la température, les vitesses des ventilateurs de refroidissement, et diverses tensions. Si le contrôleur BMC 180 détecte un écart dans un quelconque paramètre surveillé par rapport à des limites prédéfinies voulues, il peut envoyer une alerte à l'utilisateur ou à l'administrateur système. Le contrôleur BMC 180 peut être par conséquent couplé à de nombreux composants matériels et à un réseau, non représentés sur la figure 1, pour surveiller ces paramètres et activer des alertes si nécessaire. L'architecture de la carte mère 100 représentée sur la figure 1 n'inclut pas de capacité de signal de bande la- térale entre le microprocesseur 110 et le Pont Sud 150. Toutes les communications doivent passer par la liaison de transport principale, et un système de traitement d'informations incorporant une carte mère 100 ne peut pas se baser sur des signaux de bande latérale pour des rap- ports d'erreurs récupérables. De plus, du fait que les erreurs récupérables peuvent être corrigées, ce système de traitement d'informations ne notifiera pas en général à l'utilisateur qu'une telle erreur est survenue à moins qu'il renseigne périodiquement quant aux erreurs. Par conséquent, un système de traitement d'informations incorporant une carte mère 100 peut être conçu pour notifier des erreurs récupérables en utilisant le système BIOS 170 pour effectuer des balayages périodiques, tels que des interruptions SMI périodiques. De même, un sys- tème de traitement d'informations incorporant une carte mère 100 peut être conçu pour se baser sur le système d'exploitation résidant dans le système de traitement d'informations pour appeler les balayages périodiques. Ces procédés, cependant, ne sont pas sans leurs inconvé- nients, comme décrit précédemment dans cette description. Par exemple, le système d'exploitation ne peut pas typiquement identifier quel composant est la source de l'erreur récupérable du fait que les progiciels de système d'exploitation sont génériques et n'incluent pas des car- tes de l'architecture des systèmes particuliers sur les-quels ils résident. De plus, le système d'exploitation journalise les erreurs récupérables dans le registre d'état de contrôle de machine (qui peut ne peut pas être local au composant entraînant l'erreur) et efface alors le registre d'état de contrôle de machine.
Au lieu de compter sur le système d'exploitation ou le système BIOS 170 seul pour gérer des balayages périodiques, les systèmes de traitement d'informations incorporant une carte mère 100 peuvent compter au lieu de cela sur le contrôleur BMC 180 pour appeler des interruptions SMI logicielles périodiques. C'est-à-dire qu'une fois que le système de traitement d'informations est lancé et s'exécute, le contrôleur BMC 180 peut appeler une interruption SMI logicielle après une période de temps prédé- finie. Une ligne de demande d'interruption 195 entre le contrôleur BMC 180 et le jeu de puces sur la carte mère 100, peut être rendue disponible pour appeler l'interruption SMI logicielle. Des ports d'Entrée/Sortie à Usage Général (GPIO), non représentés sur la figure 1, peuvent être configurés pour permettre des communications entre le système BIOS 170 et le contrôleur BMC 180. Lorsque le contrôleur BMC 180 appelle l'interruption SMI logicielle, le système BIOS 170 cherchera des erreurs récupérables en lisant, par exemple, le registre d'état du jeu de puces, le registre d'état de mémoire, et/ou le registre d'état du microprocesseur 110. Si le système BIOS 170 ne trouve pas d'erreur dans le ou les registres d'état, le système BIOS 170 communiquera l'absence d'erreur au contrôleur BMC 180. Si le système BIOS 170 trouve une erreur, le système BIOS 170 communiquera l'erreur au contrôleur BMC 180 et effacera le registre d'état contenant l'erreur. Le système BIOS 170 peut également journaliser l'erreur via le contrôleur BMC 180 dans l'unité de mémoire 190, typiquement dans un Journal d'Evènements Systèmes non vola- tile. Du fait que le système BIOS 170 connaît l'architecture de la carte mère 100, le système BIOS 170 peut identifier dans le journal l'emplacement de la source de l'erreur récupérable. La période à laquelle le contrôleur BMC 180 appelle l'in- terruption SMI logicielle peut être prédéfinie à une quelconque période voulue par le fabricant ou l'utilisateur. Par exemple, comme on l'a décrit précédemment dans cette description, certaines versions de système d'exploitation exécutent des balayages périodiques du regis- tre d'état de contrôle de machine une fois par minute. Par conséquent, la période à laquelle le contrôleur BMC 180 appelle l'interruption SMI logicielle peut être réglée à au moins une minute de sorte que le système BIOS 170 contrôle les registres d'état plus fréquemment que lorsque le système d'exploitation résidant exécute son balayage, réduisant ainsi le risque que le système d'exploitation efface les erreurs dans le registre d'état de contrôle de machine avant que le système BIOS 170 puisse les détecter. Le contrôleur BMC 180 peut même appeler l'interruption SMI suffisamment souvent pour empêcher le système d'exploitation de ne jamais détecter des erreurs. Cependant, la période entre les interruptions SMI logicielles doit être suffisamment grande pour éviter l'immobilisation du système BIOS 170 et du contrôleur BMC 180 inutilement et la dégradation ainsi des performances du système. En variante, le contrôleur BMC 180 peut changer de manière adaptée la fréquence de l'interruption SMI logicielle après une prise de connaissance de l'état d'erreur par le système BIOS 170. La figure 2 inclut un ordinogramme illustrant un procédé possible pour changer de manière adaptée la fréquence de l'interruption SMI logicielle. Comme représenté dans le bloc 200 de l'ordinogramme, le contrôleur BMC 180 peut tout d'abord appeler une interruption SMI logicielle. Le système BIOS 170 peut alors contrôler le ou les registres d'état de contrôle de machine appropriés, comme représenté dans le bloc 210 de l'ordinogramme. Le système BIOS 170 déterminera s'il a localisé une erreur, comme décrit dans le bloc 220. Si le système BIOS 170 ne détecte pas d'erreur, le système BIOS 170 enverra une communication d'un seul bit au contrôleur BMC 180 indiquant qu'aucune erreur n'a été détectée, comme indiqué dans le bloc 230. Comme le bloc 240 de l'ordinogramme le représente, le contrôleur BMC 180 peut alors diminuer la fréquence à laquelle il appelle l'interruption SMI logicielle. Au lieu de cela, si le système BIOS 170 détecte une erreur, le système BIOS 170 déterminera ensuite si l'erreur est récupérable. Si le système BIOS 170 détecte une ou plusieurs erreurs récupérables, le système BIOS 170 communiquera ce fait au contrôleur BMC 180, comme représenté dans le bloc 260. Le contrôleur BMC 180 peut augmenter la fréquence à laquelle il appelle l'interruption SMI logicielle, comme représenté dans le bloc 270. Si, cependant, le système BIOS 170 détecte des erreurs non récupérables, il communiquera ce fait au contrôleur BMC 180. A ce stade, tout le système peut être réinitialisé, et la fréquence de l'interruption SMI logicielle peut être réinitialisée à nouveau à un paramètre par défaut, par exemple, comme représenté dans le bloc 290 La génération d'interruptions SMI logicielles peut être commandée en utilisant une horloge système. La fréquence d'erreurs augmentera ou diminuera habituellement par pas, par conséquent aucun changement extrême de la fréquence de l'interruption SMI logicielle ne sera nécessaire pour capturer l'état d'erreur correct du système. Pour un système qui change demanière adaptée la fréquence des interruptions SMI logicielles, cependant, l'utilisateur ou le fabricant doit régler des valeurs minimale et maximale prédéterminées pour la fréquence à laquelle le contrôleur BMC 180 peut appeler de quelconques interruptions SMI. La figure 3 illustre une architecture en variante d'une carte mère, indiquée de manière générale par la référence numérique 300, destinée à être utilisée dans un système de traitement d'informations tel qu'un système serveur.
L'architecture décrite sur la figure 3 est similaire à celle décrite sur la figure 1. Par conséquent, des composants analogues sur les deux figures sont identifiés par les mêmes caractères de référence. Dans la carte mère 300, cependant, le contrôleur BMC 180 et le jeu de puces, ou même juste le Pont Nord 130 peuvent être couplés via un bus d'Inter-Interconnexion (I2C) 310, comme représenté sur la figure 3. La carte mère 300 peut être également conçue pour permettre au registre d'état de l'unité de mémoire 140 d'être porté ou suivi par le jeu de puces. En particulier, la carte mère 300 peut être conçue pour per-mettre au Pont Nord 130 de porter le registre d'état de l'unité de mémoire 140 dans son propre registre d'état. Par conséquent, le contrôleur BMC 180 peut balayer le re- gistre d'état du Pont Nord 130 via le bus I2C 310 et dé-terminer si de quelconques erreurs récupérables pour l'unité de mémoire 140 sont survenues. Si le contrôleur BMC 180 détecte une erreur de mémoire récupérable, il peut appeler une interruption SMI logicielle pour ordon- ner au système BIOS 170 de journaliser l'erreur récupérable. Si, cependant, le contrôleur BMC 180 ne détecte pas d'erreur de mémoire récupérable, il ne perturbera pas le fonctionnement du système BIOS 170. Par conséquent, la charge sur le système BIOS 170 peut être réduite, du fait qu'il est seulement nécessaire d'agir sur des erreurs ré-elles préalablement détectées par le contrôleur BMC 180. Dans certains systèmes, le contrôleur BMC 180 peut journaliser les erreurs récupérables. Cependant, pour de nombreux systèmes, le système BIOS 170 peut rester le choix le plus efficace pour journaliser les erreurs récupérables du fait qu'un algorithme est déjà implémenté dans un système BIOS typique pour déterminer la cause de l'erreur et l'emplacement du composant responsable de l'erreur. Par conséquent, si le contrôleur BMC 180 informe le sys- tème BIOS 170 qu'il a détecté une erreur en générant une interruption SMI logicielle, le système BIOS 170 peut dé-terminer la cause de l'erreur et journaliser ces informations. La fréquence à laquelle le contrôleur BMC 180 balaie l'état de contrôle de machine du Pont Nord 130 peut être prédéterminée. En variante, la fréquence peut être modifiée de manière adaptée, comme décrit précédemment dans cette description. Par exemple, la fréquence peut être augmentée si des erreurs à un seul bit sont détectées ou diminuées si aucune erreur n'est détectée.
Bien que la présente description ait décrit un système et un procédé qui peuvent inclure des changements adaptés à intervalle de temps entre des balayages périodiques par le système BIOS 170 et/ou le contrôleur BMC 180 en réponse à des erreurs détectées, d'autres facteurs peuvent être utilisés pour ajuster la fréquence de ces balayages. Par exemple, la charge subie par le composant exécutant le balayage, qu'il s'agisse du système BIOS 170 ou du contrôleur BMC 180, peut influencer la périodicité des balayages. Si un composant réalisant le balayage est sur- chargé par d'autres tâches, par exemple, la fréquence des balayages peut être réduite pour réduire la charge de ce composant. Bien que la présente description ait été décrite en détail, divers changements, substitutions et modifications peuvent être réalisés sur celle-ci sans s'écarter du domaine et de la portée de la présente invention.
Claims (20)
1. Procédé de journalisation d'erreurs récupérables dans un système de traitement d'informations, caractérisé en ce qu'il comporte les étapes consistant à : ù appeler périodiquement une Interruption de Gestion de Système SMI, ù balayer un registre d'état pour détecter si une erreur récupérable est survenue, ù journaliser une erreur récupérable si une erreur récupérable est détectée, la journalisation d'une erreur récupérable incluant la journalisation dans une unité de mémoire non volatile (190) associée à des informations de contrôleur de gestion de carte de base (180) qui indiquent une source de l'erreur récupérable et l'emplacement de cette source, et ù transmettre une communication indiquant qu'aucune erreur récupérable n'est survenue, si aucune erreur récupérable n'est détectée.
2. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape d'appel d'une interruption SMI comporte l'appel d'une interruption en utilisant le contrôleur de gestion de carte de base (180).
3. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état en utilisant un Système de Base d'Entrée et de Sortie BIOS (170) mémorisé dans une unité de mémoire du système de traitement d'informations.
4. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état en utilisant le contrôleur BMC (180).
5. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état de processeur associé à une unité centrale de traitement {110).
6. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état de jeu de puces associé à un jeu de puces {130, 150).
7. Procédé de journalisation d'erreurs récupérables selon la revendication, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état de mémoire associé à au moins une unité de mémoire couplée à un jeu de puces (130, 150).
8. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce qu'il comporte de 30 plus les étapes consistant à : ù documenter des erreurs récupérables provenant d'erreurs durant le fonctionnement d'au moins une unité de mémoire associée à un jeu de puces (130, 150) dans un registre d'état d'unité de mémoire, etû suivre dans un registre d'état de jeu de puces toutes erreurs récupérables documentées dans le registre d'état d'unité de mémoire.
9. Procédé selon la revendication 8, caractérisé en ce que le balayage d'un registre d'état pour détecter si une erreur récupérable est survenue comporte le balayage du registre d'état de jeu de puces pour détecter si une erreur récupérable est survenue.
10. Procédé selon la revendication 1, caractérisé en ce qu'il comporte de plus la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un évènement durant le fonctionnement du système de traitement d'informations.
11. Procédé selon la revendication 10, caractérisé en ce que la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un évènement durant le fonctionnement du système de traite-ment d'informations comporte la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base du fait qu'une erreur récupérable a été détectée.
12. Procédé selon la revendication 1, caractérisé en ce qu'il comporte de plus la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de fonctionnement du système de traitement d'informations.
13. Procédé selon la revendication 12, caractérisé en ce que l'étape de modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de fonctionnement du système de traite-ment d'informations comporte la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de charge de travail d'un Système de Base d'Entrée et de Sortie (170) mémorisé dans le système de traitement d'informations.
14. Système de journalisation d'erreurs récupérables, caractérisé en ce qu'il comporte : û une unité centrale de traitement (110), û un jeu de puces (130, 150) couplé à l'unité centrale de traitement (110), û au moins une unité de mémoire de jeu de puces (140) couplée et associée au jeu de puces (130, 150), û au moins une unité de mémoire de micrologiciel (190) contenant un Système de Base d'Entrée et de Sortie BIOS (170), la au moins une unité de mémoire de micro-logiciel (190) étant couplée au au moins un jeu de pu-ces (130, 150), ù un contrôleur de gestion de carte de base BMC (180) couplé au jeu de puces (130, 150) et à la au moins une unité de mémoire de micrologiciel (190), le contrôleur BMC (180) pouvant appeler une interruption qui demande au système BIOS (170) de contrôler les erreurs récupérables et de journaliser toutes erreurs récupérables détectées, et - au moins une unité de mémoire de contrôleur BMC (190) couplée et associée au contrôleur BMC (180), dans le-quel la au moins une unité de mémoire de contrôleur BMC (190) peut mémoriser un journal d'erreurs récupé- rables détectées.
15. Système de journalisation d'erreurs récupérables selon la revendication 14, caractérisé en ce qu'il comporte de plus une ligne de demande d'interruption (195) qui re- lie le contrôleur BMC (180) au jeu de puces (130, 150),le contrôleur BMC (180) pouvant transmettre une interruption à travers la ligne de demande d'interruption (195) au jeu de puces (130, 150).
16. Système de journalisation d'erreurs récupérables selon la revendication 14, caractérisé en ce qu'il comporte de plus un registre d'état de mémoire associé à la au moins une unité de mémoire de jeu de puces (140), le système BIOS (170) pouvant contrôler le registre d'état de mémoire pour vérifier les erreurs récupérables.
17. Système de journalisation d'erreurs récupérables selon la revendication 14, caractérisé en ce qu'il comporte de plus un registre d'état de processeur associé à l'uni- té centrale de traitement (110), le système BIOS (170) pouvant contrôler le registre d'état de processeur pour contrôler les erreurs récupérables.
18. Système de journalisation d'erreurs récupérables se- lon la revendication 14, caractérisé en ce qu'il comporte de plus un registre d'état de jeu de puces associé au jeu de puces. (130, 150), le système BIOS (170) pouvant contrôler le registre d'état de jeu de puces pour contrôler les erreurs récupérables.
19. Système de journalisation d'erreurs récupérables, caractérisé en ce qu'il comporte : - une unité centrale de traitement (110), ù un jeu de puces (130, 150) couplé à l'unité centrale 30 de traitement (110), ù au moins une unité de mémoire de jeu de puces (140) couplée et associée au jeu de puces (130, 150), dans lequel la au moins une unité de mémoire de jeu de pu-ces (140) est associée à un registre d'état de mé- 35 moire,un registre d'état de jeu de puces associé au jeu de puces (130, 150), dans lequel le registre d'état de jeu de puces peut suivre le contenu du registre d'état de mémoire, û au moins une unité de mémoire de micrologiciel (190) contenant un Système de Base d'Entrée et de Sortie BIOS (170), dans lequel la au moins une unité de mémoire de micrologiciel (190) est couplée audit au moins un jeu de puces (130, 150), û un contrôleur de gestion de carte de base BMC (180) couplé au jeu de puces (130, 150) et à la au moins une unité de mémoire de micrologiciel (190), dans lequel le contrôleur BMC (180) peut appeler une interruption, vérifier les erreurs récupérables dans le registre d'état de jeu de puces, et demander que le système BIOS (170) journalise toutes erreurs récupérables détectées, et û au moins une unité de mémoire de contrôleur BMC (190) couplée et associée au contrôleur BMC (180), dans le- quel la au moins une unité de mémoire de contrôleur BMC (190) peut mémoriser un journal d'erreurs récupérables détectées.
20. Système de journalisation d'erreurs récupérables se- lon la revendication 19, caractérisé en ce qu'il comporte de plus un bus d'Inter-Interconnexion (310) qui relie le contrôleur BMC {180) au jeu de puces (130, 150).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/250,603 US20070088988A1 (en) | 2005-10-14 | 2005-10-14 | System and method for logging recoverable errors |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2892210A1 true FR2892210A1 (fr) | 2007-04-20 |
Family
ID=37491397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0608925A Withdrawn FR2892210A1 (fr) | 2005-10-14 | 2006-10-12 | Procede et systeme de journalisation d'erreurs recuperables |
Country Status (11)
Country | Link |
---|---|
US (1) | US20070088988A1 (fr) |
JP (1) | JP2007109238A (fr) |
CN (1) | CN100440157C (fr) |
AU (1) | AU2006228051A1 (fr) |
DE (1) | DE102006048115B4 (fr) |
FR (1) | FR2892210A1 (fr) |
GB (1) | GB2431262B (fr) |
HK (1) | HK1104631A1 (fr) |
IT (1) | ITTO20060737A1 (fr) |
SG (1) | SG131870A1 (fr) |
TW (1) | TWI337707B (fr) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7594144B2 (en) * | 2006-08-14 | 2009-09-22 | International Business Machines Corporation | Handling fatal computer hardware errors |
JP2009121832A (ja) * | 2007-11-12 | 2009-06-04 | Sysmex Corp | 分析装置、分析システム及びコンピュータプログラム |
CN101446915B (zh) * | 2007-11-27 | 2012-01-11 | 中国长城计算机深圳股份有限公司 | 一种bios级日志的记录方法及装置 |
JP4571996B2 (ja) * | 2008-07-29 | 2010-10-27 | 富士通株式会社 | 情報処理装置及び処理方法 |
US8122176B2 (en) * | 2009-01-29 | 2012-02-21 | Dell Products L.P. | System and method for logging system management interrupts |
JP5093259B2 (ja) | 2010-02-10 | 2012-12-12 | 日本電気株式会社 | Biosとbmcとの間の通信パス強化方法、その装置及びそのプログラム |
JP5459549B2 (ja) * | 2010-03-31 | 2014-04-02 | 日本電気株式会社 | コンピュータシステム及びその余剰コアを用いた通信エミュレート方法 |
TWI529525B (zh) * | 2010-04-30 | 2016-04-11 | 聯想企業解決方案(新加坡)有限公司 | 處理系統錯誤之方法及系統 |
CN102375775B (zh) * | 2010-08-11 | 2014-08-20 | 英业达股份有限公司 | 一种具有检测系统不可恢复错误指示信号的计算机系统 |
CN102446146B (zh) * | 2010-10-13 | 2015-04-22 | 淮南圣丹网络工程技术有限公司 | 服务器及其避免总线冲突的方法 |
CN102467440A (zh) * | 2010-11-09 | 2012-05-23 | 鸿富锦精密工业(深圳)有限公司 | 内存错误检测系统及方法 |
CN102467434A (zh) * | 2010-11-10 | 2012-05-23 | 英业达股份有限公司 | 利用基板管理控制器取得储存装置状态信号的方法 |
WO2012063358A1 (fr) * | 2010-11-12 | 2012-05-18 | 富士通株式会社 | Procédé de spécification de partie d'erreur, dispositif de spécification de partie d'erreur et programme de spécification de partie d'erreur |
CN102467438A (zh) * | 2010-11-12 | 2012-05-23 | 英业达股份有限公司 | 利用基板管理控制器取得储存装置故障信号的方法 |
CN102541787A (zh) * | 2010-12-15 | 2012-07-04 | 鸿富锦精密工业(深圳)有限公司 | 串口切换使用系统及方法 |
CN102567177B (zh) * | 2010-12-25 | 2014-12-10 | 鸿富锦精密工业(深圳)有限公司 | 计算机系统错误侦测系统及方法 |
WO2013027297A1 (fr) * | 2011-08-25 | 2013-02-28 | 富士通株式会社 | Dispositif à semi-conducteurs, appareil de gestion et processeur de données |
WO2013101140A1 (fr) * | 2011-12-30 | 2013-07-04 | Intel Corporation | Transfert anticipé d'erreurs de structure |
CN102681931A (zh) * | 2012-05-15 | 2012-09-19 | 天津市天元新泰科技发展有限公司 | 一种日志和异常探针的实现方法 |
CN103455455A (zh) * | 2012-05-30 | 2013-12-18 | 鸿富锦精密工业(深圳)有限公司 | 串口切换系统、服务器及串口切换方法 |
TW201405303A (zh) * | 2012-07-30 | 2014-02-01 | Hon Hai Prec Ind Co Ltd | 底板管理控制器監控系統及方法 |
CN103577298A (zh) * | 2012-07-31 | 2014-02-12 | 鸿富锦精密工业(深圳)有限公司 | 基板管理控制器监控系统及方法 |
EP2901281B1 (fr) | 2012-09-25 | 2017-11-01 | Hewlett-Packard Enterprise Development LP | Notification de plage d'adresses comprenant une erreur non corrigible |
BR112015018459A2 (pt) * | 2013-03-07 | 2017-07-18 | Intel Corp | mecanismo para fornecer suporte para fluxos de confiabilidade, disponibilidade e capacidade de serviço (ras) em monitor de ponto |
CN104219105A (zh) * | 2013-05-31 | 2014-12-17 | 英业达科技有限公司 | 错误通报装置及方法 |
CN104424041A (zh) * | 2013-08-23 | 2015-03-18 | 鸿富锦精密工业(深圳)有限公司 | 错误处理系统和方法 |
CN104424042A (zh) * | 2013-08-23 | 2015-03-18 | 鸿富锦精密工业(深圳)有限公司 | 错误处理系统和方法 |
US9425953B2 (en) | 2013-10-09 | 2016-08-23 | Intel Corporation | Generating multiple secure hashes from a single data buffer |
US9389942B2 (en) | 2013-10-18 | 2016-07-12 | Intel Corporation | Determine when an error log was created |
CN105659215B (zh) | 2014-06-24 | 2017-08-25 | 华为技术有限公司 | 一种故障处理方法、相关装置及计算机 |
CN104391765A (zh) * | 2014-10-27 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种自动诊断服务器启动故障的方法 |
FR3040523B1 (fr) * | 2015-08-28 | 2018-07-13 | Continental Automotive France | Procede de detection d'une erreur non corrigible dans une memoire non volatile d'un microcontroleur |
CN105183600A (zh) * | 2015-09-09 | 2015-12-23 | 浪潮电子信息产业股份有限公司 | 一种远程定位硬盘故障的装置和方法 |
US10157115B2 (en) * | 2015-09-23 | 2018-12-18 | Cloud Network Technology Singapore Pte. Ltd. | Detection system and method for baseboard management controller |
US9875165B2 (en) | 2015-11-24 | 2018-01-23 | Quanta Computer Inc. | Communication bus with baseboard management controller |
TWI654518B (zh) | 2016-04-11 | 2019-03-21 | 神雲科技股份有限公司 | 錯誤狀態儲存方法及伺服器 |
JP6504610B2 (ja) * | 2016-05-18 | 2019-04-24 | Necプラットフォームズ株式会社 | 処理装置、方法及びプログラム |
US10223187B2 (en) * | 2016-12-08 | 2019-03-05 | Intel Corporation | Instruction and logic to expose error domain topology to facilitate failure isolation in a processor |
US10296434B2 (en) * | 2017-01-17 | 2019-05-21 | Quanta Computer Inc. | Bus hang detection and find out |
CN108958965B (zh) * | 2018-06-28 | 2021-03-02 | 苏州浪潮智能科技有限公司 | 一种bmc监控可恢复ecc错误的方法、装置及设备 |
JP7081344B2 (ja) * | 2018-07-02 | 2022-06-07 | 富士通株式会社 | 監視装置,監視制御方法および情報処理装置 |
CN111221677B (zh) * | 2018-11-27 | 2023-06-09 | 环达电脑(上海)有限公司 | 侦错备份方法与服务器 |
CN110377469B (zh) * | 2019-07-12 | 2022-11-18 | 苏州浪潮智能科技有限公司 | 一种pcie设备的检测系统以及方法 |
US11403162B2 (en) * | 2019-10-17 | 2022-08-02 | Dell Products L.P. | System and method for transferring diagnostic data via a framebuffer |
EP3859526A1 (fr) * | 2020-01-30 | 2021-08-04 | Hewlett-Packard Development Company, L.P. | Stockage d'informations d'erreur |
US11132314B2 (en) * | 2020-02-24 | 2021-09-28 | Dell Products L.P. | System and method to reduce host interrupts for non-critical errors |
CN111488288A (zh) * | 2020-04-17 | 2020-08-04 | 苏州浪潮智能科技有限公司 | 一种测试bmc acd稳定性的方法、装置、终端及存储介质 |
CN112906009A (zh) * | 2021-03-09 | 2021-06-04 | 南昌华勤电子科技有限公司 | 工作日志生成方法、计算设备及存储介质 |
CN114661511B (zh) * | 2022-03-31 | 2024-10-15 | 苏州浪潮智能科技有限公司 | 一种设备报错处理方法、装置、设备及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4627054A (en) * | 1984-08-27 | 1986-12-02 | International Business Machines Corporation | Multiprocessor array error detection and recovery apparatus |
US5267246A (en) * | 1988-06-30 | 1993-11-30 | International Business Machines Corporation | Apparatus and method for simultaneously presenting error interrupt and error data to a support processor |
US4996688A (en) * | 1988-09-19 | 1991-02-26 | Unisys Corporation | Fault capture/fault injection system |
JPH0355640A (ja) * | 1989-07-25 | 1991-03-11 | Nec Corp | 周辺制御装置の障害解析情報採取方式 |
US5287363A (en) * | 1991-07-01 | 1994-02-15 | Disk Technician Corporation | System for locating and anticipating data storage media failures |
EP0666530A3 (fr) * | 1994-02-02 | 1996-08-28 | Advanced Micro Devices Inc | Source d'interruption de gestion de sytème et système de gestion d'alimentation en utilisant cette source. |
US5600785A (en) * | 1994-09-09 | 1997-02-04 | Compaq Computer Corporation | Computer system with error handling before reset |
WO1999005599A1 (fr) * | 1997-07-28 | 1999-02-04 | Intergraph Corporation | Appareil et procede permettant la detection et la signalisation des erreurs de memoire |
US6119248A (en) * | 1998-01-26 | 2000-09-12 | Dell Usa L.P. | Operating system notification of correctable error in computer information |
US6189117B1 (en) * | 1998-08-18 | 2001-02-13 | International Business Machines Corporation | Error handling between a processor and a system managed by the processor |
US7689875B2 (en) * | 2002-04-25 | 2010-03-30 | Microsoft Corporation | Watchdog timer using a high precision event timer |
US7389454B2 (en) * | 2002-07-31 | 2008-06-17 | Broadcom Corporation | Error detection in user input device using general purpose input-output |
US7299331B2 (en) * | 2003-01-21 | 2007-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adding main memory in computer systems operating with mirrored main memory |
US7107493B2 (en) * | 2003-01-21 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | System and method for testing for memory errors in a computer system |
US7010630B2 (en) * | 2003-06-30 | 2006-03-07 | International Business Machines Corporation | Communicating to system management in a data processing system |
US7076708B2 (en) * | 2003-09-25 | 2006-07-11 | International Business Machines Corporation | Method and apparatus for diagnosis and behavior modification of an embedded microcontroller |
US7213176B2 (en) * | 2003-12-10 | 2007-05-01 | Electronic Data Systems Corporation | Adaptive log file scanning utility |
US7321990B2 (en) * | 2003-12-30 | 2008-01-22 | Intel Corporation | System software to self-migrate from a faulty memory location to a safe memory location |
JP2006178557A (ja) * | 2004-12-21 | 2006-07-06 | Nec Corp | コンピュータシステム及びエラー処理方法 |
US7350007B2 (en) * | 2005-04-05 | 2008-03-25 | Hewlett-Packard Development Company, L.P. | Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate |
-
2005
- 2005-10-14 US US11/250,603 patent/US20070088988A1/en not_active Abandoned
-
2006
- 2006-10-11 DE DE102006048115.1A patent/DE102006048115B4/de active Active
- 2006-10-12 SG SG200607000-7A patent/SG131870A1/en unknown
- 2006-10-12 FR FR0608925A patent/FR2892210A1/fr not_active Withdrawn
- 2006-10-12 GB GB0620260A patent/GB2431262B/en active Active
- 2006-10-12 JP JP2006278678A patent/JP2007109238A/ja not_active Withdrawn
- 2006-10-12 AU AU2006228051A patent/AU2006228051A1/en not_active Abandoned
- 2006-10-13 IT IT000737A patent/ITTO20060737A1/it unknown
- 2006-10-13 TW TW095137693A patent/TWI337707B/zh active
- 2006-10-13 CN CNB2006101363525A patent/CN100440157C/zh active Active
-
2007
- 2007-09-07 HK HK07109783.5A patent/HK1104631A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
GB0620260D0 (en) | 2006-11-22 |
JP2007109238A (ja) | 2007-04-26 |
HK1104631A1 (en) | 2008-01-18 |
TW200805056A (en) | 2008-01-16 |
AU2006228051A1 (en) | 2007-05-03 |
CN1949182A (zh) | 2007-04-18 |
ITTO20060737A1 (it) | 2007-04-15 |
DE102006048115A1 (de) | 2007-06-06 |
IE20060744A1 (en) | 2007-06-13 |
GB2431262A (en) | 2007-04-18 |
DE102006048115B4 (de) | 2019-07-04 |
CN100440157C (zh) | 2008-12-03 |
US20070088988A1 (en) | 2007-04-19 |
SG131870A1 (en) | 2007-05-28 |
TWI337707B (en) | 2011-02-21 |
GB2431262B (en) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2892210A1 (fr) | Procede et systeme de journalisation d'erreurs recuperables | |
US7577829B2 (en) | System and method for maintaining multiple information handling system configuration images | |
CN101292248B (zh) | 在检测到非期望状态后进入特殊pc模式的方法和计算机 | |
US9292374B2 (en) | System and method for automatically uploading analysis data for customer support | |
US6880113B2 (en) | Conditional hardware scan dump data capture | |
US20080046546A1 (en) | EFI based mechanism to export platform management capabilities to the OS | |
US20040203686A1 (en) | Trial upgrade capability for wireless handheld devices | |
US7583591B2 (en) | Facilitating communications with clustered servers | |
FR2911199A1 (fr) | Systeme, procede et module de reduction des etats d'alimentation de peripheriques de stockage et volume logiques associes | |
US11095445B2 (en) | Key management and recovery | |
CN110413432B (zh) | 一种信息处理方法、电子设备及存储介质 | |
FR2972545A1 (fr) | Controle de flux d'instruction commande par des instructions de programme | |
FR2860894A1 (fr) | Procede pour utiliser des indicateurs de fonction afin de determiner la compatibilite entre des revisions du bios et du materiel installe pendant une mise a jour de la memoire flash | |
EP1715438A1 (fr) | Procédé de traitement d'interruptions non sécurisées par un processeur opérant dans le mode sécurisé, processeur associé | |
EP3716073B1 (fr) | Système embarqué à bord d'un aéronef de détection et de réponse aux incidents avec enregistrement de logs | |
US9135002B1 (en) | Systems and methods for recovering an application on a computing device | |
CN114760233B (zh) | 业务处理方法、装置、电子设备及存储介质 | |
EP2005649B1 (fr) | Procedé et système pour mettre a jour des changements de topologie d'un reseau informatique | |
US20060005004A1 (en) | Bios-level incident response system and method | |
US20050050385A1 (en) | Server crash recovery reboot auto activation method and system | |
US10853085B2 (en) | Adjustable performance boot system | |
US8203937B2 (en) | Global detection of resource leaks in a multi-node computer system | |
EP2960794B1 (fr) | Methodes et systemes de gestion d'une interconnexion | |
US20240028713A1 (en) | Trust-based workspace instantiation | |
EP3502949A1 (fr) | Procédé et système de contrôle d'ordonnancement de tâches logicielles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20100630 |