FR2892210A1

FR2892210A1 - Procede et systeme de journalisation d'erreurs recuperables

Info

Publication number: FR2892210A1
Application number: FR0608925A
Authority: FR
Inventors: Saurabh Gupta; Akkiah Maddukuri; Bi Chong Wang
Original assignee: Dell Products LP
Current assignee: Dell Products LP
Priority date: 2005-10-14
Filing date: 2006-10-12
Publication date: 2007-04-20
Also published as: GB0620260D0; JP2007109238A; HK1104631A1; TW200805056A; AU2006228051A1; CN1949182A; ITTO20060737A1; DE102006048115A1; IE20060744A1; GB2431262A; DE102006048115B4; CN100440157C; US20070088988A1; SG131870A1; TWI337707B; GB2431262B

Abstract

La présente description concerne un procédé et un système de journalisation d'erreurs récupérables dans un système de traitement d'informations. Le système inclut une unité centrale de traitement (110), un jeu de puces (130, 150) couplé à celle-ci, au moins une unité de mémoire de jeu de puces (140) couplée et associée à celui-ci, un Contrôleur de Gestion de Carte de Base (BMC) (180), et une unité de mémoire contenant un Système de Base d'Entrée/Sortie (BIOS) (170). Une Interruption de Gestion de Système (SMI) est périodiquement appelée. Un registre d'état est balayé pour détecter si une erreur est survenue. Si celle-ci est détectée, le système la journalise dans une unité de mémoire (190) associée au contrôleur (180) ainsi que la source de l'erreur et son emplacement. Si aucune erreur n'est détectée, le système la modifie.

Description

t La présente description concerne de manière générale les systèmes

informatiques et les systèmes de traitement d'informations, et plus spécifiquement un système et un procédé de journalisation d'erreurs récupérables.

Du fait de la valeur et de l'utilisation croissantes des informations, les individus et les entreprises cherchent des moyens supplémentaires pour traiter et mémoriser les informations. L'un des choix mis à la disposition de ces utilisateurs est un système de traitement d'informations.

Un système de traitement d'informations, de manière générale, traite, compile, mémorise et/ou communique des in-formations ou des données à des fins commerciales, personnelles ou autres de manière à permettre aux utilisateurs d'exploiter la valeur des informations. Du fait que les besoins et les impératifs en termes de technologie et de traitement d'informations varient entre des utilisateurs différents ou des applications différentes, les systèmes de traitement d'informations peuvent varier en fonction du type d'informations traitées ; des procédés pour traiter les informations ; des procédés pour traiter, mémoriser ou communiquer les informations ; de la quantité d'informations traitées, mémorisées, ou communiquées ; et de la vitesse et de l'efficacité avec lesquelles les informations sont traitées, mémorisées, ou commu- piquées. Les variations dans les systèmes de traitement d'informations permettent aux systèmes de traitement d'informations d'être généraux ou configurés pour un utilisateur spécifique ou une utilisation spécifique telle que le traitement de transactions financières, les réser- vations de vols, la mémorisation de données d'entreprise, ou les communications globales. De plus, les systèmes de traitement d'informations peuvent inclure ou comprendre une variété de composants matériels et logiciels qui peu-vent être configurés pour traiter, mémoriser et communi- quer des informations et peuvent inclure un ou plusieurs systèmes informatiques, systèmes de mémorisation de don-nées et systèmes de gestion de réseau. Les systèmes serveurs peuvent subir des erreurs pouvant être récupérées ou corrigées durant un fonctionnement normal du système. Ces erreurs récupérables peuvent se produire par exemple lorsque des unités de mémoire couplées au système serveur sont défectueuses. Pour augmenter la fiabilité du système, les systèmes serveurs sont souvent conçus pour capturer et journaliser, lorsqu'elles surviennent, les erreurs pouvant être récupérées ou corrigées. Du fait que les erreurs récupérables sont souvent des signaux d'avertissement d'une défaillance imminente de la mémoire, ce traitement de capture et de journalisation donne à l'utilisateur d'un système serveur une chance de remplacer les unités de mémoire défectueuses avant que tout le système ne tombe en panne. Les systèmes serveurs acheminent souvent des erreurs destinées à être journalisées en générant une Interruption de Gestion de Système (SMI) via des signaux de bande latérale. L'inter-ruption SMI transite par la bande latérale jusqu'à la CPU, et la CPU bloque alors les traitements en cours du système serveur. Ces pauses du traitement provoquées par l'interruption SMI activent le Système de Base d'Entrée-Sortie (BIOS) résidant sur le système serveur pour journaliser les erreurs récupérables lorsqu'elles surviennent, en utilisant un gestionnaire de SMI. Une fois que le système BIOS journalise les erreurs, les interruptions SMI se terminent, et le système serveur peut reprendre l'exécution de tous traitements interrompus. Le Contrô- leur de Gestion de Carte de Base (BMC), qui gère l'inter-face entre un logiciel de gestion de système et le maté-riel de plateforme, traite les commandes de journalisation d'erreurs reçues du système BIOS et effectue l'écriture réelle sur sa mémoire non volatile. Pendant tout le traitement de notification, le système d'exploitation (OS) résidant sur le système serveur n'a pas connaissance de l'erreur et de la journalisation qui s'ensuit de cette erreur. Certains systèmes serveurs, cependant, n'incluent pas de fonctionnalité de signal de bande latérale. Toutes les communications doivent transiter par la liaison de trans-port principale. Du fait que les erreurs récupérables peuvent être corrigées, le système serveur ne génère pas de notification lorsque des erreurs récupérables se pro- duisent. Ces systèmes serveurs peuvent être alors conçus pour désigner des erreurs récupérables en utilisant le système BIOS du système serveur ou le jeu de puces pour exécuter des balayages périodiques, tels que des interruptions SMI périodiques. De manière similaire, ces systèmes serveurs peuvent exiger que le système d'exploitation du système serveur contrôle périodiquement le système. Par exemple, le système d'exploitation peut contrôler périodiquement le système et journaliser toutes erreurs récupérables qui ont été détectées dans le registre d'état de contrôle de machine. Un système d'exploitation typique balaiera environ une fois par minute. L'utilisation du système d'exploitation du système serveur pour balayer périodiquement le système a ses inconvénients, cependant. Par exemple, la plupart des erreurs matériel- les sont spécifiques au système. Typiquement, cependant, un système d'exploitation ne dispose pas d'une compréhension de l'architecture spécifique du système. Le système d'exploitation souvent ne peut pas identifier quel composant est défectueux sans avoir recours à l'aide du sys- terne BIOS du système, immobilisant ainsi les deux ressources. Les utilisateurs du système serveur exigent sou-vent plus de spécificité qu'une journalisation d'erreurs génériques effectuée par un système d'exploitation, particulièrement si le système en question est un système serveur haut de gamme. De plus, le système d'exploitation réalisera souvent une journalisation des erreurs dans un registre d'état de contrôle de machine, qui ne mémorise pas des informations concernant la source d'erreur et par conséquent ne permet pas au système ou à l'utilisateur de déterminer plus tard l'emplacement de cette source d'erreurs. Bien que certaines versions de système d'exploitation puissent entretenir un journal de quelques dizaines d'erreurs récupérables par balayage, typiquement un système d'exploitation n'autorisera pas une autre journali- sation d'erreurs récupérables une fois que cela arrive, empêchant ainsi l'utilisateur de rechercher des erreurs dans le temps pour déterminer la source des problèmes. La présente invention propose un procédé et un système pour journaliser les erreurs récupérables dans un système de traitement d'informations. Le système inclut une unité centrale de traitement, un jeu de puces couplé à l'unité centrale de traitement, et au moins une unité de mémoire de jeu de puces couplée et associée au jeu de puces. Le système inclut également un Contrôleur de Gestion de Carte de Base (BMC), et une unité de mémoire contenant un Système de Base d'Entrée-Sortie (BIOS). Une Interruption de Gestion de Système (SMI) est périodiquement appelée. Des registres d'états d'erreurs sont balayés pour détecter si une erreur récupérable est surve- nue. Si une erreur récupérable est détectée, le système journalise l'erreur récupérable dans une unité de mémoire non volatile associée au contrôleur BMC. Le système journalise des informations qui indiquent une source de l'erreur récupérable et l'emplacement de cette source. Si au- cuve erreur récupérable n'est détectée, le système trans-met une communication indiquant qu'aucune erreur récupérable n'est survenue. XXXXXXXXXX Plus précisément, le procédé de l'invention comporte les étapes consistant à : û appeler périodiquement une Interruption de Gestion de Système SMI, û balayer un registre d'état pour détecter si une erreur récupérable est survenue, û journaliser une erreur récupérable si une erreur récupérable est détectée, la journalisation d'une erreur récupérable incluant la journalisation dans une unité de mémoire non volatile (190) associée à des informations de contrôleur de gestion de carte de base (180) qui indiquent une source de l'erreur récupérable et l'emplacement de cette source, et - transmettre une communication indiquant qu'aucune erreur récupérable n'est survenue, si aucune erreur récupérable n'est détectée.

L'étape d'appel d'une interruption SMI peut comporter l'appel d'une interruption en utilisant le contrôleur de gestion de carte de base. L'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue peut inclure l'étape de balayage : - d'un registre d'état en utilisant un Système de Base d'Entrée et de Sortie BIOS mémorisé dans une unité de mémoire du système de traitement d'informations, ù d'un registre d'état en utilisant le contrôleur BMC, ù d'un registre d'état de processeur associé à une unité centrale de traitement, û d'un registre d'état de jeu de puces associé à un jeu de puces, û d'un registre d'état de mémoire associé à au moins une unité de mémoire couplée à un jeu de puces. De préférence, le procédé comporte de plus les étapes consistant à documenter des erreurs récupérables provenant d'erreurs durant le fonctionnement d'au moins une unité de mémoire associée à un jeu de puces dans un re- gistre d'état d'unité de mémoire, et suivre dans un re- gistre d'état de jeu de puces toutes erreurs récupérables documentées dans le registre d'état d'unité de mémoire. Le balayage d'un registre d'état pour détecter si une erreur récupérable est survenue comporte de préférence le balayage du registre d'état de jeu de puces pour détecter si une erreur récupérable est survenue. Le procédé peut comporter de plus la modification de la fréquence à laquelle l'interruption SMI est périodique-ment appelée sur la base d'un évènement durant le fonc- tionnement du système de traitement d'informations. La modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un évènement durant le fonctionnement du système de traitement d'in-formations comporte la modification de la fréquence à la- quelle l'interruption SMI est périodiquement appelée sur la base du fait qu'une erreur récupérable a été détectée. Le procédé peut comporter de plus la modification de la fréquence à laquelle l'interruption SMI est périodique-ment appelée sur la base d'un changement de fonctionne- ment du système de traitement d'informations. L'étape de modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un change-ment de fonctionnement du système de traitement d'informations comporte de préférence la modification de la fré- quence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de charge de travail d'un Système de Base d'Entrée et de Sortie mémorisé dans le système de traitement d'informations. L'invention vise également un système de journalisation d'erreurs récupérables comportant : û une unité centrale de traitement, û un jeu de puces couplé à l'unité centrale de traite-ment, û au moins une unité de mémoire de jeu de puces couplée et associée au jeu de puces, ù au moins une unité de mémoire de micrologiciel contenant un Système de Base d'Entrée et de Sortie BIOS, la au moins une unité de mémoire de micrologiciel étant couplée audit au moins un jeu de puces, un contrôleur de gestion de carte de base BMC couplé au jeu de puces et à la au moins une unité de mémoire de micrologiciel, le contrôleur BMC pouvant appeler une interruption qui demande au système BIOS de contrôler les erreurs récupérables et de journaliser toutes erreurs récupérables détectées, et - au moins une unité de mémoire de contrôleur BMC couplée et associée au contrôleur BMC, dans lequel la au moins une unité de mémoire de contrôleur BMC peut mémoriser un journal d'erreurs récupérables détectées.

Selon diverses formes de réalisation avantageuses, le système comporte de plus : ù une ligne de demande d'interruption qui relie le contrôleur BMC au jeu de puces, le contrôleur BMC pouvant transmettre une interruption à travers la ligne de demande d'interruption au jeu de puces ; ù un registre d'état de mémoire associé à la au moins une unité de mémoire de jeu de puces, le système BIOS pouvant contrôler le registre d'état de mémoire pour vérifier les erreurs récupérables ; ù un registre d'état de processeur associé à l'unité centrale de traitement, le système BIOS pouvant contrôler le registre d'état de processeur pour contrôler les erreurs récupérables ; un registre d'état de jeu de puces associé au jeu de puces, le système BIOS pouvant contrôler le registre d'état de jeu de puces pour contrôler les erreurs récupérables. Selon un autre aspect, l'invention propose un système comportant : ù une unité centrale de traitement, û un jeu de puces couplé à l'unité centrale de traite-ment, û au moins une unité de mémoire de jeu de puces couplée et associée au jeu de puces, dans lequel la au moins une unité de mémoire de jeu de puces est associée à un registre d'état de mémoire, û un registre d'état de jeu de puces associé au jeu de puces, dans lequel le registre d'état de jeu de puces peut suivre le contenu du registre d'état de mémoire, û au moins une unité de mémoire de micrologiciel contenant un Système de Base d'Entrée et de Sortie BIOS, dans lequel la au moins une unité de mémoire de micro-logiciel est couplée audit au moins un jeu de puces, û un contrôleur de gestion de carte de base BMC couplé au jeu de puces et à la au moins une unité de mémoire de micrologiciel, dans lequel le contrôleur BMC peut appeler une interruption, vérifier les erreurs récupérables dans le registre d'état de jeu de puces, et de-mander que le système BIOS journalise toutes erreurs récupérables détectées, et û au moins une unité de mémoire de contrôleur BMC couplée et associée au contrôleur BMC, dans lequel la au moins une unité de mémoire de contrôleur BMC peut mémoriser un journal d'erreurs récupérables détectées.

Le système peut éventuellement comporter un bus d'Inter- Interconnexion qui relie le contrôleur BMC au jeu de pu- ces. Le système et le procédé décrits ici sont avantageux en ce qu'ils permettent au système de traitement d'informa- tions de déterminer la source d'erreurs récupérables et l'emplacement de cette source, même si le système de traitement d'informations n'a pas la capacité d'envoyer des signaux via une bande latérale. Le contrôleur BMC ou le système BIOS, et pas le système d'exploitation, iden- tifie et journalise la source d'erreurs récupérables. Le système et le procédé décrits ici sont également avantageux du fait qu'ils peuvent permettre à la périodicité de l'interruption SMI d'être dynamiquement ajustée sur la base d'un évènement durant le fonctionnement du système de traitement d'informations ou un changement de fonctionnement du système de traitement d'informations. Le balayage périodique peut être plus rapide que la vitesse de balayage d'erreurs récupérables par le système d'exploitation.

Une compréhension plus complète des présents modes de réalisation et de leurs avantages peut être acquise en faisant référence à la description qui va suivre faite conjointement avec les dessins annexés, sur lesquels des références numériques analogues indiquent des caractéris- tiques analogues, et sur lesquels : - la figure 1 est un schéma fonctionnel d'un exemple d'architecture pour un exemple de carte mère, - la figure 2 est un ordinogramme illustrant un exemple de procédé pour adapter la fréquence à laquelle le système exécute un balayage périodique, et ù la figure 3 est un schéma fonctionnel d'un exemple d'architecture pour un exemple de carte mère. Aux fins de la présente description, un système de traitement d'informations peut inclure tout dispositif ou en- sembles de dispositifs opérationnels pour calculer, classer, traiter, transmettre, recevoir, récupérer, émettre, commuter, mémoriser, afficher, manifester, détecter, en-registrer, lire, gérer ou utiliser toute forme d'informations, d'intelligence ou de données à des fins commercia- les, scientifiques, de contrôle ou autre. Par exemple, un système de traitement d'informations peut être un ordinateur individuel, un dispositif mémorisation de réseau, ou tout autre dispositif adapté et peut varier en taille, forme, performance, fonctionnalité et prix. Le système de traitement d'informations peut inclure une mémoire à ac- cès direct (RAM), une ou plusieurs ressources de traite-ment telles qu'une unité centrale de traitement (CPU) ou une logique de commande matérielle ou logicielle, une mémoire à lecture seule (ROM) et/ou autres types de mémoire non volatile. Des composants supplémentaires du système de traitement d'informations peuvent inclure une ou plu-sieurs unités de disque, un ou plusieurs ports réseau pour communiquer avec des dispositifs externes ainsi que divers périphériques d'entrée et de sortie (E/S) tels qu'un clavier, une souris et un afficheur vidéo. Le système de traitement d'informations peut également inclure un ou plusieurs bus opérationnels pour transmettre des communications entre les divers composants matériels. La figure 1 illustre une architecture d'une carte mère, indiquée de manière générale par la référence numérique 100, destinée à être utilisée dans un système de traite-ment d'informations tel qu'un système serveur. L'architecture représentée sur la figure 1 est utilisée à des fins d'exemple seulement et doit être entendue comme dé- crivant seulement l'une des nombreuses architectures possibles des cartes mère. Comme représentée sur la figure 1, la carte mère 100 peut inclure un microprocesseur 110. Le microprocesseur 110 peut agir comme la CPU de la carte mère. Le microprocesseur 110 peut être relié à une puce communément appelée le "Pont Nord", désignée par la référence numérique 130 sur la figure 1, via un bus de processeur 120. Le Pont Nord 130 gère typiquement les communications entre la CPU et d'autres composants du système de traitement d'informations, tels que des unités de mé- moire. Par conséquent, une ou plusieurs unités de mémoire et un contrôleur de mémoire, indiqués généralement par la référence numérique 140, peuvent être couplés au Pont Nord 130. Une puce connue sous le nom de "Pont Sud", dé-signée par la référence numérique 150 sur la figure 1, peut être également couplée au Pont Nord 130. Le Pont Sud 150 implémente typiquement des services plus lents pour la carte mère que ceux implémentés par le Pont Nord 130, tels que la gestion d'énergie et le fonctionnement de l'Interface de Composants Périphériques (PCI). Le Pont Sud 150 peut être couplé via un bus LCP "Low Pin Count" 160 à une unité de mémoire contenant un système BIOS 170. Le système BIOS est quelquefois appelé "micrologiciel". Le Pont Nord 130 et le Pont Sud 150 sont quelquefois collectivement appelés le "jeu de puces" de la carte mère 100. Cependant, si la carte mère 100 inclut d'autres pu-ces ou des puces supplémentaires, ces composants peuvent faire partie du jeu de puces également. Un contrôleur BMC 180 peut être également couplé au bus LPC 160, comme indiqué sur la partie inférieure de la fi- gure 1. Un contrôleur et une ou plusieurs unités de mémoire, indiqués généralement par la référence numérique 190, sont couplés au contrôleur BMC 180. L'unité ou les unités de mémoire 190 peuvent être de préférence des uni-tés de mémoire non volatile. Le contrôleur BMC 180 peut avoir sa propre alimentation en énergie, bien qu'aucune alimentation en énergie ne soit indiquée sur la figure 1. Comme décrit précédemment dans cette description, le contrôleur BMC 180 gèrera typiquement l'interface entre le logiciel de gestion de système et le matériel de la plateforme. Différents capteurs intégrés dans le système de traitement d'informations peuvent notifier au contrôleur BMC 180 des paramètres relevant de l'état et de l'opérabilité du système de traitement d'informations, tels que la température, les vitesses des ventilateurs de refroidissement, et diverses tensions. Si le contrôleur BMC 180 détecte un écart dans un quelconque paramètre surveillé par rapport à des limites prédéfinies voulues, il peut envoyer une alerte à l'utilisateur ou à l'administrateur système. Le contrôleur BMC 180 peut être par conséquent couplé à de nombreux composants matériels et à un réseau, non représentés sur la figure 1, pour surveiller ces paramètres et activer des alertes si nécessaire. L'architecture de la carte mère 100 représentée sur la figure 1 n'inclut pas de capacité de signal de bande la- térale entre le microprocesseur 110 et le Pont Sud 150. Toutes les communications doivent passer par la liaison de transport principale, et un système de traitement d'informations incorporant une carte mère 100 ne peut pas se baser sur des signaux de bande latérale pour des rap- ports d'erreurs récupérables. De plus, du fait que les erreurs récupérables peuvent être corrigées, ce système de traitement d'informations ne notifiera pas en général à l'utilisateur qu'une telle erreur est survenue à moins qu'il renseigne périodiquement quant aux erreurs. Par conséquent, un système de traitement d'informations incorporant une carte mère 100 peut être conçu pour notifier des erreurs récupérables en utilisant le système BIOS 170 pour effectuer des balayages périodiques, tels que des interruptions SMI périodiques. De même, un sys- tème de traitement d'informations incorporant une carte mère 100 peut être conçu pour se baser sur le système d'exploitation résidant dans le système de traitement d'informations pour appeler les balayages périodiques. Ces procédés, cependant, ne sont pas sans leurs inconvé- nients, comme décrit précédemment dans cette description. Par exemple, le système d'exploitation ne peut pas typiquement identifier quel composant est la source de l'erreur récupérable du fait que les progiciels de système d'exploitation sont génériques et n'incluent pas des car- tes de l'architecture des systèmes particuliers sur les-quels ils résident. De plus, le système d'exploitation journalise les erreurs récupérables dans le registre d'état de contrôle de machine (qui peut ne peut pas être local au composant entraînant l'erreur) et efface alors le registre d'état de contrôle de machine.

Au lieu de compter sur le système d'exploitation ou le système BIOS 170 seul pour gérer des balayages périodiques, les systèmes de traitement d'informations incorporant une carte mère 100 peuvent compter au lieu de cela sur le contrôleur BMC 180 pour appeler des interruptions SMI logicielles périodiques. C'est-à-dire qu'une fois que le système de traitement d'informations est lancé et s'exécute, le contrôleur BMC 180 peut appeler une interruption SMI logicielle après une période de temps prédé- finie. Une ligne de demande d'interruption 195 entre le contrôleur BMC 180 et le jeu de puces sur la carte mère 100, peut être rendue disponible pour appeler l'interruption SMI logicielle. Des ports d'Entrée/Sortie à Usage Général (GPIO), non représentés sur la figure 1, peuvent être configurés pour permettre des communications entre le système BIOS 170 et le contrôleur BMC 180. Lorsque le contrôleur BMC 180 appelle l'interruption SMI logicielle, le système BIOS 170 cherchera des erreurs récupérables en lisant, par exemple, le registre d'état du jeu de puces, le registre d'état de mémoire, et/ou le registre d'état du microprocesseur 110. Si le système BIOS 170 ne trouve pas d'erreur dans le ou les registres d'état, le système BIOS 170 communiquera l'absence d'erreur au contrôleur BMC 180. Si le système BIOS 170 trouve une erreur, le système BIOS 170 communiquera l'erreur au contrôleur BMC 180 et effacera le registre d'état contenant l'erreur. Le système BIOS 170 peut également journaliser l'erreur via le contrôleur BMC 180 dans l'unité de mémoire 190, typiquement dans un Journal d'Evènements Systèmes non vola- tile. Du fait que le système BIOS 170 connaît l'architecture de la carte mère 100, le système BIOS 170 peut identifier dans le journal l'emplacement de la source de l'erreur récupérable. La période à laquelle le contrôleur BMC 180 appelle l'in- terruption SMI logicielle peut être prédéfinie à une quelconque période voulue par le fabricant ou l'utilisateur. Par exemple, comme on l'a décrit précédemment dans cette description, certaines versions de système d'exploitation exécutent des balayages périodiques du regis- tre d'état de contrôle de machine une fois par minute. Par conséquent, la période à laquelle le contrôleur BMC 180 appelle l'interruption SMI logicielle peut être réglée à au moins une minute de sorte que le système BIOS 170 contrôle les registres d'état plus fréquemment que lorsque le système d'exploitation résidant exécute son balayage, réduisant ainsi le risque que le système d'exploitation efface les erreurs dans le registre d'état de contrôle de machine avant que le système BIOS 170 puisse les détecter. Le contrôleur BMC 180 peut même appeler l'interruption SMI suffisamment souvent pour empêcher le système d'exploitation de ne jamais détecter des erreurs. Cependant, la période entre les interruptions SMI logicielles doit être suffisamment grande pour éviter l'immobilisation du système BIOS 170 et du contrôleur BMC 180 inutilement et la dégradation ainsi des performances du système. En variante, le contrôleur BMC 180 peut changer de manière adaptée la fréquence de l'interruption SMI logicielle après une prise de connaissance de l'état d'erreur par le système BIOS 170. La figure 2 inclut un ordinogramme illustrant un procédé possible pour changer de manière adaptée la fréquence de l'interruption SMI logicielle. Comme représenté dans le bloc 200 de l'ordinogramme, le contrôleur BMC 180 peut tout d'abord appeler une interruption SMI logicielle. Le système BIOS 170 peut alors contrôler le ou les registres d'état de contrôle de machine appropriés, comme représenté dans le bloc 210 de l'ordinogramme. Le système BIOS 170 déterminera s'il a localisé une erreur, comme décrit dans le bloc 220. Si le système BIOS 170 ne détecte pas d'erreur, le système BIOS 170 enverra une communication d'un seul bit au contrôleur BMC 180 indiquant qu'aucune erreur n'a été détectée, comme indiqué dans le bloc 230. Comme le bloc 240 de l'ordinogramme le représente, le contrôleur BMC 180 peut alors diminuer la fréquence à laquelle il appelle l'interruption SMI logicielle. Au lieu de cela, si le système BIOS 170 détecte une erreur, le système BIOS 170 déterminera ensuite si l'erreur est récupérable. Si le système BIOS 170 détecte une ou plusieurs erreurs récupérables, le système BIOS 170 communiquera ce fait au contrôleur BMC 180, comme représenté dans le bloc 260. Le contrôleur BMC 180 peut augmenter la fréquence à laquelle il appelle l'interruption SMI logicielle, comme représenté dans le bloc 270. Si, cependant, le système BIOS 170 détecte des erreurs non récupérables, il communiquera ce fait au contrôleur BMC 180. A ce stade, tout le système peut être réinitialisé, et la fréquence de l'interruption SMI logicielle peut être réinitialisée à nouveau à un paramètre par défaut, par exemple, comme représenté dans le bloc 290 La génération d'interruptions SMI logicielles peut être commandée en utilisant une horloge système. La fréquence d'erreurs augmentera ou diminuera habituellement par pas, par conséquent aucun changement extrême de la fréquence de l'interruption SMI logicielle ne sera nécessaire pour capturer l'état d'erreur correct du système. Pour un système qui change demanière adaptée la fréquence des interruptions SMI logicielles, cependant, l'utilisateur ou le fabricant doit régler des valeurs minimale et maximale prédéterminées pour la fréquence à laquelle le contrôleur BMC 180 peut appeler de quelconques interruptions SMI. La figure 3 illustre une architecture en variante d'une carte mère, indiquée de manière générale par la référence numérique 300, destinée à être utilisée dans un système de traitement d'informations tel qu'un système serveur.

L'architecture décrite sur la figure 3 est similaire à celle décrite sur la figure 1. Par conséquent, des composants analogues sur les deux figures sont identifiés par les mêmes caractères de référence. Dans la carte mère 300, cependant, le contrôleur BMC 180 et le jeu de puces, ou même juste le Pont Nord 130 peuvent être couplés via un bus d'Inter-Interconnexion (I2C) 310, comme représenté sur la figure 3. La carte mère 300 peut être également conçue pour permettre au registre d'état de l'unité de mémoire 140 d'être porté ou suivi par le jeu de puces. En particulier, la carte mère 300 peut être conçue pour per-mettre au Pont Nord 130 de porter le registre d'état de l'unité de mémoire 140 dans son propre registre d'état. Par conséquent, le contrôleur BMC 180 peut balayer le re- gistre d'état du Pont Nord 130 via le bus I2C 310 et dé-terminer si de quelconques erreurs récupérables pour l'unité de mémoire 140 sont survenues. Si le contrôleur BMC 180 détecte une erreur de mémoire récupérable, il peut appeler une interruption SMI logicielle pour ordon- ner au système BIOS 170 de journaliser l'erreur récupérable. Si, cependant, le contrôleur BMC 180 ne détecte pas d'erreur de mémoire récupérable, il ne perturbera pas le fonctionnement du système BIOS 170. Par conséquent, la charge sur le système BIOS 170 peut être réduite, du fait qu'il est seulement nécessaire d'agir sur des erreurs ré-elles préalablement détectées par le contrôleur BMC 180. Dans certains systèmes, le contrôleur BMC 180 peut journaliser les erreurs récupérables. Cependant, pour de nombreux systèmes, le système BIOS 170 peut rester le choix le plus efficace pour journaliser les erreurs récupérables du fait qu'un algorithme est déjà implémenté dans un système BIOS typique pour déterminer la cause de l'erreur et l'emplacement du composant responsable de l'erreur. Par conséquent, si le contrôleur BMC 180 informe le sys- tème BIOS 170 qu'il a détecté une erreur en générant une interruption SMI logicielle, le système BIOS 170 peut dé-terminer la cause de l'erreur et journaliser ces informations. La fréquence à laquelle le contrôleur BMC 180 balaie l'état de contrôle de machine du Pont Nord 130 peut être prédéterminée. En variante, la fréquence peut être modifiée de manière adaptée, comme décrit précédemment dans cette description. Par exemple, la fréquence peut être augmentée si des erreurs à un seul bit sont détectées ou diminuées si aucune erreur n'est détectée.

Bien que la présente description ait décrit un système et un procédé qui peuvent inclure des changements adaptés à intervalle de temps entre des balayages périodiques par le système BIOS 170 et/ou le contrôleur BMC 180 en réponse à des erreurs détectées, d'autres facteurs peuvent être utilisés pour ajuster la fréquence de ces balayages. Par exemple, la charge subie par le composant exécutant le balayage, qu'il s'agisse du système BIOS 170 ou du contrôleur BMC 180, peut influencer la périodicité des balayages. Si un composant réalisant le balayage est sur- chargé par d'autres tâches, par exemple, la fréquence des balayages peut être réduite pour réduire la charge de ce composant. Bien que la présente description ait été décrite en détail, divers changements, substitutions et modifications peuvent être réalisés sur celle-ci sans s'écarter du domaine et de la portée de la présente invention.

Claims

REVENDICATIONS

1. Procédé de journalisation d'erreurs récupérables dans un système de traitement d'informations, caractérisé en ce qu'il comporte les étapes consistant à : ù appeler périodiquement une Interruption de Gestion de Système SMI, ù balayer un registre d'état pour détecter si une erreur récupérable est survenue, ù journaliser une erreur récupérable si une erreur récupérable est détectée, la journalisation d'une erreur récupérable incluant la journalisation dans une unité de mémoire non volatile (190) associée à des informations de contrôleur de gestion de carte de base (180) qui indiquent une source de l'erreur récupérable et l'emplacement de cette source, et ù transmettre une communication indiquant qu'aucune erreur récupérable n'est survenue, si aucune erreur récupérable n'est détectée.

2. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape d'appel d'une interruption SMI comporte l'appel d'une interruption en utilisant le contrôleur de gestion de carte de base (180).

3. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état en utilisant un Système de Base d'Entrée et de Sortie BIOS (170) mémorisé dans une unité de mémoire du système de traitement d'informations.

4. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état en utilisant le contrôleur BMC (180).

5. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état de processeur associé à une unité centrale de traitement {110).

6. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état de jeu de puces associé à un jeu de puces {130, 150).

7. Procédé de journalisation d'erreurs récupérables selon la revendication, caractérisé en ce que l'étape de balayage d'un registre d'état pour détecter si une erreur récupérable est survenue inclut l'étape de balayage d'un registre d'état de mémoire associé à au moins une unité de mémoire couplée à un jeu de puces (130, 150).

8. Procédé de journalisation d'erreurs récupérables selon la revendication 1, caractérisé en ce qu'il comporte de 30 plus les étapes consistant à : ù documenter des erreurs récupérables provenant d'erreurs durant le fonctionnement d'au moins une unité de mémoire associée à un jeu de puces (130, 150) dans un registre d'état d'unité de mémoire, etû suivre dans un registre d'état de jeu de puces toutes erreurs récupérables documentées dans le registre d'état d'unité de mémoire.

9. Procédé selon la revendication 8, caractérisé en ce que le balayage d'un registre d'état pour détecter si une erreur récupérable est survenue comporte le balayage du registre d'état de jeu de puces pour détecter si une erreur récupérable est survenue.

10. Procédé selon la revendication 1, caractérisé en ce qu'il comporte de plus la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un évènement durant le fonctionnement du système de traitement d'informations.

11. Procédé selon la revendication 10, caractérisé en ce que la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un évènement durant le fonctionnement du système de traite-ment d'informations comporte la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base du fait qu'une erreur récupérable a été détectée.

12. Procédé selon la revendication 1, caractérisé en ce qu'il comporte de plus la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de fonctionnement du système de traitement d'informations.

13. Procédé selon la revendication 12, caractérisé en ce que l'étape de modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de fonctionnement du système de traite-ment d'informations comporte la modification de la fréquence à laquelle l'interruption SMI est périodiquement appelée sur la base d'un changement de charge de travail d'un Système de Base d'Entrée et de Sortie (170) mémorisé dans le système de traitement d'informations.

14. Système de journalisation d'erreurs récupérables, caractérisé en ce qu'il comporte : û une unité centrale de traitement (110), û un jeu de puces (130, 150) couplé à l'unité centrale de traitement (110), û au moins une unité de mémoire de jeu de puces (140) couplée et associée au jeu de puces (130, 150), û au moins une unité de mémoire de micrologiciel (190) contenant un Système de Base d'Entrée et de Sortie BIOS (170), la au moins une unité de mémoire de micro-logiciel (190) étant couplée au au moins un jeu de pu-ces (130, 150), ù un contrôleur de gestion de carte de base BMC (180) couplé au jeu de puces (130, 150) et à la au moins une unité de mémoire de micrologiciel (190), le contrôleur BMC (180) pouvant appeler une interruption qui demande au système BIOS (170) de contrôler les erreurs récupérables et de journaliser toutes erreurs récupérables détectées, et - au moins une unité de mémoire de contrôleur BMC (190) couplée et associée au contrôleur BMC (180), dans le-quel la au moins une unité de mémoire de contrôleur BMC (190) peut mémoriser un journal d'erreurs récupé- rables détectées.

15. Système de journalisation d'erreurs récupérables selon la revendication 14, caractérisé en ce qu'il comporte de plus une ligne de demande d'interruption (195) qui re- lie le contrôleur BMC (180) au jeu de puces (130, 150),le contrôleur BMC (180) pouvant transmettre une interruption à travers la ligne de demande d'interruption (195) au jeu de puces (130, 150).

16. Système de journalisation d'erreurs récupérables selon la revendication 14, caractérisé en ce qu'il comporte de plus un registre d'état de mémoire associé à la au moins une unité de mémoire de jeu de puces (140), le système BIOS (170) pouvant contrôler le registre d'état de mémoire pour vérifier les erreurs récupérables.

17. Système de journalisation d'erreurs récupérables selon la revendication 14, caractérisé en ce qu'il comporte de plus un registre d'état de processeur associé à l'uni- té centrale de traitement (110), le système BIOS (170) pouvant contrôler le registre d'état de processeur pour contrôler les erreurs récupérables.

18. Système de journalisation d'erreurs récupérables se- lon la revendication 14, caractérisé en ce qu'il comporte de plus un registre d'état de jeu de puces associé au jeu de puces. (130, 150), le système BIOS (170) pouvant contrôler le registre d'état de jeu de puces pour contrôler les erreurs récupérables.

19. Système de journalisation d'erreurs récupérables, caractérisé en ce qu'il comporte : - une unité centrale de traitement (110), ù un jeu de puces (130, 150) couplé à l'unité centrale 30 de traitement (110), ù au moins une unité de mémoire de jeu de puces (140) couplée et associée au jeu de puces (130, 150), dans lequel la au moins une unité de mémoire de jeu de pu-ces (140) est associée à un registre d'état de mé- 35 moire,un registre d'état de jeu de puces associé au jeu de puces (130, 150), dans lequel le registre d'état de jeu de puces peut suivre le contenu du registre d'état de mémoire, û au moins une unité de mémoire de micrologiciel (190) contenant un Système de Base d'Entrée et de Sortie BIOS (170), dans lequel la au moins une unité de mémoire de micrologiciel (190) est couplée audit au moins un jeu de puces (130, 150), û un contrôleur de gestion de carte de base BMC (180) couplé au jeu de puces (130, 150) et à la au moins une unité de mémoire de micrologiciel (190), dans lequel le contrôleur BMC (180) peut appeler une interruption, vérifier les erreurs récupérables dans le registre d'état de jeu de puces, et demander que le système BIOS (170) journalise toutes erreurs récupérables détectées, et û au moins une unité de mémoire de contrôleur BMC (190) couplée et associée au contrôleur BMC (180), dans le- quel la au moins une unité de mémoire de contrôleur BMC (190) peut mémoriser un journal d'erreurs récupérables détectées.

20. Système de journalisation d'erreurs récupérables se- lon la revendication 19, caractérisé en ce qu'il comporte de plus un bus d'Inter-Interconnexion (310) qui relie le contrôleur BMC {180) au jeu de puces (130, 150).