FR3076004A1 - Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee - Google Patents

Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee Download PDF

Info

Publication number
FR3076004A1
FR3076004A1 FR1763237A FR1763237A FR3076004A1 FR 3076004 A1 FR3076004 A1 FR 3076004A1 FR 1763237 A FR1763237 A FR 1763237A FR 1763237 A FR1763237 A FR 1763237A FR 3076004 A1 FR3076004 A1 FR 3076004A1
Authority
FR
France
Prior art keywords
node
nodes
storage medium
faulty
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1763237A
Other languages
English (en)
Other versions
FR3076004B1 (fr
Inventor
Sebastien Dugue
Christophe Laferriere
Benoit Welterlen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bull SAS
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Bull SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bull SAS filed Critical Bull SAS
Priority to FR1763237A priority Critical patent/FR3076004B1/fr
Priority to PCT/FR2018/053535 priority patent/WO2019129986A1/fr
Priority to US16/958,202 priority patent/US11249868B2/en
Priority to EP18842811.4A priority patent/EP3732573A1/fr
Publication of FR3076004A1 publication Critical patent/FR3076004A1/fr
Application granted granted Critical
Publication of FR3076004B1 publication Critical patent/FR3076004B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

L'invention concerne un procédé de gestion de panne dans un réseau de nœuds (2), comprenant, pour chaque nœud considéré (2) de tout ou partie des nœuds (2) du réseau effectuant un même calcul : d'abord, une étape de sauvegarde locale de l'état de ce nœud considéré (21), au niveau d'un support de stockage (31) de ce nœud considéré (21), le lien (6) entre ce support de stockage (31) et ce nœud considéré (21) pouvant être redirigé de ce support de stockage (31) vers un autre nœud (23), ensuite, une étape de relance : soit du nœud considéré (21) si celui-ci n'est pas défaillant, à partir de la sauvegarde locale de l'état de ce nœud considéré (21), soit d'un nœud opérationnel (23) différent du nœud considéré (21), si le nœud considéré (21) est défaillant, à partir de la récupération de la sauvegarde locale de l'état de ce nœud considéré (21), en redirigeant ledit lien (6) entre le nœud considéré (21) et son support de stockage (31) de manière à relier ledit support de stockage (31) vers ledit nœud opérationnel (23), les sauvegardes locales de ces nœuds considérés (2), utilisées pour les étapes de relance, sont cohérentes entre elles de sorte à correspondre à un même état de ce calcul.

Description

PROCEDE DE GESTION DE PANNE DANS UN RESEAU DE
NŒUDS ET PARTIE DE RESEAU DE NŒUDS ASSOCIEE
DOMAINE DE L’INVENTION L’invention concerne le domaine des procédés de gestion de panne dans un réseau de nœuds et le domaine des parties de réseau de nœuds associées à cette gestion de panne.
CONTEXTE DE L’INVENTION
Dans un réseau de nœuds effectuant un même calcul, des sauvegardes sont effectuées à un ou à plusieurs niveaux, ce sont des sauvegardes multiniveaux. Lorsqu’une panne survient, le calcul peut être récupéré au moins en partie sans devoir être intégralement recommencé, justement grâce aux sauvegardes effectuées. Selon le type de panne survenu, l’un ou l’autre des niveaux de sauvegarde est utilisé pour récupérer le calcul en partie ou en même en majorité ou encore presque totalement.
Les applications distribuées peuvent durer beaucoup plus longtemps que la durée moyenne sans panne d’un réseau, encore appelée MTBL d’un cluster (pour « Mean Time Between Lailures » en langue anglaise), elles ont donc beaucoup de chances d’être interrompues. Elles n’ont en général pas de solution interne de gestion des pannes, ce peut alors entraîner d’abord la perte des données de sauvegarde locales en cas de panne physique du nœud de calcul, ensuite suivie de la perte de l’ensemble de l’avancement du calcul entraînée par la perte d’un seul nœud de calcul mais dont les données locales de sauvegarde ne peuvent plus être récupérées. H existe des solutions de sauvegarde et de redémarrage (« checkpoint/restart » en langue anglaise) à partir de sauvegarde permettant aux applications de sauvegarder leur contexte régulièrement sur différents niveaux de sauvegarde, plus ou moins rapides.
Les différents niveaux de sauvegarde vont de la sauvegarde la plus locale à la sauvegarde la plus globale, allant ainsi de la sauvegarde la plus simple et la plus rapide à la sauvegarde la plus complexe, la plus lente et la plus coûteuse, allant également ainsi de la sauvegarde la plus fragile et la plus faible à la sauvegarde la plus robuste et la plus résiliente.
Selon un art antérieur correspondant à la librairie LTI (« interface de tolérance aux pannes » ou bien « fault tolérance interface » en langue anglaise), il est connu quatre niveaux de sauvegarde qui sont : > Le premier niveau L1 qui réalise une sauvegarde locale, simple et peu coûteuse, effectuée très souvent, d’où une perte minime en temps de calcul lors d’une panne pouvant être récupérée à ce seul premier niveau Ll, > Le deuxième niveau L2 qui réalise une première sauvegarde intermédiaire par duplication sur un nœud partenaire, moins simple et plus coûteuse, d’où une perte plus importante en temps de calcul lors d’une panne ne pouvant être récupérée qu’à ce deuxième niveau L2, > Le troisième niveau L3, qui réalise une deuxième sauvegarde intermédiaire par encodage de type Reed-Solomon, encore moins simple et encore plus coûteuse, d’où une perte encore un peu plus importante en temps de calcul lors d’une panne ne pouvant être récupérée qu’à ce troisième niveau L3, > Le quatrième niveau L4, qui réalise une sauvegarde globale à un niveau système de fichier, complexe et très coûteuse, d’où une perte vraiment importante en temps de calcul lors d’une panne ne pouvant être récupérée qu’à ce quatrième niveau L4.
Du niveau local Ll au niveau global L4, la sauvegarde est de plus en plus robuste et résiliente, mais elle devient également de plus en plus complexe et coûteuse. C’est pour cela, que la sauvegarde du premier niveau
Ll est réalisée souvent, la sauvegarde du deuxième niveau L2 moins souvent, la sauvegarde du troisième niveau L3 encore moins souvent, la sauvegarde du quatrième niveau L4 relativement rarement. Par conséquent, statistiquement, lorsqu’une panne survient, le dernier état cohérent qui peut être récupéré est, très récent au premier niveau Ll, moins récent au deuxième niveau L2, encore moins récent au troisième niveau L3, plus ancien au quatrième niveau L4. Par conséquent le volume de travail perdu est, très faible au premier niveau Ll, relativement limité au deuxième niveau L2, notable au troisième niveau L3, plus important ancien au quatrième niveau L4.
RESUME DE L’INVENTION
Le but de la présente invention est de fournir un procédé de gestion de panne dans un réseau de nœuds palliant au moins partiellement les inconvénients précités.
Plus particulièrement, l’invention vise à fournir un procédé de gestion de panne dans un réseau de nœuds améliorant le compromis entre efficacité d’une part et coût et complexité d’autre part, pour au moins un niveau de sauvegarde considéré.
Plus particulièrement, l’invention vise à fournir un procédé de gestion de panne dans un réseau de nœuds qui ait une efficacité similaire ou comparable à celle d’une sauvegarde de niveau intermédiaire, préférentiellement celle de la première sauvegarde intermédiaire, avantageusement celle du deuxième niveau L2, pour un coût et une complexité similaires ou comparables à ceux d’une sauvegarde de niveau local, avantageusement ceux du premier niveau Ll.
Pour cela, l’invention propose de rendre le lien entre un support de stockage et son nœud redirigeable vers un autre nœud, de manière à pouvoir disposer de la sauvegarde réalisée sur le support de stockage lorsque le nœud est défaillant, éventuellement par le biais d’une copie au niveau d’un nœud voisin, mais sans avoir réalisé de copie de sauvegarde au niveau d’un nœud voisin pour la plupart des nœuds qui ne sont pas défaillants ou pour tous les nœuds qui ne sont pas défaillants. Le lien entre un support de stockage et son nœud n’est pas réalisé directement, mais indirectement au travers d’un élément de réseau apte à reconfigurer ce lien pour rattacher ce support de stockage à un autre nœud lorsque le précédent nœud devient défaillant. Cet élément de réseau relie plusieurs nœuds à leurs supports de stockage respectifs, chaque nœud étant relié à son support de stockage associé (ou éventuellement à ses supports de stockage associés).
En résumé, pour un nœud défaillant, on dispose d’une sauvegarde malgré la défaillance de ce nœud, d’où une efficacité similaire au deuxième niveau L2, mais on ne réalise pas d’opération plus complexe qu’une simple sauvegarde locale pour la plupart ou pour tous les nœuds qui ne sont pas défaillants, ce qui est la majorité ou même la grande majorité des nœuds du réseau effectuant le calcul considéré, d’où un coût et une complexité du moins comparable sinon similaire à celles du premier niveau Ll.
Ainsi, selon des modes de réalisation de l’invention, le coût du deuxième niveau L2 est économisé, alors qu’est conservée la capacité à redémarrer une application à partir des sauvegardes du premier niveau Ll en cas de panne d’un nœud de calcul. La copie vers un nœud voisin traditionnellement effectuée au deuxième niveau L2 n’est ici pas réalisée pendant l’exécution de l’application de manière préventive pour tous les nœuds de calcul, mais seulement en cas de panne et seulement pour les nœuds défaillants après survenue de la panne. La copie est alors faite uniquement pour relancer l’application avec les données manquantes, remontées de la sauvegarde locale. D’une part, cette sauvegarde de coût et de complexité similaires ou comparables à une sauvegarde locale présente l’efficacité d’une sauvegarde intermédiaire, ce qui améliore beaucoup le rapport qualité prix de cette sauvegarde. D’autre part, cette sauvegarde de coût et de complexité similaires ou comparables à une sauvegarde locale présentant l’efficacité d’une sauvegarde intermédiaire, permet préférentiellement de remplacer à la fois une sauvegarde locale classique et une ou plusieurs sauvegardes intermédiaires classiques, en ne gardant en plus que la sauvegarde globale en dernier recours, pour gérer les pannes les plus sévères, la plupart des pannes pouvant être maintenant gérées par la sauvegarde locale -intermédiaire proposée par l’invention, celle-ci ayant l’efficacité d’une sauvegarde intermédiaire pratiquement au prix d’une sauvegarde locale. A cette fin, la présente invention propose un procédé de gestion de panne dans un réseau de nœuds, comprenant, pour chaque nœud considéré de tout ou partie des nœuds du réseau effectuant un même calcul : d’abord, une étape de sauvegarde locale de l’état de ce nœud considéré, au niveau d’un support de stockage de ce nœud considéré, le lien entre ce support de stockage et ce nœud considéré pouvant être redirigé de ce support de stockage vers un autre nœud, ensuite, une étape de relance : soit du nœud considéré si celui-ci n’est pas défaillant, à partir de la sauvegarde locale de l’état de ce nœud considéré, soit d’un nœud opérationnel différent du nœud considéré, si le nœud considéré est défaillant, à partir de la récupération de la sauvegarde locale de l’état de ce nœud considéré, en redirigeant ledit lien entre le nœud considéré et son support de stockage de manière à relier ledit support de stockage vers ledit nœud opérationnel, les sauvegardes locales de ces nœuds considérés, utilisées pour les étapes de relance, sont cohérentes entre elles de sorte à correspondre à un même état de ce calcul. A cette fin, la présente invention propose également une partie d’un réseau de nœuds, comprenant : un commutateur, une pluralité de nœuds d’un groupe de nœuds effectuant un même calcul dans ce réseau de nœuds, plusieurs supports de stockage respectivement rattachés à ces nœuds par l’intermédiaire du commutateur, ces supports de stockage étant structurés et disposés pour sauvegarder localement l’état des nœuds auxquels ils sont respectivement rattachés, ce commutateur étant structuré et disposé pour changer au moins un rattachement entre un nœud défaillant et son support de stockage lequel va alors devenir rattaché à un autre nœud de ladite pluralité de nœuds.
Selon des modes de réalisation de l’invention, ce procédé de gestion de panne permet l’optimisation et la résilience de la sauvegarde de données d’une application susceptible de rencontrer une panne et le redémarrage de cette application à l’aide des données sauvegardées.
Selon des modes de réalisation de l’invention, ce procédé de gestion de panne offre la possibilité de migrer un support de stockage du nœud de calcul en panne grâce au commutateur, permettant alors d’exploiter directement les données locales sauvegardées d’un nœud de calcul en panne en un temps qui ne dépend que peu de la quantité de données sauvegardées.
Selon des modes de réalisation de l’invention, ce procédé de gestion de panne offre une tolérance aux pannes qui s’étend dans l’absolu à un grand nombre de nœuds de calcul tant qu’il existe, sur chaque nœud de calcul qui tombe en panne, un nœud de calcul rattaché au même commutateur qui pourra reprendre le calcul du nœud de calcul tombé en panne. Il est alors possible de repartir de la dernière sauvegarde locale, même si un grand nombre des nœuds de calcul tombe en panne, tant que chaque nœud de calcul tombé en panne dispose d’un commutateur et d’un nœud de calcul voisin non défaillant connecté au même commutateur.
Suivant des modes de réalisation préférés, l’invention comprend une ou plusieurs des caractéristiques suivantes qui peuvent être utilisées séparément ou en combinaison partielle entre elles ou en combinaison totale entre elles, appliquées à l’un ou à l’autre des objets de l’invention précités.
De préférence, pour chaque nœud considéré non défaillant : il n’y a pas d’étape de récupération par un autre nœud, de la sauvegarde locale de l’état de ce nœud considéré non défaillant.
Ainsi, pour tous les nœuds non défaillants, c’est-à-dire pour la grande majorité des nœuds du réseau effectuant un même calcul, aucune opération plus complexe qu’une simple sauvegarde locale n’a été réalisée.
De préférence, le nœud opérationnel différent du nœud considéré défaillant est un nœud de rechange.
Ainsi, les nœuds non défaillants, qui ont déjà chacun leur propre tâche de calcul à effectuer, ne sont pas chargés en plus d’effectuer cette opération de récupération d’un nœud voisin défaillant. Une éventuelle surcharge de ces nœuds non défaillants est alors évitée.
De préférence, ladite redirection dudit lien entre le nœud considéré et son support de stockage de manière à relier ledit support de stockage vers ledit nœud opérationnel, est réalisée par un changement d’aiguillage dans un commutateur reliant plusieurs nœuds à leurs supports de stockage.
Ainsi, cette redirection est effectuée par une opération simple réalisée au niveau d’un élément de réseau qui est fiable et maîtrisé.
De préférence, toutes les étapes de relance de nœuds sont synchronisées entre elles, de manière à relancer tous lesdits nœuds dans un même état de calcul.
Ainsi, une complète cohérence du reste du calcul, effectué après la relance, est assurée.
De préférence, dans une première réalisation, l’étape de récupération comprenant une sous-étape de migration, vers le nœud opérationnel ou vers le nœud de rechange, du support de stockage de la sauvegarde locale de l’état du nœud défaillant, qui rattache, ce support de stockage de la sauvegarde locale de l’état du nœud défaillant, à un endroit prédéterminé de l’arborescence de fichiers de ce nœud opérationnel ou de ce nœud de rechange, ce nœud opérationnel ou ce nœud de rechange venant ensuite lire, à cet endroit prédéterminé, le lien vers la sauvegarde locale de l’état du nœud défaillant, lors de l’étape de relance de ce nœud opérationnel ou de ce nœud de rechange, aucune copie, de la sauvegarde locale de l’état du nœud défaillant, n’étant réalisée, au niveau d’un autre nœud.
Ainsi, la récupération est rendue encore plus simple, puisque même pour un nœud défaillant, il n’y a aucune duplication de sa sauvegarde locale qui est réalisée. Il n’y avait déjà pas de duplication réalisée pour la sauvegarde locale des nœuds non défaillants.
De préférence, le nœud de rechange et le nœud défaillant qu’il remplace appartiennent tous les deux à la même lame de calcul.
Ainsi, la redirection du lien entre support et nœud est effectuée plus simplement et plus rapidement, en raison de la proximité géographique entre eux du nœud de rechange et du nœud défaillant.
De préférence, dans une deuxième réalisation, l’étape de récupération comprend : d’abord, une sous-étape de migration, vers un nœud intermédiaire, du support de stockage de la sauvegarde locale de l’état du nœud défaillant, qui rattache, ce support de stockage de la sauvegarde locale de l’état du nœud défaillant, à un endroit prédéterminé de l’arborescence de fichiers de ce nœud intermédiaire, ensuite, une sous-étape de copie, de la sauvegarde locale de l’état du nœud défaillant, du support de stockage rattaché au nœud intermédiaire vers le support de stockage du nœud opérationnel ou du nœud de rechange, ce nœud opérationnel ou ce nœud de rechange venant ensuite lire son support de stockage, lors de son étape de relance.
Ainsi, même si la récupération, pour un nœud défaillant, réalise une duplication de sa sauvegarde locale, en revanche il n’y a pas besoin d’indiquer au nœud opérationnel ou au nœud de rechange à quel endroit aller chercher le lien vers le support de stockage du nœud défaillant à récupérer. Par contre, bien sûr, il n’y a toujours pas de duplication réalisée pour la sauvegarde locale des nœuds non défaillants.
La sous-étape de copie n’est pas nécessaire et peut être évitée en remontant le support de stockage au bon endroit dans l’arborescence de fichier du nœud de rechange comme dans la première réalisation décrite précédemment, ou bien en changeant simplement la configuration de la bibliothèque de tolérance aux pannes. Cette remontée est instantanée et permet alors d’éviter une copie supplémentaire qui pourrait prendre un peu de temps en fonction du volume de données à sauvegarder.
De préférence, pour tout ou partie des nœuds du réseau effectuant un même calcul : le nœud de rechange et le nœud défaillant qu’il remplace appartiennent à des lames de calcul différentes.
Ainsi, la redirection du lien entre support et nœud peut être effectuée même en cas de panne importante et même relativement généralisée au niveau de toute une lame de calcul.
De préférence, toutes ces étapes sont réalisées pour tous les nœuds du réseau effectuant un même calcul.
Ainsi, le bénéfice du procédé de gestion de panne proposé par l’invention, est généralisé en étant étendu à l’ensemble des nœuds du réseau effectuant un même calcul.
De préférence, la sous-étape de migration change le rattachement du support de stockage de la sauvegarde locale de l’état du nœud défaillant en passant par l’intermédiaire d’un commutateur auquel était rattaché le nœud défaillant et son support de stockage de la sauvegarde locale de l’état du nœud défaillant, mais sans passer par le nœud défaillant lui-même.
Ainsi, la redirection peut être effectuée même en cas de panne physique complète du nœud défaillant.
De préférence, le changement de rattachement est réalisé par l’envoi d’une commande au commutateur, cette commande passant par l’un des nœuds rattachés au commutateur par un port de management.
Ainsi, c’est le port de management ou de gestion qui est affecté à la récupération des supports de stockage des nœuds défaillants rattachés à un même commutateur.
De préférence, ce commutateur est un commutateur PCIe (« Peripheral Component Interconnect express » en langue anglaise).
Ainsi, ce commutateur est particulièrement avantageux car il est particulièrement adapté à pouvoir faire communiquer entre eux des périphériques sans devoir passer par l’intermédiaire d’un microprocesseur, donc en pouvant contourner un nœud de calcul défaillant par exemple. L’utilisation de ce commutateur PCIe permet de rattacher le support de stockage, par exemple un disque de stockage, contenant les sauvegardes locales du nœud de calcul en panne à un nœud de calcul de rechange. Cette opération est rapide et ne nécessite pas de copie systématique des données de sauvegarde locales, et en particulier pas pour les nœuds de calcul non défaillants.
De préférence, 3 à 10 nœuds sont rattachés à un même commutateur.
Ainsi, le commutateur peut gérer facilement ce petit groupe de nœuds pour lequel un seul nœud de rechange semble devoir être suffisant.
De préférence, le procédé de gestion de panne comprend aussi, pour tout ou partie des nœuds du réseau effectuant un même calcul : une étape de sauvegarde globale de l’ensemble de ces nœuds, réalisée moins souvent que l’ensemble des étapes de sauvegarde locales de ces nœuds.
Ainsi, avec d’une part la sauvegarde locale-intermédiaire proposée par l’invention pour de gérer la grande majorité des pannes de manière simple et efficace, et d’autre part la sauvegarde globale plus complexe et plus coûteuse mais réservée à une minorité de pannes sévères, un excellent compromis entre complexité globale et efficacité globale du procédé de gestion de panne proposé par l’invention est réalisé.
Dans le cadre d’une application tolérante aux pannes, en utilisant plusieurs niveaux de sauvegarde, comme ici une sauvegarde locale rapide et une sauvegarde globale distante plus complexe et plus coûteuse, le procédé de gestion de panne proposé par l’invention permet alors de redémarrer l’application, suite à une panne physique sur un nœud, même complète, et ceci dans la plupart des cas, en repartant de toutes les sauvegardes locales, plus récentes et moins coûteuses, au lieu de devoir repartir des sauvegardes distantes qui sont très souvent nettement plus anciennes, quelques cas plus rares de panne nécessitant parfois l’utilisation de la sauvegarde globale distante. La possibilité de récupérer les données locales du nœud de calcul en panne permet de redémarrer dans la plupart des cas l’application à partir des sauvegardes locales les plus récentes.
De préférence, pour tout ou partie des nœuds du réseau effectuant un même calcul : le réseau comprend entre 1 et 5 nœuds de rechange pour 100 nœuds effectuant ledit même calcul.
Ainsi, le surdimensionnement de la taille du réseau est minime, tandis que la grande majorité des pannes ordinaires sera gérée de manière très efficace.
De préférence, pour tout ou partie des nœuds du réseau effectuant un même calcul : ce procédé de gestion de panne ne comprend aucun autre type de sauvegarde locale de l’état de ces nœuds.
Ainsi, la simplicité et le faible coût de ce type de sauvegarde locale-intermédiaire proposée par l’invention est d’une simplicité similaire à celle d’une sauvegarde purement locale, pour une efficacité bien supérieure.
De préférence, pour tout ou partie des nœuds du réseau effectuant un même calcul : les supports de stockage sont des mémoires flash.
Ainsi, les mémoires utilisées sont simples, rapides et permanentes.
De préférence, ces mémoires flash sont des mémoires NVMe (« Non Volatile Memory express » en langue anglaise).
Ainsi, les mémoires utilisées sont particulièrement bien adaptées pour communiquer avec un commutateur PCIe (« Peripheral Component Interconnect express » en langue anglaise).
De préférence, ce commutateur étant structuré et disposé pour changer au moins un rattachement entre un nœud défaillant et son support de stockage, sur commande extérieure au commutateur.
Ainsi, c’est le commutateur qui effectue la redirection du lien entre le support de stockage et son nœud défaillant, dès qu’un élément externe au commutateur a mis en évidence cette défaillance de nœud et l’a prévenu.
De préférence, ladite pluralité de nœuds comprend entre 3 et 10 nœuds.
Ainsi, le commutateur peut gérer facilement ce petit groupe de nœuds pour lequel un seul nœud de rechange semble devoir être suffisant.
De préférence, ce commutateur est un commutateur PCIe.
Ainsi, ce commutateur est particulièrement avantageux car il est particulièrement adapté à pouvoir faire communiquer entre eux des périphériques sans devoir passer par l’intermédiaire d’un microprocesseur.
De préférence, les supports de stockage sont des mémoires flash, de préférence des mémoires NVMe.
Ainsi, les mémoires utilisées sont particulièrement bien adaptées pour communiquer avec un commutateur PCIe.
Préférentiellement, le réseau de nœuds de calcul comprend au moins 1000 nœuds de calcul, avantageusement au moins 5000 nœuds de calcul, encore plus avantageusement au moins 10000 nœuds de calcul, rendant d’autant plus intéressant le procédé de gestion de panne selon l’invention car la perte complète d’un calcul en cours devient alors d’autant plus critique que le réseau est grand.
Le principe de tolérance aux pannes est d’autant plus important qu’une application s’exécute sur un cluster qui est constitué d’un plus grand nombre de nœuds de calcul. Plus le nombre de processeurs, mémoires et autres périphériques, est important, plus la probabilité qu’une panne survienne avant la fin de l’exécution est grande. Les applications qui ont pour but de s’exécuter sur ce type de plateforme vont utiliser des librairies de tolérance aux pannes qui leur permettent de sauvegarder (« checkpoint » en langue anglaise) les données nécessaires à un redémarrage (« restart » en langue anglaise) dans un état le plus proche possible de l’état qui existait juste avant la panne. Ainsi, ces applications ne sont pas contraintes de recommencer le calcul depuis le début. D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit d’un mode de réalisation préféré de l'invention, donnée à titre d'exemple et en référence aux dessins annexés.
BREVE DESCRIPTION DES DESSINS
La figure 1 représente schématiquement un exemple, d’une partie de réseau incluant un groupe de nœuds et leurs supports de stockage reliés entre eux par un commutateur PCIe, selon un mode de réalisation de l’invention, au niveau de laquelle partie de réseau, un exemple de procédé de gestion de panne selon l’invention peut se dérouler.
DESCRIPTION DETAILLEE DE L’INVENTION
La figure 1 représente schématiquement un exemple, d’une partie de réseau incluant un groupe de nœuds et leurs supports de stockage reliés entre eux par un commutateur PCIe, selon un mode de réalisation de l’invention, au niveau de laquelle partie de réseau, un exemple de procédé de gestion de panne selon l’invention peut se dérouler.
Cette partie de réseau comprend plusieurs nœuds de calcul 2, trois nœuds de calcul 21, 22 et 23, dans l’exemple de la figure 1, ainsi que plusieurs supports de stockage 3, trois supports de stockage 31, 32 et 33, dans l’exemple de la figure 1.
Ces nœuds de calcul 2 et leurs supports de stockage 3 forment un groupe de nœuds de calcul géré par un commutateur PCIe 1 reliant ces nœuds de calcul 2 à leurs supports de stockage 3 respectifs, par l’intermédiaire de connexions bidirectionnelles PCIe 7, 8 ou 9. Ces connexions PCIe 7, 8 ou 9, peuvent être des connexions PCIe à plusieurs voies. La connexion 7 est une connexion à 4 voies. La connexion 8 est une connexion à 4 voies. La connexion 9 est une connexion à 2 voies, ici non encore utilisée, chaque connexion 9 étant d’un côté rattachée à l’un des ports 13, 16 ou 19 et restant libre de l’autre côté. Chaque connexion PCIe 7 relie respectivement l’un des nœuds de calcul 21 à 23 à l’un des ports 0, 2 ou 8 (numérotation du commutateur électronique PLX 8733, mais un autre
Switch PCIe peut être utilisé), respectivement référencés 11, 14 ou 17 sur la figure 1, du commutateur 1. Chaque connexion PCIe 8 relie respectivement l’un des supports de stockage 31 à 33 à l’un des ports 1, 3 ou 9, respectivement référencés 12, 15 ou 18 sur la figure 1, du commutateur 1. La connexion 7, les ports 0 et 1, respectivement référencés 11 et 12 sur la figure 1, du commutateur 1, la connexion 8 forment ensemble un lien 4 reliant le nœud de calcul 23 à son support 33. La connexion 7, les ports 2 et 3, respectivement référencés 14 et 15 sur la figure 1, du commutateur 1, la connexion 8 forment ensemble un lien 5 reliant le nœud de calcul 22 à son support 32. La connexion 7, les ports 8 et 9, respectivement référencés 17 et 18 sur la figure 1, du commutateur 1, la connexion 8 forment ensemble un lien 6 reliant le nœud de calcul 21 à son support 31. Les connexions PCIe 7, 8 ou 9, peuvent être regroupées sur un bus PCIe.
Le nœud de calcul 23 est rattaché au port de gestion ou de management par défaut, c’est-à-dire que c’est par lui que transite les envois vers l’extérieur du groupe de nœuds de calcul 2 et les réceptions en provenance de l’extérieur du groupe de nœuds de calcul 2. En cas de défaillance de ce nœud de calcul 23, celui-ci est remplacé par le nœud de calcul 22 qui est rattaché au port de gestion ou de management redondant, lequel nœud de calcul 22 devient alors rattaché au nouveau port de gestion ou de management effectif.
Lorsqu’un nœud de calcul tombe en panne physique, par exemple le nœud de calcul 21 ou le nœud de calcul 22, considérons ici le nœud de calcul 21, la dernière sauvegarde locale récente de son état de calcul est stockée sur son support de stockage 31.
Dans un système selon l’art antérieur, le support de stockage 31 n’étant accessible que par son nœud de calcul 21 et celui-ci étant en panne physique complète, cette sauvegarde locale récente deviendrait inaccessible, et il faudrait alors recourir à d’autres niveaux de sauvegarde plus complexes et moins récents, d’où une perte importante d’efficacité globale pour le réseau informatique.
Dans le système selon un mode de réalisation de l’invention, présenté à la figure 1, le rattachement du support de stockage 31 est reconfiguré, c’est-à-dire que le support de stockage 31 va cesser d’être relié à son nœud de calcul 21 de rattachement par défaut, mais va devenir relié au nœud de calcul 23, lequel étant rattaché au port de gestion par défaut, va pouvoir faire remonter la sauvegarde locale de l’état de calcul du nœud de calcul 21 défaillant, depuis le support de stockage 31, vers un autre nœud de calcul de rechange extérieur au groupe de nœuds de calcul 21 à 23, cet autre nœud de calcul reprenant alors à son compte la tâche de calcul interrompue au niveau du nœud de calcul 21 défaillant, à partir de la sauvegarde locale de l’état de calcul du nœud de calcul 21 remontée depuis le support de stockage 31.
Dans le commutateur 1, le port 9 (numérotation du commutateur électronique PLX8733, mais un autre Switch PCIe peut être utilisé) référencé 18 (sur la figure 1), au lieu de rester relié en permanence au port 8 référencé 17 comme avant la défaillance du nœud de calcul 21, va être, au moins temporairement relié au port 0 référencé 11, afin de permettre au nœud de calcul 23 de venir lire, dans le support de stockage 31, les données sauvegardées représentatives de l’état de calcul du nœud de calcul 21, juste avant ou peu de temps avant, sa défaillance. Ainsi, la sauvegarde locale, dans le support de stockage 31, de l’état de calcul du nœud de calcul 21 avant sa défaillance, va pouvoir remonter jusqu’au nœud de calcul 23 et être ainsi exploitée pour relancer le calcul avec un très bon compromis entre simplicité de la sauvegarde et efficacité de la relance.
Alternativement, si le nœud de calcul 23 est lui-même un nœud de rechange, il peut reprendre à son compte la tâche de calcul interrompue par le nœud de calcul 21 défaillant.
Si c’est le nœud 23 qui devient défaillant, il est d’abord remplacé par le nœud de calcul 22 comme rattaché au port de management, et le nœud de calcul 22, comme rattaché au nouveau port de management, réalise les opérations auparavant réalisés par le nœud de calcul 23 si celui-ci n’était pas devenu défaillant.
La gestion du commutateur 1 est maintenant décrite par un scénario manuel clarifiant et expliquant les différentes opérations à effectuer, comme par exemple la migration du support de stockage 31 d’un nœud de calcul défaillant 21 à un nœud de calcul de rechange 23, le transfert des données, le redémarrage de l’application. La gestion des données côté applicatif est abstraite par la librairie LTI. L’application exécutée est fournie dans les exemples de la librairie LTI : hdf.exe. Cette application est lancée sur deux nœuds de calcul. Elle va réaliser des sauvegardes locales, sur les disques de stockage NVMe reliés à ces nœuds de calcul par le commutateur PCIe à intervalles réguliers ainsi qu’une sauvegarde globale sur un serveur NFS (« Network File System » en langue anglaise) de façon moins fréquente. Une fois l’application lancée, une panne est générée sur un des deux nœuds de calcul. La migration du disque de stockage NVMe du nœud défaillant vers un autre nœud va alors permettre le transfert des données de la dernière sauvegarde locale de ce nœud défaillant vers le nœud de rechange. Une fois ce transfert réalisé, l’application peut être relancée et reprend le calcul à la dernière sauvegarde locale des deux nœuds de calcul au lieu de la dernière sauvegarde globale plus ancienne de la partie de réseau.
Dans ce contexte, une reprise sur panne est réalisée avec les données locales de sauvegarde d’une application MPI (« Message Passing Interface » en langue anglaise) d’un nœud de calcul tombant en panne. Les données sont récupérées grâce à la migration du support de stockage du nœud de calcul défaillant sur un nœud de calcul voisin de la même lame de calcul. Ces données sont ensuite transmises à un second nœud de rechange qui reprendra le calcul. L’intérêt de cette reprise sur panne est qu’elle permet à l’application de redémarrer à partir des sauvegardes locales de tous les nœuds de calcul. Ces sauvegardes locales moins coûteuses sont également plus récentes la plupart du temps, et ne sont au pire qu’aussi récentes, que les sauvegardes globales. De plus, la quantité de données transférées afin de reprendre le calcul va être bien plus faible que dans le cas d’un redémarrage à partir d’une sauvegarde globale.
Dans le développement qui suit, les parties de texte dans un encadré ou bien entre crochets concernent des lignes de code informatique.
La configuration de la librairie LTI a été modifiée [« config.fti » dans le répertoire « examples »], afin d’autoriser l’exécution sur deux nœuds de calcul différents :
Sur chacun des deux nœuds de calcul, appelés ici NI (référencé 21 sur la figure 1) et N2 (référencé 22 sur la figure 1), le répertoire de sauvegarde locale [« /localckpt/ »] est un montage du disque de stockage SSD (« Solid State Disk » en langue anglaise) disponible sur chaque nœud de calcul, le disque de stockage SO (référencé 31 sur la figure 1) sur le nœud de calcul NI et le disque de stockage SI (référencé 32 sur la figure 1) sur le nœud de calcul N2 :
Une panne du nœud de calcul NI est provoquée, causant alors une interruption du calcul de ce nœud de calcul N1 : [$ ipmitool -H bmc-Nl -Uuser -Ppass power off]
Dans la trace précédente, les sauvegardes locales de premier niveau Ll sont différenciées des sauvegardes globales de quatrième niveau L4. Le calcul a été interrompu après avoir fait une sauvegarde globale de quatrième niveau L4 et une sauvegarde locale de premier niveau Ll plus récente que la sauvegarde globale de quatrième niveau L4, ce qui statistiquement correspondra à la grande majorité, pour ne pas dire à la quasi-totalité, des cas de survenue de panne en pratique.
Le nœud de calcul N1 étant considéré en panne, le disque de stockage SO qui lui était attaché va être migré vers un autre nœud de calcul, ici le nœud de calcul N3 (référencé 23 sur la figure 1). Le nœud de calcul N3 est le nœud qui possède le port d’administration du commutateur.
La première étape est d’envoyer la commande qui permet de router à nouveau la remise à zéro PCI (« reset » en langue anglaise), le dernier argument étant le numéro du nœud fautif ou défaillant : [$ ipmitool -Hpm-bmc-N3 -Usuper -Ppass raw 0x3a Oxcd 1]
Cette commande peut être exécutée des nœuds voisins ou du nœud de management ou de gestion. L’état des ports du commutateur (référencé 1 sur la figure 1) est vérifié :
Le port 9 (référencé 18 sur la figure 1) du commutateur, sur lequel se trouve le disque de stockage SO du nœud de calcul fautif ou défaillant NI au nœud de calcul courant N3 :
H est demandé au système de scanner à nouveau le bus PCIe :
Le disque de stockage SO est désormais vu :
Une fois le disque de stockage SO migré, les données qui y sont sauvegardées peuvent être accédées en montant le système de fichiers : [$ mount /dev/nvmelnl /localckpt_restore/]
Les données sauvegardées récupérées sont alors transmises au nœud de calcul de rechange en charge de remplacer le nœud de calcul NI en panne. Il peut s’agir du même nœud que le nœud N3 en charge de la récupération des données sauvegardées sur le disque de stockage SO.
Les données sauvegardées puis récupérées étant alors transmises au nœud de calcul désigné de rechange (« spare » en langue anglaise), il ne reste alors plus qu’à relancer l’application en changeant le nœud de calcul NI en panne par ce dernier nœud de calcul de rechange dans la commande « mpirun » :
H peut être constaté que le calcul (qui détermine ici la valeur d’une erreur valant 0.04888) a donc bien repris à partir des sauvegardes locales de premier niveau Ll.
Bien entendu, la présente invention n'est pas limitée aux exemples et au mode de réalisation décrits et représentés, mais elle est susceptible de nombreuses variantes accessibles à l'homme de l'art.

Claims (24)

  1. REVENDICATIONS
    1. Procédé de gestion de panne dans un réseau de nœuds (2), comprenant, pour chaque nœud considéré (2) de tout ou partie des nœuds (2) du réseau effectuant un même calcul : > d’abord, une étape de sauvegarde locale de l’état de ce nœud considéré (21), au niveau d’un support de stockage (31) de ce nœud considéré (21), le lien (6) entre ce support de stockage (31) et ce nœud considéré (21) pouvant être redirigé de ce support de stockage (31) vers un autre nœud (23), > ensuite, une étape de relance : o soit du nœud considéré (21) si celui-ci n’est pas défaillant, à partir de la sauvegarde locale de l’état de ce nœud considéré (21), o soit d’un nœud opérationnel (23) différent du nœud considéré (21), si le nœud considéré (21) est défaillant, à partir de la récupération de la sauvegarde locale de l’état de ce nœud considéré (21), en redirigeant ledit lien (6) entre le nœud considéré (21) et son support de stockage (31) de manière à relier ledit support de stockage (31) vers ledit nœud opérationnel (23), > les sauvegardes locales de ces nœuds considérés (2), utilisées pour les étapes de relance, sont cohérentes entre elles de sorte à correspondre à un même état de ce calcul.
  2. 2. Procédé de gestion de panne selon la revendication 1, caractérisé en ce que : > pour chaque nœud considéré non défaillant (22) : o il n’y a pas d’étape de récupération par un autre nœud (23), de la sauvegarde locale de l’état de ce nœud considéré non défaillant (22).
  3. 3. Procédé de gestion de panne selon la revendication 1 ou 2, caractérisé en ce que le nœud opérationnel (23) différent du nœud considéré (21) défaillant est un nœud de rechange (23).
  4. 4. Procédé de gestion de panne selon l’une quelconque des revendications précédentes, caractérisé en ce que ladite redirection dudit lien (6) entre le nœud considéré (21) et son support de stockage (31) de manière à relier ledit support de stockage (31) vers ledit nœud opérationnel (23), est réalisée par un changement d’aiguillage dans un commutateur (1) reliant plusieurs nœuds (21, 22, 23) à leurs supports de stockage (31, 32, 33).
  5. 5. Procédé de gestion de panne selon l’une quelconque des revendications précédentes, caractérisé en ce que toutes les étapes de relance de nœuds (2) sont synchronisées entre elles, de manière à relancer tous lesdits nœuds (2) dans un même état de calcul.
  6. 6. Procédé de gestion de panne selon l’une quelconque des revendications 1 à 5, caractérisé en ce que : > l’étape de récupération comprenant une sous-étape de migration, vers le nœud opérationnel (23) ou vers le nœud de rechange (23), du support de stockage (31) de la sauvegarde locale de l’état du nœud défaillant (21), qui rattache, ce support de stockage (31) de la sauvegarde locale de l’état du nœud défaillant (21), à un endroit prédéterminé de l’arborescence de fichiers de ce nœud opérationnel (23) ou de ce nœud de rechange (23), ce nœud opérationnel (23) ou ce nœud de rechange (23) venant ensuite lire, à cet endroit prédéterminé, le lien vers la sauvegarde locale de l’état du nœud défaillant (21), lors de l’étape de relance de ce nœud opérationnel (23) ou de ce nœud de rechange (23), > aucune copie, de la sauvegarde locale de l’état du nœud défaillant (21), n’étant réalisée, au niveau d’un autre nœud (23).
  7. 7. Procédé de gestion de panne selon la revendication 6, caractérisé en ce que le nœud de rechange (23) et le nœud défaillant (21) qu’il remplace appartiennent tous les deux à la même lame de calcul.
  8. 8. Procédé de gestion de panne selon l’une quelconque des revendications 1 à 5, caractérisé en ce que l’étape de récupération comprend : > d’abord, une sous-étape de migration, vers un nœud intermédiaire (23), du support de stockage (31) de la sauvegarde locale de l’état du nœud défaillant (21), qui rattache, ce support de stockage (31) de la sauvegarde locale de l’état du nœud défaillant (21), à un endroit prédéterminé de l’arborescence de fichiers de ce nœud intermédiaire (23), > ensuite, une sous-étape de copie, de la sauvegarde locale de l’état du nœud défaillant (21), du support de stockage (31) rattaché au nœud intermédiaire (23) vers le support de stockage du nœud opérationnel ou du nœud de rechange, ce nœud opérationnel ou ce nœud de rechange venant ensuite lire son support de stockage, lors de son étape de relance.
  9. 9. Procédé de gestion de panne dans un réseau de nœuds, selon la revendication 8, caractérisé en ce que, pour tout ou partie des nœuds (2) du réseau effectuant un même calcul, le nœud de rechange (23) et le nœud défaillant (21) qu’il remplace appartiennent à des lames de calcul différentes.
  10. 10. Procédé de gestion de panne selon l’une quelconque des revendications précédentes, caractérisé en ce que toutes ces étapes sont réalisées pour tous les nœuds (2) du réseau effectuant un même calcul.
  11. 11. Procédé de gestion de panne selon l’une quelconque des revendications 6 à 10, caractérisé en ce que la sous-étape de migration change le rattachement du support de stockage (31) de la sauvegarde locale de l’état du nœud défaillant (21) en passant par l’intermédiaire d’un commutateur (1) auquel était rattaché le nœud défaillant (21) et son support de stockage (31) de la sauvegarde locale de l’état du nœud défaillant (21), mais sans passer par le nœud défaillant (21) lui-même.
  12. 12. Procédé de gestion de panne selon la revendication 11, caractérisé en ce que le changement de rattachement est réalisé par l’envoi d’une commande au commutateur (1), cette commande passant par l’un des nœuds (23) rattachés au commutateur (1) par un port de management (H).
  13. 13. Procédé de gestion de panne selon la revendication 11 ou 12, caractérisé en ce que ce commutateur (1) est un commutateur PCIe.
  14. 14. Procédé de gestion de panne selon l’une quelconque des revendications 11 à 13, caractérisé en ce que 3 à 10 nœuds (2) sont rattachés à un même commutateur (1).
  15. 15. Procédé de gestion de panne selon l’une quelconque des revendications précédentes, caractérisé en ce qu’il comprend aussi, pour tout ou partie des nœuds du réseau effectuant un même calcul, une étape de sauvegarde globale de l’ensemble de ces nœuds (2), réalisée moins souvent que l’ensemble des étapes de sauvegarde locales de ces nœuds (2).
  16. 16. Procédé de gestion de panne selon l’une quelconque des revendications 3 à 15, caractérisé en ce que, pour tout ou partie des nœuds (2) du réseau effectuant un même calcul, le réseau comprend entre 1 et 5 nœuds de rechange (23) pour 100 nœuds (2) effectuant ledit même calcul.
  17. 17. Procédé de gestion de panne selon l’une quelconque des revendications précédentes, caractérisé en ce que, pour tout ou partie des nœuds (2) du réseau effectuant un même calcul, ce procédé de gestion de panne ne comprend aucun autre type de sauvegarde locale de l’état de ces nœuds (2).
  18. 18. Procédé de gestion de panne selon l’une quelconque des revendications précédentes, caractérisé en ce que, pour tout ou partie des nœuds (2) du réseau effectuant un même calcul, les supports de stockage (3) sont des mémoires flash.
  19. 19. Procédé de gestion de panne selon la revendication 18, caractérisé en ce que ces mémoires flash (3) sont des mémoires NVMe.
  20. 20. Partie d’un réseau de nœuds, comprenant : > un commutateur (1), > une pluralité de nœuds (2) d’un groupe de nœuds effectuant un même calcul dans ce réseau de nœuds, > plusieurs supports de stockage (3) respectivement rattachés à ces nœuds (2) par l’intermédiaire du commutateur (1), > ces supports de stockage (3) étant structurés et disposés pour sauvegarder localement l’état des nœuds (2) auxquels ils sont respectivement rattachés, > ce commutateur (1) étant structuré et disposé pour changer au moins un rattachement entre un nœud défaillant (21) et son support de stockage (31) lequel va alors devenir rattaché à un autre nœud (23) de ladite pluralité de nœuds (2).
  21. 21. Partie d’un réseau de nœuds selon la revendication 20, caractérisée en ce que ce commutateur (1) étant structuré et disposé pour changer au moins un rattachement entre un nœud défaillant (21) et son support de stockage (31), sur commande extérieure au commutateur (1).
  22. 22. Partie d’un réseau de nœuds selon la revendication 20 ou 21, caractérisée en ce que ladite pluralité de nœuds (2) comprend entre 3 et 10 nœuds.
  23. 23. Partie d’un réseau de nœuds selon l’une quelconque des revendications 20 à 22, caractérisée en ce que ce commutateur (1) est un commutateur PCIe.
  24. 24. Partie d’un réseau de nœuds selon l’une quelconque des revendications 20 à 23, caractérisée en ce que les supports de stockage (3) sont des mémoires flash, de préférence des mémoires NVMe.
FR1763237A 2017-12-27 2017-12-27 Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee Active FR3076004B1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1763237A FR3076004B1 (fr) 2017-12-27 2017-12-27 Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee
PCT/FR2018/053535 WO2019129986A1 (fr) 2017-12-27 2018-12-21 Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee
US16/958,202 US11249868B2 (en) 2017-12-27 2018-12-21 Method of fault management in a network of nodes and associated part of network of nodes
EP18842811.4A EP3732573A1 (fr) 2017-12-27 2018-12-21 Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1763237A FR3076004B1 (fr) 2017-12-27 2017-12-27 Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee
FR1763237 2017-12-27

Publications (2)

Publication Number Publication Date
FR3076004A1 true FR3076004A1 (fr) 2019-06-28
FR3076004B1 FR3076004B1 (fr) 2021-03-19

Family

ID=62143294

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1763237A Active FR3076004B1 (fr) 2017-12-27 2017-12-27 Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee

Country Status (4)

Country Link
US (1) US11249868B2 (fr)
EP (1) EP3732573A1 (fr)
FR (1) FR3076004B1 (fr)
WO (1) WO2019129986A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110324375B (zh) * 2018-03-29 2020-12-04 华为技术有限公司 一种信息备份方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0136560A2 (fr) * 1983-09-02 1985-04-10 Nec Corporation Système à multi-processeur faiblement couplé capable de transférer un ensemble de signaux de commande en faisant usage d'une mémoire commune
WO2009140979A1 (fr) * 2008-05-21 2009-11-26 Telefonaktiebolaget L M Ericsson (Publ) Regroupement de ressources dans un serveur de centre de commutation à batterie de lames
US20140215264A1 (en) * 2013-01-30 2014-07-31 Fujitsu Limited Information processing apparatus and control method for information processing apparatus
US20140281688A1 (en) * 2013-03-15 2014-09-18 Lsi Corporation Method and system of data recovery in a raid controller
US20150355983A1 (en) * 2014-06-05 2015-12-10 International Business Machines Corporation Automatic Management of Server Failures

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696895A (en) * 1995-05-19 1997-12-09 Compaq Computer Corporation Fault tolerant multiple network servers
US7434096B2 (en) * 2006-08-11 2008-10-07 Chicago Mercantile Exchange Match server for a financial exchange having fault tolerant operation
JP5068056B2 (ja) * 2006-10-11 2012-11-07 株式会社日立製作所 障害回復方法、計算機システム及び管理サーバ
US8639968B2 (en) * 2011-01-17 2014-01-28 Hewlett-Packard Development Company, L. P. Computing system reliability
WO2014141462A1 (fr) * 2013-03-15 2014-09-18 株式会社日立製作所 Procédé de commutation d'ordinateur, système d'ordinateurs, et ordinateur de gestion
US9619389B1 (en) * 2013-07-11 2017-04-11 Unigen Corporation System for a backward and forward application environment compatible distributed shared coherent storage
US9921926B2 (en) * 2014-01-16 2018-03-20 Hitachi, Ltd. Management system of server system including a plurality of servers
US9280432B2 (en) * 2014-03-21 2016-03-08 Netapp, Inc. Providing data integrity in a non-reliable storage behavior

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0136560A2 (fr) * 1983-09-02 1985-04-10 Nec Corporation Système à multi-processeur faiblement couplé capable de transférer un ensemble de signaux de commande en faisant usage d'une mémoire commune
WO2009140979A1 (fr) * 2008-05-21 2009-11-26 Telefonaktiebolaget L M Ericsson (Publ) Regroupement de ressources dans un serveur de centre de commutation à batterie de lames
US20140215264A1 (en) * 2013-01-30 2014-07-31 Fujitsu Limited Information processing apparatus and control method for information processing apparatus
US20140281688A1 (en) * 2013-03-15 2014-09-18 Lsi Corporation Method and system of data recovery in a raid controller
US20150355983A1 (en) * 2014-06-05 2015-12-10 International Business Machines Corporation Automatic Management of Server Failures

Also Published As

Publication number Publication date
US11249868B2 (en) 2022-02-15
WO2019129986A1 (fr) 2019-07-04
FR3076004B1 (fr) 2021-03-19
EP3732573A1 (fr) 2020-11-04
US20210073091A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
US9672372B2 (en) Method for improving mean time to data loss (MTDL) in a fixed content distributed data storage
US10425480B2 (en) Service plan tiering, protection, and rehydration strategies
US8954406B2 (en) Policy-based management of a redundant array of independent nodes
EP2092442B1 (fr) Récupération rapide d'un groupe primaire
US10216775B2 (en) Content selection for storage tiering
FR2946769A1 (fr) Procede et dispositif de reconfiguration d'avionique.
JP5868986B2 (ja) アイテム単位でのリカバリー
US11550677B2 (en) Client-less database system recovery
EP3588294A2 (fr) Procédé de gestion de panne dans un réseau de noeuds basé sur une stratégie globale
US11409715B2 (en) Maintaining high-availability of a file system instance in a cluster of computing nodes
FR3076004A1 (fr) Procede de gestion de panne dans un reseau de noeuds et partie de reseau de noeuds associee
CN106294031B (zh) 一种业务管理方法和存储控制器
US10346299B1 (en) Reference tracking garbage collection for geographically distributed storage system
FR3082973A1 (fr) Procede de gestion de panne dans un reseau de noeuds base sur une strategie locale
EP3765959B1 (fr) Gestion des donnees de configuration pour un serveur multimodule
EP2799994A1 (fr) Procédé et dispositif de sauvegarde de données dans une infrastructure informatique offrant des fonctions de reprise d'activité
EP3122020A1 (fr) Procede de sauvegarde de l'environnement de travail d'une session d'un utilisateur sur un serveur
FR2745100A1 (fr) Systeme informatique a transparence de panne pour les applications utilisateur

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20190628

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

TQ Partial transmission of property

Owner name: BULL SAS, FR

Effective date: 20220809

Owner name: COMMISSARIAT A L'ENERGIE ATOMIQUE ET AUX ENERG, FR

Effective date: 20220809

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7