EP3918355B1

EP3918355B1 - Knotenfehlerdetektion und -auflösung in verteilten datenbanken

Info

Publication number: EP3918355B1
Application number: EP20749510.2A
Authority: EP
Inventors: Sreenath Bodagala; Ross Shaull; Paul D. Smith
Original assignee: NuoDB Inc
Current assignee: NuoDB Inc
Priority date: 2019-02-01
Filing date: 2020-02-03
Publication date: 2025-06-25
Anticipated expiration: 2040-02-03
Also published as: US20250086073A1; EP3918355A4; US11500743B2; EP4604502A3; US20230078926A1; CN117929911A; WO2020160557A1; EP3918355C0; EP4604502A2; US20240045776A1; JP2022524931A; CN113474666B; EP3918355A1; US12158823B2; US11822441B2; US20220147426A1; CN113474666A; JP7595014B2; JP2025031721A

Claims

Verfahren (100; 1200) zum Beheben eines Fehlers in einer verteilten Datenbank (200; 300; 400; 500; 700; 800; 900), wobei die verteilte Datenbank eine Vielzahl von Knoten (TE1, TE2, TE3, SM1, SM2) enthält, wobei jeder Knoten in der Vielzahl von Knoten direkt mit jedem anderen Knoten in der Vielzahl von Knoten verbunden ist, wobei das Verfahren als Reaktion auf das Erfassen des Fehlers Folgendes umfasst:
an einem ersten Knoten in der Vielzahl von Knoten:
Identifizieren (102; 1202, 1210) eines verdächtigen Knotens in der Vielzahl von Knoten, wobei der verdächtige Knoten ein Knoten in der Vielzahl von Knoten ist, der als Ergebnis des Fehlers nicht mehr mit dem ersten Knoten verbunden ist;

Übertragen (104; 1230) einer ersten Liste verdächtiger Knoten an Nachbarknoten in der Vielzahl von Knoten, wobei die erste Liste verdächtiger Knoten den verdächtigen Knoten enthält, wobei die Nachbarknoten Knoten in der Vielzahl von Knoten sind, die nach dem Ausfall direkt mit dem ersten Knoten verbunden bleiben;

Empfangen (1234) einer zweiten Liste verdächtiger Knoten von mindestens einem der Nachbarknoten;

Bestimmen (106; 1240) von Konnektivitätsinformationen für die Vielzahl von Knoten, basierend mindestens teilweise auf der ersten Liste verdächtiger Knoten und der zweiten Liste verdächtiger Knoten;

Bestimmen (110; 1260), ob der erste Knoten in einer gewinnenden vollständig verbundenen Komponente (204'; 304'; 404'; 704'; 904') der verteilten Datenbank ist, basierend auf den Konnektivitätsinformationen, wobei die gewinnende vollständig verbundene Komponente mehr als die Hälfte der Knoten in der Vielzahl von Knoten enthält und jeder Knoten in dem Knoten der gewinnenden vollständig verbundenen Komponente direkt mit jedem anderen Knoten in dem Knoten der gewinnenden vollständig verbundenen Komponente verbunden ist;

als Reaktion auf das Bestimmen, dass der erste Knoten in der gewinnenden vollständig verbundenen Komponente der Vielzahl von Knoten ist, Weiterbetreiben (114; 1201) des ersten Knotens; und

als Reaktion auf das Bestimmen, dass der erste Knoten nicht in der gewinnenden vollständig verbundenen Komponente der Vielzahl von Knoten ist, Ausfallenlassen (112; 1299) des ersten Knotens, um den Ausfall zu beheben.
Verfahren nach Anspruch 1, wobei das Senden der ersten Liste verdächtiger Knoten das Senden einer Protokolliterationsnummer enthält, die eine Iteration des vom ersten Knoten aufgerufenen Verfahrens angibt.
Verfahren nach Anspruch 2, das ferner Folgendes umfasst:
Vergleichen der Protokolliterationsnummer mit einer Protokolliterationsnummer, die mit der zweiten Liste verdächtiger Knoten empfangen wurde.
Verfahren nach Anspruch 2, das ferner Folgendes umfasst:
Serialisieren der Protokolliterationsnummer als Teil eines Hauptkatalogs, wobei der Hauptkatalog eine Liste der Knoten in der Vielzahl von Knoten enthält.
Verfahren nach Anspruch 1, wobei das Bestimmen der Konnektivitätsinformationen am ersten Knoten ferner Folgendes umfasst:
Bestimmen eines Konnektivitätsgraphen, basierend mindestens teilweise auf den Konnektivitätsinformationen; und

Identifizieren der gewinnenden vollständig verbundenen Komponente aus dem Konnektivitätsgraphen, und optional, wobei das Identifizieren der gewinnenden vollständig verbundenen Komponente das Bestimmen der gewinnenden vollständig verbundenen Komponente basierend auf einer Größe der gewinnenden vollständig verbundenen Komponente und einer Größe der Vielzahl von Knoten umfasst.
Verfahren nach Anspruch 1, wobei das Bestimmen, ob der erste Knoten in der gewinnenden vollständig verbundenen Komponente ist, umfasst, an dem ersten Knoten die gewinnende vollständig verbundene Komponente basierend auf den Konnektivitätsinformationen zu identifizieren.
Verfahren nach Anspruch 6, wobei das Identifizieren der gewinnenden vollständig verbundenen Komponente Folgendes umfasst:
Bestimmen einer ersten vollständig verbundenen Komponente (202', 302', 402', 702', 902', 1002') der verteilten Datenbank basierend auf den Konnektivitätsinformationen, wobei jeder Knoten in der ersten vollständig verbundenen Komponente direkt mit jedem anderen Knoten in der ersten vollständig verbundenen Komponente verbunden ist;

Bestimmen einer zweiten vollständig verbundenen Komponente (202", 302", 402", 702", 902", 1002") der verteilten Datenbank basierend auf den Konnektivitätsinformationen, wobei die zweite vollständig verbundene Komponente sich von der ersten vollständig verbundenen Komponente unterscheidet, wobei jeder Knoten in der zweiten vollständig verbundenen Komponente direkt mit jedem anderen Knoten in der zweiten vollständig verbundenen Komponente verbunden ist;

Bestimmen, dass die erste vollständig verbundene Komponente (i) mehr Knoten als die zweite vollständig verbundene Komponente und (ii) mehr als die Hälfte der Knoten in der Vielzahl von Knoten enthält; und

Auswählen der ersten vollständig verbundenen Komponente als die gewinnende vollständig verbundene Komponente.
Verfahren nach Anspruch 6, wobei das Identifizieren der gewinnenden vollständig verbundenen Komponente Folgendes umfasst:
Bestimmen einer ersten vollständig verbundenen Komponente der verteilten Datenbank basierend auf den Konnektivitätsinformationen, wobei jeder Knoten in der ersten vollständig verbundenen Komponente direkt mit jedem anderen Knoten in der ersten vollständig verbundenen Komponente verbunden ist;

Bestimmen einer zweiten vollständig verbundenen Komponente der verteilten Datenbank basierend auf den Konnektivitätsinformationen, wobei die zweite vollständig verbundene Komponente sich von der ersten vollständig verbundenen Komponente unterscheidet, wobei jeder Knoten in der zweiten vollständig verbundenen Komponente direkt mit jedem anderen Knoten in der zweiten vollständig verbundenen Komponente verbunden ist;

Bestimmen, dass die erste vollständig verbundene Komponente (i) dieselbe Anzahl von Knoten wie die zweite vollständig verbundene Komponente und (ii) mehr als die Hälfte der Knoten in der Vielzahl von Knoten enthält; und

Auswählen der ersten vollständig verbundenen Komponente als die gewinnende vollständig verbundene Komponente basierend auf eindeutigen Kennungen der Knoten in der ersten vollständig verbundenen Komponente und der zweiten vollständig verbundenen Komponente.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst:
Übertragen (1250) der zweiten Liste verdächtiger Knoten von dem ersten Knoten zu mindestens einem Nachbarknoten.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst:
Aktualisieren der ersten Liste verdächtiger Knoten, basierend mindestens teilweise auf der zweiten Liste verdächtiger Knoten; und

Senden der aktualisierten ersten Liste verdächtiger Knoten von dem ersten Knoten zu den Nachbarknoten.
Verfahren nach Anspruch 1, wobei der erste Knoten weniger als die Hälfte der Vielzahl von Knoten als verdächtige Knoten identifiziert.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst:
Identifizieren von mehr als der Hälfte der Vielzahl von Knoten als verdächtige Knoten an einem dritten Knoten in der Vielzahl von Knoten; und

Verhindern, dass der dritte Knoten den Fehler behebt.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst:
Verhindern, dass ein dritter Knoten versucht, sich der Vielzahl von Knoten anzuschließen, als Reaktion auf die Erfassung des Fehlers.
Verfahren nach Anspruch 1, wobei der Fehler ein erster Fehler ist, der verdächtige Knoten ein erster verdächtiger Knoten ist, und ferner umfassend, an einem dritten Knoten in der Vielzahl von Knoten:
Erfassen eines zweiten Fehlers in der verteilten Datenbank;

Identifizieren eines zweiten verdächtigen Knotens in der Vielzahl von Knoten, wobei der zweite verdächtige Knoten ein Knoten in der Vielzahl von Knoten ist, der als Ergebnis des zweiten Fehlers nicht mehr direkt mit dem dritten Knoten verbunden ist;

Senden einer dritten Liste verdächtiger Knoten an den ersten Knoten; und

Neustarten des Verfahrens durch den ersten Knoten.
Verteiltes Datenbanksystem (200; 300; 400; 500; 700; 800; 900), das Folgendes umfasst:
eine Vielzahl von Knoten (TE1, TE2, TE3, SM1, SM2), wobei jeder Knoten in der Vielzahl von Knoten einen entsprechenden Prozessor und einen entsprechenden Speicher enthält und direkt mit jedem anderen Knoten in der Vielzahl von Knoten verbunden ist, wobei der Prozessor an einem ersten Knoten in der Vielzahl von Knoten dafür konfiguriert ist, einen Fehler in dem verteilten Datenbanksystem durch Folgendes zu beheben:

Identifizieren eines verdächtigen Knotens in der Vielzahl von Knoten (102; 1202, 1210), wobei der verdächtige Knoten ein Knoten in der Vielzahl von Knoten ist, der als Ergebnis eines Fehlers in dem verteilten Datenbanksystem nicht mehr mit dem ersten Knoten verbunden ist;

Senden (104; 1230) einer ersten Liste verdächtiger Knoten an Nachbarknoten in der Vielzahl von Knoten, wobei die erste Liste verdächtiger Knoten den verdächtigen Knoten enthält, wobei die Nachbarknoten Knoten in der Vielzahl von Knoten sind, die nach dem Ausfall direkt mit dem ersten Knoten verbunden bleiben;

Empfangen (1234) einer zweiten Liste verdächtiger Knoten von mindestens einem der Nachbarknoten;

Bestimmen (106; 1240) von Konnektivitätsinformationen für die Vielzahl von Knoten, basierend mindestens teilweise auf der ersten Liste verdächtiger Knoten und der zweiten Liste verdächtiger Knoten;

Bestimmen (110; 1260), ob der erste Knoten in einer gewinnenden vollständig verbundenen Komponente (204'; 304'; 404'; 704'; 904') der verteilten Datenbank ist, basierend auf den Konnektivitätsinformationen, wobei die gewinnende vollständig verbundene Komponente mehr als die Hälfte der Knoten in der Vielzahl von Knoten enthält und jeder Knoten in dem Knoten der gewinnenden vollständig verbundenen Komponente direkt mit jedem anderen Knoten in dem Knoten der gewinnenden vollständig verbundenen Komponente verbunden ist;

als Reaktion auf das Bestimmen, dass der erste Knoten in der gewinnenden vollständig verbundenen Komponente der Vielzahl von Knoten ist, Weiterbetreiben (114; 1201) des ersten Knotens; und

als Reaktion auf das Bestimmen, dass der erste Knoten nicht in der gewinnenden vollständig verbundenen Komponente der Vielzahl von Knoten ist, Ausfallenlassen (112; 1299) des ersten Knotens, um den Ausfall zu beheben.