EP4298521A1

EP4298521A1 - Vorhersagen eines bevorstehenden auftretens einer funktionsstörung anhand einer log-daten analyse

Info

Publication number: EP4298521A1
Application number: EP22711907.0A
Authority: EP
Inventors: Andreas Wilke; Ilya Komarov; Manfred Paeschke; Julia BAUR
Original assignee: Bundesdruckerei GmbH
Current assignee: Bundesdruckerei GmbH
Priority date: 2021-02-26
Filing date: 2022-02-22
Publication date: 2024-01-03
Also published as: WO2022179996A1; DE102021104735A1

Abstract

Die Erfindung betrifft ein Verfahren zum Analysieren von Log-Daten (122, 152, 182, 196) eines Computersystems (100). Das Verfahren umfasst ein Protokollieren von Log-Daten (122, 152, 182, 196), auf ein Auftreten einer Funktionsstörung (110) hin, ein Extrahieren der innerhalb eines der Funktionsstörung (110) vorangehenden Zeitintervalls (Δt) protokollierten Log-Daten (122, 152, 182, 196), ein Bestimmen einer charakteristischen Merkmalskombination (112), welche ein oder mehreren charakteristischen Merkmalen der extrahierten Kombination von Log-Daten (122, 152, 182, 196) umfasst, unter Verwendung einer statistischen Analyse, ein Speichern einer Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110), und ein Überwachen der protokollierten Log-Daten (122, 152, 182, 196), wobei das Überwachen auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196) hin, welche die gespeicherte charakteristische Merkmalskombination (112) aufweist, ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.

Description

VORHERSAGEN EINES BEVORSTEHENDEN AUFTRETENS EINER FUNKTIONSSTÖRUNG ANHAND EINER LOG-DATEN ANALYSE

Die Erfindung betrifft ein Verfahren zum Analysieren von Log-Daten, ein Computersystem zum Analysieren von Log-Daten sowie ein verteiltes Computersystem, welches ein entspre chendes Computersystem zum Analysieren von Log-Daten als Server umfasst.

Im Zuge der zunehmenden Digitalisierung, Automatisierung und Vernetzung in allen Le bens- und Arbeitsbereichen werden hierfür Verwendeten Datenverarbeitungssystem im mer komplexe und die zu verarbeiteten Datenmengen immer größer. Dies führt dazu, dass die entsprechend Systeme fehleranfälliger werden. Funktionsstörungen, welche die Leis tung der Systeme negativ beeinflussen, können einem Zusammenspiel unterschiedlicher Einflussfaktoren unterliegen und sind insbesondere bei lediglich sporadischem Auftreten nur schwer nachzustellen. Mithin kann sich die Fehlerdiagnose und folglich die

Fehlerbehebung schwierig gestalten. Dennoch können die entsprechenden Fehler aber weitreichende Folgen für das System haben, wenn sie auftreten.

Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zur Vorhersage und Vermeidung von Funktionsstörungen zu schaffen.

Die der Erfindung zugrunde liegende Aufgabe wird jeweils mit den Merkmalen der unab hängigen Patentansprüche gelöst. Ausführungsformen der Erfindung sind in den abhängi gen Patentansprüchen angegeben.

Ausführungsformen umfassen ein Verfahren zum Analysieren von Log-Daten eines Compu tersystems. Das Verfahren umfasst:

• Protokollieren von Log-Daten, wobei das Protokollieren der Log-Daten ein Speichern von Log-Daten in einer Datenbank umfasst, wobei die Log-Daten jeweils mit einem Zeitstempel gespeichert werden,

• auf ein Auftreten einer Funktionsstörung hin, Extrahieren der innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls protokollierten Log-Daten,

• Bestimmen einer charakteristischen Merkmalskombination, welche ein oder meh rere charakteristische Merkmale der extrahierten Kombination von Log-Daten um fasst, unter Verwendung einer statistischen Analyse,

• Speichern einer Zuordnung der bestimmten charakteristischen Merkmalskombina tion zu der Funktionsstörung,

• Überwachen der protokollierten Log-Daten, wobei das Überwachen auf ein Proto kollieren einer Kombination von Log-Daten hin, welche die gespeicherte charakteris tische Merkmalskombination aufweist, ein Vorhersagen eines bevorstehenden Auf tretens der Funktionsstörung umfasst.

Ausführungsformen können den Vorteil haben, dass anhand der statistischen Analyse eine Kombination von ein oder mehreren charakteristischen Merkmalen ermittelt werden kann, welche charakteristisch für das Auftreten der Funktionsstörung ist. Mit anderen Worten kann bestimmt werden, welche Merkmale vor der Funktionsstörung auftreten, die sonst nicht auftreten und mithin eine hohe Wahrscheinlichkeit aufweisen, dass sie zu den Ursa chen der Funktionsstörung beitragen. In Zuge der statistischen Analyse werden statistische Methoden zur Analyse der Log-Daten verwendet. Beispielsweise werden zusätzlich Log-Da ten aus anderen Zeitintervallen als Referenzdaten extrahiert und statistisch auffällige bzw. signifikante Unterschiede zwischen den in zeitlichem Zusammenhang mit der Funktionsstö rung stehenden Log-Daten und den Referenzdaten bestimmt. Beispielsweise hierbei eine Außreisererkennung (engl. „Outlier Detection") verwendet, um eine Merkmalskombination zu finden, welche von den Referenzdaten abweicht. Beispielsweise werden als Referenzdaten Zeitintervalle mit Log-Daten ausgewählt, welche eine Ähnlichkeit zu den in zeitlichem Zusammenhang mit der Funktionsstörung stehenden Log-Daten aufweisen, wel che aber in keinem direkten zeitlichen Zusammenhang mit einer Funktionsstörung stehen. Log-Daten stehen in keinem direkten zeitlichen Zusammenhang mit einer Funktionsstö rung, falls während des Zeitintervalls, in welchem die entsprechenden Log-Daten protokol liert wurden, sowie innerhalb eines weiteren vordefinierten Zeitintervalls im Anschluss da ran keine Funktionsstörung aufgetreten ist. Zur Auswahl ähnlicher Log-Daten kann bei spielsweise eine Mustererkennung verwendet werden.

Nach Ausführungsformen werden für die statistische Analyse wird eine Mehrzahl von Funk tionsstörungen herangezogen. Bei den herangezogenen Funktionsstörungen handelt es sich beispielsweise um identische oder ähnliche Funktionsstörungen. Für jede der Funktionsstö rungen werden jeweils Log-Daten extrahiert, welche innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls protokollierte wurden. Somit wird eine Mehrzahl von Datens ätzen mit Log-Daten bereitgestellt, auf welche eine Mustererkennung angewendet werden kann. Hierbei werden beispielsweise Übereinstimmungen zwischen den Datensätzen mit Log-Daten bestimmt. Für die Bestimmung der charakteristischen Merkmalskombination werden beispielsweise Übereinstimmungen berücksichtigt, welche sich nicht oder nur sel ten Referenzdatensätzen finden, welche in keinem direkten zeitlichen Zusammenhang mit einer Funktionsstörung stehen.

Log-Daten oder auch Protokolldaten bezeichnen automatisch protokollierte Daten aller oder bestimmter Aktionen von Prozessen auf einem Computersystem. So werden beispiels weise alle Aktionen protokolliert, welche für eine spätere Analyse erforderlich sind oder sein könnten. Beispielsweise umfassen die entsprechenden Log-Daten neben der protokol lierten Aktion einen Zeitstempel mit Datum und Uhrzeit der entsprechenden Aktion. Bei der Log-Datenanalyse werden die Log-Daten eines Computersystems eines gewissen Zeit raumes nach bestimmten Kriterien untersucht.

Die Log-Daten protokollieren beispielsweise Fehler, Warnungen und Infos. Bei Fehlern (engl. „Errors") handelt es sich um Laufzeitfehler, welcher die Funktion einer Anwendung behindert, oder um unerwarteter Programmfehler. Schwerwiegende Fehler, welche zu eine zur Terminierung einer Anwendung führt werden auch als „Fatals" bezeichnet. Warnungen (engl. „Warnings") umfassen beispielsweise Aufrufe veralteter Schnittstellen, fehlerhafte Aufrufe von Schnittstellen, Benutzerfehler oder ungünstige Programmzustände. Infos um fassen beispielsweise Laufzeitinformationen wie den Start und Stopp einer Anwendung, Be nutzeranmeldungen und -abmeldungen oder Datenübertragungen. Beispielsweise handelt es sich bei der charakteristischen Merkmalskombination um ein cha rakteristisches Datenmuster, etwa eine charakteristische Abfolge bestimmter Log-Daten.

Die charakteristische Merkmalskombination wird der Funktionsstörung zugeordnet und zur weiteren Überwachen der protokollierten Log-Daten verwendet. Im Zuge der Überwachung der Log-Daten werden nachfolgend protokollierte Log-Daten daraufhin überprüft, ob in die sen die charakteristische Merkmalskombination, etwa in Form einer charakteristischen Ab folge bestimmter Log-Daten, auftritt. Wird ein Auftreten der charakteristische Merkmals kombination erfasst, kann dies als Trigger zur Vorhersage eines bevorstehenden Auftretens der Funktionsstörung verwendet werden.

Nach Ausführungsformen kann ein Auftreten eines charakteristischen Teils der Merkmals kombination als Trigger zur Vorhersage bevorstehenden Auftretens der Funktionsstörung verwendet werden. Beispielsweise kann bei einer charakteristischen Abfolge bestimmter Log-Daten der Anfang der Abfolge als Trigger verwendet werden, um das eines bevorste henden Auftretens der Funktionsstörung möglichst früh Vorhersagen zu können.

Beispielsweise wird das der Funktionsstörung vorangehende Zeitintervall, dessen protokol lierten Log-Daten zum Bestimmen der charakteristische Merkmalskombination verwendet wird, variiert. Beispielsweise wird zunächst ein Zeitintervall, welches der Funktionsstörung unmittelbar vorangeht herangezogen. Dieser Zeitintervall kann dann beispielsweise verlän gert oder verkürzt werden und/oder von der Funktionsstörung in der Zeit zurückverscho ben werden, bis eine charakteristische Merkmalskombination gefunden ist, welche einen ausreichenden Unterschied, etwa eine ausreichende statistisch Signifikanz, aufweist.

Ausführungsformen können den Vorteil haben, dass sie ein effektives Vorhersagen eines Auftretens von Funktionsstörungen ermöglichen.

Unter einer Funktionsstörung wird hier eine Störung des bestimmungsgemäßen Betriebes eines Computersystems verstanden. Bestimmungsgemäßer Betrieb ist der Betrieb, für wel chen das Computersystem technisch ausgelegt und welchen es unter normal Bedingungen erreicht. Betriebsparameter, welche den bestimmungsgemäßen Betrieb bzw. Regelbetrieb des Computersystems beschreiben umfassen beispielsweise Leistungsparameter, wie etwa Instruktionen pro Zyklus, Instruktionen pro Sekunde, Geleitkommaoperationen pro Se kunde, Datenübertragungsrate, Datendurchsatz, Antwortzeit, Antwortrate, Bilder pro Se kunde, Prozessortakt, Latenzzeit oder Zugriffszeit. Ferner umfassen die Betriebsparameter zur Verfügung stehende Software und Hardware sowie physikalische Zustandsparameter, wie etwa Temperaturen von Komponenten. Funktionsstörung können je nach Komplexität des Systems sehr unterschiedliche Formen annehmen und umfassen beispielsweise Fehlfunktion, wie etwa Software- oder Hardwarefehler, ebenso wie Abweichungen von den bestimmungsgemäßen Betriebsparametern.

Nach Ausführungsformen handelt es sich bei der Funktionsstörung um ein Fehlerereignis. Nach Ausführungsformen handelt es sich bei der Funktionsstörung um ein Überschreiten oder Unterschreiten eines vordefinierten Schwellenwerts. Beispielsweise definiert der vor definierte Schwellenwert einen Mindestwert für einen Leitungsparameter, welcher im Re gelbetrieb des Computersystems mindestens erfüllt werden sollte. Beispielsweise definiert der vordefinierte Schwellenwert einen Maximalwert für eine Belastung oder Auslastung des Computersystems oder einzelner Komponenten des Computersystems, welche im Regelbe trieb des Computersystems nicht überschritten werden sollte. Beispielsweise definiert der vordefinierte Schwellenwert einen Maximalwert für Temperatur des Computersystems oder einzelner Komponenten des Computersystems, welche im Regelbetrieb des Compu tersystems nicht überschritten werden sollte.

Nach Ausführungsformen führt das Computersystem selbst die Log-Datenanalyse durch. Nach Ausführungsformen überwacht das Computersystem selbst die Log-Daten. Nach Aus führungsformen handelt es sich bei der Datenbank um eine Datenbank des Computersys tems. Ausführungsformen können den Vorteil haben, dass das Computersystem die Log- Daten selbst protokolliert, analysiert und unter Verwendung der Analyseergebnisse eine Log-Datenüberwachung ausführt.

Nach Ausführungsformen führt ein Analysecomputersystem, d.h. ein weiteres Computer system, die Log-Datenanalyse durch. Dies kann beispielsweise der Fall sein, falls es sich bei dem Computersystem um einen Server eines verteilten Computersystems handelt, welches eine Mehrzahl von Servern umfasst. Beispielsweise führt einer der Server als Analysecom putersystem die Log-Datenanalyse für ein, mehrere und/oder alle Einzelcomputersysteme bzw. Server des verteilten Computersystems durch. Nach Ausführungsformen handelt es sich bei der Datenbank um eine Datenbank des Computersystems. Das Protokollieren der Log-Daten in der Datenbank kann beispielsweise lokal auf den einzelnen Servern durch die entsprechenden Server erfolgen, wobei das Analysecomputersystem Zugriff auf die lokal gespeicherten Daten besitzt. Das Protokollieren der Log-Daten kann in einer oder mehreren zentralen Datenbanken erfolgen, auf welche sowohl das oder die protokollierenden Com putersysteme bzw. Server als auch das Analysecomputersystem Zugriff besitzen. Nach Aus führungsformen handelt es sich bei der Datenbank um eine Datenbank des Analysecompu tersystems.

Nach Ausführungsformen überwacht das Computersystem selbst die Log-Daten. Hierzu sendet beispielsweise das Analysecomputersystem die Zuordnung an das Computersystem. Ausführungsformen können den Vorteil haben, dass die Überwachung lokal erfolgen kann. Dies kann beispielsweise eine zeitnahe Lokale Vorhersage der bevorstehenden Funktions störung ermöglich. Gegebenenfalls können so auch zeitnahe lokale Gegenmaßnahmen ein geleitete werden, um die Funktionsstörung zu verhindern, abzuschwächen und/oder nach teilige Folgen Funktionsstörung zu verhindern oder abzuschwächen.

Die Überwachung der Log-Daten kann ebenfalls durch das Analysecomputersystem oder jeweils eigenständig durch die einzelnen Server erfolgen. Hierzu benötigt das die Analyse ausführende Computersystem Zugriff auf die zu analysierenden Log-Daten. Dieser Zugriff kann beispielsweise einen Zugriff auf die Datenbank umfassen, in welcher die Log-Daten gespeichert sind. Beispielsweise sendet das Computersystem die extrahierten Log-Daten und/oder weitere protokollierte Log-Daten zur Log-Datenanalyse an das Analysecomputer system. Nach Ausführungsformen überwacht das Analysecomputersystem die Log-Daten des Computersystems. Hierzu sendet beispielsweise das Computersystem die Log-Daten beispielsweise an das Analysecomputersystem. Hierzu benötigt das die Überwachung aus führende Computersystem Zugriff auf die zu überwachenden Log-Daten. Dieser Zugriff kann beispielsweise einen Zugriff auf die Datenbank umfassen, in welcher die Log-Daten im Zuge des Protokollierens gespeichert werden. Beispielsweise werden die zu überwachen den Log-Daten an das Analysecomputersystem gesendet.

Ausführungsformen können den Vorteil haben, dass ein spezifisch hierfür konfiguriertes Analysecomputersystem zum Ausführen der Log-Datenanalyse verwendet werden kann. In einem verteilten Computersystem, welches eine Mehrzahl von Einzelcomputersystemen, wie etwa Server umfasst, kann beispielsweise einer der Server als Analysecomputersystem eine Log-Datenanalyse für das verteilte Computersystem ausführen. Dabei kann das Analy secomputersystem zur Log-Datenanalyse Log-Daten von mehreren oder allen Servern des Systems verwendet. Dies kann beispielsweise den Vorteil haben, dass eine statistische Ana lyse über eine Mehrzahl von Servern hinweg ermöglicht wird. Ferner können bei der Über wachung charakteristische Merkmalskombination über mehrere Server hinweg berücksich tigt und zur Vorhersage einer bevorstehenden Funktionsstörung verwendet werden.

Nach Ausführungsformen umfasst die charakteristischen Merkmalskombination charakte ristischen Merkmalen aus extrahierten Kombinationen von Log-Daten mehrerer Computer systeme, wie etwa Servern. Eine solche charakteristische Merkmalskombination kann bei spielsweise Ergebnis einer statistischen Analyse über Log-Daten einer Mehrzahl von Ser vern hinweg sein. Somit können beispielsweise Korrelationen zwischen den Log-Daten der mehrerer Server bestimmt und in Form der charakteristischen Merkmalskombination zur Vorhersage bevorstehenden Funktionsstörungen verwendet werden. Entsprechende Korre lationen können beispielsweise auf kausalen Zusammenhängen zwischen Ereignissen beruhen, welche auf verschiedenen Servern auftreten. Entsprechende Korrelationen kön nen beispielsweise auf einem kausalen Zusammenhang der Funktionsstörung und Ereignis sen beruhen, welche auf verschiedenen Servern auftreten. Beispielsweise beruht die Funk tionsstörung auf einem Zusammenwirken der entsprechenden Ereignisse. Beispielsweise handelt es sich bei der charakteristischen Merkmalskombination um ein charakteristisches Datenmuster über mehrere Server hinweg, etwa eine charakteristische Abfolge bestimmter Log-Daten, welche auf verschiedenen Servern erfasst werden.

Nach Ausführungsformen umfasst die statistische Analyse ein Bestimmen ein oder mehre rer statistischer Kenngrößen. Beispielsweise umfassen die statistischen Kenngrößen einen Mittelwert, eine Varianz, eine Standardabweichung, eine Korrelation bzw. ein Zusammen hangmaß und oder eine Häufigkeit, etwa eine absolute oder relative Häufigkeit. Beispiels weise kann als Mittelwert, welcher Kennwert für die zentrale Tendenz einer Verteilung dar stellt, das arithmetische, das geometrische und das quadratische Mittel berechnet werden. Die Varianz bzw. deren Quadratwurzel die Standardabweichung ist ein Maß für die Streu ung einer Verteilung bzw. einer Wahrscheinlichkeitsdichte um ihren Schwerpunkt. Eine Kor relation bzw. ein Zusammenhangmaß, wie etwa die Kovarianz, stellt ein Maß für die Stärke und gegebenenfalls die Richtung eines Zusammenhangs zweier statistischer Variablen be reit.

Nach Ausführungsformen wird auf die Vorhersage der bevorstehenden Funktionsstörung hin ein Warnhinweis ausgegeben. Der Warnhinweis kann beispielsweise an dem Computer system ausgegeben werden, welches die Log-Datenanalyse ausführt, an dem Computersys tem, an welchem die Funktionsstörung bevorsteht, und/oder an mehreren oder allen Ein zelcomputersystemen eines verteilten Computersystems. Beispielsweise wird der Warnhin weis von dem Computersystem erstellt, welches die Log-Datenanalyse ausführt, und zum Ausgeben an ein oder mehrere weitere Computersysteme gesendet. Die Ausgabe kann bei spielsweise visuell oder akustisch über eine Ausgabevorrichtung einer Benutzerschnittstel len erfolgen. Beispielsweise wird das Warnsignal visuell, etwa auf einem Display, oder akus tisch, etwa über einen Lautsprecher, ausgegeben. Ausführungsformen können den Vorteil haben, dass Nutzer über die bevorstehende Funktionsstörung informiert werden. Es kann mithin verhindert werden, dass sie Nutzer von dem Auftreten der Funktionsstörung über rascht werden. Sie können vielmehr in die Lage versetzt werden, Maßnahmen zu ergreifen, die Funktionsstörung zu verhindern und/oder abzuschwächen. Die Nutzer können sich auf die Funktionsstörung und deren Folgen gegebenenfalls einstellen.

Nach Ausführungsformen werden auf das Auftreten der Funktionsstörung auszuführende Gegenmaßnahmen zur Vermeidung der Funktionsstörung festgelegt. Eine Zuordnung der bestimmten charakteristischen Merkmalskombination zu den Gegenmaßnahmen wird zusammen mit der Zuordnung der bestimmten charakteristischen Merkmalskombination zu der Funktionsstörung gespeichert. Auf die Vorhersage der bevorstehenden Funktionsstö rung hin, werden die Gegenmaßnahmen automatisch ausgeführt. Ausführungsformen kön nen den Vorteil haben, dass automatisch auszuführende Gegenmaßnahmen hinterlegt wer den können. Somit kann eine automatisierte Störungskompensation oder Störungsbehe bung bzw. Fehlerkompensation oder Fehlerkorrektur implementiert werden. Beispielsweise können Datenströme umgelenkt, Anweisungen umgelenkt oder deren Ausführung verzö gert werden. Beispielsweise können zusätzliche Kapazitäten zugeschaltet und/oder Pro zesse ausgelagert werden. Beispielsweise kann ein Ausführen von Anweisungen blockiert werden. Beispielsweise kann ein Ausführen bestimmter Anweisungen priorisiert werden, während ein Ausführen anderer Anweisungen zurückgestellt werden kann.

Nach Ausführungsformen erfolgt die Speicherung der Zuordnung der auszuführenden Ge genmaßnahmen beispielsweis durch das Computersystem. Ausführungsformen können den Vorteil haben, dass die auszuführenden Gegenmaßnahmen lokal hinterlegt werden und so mit im Bedarfsfall lokal zur sofortigen Ausführung bereitstehen. Nach Ausführungsformen erfolgt die Speicherung der Zuordnung der auszuführenden Gegenmaßnahmen beispiels weis durch das Analysecomputersystem. Das Analysecomputersystem sendet die auszufüh renden Gegenmaßnahmen beispielsweise an diejenigen Computersysteme, welche die ent sprechenden auszuführenden Gegenmaßnahmen ausführen sollen. Ausführungsformen können insbesondere im Falle eines verteilten Computersystems mit einer Mehrzahl von Servern von Vorteil sein, da das Analysecomputersystem beispielsweise serverindividuelle Gegenmaßnahmen unter Verwendung der hinterlegten Gegenmaßnahmen bestimmen und ein oder mehreren der Server zum Ausführen zusenden kann. Beispielsweise umfassen die hinterlegten Gegenmaßnahmen Angaben dazu, welche Server welche Gegenmaßnahmen auszuführen hat bzw. geben Kriterien an, anhand derer bestimmt werden kann, welcher Server welche der Gegenmaßnahmen auszuführen hat. Bei einer Funktionsstörung im Zuge von Datenübertragungen zwischen zwei oder mehr Servern können beispielsweise Gegen maßnahmen für sendende und/oder für empfangende Server hinterlegt sein, wobei ange geben sein kann, welche der Gegenmaßnahmen von senden Servern und welche Gegen maßnahmen von empfangenden Servern auszuführen sind.

Nach Ausführungsformen sind die auszuführenden Gegenmaßnahmen der Funktionsstö rung zugeordnet, über welches sie indirekt der bestimmten charakteristischen Merkmals kombination zugeordnet sind. Ausführungsformen können den Vorteil haben, dass bei spielsweise unterschiedliche charakteristische Merkmalskombinationen zu derselben Funk tionsstörung führen können. Die Funktionsstörung kann aber beispielsweise in jedem die ser Fälle dieselben Gegenmaßnahmen erforderlich machen. Beispielsweise können anhand der bevorstehenden Funktionsstörung die auszuführenden Gegenmaßnahmen identifiziert werden.

Nach Ausführungsformen sind die auszuführenden Gegenmaßnahmen der bestimmten charakteristischen Merkmalskombination direkt zugeordnet. Beispielsweise können unter schiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung füh ren. Die Funktionsstörung kann beispielsweise in verschiedenen Fällen unterschiedliche Ur sachen haben, welche aber jeweils durch eine unterschiedliche Merkmalskombination cha rakterisiert sind. Unterschiedliche Ursachen können beispielsweise unterschiedlichen Ge genmaßnahmen erforderlich machen, obwohl die unterschiedlichen Ursachen ohne die Ge genmaßnahmen jeweils in derselben Funktionsstörung resultieren. Ausführungsformen können den Vorteil haben, dass anhand der bestimmten charakteristischen Merkmalskom bination die auszuführenden Gegenmaßnahmen identifiziert werden können. Dabei können für unterschiedliche charakteristische Merkmalskombination unterschiedliche auszuführen den Gegenmaßnahmen identifiziert werden, obwohl den unterschiedlichen charakteristi sche Merkmalskombination dieselbe Funktionsstörung zugeordnet ist.

Nach Ausführungsformen umfassen die auszuführenden Gegenmaßnahmen auszuführende Programminstruktionen. Nach Ausführungsformen umfassen die auszuführenden Gegen maßnahmen durch das Computersystem auszuführende Programminstruktionen. Im Falle eines verteilten Computersystems umfassen die auszuführenden Gegenmaßnahmen bei spielsweise durch ein oder mehrere weitere Computersysteme bzw. Server des verteilten Computersystems auszuführende Programminstruktionen. Ausführungsformen können den Vorteil haben, dass das zum automatischen Ausführen der Gegenmaßnahmen beispiels weise die hinterlegten Programminstruktionen aufgerufen und ausgeführt werden. Diese Programminstruktionen können Programmroutinen zur automatisierten Störungskompen sation oder Störungsbehebung bzw. Fehlerkompensation oder Fehlerkorrektur bereitstel len. Beispielsweise werden im Zuge des Ausführens der entsprechenden Programmrouti nen Fehlerquelle beseitigt und/oder abhängige Prozesse gestoppt.

Nach Ausführungsformen wird den Merkmalen der charakteristischen Merkmalskombina tion jeweils ein erster Toleranzbereich zugeordnet. Eine protokollierte Kombination von Log-Daten weist die gespeicherte charakteristische Merkmalskombination auf, falls sie die Merkmale gemäß der charakteristischen Merkmalskombination aufweist und diese Merk male jeweils innerhalb der zugeordneten ersten Toleranzbereiche liegen. Ausführungsfor men können den Vorteil haben, dass auch mögliche Abweichungen bzw. Schwankungen der innerhalb der charakteristischen Merkmalskombination berücksichtigt werden können, welche dennoch zu derselben Funktionsstörung führen. Nach Ausführungsformen wird den Merkmalen der charakteristischen Merkmalskombina tion jeweils ein zweiter Toleranzbereich zugeordnet. Es wird angenommen, dass eine proto kollierte Kombination von Log-Daten die gespeicherte charakteristische Merkmalskombina tion aufweist, falls sie eine vorbestimmte Mindestanzahl von Merkmalen der charakteristi schen Merkmalskombination aufweist und diese Merkmale jeweils innerhalb der zugeord neten zweiten Toleranzbereiche liegen. Ausführungsformen können den Vorteil haben, dass im Zuge einer Überwachung der protokollierten Log-Daten auch für den Fall ein bevor stehendes Auftreten der Funktionsstörung vorhergesagt werden kann, dass die protokol lierten Log-Daten nicht alle Merkmale der charakteristische Merkmalskombination aufwei sen, d.h. das Abweichungen bzw. Schwankungen in den Merkmalen selbst vorliegen.

Nach Ausführungsformen ist für dasselbe Merkmal der erste Toleranzbereich jeweils iden tisch mit dem zweiten Toleranzbereich.

Nach Ausführungsformen sind für ein oder mehrere Merkmale die ersten Toleranzbereiche jeweils größer als die zweiten Toleranzbereiche. Nach Ausführungsformen ist für dasselbe Merkmal der erste Toleranzbereich jeweils größer als der zweite Toleranzbereich. Ausfüh rungsformen können den Vorteil haben, dass im Falle eines Erfassens weniger charakteristi schen Merkmale bzw. Indikatoren in den protokollierten Log-Daten strengere Anforderun gen dafür vorgegeben werden, dass eine positive Vorhersage erfolgt, dass eine Funktions störung bevorsteht, als im Falle einer größeren Anzahl von Merkmalen bzw. Indikatoren für das bevorstehende Auftreten der Funktionsstörung. Merkmale bzw. Indikatoren für das be vorstehende Auftreten der Funktionsstörung erfasst, können für diese die Toleranzbereiche beispielsweise größere gewählt werde. Mit anderen Worten kann beispielsweise bei einer ausreichend großen Anzahl an Merkmalen bzw. Indikatoren ein Bevorstehen der Störfunk tion angenommen werden, auch wenn einzelne der Merkmale bzw. Indikatoren stärker ab weichen als andere.

Nach Ausführungsformen umfasst das Speichern der Log-Daten ein Normalisieren der Log- Daten. Nach Ausführungsformen erfüllt das Normalisieren die sechste Normalform erfüllt. Ausführungsformen können den Vorteil haben, dass Redundanzen vermieden werden kön nen. Ausführungsformen können den Vorteil haben, dass eine zeitliche Einordnung der Log- Daten berücksichtigt wird.

Nach Ausführungsformen können die Log-Daten in Form von Relationen oder äquivalenten Strukturen gespeichert sein. Unter einer Relation wird hier im Sinn der relationalen Daten banktheorie eine Menge von Tupel verstanden. Ein Tupel ist eine Menge von Attributwer ten. Ein Attribut bezeichnet einen Datentyp bzw. eine ein oder mehreren Daten zugeordnete Eigenschaft. Dabei bestimmt die Anzahl der Attribute den Grad, die Anzahl der Tupel die Kardinalität einer Relation.

Unter einer Normalisierung, insbesondere unter einer Normalisierung eines relationales Datenmodells, wird eine Aufteilung von Attributen in eine Mehrzahl von Relationen gemäß einer Normalisierungsregeln verstanden, sodass Redundanzen reduziert bzw. minimiert werden. Ein relationales Datenmodell lässt sich beispielsweise in tabellenartigen Daten strukturen implementieren, in denen die Relationen in Form von Tabellen, die Attribute in Form von Tabellenspalten und die Tupel in Form von Tabellenzeilen realisiert sind.

Datenredundanzen haben die Gefahr, dass es bei Änderungen von Daten, welche mehrfach umfasst sind, zu Inkonsistenzen kommen kann und Anomalien auftreten. Ferner steigt durch Redundanzen unnötiger Weise der Speicherplatzbedarf. Durch eine Normalisierung können solche Redundanzen verringert bzw. minimiert werden. Ein relationales Datenmo dell kann beispielsweise in eine Normalform gebracht werden, indem die Relationen des Datenschemas fortschreitend anhand der für die entsprechende Normalform geltenden funktionalen Abhängigkeiten in einfachere Relationen zerlegt.

Es können beispielsweise folgende Normalformen unterschieden werden: 1. Normalform (INF), 2. Normalform (2NF), S. Normalform (SNF), Boyce-Codd-Normalform (BCNF), 4. Nor malform (4NF), 5. Normalform (5NF), 6. Normalform (6NF).

Die Normalisierungskriterien nehmen dabei von Normalform zu Normalform zu und umfas sen jeweils die Normalisierungskriterien der vorhergehenden Normalformen, d.h.

INF c 2NF C BNF C ßCNF C 4NF C 5NF C 6NF.

Eine Relation ist in der ersten Normalform, falls jedes Attribut der Relation einen atomaren Wertebereich besitzt und die Relation frei von Wiederholungsgruppen ist. Unter atomar wird hier ein Ausschluss von zusammengesetzten, mengenwertigen oder geschachtelten Wertebereichen für die Attribute, d.h. relationenwertigen Attributwertebereichen, verstan den. Eine Freiheit von Wiederholungsgruppen erfordert es, dass Attribute, die gleiche bzw. gleichartige Information enthalten, in unterschiedliche Relationen ausgelagert werden.

Eine Relation ist in der zweiten Normalform, wenn sie die Anforderungen der ersten Nor malform erfüllt und kein Nichtprimärattribut funktional von einer echten Teilmenge eines Schlüsselkandidaten abhängt. Ein Nichtprimärattribut ist ein Attribut, welches nicht Teil ei nes Schlüsselkandidaten ist. Das bedeutet, dass jedes Nichtprimärattribut jeweils von allen ganzen Schlüsseln abhängig und nicht nur von einem Teil eines Schlüssels. Relationen in der ersten Normalform, deren Schlüsselkandidaten nicht zusammengesetzt sind, sondern aus jeweils einem einzelnen Attribut bestehen, erfüllen mithin automatisch die zweite Normal form. Unter einem Schlüsselkandidaten wird hierbei eine minimale Menge von Attributen verstanden, welche die Tupel einer Relation eindeutig identifiziert.

Eine Relation ist in der dritten Normalform, wenn sie die Anforderungen der zweiten Nor malform erfüllt und kein Nichtschlüsselattribut von einem Schlüsselkandidaten transitiv ab hängt. Ein Attribut ist von einem Schlüsselkandidaten transitiv abhängig, wenn das entspre chende Attribut von dem entsprechenden Schlüsselkandidaten über ein weiteres Attribut abhängig ist.

Eine Relation ist in der Boyce-Codd-Normalform, wenn sie die Anforderungen der dritten Normalform erfüllt und jede Determinante ein Superschlüssel ist. Unter einer Determinante wird hier eine Attributmenge verstanden, von welcher andere Attribute funktional abhän- gen sind. Eine Determinante beschreibt somit die Abhängigkeit zwischen Attributen einer Relation und legt fest, welche Attributmengen den Wert der übrigen Attribute bestimmen. Ein Superschlüssel ist eine Menge von Attributen in einer Relation, welche die Tupel in die ser Relation eindeutig identifizieren. Mithin umfassen die Attribute dieser Menge bei paar weise ausgewählten Tupeln immer unterschiedliche Werte. Schlüsselkandidat ist mithin eine minimale Teilmenge der Attribute eines Superschlüssels, welche die Identifizierung der Tupel ermöglicht.

Eine Relation ist in der vierten Normalform, wenn sie die Anforderungen der Boyce-Codd- Normalform erfüllt und keine nichttrivialen mehrwertigen Abhängigkeiten umfasst.

Eine Relation ist in der fünften Normalform, wenn sie die Anforderungen der vierten Nor malform erfüllt und keine mehrwertigen Abhängigkeiten umfasst, die voneinander abhän gig sind. Die fünfte Normalform liegt somit vor, falls jeder nichttriviale Verbund-Abhängig keit durch die Schlüsselkandidaten impliziert ist. Eine Verbund-Abhängigkeit ist durch die Schlüsselkandidaten der Ausgangsrelation impliziert, wenn jede Relation der Menge von Relationen ein Superschlüssel der Ausgangsrelation ist.

Eine Relation ist in der sechsten Normalform, wenn sie die Anforderungen der fünften Nor malform erfüllt und keine nichttrivialen Verbund-Abhängigkeiten umfasst.

Eine Relation genügt einer Verbund-Abhängigkeit (join dependency) von einer Mehrzahl von Relationen, falls sich die Relation als Ausgangsrelation verlustlos in die entsprechende Menge von Relationen zerlegen lässt. Die Verbund-Abhängigkeit ist trivial, falls eine der Re lationen der Menge von Relationen alle Attribute der Ausgangsrelation aufweist. Nach Ausführungsformen handelt es sich bei der Datenbank um eine Multi-Modell Daten bank mit einem Multi-Modell-Datenbankmanagementsystem, welches zum Speichern der Log-Daten eine Mehrzahl von Datenmodellen verwendet. Beispielsweise werden die Log- Daten in einem ersten dokumentenorientierten Datenmodellen gespeichert. Ein dokumen- tenorientiertes Datenmodell bedeutet, dass das Datenmodell keine strukturellen Vorgaben an die zu speichernden Daten stellt. Vielmehr werden die Daten in Dokumenten bzw. Da tencontainern in der Form gespeichert, in der empfangen werden. In diesem Sinne handelt es sich bei den in dem dokumentenorientierten Datenmodell gespeicherten Daten um Roh daten. Rohdaten bedeutet, dass die Daten in der Form abgespeichert werden, in der sie empfangen werden, ohne eine zusätzliche Datenverarbeitung durch das Datenbankmana gementsystem, insbesondere keine Umstrukturierung der Daten. Ausführungsformen kön nen den Vorteil haben, dass somit der gesamte Informationsgehalt der empfangenen Daten (nahezu) vollständig beibehalten werden kann, ohne dass Vorannahmen des Datenbankma nagementsystems einfließen. Somit kann jederzeit auf die ursprünglichen Datenbestände zurückgreifen und diese in bei der weiteren Verarbeitung berücksichtigen. Basierend auf diesem Datenpool an Rohdaten, welchen das dokumentenbasierte Datenmodell bereit stellt, wird die Normalisierung der Daten ausgeführt und ein Index erzeugt. Bei diesem In dex handelt es sich beispielsweise um eine inhaltsbasierte mehrstufige Indexstruktur. Die ser Index stellt ein zweites Datenmodellen dar, welches beispielsweise die sechste Normal form aufweist. So können alle Felder und Feldinhalte redundanzfrei von dem ersten Daten modell in das normalisierte zweite Datenmodell übertragen werden, welches beispiels weise die Form eines mehrdimensionalen Schlüssel/Wert-Speichers (Key/Value-Store) bzw. einer mehrdimensionalen Key-Value-Datenbanken aufweist.

Beispielsweise werden zusätzlich Transaktionszeit und Gültigkeitszeit der Datensätze bitem- poral gespeichert. Die Transaktionszeit gibt den Zeitpunkt an, zu dem eine Änderung eines Datenobjekt in der Datenbank erfolgt. Die Gültigkeitszeit gibt einen Zeitpunkt oder Zeit raum an, in dem ein Datenobjekt im modellierten Abbild der realen Welt den beschriebe nen Zustand aufweist. Sind sowohl Gültigkeits- als auch Transaktionszeit relevant, spricht man von bitemporal. Zu jedem Datensatz wird mithin nicht nur der Zustand des Datensat zes bei der letzten Transaktion bzw. Änderung ersichtlich, sondern auch dessen Historie. In diesem Fall spricht man von bitemporaler Datenbank, bei welcher sowohl Gültigkeits- als auch Transaktionszeit der Datensätze berücksichtigt werden.

Ein Schlüssel-Werte-Datenmodell ermöglicht ein Speichern, Abrufen und Verwalten von as soziativen Datenfeldern. Dabei werden Werte (Value) über einen Schlüssel (Key) eindeutig identifiziert. Ausführungsformen können den Vorteil haben, dass die Log-Daten in beiden Datenmodel len abgespeichert und für Analysen zur Verfügung gestellt werden können.

Nach Ausführungsformen handelt es sich bei dem Computersystem um einen ersten Server eines verteilten Computersystems, welches eine Mehrzahl von Servern umfasst. Auf jedem der Server werden jeweils Log-Daten protokolliert. Die protokollierten Log-Daten werden überwacht. Ausführungsformen können den Vorteil haben, dass Funktionsstörungen auf einem verteilten Computersystem vorhergesagt werden können. Die Überwachung der Log-Daten kann beispielsweise lokal auf den einzelnen Servern oder zentral erfolgen.

Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung durch den ersten Server.

Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung durch den ersten Server. Der erste Server über wacht ferner die von den Servern der Servergruppe protokollierten Log-Daten. Auf ein Pro tokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, erfolgt eine Vorhersage eines bevorstehenden Auftretens der Funktionsstörung.

Die resultierende Zuordnung wird von dem ersten Server an eine Servergruppe weitergelei tet. Die Servergruppe umfasst ein oder mehrere weitere Server der Mehrzahl von Servern. Die Server der Servergruppe speichern jeweils die weiteregeleitete Zuordnung. Das Über wachen erfolgt lokal auf den Servern der Servergruppe. Das Überwachen von Log-Daten durch die Server der Servergruppe umfasst jeweils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.

Nach Ausführungsformen umfasst die Servergruppe alle Server des Computersystems ne ben dem ersten Server.

Nach Ausführungsformen werden, auf ein Auftreten der Funktionsstörung in einem der Ser ver des verteilten Computersystems hin, von den Servern der Servergruppe jeweils inner halb des der Störfunktion vorangehenden Zeitintervalls protokollierte Log-Daten extrahiert. Das Bestimmen der charakteristischen Merkmalskombination erfolgt durch den ersten Ser ver unter Verwendung der extrahierten Kombination von Log-Daten der Servergruppe und unter Verwendung einer statistischen Analyse über die Server der Servergruppe hinweg.

Die Zuordnung der bestimmten charakteristischen Merkmalskombination zu der Funktionsstörung wird an die Server der Servergruppe weitergleitet. Die Server der Server gruppe speichern die weiteregeleitete Zuordnung jeweils. Das Überwachen von Log-Daten durch die Server der Servergruppe umfasst jeweils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.

Nach Ausführungsformen erfolgt die Log-Datenanalyse zusätzlich unter Verwendung von Log-Daten des ersten Servers.

Nach Ausführungsformen werden ferner ein oder mehrere erste Identifikatoren bestimmt, welche Merkmale ein oder mehrere Server umfassen, bei welchen die Funktionsstörung auftritt, wobei zusammen mit der Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung eine Zuordnung der bestimmten charakteristi schen Merkmalskombination zu den Identifikatoren gespeichert wird.

Ausführungsformen können den Vorteil haben, dass zusätzlich zu der charakteristischen Merkmalskombination Identifikatoren bestimmten werden können, anhand derer die Ser ver des verteilten Systems bestimmt werden können, auf denen die Funktionsstörung auf tritt. Bei den Identifikatoren kann es sich beispielsweise um Merkmale der Merkmalskombi nation handeln, anhand derer die entsprechenden Server bestimmt werden können. Bei spielsweise können anhand der Identifikatoren diejenigen Server als Server identifiziert werden, auf denen ein Auftreten der Störfunktion bevorsteht, welche ein bestimmtes Merkmal der Merkmalskombination aufweisen, d.h. auf welchen bestimmte Log-Daten pro tokolliert wurden.

Nach Ausführungsformen werden die ersten Identifikatoren der Funktionsstörung zugeord net, über welches sie indirekt der bestimmten charakteristischen Merkmalskombination zu geordnet sind. Ausführungsformen können den Vorteil haben, dass beispielsweise unter schiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung füh ren können. Die Funktionsstörung kann aber beispielsweise in jedem dieser Fälle bei ein oder mehreren Servern auftreten, welche dieselben Merkmale aufweisen bzw. durch die selben Identifikatoren identifiziert werden.

Nach Ausführungsformen werden die ersten Identifikatoren der bestimmten charakteristi schen Merkmalskombination direkt zugeordnet sind. Ausführungsformen können den Vor teil haben, dass beispielsweise unterschiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung führen können. Die Funktionsstörung kann aber beispiels weise in verschiedenen Fällen unterschiedliche Ursachen haben, welche jeweils durch eine unterschiedliche Merkmalskombination charakterisiert sind. Unterschiedliche Ursachen können beispielsweise dazu führen, dass die Funktionsstörung jeweils bei einem oder meh reren Servern auftritt, welche in Abhängigkeit von der jeweiligen Ursache unterschiedliche Merkmale aufweisen.

Nach Ausführungsformen werden auf die Vorhersage der bevorstehenden Funktionsstö rung hin unter Verwendung der Identifikatoren ein oder mehrere Server bestimmt, bei wel chen die Funktionsstörung auftritt, und jeweils ein Warnhinweis für die bestimmten Server ausgegeben wird. Beispielsweise werden die Server zentral bestimmt und die Warnhin weise werden an die entsprechenden Server zum Ausgeben gesendet.

Nach Ausführungsformen werden auf das Auftreten der Funktionsstörung auszuführende Gegenmaßnahmen zur Vermeidung der Funktionsstörung für ein oder mehrere Server fest gelegt. Ein oder mehrere zweite Identifikatoren werden bestimmt, welche Merkmale der entsprechenden Server umfassen, auf welchen die Gegenmaßnahmen auszuführen sind, wobei zusammen mit der Zuordnung der bestimmten charakteristischen Merkmalskombi nation zu der Funktionsstörung eine Zuordnung der bestimmten charakteristischen Merk malskombination zu den Gegenmaßnahmen und den zweiten Identifikatoren gespeichert wird. Auf die Vorhersage der bevorstehenden Funktionsstörung hin werden die Gegenmaß nahmen auf den durch die zweiten Identifikatoren identifizierten Servern automatisch aus geführt.

Ausführungsformen können den Vorteil haben, dass zusätzlich Identifikatoren bestimmten werden können, anhand derer die Server des verteilten Systems bestimmt werden können, auf denen die Gegenmaßnahmen gegen die Funktionsstörung auszuführen sind. Diese Ser ver, welche die Funktionsstörung zumindest teilweise verursachen bzw. zu dieser beitra gen, sind beispielsweise unterschiedlich zu den Servern auf denen die zu verhindernden Funktionsstörung bevorsteht. Beispielsweise unterscheiden sich die zweiten Identifikatoren daher von den ersten Identifikatoren. Bei den Identifikatoren kann es sich beispielsweise um Merkmale der Merkmalskombination handeln, anhand derer die entsprechenden Ser ver, auf denen die Gegenmaßnahmen auszuführen sind, bestimmt werden können. Bei spielsweise können anhand der Identifikatoren diejenigen Server identifiziert werden, wel che ein bestimmtes Merkmal der Merkmalskombination aufweisen, d.h. auf welchen be stimmte Log-Daten protokolliert wurden.

Nach Ausführungsformen werden die auszuführenden Gegenmaßnahmen und zweiten Identifikatoren der Funktionsstörung zugeordnet, über welches sie indirekt der bestimmten charakteristischen Merkmalskombination zugeordnet sind. Ausführungsformen können den Vorteil haben, dass beispielsweise unterschiedliche charakteristische Merkmalskombinationen zu derselben Funktionsstörung führen können. Die Funktionsstö rung kann aber beispielsweise in jedem dieser Fälle bei ein oder mehreren Servern auftre- ten, welche dieselben Merkmale aufweisen.

Nach Ausführungsformen werden die auszuführenden Gegenmaßnahmen und Identifi kato- ren der bestimmten charakteristischen Merkmalskombination direkt zugeordnet. Ausfüh rungsformen können den Vorteil haben, dass beispielsweise unterschiedliche charakteristi sche Merkmalskombinationen zu derselben Funktionsstörung führen können. Die Funkti onsstörung kann aber beispielsweise in verschiedenen Fällen unterschiedliche Ursachen ha ben, welche jeweils durch eine unterschiedliche Merkmalskombination charakterisiert sind. Unterschiedliche Ursachen können beispielsweise dazu führen, dass die Funktionsstörung jeweils bei einem oder mehreren Servern auftritt, welche in Abhängigkeit von der jeweili gen Ursache unterschiedliche Merkmale aufweisen.

Nach Ausführungsformen sind Gegenmaßnahmen auf den Servern auszuführen, auf denen die Funktionsstörung auftritt, weshalb die zweiten Identifikatoren identisch mit den ersten Identifikatoren sind. Nach Ausführungsformen sind Gegenmaßnahmen auf Servern auszu führen, auf denen keine Funktionsstörung auftritt, sondern welche die Funktionsstörung verursachen bzw. zu dieser beitragen. In diesem Fall unterscheiden sich die zweiten Identi fikatoren beispielsweise von den ersten Identifikatoren.

Ausführungsformen umfassen ferner ein Computersystem mit einem Prozessor und einem Speicher, wobei in dem Speicher Programminstruktionen gespeichert sind. Ein Ausführen der Programminstruktion durch den Prozessor veranlasst den Prozessor dazu, das Compu tersystem so zu steuern, dass das Computersystem ein Verfahren zum Analysieren von Log- Daten ausführt. Das Verfahren umfasst:

• Überwachen der protokollierten Log-Daten, wobei das Überwachen auf ein Proto kollieren einer Kombination von Log-Daten hin, welche die gespeicherte charakteristische Merkmalskombination aufweist, ein Vorhersagen eines bevorste henden Auftretens der Funktionsstörung umfasst.

Nach Ausführungsformen ist das Computersystem dazu konfiguriert jede der zuvor be schriebenen Ausführungsformen des Verfahrens zum Analysieren von Log-Daten auszufüh ren.

Nach Ausführungsformen handelt es sich bei den Log-Daten um Log-Daten des Computer systems selbst. Nach Ausführungsformen handelt es sich bei den Log-Daten um Log-Daten eines weiteren Computersystems, welche das Computersystem empfängt bzw. auf welche das Computersystem Zugriff besitzt und welche das erste Computersystem analysiert. Bei spielsweise tritt die Funktionsstörung auf dem Computersystem auf.

Beispielsweise tritt die Funktionsstörung auf einem weiteren Computersystem auf, welches mit dem Computersystem verbunden ist. Im Falle eines Vorhersagens eines bevorstehen den Auftretens der Funktionsstörung wird die entsprechende Vorhersage und/oder ein Warnhinweis an das weitere Computersystem gesendet.

Ausführungsformen umfassen ferner ein verteiltes Computersystem, welches eine Mehr zahl von Servern umfasst. Bei einem ersten Server der Mehrzahl von Servern handelt es sich um das Computersystem einer der zuvor beschriebenen Ausführungsformen. Auf je dem der Server werden jeweils Log-Daten protokolliert und die protokollierten Log-Daten überwacht.

Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung durch den ersten Server und wird von dem ers ten Server an eine Servergruppe mit ein oder mehreren weiteren Servern der Mehrzahl von Servern weitergeleitet. Die Server der Servergruppe speichern jeweils die weiteregeleitete Zuordnung. Das Überwachen von Log-Daten durch die Server der Servergruppe umfasst je weils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte cha rakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.

Nach Ausführungsformen erfolgt die Zuordnung der bestimmten charakteristischen Merk malskombination zu der Funktionsstörung ebenso wie das Überwachen von Log-Daten der Server der Servergruppe durch den ersten Server. Auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den ersten Server hin erfolgt ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung. Die Vorhersage wird beispielsweise an die Server gesendet, auf denen das Auftreten der Funktionsstörung bevorsteht.

Nach Ausführungsformen werden auf ein Auftreten der Funktionsstörung in einem der Ser ver des verteilten Computersystems hin, von den Servern der Servergruppe jeweils inner halb des der Störfunktion vorangehenden Zeitintervalls protokollierte Log-Daten extrahiert. Das Bestimmen der charakteristischen Merkmalskombination erfolgt durch den ersten Ser ver unter Verwendung der extrahierten Kombination von Log-Daten der Servergruppe. Das Bestimmen der charakteristischen Merkmalskombination erfolgt unter Verwendung einer statistischen Analyse über die Server der Servergruppe hinweg. Die Zuordnung der be stimmten charakteristischen Merkmalskombination zu der Funktionsstörung wird an die Server der Servergruppe weitergleitet. Die Server der Servergruppe speichern jeweils die weiteregeleitete Zuordnung. Das Überwachen von Log-Daten durch die Server der Server gruppe umfasst jeweils auf ein Protokollieren einer Kombination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung.

Nach Ausführungsformen werden auf ein Auftreten der Funktionsstörung in einem der Ser ver des verteilten Computersystems hin, von den Servern der Servergruppe jeweils inner halb des der Störfunktion vorangehenden Zeitintervalls protokollierte Log-Daten beispiels weise von dem ersten Server extrahiert. Der erste Server bestimmt die charakteristische Merkmalskombination unter Verwendung der extrahierten Kombination von Log-Daten der Servergruppe. Das Bestimmen der charakteristischen Merkmalskombination erfolgt unter Verwendung einer statistischen Analyse über die Server der Servergruppe hinweg. Die Zu ordnung der bestimmten charakteristischen Merkmalskombination zu der Funktionsstö rung wird durch den ersten Server gespeichert. Das Überwachen von Log-Daten der Server der Servergruppe durch den ersten Server umfasst jeweils auf ein Protokollieren einer Kom bination von Log-Daten, welche die gespeicherte charakteristische Merkmalskombination aufweist, durch den entsprechenden Server hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung. Beispielsweise besitzt der erste Server Zugriff auf die durch die Server der Servergruppe protokollierten Log-Daten. Die Log-Daten werden bei spielsweise im Zuge des Protokollierens auf Datenbanken gespeichert, auf welche der erste Server Zugriff besitz und/oder werden von den Servern der Servergruppe an den ersten Server gesendet. Unter einer „Datenbank" wird hier eine gespeicherte Menge von Daten verstanden. Die Menge von Daten kann strukturiert sei, beispielsweise gemäß einer für die Datenbank vor gegebenen Struktur. Ferner kann zur Verwaltung der Daten der Datenbank ein „Datenbank managementsystem" bzw. eine Datenverwaltungssoftware bereitgestellt werden. Unter ei nem „Datenbankmanagementsystem" wird hier eine auf einem Computersystem ausge führte Datenverwaltungssoftware zum Speichern und Wiedergewinnen von Daten in einer Datenbank verstanden. Beispielsweise gibt das Datenbankmanagementsystem die für die Speicherung der Daten zu verwendende Struktur vor. Je nach der verwendeten Datenver waltungssoftware können die Daten in unterschiedlicher Form bzw. unter Verwendung un terschiedlicher Strukturen gespeichert werden. Beispielsweise werden die Daten in Datens ätzen aus jeweils mehreren Datenfeldern gespeichert werden.

Unter einem „Prozessor" wird hier und im Folgenden eine Logikschaltung verstanden, die zur Ausführung von Programminstruktionen dient. Die Logikschaltung kann auf einem oder mehreren diskreten Bauelementen implementiert sein, insbesondere auf einem Chip. Ein Prozessor umfasst beispielsweise ein Rechenwerk, ein Steuerwerk, Register und Datenleitun gen zur Kommunikation mit anderen Komponenten. Insbesondere wird unter einem „Prozes sor" ein Mikroprozessor oder ein Mikroprozessorsystem aus mehreren Prozessorkernen und/oder mehreren Mikroprozessoren verstanden.

Unter einem „Speicher" werden hier sowohl flüchtige als auch nicht flüchtige elektronische Speicher bzw. digitale Speichermedien verstanden.

Unter einem „nichtflüchtigen Speicher" wird hier ein elektronischer Speicher zur dauerhaf ten Speicherung von Daten, insbesondere von statischen kryptographischen Schlüsseln, At tributen oder Kennungen, verstanden. Ein nichtflüchtiger Speicher kann als nichtänderbarer Speicher konfiguriert sein, der auch als Read-Only Memory (ROM) bezeichnet wird, oder als änderbarer Speicher, der auch als Non-Volatile Memory (NVM) bezeichnet wird. Insbeson dere kann es sich hierbei um ein EEPROM, beispielsweise ein Flash-EEPROM, kurz als Flash bezeichnet, handeln. Ein nichtflüchtiger Speicher zeichnet sich dadurch aus, dass die darauf gespeicherten Daten auch nach Abschalten der Energieversorgung erhalten bleiben.

Unter einer „Schnittstelle" bzw. „Kommunikationsschnittstelle" wird hier eine Schnittstelle verstanden, über die Daten empfangen und gesendet werden können, wobei die Kommuni kationsschnittstelle kontaktbehaftet oder kontaktlos konfiguriert sein kann. Eine Kommuni kationsschnittstelle kann beispielsweise eine Kommunikation über ein Netzwerk ermögli chen. Je nach Konfiguration kann eine Kommunikationsschnittstelle beispielsweise eine ka bellose Kommunikation nach einem Mobilfunkstandard, Bluetooth-, RFID-, WiFi und/oder NFC-Standard bereitstellen. Je nach Konfiguration kann eine Kommunikationsschnittstelle beispielsweise eine kabelbasierte Kommunikation bereitstellen.

Eine Kommunikation kann beispielsweise über ein Netzwerk erfolgen. Unter einem „Netz werk" wird hier jedes Übertragungsmedium mit einer Anbindung zur Kommunikation ver standen, insbesondere eine lokale Verbindung oder ein lokales Netzwerk, insbesondere ein Local Area Network (LAN), ein privates Netzwerk, insbesondere ein Intranet, und ein digita les privates Netzwerk (Virtual Private Network - VPN). Beispielsweise kann ein Computer system eine Standardfunkschnittstelle zur Anbindung an ein WLAN aufweisen. Ferner kann es sich um ein öffentliches Netzwerk, wie beispielsweise das Internet handeln. Je nach Aus führungsform kann diese Verbindung auch über ein Mobilfunknetz hergestellt werden.

Im Weiteren werden Ausführungsformen der Erfindung mit Bezugnahme auf die Zeichnun gen näher erläutert. Es zeigen:

Figur 1 ein schematisches Diagramm eines Computersystems zum Analysieren von Log- Daten,

Figur 2 ein schematisches Diagramm eines verteilten Computersystems mit einem Ser ver zum Analysieren von Log-Daten,

Figur 3 ein schematisches Diagramm eines verteilten Computersystems mit einem Ser ver zum Analysieren von Log-Daten,

Figuren 4 ein schematisches Diagramm einer Log-Datenanalyse,

Figur 5 ein Flussdiagramm eines exemplarischen Verfahrens zum Analysieren von Log- Daten und

Figur 6 ein Flussdiagramm eines exemplarischen Verfahrens zum Überwachen von Log- Daten.

Elemente der nachfolgenden Ausführungsformen, die einander entsprechen, werden mit denselben Bezugszeichen gekennzeichnet.

Figur 1 zeigt ein Computersystem 100 zum Analysieren von Log-Daten 122. Das Computer system 100 umfasst einen Prozessor 102, einen Speicher 106 und eine Kommunikations schnittstelle 118. Der Prozessor 102 ist dazu konfiguriert unter Ausführen von Programmin struktion 104 Computersystem 100 zum Analysieren von Log-Daten 122 zu steuern. Das Computersystem 100 protokolliert Log-Daten 122. Die Log-Daten 122 werden in einer Da tenbank 120 gespeichert. Das Computersystem 100 besitzt Zugriff auf die Datenbank 122. Beispielsweise umfasst das Computersystem 100 die Datenbank 120. Beispielsweise han delt es sich bei der Datenbank 120 um eine externe bzw. entfernte Datenbank. Bei den pro tokollierten Log-Daten 122 kann es sich um Log-Daten des Computersystems 100 und/oder um Log-Daten eines oder mehrerer weiterer Computersysteme, wie etwa Servern, handeln. Die Log-Daten 122 protokollieren beispielsweise Fehler, Warnungen und Infos, welche bei spielsweise durch ein Betriebssystem und/oder ein Analyseprogramm des die Log-Daten 122 protokollierenden Computersystem erfasst werden. Die Log-Daten 122 werden bei spielsweise jeweils mit einem Zeitstempel protokolliert. Ferner können die Log-Daten 122 Daten umfassen, welche unter Verwendung ein oder mehrerer Sensoren 116 des Compu tersystems 100 zur Überwachung des Betriebs des Computersystems 100 erfasst werden. Die Sensoren 116 können beispielsweise dazu konfiguriert sein, Temperaturen, Spannun gen oder Stromstärken zu erfassen.

Auf ein Auftreten einer Funktionsstörung hin, extrahiert das Computersystem 100 diejeni gen Log-Daten aus der Datenbank 120, welche innerhalb eines der Funktionsstörung voran gehenden Zeitintervalls At protokolliert wurden. Die entsprechenden Log-Daten 122 inner halb des Zeitintervalls At werden beispielsweise unter Verwendung ihrer Zeitstempel iden tifiziert. Das Computersystem 100 bestimmt eine charakteristische Merkmalskombination 112, welche ein oder mehrere charakteristische Merkmale der extrahierten Kombination von Log-Daten umfasst. Die charakteristische Merkmalskombination 112 umfasst beispiels weise eine charakteristische Kombination und/oder Abfolge bestimmter Log-Daten aus der der extrahierten Kombination von Log-Daten, welche charakteristisch für die extrahierten Kombination von Log-Daten sind. Diese charakteristischen Log-Daten bilden beispielsweise die charakteristischen Merkmale der charakteristische Merkmal 112. Beispielsweise kann Reihenfolge bzw. zeitliche Abfolge der charakteristischen Log-Daten ebenfalls charakteris tisch für die extrahierten Kombination von Log-Daten sein. Beispielsweise werden die Log- Daten der charakteristischen Merkmalskombination 112 erst aufgrund ihrer Reihenfolge bzw. zeitliche Abfolge charakteristisch. Die Bestimmung der charakteristische Merkmals kombination 112 erfolgt beispielsweise unter Verwendung einer statistischen Analyse. Mit tels der statistischen Analyse kann beispielsweise bestimmt werden, welche Log-Daten bzw. Abfolge von Log-Daten die extrahierte Kombination von Log-Daten umfasst, die in den ansonsten protokollierten Log-Daten nicht auftauchen. Weichen Log-Daten bzw. eine Ab folge von Log-Daten in statistisch signifikanter Weise von Log-Daten ab, welche bisher pro tokolliert wurden, ohne dass eine Funktionsstörung aufgetretenen ist, und welche mithin für den für den Regelbetrieb des Computersystems 100 zu erwarten sind, besteht eine hohe Wahrscheinlichkeit eines Zusammenhangs zwischen den abweichenden Log-Daten bzw. der abweichenden Abfolge von Log-Daten und der auftretenden Funktionsstörung.

Das Computersystem 100 erstellt eine Zuordnung zwischen der bestimmte Merkmalskom bination 112 und dem aufgetretenen Funktionsstörung 110. Die Zuordnung 108 wird ge speichert und als Vergleichsdatensatz für ein Vorhersagen eines bevorstehenden erneuten Auftretens der Funktionsstörung 110 verwendet. Die Zuordnung kann beispielsweise in dem Speicher 106 Computersystem 100 oder in der Datenbank 120 gespeichert werden. Weitere Log-Daten 122, welche in der Datenbank 120 protokolliert werden, werden von dem Computersystem 100 oder einem anderen Computersystem, welchem die Zuordnung 108 vorliegt und/oder welches Zugriff auf die Zuordnung 108 besitzt, kontinuierlich über wacht. Auf ein Auftreten der charakteristische Merkmalskombination 112 in den protokol lierten Log-Daten 122 wird ein bevorstehendes Auftreten der zugeordneten Funktionsstö rung 110 vorhergesagt. Beispielsweise wird auf die Vorhersage der bevorstehenden Funkti onsstörung hin ein Warnhinweis über die Kommunikationsschnittstelle des Computersys tem 100 an andere Computersysteme ausgegeben, welche von der Funktionsstörung direkt oder bei Auftreten der Funktionsstörung auf dem Computersystem 100 indirekt betroffen sind. Beispielsweise handelt es sich bei dem anderen Computersystem um ein Admin-Com- putersystem, welches einem Administrator des Computersystems 100 zugeordnet ist. Bei spielsweise wird der Warnhinweis über eine Nutzerschnittstelle des Computersystems 100 auf eine Ausgabevorrichtung des Computersystems 100, wie etwa einem Display, ausgege ben.

Ferner können auf das Auftreten der Funktionsstörung 110 auszuführende Gegenmaßnah men 114 zur Vermeidung oder Beschränkung der Funktionsstörung 110 festgelegt der Zu ordnung 108 hinzugefügt werden. Beispielsweise umfassen die Gegenmaßnahmen ausführ bare Programminstruktionen, welche zur Vermeidung oder Beschränkung der Funktionsstö rung 110 auszuführen sind. Auf die Vorhersage der bevorstehenden Funktionsstörung 110 hin werden die Gegenmaßnahmen 114, beispielsweise von dem Computersystem 100 und/oder weiteren Computersystemen, automatisch ausgeführt. Die Gegenmaßnahmen umfassen beispielsweise ein Blockieren eines Ausführens zu erwartenden und potentiell problematischen Instruktionen, ein Verzögern des Ausführens der entsprechenden Instruk tionen und/oder ein Auslagern des Ausführens der entsprechenden Instruktionen auf eine Ausweichkomponente des Computersystems 100 oder ein Ausweichcomputersystem.

Figur 2 zeigt ein verteiltes Computersystem 198 mit einem Server 100 zum Analysieren von Log-Daten 152, 182. Bei dem Server 100 handelt es sich beispielsweise um das Computer system aus Figur 1. Beispielsweise erfasst das Computersystem 100 selbst keine Log-Daten. Beispielsweise erfasst das Computersystem 100 auch selbst keine Log-Daten. Bei den analy sierten Log-Daten 152, 182 handelt es sich um Log-Daten von Servern 130, 160 einer Ser vergruppe 190 mit einer Mehrzahl von N Servern des verteilten Computersystems 198, wo bei N eine natürliche Zahl größer 1 ist. Die Server 130, 160 der Servergruppe 190 umfassen beispielsweise jeweils einen Prozessor 132, 162 zum Ausführen von Programminstruktio nen 134, 164, einen Speicher 136, 166, und eine Kommunikationsschnittstelle 140, 170. Die Servern 130, 160 sind beispielsweise dazu konfiguriert jeweils Log-Daten 152, 182 in einer Datenbank 150, 180 zu protokollieren. Zum Erfassen von der Log-Daten 152, 182 können die Servern ISO, 160 beispielsweise zusätzlich ein oder mehrere Sensoren 138, 168 umfas sen.

Die Server 150, 160 der Servergruppe 190 kommunizieren beispielsweise über ein Netz werk 192 untereinander und mit dem ersten Server 100. Bei dem Netzwerk handelt es sich beispielsweise um öffentliches Netzwerk, wie etwa das Internet, oder ein privates Netz werk, wie etwa ein Intranet und/oder ein internes Kommunikationsnetzwerk des verteilten Computersystems 198.

Auf ein Auftreten einer Funktionsstörung auf einem oder mehrerer der Server 150, 160 der Servergruppe 190 wird beispielsweise eine Störmeldung an den ersten Server 100 gesen det. Die Störungsmeldung gibt beispielsweise Art und Zeit der aufgetretenen Funktionsstö rung sowie den oder die von der Funktionsstörung betroffenen Server an. Der erste Server 100 fragt auf den Erhalt der Störmeldung hin ein Extrahieren von Log-Daten aus den Daten banken 150, 180, welche innerhalb eines der Funktionsstörung vorangehenden Zeitinter valls At protokolliert wurden. Der erste Server 100 empfängt auf seine Anfrage hin die ext rahieren von Log-Daten und bestimmt eine charakteristische Merkmalskombination 112. Hierzu wendet der erste Server 100 beispielsweise einer statistischen Analyse über die Ser ver 150, 160 der Servergruppe 190 bzw. den von diesen erfassten Log-Daten an. Beispiels weise werden zur statistischen Auswertung weitere Datensätze mit Log-Daten der Server

150. 160 der Servergruppe 190 angefragt zum Bestimmen zu erwartenden Log-Daten im Fall eines Regelbetriebs der Server 150, 160. Beispielsweise sind Angaben zu den zu erwar tenden Log-Daten im Fall eines Regelbetriebs der Server 150, 160 in dem ersten Server 100 hinterlegt. Beispielsweise werden die hinterlegten Angaben regelmäßig geupdated. Der erste Server 100 erstellt beispielsweise eine Zuordnung 108 zwischen der bestimmten cha rakteristischen Merkmalskombination 112 und der aufgetretenen Funktionsstörung 110. Ferner können beispielsweise Gegenmaßnahmen gegen die aufgetretenen Funktionsstö rung 110 festgelegt und der Zuordnung 108 hinzugefügt werden.

Der erste Server sendet die Zuordnung 108 beispielsweise an die Server 150, 160 der Ser vergruppe 190, welche die charakteristischen Merkmalskombination 112 zur Überwachung der von ihnen protokollierten Log-Daten 152, 182 verwenden. Tritt in den protokollierten Log-Daten 152, 182 die charakteristische Merkmalskombination 112 auf, wird ein bevorste hendes Auftreten der Funktionsstörung 110 vorhergesagt. Beispielsweise sendet der die Funktionsstörung 110 vorhersagende Server 130, 160 einen Warnhinweis über das bevor stehen der Funktionsstörung 110 an die weiteren Server der Servergruppe 190 und/oder an den ersten Server 100. Ferner führt der die Funktionsstörung 110 vorhersagende Server

130. 160 beispielsweise ein oder mehrere von der Zuordnung 108 definierte Gegenmaß nahmen 114 aus. Zusätzlich können ein oder mehrere der den Warnhinweis empfangenden Server der Servergruppe 190 und/oder der erste Server 100 ebenfalls ein oder mehrere von der Zuordnung 108 definierte Gegenmaßnahmen 114 ausführen.

Figur 3 zeigt ein verteiltes Computersystem 198 mit einem Server 100 zum Analysieren von Log-Daten 152, 182, dessen Aufbau und Funktionsweise analog zu dem verteiltes Compu tersystem 198 der Figur 2 ist. Der Unterschied zu dem verteilten Computersystem 198 der Figur 2 besteht darin, dass die Log-Daten 152, 182 der Server 150, 160 der Servergruppe 190 in einer zentralen Datenbank 194 gespeichert werden, auf welche beispielsweise der erste Server 100 Zugriff besitzt. Auf einen Empfang einer Störmeldung von einem der Ser ver 150, 160 der Servergruppe 190 kann der erste Server 100 mithin Log-Daten der einzel nen Server 150, 160, welche innerhalb eines der Funktionsstörung vorangehenden Zeitin tervalls At protokolliert wurden, aus der zentralen Datenbanken 194 extrahieren. Der erste Server 100 bestimmt die charakteristische Merkmalskombination 112 unter Verwendung der extrahierten Log-Daten und erstellt die Zuordnung 108 zwischen der charakteristischen Merkmalskombination 112, der Funktionsstörung 110 und gegebenenfalls Gegenmaßnah- menll4 gegen die Funktionsstörung 110. Ferner überwacht beispielsweise der erste Server 100 die in der zentralen Datenbank 194 protokollierten Log-Daten 152, 182. Tritt in den protokollierten Log-Daten 152, 182 die charakteristische Merkmalskombination 112 auf, wird ein bevorstehendes Auftreten der Funktionsstörung 110 von dem ersten Server 100 vorhergesagt. Beispielsweise sendet der erste Server 100 einen Warnhinweis über das be vorstehen der Funktionsstörung 110 an die Server 130, 150 der Servergruppe 190. Ferner Veranlasst der erste Server 100 beispielsweise ein Ausführen von ein oder mehrere von der Zuordnung 108 definierte Gegenmaßnahmen 114 durch ein oder mehrere Server 130, 150 der Servergruppe 190 und/oder durch den Server 100.

Die Figuren 4A bis 4C zeigen eine exemplarische Log-Datenanalyse. Das obere Diagramm der Figur 4A zeigt eine zeitliche Abfolge von protokollierten Log-Daten 196 der Typen „A", „B", „C" und „D". Beispielsweise ist auf der x-Achse ist die Zeit aufgetragen, während auf der y-Achse beispielsweise die Typen von Log-Daten aufgetragen sind. Beispielsweise wird eine Abfolge „B A B A D C D B A" protokolliert, auf welche ein Auftreten einer Funktionsstö rung 110 zum Zeitpunkt ts erfasst bzw. protokolliert wird. Aus den protokollierten Log-Da ten 196 werden die innerhalb eines dem Zeitpunkt ts des Auftretens der Funktionsstörung 110 vorangehenden Zeitintervalls At aufgetretenen Log-Daten extrahiert. Die extrahierten Log-Daten des Zeitintervalls At sind exemplarisch in Figur 4B dargestellt. Beispielsweise um fassen die extrahierten Log-Daten eine Abfolge „A D C D B A". Beispielsweise handelt es sich bei den Log-Daten des Typs „A", „B" um häufig auftretende bzw. protokollierte Log-Da ten, ohne dass es zum Auftreten einer Funktionsstörung kommt. In Figur 4C ist eine exemp larische Abfolge von Log-Daten 196 des Typs „A", „B" gezeigt, wie sie beispielsweise häufig in den protokollierten Log-Daten innerhalb eines Zeitintervalls At auftreten. Diese häufig auftretende Abfolge von Log-Daten ist somit beispielsweise nicht charakteristisch für die extrahierten Log-Daten. Charakteristisch für die extrahierten Log-Daten ist vielmehr die ver bleibende Abfolge der Log-Daten des Typs „D", „C". Diese Abfolge wird, wie in Figur 4A ge zeigt als charakteristische Merkmalskombination 112 mit der Abfolge „D C D" bestimmt. Werden Log-Daten im Zuge eines Log-Datenüberwachung protokolliert, welche innerhalb eines Zeitintervalls At eine Abfolge von Log-Daten der Form „D C D" aufweist kann ein be vorstehen der Funktionsstörung 110 auftreten. Beispielsweise können der charakteristi schen Merkmalskombination 112 Gegenmaßnahmen zugeordnet sein. Beispielsweise kann festgelegt werden, dass ein bevorstehendes Auftreten Funktionsstörung 110 bereits bei Vorliegen einer Log-Datenfolge „D C" vorhergesagt wird und die Gegenmaßnahmen ein Ausführen der mit Log-Datum D gekennzeichneten Aktion blockieren, verzögern und/oder auf eine andere Systemkomponenten zum Ausführen auslagern.

Figur 5 zeigt ein exemplarisches Verfahren zum Analysieren von Log-Daten. In Block 200 werden Log-Daten protokolliert. In Block 202 wird eine Funktionsstörung erfasst, auf deren Erfassen hin in Block 204 Log-Daten aus den protokollierten Log-Daten extrahiert werden, welche innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls At protokolliert wurden. In Block 206 wird in den extrahierten Log-Daten eine für das Auftreten der Funkti onsstörung charakteristische Merkmalskombination bestimmt und in Block 208 eine Zuord nung der charakteristischen Merkmalskombination zu der in Block 202 erfassten Funktions störung erstellt. Zum Bestimmen der charakteristischen Merkmalskombination kommen beispielsweise eine statistische Analyse zum Einsatz. In Block 210 wird die erstellte Zuord nung für eine Überwachung zukünftig protokollierter Log-Daten gespeichert. In Block 212 werden protokollierte Log-Daten überwacht.

Figur 6 zeigt ein exemplarisches Verfahren zum Prüfen von Log-Daten unter Verwendung eines mittels eines Verfahrens zur Log-Datenanalyse, wie dem in Figur 5 gezeigten Verfah ren, erstellte Zuordnung. In Block 300 werden protokollierte Log-Daten überwacht. In Block 302 wird geprüft, ob die protokollierten Log-Daten die charakteristische Merkmalskombina tion gemäß bereitgestellter Zuordnung und/oder gemäß einer Zuordnung einer bereitge stellten Mehrzahl von Zuordnungen umfasst. Wird die charakteristische Merkmalskombina tion nicht erfasst, wird die Überwachung der Log-Daten in Block 300 unverändert fortge setzt. Wird die charakteristische Merkmalskombination erfasst, wird das Verfahren in Block 304 fortgesetzt. In Block 304 wird ein bevorstehendes Auftreten der Funktionsstörung vor hergesagt, welche der erfassten charakteristischen Merkmalskombination zu geordnet ist.

In Block 306 wird beispielsweise ein Warnhinweis über die bevorstehende Funktion ausge geben. In Block 306 werden beispielsweise hinterlegte Gegenmaßnahmen ausgeführt, wel che ebenfalls der charakteristische Merkmalskombination und/oder der vorhergesagten Funktionsstörung zugeordnet sind. Bezugszeichenliste

100 Computersystem

102 Prozessor

104 Programminstruktionen

106 Speicher

108 Zuordnung

110 Funktionsstörung

112 Merkmalskombination

114 Gegenmaßnahmen

116 Sensor

118 Kommunikationsschnittstelle

120 Datenbank

122 Log-Daten

130 Server

132 Prozessor

134 Programminstruktionen

136 Speicher

138 Sensor

140 Kommunikationsschnittstelle

150 Datenbank

152 Log-Daten

160 Server

162 Prozessor

164 Programminstruktionen

166 Speicher

168 Sensor

170 Kommunikationsschnittstelle

180 Datenbank

182 Log-Daten

190 Servergruppe

192 Netzwerk

194 Datenbank

196 Log-Datum

198 verteiltes Computersystem

Claims

P a t e n t a n s p r ü c h e

1. Verfahren zum Analysieren von Log-Daten (122, 152, 182, 196) eines Computersys tems (100), wobei das Verfahren umfasst:

• Protokollieren von Log-Daten (122, 152, 182, 196), wobei das Protokollieren der Log-Daten (122, 152, 182, 196) ein Speichern von Log-Daten (122, 152, 182, 196) in einer Datenbank (120, 150, 180, 194) umfasst, wobei die Log-Daten (122, 152, 182, 196) jeweils mit einem Zeitstempel gespeichert werden,

• auf ein Auftreten einer Funktionsstörung (110) hin, Extrahieren der innerhalb eines der Funktionsstörung (110) vorangehenden Zeitintervalls (At) protokollierten Log- Daten (122, 152, 182, 196),

• Bestimmen einer charakteristischen Merkmalskombination (112), welche ein oder mehrere charakteristische Merkmale der extrahierten Kombination von Log-Daten (122, 152, 182, 196) umfasst, unter Verwendung einer statistischen Analyse,

• Speichern einer Zuordnung (108) der bestimmten charakteristischen Merkmalskom bination (112) zu der Funktionsstörung (110),

• Überwachen der protokollierten Log-Daten (122, 152, 182, 196), wobei das Überwa chen auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196) hin, welche die gespeicherte charakteristische Merkmalskombination (112) auf weist, ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.

2. Verfahren nach Anspruch 1, wobei auf die Vorhersage der bevorstehenden Funkti onsstörung (110) hin ein Warnhinweis ausgegeben wird.

3. Verfahren nach einem der vorangehenden Ansprüche, wobei auf das Auftreten der Funktionsstörung (110) auszuführende Gegenmaßnahmen (114) zur Vermeidung der Funk tionsstörung (110) festgelegt werden, wobei zusammen mit der Zuordnung (108) der be stimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110) eine Zuordnung der bestimmten charakteristischen Merkmalskombination (112) zu den Ge genmaßnahmen (114) gespeichert wird, wobei auf die Vorhersage der bevorstehenden Funktionsstörung (110) hin automatisch die Gegenmaßnahmen (114) ausgeführt werden.

4. Verfahren nach Anspruch 3, wobei die auszuführenden Gegenmaßnahmen (114) der Funktionsstörung (110) zugeordnet sind, über welches sie indirekt der bestimmten charak teristischen Merkmalskombination (112) zugeordnet sind.

5. Verfahren nach Anspruch 3, wobei die auszuführenden Gegenmaßnahmen (114) der bestimmten charakteristischen Merkmalskombination (112) direkt zugeordnet sind.

6. Verfahren nach einem der vorangehenden Ansprüche, wobei den Merkmalen der charakteristischen Merkmalskombination (112) jeweils ein erster Toleranzbereich zugeord net wird, wobei eine protokollierte Kombination von Log-Daten (122, 152, 182, 196) die ge speicherte charakteristische Merkmalskombination (112) aufweist, falls sie die Merkmale gemäß der charakteristischen Merkmalskombination (112) aufweist und diese Merkmale jeweils innerhalb der zugeordneten ersten Toleranzbereiche liegen.

7. Verfahren nach einem der vorangehenden Ansprüche, wobei Merkmalen der cha rakteristischen Merkmalskombination (112) jeweils ein zweiter Toleranzbereich zugeordnet wird, wobei angenommen wird, dass eine protokollierte Kombination von Log-Daten (122, 152, 182, 196) die gespeicherte charakteristische Merkmalskombination (112) aufweist, falls sie eine vorbestimmte Mindestanzahl von Merkmalen der charakteristischen Merk malskombination (112) aufweist und diese Merkmale jeweils innerhalb der zugeordneten zweiten Toleranzbereiche liegen.

8. Verfahren nach Anspruch 7, wobei für dasselbe Merkmal der erste Toleranzbereich jeweils identisch mit dem zweiten Toleranzbereich ist oder wobei für dasselbe Merkmal der erste Toleranzbereich jeweils größer als der zweite Toleranzbereich ist.

9. Verfahren nach einem der vorangehenden Ansprüche, wobei es sich bei der Funkti onsstörung (110) um ein Fehlerereignis handelt.

10. Verfahren nach einem der vorangehenden Ansprüche, wobei es sich bei der Funkti onsstörung (110) um ein Überschreiten oder Unterschreiten eines vordefinierten Schwel lenwerts handelt.

11. Verfahren nach einen der vorangehenden Ansprüche, wobei das Speichern der Log- Daten (122, 152, 182, 196) ein Normalisieren der Log-Daten (122, 152, 182, 196) umfasst.

12. Verfahren nach Anspruch 11, wobei das Normalisieren die sechste Normalform er füllt.

13. Verfahren nach einem der vorangehenden Ansprüche, wobei es sich bei dem Com putersystem (100) um einen ersten Server eines verteilten Computersystems (198) handelt, welches eine Mehrzahl von Servern (100, 130, 160) umfasst, wobei auf jedem der Server (100, 1B0, 160) jeweils Log-Daten (122, 152, 182, 196) protokolliert werden, wobei die pro tokollierten Log-Daten (122, 152, 182, 196) überwacht werden.

14. Verfahren nach Anspruch 13, wobei die Zuordnung (108) der bestimmten charakte ristischen Merkmalskombination (112) zu der Funktionsstörung (110) durch den ersten Ser ver (100) erfolgt und von dem ersten Server (100) an eine Servergruppe (190) mit ein oder mehreren weiteren Servern (130, 160) der Mehrzahl von Servern (100, 130, 160) weiterge leitet wird, wobei die Server (130, 160) der Servergruppe (190) die weiteregeleitete Zuord nung (108) jeweils speichern, wobei das Überwachen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) jeweils auf ein Protokollieren einer Kombina tion von Log-Daten (152, 182, 196), welche die gespeicherte charakteristische Merkmals kombination (112) aufweist, durch den entsprechenden Server (130, 160) hin ein Vorhersa gen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.

15. Verfahren nach Anspruch 13, wobei auf ein Auftreten der Funktionsstörung (110) in einem der Server (100, 130, 160) des verteilten Computersystems (198) hin, von den Ser vern (100, 130, 160) der Servergruppe (190) jeweils innerhalb des der Störfunktion voran gehenden Zeitintervalls (At) protokollierte Log-Daten (122, 152, 182, 196) extrahiert wer den, wobei das Bestimmen der charakteristischen Merkmalskombination (112) unter Ver wendung der extrahierten Kombination von Log-Daten (152, 182, 196) der Servergruppe (190) erfolgt, wobei das Bestimmen der charakteristischen Merkmalskombination (112) un ter Verwendung einer statistischen Analyse über die Server (130, 160) der Servergruppe (190) hinweg erfolgt, wobei die Zuordnung (108) der bestimmten charakteristischen Merk malskombination (112) zu der Funktionsstörung (110) an die Server (130, 160) der Server gruppe (190) weitergleitet wird, wobei die Server (130, 160) der Servergruppe (190) die weiteregeleitete Zuordnung (108) jeweils speichern, wobei das Überwachen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) jeweils auf ein Protokol lieren einer Kombination von Log-Daten (122, 152, 182, 196), welche die gespeicherte cha rakteristische Merkmalskombination (112) aufweist, durch den entsprechenden Server (130, 160) hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.

16. Verfahren nach Anspruch 15, wobei die Log-Datenanalyse zusätzlich unter Verwen dung von Log-Daten (122) des ersten Servers (100) erfolgt.

17. Verfahren nach einem der Ansprüche 15 bis 16, wobei ferner ein oder mehrere erste Identifikatoren bestimmt werden, welche Merkmale ein oder mehrere Server (130, 160) umfassen, bei welchen die Funktionsstörung (110) auftritt, wobei zusammen mit der Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110) eine Zuordnung (108) der bestimmten charakteristischen Merk malskombination (112) zu den Identifikatoren gespeichert wird.

18. Verfahren nach Anspruch 17, wobei auf die Vorhersage der bevorstehenden Funkti onsstörung (110) hin unter Verwendung der Identifikatoren ein oder mehrere Server (130, 160) bestimmt werden, bei welchen die Funktionsstörung (110) auftritt, und jeweils ein Warnhinweis für die bestimmten Server (130, 160) ausgegeben wird.

19. Verfahren nach einem der Ansprüche 15 bis 18, wobei auf das Auftreten der Funkti onsstörung (110) auszuführende Gegenmaßnahmen (114) zur Vermeidung der Funktions störung (110) für ein oder mehrere Server (130, 160) festgelegt werden, wobei ein oder mehrere zweite Identifikatoren bestimmt werden, welche Merkmale der entsprechenden Server (130, 160) umfassen, auf welchen die Gegenmaßnahmen (114) auszuführen sind, wobei zusammen mit der Zuordnung (108) der bestimmten charakteristischen Merkmals kombination (112) zu der Funktionsstörung (110) eine Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu den Gegenmaßnahmen (114) und den zweiten Identifikatoren gespeichert wird, wobei auf die Vorhersage der bevorstehenden Funktionsstörung (110) hin die Gegenmaßnahmen (114) auf den durch die zweiten Identifi katoren identifizierten Servern (130, 160) automatisch ausgeführt werden.

20. Computersystem (100) mit einem Prozessor (102) und einem Speicher (106), wobei in dem Speicher Programminstruktionen (104) gespeichert sind, wobei ein Ausführen der Programminstruktion (104) durch den Prozessor (102) den Prozessor (102) dazu veranlasst das Computersystem (100) so zu steuern, dass das Computersystem (100) ein Verfahren zum Analysieren von Log-Daten (122, 152, 182, 196) ausführt, wobei das Verfahren um fasst:

• auf ein Auftreten einer Funktionsstörung (110) hin, Extrahieren der innerhalb eines der Funktionsstörung vorangehenden Zeitintervalls (At) protokollierten Log-Daten (122, 152, 182, 196),

• Speichern einer Zuordnung (108) der bestimmten charakteristischen Merkmalskom bination (112) zu der Funktionsstörung (110), • Überwachen der protokollierten Log-Daten (122, 152, 182, 196), wobei das Überwa chen auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196) hin, welche die gespeicherte charakteristische Merkmalskombination (112) auf weist, ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.

21. Verteiltes Computersystem (198), welches eine Mehrzahl von Servern (100, 130, 160) umfasst, wobei es sich bei einem ersten Server (100) der Mehrzahl von Servern (100, 130, 160) um das Computersystem (100) nach Anspruch 20 handelt, wobei auf jedem der Server (100, 130, 160) jeweils Log-Daten (122, 152, 182, 196) protokolliert und die proto kollierten Log-Daten (122, 152, 182, 196) überwacht werden.

22. Verteiltes Computersystem (198) nach Anspruch 21, wobei die Zuordnung (108) der bestimmten charakteristischen Merkmalskombination (112) zu der Funktionsstörung (110) durch den ersten Server (100) erfolgt und von dem ersten Server (100) an eine Server gruppe (190) mit ein oder mehreren weiteren Servern (130, 160) der Mehrzahl von Servern

(100. 130. 160) weitergeleitet wird, wobei die Server (130, 160) der Servergruppe (190) die weiteregeleitete Zuordnung (108) jeweils speichern, wobei das Überwachen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) jeweils auf ein Protokol lieren einer Kombination von Log-Daten (122, 152, 182, 196), welche die gespeicherte cha rakteristische Merkmalskombination (112) aufweist, durch den entsprechenden Server

(130. 160) hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.

23. Verteiltes Computersystem (198) nach Anspruch 21, wobei auf ein Auftreten der Funktionsstörung (110) in einem der Server (130, 160) des verteilten Computersystems (198) hin, von den Servern (130, 160) der Servergruppe (190) jeweils innerhalb des der Störfunktion vorangehenden Zeitintervalls (At) protokollierte Log-Daten (122, 152, 182,

196) extrahiert werden, wobei das Bestimmen der charakteristischen Merkmalskombina tion (112) unter Verwendung der extrahierten Kombination von Log-Daten (152, 182, 196) der Servergruppe (190) erfolgt, wobei das Bestimmen der charakteristischen Merkmals kombination (112) unter Verwendung einer statistischen Analyse über die Server (130, 160) der Servergruppe (190) hinweg erfolgt, wobei die Zuordnung (108) der bestimmten charak teristischen Merkmalskombination (112) zu der Funktionsstörung (110) an die Server (130, 160) der Servergruppe (190) weitergleitet wird, wobei die Server (130, 160) der Server gruppe (190) die weiteregeleitete Zuordnung (108) jeweils speichern, wobei das Überwa chen von Log-Daten (152, 182, 196) durch die Server (130, 160) der Servergruppe (190) je weils auf ein Protokollieren einer Kombination von Log-Daten (122, 152, 182, 196), welche die gespeicherte charakteristische Merkmalskombination (112) aufweist, durch den entsprechenden Server (ISO, 160) hin ein Vorhersagen eines bevorstehenden Auftretens der Funktionsstörung (110) umfasst.