DE112016005143T5 - Periodizitätsanalyse an heterogenen Protokollen - Google Patents

Periodizitätsanalyse an heterogenen Protokollen Download PDF

Info

Publication number
DE112016005143T5
DE112016005143T5 DE112016005143.3T DE112016005143T DE112016005143T5 DE 112016005143 T5 DE112016005143 T5 DE 112016005143T5 DE 112016005143 T DE112016005143 T DE 112016005143T DE 112016005143 T5 DE112016005143 T5 DE 112016005143T5
Authority
DE
Germany
Prior art keywords
protocol
heterogeneous
log
category model
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112016005143.3T
Other languages
English (en)
Inventor
Hui Zhang
Haifeng Chen
Jianwu XU
Guofei Jiang
Kenji Yoshihira
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of DE112016005143T5 publication Critical patent/DE112016005143T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • G06N5/047Pattern matching networks; Rete networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

Es werden Systeme und Verfahren offenbart zum Detektieren von Verhalten periodischer Ereignisse aus einer maschinengenerierten Protokollierung durch: Erfassen heterogener Protokollnachrichten, wobei jede Protokollnachricht einen Zeitstempel und Textinhalt mit einem oder mehreren Feldern enthält; Erkennen von Protokollformaten aus Protokollnachrichten; Transformieren des Textinhalts in eine Menge von Zeitreihendaten, eine Zeitreihe für jedes Protokollformat; Analysieren der Menge von Zeitreihendaten und Aufbauen eines Kategoriemodells für jeden Typ eines periodischen Ereignisses in heterogenen Protokollen während einer Trainingsphase; und Anwenden des Kategoriemodells auf einen Strom von Zeitreihendaten von heterogenen Live-Protokollnachrichten und Erzeugen eines Merkers an einem Zeitreihendatenpunkt, der das Kategoriemodell verletzt, und Erzeugen eines Alarmberichts für die entsprechende Protokollnachricht während des Live-Betriebs.

Description

  • HINTERGRUND
  • Das System bezieht sich auf die maschinelle Bestimmung der Verhalten periodischer Ereignisse.
  • Ein periodisches Ereignis ist ein Ereignis, das in einem festen Abstand oder in einer Menge fester Abstände (was bedeutet, dass die Zeitdauer zwischen Ereignissen im Wesentlichen dieselbe oder unter mehreren möglichen Werten ist) regelmäßig immer wieder auftritt. Die Periodizitätsanalyse aus den aufgezeichneten Protokolldaten ist eine wichtige Aufgabe, die nützliche Einsichten in die physikalischen Ereignisse bietet und ermöglicht, dass ein System Ausreißer berichtet und künftige Verhalten vorhersagt. Zum Beispiel zeigt 1 eine Menge von Textprotokollen, die aus IT-Systemprotokollen gewonnen wurden, die das periodische Muster eines Systemereignistyps enthalten: Es tritt zweimal am Tag, um 01:00 Uhr und 14:00 Uhr, auf. Auf der Grundlage der aus 1 gelernten Protokollereignisperiodizität können unerwartete Systemverhalten detektiert werden. Zum Beispiel zeigt 2 die Detektion zweiter Ereignisse, die die 01:00-Uhr-und-14:00-Uhr-Periodizität verletzen.
  • Um in einem Ereignis Periodizität zu gewinnen, müssen Systeme mit Herausforderungen der wirklichen Welt inhärent komplizierter periodischer Verhalten und mit dem Problem unvollkommener Datenerhebung rechnen. Genauer könnten die verborgenen zeitlichen periodischen Verhalten schwingend und verrauscht sein. Herkömmliche Periodizitätsanalyseverfahren wie etwa die Fourier-Transformation (FFT) und die Autokorrelation erfordern üblicherweise, dass die Daten gleichmäßig abgetastet werden, d. h., dass es bei jedem Zeitstempel eine Beobachtung gibt. Obgleich einige Erweiterungen der Fourier-Transformation zum Behandeln ungleichmäßiger Datenabtastwerte vorgeschlagen worden sind, sind sie auf den Fall mit einer sehr niedrigen Abtastrate immer noch nicht anwendbar.
  • Einige Verfahren wenden statistische Analysetechniken auf eine einzelne Zeitreihe eines Ereignistyps an. Zum Detektieren von Perioden wird ein probabilistisches Maß für die Periodizität, die ePeriodicity, verwendet. Dies erfolgt durch Anwenden einer unterschiedlichen potentiellen Periodizitätslänge T, um die Zeitreihe in Zeitreihen mit mehreren Längen T zu segmentieren, durch Überlagern dieser Zeitreihen und durch Berichten desjenigen Werts T, der, gemessen durch eine bedingte Ereigniswahrscheinlichkeit, das größte Clusterungsverhalten aufweist, als die Periodizität.
  • Figurenliste
    • 1 zeigt ein beispielhaftes Beispiel für ein periodisches Ereignis, das aus IT-Systemprotokollen gewonnen wurde.
    • 2 zeigt beispielhafte Systemanomalien, die durch die Protokollereignis-Periodizitätsprüfung detektiert wurden.
    • 3 zeigt einen beispielhaften Kategoriemodell-basierten Periodizitätsanalyseprozess (CMBPA-Prozess).
    • 4 zeigt eine beispielhafte CMBPA-Protokolle-in-Zeitreihen-Umsetzungsprozedur.
    • 5 zeigt beispielhafte CMBPA-Zeitreihendaten für die Protokolle in 1.
    • 6 zeigt beispielhafte CMBPA-Zeitreihendaten für die Protokolle in 1.
    • 7 zeigt eine beispielhafte Kategoriemodellausgabe für die Protokolle in 1.
    • 8 zeigt eine beispielhafte CMBPA-Protokolle-zu-Zeitreihen-Umsetzungsprozedur.
    • 9 zeigt eine beispielhafte CMBPA-Kategoriemodell-Testprozedur.
    • 10 zeigt eine beispielhafte Kategoriemodelltestausgabe für die Protokolle in 2.
    • 11 zeigt beispielhafte Hardware für 1.
  • ZUSAMMENFASSUNG
  • Es werden Systeme und Verfahren zum Detektieren von Verhalten periodischer Ereignisse aus einer maschinengenerierten Protokollierung offenbart, durch: Erfassen heterogener Protokollnachrichten, wobei jede Protokollnachricht einen Zeitstempel und Textinhalt mit einem oder mehreren Feldern enthält; Transformieren des Textinhalts in eine Menge von Zeitreihendaten; Analysieren der Menge von Zeitreihendaten und Aufbauen eines Kategoriemodells für jeden Typ eines periodischen Ereignisses in heterogenen Protokollen während einer Trainingsphase; und Anwenden des Kategoriemodells auf einen Strom von Zeitreihendaten von heterogenen Live-Protokollnachrichten und Erzeugen eines Merkers an einem Zeitreihendatenpunkt, der das Kategoriemodell verletzt, und Erzeugen entsprechender Protokollnachrichten während des Live-Betriebs.
  • In einem anderen Aspekt enthält ein System einen mechanischen Aktuator; einen Digitizer, der mit dem Aktuator gekoppelt ist, um Daten zu protokollieren; ein Modul zum Detektieren der Verhalten periodischer Ereignisse aus der maschinengenerierten Protokollierung, das Code enthält zum: Erfassen heterogener Protokollnachrichten, wobei jede Protokollnachricht einen Zeitstempel und Textinhalt mit einem oder mehreren Feldern enthält; Transformieren des Textinhalts in eine Menge von Zeitreihendaten; Analysieren der Menge von Zeitreihendaten und Aufbauen eines Kategoriemodells für jeden Typ eines periodischen Ereignisses in heterogenen Protokollen während einer Trainingsphase; und Anwenden des Kategoriemodells auf einen Strom von Zeitreihendaten von heterogenen Live-Protokollnachrichten und Erzeugen eines Merkers an einem Zeitreihendatenpunkt, der das Kategoriemodell verletzt, und Erzeugen entsprechender Protokollnachrichten während des Live-Betriebs.
  • In Implementierungen kann der Aktuator ein Motor oder eine Kraftmaschine, der bzw. die Verhalten periodischer Ereignisse erzeugt, die z. B. Überwachung auf Leistungsfähigkeit, Zuverlässigkeit oder zu Wartungszwecken erfordern, sein.
  • Vorteile des Systems können einen oder mehrere der folgenden enthalten. Anstatt die Eingangsdaten als eine einzelne Zeitreihe zu behandeln, transformiert die Erfindung heterogene Protokolle in mehrere Zeitreihen und stellt sie einen schnellen und robusten Mechanismus zum Entdecken potentiell mehrerer Perioden, die in jeder Zeitreihe vorhanden sind, bereit. Der Periodizitätsentdeckungsmechanismus beruht auf einem Kategoriemodell mit den Parametern Eignungsbewertung, Kategoriezentrum und Fehlerschranken. Außerdem stellt das System lineare Verfahren zum Aufbauen des Kategoriemodells und zum Testen von Periodizitätsanomalien auf der Grundlage des Kategoriemodells bereit. Das System verringert die Komplexität des Ermittelns statistisch periodischer Ereignismuster in einer großen Menge eines heterogenen Protokolls erheblich, selbst wenn keine Vorkenntnis über das System verfügbar sein könnte. Dadurch, dass fortgeschrittene Textgewinnung und Zeitreihenanalyse auf neue Weise integriert werden, konstruieren die vorliegenden Prinzipien auf fundierte Weise ein automatisches periodisches Mustergewinnungsverfahren für heterogene Protokolle und ermöglichen sie einen schnelleren Betrieb und schnellere Systemaktualisierungen.
  • BESCHREIBUNG
  • 3 zeigt einen beispielhaften Prozess, der Kategoriemodell-basierte Periodizitätsanalyse (CMBPA) für heterogene Protokolle genannt wird. Der Prozess arbeitet wie folgt:
    • 101. Erhebung heterogener Protokolle für das Training. Dieser Schritt nimmt heterogene Protokolle von beliebigen/unbekannten Systemen oder Anwendungen. Eine Protokollnachricht besteht aus einem Zeitstempel und aus dem Textinhalt mit einem oder mit mehreren Feldern.
    • 102. Protokolle-zu-Zeitreihen-Umsetzung. Dieser Schritt transformiert ursprüngliche Trainingstextprotokolle in eine Menge von Zeitreihendaten.
    • 103. Kategoriemodellerzeugung. Dieser Schritt analysiert die Menge durch 102 ausgegebener Zeitreihen und baut für jeden Typ eines periodischen Ereignisses in heterogenen Protokollen ein Kategoriemodell auf.
    • 104. Erhebung heterogener Protokolle für Tests. Dieser Schritt nimmt von demselben System in 101 erhobene heterogene Protokolle für Periodizitätsverhaltenstests. Eine Protokollnachricht besteht aus einem Zeitstempel und aus dem Textinhalt mit einem oder mehreren Feldern. Die Prüfdaten können in einem Stapel als eine Protokolldatei kommen oder können in einem Stream-Prozess kommen.
    • 105. Protokolle-zu-Zeitreihen-Umsetzung. Dieser Schritt transformiert ursprüngliche Testtextprotokolle in eine Menge von Zeitreihendaten.
    • 106. Kategoriemodellprüfung. Dieser Schritt analysiert die Menge durch 102 ausgegebener Zeitreihendaten auf der Grundlage der durch 103 ausgegebenen entsprechenden Kategoriemodelle und gibt an irgendeinem Zeitreihendatenpunkt, der das Kategoriemodell verletzt, Alarme und die entsprechenden Protokollnachrichten aus.
    • 107. Protokollmanagementanwendungen. Dieser Schritt wendet auf die heterogenen Protokolle von 101 auf der Grundlage der durch 103 ausgegebenen Kategoriemodelle oder auf die heterogenen Protokolle von 104 auf der Grundlage der durch 106 ausgegebenen Kategoriemodellprüfung eine Menge von Managementanwendungen an. Zum Beispiel kann durch Entdecken fehlender Protokollnachrichten, die an erwarteten Zeitpunkten nicht zu erkennen sind, oder durch Detektieren anomaler Protokollnachrichten, die an durch 106 ausgegebenen unerwarteten Zeitpunkten zu erkennen sind, ein protokollbasiertes Fehlermanagement angewendet werden.
  • 4 zeigt die Einzelheiten der CMBPA-Protokolle-zu-Zeitreihen-Umsetzungsprozedur wie folgt:
    • 201. Protokollformaterkennung. Eine Menge von Protokollformaten, die zu den Trainingsprotokollen passen, können durch Anwender direkt bereitgestellt werden oder durch eine Formaterkennungsprozedur an allen heterogenen Protokollen wie folgt automatisch erzeugt werden:
      • 201.a - Es werden beliebige heterogene Protokolle genommen (Schritt 101), es wird eine Tokenisierung verarbeitet, um aus Protokollen semantisch sinnvolle Token zu erzeugen. Nachdem die heterogenen Protokolle tokenisiert worden sind, wird auf die heterogenen Protokolle eine Ähnlichkeitsmessung angewendet. Diese Ähnlichkeitsmessung setzt sowohl die Protokollanordnungsinformationen als auch die Protokollinhaltsinformationen wirksam ein und wird an beliebige heterogene Protokolle spezifisch angepasst. Wenn die Ähnlichkeiten zwischen Protokollen erfasst werden, kann ein hierarchischer Protokollclusterungsalgorithmus angewendet werden, um eine Protokollclusterhierarchie zu erzeugen und auszugeben. Die CMBPA ermöglicht, dass Anwender ihre bevorzugten hierarchischen Clusterungsalgorithmen eingliedern.
      • 201.b - Wenn die Protokollclusterhierarchien empfangen werden, werden die Protokolle innerhalb jedes Clusters, der in der Protokollclusterhierarchie auf der untersten Ebene ist, ausgerichtet. Die Protokollausrichtung ist so ausgelegt, dass sie die unbekannten Anordnungen heterogener Protokolle erhält, um bei der Protokollmustererkennung in den folgenden Schritten zu helfen. Wenn die Protokolle ausgerichtet werden, wird eine Protokollmotiventdeckung durchgeführt, um die repräsentativsten Anordnungen und Protokollfelder zu ermitteln. Der folgende Schritt ist eine Mustererkennung von solchen Motiven. Zunächst werden Felder wie etwa Zeitstempel, Internetprotokolladressen (IP-Adressen) und Universal Resource Locators (URLs) erkannt. Zweitens werden andere Felder, die in den Protokollen hochgradig erhalten sind, in einer Datenstruktur in der Clusterhierarchie erkannt und organisiert. Es wird angemerkt, dass die obige Protokollmotiventdeckung und Mustererkennung zunächst auf der untersten Ebene der Protokollhierarchie erfolgen. Danach werden alle Informationen zu höheren Ebenen in der Hierarchie nach oben rückwärts fortgepflanzt und mit ihren lokalen Mustern verschmolzen, um aus den Protokollen Formatmusterdarstellungen bereitzustellen.
    • 202. Zeitreihenerzeugung pro Format. Für jedes eindeutige Format in der Clusterungshierarchie ist das Folgende die Zeitreihenerzeugungsprozedur an allen heterogenen Protokollen:
      • 202.a Ermittle alle Protokollnachrichten, die zu dem Musterformat passen (z. B. durch einen Test regulärer Ausdrücke).
      • 202.b - Ordne diese angepassten Nachrichten auf der Grundlage der Zeitstempel in ihnen. Bezeichne ihre Zeitstempel unter der Annahme, dass es K geordnete Nachrichten gibt, als X = {X1, X2, ..., XK}.
      • 202.c - Gib die Zeitreihe zwischen Ankünften als Y = {Y1 = X2-X1, Y2 = X3-X2, ... , YK-1 = XK-XK-1} aus.
  • Zum Beispiel zeigt 5 einen Teil der Zeitreihen für die Protokolle in 1, die an das Protokollformat „{%TIME_STAMP} (%IP_ADDRESS) COMMIT“ angepasst sind:
    • Y1=46800000
    • Y2=39600000
    • Y3=46800000
    • Y4=39600000
    • Y5=46800000
    • Y6=39600000
    • Y7=46800000
    • Y8=39600000
    • ......
  • 6 zeigt die Einzelheiten der CMBPA-Kategoriemodell-Erzeugungsprozedur. Für jedes Protokollformat Y mit der von 202 ausgegebenen Zeitreihe Y = {Y1, Y2, ..., YK-1} zwischen Ankünften ist das Folgende die Kategoriemodell-Erzeugungsprozedur, um zu entscheiden, ob sie ein Muster periodischer Ereignisse enthält, und falls ja, das ausführliche Periodizitätsmodell zu entscheiden:
    • 301. Schätze Kategorien. Gleiche die Erscheinungszeiten eindeutiger Werte in der Zeitreihe Y aus, sortiere diese eindeutigen Werte in zunehmender Reihenfolge und zeichne sie in einer geordneten Liste Cestimated = [C1, C2, ... Cu} und Nestimated = [N1, N2, ..., Nu} auf, wobei u die Anzahl der eindeutigen Werte ist und Ni die Erscheinungszeit des eindeutigen Werts von Ci in Y ist.
    • 302. Clustere geschätzte Kategorien. Aus den geschätzten Kategoriewerten in Cestimated werden sie auf der Grundlage ihres Abstands bei einem gegebenen Kategorieabstandsverhältnis σ (z. B. σ = 0,01) geclustert.
      • 302.a - Berechne den Abstand jedes Werts in Cestimated zu seinem nächsten Nachbarn in der sortierten Liste: Destimated = [d1 = |C2-C1|, d2 = |C3-C2|,... du-1 = |Cu-Cu-1|}. Es sei dmax = max{di, 1 ≤ i ≤ u-1}.
      • 302.b - Initialisiere eine Liste Dindex = {}. Falls der Abstandswert di erfüllt, dass (di/Dmax) ≤ σ ist, wird i von i = 1 bis (u-1) zu der Liste Dindex= Dindex + {i} addiert.
      • 302.c - Falls die Liste Dindex leer ist, wird für die Zeitreihe Y kein Kategoriemodell ermittelt.
      • 302.d - Initialisiere das abschließende Kategoriemodell als eine Liste Cfinal = {} und setze k = 1, falls die Liste Dindex nicht leer ist. Von i = 1 bis u:
        • 302.d.1 - Falls i nicht in Dindex und Cfinal ist, erzeugt es eine neue Kategorieliste C'k = {Ci}; addiere sie zu dem abschließenden Kategoriemodell Cfinal = Cfinal+{C'k}, k = k+1;
        • 302.d.2 - Falls i in Dindex ist, ermittelt es die längste aufeinanderfolgende ganzzahlige Folge (i, i+1, i+2, ..., i+c) in Dindex, erzeugt es eine neue Kategorieliste C'k = {Ci, Ci+1, ..., Ci+c+1}, und addiere sie sie zu dem abschließenden Kategoriemodell Cfinal = Cfinal + {C'k}, k = k+1.
    • 303. Modelliere Kategorien. Falls es kein Kategoriemodell gibt, wird hier angehalten. Andernfalls wird für das abschließende Kategoriemodell Cfinal = {C'1, C'2, ..., C'F} für jedes C'k = {Ci, Ci+1, ..., Ci+j}, 1 ≤ k ≤ F, der Modellparameter (Center(C'k), Error(C'k)) berechnet und wird für das gesamte Kategoriemodell Cfinal eine Eignungsbewertung berechnet:
      • 303.a - Center (C'k) = Cm, wobei m Max{Nm, i ≤ m ≤ i + j} ist, d. h., der eindeutige Wert mit der größten Erscheinungszeit in Y wird als das Clusterzentrum der Kategorie C'k gewählt.
      • 303.b - Error(C'k) = max{|Cm - Center (C'k)|, i ≤ m ≤ i + j}, d. h., die Fehlerschranke wird als der größte Abstand der eindeutigen Werte in C'k zu ihrem Zentrum gewählt.
      • 303.c - Size(C'k) = Σm:i,...,i+jNm; average_size(Cfinal) = (K-1)/F; fitness(Cfi-nal) = min{Size(C'k), 1 ≤ k ≤ F}/average_size(Cfinal).
  • Zum Beispiel zeigt 7, dass für die Protokolle in 1 zwei Kategorien erzeugt werden: eine mit dem Zentrumswert 3,96 · 107 (11-Stunden Abstand) und Fehlerschranke 0 und eine weitere mit dem Zentrumswert 4,68 · 107 (13-Stunden Abstand) und Fehlerschranke 0; die Eignungsbewertung für das gesamte Kategoriemodell ist 0,9629629629629629.
  • 8 zeigt die Einzelheiten der CMBPA-Protokolle-zu-Zeitreihen-Umsetzungsprozedur für die Testprozedur:
    • 501. Protokollformatauswahl. Aus der Menge in 201 erzeugter Protokollformate werden für den Rest der Testprozedur nur die Formate mit Kategoriemodellen ausgewählt.
    • 502. Zeitstempelerkennung pro Nachricht. Für jede Protokollnachricht i in den Prüfdaten Ermittle das Protokollformat fi, für das sie passt (z. B. durch einen Test regulärer Ausdrücke), und extrahiere den Zeitstempel ti für i. Falls i kein passendes Format ermittelt, wird sie für den Rest der Testprozedur herausgefiltert.
  • 9 zeigt die Einzelheiten der CMBPA-Kategoriemodell-Testprozedur. Für jede Protokollnachricht i mit einem passenden Format fi in 105 ist das Folgende die Kategoriemodell-Testprozedur, um zu entscheiden, ob sie das durch das Kategoriemodell von fi beschriebene Periodizitätsverhalten verletzt und eine Anomalie berichtet werden sollte:
    • 601. Ermittle die Kategorie. Es sei T die Zeit zwischen Ankünften des Protokolls i und des vorhergehenden Protokolls, deren Format fi passt. Ermittle C'm: Center(C'm) = min{|T-Center(C'j)|, , 1 ≤ j ≤ F} für das Kategoriemodell Cf = {C'1, C'2,...,C'F } des Formats fi.
    • 602. Prüfe die Fehlerschranke. Falls |T - Center(C'm))| > Error(C'm)) ist, verletzt die Protokollnachricht i das durch das Kategoriemodell von fi beschriebene Periodizitätsverhalten. Andernfalls verletzt sie kein Periodizitätsverhalten.
    • 603. Berichte eine Anomalie. Falls die Protokollnachricht i das Periodizitätsverhalten verletzt, wird die Kategoriemodell-Eignungsbewertung geprüft: Falls sie größer als ein Schwellenwert α (z. B. 0,5) ist, wird eine Anomalie berichtet; andernfalls wird keine Anomalie berichtet, bis κ (z. B. 2) aufeinanderfolgende Protokolle, die zu dem Format fi passen, das die Protokollnachricht i enthält, das Periodizitätsverhalten verletzen.
  • 10 zeigt die drei aus den Protokollen in 2 auf der Grundlage des aus den Protokollen in 1 gelernten Periodizitätsmodells detektierten Periodizitätsanomalien.
  • Anhand der Zeichnungen, in denen gleiche Bezugszeichen dieselben oder ähnliche Elemente repräsentieren, und anfangs anhand von 11 ist ein Blockschaltplan, der ein beispielhaftes Verarbeitungssystem 100 beschreibt, auf das die vorliegenden Prinzipien angewendet werden können, in Übereinstimmung mit einer Ausführungsform der vorliegenden Prinzipien gezeigt. Das Verarbeitungssystem 100 enthält wenigstens einen Prozessor (eine CPU) 104, der über einen Systembus 102 mit anderen Komponenten funktional gekoppelt ist. Mit dem Systembus 102 sind ein Cache 106, ein Nur-Lese-Speicher (ROM) 108, ein Schreib-Lese-Speicher (RAM) 110, ein Eingabe/Ausgabe-Adapter (E/A-Adapter) 120, ein Tonadapter 130, ein Netzadapter 140, ein Anwenderschnittstellenadapter 150 und ein Anzeigeadapter 160 funktional gekoppelt.
  • Mit einem Systembus 102 sind durch den E/A-Adapter 120 eine erste Ablagespeichervorrichtung 122 und eine zweite Ablagespeichervorrichtung 124 funktional gekoppelt. Die Ablagespeichervorrichtungen 122 und 124 können eine Plattenablagespeichervorrichtung (z. B. eine magnetische oder optische Plattenablagespeichervorrichtung), eine magnetische Festkörpervorrichtung usw. sein. Die Ablagespeichervorrichtungen 122 und 124 können von demselben Typ einer Ablagespeichervorrichtung oder von unterschiedlichen Typen von Ablagespeichervorrichtungen sein.
  • Mit dem Systembus 102 ist durch den Tonadapter 130 ein Lautsprecher 132 funktional gekoppelt. Mit dem Systembus 102 ist durch einen Netzadapter 140 ein Transceiver 142 funktional gekoppelt. Mit dem Systembus 102 ist durch ein Anzeigeadapter 160 eine Anzeigevorrichtung 162 funktional gekoppelt. Mit dem Systembus 102 sind durch einen Anwenderschnittstellenadapter 150 eine erste Anwendereingabevorrichtung 152, eine zweite Anwendereingabevorrichtung 154 und eine dritte Anwendereingabevorrichtung 156 funktional gekoppelt. Die Anwendereingabevorrichtungen 152, 154 und 156 können eine Tastatur oder eine Maus oder ein Tastenfeld oder eine Bilderfassungsvorrichtung oder eine Bewegungserfassungsvorrichtung oder ein Mikrofon oder eine Vorrichtung, die die Funktionalität wenigstens zweier der vorhergehenden Vorrichtungen enthält, usw. sein. Natürlich können andere Typen von Eingabevorrichtungen ebenfalls verwendet werden, während der Erfindungsgedanke der vorliegenden Prinzipien aufrechterhalten wird. Die Anwendereingabevorrichtungen 152, 154 und 156 können derselbe Typ einer Anwendereingabevorrichtung oder unterschiedliche Typen von Anwendereingabevorrichtungen sein. Die Anwendereingabevorrichtungen 152, 154 und 156 werden zur Eingabe und Ausgabe von Informationen in das und aus dem System 100 verwendet.
  • Wie der Fachmann auf dem Gebiet leicht erkennt, kann das Verarbeitungssystem 100 natürlich weitere Elemente (nicht gezeigt) enthalten und können bestimmte Elemente weggelassen sein. Wie der Durchschnittsfachmann auf dem Gebiet leicht versteht, können z. B. verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in Abhängigkeit von der bestimmten Implementierung desselben in dem Verarbeitungssystem 100 enthalten sein. Zum Beispiel können verschiedene Arten drahtloser und/oder verdrahteter Eingabe- und/oder Ausgabevorrichtungen verwendet sein. Wie der Durchschnittsfachmann auf dem Gebiet leicht würdigen wird, können darüber hinaus ebenfalls zusätzliche Prozessoren, Controller, Speicher usw. in verschiedenen Konfigurationen genutzt sein. Diese und weitere Änderungen des Verarbeitungssystems 100 gehen für den Durchschnittsfachmann auf dem Gebiet mit den hier gegebenen Lehren der vorliegenden Prinzipien leicht hervor.
  • Selbstverständlich können die hier beschriebenen Ausführungsformen vollständig Hardware sein oder sowohl Hardware- als auch Softwareelemente, was Firmware, residente Software, Mikrocode usw. enthält, darauf aber nicht beschränkt, enthalten.
  • Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computernutzbaren oder computerlesbaren Medium zugegriffen werden kann, das Programmcode zur Verwendung durch oder in Verbindung mit einem Computer oder irgendeinem Anweisungsausführungssystem bereitstellt. Ein computernutzbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch oder in Verbindung mit dem Anweisungsausführungssystem, der Anweisungsausführungsvorrichtung oder der Anweisungsausführungseinrichtung speichert, übermittelt, ausbreitet oder transportiert. Das Medium kann ein magnetisches System, ein optisches System, ein elektronisches System, ein elektromagnetisches System, ein Infrarot- oder Halbleitersystem (oder eine magnetische Vorrichtung, eine optische Vorrichtung, eine elektronische Vorrichtung, eine elektromagnetische Vorrichtung, eine Infrarot- oder Halbleitervorrichtung oder eine magnetische Einrichtung, eine optische Einrichtung, eine elektronische Einrichtung, eine elektromagnetische Einrichtung, eine Infrarot- oder Halbleitereinrichtung) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium wie etwa einen Halbleiter oder Festkörperspeicher, ein Magnetband, eine Computerwechseldiskette, einen Schreib-Lese-Speicher (RAM), einen Nur-Lese-Speicher (ROM), eine magnetische Festplatte und ein optische Platte usw. enthalten.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, kann wenigstens einen Prozessor, z. B. einen Hardwareprozessor, der mit Speicherelementen über einen Systembus direkt oder indirekt gekoppelt ist, enthalten. Die Speicherelemente können einen lokalen Speicher, der während der tatsächlichen Ausführung des Programmcodes genutzt wird, einen Massenablagespeicher und Cache-Speicher, die eine vorübergehende Speicherung wenigstens von etwas Programmcode bereitstellen, um die Anzahl, in der der Code während der Ausführung aus dem Massenablagespeicher ausgelesen wird, zu verringern, enthalten. Die Eingabe/Ausgabe- oder E/A-Vorrichtungen (einschließlich, aber nicht beschränkt auf, Tastaturen, Anzeigen, Zeigevorrichtungen usw.) können entweder direkt oder über Zwischen-E/A-Controller mit dem System gekoppelt sein.
  • Das Vorstehende ist in jeder Hinsicht als veranschaulichend und beispielhaft, aber nicht als einschränkend zu verstehen, wobei der Schutzumfang der hier offenbarten Erfindung nicht aus der ausführlichen Beschreibung, sondern vielmehr aus den Ansprüchen, wie sie in Übereinstimmung mit der vollen durch die Patentgesetze zugelassenen Breite interpretiert sind, bestimmt ist. Selbstverständlich sind die hier gezeigten und beschriebenen Ausführungsformen nur veranschaulichend für die Prinzipien der vorliegenden Erfindung und kann der Fachmann auf dem Gebiet verschiedene Änderungen implementieren, ohne von dem Schutzumfang und von dem Erfindungsgedanken der Erfindung abzuweichen. Der Fachmann auf dem Gebiet könnte verschiedene andere Merkmalskombinationen implementieren, ohne von dem Schutzumfang und von dem Erfindungsgedanken der Erfindung abzuweichen.

Claims (20)

  1. Verfahren zum Detektieren von Verhalten periodischer Ereignisse aus einer maschinengenerierten Protokollierung, wobei das Verfahren umfasst: Erfassen heterogener Protokollnachrichten, wobei jede Protokollnachricht einen Zeitstempel und Textinhalt mit einem oder mehreren Feldern enthält; Transformieren des Textinhalts in eine Menge von Zeitreihendaten; Analysieren der Menge von Zeitreihendaten und Aufbauen eines Kategoriemodells für jeden Typ eines periodischen Ereignisses in heterogenen Protokollen während einer Trainingsphase; und Anwenden des Kategoriemodells auf einen Strom von Zeitreihendaten von heterogenen Live-Protokollnachrichten und Erzeugen eines Merkers an einem Zeitreihendatenpunkt, der das Kategoriemodell verletzt, und Erzeugen eines Alarmberichts über die entsprechende Protokollnachricht während des Live-Betriebs.
  2. Verfahren nach Anspruch 1, wobei die heterogenen Protokollnachrichten von unbekannten Systemen oder Anwendungen sind.
  3. Verfahren nach Anspruch 1, das das Anwenden einer oder mehrerer Managementanwendungen auf die heterogenen Protokollnachrichten auf der Grundlage einer Kategoriemodellausgabe umfasst.
  4. Verfahren nach Anspruch 1, das das Anwenden einer oder mehrerer Managementanwendungen auf die heterogenen Protokollnachrichten auf der Grundlage einer Kategoriemodellprüfungsausgabe umfasst.
  5. Verfahren nach Anspruch 1, das das Anwenden eines protokollbasierten Fehlermanagements durch Entdecken fehlender Protokollnachrichten, Nachrichten, die zu erwarteten Zeitpunkten nicht erkannt worden sind, oder durch Detektieren anomaler Protokollnachrichten, die zu einer Ausgabe zu unerwarteten Zeitpunkten erkannt worden sind, umfasst.
  6. Verfahren nach Anspruch 1, das umfasst: Verarbeiten einer Tokenisierung zum Erzeugen semantisch sinnvoller Token aus Protokollnachrichten; wobei eine Ähnlichkeitsmessung auf heterogene Protokolle angewendet wird, nachdem die heterogenen Protokolle tokenisiert worden sind; und Anwenden eines hierarchischen Protokollclusterungsverfahrens, um eine Protokollclusterhierarchie zu erzeugen und auszugeben, wenn Ähnlichkeiten zwischen Protokollen erfasst werden.
  7. Verfahren nach Anspruch 1, das das Ausrichten der Protokollnachrichten innerhalb jedes Clusters auf der untersten Ebene in der Protokollclusterhierarchie, um unbekannte Anordnungen heterogener Protokolle zu erhalten und bei der Protokollmustererkennung zu helfen, umfasst.
  8. Verfahren nach Anspruch 7, das das Durchführen einer Protokollmotiventdeckung, um repräsentative Anordnungen und Protokollfelder zu ermitteln, umfasst.
  9. Verfahren nach Anspruch 8, das das Erkennen von Mustern aus den Motiven durch Erkennen von Zeitstempeln, Internetprotokolladressen (IP-Adressen) und Universal Resource Locators (URLs); das Erkennen von Feldern, die in den Protokollen erhalten sind, und das Organisieren der Felder in einer Datenstruktur in der Clusterhierarchie; und die Rückwärtsfortpflanzung von Informationen in einer Hierarchie nach oben und das Verschmelzen der rückwärts fortgepflanzten Informationen mit lokalen Mustern, um aus den Protokollen Formatmusterdarstellungen bereitzustellen, umfasst.
  10. Verfahren nach Anspruch 1, das das Ordnen angepasster Nachrichten auf der Grundlage der Zeitstempel und für K geordnete Nachrichten das Markieren ihrer Zeitstempel als X = {X1, X2, ..., XK) und das Ausgeben einer Zeitreihe zwischen Ankünften als Y = (Y1 = X2 - X1, Y2 = X3 - X2, ..., YK-1 = XK - XK-1} umfasst.
  11. Verfahren nach Anspruch 10, das das Schätzen der Kategorien durch Zählen der Erscheinungszeiten eindeutiger Werte in den Zeitreihen Y, das Sortieren eindeutiger Werte in zunehmender Reihenfolge und das Aufzeichnen in einer geordneten Liste Cestimated = [C1, C2, ... Cu} und Nestimated = [N1, N2, ... Nu} umfasst, wobei u eine Anzahl eindeutiger Werte ist und Ni die Erscheinungszeit des eindeutigen Werts Ci in Y ist.
  12. Verfahren nach Anspruch 11, das das Clustern der geschätzten Kategorien umfasst.
  13. Verfahren nach Anspruch 12, das das Erzeugen eines abschließenden Kategoriemodells Cfinal = {C'1, C'2, ..., C'F}, das Bestimmen eines Modellparameters (Center(C'k), Error(C'k)) für jedes C'k = {Ci, Ci+1, ..., Ci+j}, 1 ≤ k ≤ F, und eine Eignungsbewertung für ein Kategoriemodell Cfinal umfasst.
  14. Verfahren nach Anspruch 13, das das Bestimmen von C'm umfasst: Center(C'm) = min{|T-Center(C'j)|, , 1 ≤ j ≤ F}, wobei T eine Zeit zwischen den Ankünften des Protokolls i und eines vorhergehenden Protokolls, deren Format fi zu dem Kategoriemodell Cf = {C'1, C'2, ..., C'F} passt, ist.
  15. Verfahren nach Anspruch 14, das das Bestimmen einer Periodizitätsverhaltensverletzung, falls |T - Center(C'm))| > Error(C'm)) ist, umfasst.
  16. Verfahren nach Anspruch 1, wobei die Maschine einen Motor und einen Digitizer zum Erfassen der durch den Motor angetriebenen Bewegung umfasst.
  17. System, das umfasst: einen mechanischen Aktuator; einen Digitizer, der mit dem Aktuator gekoppelt ist, um Daten zu protokollieren; ein Modul zum Detektieren der Verhalten periodischer Ereignisse aus der maschinengenerierten Protokollierung, das Code enthält zum: Erfassen heterogener Protokollnachrichten, wobei jede Protokollnachricht einen Zeitstempel und Textinhalt mit einem oder mehreren Feldern enthält; Transformieren des Textinhalts in eine Menge von Zeitreihendaten; Analysieren der Menge von Zeitreihendaten und Aufbauen eines Kategoriemodells für jeden Typ eines periodischen Ereignisses in heterogenen Protokollen während einer Trainingsphase; und Anwenden des Kategoriemodells auf einen Strom von Zeitreihendaten von heterogenen Live-Protokollnachrichten und Erzeugen eines Merkers an einem Zeitreihendatenpunkt, der das Kategoriemodell verletzt, und Erzeugen entsprechender Protokollnachrichten während des Live-Betriebs.
  18. System nach Anspruch 17, wobei der Aktuator einen Motor umfasst.
  19. System nach Anspruch 17, wobei der Aktuator eine Kraftmaschine ist.
  20. System nach Anspruch 17, das Code umfasst zum: Ausrichten der Protokollnachrichten innerhalb jedes Clusters auf der untersten Ebene in der Protokollclusterhierarchie, um unbekannte Anordnungen heterogener Protokolle zu erhalten und bei der Protokollmustererkennung zu helfen; Durchführen einer Protokollmotiventdeckung, um repräsentative Anordnungen und Protokollfelder zu ermitteln; und Erkennen eines Musters aus den Motiven durch Erkennen von Zeitstempeln, Internetprotokolladressen (IP-Adressen) und Universal Resource Locators (URLs); Erkennen von Feldern, die in den Protokollen erhalten sind, und Organisieren der Felder in einer Datenstruktur in der Clusterhierarchie; und Rückwärtsfortpflanzen von Informationen in einer Hierarchie nach oben und Verschmelzen der rückwärts fortgepflanzten Informationen mit lokalen Mustern, um Formatmusterdarstellungen aus den Protokollen bereitzustellen.
DE112016005143.3T 2015-11-09 2016-11-02 Periodizitätsanalyse an heterogenen Protokollen Pending DE112016005143T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562252685P 2015-11-09 2015-11-09
US62/252,685 2015-11-09
US15/340,255 US10679135B2 (en) 2015-11-09 2016-11-01 Periodicity analysis on heterogeneous logs
US15/340,255 2016-11-01
PCT/US2016/060131 WO2017083148A1 (en) 2015-11-09 2016-11-02 Periodicity analysis on heterogeneous logs

Publications (1)

Publication Number Publication Date
DE112016005143T5 true DE112016005143T5 (de) 2018-07-26

Family

ID=58667728

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016005143.3T Pending DE112016005143T5 (de) 2015-11-09 2016-11-02 Periodizitätsanalyse an heterogenen Protokollen

Country Status (4)

Country Link
US (1) US10679135B2 (de)
JP (1) JP2018535501A (de)
DE (1) DE112016005143T5 (de)
WO (1) WO2017083148A1 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10685293B1 (en) * 2017-01-20 2020-06-16 Cybraics, Inc. Methods and systems for analyzing cybersecurity threats
US10917419B2 (en) 2017-05-05 2021-02-09 Servicenow, Inc. Systems and methods for anomaly detection
CN107273269B (zh) * 2017-06-12 2021-04-23 北京奇虎科技有限公司 日志解析方法及装置
US11120033B2 (en) * 2018-05-16 2021-09-14 Nec Corporation Computer log retrieval based on multivariate log time series
US12019433B2 (en) * 2018-08-03 2024-06-25 Nec Corporation Periodicity analysis apparatus, method and program recording medium
JP7173284B2 (ja) * 2018-08-03 2022-11-16 日本電気株式会社 イベント監視装置、方法及びプログラム
CN110389840B (zh) * 2019-07-25 2022-02-01 中国工商银行股份有限公司 负载消耗预警方法、装置、计算机设备和存储介质
CN110955709B (zh) * 2019-11-05 2023-03-24 北京字节跳动网络技术有限公司 一种数据的处理方法、装置及电子设备
CN113569879B (zh) * 2020-04-28 2024-03-19 中国移动通信集团浙江有限公司 异常识别模型的训练方法、异常账号识别方法及相关装置
US11741146B2 (en) * 2020-07-13 2023-08-29 Nec Corporation Embedding multi-modal time series and text data
EP4193236A4 (de) 2020-08-04 2024-08-21 Arch Systems Inc Verfahren und systeme zur prädiktiven analyse und/oder prozesssteuerung
CN112738088B (zh) * 2020-12-28 2023-03-21 上海观安信息技术股份有限公司 一种基于无监督算法的行为序列异常检测方法及系统
CN113485886B (zh) * 2021-06-25 2023-07-21 青岛海尔科技有限公司 告警日志的处理方法和装置、存储介质及电子装置
CN114048870A (zh) * 2021-11-04 2022-02-15 佳源科技股份有限公司 一种基于日志特征智能挖掘的电力系统异常监测方法
CN114138095B (zh) * 2022-01-29 2022-05-10 阿里巴巴(中国)有限公司 互联网数据中心idc的功耗处理方法、设备和可读介质
CN115017015B (zh) * 2022-08-04 2023-01-03 北京航空航天大学 一种边缘计算环境下程序异常行为检测方法及系统
US11943123B1 (en) * 2022-09-01 2024-03-26 Conviva Inc. Timeline framework for time-state analytics
CN116089289A (zh) * 2023-01-13 2023-05-09 中电信数智科技有限公司 一种基于多源异构数据的系统检测方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496959B2 (en) * 2003-06-23 2009-02-24 Architecture Technology Corporation Remote collection of computer forensic evidence
US20070143842A1 (en) * 2005-12-15 2007-06-21 Turner Alan K Method and system for acquisition and centralized storage of event logs from disparate systems
US20070300300A1 (en) * 2006-06-27 2007-12-27 Matsushita Electric Industrial Co., Ltd. Statistical instrusion detection using log files
US8112368B2 (en) * 2008-03-10 2012-02-07 The Boeing Company Method, apparatus and computer program product for predicting a fault utilizing multi-resolution classifier fusion
WO2014043623A1 (en) * 2012-09-17 2014-03-20 Siemens Corporation Log-based predictive maintenance
US20140096146A1 (en) * 2012-09-28 2014-04-03 Hewlett-Packard Development Company, L.P. Translating time-stamped events to performance indicators
US20150085146A1 (en) * 2013-09-23 2015-03-26 Nvidia Corporation Method and system for storing contact information in an image using a mobile device
US10348581B2 (en) * 2013-11-08 2019-07-09 Rockwell Automation Technologies, Inc. Industrial monitoring using cloud computing
WO2015188275A1 (en) * 2014-06-10 2015-12-17 Sightline Innovation Inc. System and method for network based application development and implementation
US10592093B2 (en) * 2014-10-09 2020-03-17 Splunk Inc. Anomaly detection
US10474680B2 (en) * 2014-10-09 2019-11-12 Splunk Inc. Automatic entity definitions

Also Published As

Publication number Publication date
WO2017083148A1 (en) 2017-05-18
US10679135B2 (en) 2020-06-09
JP2018535501A (ja) 2018-11-29
US20170132523A1 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
DE112016005143T5 (de) Periodizitätsanalyse an heterogenen Protokollen
CN108537544A (zh) 一种交易系统实时监控方法及其监控系统
CN107895011B (zh) 会话信息的处理方法、系统、存储介质和电子设备
Li et al. An integrated framework on mining logs files for computing system management
DE112016005292T5 (de) Automatischer Abweichungsdetektionsdienst auf heterogenen Protokollströmen
DE112020004052T5 (de) Sequenzmodelle zur audioszenenerkennung
DE102019112700A1 (de) Autonome anomalieerkennung und ereignisauslösung für datenströme
CN110869942B (zh) 自馈深度学习方法和系统
US7464068B2 (en) System and method for continuous diagnosis of data streams
CN114138968B (zh) 一种网络热点的挖掘方法、装置、设备及存储介质
CN113139141A (zh) 用户标签扩展标注方法、装置、设备及存储介质
CN108280021A (zh) 一种基于机器学习的日志等级分析方法
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN113010659A (zh) 一种问卷样本处理方法及装置
CN106682206A (zh) 一种大数据处理方法及系统
Cordell et al. Disaggregating repression: Identifying physical integrity rights allegations in human rights reports
CN109819019B (zh) 用于大规模网络数据采集的监控与统计分析方法和系统
Ariannezhad et al. Large-scale loop detector troubleshooting using clustering and association rule mining
CN116010187A (zh) 一种日志检测方法以及相关装置
Zhang et al. Failure prediction in ibm bluegene/l event logs
CN117170922A (zh) 日志数据分析方法、装置、终端设备以及存储介质
EP1264253B1 (de) Verfahren und anordnung zur modellierung eines systems
CN113393169B (zh) 基于大数据技术的金融行业交易系统性能指标分析方法
CN113569879B (zh) 异常识别模型的训练方法、异常账号识别方法及相关装置
Long et al. Automated crisis content categorization for covid-19 tweet streams

Legal Events

Date Code Title Description
R012 Request for examination validly filed