DE112020002886T5

DE112020002886T5 - Kontextabhängiges data-mining

Info

Publication number: DE112020002886T5
Application number: DE112020002886.0T
Authority: DE
Inventors: Giacomo Domeniconi; Eun Kyung Lee; Alessandro Morari
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-06-11
Filing date: 2020-05-27
Publication date: 2022-02-24
Also published as: GB202117769D0; JP2022536241A; GB2599300A; CN113906445A; JP7481074B2; US11409754B2; WO2020250064A1; US20200394186A1

Abstract

Ein Verfahren für ein kontextabhängiges Data-Mining eines Textdokuments, wobei das Verfahren Folgendes umfasst: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen, mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird; und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein Gewinnen, Darstellen, Abrufen und Ableiten von Wissen und insbesondere auf ein kontextabhängiges Data-Mining von Textdokumenten.
HINTERGRUND
Worteinbettungen gehören zu einer Klasse von Techniken, bei denen einzelne Wörter als reellwertige Vektoren in einem vordefinierten Vektorraum dargestellt werden. Jedes Wort ist einem Punkt in einem Vektorraum zugehörig. Jedes Wort wird durch einen reellwertigen Merkmalsvektor mit Dutzenden oder Hunderten von Dimensionen dargestellt, wobei jede Dimension einem Merkmal zugehörig ist, das einen Aspekt des Wortes darstellt. Dies steht im Gegensatz zu den Tausenden oder Millionen von Dimensionen, die für dünn besetzte Wortdarstellungen erforderlich sind wie zum Beispiel bei der One-Hot-Codierung (1-aus-n-Code), bei der ein Wort durch eine einzige Komponente in einem Vektor dargestellt wird, dessen Größe der Größe des Vokabulars entspricht, eine Darstellung, die als „Bag-of-Words“ bekannt ist. Andererseits ist die Anzahl der Merkmale viel kleiner als der Umfang des Vokabulars. Die verteilte Darstellung erfolgt auf der Grundlage von der Verwendung der Wörter, ausgehend von der Annahme, dass Wörter, die in einem ähnlichen Kontext stehen, auch ähnliche Bedeutungen haben. Dadurch können Wörter, die in ähnlicher Weise verwendet werden, zu ähnlichen Darstellungen führen, wodurch ihre Bedeutung auf natürliche Weise erfasst wird. Dies steht im Gegensatz zu einem Bag-of-Words-Modell, bei dem verschiedene Wörter mit ähnlichen Bedeutungen sehr unterschiedliche Darstellungen haben können. Die Verwendung dichter und niedrigdimensionaler Vektoren ist insofern rechentechnisch vorteilhaft, als die meisten Toolkits für neuronale Netzwerke nicht gut mit sehr hochdimensionalen, dünn besetzten Vektoren funktionieren. Ein weiterer Vorteil der dichten Darstellungen ist die Fähigkeit zur Verallgemeinerung: Wenn man davon ausgeht, dass einige Merkmale ähnliche Anhaltspunkte liefern, lohnt es sich, eine Darstellung bereitzustellen, die diese Ähnlichkeiten erfassen kann. In der Computerlinguistik (CL; natural language processing, NLP) werden bei der Worteinbettung Wörter oder Sätze aus natürlichen Sprachen durch Vektoren aus reellen Zahlen dargestellt. Die Darstellung kann ausschließlich auf der Grundlage von der Verwendung des Wortes, d.h. seinem Kontext, erfolgen.
Protokolldaten eines Datenverarbeitungssystems sind für ein Verstehen und Erkennen von Systemproblemen unerlässlich. Das Volumen, die Vielfalt, die Geschwindigkeit usw. der Protokolldaten sind enorm, und ihre Verwendung für Systemdiagnosen und Fehlerbehebung ist eine Herausforderung für Systemadministratoren. Die Protokolldaten eines Datenverarbeitungssystems können im CL-Worteinbettungsformat dargestellt werden, wobei die spezifische Darstellung nicht festgelegt ist. Zum Beispiel kann jedes Wort im Protokoll als Token verwendet werden, aber auch eine ganze Zeile des Protokolls kann als Token betrachtet werden.
KURZDARSTELLUNG
Gemäß einem Aspekt der Erfindung wird ein Verfahren für ein kontextabhängiges Data-Mining eines Textdokuments bereitgestellt, das Folgendes umfasst: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden, Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments, Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen, Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
Gemäß einer Ausführungsform wird das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt.
Gemäß einer weiteren Ausführungsform ist N eine positive ganze Zahl, die vom Benutzer bereitgestellt wird.
Gemäß einer weiteren Ausführungsform umfasst das Verfahren ein Trainieren des Worteinbettungsmodells des Textdokuments durch syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste, Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält, und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile in dem Wortwörterbuch durch einen Vektor darstellt.
Gemäß einer weiteren Ausführungsform umfasst ein syntaktisches Analysieren und Vorverarbeiten des Textdokuments Folgendes: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments, syntaktisches Analysieren numerischer Daten, Tokenisieren (in Tokens zerlegen) des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
Gemäß einer weiteren Ausführungsform handelt es sich bei dem Textdokument um ein Computersystemprotokoll, und die numerischen Daten umfassen Dezimalzahlen und hexadezimale Adressen.
Gemäß einer weiteren Ausführungsform umfasst das Verfahren ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
Gemäß einer weiteren Ausführungsform umfasst ein Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, Folgendes: Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten.
Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zum kontextabhängigen Data-Mining eines Textdokuments bereitgestellt, das Folgendes umfasst: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste, Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält, und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt. Das syntaktische Analysieren und Vorverarbeiten des Textdokuments umfasst Folgendes: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments, syntaktisches Analysieren numerischer Daten, Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
Gemäß einer Ausführungsform umfasst das Verfahren Folgendes: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden, Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels des Worteinbettungsmodells des abgefragten Textdokuments, Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen, Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
Gemäß einer weiteren Ausführungsform umfasst das Verfahren ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
Gemäß einer weiteren Ausführungsform umfasst ein Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, Folgendes: Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten.
Gemäß einer weiteren Ausführungsform handelt es sich bei dem Textdokument um ein Computersystemprotokoll, und die numerischen Daten umfassen Dezimalzahlen und hexadezimale Adressen.
Gemäß einer weiteren Ausführungsform wird das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt.
Gemäß einer weiteren Ausführungsform ist N eine positive ganze Zahl, die vom Benutzer bereitgestellt wird.
Gemäß einem weiteren Aspekt der Erfindung wird eine von einem Computer lesbare Programmspeichereinheit bereitgestellt, die ein Programm mit Befehlen enthält, die von dem Computer ausgeführt werden können, um die Verfahrensschritte für kontextabhängiges Data-Mining eines Textdokuments durchzuführen.
Die im Folgenden beschriebenen beispielhaften Ausführungsformen beziehen sich auf eine neuartige Schnittstelle, bei der ein Benutzer eine Suchanfrage in Form eines beliebigen Textes formulieren kann, zum Beispiel Wörter, Zeilen, Absätze usw., und ein spezialisierter, auf CL beruhender Algorithmus Segmente von Protokolldaten eines Computersystems zurückliefert, die einen ähnlichen Wortkontext wie die Suchanfrage aufweisen. Ein Ansatz gemäß einer Ausführungsform der Offenbarung beruht auf dem Kontext der Wörter in der Suchanfrage und nicht auf einem einfachen Abgleich von Zeichenfolgen. Dies erleichtert es dem Benutzer, sinnvolle Ereignisse in dem Protokoll zu finden. Ein Ansatz gemäß einer Ausführungsform beruht auf der Grundlage von nicht überwachtem Lernen. Er stützt sich auf Textinformationen, die bereits in den Protokollen vorhanden sind, und kann ohne Vorwissen über die Ereignisse, die Schlüsselwörter oder die Struktur des Protokolltextes durchgeführt werden.
Figurenliste

1 zeigt ein Blockschaubild eines Verfahrens zum Verarbeiten einer Suchanfrage eines Benutzers gemäß einer Ausführungsform der Erfindung.
2 zeigt ein Blockschaubild eines Verfahrens zum Erstellen eines Modells gemäß einer Ausführungsform der Erfindung.
3 zeigt ein Blockschaubild eines Verfahrens gemäß einer anderen Ausführungsform der Erfindung.
4 zeigt eine schematische Darstellung eines beispielhaften Cloud-Computing-Knotens, der eine Ausführungsform der Erfindung umsetzt.
5 zeigt eine beispielhafte Cloud-Computing-Umgebung, die in Ausführungsformen der Erfindung eingesetzt wird.

AUSFÜHRLICHE BESCHREIBUNG
Die hier beschriebenen beispielhaften Ausführungsformen stellen im Allgemeinen Verfahren für ein auf CL beruhendes kontextabhängiges Protokoll-Mining bereit. Wenngleich Ausführungsformen verschiedene Modifikationen und alternative Formen aufweisen können, sind spezifische Ausführungsformen davon in den Zeichnungen beispielhaft dargestellt und werden hier im Einzelnen beschrieben. Es sei jedoch darauf hingewiesen, dass nicht beabsichtigt ist, die Offenbarung auf die offenbarten spezifischen Formen zu beschränken, sondern dass die Offenbarung im Gegenteil alle Modifikationen, Äquivalente und Alternativen abdecken soll, die dem Sinngehalt und Umfang der Offenbarung entsprechen.
1 zeigt ein Blockschaubild eines Verfahrens zum Verarbeiten einer Suchanfrage eines Benutzers gemäß einer Ausführungsform der Offenbarung. 1 zeigt einen Anwendungsfall, in dem ein Benutzer eine Suchanfrage 110 bereitstellt, die aus einzelnen Wörtern 111, Zeilen 112 oder Absätzen 113 bestehen kann, sowie die Größe der abgerufenen Segmente mit der Anzahl der Zeilen 114 und einen Ähnlichkeitsschwellenwert, der definiert, wie viele Segmente zurückgeliefert werden sollen. Die Suchanfrage 110 und die Anzahl der Zeilen 114 sind Eingaben für ein Verfahren gemäß einer Ausführungsform zum Abrufen 115 von ähnlichen Protokollsegmenten aus einem Computersystemprotokoll. Ein Verfahren gemäß einer Ausführungsform liefert als Ausgabe 120 eine Menge von Segmenten 120.1, 120.2, ..., 120.m zurück, die nach ihrer Ähnlichkeit mit dem Text der Suchanfrage sortiert sind.
2 zeigt ein Blockschaubild eines Verfahrens zum Erstellen eines Modells gemäß einer Ausführungsform der Offenbarung. 2 zeigt die Schritte, die zum Erstellen eines Modells gemäß einer Ausführungsform erforderlich sind. Auf der linken Seite ist ein Ablaufplan eines Verfahrens 210 zum Trainieren eines Worteinbettungsmodells abgebildet. Rechts oben befindet sich ein Ablaufplan für ein Verfahren 220 zum Verarbeiten der Systemprotokolldateien, um eine mit Tokens versehene Wortliste zu erhalten, und rechts unten befindet sich das Blockschaubild 230 einer gemeinsamen Worteinbettungsstruktur.
Unter Bezugnahme auf Ablaufplan 210 umfasst ein Verfahren zum Trainieren eines Modells ein syntaktisches Analysieren und Vorverarbeiten 211 von Protokollausgaben aus den Rohdaten eines Computersystemprotokolls, Definieren eines Wortwörterbuchs 212 und Trainieren 213 des Worteinbettungsmodells.
Das Verfahren 220 besteht im syntaktischen Analysieren und Vorverarbeiten 211 der Protokollausgaben aus den Rohdaten und umfasst Entfernen aller Satzzeichen und der Präambel von jeder Zeile 222, syntaktisches Analysieren von Zahlen und hexadezimalen Adressen 223, Tokenisieren des Protokolls in Wörter 224 und Zurückliefern der mit Tokens versehenen Wortliste 225. Die Zahlen und Hex-Adressen wurden mittels eines speziellen Token syntaktisch analysiert. Gemäß Ausführungsformen werden Dezimalzahlen durch ein Token dargestellt, hexadezimale Adressen werden durch ein anderes Token dargestellt, und die Information einer Zahl oder einer Adresse kann mit dem Token als Platzhalter belassen werden, wobei der Kontext nicht auf den spezifischen Wert beschränkt ist. Für die Wörter wurde keine Textverarbeitungstechnik verwendet, obwohl jede CL-Technik eingesetzt werden könnte. Tokenisieren des Protokolls bedeutet, die Protokolle in Tokens aufzuteilen, wobei ein Token als ein einzelnes Wort oder ein N-Gramm aus N aufeinanderfolgenden Wörtern oder auch als eine ganze Zeile des Protokolls definiert werden kann. Nach dem Tokenisieren des Protokolls besteht das Wörterbuch aus der Menge aller Tokens oder einer ausgewählten Teilmenge davon, zum Beispiel den häufigsten Tokens.
Gemäß einer Ausführungsform wird das Wörterbuch zum Definieren und Darstellen der Wörter (oder Zeilen) verwendet, die in dem Worteinbettungsmodell berücksichtigt werden. Unter Bezugnahme auf Schritt 231 von 2 wird das Eingabewort w[t] als ein One-Hot-Vektor dargestellt, dessen Anzahl der Elemente der Größe des Wörterbuchs entspricht, wobei jede 0 und eine 1 im Element dem Wort (oder der Zeile) entsprechen. Zu diesem Zweck wird ein definiertes Wörterbuch benötigt, um diese Vektoren zu erstellen. Zum Beispiel würde eine One-Hot-Vektordarstellung von „Rom“, „Paris“, „Italien“ und „Frankreich“ in einem V-dimensionalen Vektorraum wie folgt aussehen: $\begin{matrix} Rom = [1,0,0,0,0, \dots,0], \\ Paris = [0,1,0,0,0, \dots,0], \\ Italien = [0,0,1,0,0, \dots,0], \\ Frankreich = [0,0,0,1,0, \dots,0] . \end{matrix}$
Das Worteinbettungsmodell 230 verwendet eine Abstandsmaßzahl zwischen Protokollsegmenten von N Zeilen, wobei N ein benutzerdefinierter Parameter ist. Die Abstandsmaßzahl wird verwendet, um zu ermitteln, wie ähnlich die Kontexte zweier Protokollsegmente sind. Insbesondere wird die Maßzahl verwendet, um die N Segmente mit der höchsten Ähnlichkeit zur Suchanfrage des Nutzers abzurufen. Das Worteinbettungsmodell ist ein neuronales Netzwerkmodell, das ein Wort (oder eine Zeile) durch eine Einbettung, d.h. einen Vektor, darstellt. Ein Wort[t] 231 wird dann in die Wordeinbettungen 233 projiziert 232, die bei einer Fenstergröße von 5 Wort[t-2], Wort[t-1], Wort[t+1], und Wort[t+2] umfassen. Die Fenstergröße ist einer der Parameter des Modells, die von einem Benutzer bereitgestellt werden. Sobald das Worteinbettungsmodell trainiert wurde, kann eine Abstandsmaßzahl zwischen Segmenten von N Zeilen des Protokolls verwendet werden, wobei N ein benutzerdefinierter Parameter ist. Eine gängige Abstandsmaßzahl zwischen Worteinbettungen, d.h. Vektoren, ist eine Kosinus-Ähnlichkeit. Darüber hinaus kann ein überwachter Lernansatz verwendet werden. Dabei wird ein überwachtes Modell trainiert, zum Beispiel ein LSTM (Long Short Term Memory, langes Kurzzeitgedächtnis), um die Ähnlichkeit zwischen Dokumenten vorherzusagen.
3 ist ein Blockschaubild einer Suche während des Anwendungsfalls und umfasst Ablaufpläne, die eine Extraktion aus einem Suchanfrage-Anwendungsfall 310 und die Suchanfrage-Vorhersage 320 darstellen. Unter Bezugnahme auf den Anwendungsfall 310 stellt ein Benutzer 300 eine Suchanfrage bereit, zum Beispiel einen Teil des betreffenden unstrukturierten Textes und eine Anzahl von Zeilen des betreffenden Segments. Suchanfrage-Anwendungsfall 310 zeigt ferner ein Modell, das in Schritt 312 aus den Systemprotokolleingaben 311 trainiert wird, um ein Modell 313 zu erstellen. Die Schritte des Trainierens des Modells in Schritt 312 entsprechen einem Verfahren gemäß einer Ausführungsform des Trainierens eines Modells 210 von 2.
Die Suchanfrage wird in Schritt 314 syntaktisch analysiert auf der Grundlage des Verfahrens 220 zum Verarbeiten der Systemprotokolldateien in 2, welches die folgenden Schritte umfasst: Entfernen aller Satzzeichen und der Präambel jeder Zeile, syntaktisches Analysieren von Zahlen und hexadezimalen Adressen und Tokenisieren der Suchanfrage in Wörter: q = [w₁, w₂, ..., w_N].
Die Ausgabe q wird dann als Eingabe für Schritt 315 zum Abrufen ähnlicher Protokollsegmente bereitgestellt, was Schritt 115 von 1 entspricht, und welche die Protokollsegmente 316 ausgibt. Das Modell ruft die sortierte Liste der Segmente ab, die der Suchanfrage ähnlich sind, und gibt sie an den Benutzer aus.
Block 320 ist ein Ablaufplan der an einer Suchanfrage-Vorhersage beteiligten Schritte und beginnt mit einem Empfangen der in Schritt 321 aus der Eingabe syntaktisch analysierten und vorverarbeiteten Wortliste. In Schritt 322 wird dann die zugehörige verteilte Einbettungsdarstellung we_i für jedes Wort w_i mittels des Worteinbettungsmodells 230 von 2 berechnet. Die „verteilte Einbettungsdarstellung“ ist die Darstellung eines Wortes (oder einer Zeile), die durch das Worteinbettungsmodell erzeugt wird. In Schritt 323 werden die zugehörigen verteilten Einbettungsrepräsentationen we_i als Durchschnitt (oder Maximum) aller verteilten Worteinbettungen we_i zusammengeführt, um die Suchanfrage mit einer einzigen Einbettung qe darzustellen. Jedes Segment von N Zeilen in den Protokolldaten wird auf die gleiche Weise dargestellt. Die Worteinbettung führt zu einer Darstellung mit einem Vektor für jedes Wort oder jede Zeile. Da eine Suchanfrage mehr als ein Wort oder eine Zeile enthält, müssen alle Darstellungen zu einem einzigen Vektor zusammengeführt werden, um die gesamte Suchanfrage als einen Vektor darzustellen, woraufhin die Ähnlichkeitsmaßzahl, zum Beispiel die Kosinus-Ähnlichkeit, angewendet werden kann.
In Schritt 324 wird eine Rangliste von Protokollsegmenten aus N Zeilen abgerufen, die in Bezug auf die Suchanfragen-Darstellung eine größere Ähnlichkeit der darin zusammengeführten Worteinbettungen aufweisen. Die Rangliste der Protokollsegmente wird abgerufen durch Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell der Protokolldaten mittels einer Ähnlichkeitsmaßzahl und Zurückliefern derjenigen Segmente des Worteinbettungsmodells der Protokolldaten, deren Ähnlichkeit größer als ein vorbestimmter Schwellenwert ist, sowie Einstufen der abgerufenen Segmente gemäß der Ähnlichkeitswerte. Die Liste der abgerufenen Segmente wird in Schritt 325 zurückgeliefert und in Schritt 316 ausgegeben.
Ein praktisches Beispiel für ein Verfahren zum Verarbeiten einer Suchanfrage eines Benutzers gemäß einer Ausführungsform der Offenbarung lautet wie folgt. Das Verfahren beginnt mit einem Empfangen einer Suchanfrage eines Benutzers nach dem Wort w_q. Angenommen, das Wort w_q kommt sehr oft in einem Muster wie w₁, w₂, w_q, w₃, w₄ vor. Durch einen exakten Abgleich kann dieses Muster wahrscheinlich durch eine Suche nach w_q abgerufen werden. Nehmen wir nun an, dass es ein anderes Wortmuster w₁, w₅, w₆, w₃, w₄ gibt. Bei einem lexikalischen Abgleich wird dieses Muster nicht abgerufen, da es die Suchanfrage w_q nicht enthält. Mit einem vorgeschlagenen CL-Verfahren gemäß einer Ausführungsform der Offenbarung ist der Kontext dieser beiden Protokollsegmente jedoch sehr ähnlich, und das Suchanfrage-Muster kann abgerufen und dem Benutzer angezeigt werden.
Auch wenn die Ausführungsformen der Offenbarung im Zusammenhang mit der Abfrage eines Computersystemprotokolls beschrieben wurden, wird es für den Fachmann offensichtlich sein, dass Verfahren gemäß den Ausführungsformen der Offenbarung bei Suchen in beliebigen Textdokumenten angewendet werden können, die zu groß sind, um von einer einzelnen Person durchsucht oder verstanden zu werden.
Systemimplementierungen
Es sei darauf hingewiesen, dass Ausführungsformen der vorliegenden Offenbarung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessen oder einer Kombination davon implementiert werden können. In einer Ausführungsform kann eine Ausführungsform der vorliegenden Offenbarung in Form von Software als ein Anwendungsprogramm implementiert werden, das in einer durch einen Computer lesbaren Programmspeichereinheit eingebettet ist. Das Anwendungsprogramm kann auf eine Maschine hochgeladen und von dieser ausgeführt werden, die eine beliebige geeignete Architektur aufweist. Darüber hinaus sei von vornherein klargestellt, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Stattdessen können Ausführungsformen der vorliegenden Offenbarung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden. Ein automatisches Fehlerbehebungssystem gemäß einer Ausführungsform der Offenbarung ist auch für eine Implementierung in einer Cloud geeignet.
Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
Bei den Eigenschaften handelt es sich um die Folgenden:

On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.

Bei den Dienstmodellen handelt es sich um die Folgenden:

Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen der Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).

Bei den Einsatzmodellen handelt es sich um die Folgenden:

Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann in den eigenen Räumen oder fremden Räumen stehen.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten aufweist.

Unter Bezugnahme auf 4 ist nun ein Schema eines Beispiels für einen Cloud-Computing-Knoten dargestellt. Cloud-Computing-Knoten 410 ist nur ein Beispiel eines geeigneten Cloud-Computing-Knotens und soll keine Beschränkung des Anwendungsbereichs oder der Funktionalität von Ausführungsformen der hier beschriebenen Offenbarung nahelegen. Unabhängig davon kann auf Cloud-Computing-Knoten 410 jede der oben genannten Funktionen implementiert und/oder ausgeführt werden.
Im Cloud-Computing-Knoten 410 befindet sich ein Computersystem/Server 412, das in zahlreichen anderen Systemumgebungen oder -konfigurationen für allgemeine Zwecke oder spezielle Zwecke einsatzfähig ist. Beispiele für bekannte Computersysteme, - umgebungen und/oder -konfigurationen, die für die Verwendung mit Computersystem/Server 412 geeignet sein können, umfassen, ohne auf diese beschränkt zu sein Personal-Computer-Systeme, Server-Computer-Systeme, Thin Clients, Thick Clients, Handheld- oder Laptop-Einheiten, Multiprozessorsysteme, auf Mikroprozessoren beruhende Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer-Systeme, Großrechner-Computersysteme und verteilte Cloud-Computing-Umgebungen, die eines der oben genannten Systeme oder Einheiten umfassen, und dergleichen.
Computersystem/Server 412 kann im allgemeinen Kontext von durch ein Computersystem ausführbaren Befehlen beschrieben werden wie z.B. Programmmodule, die von einem Computersystem ausgeführt werden. Im Allgemeinen können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen usw. umfassen, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Computersystem/Server 412 kann in verteilten Cloud-Computing-Umgebungen eingesetzt werden, in denen Aufgaben von entfernten Verarbeitungseinheiten durchgeführt werden, die über ein Verkehrsnetz miteinander verbunden sind. In einer verteilten Cloud-Computing-Umgebung können sich Programmmodule sowohl in lokalen als auch in entfernten Speichermedien des Computersystems befinden, unter anderem in Arbeitsspeichereinheiten.
Wie in 4 dargestellt, ist Computersystem/Server 412 in dem Cloud-Computing-Knoten 410 in Form einer Universalcomputereinheit dargestellt. Die Komponenten von Computersystem/Server 412 können, ohne darauf beschränkt zu sein, einen oder mehrere Prozessoren oder Verarbeitungseinheiten 416, einen Systemspeicher 428 und einen Bus 418 umfassen, der verschiedene Systemkomponenten mit dem Prozessor 416 verbindet, unter anderem den Systemspeicher 428.
Bus 418 repräsentiert eine oder mehrere von mehreren Arten von Busstrukturen, unter anderem einen Speicherbus oder eine Speichersteuerung, einen Peripheriebus, einen beschleunigten Grafikanschluss und einen Prozessor oder lokalen Bus, der eine von verschiedenen Busarchitekturen verwendet. Zu diesen Architekturen gehören beispielsweise, aber nicht auf diese beschränkt, ISA-Bus (Industry Standard Architecture), MCA-Bus (Micro Channel Architecture), EISA-Bus (Enhanced ISA), lokaler Bus der Video Electronics Standards Association (VESA) und PCI-Bus (Peripheral Component Interconnect).
Computersystem/Server 412 umfasst in der Regel eine Vielfalt von durch ein Computersystem lesbare Medien. Bei diesen Medien kann es sich um alle verfügbaren Medien handeln, auf die über Computersystem/Server 412 zugegriffen werden kann, und sie umfassen sowohl flüchtige als auch nichtflüchtige Medien, Wechselmedien und nicht wechselbare Medien.
Der Systemspeicher 428 kann durch ein Computersystem lesbare Medien in Form eines flüchtigen Speichers umfassen, z.B. RAM (Random Access Memory) 430 und/oder Zwischenspeicher 432. Computersystem/Server 412 kann außerdem andere wechselbare/nicht wechselbare, flüchtige/nichtflüchtige Speichermedien für Computersysteme umfassen. Nur als Beispiel kann das Speichersystem 434 für Lese- und Schreibvorgänge von einem nicht wechselbaren, nichtflüchtigen magnetischen Medium bereitgestellt werden (nicht dargestellt und typischerweise als „Festplatte“ bezeichnet). Obwohl nicht dargestellt, kann ein Magnetplattenlaufwerk zum Lesen von und Schreiben auf eine wechselbare, nichtflüchtige Magnetplatte (z.B. eine „Diskette“) bereitgestellt werden, sowie ein optisches Plattenlaufwerk zum Lesen von oder Schreiben auf eine wechselbare, nichtflüchtige optische Platte wie eine CD-ROM, DVD-ROM oder andere optische Medien. Hierbei können sie jeweils über eine oder mehrere Datenträgerschnittstellen an den Bus 418 angeschlossen werden. Wie im Folgenden eingehender dargestellt und beschrieben, kann der Systemspeicher 428 mindestens ein Programmprodukt mit einen Satz (z.B. mindestens eines) von Programmmodulen umfassen, die so konfiguriert sind, dass sie die Funktionen von Ausführungsformen der Offenbarung ausführen.
Das Programm/Dienstprogramm 440, das einen Satz von Programmmodulen 442 (mindestens eines) enthält, kann beispielsweise, aber nicht darauf beschränkt, im Systemspeicher 428 gespeichert werden, ebenso wie ein Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule sowie Programmdaten. Jede der Komponenten Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule sowie Programmdaten oder eine Kombination davon kann eine Implementierung einer Netzwerkumgebung umfassen. Die Programmmodule 442 führen im Allgemeinen die Funktionen und/oder Methodiken der hier beschriebenen Ausführungsformen der Offenbarung aus.
Computersystem/Server 412 kann auch mit einer oder mehreren externen Einheiten 414 Daten austauschen, z.B. mit einer Tastatur, einer Zeigeeinheit, einer Anzeige 424 usw.; einer oder mehreren Einheiten, anhand derer ein Benutzer mit Computersystem/Server 412 interagieren kann; und/oder allen Einheiten (z.B. Netzwerkkarte, Modem usw.), anhand derer Computersystem/Server 412 mit einer oder mehreren anderen Computereinheiten Daten austauschen kann. Eine solche Datenübertragung kann über Eingabe/Ausgabe- (E/A) Schnittstellen 422 erfolgen. Computersystem/Server 412 kann jedoch auch über den Netzwerkadapter 420 mit einem oder mehreren Netzwerken wie einem lokalen Netzwerk (LAN), einem allgemeinen Weitverkehrsnetzwerk (WAN) und/oder einem öffentlichen Netzwerk (z.B. dem Internet) Daten austauschen. Wie dargestellt, tauscht der Netzwerkadapter 420 über den Bus 418 Daten mit den anderen Komponenten des Computersystems/Servers 412 aus. Es wird darauf hingewiesen, dass andere Hardware- und/oder Softwarekomponenten in Verbindung mit Computersystem/Server 412 verwendet werden können, auch wenn sie nicht dargestellt sind. Beispiele umfassen, ohne auf diese beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Plattenlaufwerkarrays, RAID-Systeme, Bandlaufwerke und Speichersysteme zur Datenarchivierung usw.
Unter Bezugnahme auf 5 ist die veranschaulichende Cloud-Computing-Umgebung 50 abgebildet. Wie gezeigt ist, weist die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 400 auf, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie der elektronische Assistent (PDA, personal digital assistant) oder das Mobiltelefon 54A, der Desktop-Computer 54B, der Laptop-Computer 54C und/oder das Automobil-Computer-System 54N Daten austauschen können. Die Knoten 400 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie Private, Community, Public oder Hybrid Clouds gruppiert werden (nicht dargestellt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten von in 5 gezeigten Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 400 und die Cloud-Computing-Umgebung 50 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
Zwar wurden Ausführungsformen der vorliegenden Erfindung im Detail unter Bezugnahme auf beispielhafte Ausführungsformen beschrieben, der Fachmann wird jedoch erkennen, dass verschiedene Modifikationen und Ersetzungen daran vorgenommen werden können, ohne vom Umfang der Erfindung, wie er in den beigefügten Ansprüchen dargelegt ist, abzuweichen.

Claims

Auf einem Computer implementiertes Verfahren zum kontextabhängigen Data-Mining eines Textdokuments, wobei das Verfahren folgende Schritte aufweist: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
Verfahren nach Anspruch 1, wobei das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt wird.
Verfahren nach Anspruch 1, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird.
Verfahren nach Anspruch 1, das ferner ein Trainieren des Worteinbettungsmodells des Textdokuments aufweist, was die folgenden Schritte umfasst: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt.
Verfahren nach Anspruch 4, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments; syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
Verfahren nach Anspruch 5, wobei es sich bei dem Textdokument um ein Computersystemprotokoll handelt und die numerischen Daten Dezimalzahlen und hexadezimale Adressen umfassen.
Verfahren nach Anspruch 1, das ferner ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage aufweist durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
Verfahren nach Anspruch 1, wobei das Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, ein Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und ein Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie ein Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten aufweist.
Auf einem Computer implementiertes Verfahren zum kontextabhängigen Data-Mining eines Textdokuments, wobei das Verfahren folgende Schritte aufweist: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments; syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
Verfahren nach Anspruch 9, das ferner aufweist: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort mittels des Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind; und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
Verfahren nach Anspruch 10, das ferner ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage aufweist durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
Verfahren nach Anspruch 10, wobei das Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, ein Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und ein Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie ein Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten aufweist.
Verfahren nach Anspruch 9, wobei es sich bei dem Textdokument um ein Computersystemprotokoll handelt und die numerischen Daten Dezimalzahlen und hexadezimale Adressen umfassen.
Verfahren nach Anspruch 10, wobei das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt wird.
Verfahren nach Anspruch 10, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird.
Durch einen Computer lesbare Programmspeichereinheit, die ein Programm mit Befehlen enthält, die von dem Computer ausgeführt werden können, um die Verfahrensschritte für kontextabhängiges Data-Mining eines Textdokuments durchzuführen, was folgende Schritte aufweist: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird; und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 16, wobei das Verfahren ferner Trainieren des Worteinbettungsmodells des Textdokuments aufweist, was die folgenden Schritte umfasst: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments, syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 17, wobei es sich bei dem Textdokument um ein Computersystemprotokoll handelt und die numerischen Daten Dezimalzahlen und hexadezimale Adressen umfassen.
Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 16, wobei das Verfahren ferner ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage aufweist durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten; Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 16, wobei das Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, ein Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und ein Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie ein Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten aufweist.
Durch einen Computer lesbare Programmspeichereinheit, die ein Programm mit Befehlen enthält, die von dem Computer ausgeführt werden können, um die Verfahrensschritte für kontextabhängiges Data-Mining eines Textdokuments durchzuführen, was folgende Schritte aufweist: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments; syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.