DE112020002886T5 - Kontextabhängiges data-mining - Google Patents

Kontextabhängiges data-mining Download PDF

Info

Publication number
DE112020002886T5
DE112020002886T5 DE112020002886.0T DE112020002886T DE112020002886T5 DE 112020002886 T5 DE112020002886 T5 DE 112020002886T5 DE 112020002886 T DE112020002886 T DE 112020002886T DE 112020002886 T5 DE112020002886 T5 DE 112020002886T5
Authority
DE
Germany
Prior art keywords
word
list
search query
embedding
text document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020002886.0T
Other languages
English (en)
Inventor
Giacomo Domeniconi
Eun Kyung Lee
Alessandro Morari
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112020002886T5 publication Critical patent/DE112020002886T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Ein Verfahren für ein kontextabhängiges Data-Mining eines Textdokuments, wobei das Verfahren Folgendes umfasst: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen, mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird; und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf ein Gewinnen, Darstellen, Abrufen und Ableiten von Wissen und insbesondere auf ein kontextabhängiges Data-Mining von Textdokumenten.
  • HINTERGRUND
  • Worteinbettungen gehören zu einer Klasse von Techniken, bei denen einzelne Wörter als reellwertige Vektoren in einem vordefinierten Vektorraum dargestellt werden. Jedes Wort ist einem Punkt in einem Vektorraum zugehörig. Jedes Wort wird durch einen reellwertigen Merkmalsvektor mit Dutzenden oder Hunderten von Dimensionen dargestellt, wobei jede Dimension einem Merkmal zugehörig ist, das einen Aspekt des Wortes darstellt. Dies steht im Gegensatz zu den Tausenden oder Millionen von Dimensionen, die für dünn besetzte Wortdarstellungen erforderlich sind wie zum Beispiel bei der One-Hot-Codierung (1-aus-n-Code), bei der ein Wort durch eine einzige Komponente in einem Vektor dargestellt wird, dessen Größe der Größe des Vokabulars entspricht, eine Darstellung, die als „Bag-of-Words“ bekannt ist. Andererseits ist die Anzahl der Merkmale viel kleiner als der Umfang des Vokabulars. Die verteilte Darstellung erfolgt auf der Grundlage von der Verwendung der Wörter, ausgehend von der Annahme, dass Wörter, die in einem ähnlichen Kontext stehen, auch ähnliche Bedeutungen haben. Dadurch können Wörter, die in ähnlicher Weise verwendet werden, zu ähnlichen Darstellungen führen, wodurch ihre Bedeutung auf natürliche Weise erfasst wird. Dies steht im Gegensatz zu einem Bag-of-Words-Modell, bei dem verschiedene Wörter mit ähnlichen Bedeutungen sehr unterschiedliche Darstellungen haben können. Die Verwendung dichter und niedrigdimensionaler Vektoren ist insofern rechentechnisch vorteilhaft, als die meisten Toolkits für neuronale Netzwerke nicht gut mit sehr hochdimensionalen, dünn besetzten Vektoren funktionieren. Ein weiterer Vorteil der dichten Darstellungen ist die Fähigkeit zur Verallgemeinerung: Wenn man davon ausgeht, dass einige Merkmale ähnliche Anhaltspunkte liefern, lohnt es sich, eine Darstellung bereitzustellen, die diese Ähnlichkeiten erfassen kann. In der Computerlinguistik (CL; natural language processing, NLP) werden bei der Worteinbettung Wörter oder Sätze aus natürlichen Sprachen durch Vektoren aus reellen Zahlen dargestellt. Die Darstellung kann ausschließlich auf der Grundlage von der Verwendung des Wortes, d.h. seinem Kontext, erfolgen.
  • Protokolldaten eines Datenverarbeitungssystems sind für ein Verstehen und Erkennen von Systemproblemen unerlässlich. Das Volumen, die Vielfalt, die Geschwindigkeit usw. der Protokolldaten sind enorm, und ihre Verwendung für Systemdiagnosen und Fehlerbehebung ist eine Herausforderung für Systemadministratoren. Die Protokolldaten eines Datenverarbeitungssystems können im CL-Worteinbettungsformat dargestellt werden, wobei die spezifische Darstellung nicht festgelegt ist. Zum Beispiel kann jedes Wort im Protokoll als Token verwendet werden, aber auch eine ganze Zeile des Protokolls kann als Token betrachtet werden.
  • KURZDARSTELLUNG
  • Gemäß einem Aspekt der Erfindung wird ein Verfahren für ein kontextabhängiges Data-Mining eines Textdokuments bereitgestellt, das Folgendes umfasst: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden, Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments, Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen, Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
  • Gemäß einer Ausführungsform wird das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt.
  • Gemäß einer weiteren Ausführungsform ist N eine positive ganze Zahl, die vom Benutzer bereitgestellt wird.
  • Gemäß einer weiteren Ausführungsform umfasst das Verfahren ein Trainieren des Worteinbettungsmodells des Textdokuments durch syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste, Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält, und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile in dem Wortwörterbuch durch einen Vektor darstellt.
  • Gemäß einer weiteren Ausführungsform umfasst ein syntaktisches Analysieren und Vorverarbeiten des Textdokuments Folgendes: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments, syntaktisches Analysieren numerischer Daten, Tokenisieren (in Tokens zerlegen) des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
  • Gemäß einer weiteren Ausführungsform handelt es sich bei dem Textdokument um ein Computersystemprotokoll, und die numerischen Daten umfassen Dezimalzahlen und hexadezimale Adressen.
  • Gemäß einer weiteren Ausführungsform umfasst das Verfahren ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
  • Gemäß einer weiteren Ausführungsform umfasst ein Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, Folgendes: Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zum kontextabhängigen Data-Mining eines Textdokuments bereitgestellt, das Folgendes umfasst: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste, Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält, und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt. Das syntaktische Analysieren und Vorverarbeiten des Textdokuments umfasst Folgendes: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments, syntaktisches Analysieren numerischer Daten, Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
  • Gemäß einer Ausführungsform umfasst das Verfahren Folgendes: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden, Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels des Worteinbettungsmodells des abgefragten Textdokuments, Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen, Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
  • Gemäß einer weiteren Ausführungsform umfasst das Verfahren ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
  • Gemäß einer weiteren Ausführungsform umfasst ein Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, Folgendes: Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten.
  • Gemäß einer weiteren Ausführungsform handelt es sich bei dem Textdokument um ein Computersystemprotokoll, und die numerischen Daten umfassen Dezimalzahlen und hexadezimale Adressen.
  • Gemäß einer weiteren Ausführungsform wird das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt.
  • Gemäß einer weiteren Ausführungsform ist N eine positive ganze Zahl, die vom Benutzer bereitgestellt wird.
  • Gemäß einem weiteren Aspekt der Erfindung wird eine von einem Computer lesbare Programmspeichereinheit bereitgestellt, die ein Programm mit Befehlen enthält, die von dem Computer ausgeführt werden können, um die Verfahrensschritte für kontextabhängiges Data-Mining eines Textdokuments durchzuführen.
  • Die im Folgenden beschriebenen beispielhaften Ausführungsformen beziehen sich auf eine neuartige Schnittstelle, bei der ein Benutzer eine Suchanfrage in Form eines beliebigen Textes formulieren kann, zum Beispiel Wörter, Zeilen, Absätze usw., und ein spezialisierter, auf CL beruhender Algorithmus Segmente von Protokolldaten eines Computersystems zurückliefert, die einen ähnlichen Wortkontext wie die Suchanfrage aufweisen. Ein Ansatz gemäß einer Ausführungsform der Offenbarung beruht auf dem Kontext der Wörter in der Suchanfrage und nicht auf einem einfachen Abgleich von Zeichenfolgen. Dies erleichtert es dem Benutzer, sinnvolle Ereignisse in dem Protokoll zu finden. Ein Ansatz gemäß einer Ausführungsform beruht auf der Grundlage von nicht überwachtem Lernen. Er stützt sich auf Textinformationen, die bereits in den Protokollen vorhanden sind, und kann ohne Vorwissen über die Ereignisse, die Schlüsselwörter oder die Struktur des Protokolltextes durchgeführt werden.
  • Figurenliste
    • 1 zeigt ein Blockschaubild eines Verfahrens zum Verarbeiten einer Suchanfrage eines Benutzers gemäß einer Ausführungsform der Erfindung.
    • 2 zeigt ein Blockschaubild eines Verfahrens zum Erstellen eines Modells gemäß einer Ausführungsform der Erfindung.
    • 3 zeigt ein Blockschaubild eines Verfahrens gemäß einer anderen Ausführungsform der Erfindung.
    • 4 zeigt eine schematische Darstellung eines beispielhaften Cloud-Computing-Knotens, der eine Ausführungsform der Erfindung umsetzt.
    • 5 zeigt eine beispielhafte Cloud-Computing-Umgebung, die in Ausführungsformen der Erfindung eingesetzt wird.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die hier beschriebenen beispielhaften Ausführungsformen stellen im Allgemeinen Verfahren für ein auf CL beruhendes kontextabhängiges Protokoll-Mining bereit. Wenngleich Ausführungsformen verschiedene Modifikationen und alternative Formen aufweisen können, sind spezifische Ausführungsformen davon in den Zeichnungen beispielhaft dargestellt und werden hier im Einzelnen beschrieben. Es sei jedoch darauf hingewiesen, dass nicht beabsichtigt ist, die Offenbarung auf die offenbarten spezifischen Formen zu beschränken, sondern dass die Offenbarung im Gegenteil alle Modifikationen, Äquivalente und Alternativen abdecken soll, die dem Sinngehalt und Umfang der Offenbarung entsprechen.
  • 1 zeigt ein Blockschaubild eines Verfahrens zum Verarbeiten einer Suchanfrage eines Benutzers gemäß einer Ausführungsform der Offenbarung. 1 zeigt einen Anwendungsfall, in dem ein Benutzer eine Suchanfrage 110 bereitstellt, die aus einzelnen Wörtern 111, Zeilen 112 oder Absätzen 113 bestehen kann, sowie die Größe der abgerufenen Segmente mit der Anzahl der Zeilen 114 und einen Ähnlichkeitsschwellenwert, der definiert, wie viele Segmente zurückgeliefert werden sollen. Die Suchanfrage 110 und die Anzahl der Zeilen 114 sind Eingaben für ein Verfahren gemäß einer Ausführungsform zum Abrufen 115 von ähnlichen Protokollsegmenten aus einem Computersystemprotokoll. Ein Verfahren gemäß einer Ausführungsform liefert als Ausgabe 120 eine Menge von Segmenten 120.1, 120.2, ..., 120.m zurück, die nach ihrer Ähnlichkeit mit dem Text der Suchanfrage sortiert sind.
  • 2 zeigt ein Blockschaubild eines Verfahrens zum Erstellen eines Modells gemäß einer Ausführungsform der Offenbarung. 2 zeigt die Schritte, die zum Erstellen eines Modells gemäß einer Ausführungsform erforderlich sind. Auf der linken Seite ist ein Ablaufplan eines Verfahrens 210 zum Trainieren eines Worteinbettungsmodells abgebildet. Rechts oben befindet sich ein Ablaufplan für ein Verfahren 220 zum Verarbeiten der Systemprotokolldateien, um eine mit Tokens versehene Wortliste zu erhalten, und rechts unten befindet sich das Blockschaubild 230 einer gemeinsamen Worteinbettungsstruktur.
  • Unter Bezugnahme auf Ablaufplan 210 umfasst ein Verfahren zum Trainieren eines Modells ein syntaktisches Analysieren und Vorverarbeiten 211 von Protokollausgaben aus den Rohdaten eines Computersystemprotokolls, Definieren eines Wortwörterbuchs 212 und Trainieren 213 des Worteinbettungsmodells.
  • Das Verfahren 220 besteht im syntaktischen Analysieren und Vorverarbeiten 211 der Protokollausgaben aus den Rohdaten und umfasst Entfernen aller Satzzeichen und der Präambel von jeder Zeile 222, syntaktisches Analysieren von Zahlen und hexadezimalen Adressen 223, Tokenisieren des Protokolls in Wörter 224 und Zurückliefern der mit Tokens versehenen Wortliste 225. Die Zahlen und Hex-Adressen wurden mittels eines speziellen Token syntaktisch analysiert. Gemäß Ausführungsformen werden Dezimalzahlen durch ein Token dargestellt, hexadezimale Adressen werden durch ein anderes Token dargestellt, und die Information einer Zahl oder einer Adresse kann mit dem Token als Platzhalter belassen werden, wobei der Kontext nicht auf den spezifischen Wert beschränkt ist. Für die Wörter wurde keine Textverarbeitungstechnik verwendet, obwohl jede CL-Technik eingesetzt werden könnte. Tokenisieren des Protokolls bedeutet, die Protokolle in Tokens aufzuteilen, wobei ein Token als ein einzelnes Wort oder ein N-Gramm aus N aufeinanderfolgenden Wörtern oder auch als eine ganze Zeile des Protokolls definiert werden kann. Nach dem Tokenisieren des Protokolls besteht das Wörterbuch aus der Menge aller Tokens oder einer ausgewählten Teilmenge davon, zum Beispiel den häufigsten Tokens.
  • Gemäß einer Ausführungsform wird das Wörterbuch zum Definieren und Darstellen der Wörter (oder Zeilen) verwendet, die in dem Worteinbettungsmodell berücksichtigt werden. Unter Bezugnahme auf Schritt 231 von 2 wird das Eingabewort w[t] als ein One-Hot-Vektor dargestellt, dessen Anzahl der Elemente der Größe des Wörterbuchs entspricht, wobei jede 0 und eine 1 im Element dem Wort (oder der Zeile) entsprechen. Zu diesem Zweck wird ein definiertes Wörterbuch benötigt, um diese Vektoren zu erstellen. Zum Beispiel würde eine One-Hot-Vektordarstellung von „Rom“, „Paris“, „Italien“ und „Frankreich“ in einem V-dimensionalen Vektorraum wie folgt aussehen: Rom = [ 1,0,0,0,0, ,0 ] , Paris = [ 0,1,0,0,0, ,0 ] , Italien = [ 0,0,1,0,0, ,0 ] , Frankreich = [ 0,0,0,1,0, ,0 ] .
    Figure DE112020002886T5_0001
  • Das Worteinbettungsmodell 230 verwendet eine Abstandsmaßzahl zwischen Protokollsegmenten von N Zeilen, wobei N ein benutzerdefinierter Parameter ist. Die Abstandsmaßzahl wird verwendet, um zu ermitteln, wie ähnlich die Kontexte zweier Protokollsegmente sind. Insbesondere wird die Maßzahl verwendet, um die N Segmente mit der höchsten Ähnlichkeit zur Suchanfrage des Nutzers abzurufen. Das Worteinbettungsmodell ist ein neuronales Netzwerkmodell, das ein Wort (oder eine Zeile) durch eine Einbettung, d.h. einen Vektor, darstellt. Ein Wort[t] 231 wird dann in die Wordeinbettungen 233 projiziert 232, die bei einer Fenstergröße von 5 Wort[t-2], Wort[t-1], Wort[t+1], und Wort[t+2] umfassen. Die Fenstergröße ist einer der Parameter des Modells, die von einem Benutzer bereitgestellt werden. Sobald das Worteinbettungsmodell trainiert wurde, kann eine Abstandsmaßzahl zwischen Segmenten von N Zeilen des Protokolls verwendet werden, wobei N ein benutzerdefinierter Parameter ist. Eine gängige Abstandsmaßzahl zwischen Worteinbettungen, d.h. Vektoren, ist eine Kosinus-Ähnlichkeit. Darüber hinaus kann ein überwachter Lernansatz verwendet werden. Dabei wird ein überwachtes Modell trainiert, zum Beispiel ein LSTM (Long Short Term Memory, langes Kurzzeitgedächtnis), um die Ähnlichkeit zwischen Dokumenten vorherzusagen.
  • 3 ist ein Blockschaubild einer Suche während des Anwendungsfalls und umfasst Ablaufpläne, die eine Extraktion aus einem Suchanfrage-Anwendungsfall 310 und die Suchanfrage-Vorhersage 320 darstellen. Unter Bezugnahme auf den Anwendungsfall 310 stellt ein Benutzer 300 eine Suchanfrage bereit, zum Beispiel einen Teil des betreffenden unstrukturierten Textes und eine Anzahl von Zeilen des betreffenden Segments. Suchanfrage-Anwendungsfall 310 zeigt ferner ein Modell, das in Schritt 312 aus den Systemprotokolleingaben 311 trainiert wird, um ein Modell 313 zu erstellen. Die Schritte des Trainierens des Modells in Schritt 312 entsprechen einem Verfahren gemäß einer Ausführungsform des Trainierens eines Modells 210 von 2.
  • Die Suchanfrage wird in Schritt 314 syntaktisch analysiert auf der Grundlage des Verfahrens 220 zum Verarbeiten der Systemprotokolldateien in 2, welches die folgenden Schritte umfasst: Entfernen aller Satzzeichen und der Präambel jeder Zeile, syntaktisches Analysieren von Zahlen und hexadezimalen Adressen und Tokenisieren der Suchanfrage in Wörter: q = [w1, w2, ..., wN].
  • Die Ausgabe q wird dann als Eingabe für Schritt 315 zum Abrufen ähnlicher Protokollsegmente bereitgestellt, was Schritt 115 von 1 entspricht, und welche die Protokollsegmente 316 ausgibt. Das Modell ruft die sortierte Liste der Segmente ab, die der Suchanfrage ähnlich sind, und gibt sie an den Benutzer aus.
  • Block 320 ist ein Ablaufplan der an einer Suchanfrage-Vorhersage beteiligten Schritte und beginnt mit einem Empfangen der in Schritt 321 aus der Eingabe syntaktisch analysierten und vorverarbeiteten Wortliste. In Schritt 322 wird dann die zugehörige verteilte Einbettungsdarstellung wei für jedes Wort wi mittels des Worteinbettungsmodells 230 von 2 berechnet. Die „verteilte Einbettungsdarstellung“ ist die Darstellung eines Wortes (oder einer Zeile), die durch das Worteinbettungsmodell erzeugt wird. In Schritt 323 werden die zugehörigen verteilten Einbettungsrepräsentationen wei als Durchschnitt (oder Maximum) aller verteilten Worteinbettungen wei zusammengeführt, um die Suchanfrage mit einer einzigen Einbettung qe darzustellen. Jedes Segment von N Zeilen in den Protokolldaten wird auf die gleiche Weise dargestellt. Die Worteinbettung führt zu einer Darstellung mit einem Vektor für jedes Wort oder jede Zeile. Da eine Suchanfrage mehr als ein Wort oder eine Zeile enthält, müssen alle Darstellungen zu einem einzigen Vektor zusammengeführt werden, um die gesamte Suchanfrage als einen Vektor darzustellen, woraufhin die Ähnlichkeitsmaßzahl, zum Beispiel die Kosinus-Ähnlichkeit, angewendet werden kann.
  • In Schritt 324 wird eine Rangliste von Protokollsegmenten aus N Zeilen abgerufen, die in Bezug auf die Suchanfragen-Darstellung eine größere Ähnlichkeit der darin zusammengeführten Worteinbettungen aufweisen. Die Rangliste der Protokollsegmente wird abgerufen durch Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell der Protokolldaten mittels einer Ähnlichkeitsmaßzahl und Zurückliefern derjenigen Segmente des Worteinbettungsmodells der Protokolldaten, deren Ähnlichkeit größer als ein vorbestimmter Schwellenwert ist, sowie Einstufen der abgerufenen Segmente gemäß der Ähnlichkeitswerte. Die Liste der abgerufenen Segmente wird in Schritt 325 zurückgeliefert und in Schritt 316 ausgegeben.
  • Ein praktisches Beispiel für ein Verfahren zum Verarbeiten einer Suchanfrage eines Benutzers gemäß einer Ausführungsform der Offenbarung lautet wie folgt. Das Verfahren beginnt mit einem Empfangen einer Suchanfrage eines Benutzers nach dem Wort wq. Angenommen, das Wort wq kommt sehr oft in einem Muster wie w1, w2, wq, w3, w4 vor. Durch einen exakten Abgleich kann dieses Muster wahrscheinlich durch eine Suche nach wq abgerufen werden. Nehmen wir nun an, dass es ein anderes Wortmuster w1, w5, w6, w3, w4 gibt. Bei einem lexikalischen Abgleich wird dieses Muster nicht abgerufen, da es die Suchanfrage wq nicht enthält. Mit einem vorgeschlagenen CL-Verfahren gemäß einer Ausführungsform der Offenbarung ist der Kontext dieser beiden Protokollsegmente jedoch sehr ähnlich, und das Suchanfrage-Muster kann abgerufen und dem Benutzer angezeigt werden.
  • Auch wenn die Ausführungsformen der Offenbarung im Zusammenhang mit der Abfrage eines Computersystemprotokolls beschrieben wurden, wird es für den Fachmann offensichtlich sein, dass Verfahren gemäß den Ausführungsformen der Offenbarung bei Suchen in beliebigen Textdokumenten angewendet werden können, die zu groß sind, um von einer einzelnen Person durchsucht oder verstanden zu werden.
  • Systemimplementierungen
  • Es sei darauf hingewiesen, dass Ausführungsformen der vorliegenden Offenbarung in verschiedenen Formen von Hardware, Software, Firmware, speziellen Prozessen oder einer Kombination davon implementiert werden können. In einer Ausführungsform kann eine Ausführungsform der vorliegenden Offenbarung in Form von Software als ein Anwendungsprogramm implementiert werden, das in einer durch einen Computer lesbaren Programmspeichereinheit eingebettet ist. Das Anwendungsprogramm kann auf eine Maschine hochgeladen und von dieser ausgeführt werden, die eine beliebige geeignete Architektur aufweist. Darüber hinaus sei von vornherein klargestellt, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Stattdessen können Ausführungsformen der vorliegenden Offenbarung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden. Ein automatisches Fehlerbehebungssystem gemäß einer Ausführungsform der Offenbarung ist auch für eine Implementierung in einer Cloud geeignet.
  • Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
  • Bei den Eigenschaften handelt es sich um die Folgenden:
    • On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist.
    • Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
    • Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
    • Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
    • Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
  • Bei den Dienstmodellen handelt es sich um die Folgenden:
    • Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
    • Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen der Application Hosting Environment.
    • Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
  • Bei den Einsatzmodellen handelt es sich um die Folgenden:
    • Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
    • Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann in den eigenen Räumen oder fremden Räumen stehen.
    • Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
    • Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
    • Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten aufweist.
  • Unter Bezugnahme auf 4 ist nun ein Schema eines Beispiels für einen Cloud-Computing-Knoten dargestellt. Cloud-Computing-Knoten 410 ist nur ein Beispiel eines geeigneten Cloud-Computing-Knotens und soll keine Beschränkung des Anwendungsbereichs oder der Funktionalität von Ausführungsformen der hier beschriebenen Offenbarung nahelegen. Unabhängig davon kann auf Cloud-Computing-Knoten 410 jede der oben genannten Funktionen implementiert und/oder ausgeführt werden.
  • Im Cloud-Computing-Knoten 410 befindet sich ein Computersystem/Server 412, das in zahlreichen anderen Systemumgebungen oder -konfigurationen für allgemeine Zwecke oder spezielle Zwecke einsatzfähig ist. Beispiele für bekannte Computersysteme, - umgebungen und/oder -konfigurationen, die für die Verwendung mit Computersystem/Server 412 geeignet sein können, umfassen, ohne auf diese beschränkt zu sein Personal-Computer-Systeme, Server-Computer-Systeme, Thin Clients, Thick Clients, Handheld- oder Laptop-Einheiten, Multiprozessorsysteme, auf Mikroprozessoren beruhende Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer-Systeme, Großrechner-Computersysteme und verteilte Cloud-Computing-Umgebungen, die eines der oben genannten Systeme oder Einheiten umfassen, und dergleichen.
  • Computersystem/Server 412 kann im allgemeinen Kontext von durch ein Computersystem ausführbaren Befehlen beschrieben werden wie z.B. Programmmodule, die von einem Computersystem ausgeführt werden. Im Allgemeinen können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen usw. umfassen, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Computersystem/Server 412 kann in verteilten Cloud-Computing-Umgebungen eingesetzt werden, in denen Aufgaben von entfernten Verarbeitungseinheiten durchgeführt werden, die über ein Verkehrsnetz miteinander verbunden sind. In einer verteilten Cloud-Computing-Umgebung können sich Programmmodule sowohl in lokalen als auch in entfernten Speichermedien des Computersystems befinden, unter anderem in Arbeitsspeichereinheiten.
  • Wie in 4 dargestellt, ist Computersystem/Server 412 in dem Cloud-Computing-Knoten 410 in Form einer Universalcomputereinheit dargestellt. Die Komponenten von Computersystem/Server 412 können, ohne darauf beschränkt zu sein, einen oder mehrere Prozessoren oder Verarbeitungseinheiten 416, einen Systemspeicher 428 und einen Bus 418 umfassen, der verschiedene Systemkomponenten mit dem Prozessor 416 verbindet, unter anderem den Systemspeicher 428.
  • Bus 418 repräsentiert eine oder mehrere von mehreren Arten von Busstrukturen, unter anderem einen Speicherbus oder eine Speichersteuerung, einen Peripheriebus, einen beschleunigten Grafikanschluss und einen Prozessor oder lokalen Bus, der eine von verschiedenen Busarchitekturen verwendet. Zu diesen Architekturen gehören beispielsweise, aber nicht auf diese beschränkt, ISA-Bus (Industry Standard Architecture), MCA-Bus (Micro Channel Architecture), EISA-Bus (Enhanced ISA), lokaler Bus der Video Electronics Standards Association (VESA) und PCI-Bus (Peripheral Component Interconnect).
  • Computersystem/Server 412 umfasst in der Regel eine Vielfalt von durch ein Computersystem lesbare Medien. Bei diesen Medien kann es sich um alle verfügbaren Medien handeln, auf die über Computersystem/Server 412 zugegriffen werden kann, und sie umfassen sowohl flüchtige als auch nichtflüchtige Medien, Wechselmedien und nicht wechselbare Medien.
  • Der Systemspeicher 428 kann durch ein Computersystem lesbare Medien in Form eines flüchtigen Speichers umfassen, z.B. RAM (Random Access Memory) 430 und/oder Zwischenspeicher 432. Computersystem/Server 412 kann außerdem andere wechselbare/nicht wechselbare, flüchtige/nichtflüchtige Speichermedien für Computersysteme umfassen. Nur als Beispiel kann das Speichersystem 434 für Lese- und Schreibvorgänge von einem nicht wechselbaren, nichtflüchtigen magnetischen Medium bereitgestellt werden (nicht dargestellt und typischerweise als „Festplatte“ bezeichnet). Obwohl nicht dargestellt, kann ein Magnetplattenlaufwerk zum Lesen von und Schreiben auf eine wechselbare, nichtflüchtige Magnetplatte (z.B. eine „Diskette“) bereitgestellt werden, sowie ein optisches Plattenlaufwerk zum Lesen von oder Schreiben auf eine wechselbare, nichtflüchtige optische Platte wie eine CD-ROM, DVD-ROM oder andere optische Medien. Hierbei können sie jeweils über eine oder mehrere Datenträgerschnittstellen an den Bus 418 angeschlossen werden. Wie im Folgenden eingehender dargestellt und beschrieben, kann der Systemspeicher 428 mindestens ein Programmprodukt mit einen Satz (z.B. mindestens eines) von Programmmodulen umfassen, die so konfiguriert sind, dass sie die Funktionen von Ausführungsformen der Offenbarung ausführen.
  • Das Programm/Dienstprogramm 440, das einen Satz von Programmmodulen 442 (mindestens eines) enthält, kann beispielsweise, aber nicht darauf beschränkt, im Systemspeicher 428 gespeichert werden, ebenso wie ein Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule sowie Programmdaten. Jede der Komponenten Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule sowie Programmdaten oder eine Kombination davon kann eine Implementierung einer Netzwerkumgebung umfassen. Die Programmmodule 442 führen im Allgemeinen die Funktionen und/oder Methodiken der hier beschriebenen Ausführungsformen der Offenbarung aus.
  • Computersystem/Server 412 kann auch mit einer oder mehreren externen Einheiten 414 Daten austauschen, z.B. mit einer Tastatur, einer Zeigeeinheit, einer Anzeige 424 usw.; einer oder mehreren Einheiten, anhand derer ein Benutzer mit Computersystem/Server 412 interagieren kann; und/oder allen Einheiten (z.B. Netzwerkkarte, Modem usw.), anhand derer Computersystem/Server 412 mit einer oder mehreren anderen Computereinheiten Daten austauschen kann. Eine solche Datenübertragung kann über Eingabe/Ausgabe- (E/A) Schnittstellen 422 erfolgen. Computersystem/Server 412 kann jedoch auch über den Netzwerkadapter 420 mit einem oder mehreren Netzwerken wie einem lokalen Netzwerk (LAN), einem allgemeinen Weitverkehrsnetzwerk (WAN) und/oder einem öffentlichen Netzwerk (z.B. dem Internet) Daten austauschen. Wie dargestellt, tauscht der Netzwerkadapter 420 über den Bus 418 Daten mit den anderen Komponenten des Computersystems/Servers 412 aus. Es wird darauf hingewiesen, dass andere Hardware- und/oder Softwarekomponenten in Verbindung mit Computersystem/Server 412 verwendet werden können, auch wenn sie nicht dargestellt sind. Beispiele umfassen, ohne auf diese beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Plattenlaufwerkarrays, RAID-Systeme, Bandlaufwerke und Speichersysteme zur Datenarchivierung usw.
  • Unter Bezugnahme auf 5 ist die veranschaulichende Cloud-Computing-Umgebung 50 abgebildet. Wie gezeigt ist, weist die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 400 auf, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie der elektronische Assistent (PDA, personal digital assistant) oder das Mobiltelefon 54A, der Desktop-Computer 54B, der Laptop-Computer 54C und/oder das Automobil-Computer-System 54N Daten austauschen können. Die Knoten 400 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie Private, Community, Public oder Hybrid Clouds gruppiert werden (nicht dargestellt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten von in 5 gezeigten Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 400 und die Cloud-Computing-Umgebung 50 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
  • Zwar wurden Ausführungsformen der vorliegenden Erfindung im Detail unter Bezugnahme auf beispielhafte Ausführungsformen beschrieben, der Fachmann wird jedoch erkennen, dass verschiedene Modifikationen und Ersetzungen daran vorgenommen werden können, ohne vom Umfang der Erfindung, wie er in den beigefügten Ansprüchen dargelegt ist, abzuweichen.

Claims (21)

  1. Auf einem Computer implementiertes Verfahren zum kontextabhängigen Data-Mining eines Textdokuments, wobei das Verfahren folgende Schritte aufweist: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
  2. Verfahren nach Anspruch 1, wobei das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt wird.
  3. Verfahren nach Anspruch 1, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird.
  4. Verfahren nach Anspruch 1, das ferner ein Trainieren des Worteinbettungsmodells des Textdokuments aufweist, was die folgenden Schritte umfasst: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt.
  5. Verfahren nach Anspruch 4, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments; syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
  6. Verfahren nach Anspruch 5, wobei es sich bei dem Textdokument um ein Computersystemprotokoll handelt und die numerischen Daten Dezimalzahlen und hexadezimale Adressen umfassen.
  7. Verfahren nach Anspruch 1, das ferner ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage aufweist durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
  8. Verfahren nach Anspruch 1, wobei das Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, ein Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und ein Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie ein Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten aufweist.
  9. Auf einem Computer implementiertes Verfahren zum kontextabhängigen Data-Mining eines Textdokuments, wobei das Verfahren folgende Schritte aufweist: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments; syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
  10. Verfahren nach Anspruch 9, das ferner aufweist: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort mittels des Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind; und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
  11. Verfahren nach Anspruch 10, das ferner ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage aufweist durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten, Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht, und Zurückliefern der mit Tokens versehenen Wortliste.
  12. Verfahren nach Anspruch 10, wobei das Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, ein Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und ein Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie ein Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten aufweist.
  13. Verfahren nach Anspruch 9, wobei es sich bei dem Textdokument um ein Computersystemprotokoll handelt und die numerischen Daten Dezimalzahlen und hexadezimale Adressen umfassen.
  14. Verfahren nach Anspruch 10, wobei das Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen durchgeführt wird.
  15. Verfahren nach Anspruch 10, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird.
  16. Durch einen Computer lesbare Programmspeichereinheit, die ein Programm mit Befehlen enthält, die von dem Computer ausgeführt werden können, um die Verfahrensschritte für kontextabhängiges Data-Mining eines Textdokuments durchzuführen, was folgende Schritte aufweist: Empfangen einer Liste von Wörtern, die aus einer Suchanfrage syntaktisch analysiert und vorverarbeitet wurden; Berechnen einer zugehörigen verteilten Einbettungsdarstellung für jedes Wort in der Wortliste mittels eines Worteinbettungsmodells des abgefragten Textdokuments; Zusammenführen der zugehörigen verteilten Einbettungsdarstellungen aller Wörter in der Wortliste, um die Suchanfrage mit einer einzigen Einbettung darzustellen mittels eines Durchschnitts aller zugehörigen verteilten Einbettungsdarstellungen oder eines Maximums aller zugehörigen verteilten Einbettungsdarstellungen; Abrufen einer Rangliste von Dokumentensegmenten von N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, wobei N eine positive ganze Zahl ist, die vom Benutzer bereitgestellt wird; und Zurückliefern der Liste der abgerufenen Segmente an einen Benutzer.
  17. Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 16, wobei das Verfahren ferner Trainieren des Worteinbettungsmodells des Textdokuments aufweist, was die folgenden Schritte umfasst: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments, syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
  18. Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 17, wobei es sich bei dem Textdokument um ein Computersystemprotokoll handelt und die numerischen Daten Dezimalzahlen und hexadezimale Adressen umfassen.
  19. Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 16, wobei das Verfahren ferner ein syntaktisches Analysieren und Vorverarbeiten der Suchanfrage aufweist durch Entfernen aller Satzzeichen aus der Suchanfrage, syntaktisches Analysieren numerischer Daten; Tokenisieren der Suchanfrage in Wörter, um eine mit Tokens versehene Wortliste zu erstellen, wobei ein Token aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile der Suchanfrage besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
  20. Durch einen Computer lesbare Programmspeichereinheit nach Anspruch 16, wobei das Abrufen einer Rangliste von Dokumentensegmenten aus N Zeilen, die der zusammengeführten Worteinbettungsdarstellung der Suchanfrage ähnlich sind, ein Vergleichen der zusammengeführten Worteinbettungsdarstellung der Suchanfrage mit dem Worteinbettungsmodell des Textdokuments mittels einer Ähnlichkeitsmaßzahl und ein Zurückliefern derjenigen Segmente des Worteinbettungsmodells des Textdokuments, deren Ähnlichkeit mit der zusammengeführten Worteinbettungsdarstellung der Suchanfrage größer ist als ein vorbestimmter Schwellenwert, sowie ein Einstufen der abgerufenen Dokumentensegmente gemäß den Ähnlichkeiten aufweist.
  21. Durch einen Computer lesbare Programmspeichereinheit, die ein Programm mit Befehlen enthält, die von dem Computer ausgeführt werden können, um die Verfahrensschritte für kontextabhängiges Data-Mining eines Textdokuments durchzuführen, was folgende Schritte aufweist: Syntaktisches Analysieren und Vorverarbeiten des Textdokuments und Erstellen einer mit Tokens versehenen Wortliste; Definieren eines Wortwörterbuchs aus der mit Tokens versehenen Wortliste, wobei das Wortwörterbuch mindestens einige der Tokens der mit Tokens versehenen Wortliste enthält; und Trainieren des Worteinbettungsmodells, wobei das Worteinbettungsmodell aus einem neuronalen Netzwerkmodell besteht, das jedes Wort oder jede Zeile im Wortwörterbuch durch einen Vektor darstellt, wobei das syntaktische Analysieren und Vorverarbeiten des Textdokuments folgende Schritte aufweist: Entfernen aller Satzzeichen und einer Präambel aus allen Zeilen des Textdokuments; syntaktisches Analysieren numerischer Daten; Tokenisieren des Textdokuments in Wörter, um eine mit Tokens versehene Wortliste zu bilden, wobei ein Token entweder aus einem einzelnen Wort, einem N-Gramm aus N aufeinanderfolgenden Wörtern oder einer ganzen Zeile des Dokuments besteht; und Zurückliefern der mit Tokens versehenen Wortliste.
DE112020002886.0T 2019-06-11 2020-05-27 Kontextabhängiges data-mining Pending DE112020002886T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/437,989 2019-06-11
US16/437,989 US11409754B2 (en) 2019-06-11 2019-06-11 NLP-based context-aware log mining for troubleshooting
PCT/IB2020/054997 WO2020250064A1 (en) 2019-06-11 2020-05-27 Context-aware data mining

Publications (1)

Publication Number Publication Date
DE112020002886T5 true DE112020002886T5 (de) 2022-02-24

Family

ID=73745061

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020002886.0T Pending DE112020002886T5 (de) 2019-06-11 2020-05-27 Kontextabhängiges data-mining

Country Status (6)

Country Link
US (1) US11409754B2 (de)
JP (1) JP7481074B2 (de)
CN (1) CN113906445A (de)
DE (1) DE112020002886T5 (de)
GB (1) GB2599300A (de)
WO (1) WO2020250064A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220245181A1 (en) * 2019-07-05 2022-08-04 Semiconductor Energy Laboratory Co., Ltd. Reading comprehension support system and reading comprehension support method
US20220138556A1 (en) * 2020-11-04 2022-05-05 Nvidia Corporation Data log parsing system and method
US20220224515A1 (en) * 2021-01-10 2022-07-14 Nec Corporation Of America Multi-party computation (mpc) based key search in private data
US11816242B2 (en) * 2021-07-14 2023-11-14 Capital One Services, Llc Log compression and obfuscation using embeddings
CN113792119A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 一种文章原创度评价系统、方法、设备及介质
CN116682543B (zh) * 2023-08-03 2023-11-10 山东大学齐鲁医院 一种区域康复信息的共享方法及系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040254919A1 (en) * 2003-06-13 2004-12-16 Microsoft Corporation Log parser
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
US8036464B2 (en) * 2007-09-07 2011-10-11 Satyam Computer Services Limited System and method for automatic segmentation of ASR transcripts
US20090300054A1 (en) * 2008-05-29 2009-12-03 Kathleen Fisher System for inferring data structures
US8130667B2 (en) * 2008-09-19 2012-03-06 Texas Instruments Incorporated Preamble group selection in random access of wireless networks
US20110208715A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Automatically mining intents of a group of queries
US9965129B2 (en) * 2012-06-01 2018-05-08 Excalibur Ip, Llc Personalized content from indexed archives
US9280520B2 (en) 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9313091B1 (en) 2013-09-26 2016-04-12 Emc Corporation Analytics platform for automated diagnosis, remediation, and proactive supportability
US20160162467A1 (en) * 2014-12-09 2016-06-09 Idibon, Inc. Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
IN2015CH01424A (de) 2015-03-20 2015-04-10 Wipro Ltd
US20200402049A1 (en) * 2015-06-11 2020-12-24 APPI Technologia S/A (D.B.A. MUXI) Antifraud Resilient Transaction Identifier Datastructure Apparatuses, Methods and Systems
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
JP6201079B2 (ja) 2015-08-28 2017-09-20 株式会社日立製作所 監視システムおよび監視方法
US9990353B2 (en) 2015-12-22 2018-06-05 Successfactors, Inc. Natural language interface for software customization
US10061845B2 (en) * 2016-02-18 2018-08-28 Fmr Llc Analysis of unstructured computer text to generate themes and determine sentiment
US10289509B2 (en) 2016-04-06 2019-05-14 Nec Corporation System failure prediction using long short-term memory neural networks
US10402495B1 (en) * 2016-09-01 2019-09-03 Facebook, Inc. Abstractive sentence summarization
KR101948634B1 (ko) 2016-11-15 2019-02-18 (주) 글루시스 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
US10789298B2 (en) 2016-11-16 2020-09-29 International Business Machines Corporation Specialist keywords recommendations in semantic space
US10402499B2 (en) * 2016-11-17 2019-09-03 Goldman Sachs & Co. LLC System and method for coupled detection of syntax and semantics for natural language understanding and generation
US10740170B2 (en) 2016-12-08 2020-08-11 Nec Corporation Structure-level anomaly detection for unstructured logs
CN106777191B (zh) 2016-12-23 2021-05-04 北京奇虎科技有限公司 一种基于搜索引擎的检索模式生成方法及装置
JP6543283B2 (ja) 2017-02-03 2019-07-10 日本電信電話株式会社 パッセージ型質問応答装置、方法、及びプログラム
US10474709B2 (en) 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US10565244B2 (en) * 2017-06-22 2020-02-18 NewVoiceMedia Ltd. System and method for text categorization and sentiment analysis
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report
US10706229B2 (en) * 2017-09-28 2020-07-07 Nec Corporation Content aware heterogeneous log pattern comparative analysis engine
US10664512B1 (en) * 2018-02-13 2020-05-26 Snap Inc. Query matching to media collections in a messaging system
CN108399163B (zh) 2018-03-21 2021-01-12 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
WO2019180546A1 (ja) * 2018-03-23 2019-09-26 株式会社半導体エネルギー研究所 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体
US11120033B2 (en) * 2018-05-16 2021-09-14 Nec Corporation Computer log retrieval based on multivariate log time series
US10459962B1 (en) * 2018-09-19 2019-10-29 Servicenow, Inc. Selectively generating word vector and paragraph vector representations of fields for machine learning
US11562135B2 (en) * 2018-10-16 2023-01-24 Oracle International Corporation Constructing conclusive answers for autonomous agents
US10769378B2 (en) * 2018-11-14 2020-09-08 International Business Machines Corporation Extending system entities for conversational system
US11308320B2 (en) * 2018-12-17 2022-04-19 Cognition IP Technology Inc. Multi-segment text search using machine learning model for text similarity
US11080490B2 (en) * 2019-03-28 2021-08-03 Servicenow, Inc. Pre-training of virtual chat interfaces
US20200372550A1 (en) * 2019-05-24 2020-11-26 relemind GmbH Systems for creating and/or maintaining databases and a system for facilitating online advertising with improved privacy

Also Published As

Publication number Publication date
GB2599300A (en) 2022-03-30
CN113906445A (zh) 2022-01-07
GB202117769D0 (en) 2022-01-26
US20200394186A1 (en) 2020-12-17
WO2020250064A1 (en) 2020-12-17
JP7481074B2 (ja) 2024-05-10
US11409754B2 (en) 2022-08-09
JP2022536241A (ja) 2022-08-15

Similar Documents

Publication Publication Date Title
DE112020002886T5 (de) Kontextabhängiges data-mining
DE112019001533T5 (de) Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache
DE112020003820T5 (de) Erkennung von Anomalien und Abweichungen unter Verwendung eines domänenindizierten Einschränkungs-Repository
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
DE112020003311T5 (de) Verarbeitung natürlicher sprache unter verwendung eines ontologiegestützten modells zur begriffseinbettung
DE112018005227T5 (de) Merkmalsextraktion mithilfe von multi-task-lernen
DE102017122276A1 (de) Neuronale maschinenübersetzungssysteme
DE112018005459T5 (de) Datenanonymisierung
DE112019002235T5 (de) Einbinden eines wörterbuch-bearbeitungssystems in ein text mining
DE112020005095T5 (de) Automatische trennung und extraktion von tabellendaten unter verwendung von maschinellem lernen
DE112018005244T5 (de) Strukturieren von inkohärenten knoten durch überlagern eines basis-wissensgraphen
DE112020002110T5 (de) Ressourcenarme entitätsauflösung mit transfer learning
DE112018005418T5 (de) Kognitive dokumentbild-digitalisierung
DE112016001902T5 (de) Schätzen von Rechenressourcen für die Ausführung von Data-Mining-Diensten
DE112018005076T5 (de) Erstellen einer rangfolge von dokumenten auf grundlage ihres semantischen reichtums
DE112020005726T5 (de) Segmentieren von videos auf der grundlage eines gewichteten wissensgraphen
DE112017005588T5 (de) Speichern und abrufen von eingeschränkten datensätzen in und aus einem cloud-netzwerk mit nichteingeschränkten datensätzen
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE112018002955T5 (de) Kognitive datei- und objektverwaltung für verteilte speicherumgebungen
DE112017007530T5 (de) Entitätsmodell-erstellung
DE112021004694T5 (de) Trainieren eines frage-antwort-dialogsystems zum vermeiden von gegnerischen angriffen
DE112021005422T5 (de) Auf lernen beruhende arbeitslast-ressourcenoptimierung für datenbank-managementsysteme
DE112018006131T5 (de) Semantisches normalisieren beim digitalisieren von dokumenten
DE112017007361T5 (de) Unterstützen von interaktivem textmining-prozess mit dialog in natürlicher sprache
DE112021001163T5 (de) Dynamisches erstellen von facetten unter verwendung von graphpartitionierung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence