DE112018006438T5

DE112018006438T5 - Clustering von facetten auf einem zweidimensionalen facettenwürfel für text-mining

Info

Publication number: DE112018006438T5
Application number: DE112018006438.7T
Authority: DE
Inventors: Takashi Fukuda; Hiroaki Kikuchi; Shimpei Yotsukura
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-12-18
Filing date: 2018-12-12
Publication date: 2020-09-03
Also published as: CN111512304B; US20190188304A1; US10657145B2; GB202010822D0; JP2021508113A; WO2019123113A1; GB2582730A; CN111512304A

Abstract

Ein auf einem Computer implementiertes Verfahren und System zum Clustering von Facetten auf einem zweidimensionalen Facettenwürfel für Text-Mining. Das Verfahren und das System führen ein Text-Mining auf Grundlage von Facetten, um unstrukturierte Daten in einem oder mehreren Dokumenten zu analysieren, durch Erzeugen eines zweidimensionalen Facettenwürfels, bei dem es sich um eine Korrelationsmatrix für eine oder mehrere Facetten handelt, die einem Satz aus einem oder mehreren der Dokumente zugehörig sind; Gruppieren einer oder mehrerer der Facetten in der Korrelationsmatrix zu zumindest einem Cluster; Berechnen eines Zentrums für den Cluster; und Erkennen von Facetten, die sich in der Nähe des berechneten Zentrums des Clusters befinden, als repräsentativ für den Cluster durch.

Description

HINTERGRUND
Es gibt verschiedene Möglichkeiten zu suchen. Eine Navigationssuche verwendet eine Hierarchiestruktur oder Taxonomie, um Benutzer in die Lage zu versetzen, Daten zu durchsuchen. Eine direkte Suche ermöglicht Benutzern, Daten mit einem oder mehreren Schlüsselwörtern abzufragen. Eine Facettensuche kombiniert häufig Elemente sowohl der Navigationssuche als auch der direkten Suche, indem Benutzern ermöglicht wird, die Daten durch Anwenden mehrerer Filter und/oder Schlüsselwörter auf eine Facettenhierarchie zu untersuchen.
Die Facettenhierarchie klassifiziert die Daten entlang von Dimensionen, die als Facetten bezeichnet werden. Facetten entsprechen Eigenschaften der Daten und werden häufig durch Analyse von Text oder Dokumenten mithilfe verschiedener Extraktionstechniken oder aus Metadaten abgeleitet, die den Daten zugehörig sind. Beispielsweise verwenden Online-Händler häufig eine Facettenhierarchie, die Produktattribute wie Typ, Marke, Preis usw. widerspiegelt. Facettenwerte können manuell zu der Facettenhierarchie hinzugefügt oder mithilfe einer Text-Mining-Software automatisch extrahiert werden.
Mithilfe der Facetten kann ein n-dimensionaler Facettenwürfel erzeugt werden, wobei der Facettenwürfel einen mehrdimensionalen Zugriff auf Daten ermöglicht. Bei jeder Facette handelt es sich um eine getrennte Dimension des Facettenwürfels, und der Schnittpunkt von zwei oder mehr Dimensionen kann berechnet und angezeigt werden, zum Beispiel alle Produkte eines bestimmten Typs, einer bestimmten Marke und eines bestimmten Preises, die in einem bestimmten Zeitraum verkauft wurden. Dies ermöglicht Benutzern, komplexe Beziehungen in den Facettenwerten abzufragen und zuvor unbekannte Beziehungen in den Facettenwerten zu erkennen.
Es besteht jedoch ein Bedarf an gegenüber dem Stand der Technik verbesserten Techniken zum Ableiten von Facettenwerten.
KURZDARSTELLUNG
Die hier bereitgestellte Erfindung weist eine Reihe von Ausführungsformen auf, die zum Beispiel beim Implementieren eines auf einem Computer implementierten Verfahrens und Systems zum Clustering von Facetten auf einem zweidimensionalen Facettenwürfel für Text-Mining zweckdienlich sind.
Das Verfahren und das System führen ein Text-Mining auf Grundlage von Facetten durch, um unstrukturierte Daten in einem oder mehreren Dokumenten zu analysieren. Ein zweidimensionaler Facettenwürfel wird erzeugt, bei dem es sich um eine Korrelationsmatrix für eine oder mehrere Facetten handelt, die einem Satz aus einem oder mehreren der Dokumente zugehörig sind. Eine oder mehrere der Facetten werden in der Korrelationsmatrix zu zumindest einem Cluster gruppiert. Für den Cluster wird ein Zentrum berechnet. Facetten, die sich in der Nähe des berechneten Zentrums des Clusters befinden, werden als repräsentativ für den Cluster erkannt.
Die Korrelationsmatrix kann eine Eigenkorrelationsmatrix aufweisen. Ein Schnittpunkt einer bestimmten Zeile und Spalte der Korrelationsmatrix weist einen Korrelationswert für die Facetten auf, die durch die bestimmte Zeile und Spalte dargestellt werden.
Das Gruppieren der Facetten in der Korrelationsmatrix zu dem Cluster weist des Weiteren auf: ein Erzeugen eines Korrelationsvektors für eine Zeile oder eine Spalte der Korrelationsmatrix; und ein Gruppieren der Facetten in dem Korrelationsvektor zu dem Cluster.
Das Verfahren und das System können des Weiteren ein Berechnen einer Entfernungskorrelation für die Facetten in dem Cluster und ein Berechnen eines Zentrums des Clusters auf Grundlage der Entfernungskorrelation aufweisen, um zumindest eine der Facetten in dem Cluster zu erkennen, die dem Zentrum des Clusters am nächsten liegt.
Das Verfahren und das System können des Weiteren ein iteratives Berechnen von Facettenstatistiken und ein Verfeinern des Satzes auf Grundlage der Facettenstatistiken aufweisen, um die Facetten zu ermitteln, die den Dokumenten in dem Satz zugehörig sind.
Folglich stellt die vorliegende Erfindung verbesserte Techniken zum Analysieren von Dokumenten mit unstrukturiertem Text bereit. Im Besonderen leitet die vorliegende Erfindung automatisch Facettenwerte durch Text-Mining der Dokumente ab. Ein dynamisches Clustering der Facettenwerte wird automatisch mithilfe eines n-dimensionalen Facettenwürfels durchgeführt, bei dem es sich um eine Korrelationsmatrix handelt. Die Ergebnisse enthalten die Erkennung von Beziehungen zwischen den Facettenwerten sowie den Dokumenten selbst.
Figurenliste
Im Folgenden wird Bezug auf die Zeichnungen genommen, in denen gleiche Bezugszeichen überall entsprechende Teile darstellen:

1 veranschaulicht eine Ausführungsform eines Inhaltsanalysesystems gemäß einer Ausführungsform.
2 veranschaulicht eine Benutzeroberfläche, die Ergebnisse aus einer Berechnung von Statistiken für Facetten darstellt.
3 veranschaulicht einen Text-Miner, der Facettenstatistiken für einen Satz von Dokumenten iterativ berechnet und den Satz von Dokumenten auf Grundlage der Facettenstatistiken verfeinert.
4 veranschaulicht einen Text-Miner, der Berechnungen von Facettenstatistiken für einen Satz von Dokumenten durchführt, was ein Berechnen einer Häufigkeit jeder Facette enthält.
5 veranschaulicht einen Ansatz zum Verringern einer Arbeitslast mithilfe eines Text-Miners.
6 veranschaulicht, wie ein Text-Miner eine Korrelationsmatrix verwendet, um ein Clustering durchzuführen.
7 veranschaulicht, wie ein Clustering von Facetten durch einen Text-Miner an Zeilen und/oder Spalten einer Korrelationsmatrix durchgeführt wird.
8 veranschaulicht die Vorteile, die sich aus einer Verwendung einer Korrelationsmatrix ergeben, um ein dynamisches Clustering von Facetten in Echtzeit durchzuführen.
9 ist ein Ablaufplan, der die Schritte veranschaulicht, die durch einen Text-Miner gemäß einer Ausführungsform durchgeführt werden.
10 veranschaulicht eine Benutzeroberfläche, die empirische Ergebnisse aus einem Anwenden eines dynamischen Clustering von Facetten in Echtzeit auf einen Korpus von Dokumenten darstellt.

AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung wird Bezug auf die beigefügten Zeichnungen genommen, die einen Teil hiervon bilden und in denen zur Veranschaulichung eine oder mehrere bestimmte Ausführungsformen dargestellt werden, in denen die Erfindung umgesetzt werden kann. Es versteht sich, dass sonstige Ausführungsformen eingesetzt werden können und dass Änderungen an der Struktur und den Funktionen vorgenommen werden können, ohne vom Umfang der vorliegenden Erfindung abzuweichen.
Übersicht
Es besteht ein wachsender Bedarf an verbesserten Techniken zum Analysieren unstrukturierter Daten wie zum Beispiel Text in Dokumenten. Text-Mining auf Grundlage von Facetten ist eines der leistungsfähigeren Verfahren zum Analysieren von unstrukturierten Daten.
In diesem Zusammenhang handelt es sich bei einer Facette um ein „Tag“, das einem Satz aus einem oder mehreren Dokumenten zugehörig ist. Im Besonderen ist die Facette den Dokumenten zugehörig, die eine oder mehrere bestimmte Bedingungen erfüllen. Zu Beispielen für die bestimmten Bedingungen können zählen: Bestimmte Schlüsselwörter tauchen in dem Dokument auf; das Dokument wurde in einem bestimmten Zeitraum erstellt; das Dokument enthält bestimmte Themen usw.
Die vorliegende Erfindung leitet Facettenwerte automatisch durch Text-Mining von Dokumenten oder sonstigem unstrukturierten Text ab und erzeugt anschließend einen n-dimensionalen Facettenwürfel zum Clustering der Facetten. Dies ermöglicht die Erkennung von Beziehungen zwischen den Facetten sowie den Dokumenten selbst.
Facettenverarbeitung
1 veranschaulicht eine Ausführungsform eines Inhaltsanalysesystems 100, das einen oder mehrere Server-Computer 102 enthält, die Anforderungen verarbeiten, die von einem oder mehreren Client-Computern 104 über ein Netzwerk 106 empfangen werden. Der Server 102 verwaltet einen Datenspeicher 108, der aus Textdaten und sonstigen Daten besteht. Der Server 102 führt einen Text-Miner 110 aus, der ein oder mehrere Dokumente 112 analysiert, um Facetten 114 für die Dokumente 112 zu erzeugen, wie im Folgenden ausführlicher beschrieben wird. Im Besonderen wendet der Text-Miner 110 eine Textanalyse auf die Dokumente 112 an, um Werte für die Facetten 114 zu ermitteln. Bei einer Textanalyse handelt es sich um Techniken, die Daten und Wissen aus den Dokumenten 112 extrahieren, z.B. Inhalt, Themen und dergleichen, und diese Daten als Werte der Facetten 114 klassifizieren.
Ein Wert einer Facette 114 kann einen bestimmten Datentyp aufweisen, der aus einem oder mehreren der Dokumente 112 zu ermitteln ist. Beispielsweise kann der Wert der Facette 114 ein Thema des Dokuments 112 aufweisen, das durch Text-Mining des Dokuments 112 im Hinblick auf seinen Inhalt ermittelt wird.
Durch Berechnen von Statistiken für die Facetten 114 kann eine Übersicht für die Dokumente 112 erzeugt werden, wie in 2 dargestellt. Im Besonderen veranschaulicht 2 eine Benutzeroberfläche 200, die zum Beispiel auf dem Client 104 angezeigt wird, die vier Quadranten 202 bis 208 aufweist, wobei für die Facetten 114 Korrelationen 202; Trends 204; Abweichungen 206; und die Beziehungen zwischen Facettenpaaren 208 für eines oder mehrere der Dokumente 112 dargestellt werden. Im Besonderen zeigt ein erster Quadrant 202 eine Wortwolke an, wobei die Größe der Facetten 114 die Korrelation mit einem oder mehreren der Dokumente 112 angibt (z.B. je größer die Facette 114, desto größer die Korrelation mit den Dokumenten 112); zeigt ein zweiter Quadrant 204 eine graphische Darstellung von Trends an, die den Trend der Vorkommen jeder Facette 114 in einem oder mehreren der Dokumente 112 nach Datum darstellt; zeigt ein dritter Quadrant 206 eine graphische Darstellung von Abweichungen an, die die zeitliche Abweichung des Vorkommens jeder Facette 114 in einem oder mehreren der Dokumente 112 nach Datum darstellt; und zeigt ein vierter Quadrant eine graphische Darstellung von Facettenpaaren an, die die Beziehungen zwischen Facetten 114 in einem oder mehreren der Dokumente 112 darstellt (je größer der Kreis, desto vermehrter treten die Facetten 114 in den Dokumenten 112 zusammen auf). Wenngleich die Quadranten 204 und 206 einander zu ähneln scheinen, unterscheiden sich die Berechnungen geringfügig darin, dass die graphische Darstellung von Trends in dem zweiten Quadranten 204 das Delta (d.h., die Differenz) für die vorherigen Monate verwendet, um den Trend zu berechnen, und die graphische Darstellung von Abweichungen in dem dritten Quadranten 206 eine absolute Anzahl der Facetten 114 für den spezifischen Zeitraum verwendet, um die Abweichung zu berechnen.
3 veranschaulicht den Text-Miner 110, der iterativ Statistiken für die Facetten 114 berechnet und einen Satz von Dokumenten 112 auf Grundlage der Statistiken für die Facetten 114 verfeinert, um die Facetten zu ermitteln, die den Dokumenten 112 zugehörig sind, wie zum Beispiel Konzepte, Themen und sonstigen Fakten, die durch die Dokumente 112 erwähnt werden.
In diesem Beispiel führt der Text-Miner 110 die Berechnungen 300a der Statistiken für die Facetten 114 für einen Satz 302a von Dokumenten 112 durch. Auf Grundlage dieser Berechnungen 300a wird ein weiterer Satz 302b aus einem oder mehreren der Dokumente 112, d.h., ein Teilsatz 302b des Satzes 302a, für eine erste Verfeinerung 304a ausgewählt.
Bei dieser ersten Verfeinerung 304a führt der Text-Miner 110 die Berechnungen 300b der Statistiken für die Facetten 114 für den Teilsatz 302b von Dokumenten 112 erneut durch. Auf Grundlage dieser Berechnungen 300b wird ein weiterer Satz 302c aus einem oder mehreren der Dokumente 112, d.h., ein Teilsatz 302c des Teilsatzes 302b, für eine iterative Verfeinerung 304b ausgewählt.
Bei dieser iterativen Verfeinerung 304b führt der Text-Miner 110 die Berechnungen 300c der Statistiken für die Facetten 114 für den Teilsatz 302c aus ausgewählten Dokumenten 112 erneut durch. Auf Grundlage dieser Berechnungen 300c werden bestimmte Daten und bestimmtes Wissen, in diesem Beispiel, dass eine Facette 114 ein oder mehrere Themen 306 aufweist, für den Teilsatz 302c aus ausgewählten Dokumenten 112 gewonnen. Weitere iterative Verfeinerungen 304 und Berechnungen 300 können nach Bedarf durchgeführt werden, um Facetten 114 zu erkennen, die den Dokumenten 112 zugehörig sind.
Die Berechnung 300 der Statistiken für die Facetten 114 kann ein Berechnen der Häufigkeit, Korrelation, Zeitreihe usw. jeder Facette 114 enthalten, um zumindest eine zur Verfeinerung 304 geeignete Facette 114 zu finden, um Daten und Wissen aus dem Satz 302 von Dokumenten 112 zu gewinnen. Die Verfeinerung 304 des Satzes 302 von Dokumenten 112 enthält ein Extrahieren eines Teilsatzes 302 der Dokumente 112, der eine oder mehrere der Facetten 114 enthält, auf Grundlage der Berechnung 300 der Statistiken für die Facetten 114.
Beispielsweise handelt es sich bei einem Wiederholen der Berechnung 300 der Statistiken für die Facetten 114 und einem Wiederholen der Verfeinerung 304 des Satzes 302 von Dokumenten 112 um Schlüsseloperationen, um einen Satz 302 der Dokumente 112 zu extrahieren, die einer oder mehreren der Facetten 114 zugehörig sind, wie zum Beispiel einen Satz 302 der Dokumente 112, die ein Thema 306 erwähnen.
4 veranschaulicht den Text-Miner 110, der die Berechnungen 300 von Statistiken für die Facetten 114 für den Satz 302 von Dokumenten 112 durchführt, was ein Berechnen einer Häufigkeit jeder Facette 114 enthält. Auf Grundlage dieser Berechnungen 300 wird eine Liste 400 von Facetten 114 mit großer Häufigkeit (d.h., Facette1 114a, Facette2 114b, Facette3 114c, Facette4 114d, Facette5 114e, ...) erzeugt.
Angenommen, der Benutzer möchte Werte von stark korrelierenden Facetten 114 aus der Liste 400 ermitteln. Wenn die Anzahl der Facetten 114 mit großer Häufigkeit in der Liste 400 groß ist, kann die Arbeitslast 402 des manuellen Korrelierens der Facetten 114 mit großer Häufigkeit zu groß sein.
Die Arbeitslast 402 würde typischerweise mit einem Prozess von Versuch und Irrtum einhergehen, der durch wiederholte unterschiedliche Versuche gekennzeichnet ist, die bis zum Erfolg oder, bis der Prozess beendet wird, fortgesetzt werden. Wenn kein Wissen aus einem aktuellen Satz 302 von Dokumenten 112 gewonnen werden kann, kann der Text-Miner 110 folglich vor einer Verfeinerung 304 zu einem vorherigen Satz 302 von Dokumenten 112 zurückkehren und die Verfeinerung 304 mit einer weiteren Facette 114 versuchen. Das Ziel bestünde darin, die Anzahl von Versuchen in dem Prozess von Versuch und Irrtum zu verringern.
5 veranschaulicht einen Ansatz zum Verringern der Arbeitslast 402 mithilfe des Text-Miners 110. In diesem Beispiel führt der Text-Miner 110 ein Clustering 500 an den Facetten 114 mit großer Häufigkeit in der Liste 400 durch, wobei die Facetten 114 auf Grundlage der Themen 306 zu Clustern 502 gruppiert werden.
Im Besonderen werden Facetten 114, die zu demselben Thema 306 gehören, zu einem Cluster 502 gruppiert, wobei die Facette1 114a und die Facette3 114c zu einem Cluster 502a gruppiert werden, der dem Thema A 306a zugehörig ist; die Facette2 114b und die Facette7 114g zu einem Cluster 502b gruppiert werden, der dem Thema B 306b zugehörig ist; die Facette4 114d und die Facette5 114e zu einem Cluster 502c gruppiert werden, der dem Thema C 306c zugehörig ist; und die Facette6 114f zu einem Cluster 502d gruppiert wird, der dem Thema D 306d zugehörig ist. Durch geeignetes Clustering 500 der Facetten 114 auf Grundlage der Themen 306 wird die Zeitspanne verkürzt, die mit dem Prozess von Versuch und Irrtum einhergeht.
6 veranschaulicht, wie der Text-Miner 110 das Clustering 500 verwendet, um eine Korrelationsmatrix 600 zu erzeugen. Bei der Korrelationsmatrix 600 handelt es sich um einen n-dimensionalen Facettenwürfel, wobei n = 2 gilt, wobei es sich bei jeder Facette 114 um eine getrennte Dimension handelt und der Schnittpunkt zweier Dimensionen berechnet und angezeigt werden kann. In diesem Beispiel ist die Korrelationsmatrix 600 eine Eigenkorrelationsmatrix 600, die Schnittpunkte mit denselben Werten von Facetten 114 enthält.
In der Korrelationsmatrix 600 werden dieselben Werte („Motor“, „Tag“, „Sonne“, „hören“, „Lärm“, „Messgerät“) von Facetten 114 als Beschriftungen an den Zeilen sowie an den Spalten der Matrix 600 platziert. Jede Zelle am Schnittpunkt einer bestimmten Zeile und Spalte weist einen Korrelationswert (oder eine absolute Häufigkeit) für die Werte der Facetten 114 auf, die durch die bestimmte Spalte und Zeile dargestellt werden.
Darüber hinaus kann ein Korrelationsvektor 602 für eine Zeile und/oder Spalte der Korrelationsmatrix 600 erzeugt werden. In diesem Beispiel wird der Korrelationsvektor 602 für die Zeile erzeugt, die den Wert „Lärm“ der Facetten 114 darstellt, wobei der Korrelationsvektor 602 aus einem „hohen“ Korrelationswert für die Zelle an dem Schnittpunkt der Zeile „Lärm“ und der Spalte „Motor“, einem „hohen“ Korrelationswert für die Zelle an dem Schnittpunkt der Zeile „Lärm“ und der Spalte „hören“, einem „hohen“ Korrelationswert für die Zelle an dem Schnittpunkt der Zeile „Lärm“ und der Spalte „Lärm“ und nicht vorhandenen (leeren) Korrelationswerten in den verbleibenden Zellen an den Schnittpunkten der Zeile „Lärm“ und der Spalte „Tag“, der Zeile „Lärm“ und der Spalte „Sonne“ sowie der Zeile „Lärm“ und der Spalte „Messgerät“ besteht. Folglich korreliert der Wert „Lärm“ der Facetten 114 stark mit den Werten „Motor“ und „hören“ der Facetten 114, korreliert jedoch nicht stark mit den Werten „Tag“, „Sonne“ und „Messgerät“ der Facetten 114.
7 veranschaulicht, wie das Clustering 500 der Facetten 114 durch den Text-Miner 110 an den Zeilen oder Spalten der Korrelationsmatrix 600 mithilfe der Facetten 114 durchgeführt wird, die die Themen 306 aufweisen.
In diesem Beispiel stammen die Dokumente 112 aus einem Korpus, der sich auf Kraftfahrzeuge bezieht. Das Thema A 306a enthält die stark korrelierenden Werte „Motor“, „hören“ und „Lärm“ der Facetten 114, z.B. hört man Lärm von dem Motor, wohingegen das Thema B 306b die stark korrelierenden Werte „Tag“, „Sonne“ und „Messgerät“ der Facetten 114 enthält, z.B. ist es schwierig, den Geschwindigkeitsmesser an einem sonnigen Tag zu überprüfen.
Im Besonderen beruht das Clustering 500 auf dem Korrelationsvektor 602, wobei die stark korrelierenden Werte der Facetten 114 in dem Korrelationsvektor 602, die zu demselben Thema 306 gehören, in einem Cluster 502 gruppiert oder zusammengeführt werden. Der Text-Miner 110 berechnet darüber hinaus eine Entfernungskorrelation, d.h., die statistische Abhängigkeit der Werte der Facetten 114 in jedem der Cluster 502 sowie ein Zentrum jedes der Cluster 502 auf Grundlage der Entfernungskorrelation, die zum Erkennen der Werte der Facetten 114, die sich in der Nähe des Zentrums des Clusters 502 befinden, verwendet wird.
8 veranschaulicht die Vorteile, die sich aus einer Verwendung der Korrelationsmatrix 600 ergeben, um ein dynamisches Clustering 500 in Echtzeit durchzuführen. Im Besonderen kann mithilfe der Korrelationsmatrix 600 das Clustering 500 durch den Text-Miner 110 dynamisch durchgeführt werden. Darüber hinaus stellt das Inhaltsanalysesystem 100 Indexstrukturen zum Berechnen von n-dimensionalen Würfelstrukturen sogar für umfangreiche verteilte Systeme bereit, die angewendet werden können, um das Clustering 500 in Echtzeit mithilfe der Korrelationsmatrix 600 durchzuführen.
Beispielsweise sind in 8 die Spaltenwerte der Facetten 114 der Korrelationsmatrix 600 dynamisch geändert worden, um eine Zeitreihenanalyse der Zeilenwerte der Facetten 114 durchzuführen. Im Besonderen sind die Werte der Facetten 114 für die Spalten der Korrelationsmatrix 600 in „Jan“ (Januar), „Feb“ (Februar), „März“ (März), „Apr“ (April), „Mai“ (Mai) und „Juni“ (Juni) geändert worden. Aus der Korrelationsmatrix 600 ist zu erkennen, dass das Thema A 306a, das die Werte „Motor“, „hören“ und „Lärm“ der Facetten 114 enthält, stark mit den Clustern 502 im Januar und Februar korreliert, wohingegen das Thema B 306b, das die Werte „Tag“, „Sonne“ und „Messgerät“ der Facetten 114 enthält, stark mit den Clustern 502 im April und Mai korreliert.
Das Endergebnis ist ein dynamisches Clustering 500 in Echtzeit, das durch den Text-Miner 110 durchgeführt wird. Mithilfe des dynamischen Clustering 500 in Echtzeit kann ein Endbenutzer die Analyse der Werte der Facetten 114 dynamisch in Echtzeit ändern.
Ablaufplan
9 ist ein Ablaufplan, der ein Text-Mining 110 auf Grundlage der Facetten 114 zum Analysieren von unstrukturierten Daten in einem oder mehreren Dokumenten 112 gemäß einer Ausführungsform veranschaulicht.
Block 900 stellt dar, dass der Text-Miner 110 eine Anforderung zum Clustering von Facetten für einen Satz (D) 302 aus einem oder mehreren der Dokumente 112 empfängt.
Block 902 stellt dar, dass der Text-Miner 110 einen zweidimensionalen Facettenwürfel erzeugt, bei dem es sich um eine Korrelationsmatrix 600 für eine oder mehrere Facetten handelt, die dem Satz (D) 302 zugehörig sind.
Block 904 stellt dar, dass der Text-Miner 110 ein Clustering 500 einer oder mehrerer Zeilen der Korrelationsmatrix 600 durchführt, das ein Gruppieren einer oder mehrerer der Facetten 114 in einem Korrelationsvektor 602 in der Korrelationsmatrix 600 zu zumindest einem Cluster 502 enthält.
Block 906 stellt dar, dass der Text-Miner 110 ein Zentrum für jeden der Cluster 502 berechnet.
Block 908 stellt dar, dass der Text-Miner 110 auf die empfangene Anforderung reagiert, indem er die Facetten 114, die sich in der Nähe des berechneten Zentrums jedes der Cluster 502 befinden, als repräsentativ für diesen Cluster 502 erkennt.
Empirische Ergebnisse
10 veranschaulicht eine Benutzeroberfläche 1000, die zum Beispiel auf dem Client 104 angezeigt wird, die empirische Ergebnisse aus der Anwendung der Erfindung auf einen Korpus von Dokumenten 112 darstellt, die Berichte über Probleme bei Fahrzeugen aufweisen. In diesem Beispiel enthält die Benutzeroberfläche 1000 eine graphische Darstellung von zweidimensionalen Korrelationsvektoren für jede Facette 114, die ausgewählt und in einem Korrelationsvektorraum graphisch dargestellt werden, wobei die x- und y-Achse Korrelationsvektordimensionen sind, die durch Hauptkomponentenanalyse (principal component analysis, PCA) verringert oder verdichtet werden.
Beispielsweise stellt 1002 die Korrelation der Werte „unten“, „Kugel“, „Gelenk“ der Facetten 114 dar, die angibt, dass zahlreiche Dokumente 112 vorhanden sind, die über Probleme mit unteren Kugelgelenken berichten, was die Grundlage für einen Rückruf bilden kann.
Computerprogrammprodukt
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt mit einem beliebigen Integrationsgrad technischer Details handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) enthalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatten-Festwertspeicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. durch ein Glasfaserkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Router, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, im Feld programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsdaten der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Fazit
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung erfolgten zur Veranschaulichung, sind jedoch nicht erschöpfend oder auf die offenbarten Ausführungsformen beschränkt gemeint. Viele Modifizierungen und Varianten sind für Fachleute ersichtlich, ohne vom Umfang und Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder die technische Verbesserung gegenüber auf dem Markt erhältlichen Technologien am besten zu erläutern oder um anderen Fachleuten zu ermöglichen, die hierin offenbarten Ausführungsformen zu verstehen.

Claims

Auf einem Computer implementiertes Verfahren, das aufweist: Text-Mining auf Grundlage von Facetten, um unstrukturierte Daten in einem oder mehreren Dokumenten zu analysieren durch: Erzeugen eines zweidimensionalen Facettenwürfels, bei dem es sich um eine Korrelationsmatrix für eine oder mehrere Facetten handelt, die einem Satz aus einem oder mehreren der Dokumente zugehörig sind; Gruppieren einer oder mehrerer der Facetten in der Korrelationsmatrix zu zumindest einem Cluster; Berechnen eines Zentrums für den Cluster; und Erkennen von Facetten, die sich in der Nähe des berechneten Zentrums des Clusters befinden, als repräsentativ für den Cluster.
Verfahren nach Anspruch 1, wobei die Korrelationsmatrix eine Eigenkorrelationsmatrix aufweist.
Verfahren nach Anspruch 1, wobei ein Schnittpunkt einer bestimmten Zeile und Spalte der Korrelationsmatrix einen Korrelationswert für die Facetten aufweist, die durch die bestimmte Zeile und Spalte dargestellt werden.
Verfahren nach Anspruch 3, wobei das Gruppieren einer oder mehrerer der Facetten des Weiteren aufweist: Erzeugen eines Korrelationsvektors für eine Zeile oder eine Spalte der Korrelationsmatrix; und Gruppieren der Facetten in dem Korrelationsvektor zu dem Cluster.
Verfahren nach Anspruch 4, das des Weiteren ein Berechnen einer Entfernungskorrelation für die Facetten in dem Cluster aufweist.
Verfahren nach Anspruch 5, das des Weiteren ein Berechnen eines Zentrums des Clusters auf Grundlage der Entfernungskorrelation aufweist, um zumindest eine der Facetten in dem Cluster zu erkennen, die dem Zentrum des Clusters am nächsten liegt.
Verfahren nach Anspruch 1, das des Weiteren ein iteratives Berechnen von Facettenstatistiken und ein Verfeinern des Satzes auf Grundlage der Facettenstatistiken aufweist, um die Facetten zu ermitteln, die den Dokumenten in dem Satz zugehörig sind.
Auf einem Computer implementiertes System, das aufweist: einen oder mehrere Computer, die für ein Text-Mining auf Grundlage von Facetten programmiert sind, um unstrukturierte Daten in einem oder mehreren Dokumenten zu analysieren durch: Erzeugen eines zweidimensionalen Facettenwürfels, bei dem es sich um eine Korrelationsmatrix für eine oder mehrere Facetten handelt, die einem Satz aus einem oder mehreren der Dokumente zugehörig sind; Gruppieren einer oder mehrerer der Facetten in der Korrelationsmatrix zu zumindest einem Cluster; Berechnen eines Zentrums für den Cluster; und Erkennen von Facetten, die sich in der Nähe des berechneten Zentrums des Clusters befinden, als repräsentativ für den Cluster.
System nach Anspruch 8, wobei die Korrelationsmatrix eine Eigenkorrelationsmatrix aufweist.
System nach Anspruch 8, wobei ein Schnittpunkt einer bestimmten Zeile und Spalte der Korrelationsmatrix einen Korrelationswert für die Facetten aufweist, die durch die bestimmte Zeile und Spalte dargestellt werden.
System nach Anspruch 10, wobei das Gruppieren einer oder mehrerer der Facetten des Weiteren aufweist: Erzeugen eines Korrelationsvektors für eine Zeile oder eine Spalte der Korrelationsmatrix; und Gruppieren der Facetten in dem Korrelationsvektor zu dem Cluster.
System nach Anspruch 11, das des Weiteren ein Berechnen einer Entfernungskorrelation für die Facetten in dem Cluster aufweist.
System nach Anspruch 12, das des Weiteren ein Berechnen eines Zentrums des Clusters auf Grundlage der Entfernungskorrelation aufweist, um zumindest eine der Facetten in dem Cluster zu erkennen, die dem Zentrum des Clusters am nächsten liegt.
System nach Anspruch 8, das des Weiteren ein iteratives Berechnen von Facettenstatistiken und ein Verfeinern des Satzes auf Grundlage der Facettenstatistiken aufweist, um die Facetten zu ermitteln, die den Dokumenten in dem Satz zugehörig sind.
Computerprogrammprodukt, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, in dem Programmanweisungen verkörpert sind, wobei die Programmanweisungen durch einen oder mehrere Computer ausführbar sind, um zu bewirken, dass die Computer ein Verfahren durchführen, das aufweist: Text-Mining auf Grundlage von Facetten, um unstrukturierte Daten in einem oder mehreren Dokumenten zu analysieren durch: Erzeugen eines zweidimensionalen Facettenwürfels, bei dem es sich um eine Korrelationsmatrix für eine oder mehrere Facetten handelt, die einem Satz aus einem oder mehreren der Dokumente zugehörig sind; Gruppieren einer oder mehrerer der Facetten in der Korrelationsmatrix zu zumindest einem Cluster; Berechnen eines Zentrums für den Cluster; und Erkennen von Facetten, die sich in der Nähe des berechneten Zentrums des Clusters befinden, als repräsentativ für den Cluster.
Computerprogrammprodukt nach Anspruch 15, wobei die Korrelationsmatrix eine Eigenkorrelationsmatrix aufweist.
Computerprogrammprodukt nach Anspruch 15, wobei ein Schnittpunkt einer bestimmten Zeile und Spalte der Korrelationsmatrix einen Korrelationswert für die Facetten aufweist, die durch die bestimmte Zeile und Spalte dargestellt werden.
Computerprogrammprodukt nach Anspruch 15, wobei das Gruppieren einer oder mehrerer der Facetten des Weiteren aufweist: Erzeugen eines Korrelationsvektors für eine Zeile oder eine Spalte der Korrelationsmatrix; und Gruppieren der Facetten in dem Korrelationsvektor zu dem Cluster.
Computerprogrammprodukt nach Anspruch 18, das des Weiteren ein Berechnen einer Entfernungskorrelation für die Facetten in dem Cluster aufweist.
Computerprogrammprodukt nach Anspruch 19, das des Weiteren ein Berechnen eines Zentrums des Clusters auf Grundlage der Entfernungskorrelation aufweist, um zumindest eine der Facetten in dem Cluster zu erkennen, die dem Zentrum des Clusters am nächsten liegt.
Computerprogrammprodukt nach Anspruch 15, das des Weiteren ein iteratives Berechnen von Facettenstatistiken und ein Verfeinern des Satzes auf Grundlage der Facettenstatistiken aufweist, um die Facetten zu ermitteln, die den Dokumenten in dem Satz zugehörig sind.