DE112017007361T5 - Unterstützen von interaktivem textmining-prozess mit dialog in natürlicher sprache - Google Patents

Unterstützen von interaktivem textmining-prozess mit dialog in natürlicher sprache Download PDF

Info

Publication number
DE112017007361T5
DE112017007361T5 DE112017007361.8T DE112017007361T DE112017007361T5 DE 112017007361 T5 DE112017007361 T5 DE 112017007361T5 DE 112017007361 T DE112017007361 T DE 112017007361T DE 112017007361 T5 DE112017007361 T5 DE 112017007361T5
Authority
DE
Germany
Prior art keywords
facet
statistical analysis
natural language
analysis
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112017007361.8T
Other languages
English (en)
Inventor
Shunsuke Ishikawa
Masaki Komedani
Yutaka Moriya
Hiroaki Kikuchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112017007361T5 publication Critical patent/DE112017007361T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Ein Mechanismus wird in einem Datenverarbeitungssystem bereitgestellt, das mindestens einen Prozessor und mindestens einen Arbeitsspeicher aufweist, wobei der mindestens eine Arbeitsspeicher Anweisungen aufweist, die durch den mindestens einen Prozessor ausgeführt werden, um den mindestens einen Prozessor zu veranlassen, eine Dokument-Analyseeinheit zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette umzusetzen. Ein Annahmemodul nimmt einen Satz in natürlicher Sprache an. Ein Extraktionsmodul extrahiert eine erste Facette aus dem Satz in natürlicher Sprache. Ein statistisches Analysemodul führt eine erste statistische Analyse einer Gruppe von Dokumenten in Bezug auf die erste Facette aus und bestimmt einen Wert der ersten Facette auf Grundlage eines Ergebnisses der ersten statistischen Analyse in Reaktion auf Informationen, die aus dem Satz in natürlicher Sprache extrahiert worden sind, wobei die Informationen eine zweite statistische Analyse erfordern. Das statistische Analysemodul führt die zweite statistische Analyse der Gruppe von Dokumenten unter Verwendung des Wertes der ersten Facette aus. Eine Benutzerschnittstelle stellt eine zweite Facette dar, die auf Grundlage eines Ergebnisses der zweiten statistischen Analyse bestimmt worden ist.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Anmeldung betrifft allgemein eine verbesserte Datenverarbeitungsvorrichtung und ein verbessertes Datenverarbeitungsverfahren und insbesondere Mechanismen für eine statistische Analyse von Dokumenten in Bezug auf Facetten.
  • HINTERGRUND
  • Textmining ist eine Technologie zum Erwerben von Wissen aus einer großen Menge unstrukturierter Textdaten von Dokumenten, ohne dazu zwangsläufig den gesamten Inhalt der Dokumente lesen zu müssen. Ein Textmining-System kann die unstrukturierten Textdaten lesen und Facetten extrahieren, die Gruppen von Wörtern oder Ausdrücken sind, die Merkmale des Dokuments darstellen. Ferner kann das Textmining-System die Dokumente mit Abfragen eingrenzen (z.B. Abfragen mit Suche nach Sätzen in natürlicher Sprache, Abfragen mit Suche nach Facetten), und verschiedene statistische Analysen der aktuellen Dokumente (der eingegrenzten Dokumente) in Bezug auf die Facetten ausführen.
  • Um signifikante Ergebnisse aus dem Textmining zu erhalten, ist ein Analyseprozess unzureichend, und es müssen zwei Analyseprozesse ausgeführt werden. Die zwei Analyseprozesse können den ersten Analyseprozess zum Eingrenzen von Dokumenten in interessante Dokumente und zum Identifizieren von Wörtern, die für die interessanten Dokumente spezifisch sind, und den zweiten Analyseprozess zum Identifizieren des Grunds für das Auftreten der Wörter enthalten.
  • Da jedoch üblicherweise davon ausgegangen wird, dass nur der erste Analyseprozess ausgeführt wird, ergibt sich das Problem, dass ein Benutzer wahrscheinlich keine signifikanten Ergebnisse aus dem Textmining erhält.
  • Daher besteht beim Stand der Technik ein Bedarf, sich mit dem oben genannten Problem zu beschäftigen.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Von einem ersten Aspekt aus betrachtet, stellt die vorliegende Erfindung ein Verfahren in einem Datenverarbeitungssystem bereit, das mindestens einen Prozessor und mindestens einen Arbeitsspeicher aufweist, wobei der mindestens eine Arbeitsspeicher Anweisungen aufweist, die durch den mindestens einen Prozessor ausgeführt werden, um den mindestens einen Prozessor zu veranlassen, eine Dokument-Analyseeinheit zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette auszuführen, wobei das Verfahren aufweist: ein Annehmen, durch ein Annahmemodul, das in der Dokument-Analyseeinheit ausgeführt wird, eines Satzes in natürlicher Sprache; ein Extrahieren, durch ein Extraktionsmodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten Facette aus dem Satz in natürlicher Sprache; ein Ausführen, durch ein statistisches Analysemodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten statistischen Analyse einer Gruppe von Dokumenten in Bezug auf die erste Facette; ein Bestimmen, durch das statistische Analysemodul, eines Wertes der ersten Facette auf Grundlage eines Ergebnisses der ersten statistischen Analyse in Reaktion auf Informationen, die aus dem Satz in natürlicher Sprache extrahiert worden sind, wobei die Informationen eine zweite statistische Analyse erfordern; ein Ausführen, durch das statistische Analysemodul, der zweiten statistischen Analyse der Gruppe von Dokumenten unter Verwendung des Wertes der ersten Facette; und ein Darstellen, über die durch das Datenverarbeitungssystem ausgeführte Benutzerschnittstelle, einer zweiten Facette, die auf Grundlage eines Ergebnisses der zweiten statistischen Analyse bestimmt wird.
  • Von einem weiteren Aspekt aus betrachtet, stellt die vorliegende Erfindung eine Vorrichtung zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette bereit, wobei die Vorrichtung aufweist: einen Prozessor und einen Arbeitsspeicher, der mit dem Prozessor verbunden ist, wobei der Arbeitsspeicher Anweisungen aufweist, die, wenn sie durch den Prozessor ausgeführt werden, den Prozessor veranlassen, eine Dokument-Analyseeinheit zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette umzusetzen, wobei die Anweisungen den Prozessor veranlassen zum: Annehmen, durch ein Annahmemodul, das in der Dokument-Analyseeinheit ausgeführt wird, eines Satzes in natürlicher Sprache; Extrahieren, durch ein Extraktionsmodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten Facette aus dem Satz in natürlicher Sprache; Ausführen, durch ein statistisches Analysemodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten statistischen Analyse einer Gruppe von Dokumenten in Bezug auf die erste Facette; Bestimmen, durch das statistische Analysemodul, eines Wertes der ersten Facette auf Grundlage eines Ergebnisses der ersten statistischen Analyse in Reaktion auf Informationen, die aus dem Satz in natürlicher Sprache extrahiert worden sind, wobei die Informationen eine zweite statistische Analyse erfordern; Ausführen, durch das statistische Analysemodul, der zweiten statistischen Analyse der Gruppe von Dokumenten unter Verwendung des Wertes der ersten Facette; und Darstellen, über die durch das Datenverarbeitungssystem ausgeführte Benutzerschnittstelle, einer zweiten Facette, die auf Grundlage eines Ergebnisses der zweiten statistischen Analyse bestimmt wird.
  • Von einem weiteren Aspekt aus betrachtet stellt die vorliegende Erfindung ein Computerprogrammprodukt zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette bereit, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, das von einer Verarbeitungsschaltung lesbar ist und Anweisungen zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren zum Ausführen der Schritte der Erfindung auszuführen.
  • Von einem weiteren Aspekt aus betrachtet stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem durch einen Computer lesbaren Medium gespeichert ist und in den internen Arbeitsspeicher eines digitalen Computers ladbar ist, wobei es Softwarecode-Abschnitte zum Ausführen der Schritte der Erfindung aufweist, wenn das Programm auf einem Computer ausgeführt wird.
  • In einer veranschaulichenden Ausführungsform wird ein Verfahren in einem Datenverarbeitungssystem bereitgestellt, das mindestens einen Prozessor und mindestens einen Arbeitsspeicher aufweist, wobei der mindestens eine Arbeitsspeicher Anweisungen aufweist, die durch den mindestens einen Prozessor ausgeführt werden, um den mindestens einen Prozessor zu veranlassen, eine Dokument-Analyseeinheit zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette auszuführen. Das Verfahren weist ein Annehmen, durch ein Annahmemodul, das in der Dokument-Analyseeinheit ausgeführt wird, eines Satzes in natürlicher Sprache auf. Das Verfahren weist ferner ein Extrahieren, durch ein Extraktionsmodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten Facette aus dem Satz in natürlicher Sprache auf. Das Verfahren weist ferner ein Ausführen, durch ein statistisches Analysemodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten statistischen Analyse einer Gruppe von Dokumenten in Bezug auf die erste Facette auf. Das Verfahren weist ferner ein Bestimmen, durch das statistische Analysemodul, eines Wertes der ersten Facette auf Grundlage eines Ergebnisses der ersten statistischen Analyse in Reaktion auf Informationen auf, die aus dem Satz in natürlicher Sprache extrahiert worden sind, wobei die Informationen eine zweite statistische Analyse erfordern. Das Verfahren weist ferner ein Ausführen, durch das statistische Analysemodul, der zweiten statistischen Analyse der Gruppe von Dokumenten unter Verwendung des Wertes der ersten Facette auf. Das Verfahren weist ferner ein Darstellen, über die durch das Datenverarbeitungssystem ausgeführte Benutzerschnittstelle, einer zweiten Facette auf, die auf Grundlage eines Ergebnisses der zweiten statistischen Analyse bestimmt wird.
  • In weiteren veranschaulichenden Ausführungsformen wird ein Computerprogrammprodukt bereitgestellt, das ein durch einen Computer verwendbares oder lesbares Medium mit einem computerlesbaren Programm aufweist. Wenn das durch einen Computer lesbare Programm auf einer Datenverarbeitungseinheit ausgeführt wird, veranlasst es die Datenverarbeitungseinheit, verschiedene der einzelnen Operationen und Kombinationen davon auszuführen, die oben in Bezug auf das Verfahren der veranschaulichenden Ausführungsform dargelegt sind.
  • In noch einer weiteren veranschaulichenden Ausführungsform wird ein System/eine Vorrichtung bereitgestellt. Das System/die Vorrichtung kann einen oder mehrere Prozessoren und einen Arbeitsspeicher aufweisen, der mit dem einen oder den mehreren Prozessoren verbunden ist. Der Arbeitsspeicher kann Anweisungen aufweisen, die, wenn sie durch den einen oder die mehreren Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, verschiedene der einzelnen Operationen und Kombinationen davon auszuführen, die oben in Bezug auf das Verfahren der veranschaulichenden Ausführungsform dargelegt sind.
  • Diese und andere Merkmale und Vorteile der vorliegenden Erfindung werden in der folgenden ausführlichen Beschreibung der beispielhaften Ausführungsformen der vorliegenden Erfindung beschrieben oder werden dadurch für den Fachmann offenkundig.
  • Figurenliste
  • Die Erfindung sowie ein bevorzugter Verwendungsmodus und weitere ihrer Zielsetzungen und Vorteile lassen sich am besten unter Bezugnahme auf die folgende ausführliche Beschreibung von veranschaulichenden Ausführungsformen in Verbindung mit den begleitenden Zeichnungen verstehen, wobei:
    • 1 ein Beispiel für tatsächliche Analyseprozesse gemäß dem Stand der Technik darstellt und in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung umgesetzt werden kann;
    • 2 ein Blockschaubild eines Dokument-Analysesystems gemäß einer veranschaulichenden Ausführungsform darstellt;
    • 3 ein Beispiel für einen Eingabebildschirm gemäß einer veranschaulichenden Ausführungsform darstellt;
    • 4 ein Beispiel für einen Bildschirm für ein Mining-Schaubild gemäß einer veranschaulichenden Ausführungsform darstellt;
    • 5 ein Beispiel für einen Bildschirm für ein Mining-Schaubild darstellt, das angezeigt wird, wenn eine automatische Analyseangabe gemäß einer veranschaulichenden Ausführungsform in einem Satz in natürlicher Sprache enthalten ist;
    • 6 ein Beispiel für einen Facetten-Bildschirm darstellt, die zusätzlich zum Bildschirm für das Mining-Schaubild gemäß einer veranschaulichenden Ausführungsform angezeigt wird;
    • 7 ein Beispiel für den Bildschirm für das Mining-Schaubild zeigt, das unmittelbar vor einem Bildschirm einer Detailanalyse gemäß einer veranschaulichenden Ausführungsform angezeigt wird;
    • 8 ein Beispiel für einen Bildschirm einer Detailanalyse gemäß einer veranschaulichenden Ausführungsform darstellt;
    • 9A und 9B einen Ablaufplan darstellen, der ein Beispiel für eine Funktionsweise der Dokumentanalyse gemäß einer veranschaulichenden Ausführungsform darstellt;
    • 10 eine bildliche Darstellung eines beispielhaften verteilten Datenverarbeitungssystems gemäß dem Stand der Technik darstellt, und in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung umgesetzt werden kann; und
    • 11 ein Blockschaubild für nur ein beispielhaftes Datenverarbeitungssystem gemäß dem Stand der Technik ist, und in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung umgesetzt werden kann.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die veranschaulichenden Ausführungsformen stellen ein System und eine Benutzerschnittstelle zum Unterstützen eines interaktiven Textmining-Prozesses mit Dialog in natürlicher Sprache bereit. Das System erkennt die Analyse des Benutzers und führt automatisch Analyse und Unterstützung aus. Die Analyse, die der Benutzer ausführen möchte, kann in einem Satz in natürlicher Sprache beschrieben werden. Das System versteht die Analyseschritte aus dem Satz in natürlicher Sprache und unterstützt die Analyse. Insbesondere führt das System den Analyseschritt automatisch aus, wobei erforderliche Informationen durch Interaktion mit dem Benutzer entsprechend gespeichert werden, und zeigt einen Analysebildschirm an.
  • Die Benutzerschnittstelle ermöglicht Analysesituationen, wobei die Beziehung zwischen Wörtern und analysiertem Inhalt unter Verwendung eines Analyse-Eingabebildschirms intuitiv verstanden werden soll, um Eingaben von Sätzen in natürlicher Sprache und Beispiele von Sätzen in natürlicher Sprache und einen Mining-Bildschirm für tatsächliches Mining anzuzeigen. Der Mining-Bildschirm besteht aus einem Bildschirme für ein Mining-Schaubild zum Visualisieren des interaktiven Mining-Prozesses, einem Analysebildschirm zum Anzeigen eines optimalen Analyse-Dashboards von einer aktuellen Gruppe von Dokumenten und den zu analysierenden Facetten und eines Facetten-Bildschirms zum Auflisten verfügbarer Facetten.
  • Bevor mit der Erläuterung der verschiedenen Aspekte der veranschaulichenden Ausführungsformen begonnen wird, sollte zunächst klar sein, dass in dieser Beschreibung durchgehend der Begriff „Mechanismus“ verwendet wird, um auf Elemente der vorliegenden Erfindung zu verweisen, die verschiedene Operationen, Funktionen und dergleichen ausführen. Ein „Mechanismus“, wie der Begriff hierin verwendet wird, kann eine Umsetzung der Funktionen oder Aspekte der veranschaulichenden Ausführungsformen in Form einer Vorrichtung, eines Verfahrens oder eines Computerprogrammprodukts sein. Im Fall eines Verfahrens wird das Verfahren durch eine oder mehrere Einheiten, Vorrichtungen, Computer, Datenverarbeitungssysteme oder dergleichen umgesetzt. Im Fall eines Computerprogrammprodukts wird die Logik, die durch den Computercode oder in oder auf dem Computerprogrammprodukt verkörperte Anweisungen dargestellt wird, durch eine oder mehrere Hardware-Einheiten ausgeführt, um die Funktionalität umzusetzen oder die dem spezifischen „Mechanismus“ zugehörigen Operationen auszuführen. Daher kann der hierin beschriebene Mechanismus als spezialisierte Hardware, auf Mehrzweck-Hardware ausgeführte Software, auf einem Medium gespeicherte Software-Anweisungen so umgesetzt werden, dass die Anweisungen durch spezielle oder Mehrzweck-Hardware, ein Verfahren oder eine Methode zum Ausführen der Funktionen oder einer Kombination des Vorgenannten problemlos ausführbar sind.
  • Die vorliegende Beschreibung und die Ansprüche können die Begriffe „ein/eine“, „mindestens ein/eine/einer von“ und „ein/eine/einer oder mehrere von“ in Bezug auf bestimmte Merkmale und Elemente der veranschaulichenden Ausführungsformen verwenden. Es sollte klar sein, dass die Begriffe und Ausdrücke für die Angabe gedacht sind, dass mindestens eine der bestimmten Funktionen oder eines der bestimmten Elemente in der bestimmten veranschaulichenden Ausführungsform vorhanden ist, dass aber auch mehr als eine/eines vorhanden sein kann. Das heißt, diese Begriffe/Ausdrücke sollen die Beschreibung oder die Ansprüche keinesfalls auf das Vorhandensein einer einzelnen Funktion/eines einzelnen Elements einschränken oder erfordern, dass eine Mehrzahl solcher Funktionen/Elemente vorhanden sein muss. Diese Begriffe/Ausdrücke erfordern im Gegenteil nur mindestens eine einzelne Funktion/ein einzelnes Element mit der Möglichkeit einer Mehrzahl solcher Funktionen/Elemente innerhalb des Schutzumfangs der Beschreibung und Ansprüche.
  • Außerdem sollte klar sein, dass die folgende Beschreibung eine Mehrzahl von verschiedenen Beispielen für verschiedene Elemente der veranschaulichenden Ausführungsformen verwendet, um beispielhafte Umsetzungen der veranschaulichenden Ausführungsformen zusätzlich zu verdeutlichen und das Verständnis der Mechanismen der veranschaulichenden Ausführungsformen zu unterstützen. Diese Beispiele sollen keinesfalls einschränkend verstanden werden und sind nicht erschöpfend für die verschiedenen Möglichkeiten zum Umsetzen der Mechanismen der veranschaulichenden Ausführungsformen. Dem Fachmann wird in Anbetracht der vorliegenden Erfindung klar sein, dass es viele alternative Umsetzungen für diese verschiedenen Elemente gibt, die zusätzlich zu den oder an Stelle der hierin bereitgestellten Beispiele verwendet werden können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen.
  • 1 zeigt ein Beispiel eines tatsächlichen Analyseprozesses. In diesem Beispiel wird davon ausgegangen, dass ein Benutzer Dokumente über Fahrzeugmängel analysiert, um Probleme, die bei einem Fahrzeugmodell häufig auftreten (hierin im Folgenden einfach nur als „Modell“ bezeichnet), und Ursachen für die Probleme zu ermitteln.
  • Im Prozess 1 kann der Benutzer zuerst die Dokumente eingrenzen, indem er als Abfragewort das zu analysierende Modell (in diesem Beispiel „ABC“) verwendet, wie durch einen Knoten 31 angegeben. Das heißt, der Benutzer kann eine Facettensuche unter Verwendung des Wertes „ABC“ einer Facette „Modell“ ausführen. Hierin wird im Folgenden der Wert der Facette als ein „Facettenwert“ bezeichnet. Als Nächstes kann der Benutzer eine Facette „Komponente“, die analysiert werden soll, auswählen und eine Korrelationsanalyse der aktuellen Dokumente in Bezug auf die Facette ausführen. In 1 wird als Ergebnis der Korrelationsanalyse angenommen, dass sie einen Facettenwert „Bremse“ erkennen lässt, der in hohem Maß mit dem Modell „ABC“ aus den Facettenwerten der Facette „Komponente“ in Beziehung steht, wie durch den Knoten 32 angegeben. Somit kann der Benutzer die aktuellen Dokumente mit dem Facettenwert „Bremse“ weiter eingrenzen, um zu ermitteln, warum es mit Bremsen Probleme gibt. Das heißt, der Benutzer kann eine Facettensuche unter Verwendung des Wertes „Bremse“ einer Facette „Komponente“ ausführen.
  • Im Prozess 2 kann der Benutzer die aktuellen Dokumente mit dem Facettenwert „Bremse“ eingrenzen, wie oben unter Bezugnahme auf den letzten Analyseschritt des Prozesses 1 angegeben. Als Nächstes kann der Benutzer eine Korrelationsanalyse des aktuellen Dokuments in Bezug auf verschiedene Facetten ausführen (z.B. ein Substantiv, einen Bundesstaat und dergleichen). In 1 wird als Ergebnis der Korrelationsanalyse angenommen, dass sie einen Facettenwert „Rost“ erkennen lässt, der in hohem Maß mit dem Facettenwert „Bremse“ aus den Facettenwerten der Facette „Substantiv“ in Beziehung steht, wie durch den Knoten 33 angegeben. Ferner wird als ein Ergebnis der Korrelationsanalyse angenommen, dass sie einen Facettenwert „nördlich“ erkennen lässt, der in hohem Maß mit dem Facettenwert „Bremse“ aus den Facettenwerten der Facette „Bundesstaat“ in Beziehung steht, wie durch den Knoten 34 angegeben. Der Grund dafür ist, dass in den nördlichen Bundesstaaten Salz gestreut wird, um zu verhindern, dass die Fahrbahnen vereisen, und dies lässt die Bremsen rosten.
  • Wenn jedoch angenommen wird, dass das vorgenannte Textmining-System auf derartige Analyseprozesse angewendet wird, muss es in verschiedener Hinsicht verbessert werden. Zum Beispiel wird gewünscht, dass das vorgenannte Textmining-System eine Facette vorschlägt, die als nützlich betrachtet werden kann, wenn eine statistische Analyse in Bezug auf die Facette ausgeführt wird. Da durch Eingrenzen erhaltene Beziehungen zwischen Wörtern und Ausdrücken und statistische Analysen wichtig sind, wird ferner gewünscht, dass das vorgenannte Textmining-System es einem Benutzer ermöglicht, die Beziehungen zu verstehen.
  • In Anbetracht dessen können die beispielhaften Ausführungsformen ein System bereitstellen, das die Absicht eines Benutzers erkennt, die Dokumente zu analysieren, die Dokumente automatisch analysiert und den Benutzer beim Analysieren der Dokumente unterstützt. Das System kann ferner eine Benutzerschnittstelle enthalten, die es dem Benutzer ermöglicht, Analysesituationen, Beziehungen zwischen analysierten Wörtern oder Ausdrücken und Analyseergebnisse intuitiv zu verstehen.
  • 2 zeigt ein Blockschaubild eines Dokument-Analysesystems gemäß einer veranschaulichenden Ausführungsform. Wie in der Figur gezeigt, kann das Dokument-Analysesystem eine Dokument-Analyseeinheit 10 und eine Benutzerschnittstelle 20 enthalten. Die Dokument-Analyseeinheit 10 kann die Absicht eines Benutzers erkennen, die Dokumente zu analysieren, kann die Dokumente automatisch analysieren und den Benutzer beim Analysieren der Dokumente unterstützen.
  • Das heißt, die Dokument-Analyseeinheit 10 kann es einem Benutzer ermöglichen, eine Analyse, die der Benutzer ausführen möchte, in einem Satz in natürlicher Sprache zu beschreiben. Die Dokument-Analyseeinheit 10 kann Analyseschritte aus dem Satz in natürlicher Sprache verstehen und den Benutzer bei der Analyse unterstützen. Insbesondere kann die Dokument-Analyseeinheit 10 die Analyseschritte automatisch ausführen, wobei erforderliche Informationen durch Interaktion mit dem Benutzer entsprechend ergänzt werden, und einen Analysebildschirm anzeigen.
  • Zum Beispiel kann der Benutzer in dem oben genannten Beispiel einen Satz in natürlicher Sprache „Welche Komponente steht in hohem Maße mit Modell ABC in Beziehung und warum?“ in die Dokument-Analyseeinheit 10 eingeben. Die Dokument-Analyseeinheit 10 kann den Satz in natürlicher Sprache verstehen und den Prozess 1 automatisch ausführen. Ferner kann die Dokument-Analyseeinheit 10 die Verarbeitung mit Prozess 2 fortsetzen, Facetten als Kandidaten für eine Analysenachse vorschlagen, wenn wahrscheinlich eine hohe Korrelation in Bezug auf die Facetten erkannt wird, und die Facetten auf dem Analysebildschirm anzeigen.
  • Wie in 2 gezeigt, kann die Dokument-Analyseeinheit 10 ein Annahmemodul 11, ein Extraktionsmodul 12, ein Eingrenzungsmodul 13, ein statistisches Analysemodul 14, ein Auswahlmodul 14, ein Vorschlagmodul 16 und ein Detailanalysemodul 17 enthalten.
  • Das Annahmemodul 11 kann vordefinierte Muster von verständlichen Sätzen in natürlicher Sprache haben und kann eine Bedeutung eines vorgegebenen Satzes in natürlicher Sprache durch Musterabgleich verstehen. Der Satz in natürlicher Sprache kann im Grunde einen Analyseprozess von interaktivem Textmining darstellen. Somit kann der Satz in natürlicher Sprache eine zu analysierende Facette enthalten (hierin im Folgenden als „Analysefacette“ bezeichnet), einen zu verwendenden Typ einer statistischen Analyse (hier im Folgenden als „statistischer Analysetyp“ bezeichnet), und falls nötig, ein Abfragewort oder einen Abfrageausdruck zum Eingrenzen der Dokumente (hierin im Folgenden als „Abfrage“ bezeichnet). Die Analysefacette kann in dem Satz in natürlicher Sprache in Form des Namens der Analysefacette enthalten sein. Es wird angenommen, dass eine Liste mit den Namen von Analysefacetten dem System vorab durch den Benutzer bereitgestellt wird. Zu beachten ist, dass die Analysefacette, die in dem Satz in natürlicher Sprache enthalten ist, als ein Beispiel für eine erste Facette dient. Der statistische Analysetyp kann auch in dem Satz in natürlicher Sprache in Form des Namens der statistischen Analyse enthalten sein. Zu beachten ist, dass die statistische Analyse des Typs, der in dem Satz in natürlicher Sprache enthalten ist, als ein Beispiel für eine erste statistische Analyse dient.
  • Wenn der Satz in natürlicher Sprache eine mehrdeutige Abfrage enthält, kann das Annahmemodul 11 einen Bildschirm anzeigen, um dem Benutzer eine Auflösung der Mehrdeutigkeit zu ermöglichen. Wenn der Satz in natürlicher Sprache zum Beispiel eine Abfrage „ABC“ enthält, kann das Annahmemodul 11 für den Benutzer einen Bildschirm anzeigen, um zu bestimmen, welche einer Abfrage einer Facette „Modell“, einer Abfrage einer Facette „Substantiv“ und einer Abfrage für einfache Textsuche die Abfrage „ABC“ ist, die in dem Satz in natürlicher Sprache enthalten ist.
  • In vielen Analysen ist ein Analyseprozess für das interaktive Textmining unzureichend, und typischerweise werden zwei Analyseprozesse ausgeführt. Die zwei Analyseprozesse können den ersten Analyseprozess zum Eingrenzen von Dokumenten in interessante Dokumente und zum Identifizieren von Wörtern, die für die interessanten Dokumente (entsprechend dem Prozess 1 von 1) spezifisch sind, und den zweiten Analyseprozess zum Identifizieren des Grunds für das Auftreten der Wörter (entsprechend dem Prozess 2 von 1) enthalten. Somit kann in der bevorzugten beispielhaften Ausführungsform der Satz in natürlicher Sprache ein bestimmtes Wort oder einen bestimmten Ausdruck zum Angeben einer automatischen Analyse enthalten. Hierin wird im Folgenden ein bestimmtes Wort oder ein bestimmter Ausdruck zum Angeben einer automatischen Analyse als eine „automatische Analyseangabe“ bezeichnet. Die automatische Analyseangabe kann das System angeben, das den ersten Analyseprozess ausführen und Analysefacetten darstellen soll, die als nützlich betrachtet werden können, wenn eine statistische Analyse in Bezug auf die Facetten des zweiten Analyseprozesses ausgeführt wird. Zum Beispiel kann ein Ausdruck wie „und warum?“ als automatische Analyseangabe verwendet werden.
  • Das Extraktionsmodul 12 kann die Analysefacette, den statistischen Analysetyp und die Abfrage extrahieren. Ferner kann das Extraktionsmodul 12 die automatische Analyseangabe aus dem Satz in natürlicher Sprache extrahieren, wenn sie in dem Satz in natürlicher Sprache enthalten ist. Zum Beispiel kann das Extraktionsmodul 12 die Analysefacette „Komponente“, den statistischen Analysetyp „Korrelationsanalyse“ und die Abfrage „ABC“ der Facette „Modell“ aus dem Satz in natürlicher Sprache „Welche Komponente steht in hohem Maße mit Modell ABC in Beziehung?“ extrahieren. Das Extraktionsmodul 12 kann die Analysefacette „Komponente“, den statistischen Analysetyp „Korrelationsanalyse“ und die Abfrage „ABC“ der Facette „Modell“ und die automatische Analyseangabe „und warum?“ aus dem Satz in natürlicher Sprache „Welche Komponente steht in hohem Maße mit Modell ABC in Beziehung und warum?“ extrahieren. Das Extraktionsmodul 12 kann die Analysefacette „Produkt“ und den statistischen Analysetyp „Stimmungs- /Meinungsanalyse“ aus dem Satz in natürlicher Sprache „Bezüglich welches Produktes besteht die beste Stimmung?“ extrahieren.
  • Das Eingrenzungsmodul 13 kann die Dokumente mit der aus dem Satz in natürlicher Sprache extrahierten Abfrage eingrenzen und die eingegrenzten Dokumente als die aktuellen Dokumente behandeln. Wenn aus dem Satz in natürlicher Sprache keine Abfrage extrahiert worden ist, kann das Eingrenzungsmodul 13 alle Dokumente als die aktuellen Dokumente behandeln.
  • Beim statistischen Analysemodul 14 wird davon ausgegangen, dass es eine Liste von statistischen Analysetypen und Wörtern und Ausdrücken enthält, die den statistischen Analysetypen zugehörig sind. Zum Beispiel kann das statistische Analysemodul 14 eine Korrelationsanalyse erkennen, wenn ein Wort „Korrelation“ oder ein davon abgeleitetes Wort in dem Satz in natürlicher Sprache enthalten ist, und kann eine Stimmungsanalyse erkennen, wenn ein Wort „Stimmung“ in dem Satz in natürlicher Sprache enthalten ist. Wenn die automatische Analyseangabe nicht aus dem Satz in natürlicher Sprache extrahiert wird, kann das statistische Analysemodul 14 die statistische Analyse in Bezug auf die Analysefacette ausführen, die aus dem Satz in natürlicher Sprache extrahiert worden ist, und ein Ergebnis der statistischen Analyse auf einem Analyse-Bildschirm anzeigen. Wenn die automatische Analyseangabe aus dem Satz in natürlicher Sprache extrahiert wird, kann das statistische Analysemodul 14 die statistische Analyse in Bezug auf die Analysefacette ausführen, die aus dem Satz in natürlicher Sprache extrahiert worden ist, und automatisch mit dem nächsten Analyseprozess fortfahren.
  • Das Auswahlmodul 15 kann einen Facettenwert auf Grundlage des Ergebnisses der statistischen Analyse unter Verwendung eines vordefinierten Algorithmus auswählen und die aktuellen Dokumente mit dem ausgewählten Facettenwert eingrenzen. Zu beachten ist, dass einige Algorithmen mehrere Kandidaten für den Facettenwert finden können, und das Auswahlmodul 15 kann einen Bildschirm anzeigen, die einen Benutzer auffordert, einen davon auszuwählen. Das Auswahlmodul 15 kann Informationen in dem Satz in natürlicher Sprache zum Auswählen des Algorithmus verwenden. Insbesondere kann das Auswahlmodul 15 ein adjektivisches Wort oder einen adjektivischen Ausdruck, ein adverbiales Wort oder einen adverbialen Ausdruck oder dergleichen verwenden, das bzw. der ein Wort oder einen Ausdruck modifiziert, das bzw. der dem statistischen Analysetyp zugehörig ist. Wenn zum Beispiel ein Ausdruck „die höchste Korrelation“ in dem Satz in natürlicher Sprache enthalten ist, kann das Auswahlmodul 15 den Facettenwert mit dem höchsten Korrelationsindikator auf Grundlage des Ergebnisses der Korrelationsanalyse auswählen. Wenn ein Ausdruck „in hohem Maße korreliert“ in dem Satz in natürlicher Sprache enthalten ist, kann das Auswahlmodul 15 Facettenwerte mit den drei höchsten Korrelationsindikatoren erhalten und die Facettenwerte für den Benutzer darstellen. Wenn ein Ausdruck „empirisch korreliert“ in dem Satz in natürlicher Sprache enthalten ist, kann das Auswahlmodul 15 den Facettenwert, der empirisch signifikant ist, auf Grundlage eines Ergebnisses von Software-Verarbeitung (z.B. maschinelles Lernen aus der vergangenen statistischen Analyse) auswählen.
  • Das Vorschlagmodul 16 kann eine statistische Analyse der aktuellen Dokumente in Bezug auf Facetten ausführen. Die statistische Analyse kann eine standardmäßige statistische Analyse sein, die durch das System definiert wird. Ferner kann die statistische Analyse in Bezug auf jede der Facetten ausgeführt werden, die durch das System definiert werden. Das Vorschlagmodul 16 kann Analysefacetten, von denen jede viele Facettenwerte mit hohen statistischen Indikatoren enthält, als Analyseachsen darstellen. Obwohl angenommen wird, dass die statistische Analyse durch einen einfachen Brute-Force-Algorithmus ausgeführt wird, insbesondere in Bezug auf alle der durch das System definierten Facetten, kann das Vorschlagmodul 16 einen anderen Algorithmus verwenden. Zu beachten ist, dass die durch das Vorschlagmodul 16 ausgeführte statistische Analyse als ein Beispiel für eine zweite statistische Analyse dient, und eine durch das Vorschlagmodul 16 dargestellte Analysefacette als ein Beispiel für eine zweite Facette dient.
  • Das Detailanalysemodul 17 kann ein detailliertes Ergebnis der statistischen Analyse auf einem Detailanalysebildschirm anzeigen. Der Analyseprozess kann mit dem dritten Analyseprozess, dem vierten Analyseprozess usw. durch weiteres Eingrenzen der aktuellen Dokumente mit einem Facettenwert fortfahren, der auf dem Detailanalysebildschirm ausgewählt wird. In diesem Fall kann das Detailanalysemodul 17 das Auswahlmodul 15 und das Vorschlagmodul 16 veranlassen, dieselbe Verarbeitung wie in dem zweiten Analyseprozess auszuführen.
  • Die Benutzerschnittstelle 20 kann es einem Benutzer ermöglichen, Analysesituationen, Beziehungen zwischen analysierten Wörtern oder Ausdrücken und Analyseergebnisse intuitiv zu verstehen. Wie in 2 gezeigt, kann die Benutzerschnittstelle 20 einen Eingabebildschirm 21 und einen Mining-Bildschirm 22 enthalten. Der Eingabebildschirm 21 kann den von einem Benutzer eingegebenen Satz in natürlicher Sprache und Beispiele für natürliche Sätze anzeigen, die vorab in dem System gespeichert worden sind. Der Eingabebildschirm 21 kann als einen ersten Bildschirm angezeigt werden und in Reaktion auf die Angabe einer Analyse durch einen Satz in natürlicher Sprache auf dem Mining-Bildschirm 22 wechseln.
  • Der Mining-Bildschirm 22 kann zum tatsächlichen Mining bedient werden. Der Mining-Bildschirm 22 kann ein Bildschirm für ein Mining-Schaubild 23, einen Facetten-Bildschirm 24 und eine Detailanalysebildschirmanzeige 25 enthalten. Der Bildschirm für ein Mining-Schaubild 23 kann Mining-Schaubilder zum Visualisieren von interaktiven Textmining-Prozessen anzeigen. Der Facetten-Bildschirm 24 kann eine Liste mit verfügbaren Facetten anzeigen. Der Detailanalysebildschirmanzeige 25 kann ein Dashboard anzeigen, das aus den aktuellen Dokumenten und den Analysefacetten erhalten wurde. Obwohl der Mining-Bildschirm 22 anfänglich ein Layout aufweist, wie zum Beispiel in 2 gezeigt, kann das Layout geändert werden.
  • 3 zeigt ein Beispiel für den Eingabebildschirm 21 gemäß einer veranschaulichenden Ausführungsform. Wie in der Figur gezeigt, kann der Eingabebildschirm 21 einen Eingabebereich 211 und Beispielanzeigebereiche 212a bis 212c enthalten. Der Benutzer kann eine Analyse durch Eingeben eines Satzes in natürlicher Sprache in den Eingabebereich 211 oder durch Auswählen eines Beispiels für einen Satz in natürlicher Sprache starten, das in einem beliebigen der Beispielanzeigebereiche 212a bis 212 c angezeigt wird. Wenn der Benutzer den Satz in natürlicher Sprache in den Eingabebereich 211 eingibt, kann der Satz in natürlicher Sprache im Vergleich mit Satzmustern überprüft werden, die durch das System vorgehalten werden, und Beispiele für Sätze in natürlicher Sprache, die übereinstimmenden Satzmustern entsprechen, können in den Beispielanzeigebereichen 212a bis 212c als Kandidaten für den Satz in natürlicher Sprache angezeigt werden. Der Benutzer kann ein Beispiel für einen Satz in natürlicher Sprache aus den Kandidaten auswählen. Wenn der Eingabebereich 211 geleert wird, kann eine anfängliche Liste mit Beispielen für Sätze in natürlicher Sprache in den Beispielanzeigebereichen 212a bis 212c angezeigt werden. Obwohl davon ausgegangen wird, dass der Satz in natürlicher Sprache im Grunde genommen als unveränderter Text in dem Eingabebildschirm 21 angezeigt wird, können bestimmte Schlüsselwörter, wie beispielsweise Namen von Facetten, optisch hervorgehoben sein. Ferner kann eine Benutzerschnittstelle bereitgestellt werden, auf der ein Wort, das den Namen einer Facette oder den Namen einer statistischen Analyse darstellt, einfach in ein anderes Wort geändert werden kann.
  • 4 zeigt ein Beispiel für den Bildschirm für ein Mining-Schaubild 23 gemäß einer veranschaulichenden Ausführungsform. Wie in der Figur gezeigt, kann der Bildschirm für ein Mining- Schaubild 23 eine Konsole 231 und eine Mining-Baumstruktur 232 enthalten. Die Konsole 231 kann eine Benachrichtigung über die aktuellen Verarbeitungssituationen des Systems ausgeben. Die Mining-Baumstruktur 232 kann die aktuellen Analysesituationen visualisieren. Nach Auswahl von einem der Beispiele für Sätze in natürlicher Sprache auf dem Eingabebildschirm 21 von 3 kann dieser Bildschirm für ein Mining-Schaubild 23 angezeigt werden. Der Inhalt der Konsole 231 und die Mining-Baumstruktur 232 können jedes Mal geändert werden, wenn sich der Analyseprozess ändert.
  • Zum Beispiel wird angenommen, dass die Mining-Baumstruktur 232 von 4 angezeigt wird, wenn der Satz in natürlicher Sprache „Welche Komponente steht in hohem Maße mit Modell ABC in Beziehung und warum?“ ausgewählt wird. Die Mining-Baumstruktur 232 kann Knoten 233a und 233b, die jeweils einen Analyseschritt mit einer in dem Schritt verwendeten Abfrage angeben, und Knoten 233c bis 233e enthalten, die jeweils einen Analyseschritt mit einem in dem Schritt vorgeschlagenen Facettenwert angeben. Weitere Informationen wie beispielsweise die Anzahl von Dokumenten, ein statistischer Indikator, ein statistischer Analysetyp oder dergleichen können in Verbindung mit jedem der Knoten 233a bis 233e angezeigt werden.
  • Die Mining-Baumstruktur 232 kann eine Verbindung 234b zwischen den Knoten 233a und 233b enthalten. Diese Verbindung 234b wird mit einer durchgezogenen Linie veranschaulicht, um anzugeben, dass die Dokumente bereits mit der dem Knoten 233b entsprechenden Abfrage eingegrenzt worden sind. Die Mining-Baumstruktur 232 kann ferner Verbindungen 234c bis 234e jeweils zwischen dem Knoten 233b und den Knoten 233c bis 233e enthalten. Diese Verbindungen 234c bis 234e werden mit gestrichelten Linien veranschaulicht, um anzugeben, dass die aktuellen Dokumente in Bezug auf Facetten analysiert werden, und die Facetten werden jeweils als Analysefacetten mit einem Facettenwert mit einem hohen statistischen Indikator dargestellt. Obwohl davon ausgegangen wird, dass die Analysefacetten im Standardfall durch das System vorgeschlagen werden, können sie durch einen Benutzer angegeben oder durch vorhandene ersetzt werden.
  • Die Mining-Baumstruktur 232 von 4 gibt an, dass ein Benutzer die Dokumente mit einer Abfrage „ABC“ einer Facette „Modell“ eingegrenzt hat und die aktuellen Dokumente mit einem Facettenwert „Rahmen“ einer Facette „Komponente“ weiter eingegrenzt hat. Die Mining-Baumstruktur 232 von 4 gibt an, dass die aktuellen Dokumente analysiert werden, und die Analysefacetten „Negativ“, „Bundesstaat“ und „Baujahr“ werden vorgeschlagen. Zu beachten ist, obwohl nur für eine Facette davon ausgegangen wird, dass sie in dem durch den Knoten 233b in 4 angegebenen Analyseschritt ausgewählt wird, mehrere Facetten in dem Schritt ausgewählt werden können. Obwohl nur für einen Facettenwert davon ausgegangen wird, dass er in dem durch den Knoten 233b in 4 angegebenen Analyseschritt ausgewählt wird, können mehrere Facettenwerte in dem Schritt ausgewählt werden.
  • Der Inhalt der Analyse kann in dem Bildschirme für ein Mining-Schaubild 23 geändert werden. Dem Benutzer kann eine problemlose Identifizierung eines anderen Wertes des Knotens ermöglicht werden, indem er den Knoten wählt. Eine Benutzerschnittstelle wie beispielsweise ein Popup-Fenster kann zum Identifizieren eines anderen Wertes des Knotens verwendet werden. Durch Ändern der Abfrage, die bereits zum Eingrenzen der Dokumente verwendet worden ist, kann die Verarbeitung zu einem neuen Analyseprozess verzweigt werden. Zum Beispiel kann der Facettenwert „Rahmen“ der Facette „Komponente“ in einen Facettenwert „Bremse“ der Facette „Komponente“ geändert werden, und ein neuer Analyseprozess kann gestartet werden. In diesem Fall kann eine neue Verbindung von dem Facettenwert „ABC“ der Facette „Modell“ erstellt werden, und ein der Verbindung entsprechender Analyseprozess kann als ein neuer Analyseprozess behandelt werden.
  • 5 zeigt ein Beispiel für den Bildschirm für ein Mining-Schaubild 23, die angezeigt wird, wenn eine automatische Analyseangabe in einem Satz in natürlicher Sprache enthalten ist. Der erste Analyseprozess kann automatisch ausgeführt werden. Wenn die automatische Analyseangabe in der natürlichen Sprache enthalten ist, kann der zweite Analyseprozess im Grunde genommen automatisch ausgeführt werden. Einige von dem System verwendeten Algorithmen erfordern jedoch, dass ein Benutzer einen von mehreren Facettenwerten auswählt. In solchen Fällen kann eine einfache Anzeige eines Analyseergebnisses um einen Knoten dargestellt werden, um die Auswahl des Benutzers zu ermöglichen. Zum Beispiel zeigt 5 eine Quickinfo 235, um einen Benutzer aufzufordern, einen Facettenwert aus den obersten drei Facettenwerten in der Situation auszuwählen, in der der Satz in natürlicher Sprache „Welche Komponente steht in hohem Maße mit Modell ABC in Beziehung und warum?“ ausgewählt worden ist.
  • 6 zeigt ein Beispiel für einen Facetten-Bildschirm 24, die zusätzlich zu dem Bildschirm für ein Mining-Schaubild 23 gemäß einer veranschaulichenden Ausführungsform angezeigt wird. Auf dem Facetten-Bildschirm 24 kann eine Liste mit Facetten angezeigt werden. Wenn die Facetten Baumstrukturen konfigurieren, können die Baustrukturen angezeigt werden. Der Facetten-Bildschirm 24 kann eine neue Facette bereitstellen, die bereits angezeigten Analysefacetten in dem Bildschirm für ein Mining-Schaubild 23 mittels einer Drag-and-Drop-Operation hinzugefügt werden soll. Zum Beispiel wird in 6 eine Analysefacette 233f mittels einer Drag-and-Drop-Operation zu den Analysefacetten 233c bis 233e hinzugefügt, wie durch einen Pfeil 236 angegeben wird. Alternativ kann der Facetten-Bildschirm 24 eine neue Facette bereitstellen, mit der eine bereits angezeigte Analysefacette in dem Bildschirm für ein Mining-Schaubild 23 ersetzt werden soll. Die bereits angezeigte Analysefacette kann durch die neue Facette ersetzt werden, indem diese der bereits angezeigten Analysefacette mittels einer Drag-and-Drop-Operation überlagert wird. Es ist anzumerken, dass eine derartige Operation ausgeführt werden kann, wenn der Benutzer das Gefühl hat, dass eine vorgeschlagene Analysefacette nicht nützlich ist, oder wenn er eine frei gewählte Facette analysieren möchte. Somit kann ein Knoten, der die neue Facette darstellt, auf dem Bildschirm für ein Mining-Schaubild 23 mit einem Facettenwert der neuen Facette mit einem hohen statistischen Indikator wie bei den bereits angezeigten Analysefacetten angezeigt werden.
  • Unter Bezugnahme auf 7 wird ein Beispiel für den Bildschirm für ein Mining-Schaubild 23 angezeigt, unmittelbar bevor der Detailanalysebildschirm 25 gemäß einer veranschaulichenden Ausführungsform aufgerufen wird. Der Detailanalysebildschirm 25 kann angezeigt werden, wenn der Benutzer mit einem Klickvorgang einen oder mehrere Knoten auswählt, der bzw. die eine oder mehrere Analysefacetten darstellen, die im Detail zu analysieren sind, und einen Trigger zum Übergehen auf eine detaillierte Analyse der einen oder der mehreren Analysefacetten aktiviert. In 7 wird davon ausgegangen, dass eine Schaltfläche 237 zum Öffnen des Detailanalysebildschirms 25 in einem Zustand angezeigt wird, wenn die Knoten 233c bis 233f, wie durch breite kreisförmige Linien angegeben, ausgewählt werden. Es ist anzumerken, dass unmittelbar nach der Analyse der Dokumente in Reaktion auf den Satz in natürlicher Sprache die Analysefacetten, die durch die Knoten außen rechts in der Mining-Baumstruktur 232 dargestellt werden, automatisch ausgewählt und in dem Detailanalysebildschirm 25 angezeigt werden.
  • Alternativ kann der Detailanalysebildschirm 25 angezeigt werden, wenn der Benutzer mit einem Klickvorgang einen oder mehrere Facettenwerte der einen oder der mehreren Analysefacetten auswählt, obwohl dieser Fall in der Figur nicht gezeigt ist. In diesem Fall können die aktuellen Dokumente mit dem oder den ausgewählten Facettenwerten vor dem Anzeigen des Detailanalysebildschirms 25 eingegrenzt werden. Wenn zum Beispiel angenommen wird, dass der Facettenwert „Loch“ der Analysefacette „Negativ“ ausgewählt wird, können die aktuellen Dokumente mit dem Facettenwert „Loch“ eingegrenzt werden, und anschließend kann der Detailanalysebildschirm 25 angezeigt werden.
  • 8 zeigt ein Beispiel für den Detailanalysebildschirm 25 gemäß einer veranschaulichenden Ausführungsform. Der Detailanalysebildschirm 25 kann ein Dashboard sein, auf dem ein Ergebnis von statistischen Analysen in Bezug auf die ausgewählten Analysefacetten angezeigt wird. In 8 wird eine Wortgruppe 251, ein Balkendiagramm 252, ein Tortendiagramm 253 und eine Landkarte 254 angezeigt. Die Landkarte 254 kann zum Beispiel verwendet werden, um das Ergebnis einer statistischen Analyse in Bezug auf Analysefacetten anzuzeigen, die einen Ortsnamen angeben. Es ist anzumerken, dass davon ausgegangen wird, dass das System eine bestimmte Regel bereitstellt, die Analysefacetten zu Anzeigemodi des Ergebnisses von statistischer Analyse in Bezug auf die Analysefacetten zuordnet.
  • Die Analysefacette kann durch Ziehen und Ablegen einer Facette aus dem Facetten-Bildschirm 24 auf diesem Detailanalysebildschirm 25 geändert werden. Ferner kann der statistische Analysetyp optional über eine beliebige Benutzerschnittstelle geändert werden.
  • Wenn der Benutzer ferner die aktuellen Dokumente in Bezug auf einen Facettenwert analysieren möchte, der auf dem Detailanalysebildschirm 25 angezeigt wird, kann der Benutzer mit dem nächsten Analyseschritt fortfahren, indem er den Facettenwert auswählt und die aktuellen Dokumente eingrenzt. Somit kann das System die Mining-Baumstruktur 232 aktualisieren und eine oder mehrere Facetten als die nächste Analysenachse anzeigen.
  • In 2 wird angenommen, dass der Mining-Bildschirm 22 geteilt wird, um den Detailanalysebildschirm 25 zusammen mit dem Bildschirm für Mining-Diagramme 23 zu zeigen. Der Detailanalysebildschirm 25 kann jedoch in verschiedenen Anzeigemodi angezeigt werden. Zum Beispiel kann der Detailanalysebildschirm 25 auf dem Bildschirm für ein Mining-Schaubild 23 als Dialogfeld angezeigt werden. Alternativ kann der Detailanalysebildschirm 25 so angezeigt werden, dass der Bildschirm für ein Mining-Schaubild 23 in den Detailanalysebildschirm 25 geändert wird.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) enthalten, auf dem durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen beibehalten und speichern kann. Das durch einen Computer lesbare Speichermedium kann zum Beispiel eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiter-Speichereinheit oder jede geeignete Kombination aus dem Vorgenannten sein, es ist aber nicht darauf beschränkt. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD, ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination des Vorgenannten. Ein durch einen Computer lesbares Speichermedium soll, wie hierin verwendet, nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder andere Übertragungsmedien ausbreiten (z.B. durch ein Glasfaserkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben sind, darunter objektorientierte Programmiersprachen wie Java, Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In dem letzteren Szenario kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch jeden Typ von Netzwerk verbunden werden, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, feldprogrammierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Veranschaulichungen von Ablaufplänen und/oder Blockschaubildern von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es sollte klar sein, dass jeder Block der Ablaufplandarstellungen und/oder der Blockschaubilder und Kombinationen von Blöcken in den Ablaufplandarstellungen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. eine andere programmierbare Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder angegebenen Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Arbeitsschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen durch einen Computer umgesetzten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder angegebenen Funktionen/Schritte umsetzen.
  • 9A und 9B zeigen einen Ablaufplan, der ein Beispiel für die Funktionsweise der Dokument-Analyseeinheit 10 gemäß einer veranschaulichenden Ausführungsform darstellt. Es ist anzumerken, dass davon ausgegangen wird, dass die zu analysierenden Dokumente in dem Speicher der Dokument-Analyseeinheit 10 gespeichert sind; die Dokumente können jedoch von der Dokument-Analyseeinheit 10 entfernt gespeichert werden, was von der Umsetzung der veranschaulichten Ausführungsform abhängt.
  • Wie in 9A gezeigt, kann das Annahmemodul 11 Beispiele für Sätze in natürlicher Sprache in den Beispielanzeigebereichen 212a bis 212c des Eingabebildschirms 21 anzeigen (Schritt 101). Anschließend kann das Annahmemodul 11 bestimmen, ob ein Satz in natürlicher Sprache in dem Eingabebereich 211 des Eingabebildschirms 21 neu eingegeben worden ist (Schritt 102). Wenn der Satz in natürlicher Sprache in dem Eingabebereich 211 neu eingegeben worden ist, kann das Annahmemodul 11 ferner bestimmen, ob der Satz in natürlicher Sprache eine Mehrdeutigkeit aufweist (Schritt 103). Insbesondere kann das Annahmemodul 11 bestimmen, ob eine Abfrage in dem Satz in natürlicher Sprache eine Mehrdeutigkeit aufweist. Wenn der Satz in natürlicher Sprache eine Mehrdeutigkeit aufweist, kann das Annahmemodul 11 die Mehrdeutigkeit in einer Interaktionsbildschirmanzeige auflösen (Schritt 104) und die Verarbeitung an Schritt 101 zurückgeben, wobei die Beispiele für Sätze in natürlicher Sprache auf Grundlage des eingegebenen Satzes in natürlicher Sprache aktualisiert werden. Wenn andererseits in Schritt 103 der Satz in natürlicher Sprache keine Mehrdeutigkeit aufweist, kann das Annahmemodul 11 die Verarbeitung an Schritt 101 zurückgeben, wobei die Beispiele für Sätze in natürlicher Sprache auf Grundlage des eingegebenen Satzes in natürlicher Sprache ohne Auslösung irgendeiner Mehrdeutigkeit aktualisiert werden.
  • Wenn indessen in Schritt 102 in dem Eingabebereich 211 kein Satz in natürlicher Sprache neu eingegeben worden ist, kann das Annahmemodul 11 bestimmen, ob ein Satz in natürlicher Sprache aus mehreren Beispielen für Sätze in natürlicher Sprache ausgewählt worden ist, die in den Beispielanzeigebereichen 212a bis 212c des Eingabebildschirms 21 angezeigt werden (Schritt 105). Wenn kein Satz in natürlicher Sprache ausgewählt worden ist, kann das Annahmemodul 11 die Verarbeitung an Schritt 101 zurückgeben.
  • Wenn andererseits in Schritt 105 ein Satz in natürlicher Sprache ausgewählt worden ist, kann das Extraktionsmodul 12 eine Analysefacette, einen statistischen Analysetyp, eine Abfrage und eine automatische Analyseangabe aus dem Satz in natürlicher Sprache extrahieren (Schritt 106). Zu beachten ist, dass das Extraktionsmodul 12 die automatische Analyseangabe extrahieren kann, wenn sie in dem Satz in natürlicher Sprache enthalten ist Danach kann das Extraktionsmodul 12 vom Eingabebildschirm 21 zum Mining-Bildschirm 22 wechseln (Schritt 107).
  • Als Nächstes kann die Dokument-Analyseeinheit 10 den ersten Analyseprozess ausführen (Schritt 108). Insbesondere kann das Eingrenzungsmodul 13 die Dokumente mit der Abfrage eingrenzen, die aus dem Satz in natürlicher Sprache extrahiert worden ist. Danach kann das statistische Analysemodul 14 eine statistische Analyse des Typs ausführen, der aus dem Satz in natürlicher Sprache extrahiert worden ist, und einen Teil einer Mining-Baumstruktur 232, der dem ersten Analyseprozess entspricht, auf dem Bildschirm für das Mining-Schaubild 23 anzeigen.
  • Anschließend, wie in 9B gezeigt, kann das Auswahlmodul 15 bestimmen, ob die automatische Analyseangabe aus dem Satz in natürlicher Sprache extrahiert worden ist (Schritt 151). Wenn die automatische Analyseangabe aus dem Satz in natürlicher Sprache extrahiert worden ist, kann das Auswahlmodul 15 einen automatischen Analysealgorithmus ausführen (Schritt 152). Dieser automatische Analysealgorithmus kann auf Grundlage eines bestimmten Worts oder Ausdrucks bestimmt werden, das bzw. der den statistischen Analysetyp in dem Satz in natürlicher Sprache modifiziert. Danach kann das Auswahlmodul 15 bestimmen, ob der automatische Analysealgorithmus eine Benutzerauswahl erfordert (Schritt 153). Wenn der automatische Analysealgorithmus eine Benutzerauswahl erfordert, kann das Auswahlmodul ein zusätzlicher Bildschirm für die Benutzerauswahl anzeigen (Schritt 154). Zum Beispiel kann der zusätzliche Bildschirm mehrere Facettenwerte der Analysefacette enthalten, die aus dem Satz in natürlicher Sprache extrahiert worden ist. In Reaktion auf die Auswahl eines Facettenwertes durch einen Benutzer kann das Auswahlmodul 15 die aktuellen Dokumente mit dem ausgewählten Facettenwert eingrenzen (Schritt 155). Wenn in Schritt 153 der automatische Analysealgorithmus keine Benutzerauswahl erfordert, kann das Auswahlmodul 15 die aktuellen Dokumente mit dem selbstgewählten Facettenwert eingrenzen, ohne eine Benutzerauswahl in Schritt 155 zu erfordern.
  • Als Nächstes kann das Vorschlagmodul 16 mindestens eine Analysefacette auswählen, die vorgeschlagen werden soll (Schritt 156). Insbesondere kann das Vorschlagmodul 16 eine vorbestimmte statistische Analyse der aktuellen Dokumente in Bezug auf jede der Facetten ausführen, die durch die Dokument-Analyseeinheit 10 vorbereitet worden sind. Das Vorschlagmodul 16 kann anschließend mindestens eine Facette auswählen, von denen jede viele Facettenwerte mit hohen statistischen Indikatoren enthält. Danach kann das Vorschlagmodul 16 die Mining-Baumstruktur 232 in dem Bildschirm für ein Mining-Schaubild 23 aktualisieren (Schritt 157). Wenn die automatische Analyseangabe nicht aus dem Satz in natürlicher Sprache extrahiert worden ist, fährt die Operation nach einer Rückkehr zu Schritt 151 mit Schritt 157 fort, wobei das Vorschlagmodul 16 die Mining-Baumstruktur 232 in dem Bildschirm für ein Mining-Schaubild 23 aktualisieren kann.
  • In diesem Zustand werden verschiedene Operationen an der Mining-Baumstruktur 232 vorgenommen. Somit kann das Auswahlmodul 11 bestimmen, ob die ausgewählte Analysefacette geändert worden ist (Schritt 158). Insbesondere kann das Annahmemodul 11 bestimmen, ob anstelle der in Schritt 156 ausgewählten Analysefacette durch den Benutzer eine neue Analysefacette in dem Facetten-Bildschirm 24 ausgewählt worden ist. Wenn die ausgewählte Analysefacette geändert worden ist, kann das Annahmemodul 11 die Verarbeitung an Schritt 157 zurückgeben. Wenn die ausgewählte Analysefacette in Schritt 158 nicht geändert worden ist, kann das Annahmemodul 11 ferner bestimmen, ob der ausgewählte Facettenwert geändert worden ist (Schritt 159). Insbesondere kann das Annahmemodul 11 bestimmen, ob anstelle des in Schritt 154 ausgewählten Facettenwertes ein neuer Facettenwert in der Mining-Baumstruktur 232 durch den Benutzer ausgewählt worden ist. Wenn der ausgewählte Facettenwert geändert worden ist, kann das Annahmemodul 11 die Verarbeitung an Schritt 155 zurückgeben. Wenn der ausgewählte Facettenwert in Schritt 159 nicht geändert worden ist, kann das Annahmemodul 11 die Verarbeitung in Schritt 160 fortführen.
  • Das heißt, das Detailanalysemodul 17 kann ein detailliertes Analyseergebnis im Detailanalysebildschirm 25 anzeigen (Schritt 160). Zum Beispiel kann das Detailanalysemodul 17 das detaillierte Analyseergebnis in Reaktion auf einen Klickvorgang auf eine Schaltfläche im Detailanalysebildschirm 25 anzeigen. Alternativ kann das Detailanalysemodul 17 das detaillierte Analyseergebnis in Reaktion auf einen Klickvorgang auf einen oder mehrere Facettenwerte der einen oder der mehreren vorgeschlagenen Analysefacetten anzeigen. In diesem Fall können die aktuellen Dokumente mit dem einen oder den mehreren Facettenwerten vor dem Anzeigen des detaillierten Analyseergebnisses auf dem Detailanalysebildschirm 25 eingegrenzt werden.
  • In diesem Zustand werden ebenfalls verschiedene Operationen an dem detaillierten Analyseergebnis vorgenommen. Somit kann das Auswahlmodul 11 bestimmen, ob der Facettenwert ausgewählt worden ist (Schritt 161). Insbesondere kann das Annahmemodul 11 bestimmen, ob anstelle des in Schritt 154 ausgewählten Facettenwertes ein neuer Facettenwert im Detailanalysebildschirm 25 durch den Benutzer ausgewählt worden ist. Wenn der ausgewählte Facettenwert ausgewählt worden ist, kann das Annahmemodul 11 die Verarbeitung an Schritt 155 zurückgeben. Wenn der Facettenwert in Schritt 161 nicht ausgewählt worden ist, kann das Annahmemodul 11 die Verarbeitung beenden.
  • In der ersten alternativen beispielhaften Ausführungsform wird angenommen, dass der Satz in natürlicher Sprache kein bestimmtes Wort oder einen bestimmten Ausdruck enthält, das bzw. der den statistischen Analysetyp modifiziert. In diesem Fall kann das Auswahlmodul 15 einen standardmäßigen automatischen Analysealgorithmus ausführen, der durch das System definiert wird. Zum Beispiel kann das Auswahlmodul 15 den Facettenwert mit dem höchsten Korrelationsindikator auf Grundlage des Ergebnisses der Korrelationsanalyse auswählen. Alternativ kann das Auswahlmodul 15 Facettenwerte mit den drei höchsten Korrelationsindikatoren erhalten und die Facettenwerte für den Benutzer darstellen. Ferner kann das Auswahlmodul 15 den Facettenwert, der empirisch signifikant ist, auf Grundlage eines Ergebnisses von Software-Verarbeitung (z.B. maschinelles Lernen aus der vergangenen statistischen Analyse) auswählen.
  • Als Nächstes wird die zweite alternative beispielhafte Ausführungsform beschrieben. In der zweiten alternativen beispielhaften Ausführungsform wird davon ausgegangen, dass das Vorschlagmodul 16 eine andere statistische Analyse ausführt als die von dem System definierte standardmäßige statistische Analyse. Zum Beispiel kann das Vorschlagmodul 16 eine statistische Analyse eines Typs ausführen, der aus mehreren Typen auf Grundlage von statistischen Analysen der mehreren Typen ausgewählt worden ist. Alternativ kann das Vorschlagmodul 16 eine statistische Analyse desselben Typs wie der aus dem Satz in natürlicher Sprache extrahierte statistische Analysetyp ausführen,
  • Die Ablaufpläne und Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder den Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Umsetzen der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Umsetzungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt auftreten. Zum Beispiel können zwei nacheinander gezeigte Blöcke tatsächlich im Wesentlichen parallel ausgeführt werden, oder die Blöcke können manchmal in der umgekehrten Reihenfolge ausgeführt werden, was von der beteiligten Funktionalität abhängt. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufplandarstellungen sowie Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplandarstellung durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die angegebenen Funktionen oder Handlungen durchführen oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Die veranschaulichenden Ausführungsformen können in vielen verschiedenen Typen von Datenverarbeitungsumgebungen verwendet werden. Um einen Kontext für die Beschreibung der spezifischen Elemente und der Funktionalität der veranschaulichenden Ausführungsformen bereitzustellen, werden 10 und 11 im Folgenden als Beispielumgebungen angegeben, in denen Aspekte der veranschaulichenden Ausführungsformen umgesetzt werden können. Es sollte klar sein, dass 10 und 11 nur Beispiele sind und durch sie keinerlei Einschränkung hinsichtlich der Umgebungen festgestellt oder impliziert werden soll, in denen Aspekte oder Ausführungsformen der vorliegenden Erfindung umgesetzt werden können. Viele Modifizierungen können an den dargestellten Umgebungen vorgenommen werden, ohne von dem Schutzumfang der vorliegenden Erfindung abzuweichen.
  • 10 stellt eine bildliche Darstellung eines Beispiels für ein verteiltes Datenverarbeitungssystem dar, in dem Aspekte der veranschaulichenden Ausführungsformen umgesetzt werden können. Ein verteiltes Datenverarbeitungssystem 1000 kann ein Netzwerk von Computern enthalten, in dem Aspekte der veranschaulichenden Ausführungsformen umgesetzt werden können. Das verteilte Datenverarbeitungssystem 1000 enthält mindestens ein Netzwerk 1002, welches das Medium ist, das zum Bereitstellen von Datenübertragungsverbindungen zwischen verschiedenen Einheiten und Computern verwendet wird, die in dem verteilten Datenverarbeitungssystem 1000 miteinander verbunden sind. Das Netzwerk 1002 kann Verbindungen enthalten, wie beispielsweise drahtgebundene, drahtlose Datenübertragungsverbindungen oder Lichtwellenleiterkabel.
  • In dem dargestellten Beispiel sind ein Server 1004 und ein Server 1006 zusammen mit einer Speichereinheit 1008 mit dem Netzwerk 1002 verbunden. Außerdem sind Clients 1010, 1012 und 1014 ebenfalls mit dem Netzwerk 1002 verbunden. Diese Clients 1010, 1012 und 1014 können zum Beispiel PCs, Netzwerkcomputer oder dergleichen sein. In dem dargestellten Beispiel stellt der Server 1004 Daten wie beispielsweise Boot-Dateien, Betriebssystemabbilder und Anwendungen für die Clients 1010, 1012 und 1014 bereit. Die Clients 1010, 1012 und 1014 sind Clients für den Server 1004 in dem dargestellten Beispiel. Das verteilte Datenverarbeitungssystem 1000 kann zusätzliche Server, Clients und weitere nicht gezeigte Einheiten enthalten.
  • In dem dargestellten Beispiel ist das verteilte Datenverarbeitungssystem 1000 das Internet, wobei das Netzwerk 1002 für eine weltweite Sammlung von Netzwerken und Gateways steht, welche die Protokollgruppe Transmission Control Protocol/Internet Protocol (TCP/IP) für den Datenaustausch untereinander verwenden. Das Kernstück des Internet ist ein Backbone von Hochgeschwindigkeits-Datenübertragungsleitungen zwischen Hauptknoten oder Host-Computern, die aus Tausenden von gewerblichen, behördlichen, schulischen und anderen Computersystemen bestehen, die Daten und Nachrichten weiterleiten. Selbstverständlich kann das verteilte Datenverarbeitungssystem 1000 auch so umgesetzt werden, dass es eine Anzahl von verschiedenen Typen von Netzwerken enthält, wie zum Beispiel ein Intranet, ein lokales Netzwerk (LAN), ein Weitverkehrsnetzwerk (WAN) oder dergleichen. Wie oben ausgeführt, soll 10 als Beispiel dienen, nicht als Architektureinschränkung für verschiedene Ausführungsformen der vorliegenden Erfindung, und daher sollten die in 10 gezeigten speziellen Elemente hinsichtlich der Umgebungen, in denen die veranschaulichenden Ausführungsformen der vorliegenden Erfindung umgesetzt werden können, als nicht einschränkend betrachtet werden.
  • Wie in 10 gezeigt, können eine oder mehrere der Datenverarbeitungseinheiten, z.B. der Server 1004, speziell konfiguriert sein, um ein System und eine Benutzerschnittstelle zum Unterstützen des interaktiven Textmining-Prozesses mit Dialog in natürlicher Sprache umzusetzen. Das Konfigurieren der Datenverarbeitungseinheit kann das Bereitstellen von anwendungsspezifischer Hardware, Firmware oder dergleichen aufweisen, um die Ausführung der Operationen und Generierung der hierin beschriebenen Ausgaben in Bezug auf die veranschaulichenden Ausführungsformen zu ermöglichen. Das Konfigurieren der Datenverarbeitungseinheit kann auch oder alternativ das Bereitstellen von Softwareanwendungen aufweisen, die in einer oder mehreren Speichereinheiten gespeichert sind und in den Arbeitsspeicher einer Datenverarbeitungseinheit geladen werden, wie beispielsweise den Server 1004, um einen oder mehrere Hardware-Prozessoren der Datenverarbeitungseinheit zu veranlassen, die Software-Anwendungen auszuführen, die die Prozessoren zum Ausführen der Operationen und Generieren der Ausgaben konfigurieren, die hierin in Bezug auf die veranschaulichenden Ausführungsformen beschrieben worden sind. Des Weiteren kann jede beliebige Kombination von anwendungsspezifischer Hardware, Firmware, Software-Anwendungen, die auf Hardware oder dergleichen ausgeführt werden, ohne Abweichung von dem Schutzumfang der veranschaulichenden Ausführungsformen verwendet werden.
  • Es sollte klar sein, dass nach der Konfiguration der Datenverarbeitungseinheit auf eine dieser Arten die Datenverarbeitungseinheit zu einer spezialisierten Datenverarbeitungseinheit wird, die speziell zum Umsetzen der Mechanismen der veranschaulichenden Ausführungsformen konfiguriert ist und keine Mehrzweck-Datenverarbeitungseinheit ist. Des Weiteren, wie hierin im Folgenden beschrieben, verbessert die Umsetzung der Mechanismen der veranschaulichenden Ausführungsformen die Funktionalität der Datenverarbeitungseinheit und stellt ein nützliches und konkretes Ergebnis bereit, das ein interaktives Textmining mit Dialog in natürlicher Sprache ermöglicht.
  • Wie oben angemerkt, verwenden die Mechanismen der veranschaulichenden Ausführungsformen speziell konfigurierte Datenverarbeitungseinheiten oder Datenverarbeitungssysteme zum Ausführen der Operationen zum Unterstützen von interaktiven Textmining-Prozessen mit Dialog in natürlicher Sprache. Diese Datenverarbeitungseinheiten oder Datenverarbeitungssysteme können verschiedene Hardware-Elemente aufweisen, die speziell konfiguriert sind, entweder durch Hardware-Konfiguration, Software-Konfiguration oder eine Kombination aus Hardware- und Software-Konfiguration, um ein oder mehrere der hierin beschriebenen Systeme/Subsysteme umzusetzen. 11 ist ein Blockschaubild nur für ein Beispiel eines Datenverarbeitungssystems, in dem Aspekte der veranschaulichenden Ausführungsformen umgesetzt werden können. Ein Datenverarbeitungssystem 1100 ist ein Beispiel für einen Computer, wie beispielsweise ein Server 1004 in 10, in dem sich durch einen Computer verwendbarer Code oder Anweisungen zum Umsetzen der Prozesse und Aspekte der veranschaulichenden Ausführungsformen der vorliegenden Erfindung befinden und/oder ausgeführt werden können, um die Operation, Ausgabe und externen Auswirkungen der veranschaulichenden Ausführungsformen wie hierin beschrieben zu erzielen.
  • In dem dargestellten Beispiel verwendet das Datenverarbeitungssystem 1100 eine Hub-Architektur mit North-Bridge und Speicher-Controller-Hub (NB/MCH) 1102 und South-Bridge und Eingabe/Ausgabe- (E/A) Controller-Hub (SB/ICH) 1104. Eine Verarbeitungseinheit 1106, ein Hauptarbeitsspeicher 1108 und ein Grafikprozessor 1110 sind mit NB/MCH 1102 verbunden. Der Grafikprozessor 1110 kann mit dem NB/MCH 1102 über einen beschleunigten Grafikanschluss (AGP - Accelerated Graphics Port) verbunden werden.
  • In dem dargestellten Beispiel ist ein Adapter 1112 des lokalen Netzwerks mit SB/ICH 1104 verbunden. Ein Audio-Adapter 1116, ein Tastatur- und Maus-Adapter 1120, ein Modem 1122, ein Nur-Lese-Speicher (ROM) 1124, ein Festplattenlaufwerk (HDD) 1126, ein CD-ROM-Laufwerk 1130, Universal-Serial-Bus- (USB) Anschlüsse und weitere Datenübertragungsanschlüsse 1132 und PCI/PCIe-Einheiten 1134 sind mit dem SB/ICH 1104 über einen Bus 1138 und einen Bus 1140 verbunden Zu den PCI/PCIe-Einheiten können beispielsweise Ethernet-Adapter, Add-in-Karten und PC-Karten für Notebook-Computer gehören. PCI verwendet einen Karten-Bus-Controller, PCle hingegen nicht. Der ROM 1124 kann beispielsweise ein grundlegendes Flash-Eingabe/Ausgabe-System (BIOS) sein.
  • Das HDD 1126 und CD-ROM-Laufwerk 1130 sind mit dem SB/ICH 1104 über den Bus 1140 verbunden. Das HDD 1126 und CD-ROM-Laufwerk 1130 können zum Beispiel eine Integrated Drive Electronics- (IDE) oder Serial Advanced Technology Attachment-(SATA) Schnittstelle verwenden. Eine Super I/O- (SIO) Einheit 1136 kann mit dem SB/ICH 1104 verbunden werden.
  • Auf der Verarbeitungseinheit 1106 wird ein Betriebssystem ausgeführt. Das Betriebssystem koordiniert verschiedene Komponenten und stellt deren Steuerung in dem Datenverarbeitungssystem 1100 in 11 bereit. Als Client kann das Betriebssystem ein im Handel erhältliches Betriebssystem wie beispielsweise Microsoft® Windows 7® sein. Ein objektorientiertes Programmiersystem wie das Java™-Programmiersystem kann zusammen mit dem Betriebssystem ausgeführt werden und stellt Aufrufe an das Betriebssystem aus Java™-Programmen oder Anwendungen bereit, die auf dem Datenverarbeitungssystem 1100 ausgeführt werden.
  • Als Server kann das Datenverarbeitungssystem 1100 zum Beispiel ein IBM® eServer™ System p®-Computersystem, ein Computersystem auf Grundlage eines Power™-Prozessors oder dergleichen sein, welches das Advanced Interactive Executive- (AIX®) Betriebssystem oder das Linux®-Betriebssystem ausführt. Das Datenverarbeitungssystem 1100 kann ein symmetrisches Multiprozessor- (SMP) System mit einer Mehrzahl von Prozessoren in der Verarbeitungseinheit 1106 sein. Alternativ kann ein Einzelprozessorsystem verwendet werden.
  • Anweisungen für das Betriebssystem, das objektorientierte Programmiersystem und Anwendungen oder Programme befinden sich auf Speichereinheiten wie dem HDD 1126 und können zum Ausführen durch die Verarbeitungseinheit 1106 in den Hauptspeicher 1108 geladen werden Die Prozesse der veranschaulichenden Ausführungsformen der vorliegenden Erfindung können von der Verarbeitungseinheit 1106 unter Verwendung von durch den Computer verwendbarem Programmcode ausgeführt werden, der sich in einem Arbeitsspeicher wie zum Beispiel dem Hauptarbeitsspeicher 1108, dem ROM 1124 oder in einer oder mehreren Peripherieeinheiten 1126 und 1130 befinden kann.
  • Ein Bussystem wie beispielsweise der Bus 1138 oder der Bus 1140, wie in 11 gezeigt, kann sich aus einem oder mehreren Bussen zusammensetzen. Selbstverständlich kann das Bussystem unter Verwendung jedes beliebigen Typs von Datenübertragungsstruktur oder -architektur umgesetzt werden, der eine Datenübertragung zwischen verschiedenen Komponenten oder Einheiten bereitstellt, die an die Struktur oder Architektur angeschlossen sind. Eine Datenübertragungseinheit wie beispielsweise der Modem 1122 oder der Netzwerk-Adapter 1112 von 11 kann eine oder mehrere Einheiten enthalten, die zum Senden und Empfangen von Daten verwendet werden. Ein Speicher kann zum Beispiel der Hauptspeicher 1108, der ROM 1124 oder ein Zwischenspeicher sein, wie er im NB/MCH 1102 in 11 zu finden ist.
  • Wie oben erwähnt, können in einigen veranschaulichenden Ausführungsformen die Mechanismen der veranschaulichenden Ausführungsformen als anwendungsspezifische Hardware, Firmware oder dergleichen, Anwendungs-Software, die in einer Speichereinheit wie beispielsweise der HDD 1126 gespeichert ist und in den Arbeitsspeicher geladen wird, wie beispielsweise der Hauptarbeitsspeicher 1108, um durch einen oder mehrere Hardware-Prozessoren ausgeführt zu werden, wie zum Beispiel eine Verarbeitungseinheit 1106 oder dergleichen. Als solche wird die in 11 gezeigte Datenverarbeitungseinheit speziell konfiguriert, um die Mechanismen der veranschaulichenden Ausführungsformen umzusetzen, und speziell konfiguriert, um die Operationen auszuführen und die Ausgaben zu generieren, die hierin im Folgenden in Bezug auf die Mechanismen zum Unterstützen von interaktivem Textmining mit Dialog in natürlicher Sprache beschrieben werden.
  • Fachleuten wird klar sein, dass die Hardware in 10 und 11 je nach Umsetzung unterschiedlich sein kann. Weitere interne Hardware- oder Peripherie-Einheiten wie Flash-Speicher, gleichwertiger nicht-flüchtiger Speicher oder optische Plattenlaufwerke und dergleichen können zusätzlich zu oder anstelle der Hardware verwendet werden, die in 10 und 11 dargestellt ist. Außerdem können die Prozesse der veranschaulichenden Ausführungsformen auf ein anderes Mehrfachprozessor-Datenverarbeitungssystem als das vorher erwähnte SMP-System angewendet werden, ohne von dem Schutzumfang der vorliegenden Erfindung abzuweichen.
  • Des Weiteren kann das Datenverarbeitungssystem 1100 die Form von jedem einer Anzahl von verschiedenen Datenverarbeitungssystemen annehmen, einschließlich Client-Datenverarbeitungseinheiten, Server-Datenverarbeitungseinheiten, einem Tablet-Computer, Laptop-Computer, Telefon oder einer anderen Datenübertragungseinheit, einem Personal Digital Assistant (PDA) oder dergleichen. In einigen veranschaulichenden Beispielen kann das Datenverarbeitungssystem 1100 eine tragbare Datenverarbeitungseinheit sein, die mit einem Flash-Speicher konfiguriert ist, um beispielsweise nicht-flüchtigen Speicher zum Speichern von Betriebssystemdateien und/oder vom Benutzer erzeugten Daten bereitzustellen. Im Wesentlichen kann das Datenverarbeitungssystem 1100 jedes bekannte oder später entwickelte Datenverarbeitungssystem ohne Architektureinschränkung sein.
  • Wie oben angemerkt sollte klar sein, dass die veranschaulichenden Ausführungsformen die Form einer vollständigen Hardware-Ausführungsform, einer vollständigen Software-Ausführungsform oder einer Ausführungsform annehmen können, die Hardware- und Software-Elemente enthält. In einer beispielhaften Ausführungsform sind die Mechanismen der veranschaulichenden Ausführungsformen in Software oder einem Programmcode umgesetzt, der Firmware, residente Software, Mikrocode usw. enthält, aber nicht darauf beschränkt ist.
  • Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen von Programmcode geeignet ist, enthält mindestens einen Prozessor, der direkt oder indirekt mit Speicherelementen zum Beispiel über einen Systembus verbunden ist. Die Speicherelemente können einen lokalen Speicher, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cache-Speicher enthalten, die eine vorübergehende Speicherung von mindestens einigem Programmcode bereitstellen, um die Anzahl zu verringern, wie oft Code während der Ausführung aus dem Massenspeicher abgerufen werden muss. Der Arbeitsspeicher kann von verschiedenem Typ sein, einschließlich, aber nicht darauf beschränkt, ROM, PROM, EPROM, EEPROM, DRAM, SRAM, Flash-Speicher, Solid-State-Arbeitsspeicher und dergleichen.
  • Eingabe-/Ausgabe- oder E/A-Einheiten (einschließlich Tastaturen, Anzeigen, Zeigeeinheiten usw., jedoch nicht darauf beschränkt) können entweder direkt oder über zwischengeschaltete drahtgebundene oder drahtlose E/A-Schnittstellen und/oder -Controller oder dergleichen mit dem System verbunden werden. E/A-Einheiten können andere Formen als herkömmliche Tastaturen, Anzeigen, Zeigeeinheiten und dergleichen annehmen, wie beispielsweise Kommunikationseinheiten, die über drahtgebundene oder drahtlose Verbindungen verbunden sind, einschließlich Smartphones, Tablet-Computer, Berührungsbildschirmeinheiten, Spracherkennungseinheiten und dergleichen, sie sind aber nicht darauf beschränkt. Alle bekannten oder später entwickelten E/A-Einheiten sollen im Schutzumfang der veranschaulichenden Ausführungsformen enthalten sein.
  • Netzwerkadapter können ebenfalls mit dem System verbunden werden, um zu ermöglichen, dass das Datenverarbeitungssystem mit anderen Datenverarbeitungssystemen oder entfernt angeordneten Druckern oder Speichereinheiten über dazwischenliegende private oder öffentliche Netzwerke verbunden werden kann. Modems, Kabelmodems und Ethernet-Karten sind nur einige der derzeit verfügbaren Typen von Netzwerkadaptern für drahtgebundene Kommunikationen. Netzwerkadapter auf Grundlage von drahtloser Kommunikation können ebenfalls verwendet werden, einschließlich drahtlose 802.11 a/b/g/n-Kommunikationsadapter, drahtlose Bluetooth-Adapter und dergleichen. Alle bekannten oder später entwickelten Netzwerkadapter sollen im Schutzumfang der vorliegenden Erfindung enthalten sein.
  • Die Beschreibung der vorliegenden Erfindung wurde zum Zweck der Veranschaulichung und Beschreibung erstellt und soll keineswegs erschöpfend oder auf die Erfindung in der offenbarten Form eingeschränkt sein. Für Fachleute sind viele Modifizierungen und Variationen offenkundig, die nicht von dem Schutzbereich der beschrieben Ausführungsformen abweichen. Die Ausführungsform wurde ausgewählt und beschrieben, um die Grundgedanken der Erfindung, die praktische Anwendung am besten zu erklären und es anderen Fachleuten zu ermöglichen, die Erfindung für verschiedene Ausführungsformen mit verschiedenen Modifizierungen zu verstehen, die für die vorgesehene bestimmte Verwendung geeignet sind. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, der praktischen Anwendung oder technischen Verbesserung gegenüber auf dem Markt gefundenen Technologien bestmöglich zu erklären oder anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.

Claims (22)

  1. Verfahren in einem Datenverarbeitungssystem, aufweisend mindestens einen Prozessor und mindestens einen Arbeitsspeicher, wobei der mindestens eine Arbeitsspeicher Anweisungen aufweist, die durch den mindestens einen Prozessor ausgeführt werden, um den mindestens einen Prozessor zu veranlassen, eine Dokument-Analyseeinheit zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette umzusetzen, wobei das Verfahren aufweist: Annehmen, durch ein Annahmemodul, das in der Dokument-Analyseeinheit ausgeführt wird, eines Satzes in natürlicher Sprache; Extrahieren, durch ein Extraktionsmodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten Facette aus dem Satz in natürlicher Sprache; Ausführen, durch ein statistisches Analysemodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten statistischen Analyse einer Gruppe von Dokumenten in Bezug auf die erste Facette; Bestimmen, durch das statistische Analysemodul, eines Wertes der ersten Facette auf Grundlage eines Ergebnisses der ersten statistischen Analyse in Reaktion auf Informationen, die aus dem Satz in natürlicher Sprache extrahiert worden sind, wobei die Informationen eine zweite statistische Analyse erfordern; Ausführen, durch das statistische Analysemodul, der zweiten statistischen Analyse der Gruppe von Dokumenten unter Verwendung des Wertes der ersten Facette; und Darstellen, über die durch das Datenverarbeitungssystem ausgeführte Benutzerschnittstelle, einer zweiten Facette, die auf Grundlage eines Ergebnisses der zweiten statistischen Analyse bestimmt worden ist.
  2. Verfahren nach Anspruch 1, wobei das Extrahieren der ersten Facette aus dem Satz in natürlicher Sprache ein Extrahieren eines Abfrageworts oder eines Abfrageausdrucks aus dem Satz in natürlicher Sprache aufweist, und wobei das Ausführen der ersten statistischen Analyse ein Eingrenzen der Gruppe von Dokumenten unter Verwendung des Abfrageworts oder des Abfrageausdrucks aufweist, das bzw. der aus dem Satz in natürlicher Sprache extrahiert worden ist.
  3. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Extrahieren der ersten Facette aus dem Satz in natürlicher Sprache ein Extrahieren eines Typs einer ersten statistischen Analyse aus dem Satz in natürlicher Sprache aufweist, und wobei das Ausführen der ersten statistischen Analyse ein Ausführen der ersten statistischen Analyse des Typs aufweist, der aus dem Satz in natürlicher Sprache extrahiert worden ist.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Extrahieren der ersten Facette aus dem Satz in natürlicher Sprache ein Extrahieren eines Algorithmus zum Bestimmen des Wertes der ersten Facette aufweist, und wobei ein Bestimmen des Wertes der ersten Facette ein Bestimmen des Wertes der ersten Facette unter Verwendung des Algorithmus aufweist, der aus dem Satz in natürlicher Sprache extrahiert worden ist.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bestimmen des Wertes der ersten Facette ein Auswählen des Wertes der ersten Facette aus einer Mehrzahl von Werten der ersten Facette aufweist, wobei der ausgewählte Wert verursacht, dass das Ergebnis der ersten statistischen Analyse das höchste ist.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bestimmen des Wertes der ersten Facette ein Empfangen einer Wahl des Wertes der ersten Facette aus einer Mehrzahl von Werten der ersten Facette von einem Benutzer über die Benutzerschnittstelle aufweist.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bestimmen des Wertes der ersten Facette ein Auswählen, durch ein Vorschlagsmodul, das in der Dokument-Analyseeinheit ausgeführt wird, des Wertes der ersten Facette aus einer Mehrzahl von Werten der ersten Facette aufweist.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei die zweite statistische Analyse eine statistische Analyse eines vorbestimmten Typs ist.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei die zweite statistische Analyse eine statistische Analyse eines Typs ist, der aus einer Mehrzahl von Typen auf Grundlage von Ergebnissen von statistischen Analysen der Mehrzahl von Typen ausgewählt worden ist.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei die zweite statistische Analyse eine statistische Analyse eines selben Typs wie ein Typ der ersten statistischen Analyse ist.
  11. Vorrichtung zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette, wobei die Vorrichtung aufweist: einen Prozessor; und einen Arbeitsspeicher, der mit dem Prozessor verbunden ist, wobei der Arbeitsspeicher Anweisungen aufweist, die, wenn sie durch den Prozessor ausgeführt werden, den Prozessor veranlassen, eine Dokument-Analyseeinheit zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette auszuführen, wobei die Anweisungen den Prozessor veranlassen zum: Annehmen, durch ein Annahmemodul, das in der Dokument-Analyseeinheit ausgeführt wird, eines Satzes in natürlicher Sprache; Extrahieren, durch ein Extraktionsmodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten Facette aus dem Satz in natürlicher Sprache; Ausführen, durch ein statistisches Analysemodul, das in der Dokument-Analyseeinheit ausgeführt wird, einer ersten statistischen Analyse einer Gruppe von Dokumenten in Bezug auf die erste Facette; Bestimmen, durch das statistische Analysemodul, eines Wertes der ersten Facette auf Grundlage eines Ergebnisses der ersten statistischen Analyse in Reaktion auf Informationen, die aus dem Satz in natürlicher Sprache extrahiert worden sind, wobei die Informationen eine zweite statistische Analyse erfordern; Ausführen, durch das statistische Analysemodul, der zweiten statistischen Analyse der Gruppe von Dokumenten unter Verwendung des Wertes der ersten Facette; und Darstellen, über die durch das Datenverarbeitungssystem ausgeführte Benutzerschnittstelle, einer zweiten Facette, die auf Grundlage eines Ergebnisses der zweiten statistischen Analyse bestimmt worden ist.
  12. Vorrichtung nach Anspruch 11, wobei die Anweisungen den Prozessor veranlassen zum: Extrahieren der ersten Facette aus dem Satz in natürlicher Sprache, das ein Extrahieren eines Abfrageworts oder eines Abfrageausdrucks aus dem Satz in natürlicher Sprache aufweist, und Ausführen der ersten statistischen Analyse, das ein Eingrenzen der Gruppe von Dokumenten unter Verwendung des Abfrageworts oder des Abfrageausdrucks aufweist, das bzw. der aus dem Satz in natürlicher Sprache extrahiert worden ist.
  13. Vorrichtung nach Anspruch 11 oder 12, wobei die Anweisungen den Prozessor veranlassen zum: Extrahieren der ersten Facette aus dem Satz in natürlicher Sprache, das ein Extrahieren eines Typs einer ersten statistischen Analyse aus dem Satz in natürlicher Sprache aufweist; und zum Ausführen der ersten statistischen Analyse, das ein Ausführen der ersten statistischen Analyse des Typs aufweist, der aus dem Satz in natürlicher Sprache extrahiert worden ist.
  14. Vorrichtung nach einem der Ansprüche 11 bis 13, wobei die Anweisungen den Prozessor veranlassen zum: Extrahieren der ersten Facette aus dem Satz in natürlicher Sprache, das ein Extrahieren eines Algorithmus zum Bestimmen des Wertes der ersten Facette aufweist; und zum Bestimmen des Wertes der ersten Facette, das ein Bestimmen des Wertes der ersten Facette unter Verwendung des Algorithmus aufweist, der aus dem Satz in natürlicher Sprache extrahiert worden ist.
  15. Vorrichtung nach einem der Ansprüche 11 bis 14, wobei die Anweisungen den Prozessor veranlassen zum: Bestimmen des Wertes der ersten Facette, aufweisend ein Auswählen des Wertes der ersten Facette aus einer Mehrzahl von Werten der ersten Facette, wobei der ausgewählte Wert verursacht, dass das Ergebnis der ersten statistischen Analyse das höchste ist.
  16. Vorrichtung nach einem der Ansprüche 11 bis 15, wobei die Anweisungen den Prozessor veranlassen zum: Bestimmen des Wertes der ersten Facette, aufweisend ein Empfangen einer Wahl des Wertes der ersten Facette aus einer Mehrzahl von Werten der ersten Facette von einem Benutzer über die Benutzerschnittstelle.
  17. Vorrichtung nach einem der Ansprüche 11 bis 16, wobei die Anweisungen den Prozessor veranlassen zum: Bestimmen des Wertes der ersten Facette, aufweisend ein Auswählen, durch ein Vorschlagsmodul, das in der Dokument-Analyseeinheit ausgeführt wird, des Wertes der ersten Facette aus einer Mehrzahl von Werten der ersten Facette.
  18. Verfahren nach einem der Ansprüche 11 bis 17, wobei die zweite statistische Analyse eine statistische Analyse eines vorbestimmten Typs ist.
  19. Vorrichtung nach einem der Ansprüche 11 bis 18, wobei die zweite statistische Analyse eine statistische Analyse eines Typs ist, der aus einer Mehrzahl von Typen auf Grundlage von Ergebnissen von statistischen Analysen der Mehrzahl von Typen ausgewählt worden ist.
  20. Vorrichtung nach einem der Ansprüche 11 bis 19, wobei die zweite statistische Analyse eine statistische Analyse eines selben Typs wie ein Typ der ersten statistischen Analyse ist.
  21. Computerprogrammprodukt zum Ausführen einer statistischen Analyse von Dokumenten in Bezug auf eine Facette, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium, das von einer Verarbeitungsschaltung lesbar ist und Anweisungen zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren nach einem der Ansprüche 1 bis 10 auszuführen.
  22. Computerprogramm, das auf einem durch einen Computer lesbaren Medium gespeichert und in den internen Arbeitsspeicher eines digitalen Computers ladbar ist, das Softwarecode-Abschnitte aufweist, um das Verfahren nach einem der Ansprüche 1 bis 10 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE112017007361.8T 2017-03-30 2017-12-13 Unterstützen von interaktivem textmining-prozess mit dialog in natürlicher sprache Pending DE112017007361T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US15/473,949 US9996527B1 (en) 2017-03-30 2017-03-30 Supporting interactive text mining process with natural language and dialog
US15/473,949 2017-03-30
US15/626,838 US10282418B2 (en) 2017-03-30 2017-06-19 Supporting interactive text mining process with natural language and dialog
US15/626,838 2017-06-19
PCT/IB2017/057876 WO2018178760A1 (en) 2017-03-30 2017-12-13 Supporting interactive text mining process with natural language dialog

Publications (1)

Publication Number Publication Date
DE112017007361T5 true DE112017007361T5 (de) 2019-12-19

Family

ID=62455041

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017007361.8T Pending DE112017007361T5 (de) 2017-03-30 2017-12-13 Unterstützen von interaktivem textmining-prozess mit dialog in natürlicher sprache

Country Status (6)

Country Link
US (2) US9996527B1 (de)
JP (1) JP7038136B2 (de)
CN (1) CN110291520B (de)
DE (1) DE112017007361T5 (de)
GB (1) GB2575580A (de)
WO (1) WO2018178760A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7013334B2 (ja) * 2018-06-25 2022-01-31 株式会社東芝 表示システム、プログラム、及び記憶媒体
US10956470B2 (en) * 2018-06-26 2021-03-23 International Business Machines Corporation Facet-based query refinement based on multiple query interpretations
US10740381B2 (en) * 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining
US11361030B2 (en) 2019-11-27 2022-06-14 International Business Machines Corporation Positive/negative facet identification in similar documents to search context
CN114118026B (zh) * 2020-08-28 2022-07-19 北京仝睿科技有限公司 文档自动化生成方法、装置及计算机存储介质、电子设备
JP7412307B2 (ja) * 2020-08-28 2024-01-12 株式会社日立製作所 作成支援装置、作成支援方法、および作成支援プログラム

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6532469B1 (en) * 1999-09-20 2003-03-11 Clearforest Corp. Determining trends using text mining
JP2001318939A (ja) 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
US7003517B1 (en) * 2000-05-24 2006-02-21 Inetprofit, Inc. Web-based system and method for archiving and searching participant-based internet text sources for customer lead data
US6714893B2 (en) * 2002-02-15 2004-03-30 International Business Machines Corporation Enhanced concern indicator failure prediction system
US7287025B2 (en) * 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
JP4423004B2 (ja) * 2003-10-03 2010-03-03 三菱電機株式会社 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
US20060106793A1 (en) * 2003-12-29 2006-05-18 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
JP2005208782A (ja) * 2004-01-21 2005-08-04 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2006171931A (ja) * 2004-12-14 2006-06-29 Mitsubishi Electric Corp テキストマイニング装置およびテキストマイニングプログラム
US7788087B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
US20080033587A1 (en) * 2006-08-03 2008-02-07 Keiko Kurita A system and method for mining data from high-volume text streams and an associated system and method for analyzing mined data
US7660783B2 (en) * 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data
US20090119156A1 (en) * 2007-11-02 2009-05-07 Wise Window Inc. Systems and methods of providing market analytics for a brand
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
SI2285350T1 (en) 2008-06-16 2018-03-30 Pfizer Inc. Methods for the preparation of diblock copolymers functionalized with targeting agent for use in the manufacture of therapeutic nanoparticles
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
JP2011192059A (ja) * 2010-03-15 2011-09-29 Omron Corp テキスト解析システムおよびテキスト解析方法
WO2012047541A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
CN103229168B (zh) 2010-09-28 2016-10-19 国际商业机器公司 在问答期间在多个候选答案之间证据扩散的方法和系统
US9208217B2 (en) 2010-10-06 2015-12-08 Linguamatics Ltd. Providing users with a preview of text mining results from queries over unstructured or semi-structured text
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center
US8738363B2 (en) * 2011-10-13 2014-05-27 Xerox Corporation System and method for suggestion mining
CN104054075A (zh) 2011-12-06 2014-09-17 派赛普申合伙公司 文本挖掘、分析和输出系统
GB201217334D0 (en) 2012-09-27 2012-11-14 Univ Swansea System and method for data extraction and storage
JP2014130498A (ja) * 2012-12-28 2014-07-10 International Business Maschines Corporation ファセットを提示する装置及び方法
WO2014109388A1 (ja) 2013-01-11 2014-07-17 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
CN104123298B (zh) * 2013-04-26 2017-09-29 华为技术有限公司 产品缺陷的分析方法和设备
US20150302084A1 (en) * 2014-04-17 2015-10-22 Robert Stewart Data mining apparatus and method
US9424344B2 (en) 2014-05-07 2016-08-23 Bank Of America Corporation Method and apparatus for natural language search for variables
US10552994B2 (en) * 2014-12-22 2020-02-04 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
CN104915793A (zh) * 2015-06-30 2015-09-16 北京西塔网络科技股份有限公司 基于大数据分析挖掘的公共信息智能分析平台

Also Published As

Publication number Publication date
JP2020516985A (ja) 2020-06-11
US10282418B2 (en) 2019-05-07
CN110291520B (zh) 2023-05-23
GB2575580A (en) 2020-01-15
JP7038136B2 (ja) 2022-03-17
US9996527B1 (en) 2018-06-12
GB201915103D0 (en) 2019-12-04
WO2018178760A1 (en) 2018-10-04
US20180285341A1 (en) 2018-10-04
CN110291520A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
DE112017007361T5 (de) Unterstützen von interaktivem textmining-prozess mit dialog in natürlicher sprache
DE112019001533T5 (de) Erweiterung von trainingsdaten für die klassifikation von natürlicher sprache
DE102014113870A1 (de) Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten
DE102017122276A1 (de) Neuronale maschinenübersetzungssysteme
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112016005292T5 (de) Automatischer Abweichungsdetektionsdienst auf heterogenen Protokollströmen
DE102016125783A1 (de) Bereitstellen von Vorschlägen für die Interaktion mit einem automatisierten Assistenten in einem Multi-User-Nachrichtenaustausch-Thread
DE112018005167T5 (de) Aktualisieren von trainingsdaten
DE112019002235T5 (de) Einbinden eines wörterbuch-bearbeitungssystems in ein text mining
DE112012001750T5 (de) Automatisierte Selbstbedienungs-Benutzerunterstützung auf der Grundlage der Ontologieanalyse
DE112020000227T5 (de) Maschinelles lernen eines computermodells auf grundlage von korrelationenvon trainingsdaten mit leistungstrends
DE102014112983A1 (de) Aktive Wissenslenkung beruhend auf Dokumententiefenanalyse
DE102021004157A1 (de) Maschinell lernendes Modellieren zum Schutz gegen die Online-Offenlegung empfindlicher Daten
DE202017107393U1 (de) Vorhersagen eines Suchmaschinen-Einordnungssignalwerts
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE112020003365T5 (de) Überwachte kreuzmodale wiedergewinnung für zeitreihen und text unter verwendung von multimodalen triplettverlusten
DE112018005076T5 (de) Erstellen einer rangfolge von dokumenten auf grundlage ihres semantischen reichtums
DE112020002886T5 (de) Kontextabhängiges data-mining
DE112017007530T5 (de) Entitätsmodell-erstellung
DE102014103281A1 (de) Verknüpfen unterschiedlicher typerzwingungskomponenten zum beurteilen eines latenten typs
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE102012204167A1 (de) Vorauslaufende genäherte Berechnungen
DE112016002275T5 (de) Koordinierte benutzerwortauswahl zum übersetzen und erhalten von kontextinformtionen für das ausgewählte wort
DE102019107591A1 (de) Anzeigesystem, programm und speichermedium
DE112018001952T5 (de) Verbessertes visuelles dialogsystem für intelligente tutoren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016330000

R084 Declaration of willingness to licence