DE112017006785B4 - Datenanalysator und Datenanalyseverfahren - Google Patents

Datenanalysator und Datenanalyseverfahren Download PDF

Info

Publication number
DE112017006785B4
DE112017006785B4 DE112017006785.5T DE112017006785T DE112017006785B4 DE 112017006785 B4 DE112017006785 B4 DE 112017006785B4 DE 112017006785 T DE112017006785 T DE 112017006785T DE 112017006785 B4 DE112017006785 B4 DE 112017006785B4
Authority
DE
Germany
Prior art keywords
word
analysis
phrase
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112017006785.5T
Other languages
English (en)
Other versions
DE112017006785T5 (de
Inventor
Takeyuki Aikawa
Hiroyasu ITSUI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112017006785T5 publication Critical patent/DE112017006785T5/de
Application granted granted Critical
Publication of DE112017006785B4 publication Critical patent/DE112017006785B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine Einheit (103) zum Sammeln ähnlicher Ausdrücke sammelt aus verteilten Darstellungen von Wörterdaten ein Wort/eine Phrase eines Ausdrucks, der einem Analysegesichtspunkt-Wort/einer Analysegesichtspunktverbindung ähnlich ist, und eine Worteinbettung, die dem Wort/der Phrase entspricht. Eine Dimensionsauswahleinheit (104) wählt in Abhängigkeit von dem Analysegesichtspunkt-Wort/der Analysegesichtspunktphrase eine Dimension einer Worteinbettung aus und komprimiert eine Worteinbettung, die dem Wort/der Phrase, das bzw. die durch die Einheit (103) zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, entspricht, in der ausgewählten Dimension.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf einen Datenanalysator und auf ein Datenanalyseverfahren zum Analysieren von Textdaten.
  • STAND DER TECHNIK
  • Um verschiedene Textdatenstücke, die in natürlicher Sprache beschrieben sind, zu analysieren, ist es notwendig, die Wortähnlichkeit zu betrachten, wobei verschiedene Analyseverfahren vorgeschlagen worden sind.
  • Beispiele dafür enthalten ein Verfahren, das ein Synonymwörterbuch verwendet, in dem ähnliche Wörter registriert sind, und ein Verfahren zum automatischen Berechnen der Wortähnlichkeit unter Verwendung der Ähnlichkeit von Notationszeichenfolgen.
  • Allerdings kann es unmöglich sein, die Wortähnlichkeit nur mit Wörtern, die in dem Synonymwörterbuch registriert sind, ausreichend zu analysieren, wenn eine große Menge Daten zu analysieren sind.
  • In den letzteren Verfahren wird die Ähnlichkeit zwischen Wörtern, die eine unterschiedliche Notation besitzen, aber semantisch ähnlich sind, überhaupt nicht betrachtet.
  • Um ein solches Problem zu lösen, sind verteilte Darstellungen von Wörtern auf der Grundlage einer Vorstellung, dass die Bedeutung eines Worts in einem Satz durch einen Kontext definiert ist, vorgeschlagen worden.
  • In den verteilten Darstellungen von Wörtern werden jedem Wort auf der Grundlage einer großen Menge eines Textkorpus Vektordaten mit fester Dimension (im Folgenden als Worteinbettung bezeichnet) zugewiesen und wird die semantische Ähnlichkeit zwischen Wörtern mit einer Entfernung zwischen ihren jeweiligen Worteinbettungen ausgedrückt. Es wird angemerkt, dass die Worteinbettung ein Merkmalsvektor eines zugewiesenen Worts ist und ein Zahlenelement mit fester Dimension enthält. In der verteilten Darstellung von Wörtern wird als ein Parameter, der die semantische Ähnlichkeit zwischen Wörtern repräsentiert, eine Kosinusentfernung zwischen ihren jeweiligen Worteinbettungen berechnet.
  • Zum Beispiel beschreibt die Nichtpatentliteratur 1 eine Technik zum Extrahieren eines Worts mit einer kleinen Kosinusentfernung aus irgendeinem eines Punktvektors des ersten Quadranten, eines Halbpunktvektors und eines Punktvektors des dritten Quadranten zwischen Worteinbettungen, die einem Adjektiv W1 bzw. einem Adjektiv W2, die ein Paar von Antonymen bilden, zugewiesen sind.
  • Ein somit extrahiertes Wort bildet zwischen dem Adjektiv W1 und dem Adjektiv W2, das ein Antonym des Adjektivs W1 ist, eine Wortgruppe mit semantischer Kontinuität.
  • LISTE DER ENTGEGENHALTUNGEN
  • PATENTLITERATUREN
  • Nichtpatentliteratur 1: Joo-Kyung Kim, Marie-Catherine de Marneffe, „Deriving adjectival scales for continuous space word representations“, Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. TURNEY, Peter D.; PANTEL, Patrick. From frequency to meaning: Vector space models of semantics. Journal of artificial intelligence research, vol. 37 (2010) 141-188 offenbart VSMs für die semantische Verarbeitung von Texten mit drei großen Klassen von VSMs, die auf Term-Dokument-, Wort-Kontext- und Paar-Muster-Matrizen basieren.
  • FARUQUI, Manaal, et al. Retrofitting word vectors to semantic lexicons, version 4, 2015, arXiv preprint arXiv:1411.4166v4 offenbart eine Methode zur Verfeinerung von Vektorraumdarstellungen unter Verwendung von relationalen Informationen aus semantischen Lexika, indem verknüpfte Wörter zu ähnlichen Vektordarstellungen angeregt werden, wobei keine Annahmen darüber getroffen werden, wie die Eingangsvektoren konstruiert wurden.
  • MRKŠIĆ, Nikola, et al. Counter-fitting word vectors to linguistic constraints, version 1, 2016. arXiv preprint arXiv: 1603.00892v1 offenbart eine Gegenanpassungsmethode, die Antonymie- und Synonymiebeschränkungen in Vektorraumdarstellungen einfügt, um die Fähigkeit der Vektoren zur Beurteilung der semantischen Ähnlichkeit zu verbessern. Santus, E., [et al.]: Unsupervised antonym-synonym discrimination in vector space. 2014, Proceedings of the First Italian Conference on Computational Linguistics (CLiCit 2014), pp. 328-333 offenbart ein Mittelwert-Präzisions-Maß für die unüberwachte Identifizierung von Antonymen unter Verwendung von Distributional Semantic Models (DSMs)
  • US 2014 / 0 067 368 A1 offenbar das eine Dokument-Term-Matrix auf der Grundlage eines Korpus erzeugt werden und eine Begriffsrepräsentationsmatrix auf der Grundlage der Modifizierung einer Vielzahl von Elementen der Dokument-Begriffsmatrix auf der Basis von Antonym-Informationen aus dem Korpus erzeugt werden kann. Ähnlichkeiten können auf der Grundlage einer Vielzahl von Elementen der Begriffsrepräsentationsmatrix bestimmt werden.
  • KURZFASSUNG DER ERFINDUNG
  • TECHNISCHES PROBLEM
  • Der in der Nichtpatentliteratur 1 beschriebene Stand der Technik betrachtet nicht, dass ein Paar eines Adjektivs W1 und eines Adjektivs W2, das ein Antonym des Adjektivs W1 ist, häufig in ähnlichen Kontexten verwendet sind.
  • Aus diesem Grund kann eine Wort/Phrasen-Gruppe mit semantischer Kontinuität im Stand der Technik nachteilig nicht genau erfasst werden, wenn das Adjektiv W1 und das Adjektiv W2 als ein Gesichtspunkt der Analyse bestimmt sind.
  • In diesem Fall werden in einem Analyseergebnis eine Wort/Phrasen-Gruppe, die dem Adjektiv W1 semantisch nahe ist, und eine Wort/Phrasen-Gruppe, die dem Adjektiv W2 semantisch nahe ist, gemischt.
  • Die vorliegende Erfindung löst das obige Problem. Eine Aufgabe der vorliegenden Erfindung ist das Erhalten eines Datenanalysators und eines Datenanalyseverfahrens, die die Unterscheidbarkeit zwischen einer Wort/Phrasen-Gruppe, die einem Wort/einer Phrase eines Paars von Antonymen, die in ähnlichen Kontexten verwendet sind, semantisch nahe ist, und einer Wort/Phrasen-Gruppe, die dem anderen Wort/der anderen Phrase semantisch nahe ist, verbessern können, auch wenn das Paar als ein Gesichtspunkt der Analyse bestimmt ist.
  • LÖSUNG DES PROBLEMS
  • Die Erfindung wird durch die unabhängigen Ansprüche definiert. Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen definiert. Ein Datenanalysator gemäß der vorliegenden Erfindung enthält eine Analysebedingungs-Eingabeeinheit zum Empfangen einer Eingabe eines ersten Worts/einer ersten Phrase als einen Gesichtspunkt der Analyse und einer Eingabe eines zweiten Worts/einer zweiten Phrase als einen Gesichtspunkt der Analyse, eine Einheit zum Sammeln ähnlicher Ausdrücke, eine Dimensionsauswahleinheit und eine Visualisierungsverarbeitungseinheit. Die Einheit zum Sammeln ähnlicher Ausdrücke sammelt ein erstes Wort/eine erste Phrase eines Ausdrucks, der einem ersten Wort/einer ersten Phrase, das bzw. die als ein Gesichtspunkt einer Analyse eingegeben wird, ähnlich ist, und Vektordaten, die dem ersten Wort/der ersten Phrase des ähnlichen Ausdrucks entsprechen, aus verteilten Darstellungen von Wörterdaten, die eine Vielzahl von Wörtern/Phrasen und Vektordaten mit fester Dimension, die jedem der Vielzahl von Wörtern/Phrasen zugewiesen sind, enthalten und ein zweites Wort/eine zweite Phrase eines Ausdrucks, der einem zweiten Wort/einer zweiten Phrase, das bzw. die als ein Gesichtspunkt einer Analyse eingegeben wird, ähnlich ist, und Vektordaten, die dem zweiten Wort/der zweiten Phrase des ähnlichen Ausdrucks entsprechen, aus verteilten Darstellungen von Wörterdaten, die eine Vielzahl von Wörtern/Phrasen und Vektordaten mit fester Dimension, die jedem der Vielzahl von Wörtern/Phrasen zugewiesen sind, enthalten. Die Dimensionsauswahleinheit wählt eine Dimension von Vektordaten in Abhängigkeit von dem ersten und dem zweiten Wort/der ersten und der zweiten Phrase, die als der Standpunkt der Analyse eingegeben worden sind, aus und komprimiert die Vektordaten, die dem ersten und dem zweiten Wort/der ersten und der zweiten Phrase, die durch die Einheit zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, entsprechen, in der ausgewählten Dimension, wobei die Dimensionsauswahleinheit für jede Dimension neue erste Vektordaten erzeugt, indem sie ein Element in den Vektordaten, das der ersten Eingabe eines Worts/einer Phrase als dem Gesichtspunkt der Analyse entspricht, mit einer vorgegebenen Zahl multipliziert, und für jede Dimension neue zweite Vektordaten erzeugt, indem sie ein Element in den Vektordaten, das der zweiten Eingabe eines Worts/einer Phrase als dem Gesichtspunkt der Analyse entspricht, mit der vorgegebenen Zahl multipliziert, und für jede Dimension einen Kosinusabstand zwischen den neuen ersten Vektordaten und den neuen zweiten Vektordaten als eine Auswahlbewertung berechnet und eine Dimension auswählt, die einer Auswahlbewertung entspricht, die gleich oder größer als ein Schwellenwert unter den Auswahlbewertungen in den jeweiligen Dimensionen ist. Die Visualisierungsverarbeitungseinheit visualisiert ein Analyseergebnisses der verteilten Darstellungen von Wörterdaten auf einer Grundlage der Vektordaten, die durch die Dimensionsauswahleinheit dimensionskomprimiert worden sind.
  • VORTEILHAFTE WIRKUNGEN DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung wird eine Dimension von Vektordaten auf der Grundlage einer Wort/Phrasen-Eingabe als ein Gesichtspunkt der Analyse ausgewählt und werden Vektordaten, die einem Wort/einer Phrase eines Ausdrucks, der dem/der als Gesichtspunkt der Analyse eingegebenen Wort/Phrase ähnlich ist, entsprechen, in der ausgewählten Dimension komprimiert. Im Ergebnis kann die Unterscheidbarkeit zwischen einer Wort/Phrasen-Gruppe, die einem Wort/einer Phrase des Paars nahe ist, und einer Wort/Phrasen-Gruppe, die dem anderen Wort/der anderen Phrase semantisch nahe ist, verbessert werden, auch wenn ein Paar von Antonymen, die in ähnlichen Kontexten verwendet sind, als ein Gesichtspunkt der Analyse bestimmt ist.
  • Figurenliste
    • 1 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt.
    • 2 ist ein Blockschaltplan, der eine Hardwarekonfiguration zum Implementieren einer Funktion des Datenanalysators gemäß der ersten Ausführungsform darstellt.
    • 3 ist ein Blockschaltplan, der eine Hardwarekonfiguration darstellt, in der Software zum Implementieren der Funktion des Datenanalysators gemäß der ersten Ausführungsform ausgeführt wird.
    • 4 ist ein Ablaufplan, der eine Operation des Datenanalysators gemäß der ersten Ausführungsform darstellt.
    • 5 ist ein Blockschaltplan, der eine Konfiguration einer Analysebedingungs-Eingabeeinheit darstellt.
    • 6A ist eine Darstellung, die einen Eingabebildschirm (Beispiel 1) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase darstellt. 6B ist eine Darstellung, die einen Eingabebildschirm (Beispiel 2) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase darstellt. 6C ist eine Darstellung, die einen Eingabebildschirm (Beispiel 3) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase darstellt.
    • 7 ist ein Blockschaltplan, der eine Konfiguration einer Einheit zum Sammeln ähnlicher Ausdrücke darstellt.
    • 8 ist eine Darstellung, die ein Beispiel verteilter Darstellungen von Wörterdaten darstellt.
    • 9 ist ein Ablaufplan, der eine Operation der Einheit zum Sammeln ähnlicher Ausdrücke darstellt.
    • 10 ist eine Darstellung, die ein Beispiel des Ergebnisses des Sammelns ähnlicher Ausdrücke darstellt.
    • 11 ist ein Ablaufplan, der eine Operation einer Dimensionsauswahleinheit darstellt.
    • 12 ist eine Darstellung, die eine Übersicht von Prozessen von Schritt ST1001 bis Schritt ST1005 in 11 darstellt.
    • 13 ist ein Blockschaltplan, der eine Konfiguration einer Visualisierungsverarbeitungseinheit darstellt.
    • 14 ist ein Ablaufplan, der eine Operation der Visualisierungsverarbeitungseinheit darstellt.
    • 15 ist eine Darstellung, die ein Beispiel eines Visualisierungsverarbeitungsergebnisses darstellt.
    • 16 ist ein Blockschaltplan, der eine Konfiguration einer Datenerzeugungseinheit darstellt.
    • 17 ist ein Ablaufplan, der eine Operation der Datenerzeugungseinheit darstellt.
    • 18 ist eine Darstellung, die ein Beispiel eines Lernkorpus darstellt.
    • 19 ist eine Darstellung, die ein Beispiel eines Ergebnisses einer morphologischen Analyse darstellt.
    • 20 ist eine Darstellung, die ein Beispiel eines Änderungsanalyseergebnisses darstellt.
    • 21 ist eine Darstellung, die ein Beispiel eines Konjugationswort-Standardisierungsergebnisses darstellt.
    • 22 ist eine Darstellung, die ein Beispiel eines Negationsausdruck-Integrationsergebnisses darstellt.
    • 23 ist eine Darstellung, die ein Beispiel eines Adverbausdruck-Integrationsergebnisses darstellt.
    • 24 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt.
    • 25 ist ein Ablaufplan, der eine Operation einer Analysebedingungs-Eingabeeinheit in der zweiten Ausführungsform darstellt.
    • 26A ist eine Darstellung, die einen Eingabebildschirm (Beispiel 1) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase und für ein Analysezielwort/eine Analysezielphrase darstellt. 26B ist eine Darstellung, die einen Eingabebildschirm (Beispiel 2) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase und ein Analysezielwort/eine Analysezielphrase darstellt.
    • 27 ist ein Ablaufplan, der eine Operation einer Einheit zum Sammeln ähnlicher Ausdrücke in der zweiten Ausführungsform darstellt.
    • 28 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators gemäß einer dritten Ausführungsform der vorliegenden Erfindung darstellt.
    • 29 ist ein Ablaufplan, der eine Operation des Datenanalysators gemäß der dritten Ausführungsform darstellt.
    • 30 ist eine Darstellung, die einen Eingabebildschirm für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase in der dritten Ausführungsform darstellt.
    • 31 ist ein Ablaufplan, der eine Operation einer Dimensionsauswahleinheit in der dritten Ausführungsform darstellt.
    • 32 ist eine Darstellung, die eine Bewertungstabelle in der dritten Ausführungsform darstellt.
    • 33 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators gemäß einer vierten Ausführungsform der vorliegenden Erfindung darstellt.
    • 34 ist ein Ablaufplan, der eine Operation des Datenanalysators gemäß der vierten Ausführungsform darstellt.
    • 35 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators gemäß einer fünften Ausführungsform der vorliegenden Erfindung darstellt.
    • 36 ist ein Ablaufplan, der eine Operation des Datenanalysators gemäß der fünften Ausführungsform darstellt.
  • BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
  • Um die vorliegende Erfindung ausführlicher zu beschreiben, werden im Folgenden anhand der beigefügten Zeichnungen Ausführungsformen zum Ausführen der vorliegenden Erfindung beschrieben.
  • Erste Ausführungsform.
  • 1 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators 100 gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt. Der Datenanalysator 100 ist in einer Informationsverarbeitungsvorrichtung wie etwa einem Smartphone, einem Tablet-PC oder einem Desktop-PC vorgesehen und analysiert Textdaten. In einem System, das eine Servervorrichtung und einen Client-PC enthält, kann der Datenanalysator 100 in der Servervorrichtung vorgesehen sein und kann der Client-PC auf die Server-Vorrichtung zugreifen, um ein Datenanalyseergebnis zu erhalten.
  • Wie in 1 dargestellt ist, enthält der Datenanalysator 100 eine Steuereinheit 101, eine Analysebedingungs-Eingabeeinheit 102, eine Einheit 103 zum Sammeln ähnlicher Ausdrücke, eine Dimensionsauswahleinheit 104, eine Visualisierungsverarbeitungseinheit 105 und eine Datenerzeugungseinheit 106. Die Datenerzeugungseinheit 106 ist mit einer Ablagespeichereinheit 107 zum Speichern eines Lernkorpus und mit einer Ablagespeichereinheit 108 zum Speichern verteilter Darstellungen von Wörterdaten verbunden.
  • Die Steuereinheit 101 steuert einen Prozess der Analysebedingungs-Eingabeeinheit 102 und der Einheit 103 zum Sammeln ähnlicher Ausdrücke und der Dimensionsauswahleinheit 104 und der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106.
  • Die oben beschriebenen Komponenten führen z. B. jeweilige Prozesse in einer Prozedur gemäß der Steuerung von der Steuereinheit 101 aus. Es wird angemerkt, dass jede der oben beschriebenen Komponenten eine Funktion der Steuereinheit 101 besitzen kann. In diesem Fall ist die Steuereinheit 101 von der Konfiguration des Datenanalysators 100 ausgeschlossen.
  • Die Analysebedingungs-Eingabeeinheit 102 ist eine Komponente zum Empfangen einer Eingabe eines Worts/einer Phrase, das bzw. die ein Gesichtspunkt der Analyse ist (im Folgenden als ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase bezeichnet). Zum Beispiel veranlasst die Analysebedingungs-Eingabeeinheit 102, dass eine Anzeigevorrichtung einen Eingabebildschirm für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase anzeigt und unter Verwendung einer Eingabevorrichtung eine Eingabe des Analysegesichtspunktworts/der Analysegesichtspunktphrase empfängt. Informationen, die das Analysegesichtspunktwort/die Analysegesichtspunktphrase enthalten, die durch die Analysebedingungs-Eingabeeinheit 102 empfangen werden, werden an die Einheit 103 zum Sammeln ähnlicher Ausdrücke und an die Dimensionsauswahleinheit 104 ausgegeben.
  • Die Analysebedingungs-Eingabeeinheit 102 kann z. B. in einer Eingabevorrichtung enthalten sein, die getrennt von dem Datenanalysator 100 vorgesehen ist. In diesem Fall wird das Analysegesichtspunktwort/die Analysegesichtspunktphrase von der Eingabevorrichtung an den Datenanalysator 100 ausgegeben und ist die Analysebedingungs-Eingabeeinheit 102 von der Konfiguration des Datenanalysators 100 ausgeschlossen.
  • Die Einheit 103 zum Sammeln ähnlicher Ausdrücke sammelt ein Wort/eine Phrase, das bzw. die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase ähnlich ist, und Vektordaten, die dem Wort/der Phrase entsprechen, von den verteilten Darstellungen von Wörterdaten. Die verteilten Darstellungen von Wörterdaten enthalten eine Vielzahl von Wörtern/Phrasen und Vektordaten, die numerische Daten mit fester Dimension sind, die jeder der Vielzahl von Wörtern und Phrasen zugewiesen sind.
  • Im Folgenden werden die Vektordaten, die einem Wort zugewiesen sind, als eine „Worteinbettung“ bezeichnet.
  • Es wird angemerkt, dass ein Wort/eine Phrase zusätzlich zu einem Wort ebenfalls eine Phrase, die eine Vielzahl von Wörtern enthält, enthält. Allerdings ist eine Phrase in der folgenden Beschreibung zweckmäßigkeitshalber als eine Art Wort behandelt, wobei Vektordaten, die einer Phrase entsprechen, ebenfalls als eine „Worteinbettung“ bezeichnet sind.
  • Die Dimensionsauswahleinheit 104 wählt in Abhängigkeit von einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase eine Dimension einer Worteinbettung in verteilten Darstellungen von Wörterdaten aus und komprimiert eine Worteinbettung, die einem Wort/einer Phrase, das bzw. die durch die Einheit 103 zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, entspricht, in der ausgewählten Dimension. Zum Beispiel wählt die Dimensionsauswahleinheit 104 eine Dimension in Abhängigkeit von einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase aus Dimensionen einer Worteinbettung in verteilten Darstellungen von Wörterdaten, die durch früheres Lernen erhalten wurden, aus und komprimiert eine Worteinbettung, die einem Wort/einer Phrase eines Ausdrucks, der dem Analysegesichtspunktwort/der Analysegesichtspunktphrase ähnlich ist, entspricht, in der ausgewählten Dimension. Im Ergebnis kann die Unterscheidbarkeit zwischen einer Wort/Phrasen-Gruppe, die einem Wort/einer Phrase des Paars semantisch nahe ist, und einer Wort/Phrasen-Gruppe, die dem anderen Wort/der anderen Phrase semantisch nahe ist, verbessert werden, auch wenn ein Paar von Antonymen in ähnlichen Kontexten verwendet sind.
  • Die Visualisierungsverarbeitungseinheit 105 visualisiert ein Analyseergebnis verteilter Darstellungen von Wörterdaten auf der Grundlage einer Worteinbettung, die durch die Dimensionsauswahleinheit 104 dimensionskomprimiert worden ist.
  • Zum Beispiel erzeugt die Visualisierungsverarbeitungseinheit 105 aus Positionierungskoordinaten, die einer Worteinbettung eines Analysezielworts/einer Analysezielphrase entsprechen, Positionierungsbildschirminformationen eines Analysezielworts/einer Analysezielphrase.
  • Es wird angemerkt, dass die Visualisierungsverarbeitungseinheit 105 z. B. in einer Anzeigevorrichtung, die getrennt von dem Datenanalysator 100 vorgesehen ist, enthalten sein kann. In diesem Fall erzeugt die Anzeigevorrichtung Anzeigeinformationen eines von dem Datenanalysator 100 eingegebenen Analyseergebnisses, so dass die Visualisierungsverarbeitungseinheit 105 von der Konfiguration des Datenanalysators 100 ausgeschlossen ist.
  • Die Datenerzeugungseinheit 106 erzeugt auf der Grundlage eines aus der Ablagespeichereinheit 107 ausgelesenen Lernkorpus verteilte Darstellungen von Wörterdaten. Zum Beispiel standardisiert die Datenerzeugungseinheit 106 auf der Grundlage eines Ergebnisses einer morphologischen Analyse und eines Änderungsanalyseergebnisses von Textdaten, die in dem Lernkorpus enthalten sind, ein Konjugationswort. Daraufhin integriert die Datenerzeugungseinheit 106 Negationsausdrücke in einem Satzteil, integriert sie ein Adverb mit einem Adjektiv oder mit einem Adjektivverb, das durch das Adverb geändert werden soll, und erzeugt sie für ein integriertes Wort/eine integrierte Phrase verteilte Darstellungen von Wörterdaten. Es wird angemerkt, dass die Datenerzeugungseinheit 106 z. B. in einer externen Vorrichtung enthalten sein kann, die getrennt von dem Datenanalysator 100 vorgesehen ist. In diesem Fall erzeugt die externe Vorrichtung verteilte Darstellungen von Wörterdaten, so dass die Datenerzeugungseinheit 106 von der Konfiguration des Datenanalysators 100 ausgeschlossen ist.
  • Die Ablagespeichereinheit 107 speichert einen Lernkorpus. Die Ablagespeichereinheit 108 speichert verteilte Darstellungen von Wörterdaten. Die Ablagespeichereinheiten 107 und 108 können in dem Datenanalysator 100 vorgesehen sein oder können in einer externen Ablageablagespeichervorrichtung vorgesehen sein, die getrennt von dem Datenanalysator 100 vorgesehen ist. Die Datenerzeugungseinheit 106 kann z. B. durch Kommunizieren mit der externen Ablageablagespeichervorrichtung über eine Kommunikationsleitung wie etwa das Internet oder ein Intranet Daten mit den Ablagespeichereinheiten 107 und 108 austauschen.
  • 2 ist ein Blockschaltplan, der eine Hardwarekonfiguration zum Implementieren einer Funktion des Datenanalysators 100 darstellt. Eine Verarbeitungsschaltung 201, eine Ablagespeichervorrichtung 202, eine Eingabevorrichtung 203 und eine Anzeige 204 sind durch einen Bus miteinander verbunden.
  • 3 ist ein Blockschaltplan, der eine Hardwarekonfiguration darstellt, in der Software zum Implementieren der Funktion des Datenanalysators 100 ausgeführt wird. Die Ablagespeichervorrichtung 202, die Eingabevorrichtung 203, die Anzeige 204, ein Prozessor 301 und ein Speicher 302 sind durch einen Bus miteinander verbunden.
  • Die Ablagespeichervorrichtung 202 in 2 und 3 ist eine Ablagespeichervorrichtung zum Implementieren der Ablagespeichereinheiten 107 und 108 und speichert einen Lernkorpus und verteilte Darstellungen von Wörterdaten.
  • Die Ablagespeichervorrichtung 202 kann eine Analysebedingung wie etwa ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase, das bzw. die durch die Analysebedingungs-Eingabeeinheit 102 empfangen wird, oder ein Visualisierungsverarbeitungsergebnis durch die Visualisierungsverarbeitungseinheit 105 speichern.
  • Die Ablagespeichervorrichtung 202 ist z. B. durch einen Schreib-Lese-Speicher (RAM), durch einen Nur-Lese-Speicher (ROM), durch einen Flash-Speicher oder durch ein Festplattenlaufwerk (HDD) implementiert und kann eine Ablagespeichervorrichtung sein, die durch deren Kombinieren erhalten wurde. Ein Teil des Ablagespeicherbereichs oder der gesamte Ablagespeicherbereich der Ablagespeichervorrichtung 202 kann in einer externen Ablagespeichervorrichtung vorgesehen sein.
  • In diesem Fall kommuniziert der Datenanalysator 100 über eine Kommunikationsleitung wie etwa das Internet oder ein Intranet mit der externen Ablagespeichervorrichtung und werden dadurch Daten ausgetauscht.
  • Die Eingabevorrichtung 203 ist eine Vorrichtung zum Eingeben einer Analysebedingung und ist ein Gerät wie etwa eine Tastatur, eine Maus oder ein Touch Screen. Die Analysebedingungs-Eingabeeinheit 102 empfängt eine unter Verwendung der Eingabevorrichtung 203 eingegebene Analysebedingung. Es wird angemerkt, dass die Eingabevorrichtung 203 irgendeine Vorrichtung sein kann, solange sie in der Lage ist, eine Analysebedingung in den Datenanalysator 100 einzugeben, und nicht auf eine Tastatur, eine Maus und einen Touch Screen beschränkt ist.
  • Die Anzeige 204 ist eine Anzeigevorrichtung zum Anzeigen eines Eingabebildschirms für eine Analysebedingung, eines Positionierungsbildschirms für ein Analyseergebnis und dergleichen und kann z. B. eine Anzeigeeinheit einer Informationsverarbeitungsvorrichtung, in der der Datenanalysator 100 vorgesehen ist, sein. Es wird angemerkt, dass die Anzeige 204 irgendein Anzeigeverfahren oder irgendeine Form wie etwa einen Flüssigkristallmonitor oder einen Projektor aufweisen kann, solange sie eine Anzeigevorrichtung ist, die jedes durch einen Prozess des Datenanalysators 100 erzeugte Informationsstück anzeigen kann.
  • Jede der Funktionen der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 in dem Datenanalysator 100 wird durch eine Verarbeitungsschaltung implementiert. Das heißt, der Datenanalysator 100 enthält eine Verarbeitungsschaltung zum Ausführen dieser Funktionen. Die Verarbeitungsschaltung kann dedizierte Hardware oder eine CPU zum Ausführen eines in dem Speicher gespeicherten Programms sein.
  • Falls die Verarbeitungsschaltung die in 2 dargestellte Verarbeitungsschaltung 201 dedizierter Hardware ist, entspricht der Verarbeitungsschaltung 201 z. B. eine einzelne Schaltung, eine zusammengesetzte Schaltung, ein programmierter Prozessor, ein parallel programmierter Prozessor, eine anwendungsspezifische integrierte Schaltung (ASIC), eine frei programmierbare logische Anordnung (FPGA) oder eine Kombination davon. Jede der Funktionen der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 in dem Datenanalysator 100 kann durch eine Verarbeitungsschaltung implementiert werden oder die Funktionen können zusammen durch eine Verarbeitungsschaltung implementiert werden.
  • Falls die Verarbeitungsschaltung der in 3 dargestellte Prozessor 301 ist, wird jede der Funktionen der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 durch Software, durch Firmware oder durch eine Kombination aus Software und Firmware implementiert. Die Software und die Firmware sind jeweils als ein Programm beschrieben und in dem Speicher 302 gespeichert.
  • Der Prozessor 301 implementiert die Funktionen durch Auslesen und Ausführen eines in dem Speicher 302 gespeicherten Programms. Das heißt, der Datenanalysator 100 enthält den Speicher 302 zum Speichern eines Programms, das veranlasst, dass im Ergebnis Prozesse in den Schritten ST401 bis 404, die in der später beschriebenen 4 dargestellt sind, ausgeführt werden, wenn das Programm durch den Prozessor 301 ausgeführt wird. Diese Programme veranlassen, dass ein Computer Prozeduren oder Verfahren der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 ausführt.
  • Dem Speicher entspricht hier z. B. ein nichtflüchtiger oder ein flüchtiger Halbleiterspeicher wie etwa ein RAM, ein ROM, ein Flash-Speicher, ein löschbarer programmierbarer ROM (EPROM) oder ein elektrischer EPROM (EEPROM), eine Magnetplatte, eine Diskette, eine optische Platte, eine Compact Disc, eine Minidisc, eine Digital Versatile Disc (DVD) oder dergleichen.
  • Einige der Funktion der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102, der Einheit 103 zum Sammeln ähnliche Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 können durch dedizierte Hardware implementiert werden und einige der Funktionen können durch Software oder durch Firmware implementiert werden.
  • Zum Beispiel implementiert die Steuereinheit 101 eine Funktion davon mit einer Verarbeitungsschaltung dedizierter Hardware. Funktionen der Analysebedingungs-Eingabeeinheit 102, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 werden durch Ausführung eines in dem Speicher 302 gespeicherten Programms durch den Prozessor 301 implementiert.
  • Auf diese Weise kann die Verarbeitungsschaltung die oben beschriebenen Funktionen durch Hardware, durch Software, durch Firmware oder durch eine Kombination davon implementieren.
  • Nachfolgend wird ein Betrieb beschrieben.
  • 4 ist ein Ablaufplan, der einen Betrieb des Datenanalysators 100 darstellt und der eine Reihe von Prozessen von einer Eingabe einer Analysebedingung bis zur Visualisierung eines Analyseergebnisses angibt.
  • Die Analysebedingungs-Eingabeeinheit 102 empfängt eine Eingabe einer Analysebedingung, die ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase enthält (Schritt ST401). Zum Beispiel gibt die Analysebedingungs-Eingabeeinheit 102 Eingabebildschirminformationen zum Eingeben einer Analysebedingung an die Anzeige 204 aus und zeigt die Anzeige 204 dadurch einen Eingabebildschirm an. Ein Analysearbeiter gibt auf der Grundlage des Eingabebildschirms unter Verwendung der Eingabevorrichtung 203 eine Analysebedingung ein. Die Analysebedingungs-Eingabeeinheit 102 gibt unter Verwendung der Eingabevorrichtung 203 eingegebene Informationen an die Einheit 103 zum Sammeln ähnlicher Ausdrücke und an die Dimensionsauswahleinheit 104 aus.
  • Die Einheit 103 zum Sammeln ähnlicher Ausdrücke sucht auf der Grundlage eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase, das bzw. die in einer Analysebedingung enthalten ist, nach verteilten Darstellungen von Wörterdaten, die in der Ablagevorrichtung 108 gespeichert sind, und sammelt ein Wort/eine Phrase eines Ausdrucks, der dem Analysegesichtspunktwort/der Analysegesichtspunktphrase ähnlich ist, und Vektordaten, die dem Wort/der Phrase entsprechen (Schritt ST402).
  • Zum Beispiel erfasst und synthetisiert die Einheit 103 zum Sammeln ähnlicher Ausdrücke von den verteilten Darstellungen von Wörterdaten Worteinbettungen, die jeweiligen Analysegesichtspunktwörtern/Analysegesichtspunktphrasen entsprechen, und sammelt sie eine Worteinbettung, in der eine Kosinusentfernung von dem synthetischen Vektor kleiner als ein Schwellenwert ist, und ein Wort/eine Phrase, das bzw. die der Worteinbettung entspricht.
  • Die Dimensionsauswahleinheit 104 wählt in Abhängigkeit von einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase, das bzw. die in einer Analysebedingung enthalten ist, in verteilten Darstellungen von Wörterdaten eine Dimension einer Worteinbettung und komprimiert eine Worteinbettung, die einem Wort/einer Phrase, das bzw. die durch die Einheit 103 zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, entspricht, in der ausgewählten Dimension (Schritt ST403).
  • Zum Beispiel erzeugt die Dimensionsauswahleinheit 104 eine neue Worteinbettung, die in einer Worteinbettung, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht, ein Element der i-ten Dimension hervorhebt, und sammelt sie eine Kosinusentfernung zwischen den neuen Worteinbettungen, die für eine jeweilige Vielzahl der Analysegesichtspunkt-Wörter/Phrasen erzeugt worden sind, als eine Auswahlbewertung in der i-ten Dimension an.
  • Die Dimensionsauswahleinheit 104 wählt eine Dimension, in der eine angesammelte Auswahlbewertung gleich oder größer einem Schwellenwert ist, als eine Dimension, auf die zu konzentrieren ist, aus. Nachfolgend komprimiert die Dimensionsauswahleinheit 104 eine Worteinbettung, die einem Wort/einer Phrase, das bzw. die durch die Einheit 103 zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, entspricht, in der ausgewählten Dimension.
  • Die Visualisierungsverarbeitungseinheit 105 visualisiert auf der Grundlage der Worteinbettung, die durch die Dimensionsauswahleinheit 104 dimensionskomprimiert worden ist, ein Analyseergebnis verteilter Darstellungen von Wörterdaten (Schritt ST404).
  • Zum Beispiel berechnet die Visualisierungsverarbeitungseinheit 105 auf der Grundlage einer Kosinusentfernung zwischen den dimensionskomprimierten Worteinbettungen Positionierungskoordinaten, die jeder der Worteinbettungen jeweiliger Analysezielwörter/Analysezielphrasen entsprechen, und erzeugt sie Positionierungsbildschirminformationen eines Analysezielworts/einer Analysezielphrase, das bzw. die den berechneten Positionierungskoordinaten entspricht. Die Positionierungsbildschirminformationen werden durch eine Anzeigevorrichtung angezeigt.
  • Nachfolgend werden Einzelheiten eines Analysebedingungs-Eingabeprozesses in Schritt ST401 beschrieben.
  • 5 ist ein Blockschaltplan, der eine Konfiguration der Analysebedingungs-Eingabeeinheit 102 darstellt. Die Analysebedingungs-Eingabeeinheit 102 enthält eine wie in 5 dargestellte Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501. Die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 empfängt eine Eingabe eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase.
  • Zum Beispiel gibt die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 Eingabebildschirminformationen zum Eingeben eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase an die Anzeige 204 aus und zeigt die Anzeige 204 auf der Grundlage der Eingabebildschirminformationen einen Eingabebildschirm an. Ein Analysearbeiter kann auf der Grundlage dieses Eingabebildschirms in Abhängigkeit von einem Zweck der Analyse in dem Datenanalysator 100 unter Verwendung der Eingabevorrichtung 203 ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase eingeben.
  • 6A ist eine Darstellung, die einen Eingabebildschirm (Beispiel 1) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase darstellt. Der in 6A dargestellte Eingabebildschirm enthält eine Vielzahl von Eingabespalten, wobei in jede der Eingabespalten ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase eingegeben werden kann. In dem Beispiel aus 6A ist das Wort a1 in eine Eingabespalte eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase 1 eingegeben worden und ist das Wort a2, das ein Antonym des Worts a1 ist, in eine Eingabespalte des Analysegesichtspunktworts/der Analysegesichtspunktphrase 2 eingegeben worden.
  • 6B ist eine Darstellung, die einen Eingabebildschirm (Beispiel 2) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase darstellt. Ein in 6B dargestellter Eingabebildschirm enthält außer einer Eingabespalte für jedes Analysegesichtspunktwort/jede Analysegesichtspunktphrase eine Eingabespalte für die Anzahl entsprechender Zielwörter und eine Eingabespalte für die entsprechende Zielwortähnlichkeit, wobei die Anzahl der Zielwörter und die Zielwortähnlichkeit in einem Prozess zum Sammeln ähnlicher Ausdrücke verwendet werden.
  • Die Anzahl der Zielwörter ist ein Schwellenwert für die Anzahl der Wörter/Phrasen, die jeweils als ein Wort/eine Phrase eines Ausdrucks, der einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase ähnlich ist, gesammelt werden. Die Zielwortähnlichkeit ist ein Schwellenwert für eine Kosinusentfernung zwischen einer Worteinbettung, die dem Analysegesichtspunktwort/der Analysegesichtspunktphrase entspricht, und einer Worteinbettung, die einem Wort/einer Phrase, die als ein Wort/eine Phrase des ähnlichen Ausdrucks gesammelt wurde, entspricht. Dies sind Daten, um einen Umfang der Analyse zu definieren.
  • In dem Beispiel aus 6B sind die Wörter b1 bis b4 in dieser Reihenfolge in die Eingabespalten der Analysegesichtspunkt-Wörter/Phrasen 1 bis 4 eingegeben worden.
  • Da in eine Eingabespalte für die Anzahl der Zielwörter, die dem Analysegesichtspunktwort/der Analysegesichtspunktphrase 2 entsprechen, „100“ eingegeben worden ist, werden 100 oder weniger Wörter/Phrasen, die jeweils einen ähnlichen Ausdruck wie das Wort b2, das das Analysegesichtspunktwort/die Analysegesichtspunktphrase 2 ist, aufweisen, gesammelt.
  • Da in eine Eingabespalte für die Zielwortähnlichkeit, die dem Analysegesichtspunktwort/der Analysegesichtspunktphrase 3 entspricht, „0,8“ eingegeben worden ist, wird für das Wort b3, das das Analysegesichtspunktwort/die Analysegesichtspunktphrase 3 ist, ein Wort/eine Phrase, das bzw. die einer Worteinbettung mit einer Kosinusentfernung gleich oder kleiner 0,8 entspricht, als ein Wort/eine Phrase eines Ausdrucks, der dem Wort b3 ähnlich ist, gesammelt.
  • Darüber hinaus ist in eine Eingabespalte für die Anzahl der Zielwörter, die dem Analysegesichtspunktwort/der Analysegesichtspunktphrase 4 entsprechen, „100“ eingegeben worden und ist in eine Eingabespalte für die Zielwortähnlichkeit, die dem Analysegesichtspunktwort/der Analysegesichtspunktphrase 4 entspricht, „0,7“ eingegeben worden, so dass für das Wort b4, das das Analysegesichtspunktwort/die Analysegesichtspunktphrase 4 ist, 100 oder weniger Wörter/Phrasen jeweils mit einer Kosinusentfernung gleich oder kleiner als 0,7 gesammelt werden.
  • Übrigens wird ein im Voraus definierter Standardwert verwendet, wenn in eine Eingabespalte für die Anzahl der Zielwörter oder in eine Eingabespalte für die Zielwortähnlichkeit kein Zahlenwert eingegeben worden ist.
  • Wenn sowohl in eine Eingabespalte für die Anzahl der Zielwörter als auch in eine Eingabespalte für die Zielwortähnlichkeit Zahlenwerte eingegeben worden sind, kann einer von ihnen mit Priorität verwendet werden.
  • 6C ist eine Darstellung, die einen Eingabebildschirm (Beispiel 3) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase darstellt. Der in 6C dargestellte Eingabebildschirm enthält Eingabespalten, in die jeweils eine Vielzahl von Wörtern/Phrasen mit demselben Gesichtspunkt der Analyse eingegeben worden sind.
  • In dem Beispiel aus 6C enthalten die Analysegesichtspunkt-Wort/Phrasen-Gruppen jeweils drei Eingabespalten und sind das Wort a1 sowie das Wort c1 und das Wort d1, die sich auf das Wort a1 beziehen, in die Analysegesichtspunkt-Wort/Phrasen-Gruppe 1 eingegeben worden. Ähnlich sind das Wort a2 sowie das Wort c2 und das Wort d2, die sich auf das Wort a2 beziehen, in die Analysegesichtspunkt-Wort/Phrasen-Gruppe 2 eingegeben worden.
  • Ein Analysearbeiter kann eine Analysebedingung auf der Grundlage irgendeines der wie oben beschriebenen Eingabebildschirme eingeben.
  • Die Analysebedingungs-Eingabeeinheit 102 gibt Informationen, die eine durch einen Analysearbeiter eingegebene Analysebedingung angeben, an die Einheit 103 zum Sammeln ähnlicher Ausdrücke und an die Dimensionsauswahleinheit 104 aus.
  • Nachfolgend werden Einzelheiten des Prozesses zum Sammeln ähnlicher Ausdrücke in Schritt ST402 beschrieben.
  • 7 ist ein Blockschaltplan, der eine Konfiguration der Einheit 103 zum Sammeln ähnlicher Ausdrücke darstellt. Die Einheit 103 zum Sammeln ähnlicher Ausdrücke enthält eine Erfassungseinheit 701, eine Syntheseeinheit 702 und eine Sucheinheit 703, wie sie in 7 dargestellt sind.
  • Die Erfassungseinheit 701 erfasst aus verteilten Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, eine Worteinbettung, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht. Die Syntheseeinheit 702 erzeugt einen Synthesevektor einer Worteinbettungsgruppe, die durch die Erfassungseinheit 701 erfasst worden ist. Die Sucheinheit 703 sucht unter Verwendung des Synthesevektors als ein Suchschlüssel aus Stücken verteilter Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, nach verteilten Darstellungen von Wörterdaten eines Ausdrucks, der einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase ähnlich ist.
  • 8 ist eine Darstellung, die ein Beispiel verteilter Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, darstellt. Wie in 8 dargestellt ist, enthalten die verteilten Darstellungen von Wörterdaten Informationen, die in einer ID-Spalte 801, in einer Kopfteilspalte 802 und in einer Worteinbettungsspalte 803 festgesetzt worden sind. Die verteilten Darstellungen von Wörterdaten werden durch die Datenerzeugungseinheit 106 auf der Grundlage eines Lernkorpus im Voraus erzeugt.
  • In der ID-Spalte 801 ist eine ID, die jedem Wort/jeder Phrase in den verteilten Darstellungen von Wörterdaten eindeutig zugewiesen ist, festgesetzt, wobei als die ID z. B. eine Identifizierungsnummer i (eine laufende Nummer, die jedem Wort/jeder Phrase zugewiesen ist) verwendet werden kann. In der Kopfteilspalte 802 ist ein Wort/eine Phrase festgesetzt. In 8 ist in der Kopfteilspalte 802 mit der ID = i das Wort/die Phrase T[i] festgesetzt. In der Worteinbettungsspalte 803 ist eine Worteinbettung mit der Dimensionszahl N, die einem Wort/einer Phrase in der Kopfteilspalte 802 zugewiesen ist, festgesetzt. Zum Beispiel ist eine Worteinbettung, die dem Wort/der Phrase T[i] mit der ID = i entspricht, W[i] = (v[i, 1], v[i, 2], ..., v[i, N]).
  • 9 ist ein Ablaufplan, der eine Operation der Einheit 103 zum Sammeln ähnlicher Ausdrücke darstellt, wobei sie Einzelheiten des Prozesses in Schritt ST402 in 4 darstellt.
  • Zunächst erfasst die Erfassungseinheit 701 aus verteilten Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, eine Worteinbettung, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht (Schritt ST901).
  • Zum Beispiel erfasst die Erfassungseinheit 701 durch Suchen nach einem Wort/einer Phrase in der Kopfteilspalte 802 in den verteilten Darstellungen von Wörterdaten auf der Grundlage des Analysegesichtspunktworts/der Analysegesichtspunktphrase, das bzw. die in Schritt ST401 eingegeben worden ist, eine Worteinbettung, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht. Wenn auf der Grundlage des in 6A dargestellten Eingabebildschirms das Wort a1 und das Wort a2 als Analysegesichtspunkt-Wörter/Phrasen eingegeben werden, werden die Worteinbettungen W[1] und W[2], die diesen Wörtern entsprechen, erfasst.
  • Nachfolgend synthetisiert die Syntheseeinheit 702 eine durch die Erfassungseinheit 701 erfasste Worteinbettungsgruppe (Schritt ST902). Zum Beispiel dividiert die Syntheseeinheit 702 Worteinbettungen in der Worteinbettungsgruppe durch ihre jeweiligen Normen, um ihre jeweiligen Längen zu normieren, dividiert sie ferner die Summe dieser Worteinbettungen durch ihre Norm, um einen normierten Vektor zu erhalten, und gibt sie den normierten Vektor als einen Synthesevektor aus.
  • Die Schritte ST901 und ST902 werden so oft wie die Anzahl der als eine Analysebedingung eingegebenen Analysegesichtspunktwörter/Analysegesichtspunktwortgruppen wiederholt ausgeführt, wobei für jedes der Analysegesichtspunktwörter/jede der Analysegesichtspunktphrasen ein Synthesevektor berechnet wird.
  • Die Sucheinheit 703 sucht unter Verwendung des entsprechenden in Schritt ST902 erhaltenen Synthesevektors als ein Suchschlüssel aus Stücken verteilter Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, nach verteilten Darstellungen von Wörterdaten eines Ausdrucks, der einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase ähnlich ist (Schritt ST903).
  • Zum Beispiel erfasst die Sucheinheit 703 von der Ablagespeichereinheit 108 Worteinbettungen, in denen jeweils eine Kosinusentfernung von dem Synthesevektor gleich oder kleiner einem Schwellenwert ist, und erfasst sie außerdem Wörter/Phrasen in der Kopfteilspalte 802, die den jeweiligen Worteinbettungen entsprechen, und listet sie auf. Eine Liste somit erfasster Wörter/Phrasen und der Worteinbettungen, die den Wörtern/Phrasen entsprechen, ist ein Ergebnis des Sammelns ähnlicher Ausdrücke.
  • Wenn ein Schwellenwert für die Anzahl der Wörter als die Anzahl von Zielwörtern festgesetzt ist und wenn ein Schwellenwert für eine Kosinusentfernung als eine Zielwortähnlichkeit festgesetzt ist, sammelt die Sucheinheit 703 Wörter/Phrasen, deren Anzahl gleich oder kleiner der Anzahl von Zielwörtern ist, wobei jedes der Wörter/jede der Phrasen einer Worteinbettung entspricht, deren Kosinusentfernung von dem Synthesevektor gleich oder kleiner dem Schwellenwert für eine Kosinusentfernung ist.
  • 10 ist eine Darstellung, die ein Beispiel des Ergebnisses der Sammlung ähnlicher Ausdrücke darstellt. Wie in 10 dargestellt ist, enthalten verteilte Darstellungen von Wörterdaten eines Ausdrucks, der einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase ähnlich ist, einen Kopfteil, eine Worteinbettung und eine Ähnlichkeit (Kosinusentfernung von dem Synthesevektor).
  • Nachfolgend werden Einzelheiten der Dimensionsauswahl und eines Kompressionsprozesses in Schritt ST403 beschrieben.
  • 11 ist ein Ablaufplan, der eine Operation der Dimensionsauswahleinheit 104 darstellt und der eine Reihe von Prozessen darstellt, bis eine Worteinbettung in einer Dimension, die aus verteilten Darstellungen von Wörterdaten ausgewählt wird, komprimiert worden ist. 12 ist eine Darstellung, die eine Übersicht der Prozesse von Schritt ST1001 bis Schritt ST1005 in 11 darstellt.
  • Zunächst setzt die Dimensionsauswahleinheit 104 die Anzahl in den Schritten ST1002 und ST 1003 wiederholter Prozesse fest (Schritt ST1001).
  • Zum Beispiel führt die Dimensionsauswahleinheit 104 Prozesse in den Schritten ST1002 und ST1003 für eine Dimensionszahl (i = 1, 2, ..., N) verteilter Darstellungen von Wörterdaten, die in 8 dargestellt sind, wiederholt aus.
  • In Schritt ST1002 hebt die Dimensionsauswahleinheit 104 die i-te Dimension verteilter Darstellungen von Wörterdaten, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase, das bzw. die in Schritt ST401 eingegeben wurde, entsprechen, hervor. Zum Beispiel erzeugt die Dimensionsauswahleinheit 104 eine neue Worteinbettung, in der ein Element in der i-ten Dimension einer Worteinbettung, das einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht, durch Multiplizieren des Elements in der i-ten Dimension mit einer vorgegebenen Zahl hervorgehoben ist.
  • Im Fall von i = 2 wird aus der Worteinbettung W[1] = (v[1, 1], v[1, 2], ..., v[1, N]), die einem Wort a1 entspricht, das ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase ist, eine neue Worteinbettung W[1]' = (v[1, 1], v[1, 2] · 100, ..., v[1, N]) erzeugt. Ähnlich wird aus der Worteinbettung W[2] = (v[2, 1], v[2, 2], ..., v[2, N]), die dem Wort a2 entspricht, das ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase ist, eine neue Worteinbettung W[2]' = (v[2, 1], v[2, 2] · 100, ..., v[2, N]) erzeugt. Das Element in der i-ten Dimension wird hier mit 100 multipliziert.
  • In Schritt ST1003 berechnet die Dimensionsauswahleinheit 104 die Auswahlbewertung S[i] in der i-ten Dimension. Zum Beispiel berechnet die Dimensionsauswahleinheit 104 in Übereinstimmung mit der folgenden Formel (1) eine Kosinusentfernung zwischen W[1]' und W[2]', die in Schritt ST1002 erzeugt wurden, und speichert sie die berechnete Kosinusentfernung als ein Element von S[i]. S [ i ] = W [ 1 ] ' W [ 2 ] ' W [ 1 ] ' W [ 1 ] ' W [ 2 ] ' W [ 2 ] '
    Figure DE112017006785B4_0001
  • Es wird angemerkt, dass die Dimensionsauswahleinheit 104 eine Kosinusentfernung zwischen Worteinbettungen, in denen jeweils die i-te Dimension hervorgehoben ist, in Übereinstimmung mit der folgenden Formel (2) berechnet, wenn drei oder mehr Analysegesichtspunkt-Wörter/Phrasen eingegeben werden, wobei die Kosinusentfernung jedem Paar der Analysegesichtspunkt-Wörter/Phrasen entspricht. Daraufhin speichert die Dimensionsauswahleinheit 104 einen durch Summieren der Kosinusentfernung, die für jedes Paar der Analysegesichtspunkt-Wörter/Phrasen berechnet wird, erhaltenen Wert als ein Element S[i].
  • Es wird angemerkt, dass j und k in der folgenden Formel (2) voneinander verschiedene ID-Nummern repräsentieren. S [ i ] = j ,k W [ j ] ' W [ k ] ' W [ j ] ' W [ j ] ' W [ k ] ' W [ k ] '
    Figure DE112017006785B4_0002
  • Die Dimensionsauswahleinheit 104 wiederholt die Prozesse in den Schritten ST1002 und ST1003 in jeder Dimension und berechnet eine Auswahlbewertung. Die Prozesse bis zu diesem Punkt entsprechen einem in 12 dargestellten Auswahlbewertungs-Berechnungsprozess.
  • In Schritt ST1004 wählt die Dimensionsauswahleinheit 104 unter den Auswahlbewertungen in jeweiligen Dimensionen, die in dem Auswahlbewertungs-Berechnungsprozess berechnet worden sind, eine Dimension, die einer Auswahlbewertung gleich oder größer als der Schwellenwert Th1 entspricht, aus und listet sie die Nummer i der ausgewählten Dimension auf, um eine Liste L = [i1, i2, ..., ix] zu erhalten.
  • Die Prozesse bis zu diesem Punkt entsprechen einem in 12 dargestellten Dimensionsauswahlprozess.
  • Nachfolgend komprimiert die Dimensionsauswahleinheit 104 auf der Grundlage der Liste L = [i1, i2, ..., ix] der in Schritt ST1004 erhaltenen Dimensionszahlen eine Worteinbettung, die einem Wort/einer Phrase entspricht, das bzw. die in Schritt ST402 in der ausgewählten Dimension gesammelt worden ist (Schritt ST1005).
  • Beispielhaft wird ein Fall dargestellt, dass eine Worteinbettung W[150] = (v[150, 1], v[150, 2], ..., v[150, N]), die dem Wort/der Phrase c1 entspricht, und eine Worteinbettung W[200] = (v[200, 1], v[200, 2], ..., v[200, N]), die dem Wort/der Phrase c2 entspricht, Ergebnisse der Sammlung ähnlicher Ausdrücke sind.
  • Ein Dimensionskompressionsprozess ersetzt die Dimensionszahlen der Worteinbettungen durch die Dimensionszahlen in der Liste L. Da die Elemente in der Liste L [i1, i2, ..., ix] sind, wird die Worteinbettung, die dem Wort/der Phrase c1 entspricht, wie in 12 dargestellt ist, zu W[150]' = (v[150, i1], v[150, i2], ..., v[150, ix]) komprimiert.
  • Ähnlich wird die Worteinbettung, die dem Wort/der Phrase c2 entspricht, zu W[200]' = (v[200, i1], v[200, i2], ..., v[200, ix]) komprimiert.
  • Nachfolgend werden Einzelheiten eines Visualisierungsprozesses in Schritt ST404 beschrieben.
  • 13 ist ein Blockschaltplan, der eine Konfiguration der Visualisierungsverarbeitungseinheit 105 darstellt. Wie in 13 dargestellt ist, enthält die Visualisierungsverarbeitungseinheit 105 eine Entfernungsmatrix-Erzeugungseinheit 1301, eine Positionierungskoordinaten-Berechnungseinheit 1302 und eine Positionierungsergebnis-Zeicheneinheit 1303.
  • Die Entfernungsmatrix-Erzeugungseinheit 1301 erzeugt unter Verwendung einer Worteinbettungs-Dimensionskompression durch die Dimensionsauswahleinheit 104 eine Entfernungsmatrix D.
  • Die Positionierungskoordinaten-Berechnungseinheit 1302 berechnet auf der Grundlage der Entfernungsmatrix D Positionierungskoordinaten für eine Worteinbettung, die sowohl einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase als auch einem Ergebnis der Sammlung ähnlicher Ausdrücke entspricht.
  • Die Positionierungsergebnis-Zeicheneinheit 1303 zeichnet auf der Grundlage von Positionierungskoordinaten, die durch die Positionierungskoordinaten-Berechnungseinheit 1302 berechnet werden, ein Positionierungsergebnis.
  • 14 ist ein Ablaufplan, der eine Operation der Visualisierungsverarbeitungseinheit 105 darstellt.
  • Zunächst berechnet die Entfernungsmatrix-Erzeugungseinheit 1301 in Übereinstimmung mit der folgenden Formel (3) die Kosinusentfernung D[i, j] zwischen den in Schritt ST403 dimensionskomprimierten Worteinbettungen W[i]' und W[j]' und erzeugt sie eine Entfernungsmatrix D, die als Elemente die Kosinusentfernung D[i, j] enthält (Schritt ST1401).
  • Es wird angemerkt, dass i und j in der folgenden Formel (3) voneinander verschiedene ID-Nummern repräsentieren. D [ i ,j ] = W [ i ] ' W [ j ] ' W [ i ] ' W [ i ] ' W [ j ] ' W [ j ] '
    Figure DE112017006785B4_0003
  • Nachfolgend berechnet die Positionierungskoordinaten-Berechnungseinheit 1302 auf der Grundlage der Entfernungsmatrix D Positionierungskoordinaten P[i] = (Xi, Yi) für eine Worteinbettung W[i] (Schritt ST1402).
  • Zum Beispiel kann die Positionierungskoordinaten-Berechnungseinheit 1302 Positionierungskoordinaten unter Verwendung eines in der folgenden Referenzliteratur 1 beschriebenen Verfahrens berechnen.
  • (Referenzliteratur 1) Takayuki Saito und Sadaaki Ogawa, „Problems in applications of multidimensional scaling-from the standpoint of data analysis“, Behavior Metrology, Bd. 4, Nr. 2 (1977).
  • Die Positionierungsergebnis-Zeicheneinheit 1303 zeichnet auf der Grundlage von Positionierungskoordinaten P[i], die in Schritt ST1402 berechnet werden, ein Positionierungsergebnis (Schritt ST1403).
  • Zum Beispiel gibt die Positionierungsergebnis-Zeicheneinheit 1303 die Zeicheninformationen an die Anzeige 204 aus, wenn die Positionierungsergebnis-Zeicheneinheit 1303 Zeicheninformationen eines Positionierungsergebnisses erzeugt. Die Anzeige 204 zeigt die von der Positionierungsergebnis-Zeicheneinheit 1303 eingegebenen Zeicheninformationen an.
  • 15 ist eine Darstellung, die ein Beispiel eines Visualisierungsverarbeitungsergebnisses darstellt. Zum Beispiel ist ein Paar „heiß“ und „kalt“, das ein Antonym von „heiß“ ist, häufig in verhältnismäßig ähnlichen Kontexten verwendet.
  • Wenn im Stand der Technik ein solches Paar von Antonymen als ein Gesichtspunkt der Analyse bestimmt wird, ist es unmöglich, eine Wort/Phrasen-Gruppe mit semantischer Kontinuität genau zu erfassen. In diesem Fall sind in einem Analyseergebnis eine Wort/Phrasen-Gruppe, die „heiß“ semantisch nahe ist, und eine Wort/Phrasen-Gruppe, die „kalt“ semantisch nahe ist, gemischt.
  • Währenddessen wählt der Datenanalysator 100, wie oben beschrieben ist, eine Dimension einer Worteinbettung in Abhängigkeit von einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase aus, und komprimiert er eine Worteinbettung, die einem Analysezielwort/einer Analysezielphrase entspricht, in der ausgewählten Dimension. Im Ergebnis kann die Unterscheidbarkeit zwischen einer Wort/Phrasen-Gruppe, die einem Wort/einer Phrase des Paars von Antonymen semantisch nahe ist, und einer Wort/Phrasen-Gruppe, die dem anderen Wort/der anderen Phrase semantisch nahe ist, verbessert sein.
  • In 15 sind „heiß“ und „kalt“, die ein Paar von Antonymen bilden, am weitesten voneinander entfernt angeordnet, und sind eine Wort/Phrasen-Gruppe, die Wörter/Phrasen e1 bis e6 enthält, die semantisch mit „heiß“ verwandt sind, und eine Wort/Phrasen-Gruppe, die Wörter/Phrasen e7 bis e14 enthält, die semantisch mit „kalt“ verwandt sind, voneinander entfernt angeordnet, um geeignet unterschieden zu werden.
  • Nachfolgend werden Einzelheiten eines Prozesses des Erzeugens verteilter Darstellungen von Wörterdaten beschrieben.
  • 16 ist ein Blockschaltplan, der eine Konfiguration der Datenerzeugungseinheit 106 darstellt. Wie in 16 dargestellt ist, enthält die Datenerzeugungseinheit 106 eine Einheit 1601 zum morphologischen Analysieren, eine Änderungsanalysiereinheit 1602, eine Konjugationswort-Standardisierungseinheit 1603, eine Negationsausdruck-Integrationseinheit 1604, eine Adverbausdruck-Integrationseinheit 1605 und eine Lerneinheit 1606.
  • Die Einheit 1601 zum morphologischen Analysieren liest einen Lernkorpus aus, der in der Ablagespeichereinheit 107 gespeichert ist, und führt an Textdaten, die in dem Lernkorpus enthalten sind, eine morphologische Analyse aus. Die Änderungsanalysiereinheit 1602 führt an einem Ergebnis der morphologischen Analyse von der Einheit 1601 zum morphologischen Analysieren eine Änderungsanalyse aus. Die Konjugationswort-Standardisierungseinheit 1603 extrahiert aus dem Ergebnis der morphologischen Analyse eine Standardform eines Konjugationsworts.
  • Die Negationsausdruck-Integrationseinheit 1604 integriert auf der Grundlage des Ergebnisses der morphologischen Analyse, des Änderungsanalyseergebnisses und des Konjugationswort-Standardisierungsergebnisses Negationsausdrücke. Die Adverbausdruck-Integrationseinheit 1605 integriert auf der Grundlage des Ergebnisses der morphologischen Analyse, des Änderungsanalyseergebnisses und des Konjugationswort-Standardisierungsergebnisses Adverbausdrücke.
  • Die Lerneinheit 1606 lernt auf der Grundlage des Ergebnisses der morphologischen Analyse, des Änderungsanalyseergebnisses, des Konjugationswort-Standardisierungsergebnisses, des Negationsausdruck-Integrationsergebnisses und des Adverbausdruck-Integrationsergebnisses verteilte Darstellungen von Wörterdaten. Die durch die Lerneinheit 1606 gelernten verteilten Darstellungen von Wörterdaten werden in der Ablagespeichereinheit 108 gespeichert.
  • 17 ist ein Ablaufplan, der eine Operation der Datenerzeugungseinheit 106 darstellt.
  • Zunächst führt die Einheit 1601 zum morphologischen Analysieren an Textdaten, die in dem in der Ablagespeichereinheit 107 gespeicherten Lernkorpus enthalten sind, eine morphologische Analyse aus (Schritt ST1701).
  • Die Einheit 1601 zum morphologischen Analysieren kann die morphologische Analyse z. B. durch ein in der folgenden Referenzliteratur 2 beschriebenes Verfahren ausführen.
  • (Referenzliteratur 2) Nobuhiro Kaji, „Recent Research Trends in Japanese Morphological Analysis and Its Related Areas“, Journal of Japan Society for Fuzzy Theory and Intelligent Informatics, Bd. 25, Nr. 6, S. 174-183 (2013).
  • 18 ist eine Darstellung, die ein Beispiel eines in der Ablagespeichereinheit 107 gespeicherten Lernkorpus darstellt.
  • Der in 18 dargestellte Lernkorpus wird unter Verwendung von Dokumentdaten erzeugt, die von dem Web gesammelt werden. Es wird angemerkt, dass irgendeine Form von Dokumentdaten und irgendeine Erfassungsquelle davon verwendet werden können, solange die Textdaten des Lernkorpus Textdaten sind, die ein zu analysierendes Vokabular enthalten.
  • Zum Beispiel kann ein internes Dokument in einem Intranet verwendet werden oder können in einer Datenbank gespeicherte Textdaten verwendet werden.
  • 19 ist eine Darstellung, die ein Beispiel eines Ergebnisses einer morphologischen Analyse darstellt, wobei sie ein Ergebnis der Ausführung einer morphologischen Analyse an Textdaten f1 darstellt. Wenn die in dem Lernkorpus enthaltenen Textdaten, wie in 19 dargestellt ist, in die Einheit 1601 zum morphologischen Analysieren eingegeben werden, teilt die Einheit 1601 zum morphologischen Analysieren die Textdaten in Morphemeinheiten, klassifiziert sie die Morphemeinheiten in Kopfteile und verleiht sie jedem der Morpheme eine Standardform, eine Wortart und eine genaue Wortart.
  • Nachfolgend führt die Änderungsanalysiereinheit 1602 an dem Ergebnis der morphologischen Analyse von der Einheit 1601 zum morphologischen Analysieren eine Änderungsanalyse aus (Schritt ST1702).
  • Die Änderungsanalysiereinheit 1602 kann z. B. eine Änderungsanalyse durch ein in der folgenden Referenzliteratur 3 beschriebenes Verfahren ausführen.
  • (Referenzliteratur 3) Takao Shime, Masatoshi Tsuchiya, Suguru Matsuyoshi, Takehito Utsuro und Satoshi Sato, „Automatic Detection of Japanese Compound Functional Expressions and its Application to Statistical Dependency Analysis“, Natural Language Processing, Bd. 14, Nr. 5, S. 167-197 (2007).
  • 20 ist eine Darstellung, die ein Beispiel eines Änderungsanalyseergebnisses darstellt. In dem Beispiel aus 20 stehen die Morpheme A1 und A2 in einer Änderungsbeziehung und stehen jedes der Morpheme A2, A3 und A4 und das Morphem A5 in einer Änderungsbeziehung. Beim Analysieren einer solchen Änderungsbeziehung gibt die Änderungsanalysiereinheit 1602 das Analyseergebnis an die Konjugationswort-Standardisierungseinheit 1603 aus.
  • Die Konjugationswort-Standardisierungseinheit 1603 führt an dem Ergebnis der morphologischen Analyse von der Einheit 1601 zum morphologischen Analysieren einen Konjugationswort-Standardisierungsprozess aus (Schritt ST1703). Die Konjugationswort-Standardisierungseinheit 1603 nimmt z. B. auf eine Wortart jedes Morphems in dem Ergebnis der morphologischen Analyse Bezug, wobei die Konjugationswort-Standardisierungseinheit 1603 eine Standardform des Morphems extrahiert, wenn die Wortart des entsprechenden Morphems ein Konjugationswort wie etwa ein Verb oder ein Adjektiv ist. Daraufhin erzeugt die Konjugationswort-Standardisierungseinheit 1603 Daten, in denen das Morphem des Konjugationsworts unter den Morphemen in dem Ergebnis der morphologischen Analyse durch die Standardform ersetzt ist. Diese Daten sind ein Konjugationswort-Standardisierungsergebnis.
  • 21 ist eine Darstellung, die ein Beispiel des Konjugationswort-Standardisierungsergebnisses darstellt. In dem Beispiel aus 21 ist unter den Ergebnissen der morphologischen Analyse das Morphem A5 ein Konjugationswort, in dem die Wortart ein Adjektiv ist. Somit erzeugt die Konjugationswort-Standardisierungseinheit 1603, wie in 21 dargestellt ist, ein Konjugationswort-Standardisierungsergebnis, in dem das Morphem A5 durch die Standardform B 1 ersetzt ist. Eine Standardform wird in später beschriebenen verteilten Darstellungen von Wörterlerndaten für einen Kopfteil eines Konjugationsworts verwendet.
  • Die Negationsausdruck-Integrationseinheit 1604 führt auf der Grundlage des Ergebnisses der morphologischen Analyse von der Einheit 1601 zum morphologischen Analysieren, des Änderungsanalyseergebnisses von der Änderungsanalysiereinheit 1602 und des Konjugationswort-Standardisierungsergebnisses von der Konjugationswort-Standardisierungseinheit 1603 eine Negationsausdruckintegration aus (Schritt ST1704).
  • Zum Beispiel nimmt die Negationsausdruck-Integrationseinheit 1604 auf eine Morphemfolge in einem Satzteil, der eine Einheit einer Änderungsanalyse in dem Konjugationswort-Standardisierungsergebnis ist, Bezug, wobei die Negationsausdruck-Integrationseinheit 1604 das Negationsausdruckverb aus dem Konjugationswort-Standardisierungsergebnis entfernt, wenn ein Morphem enthalten ist, dessen genaue Wortart ein Negationshilfsverb ist. Daraufhin integriert die Negationsausdruck-Integrationseinheit 1604 ein Konjugationswort, das durch das Negationshilfsverb unter den Konjugationswörtern in dem Satzteil zu einem Negationsausdruck wird, und markiert sie Informationen, die die Negation angeben.
  • Wie oben beschrieben wurde, ist die Negationsausdruckintegration ein Prozess zum Integrieren des Konjugationsworts in dem Satzteil und zum Markieren von Informationen anstelle eines Morphems eines Negationsausdrucks in dem Konjugationswort-Standardisierungsergebnis.
  • 22 ist eine Darstellung, die ein Beispiel des Negationsausdruck-Integrationsergebnisses darstellt. Das in 22 dargestellte Ergebnis der morphologischen Analyse enthält Morpheme C1 bis C6. Der Satzteil D1 enthält Morphemfolgen von Morphemen C3 bis C6. Da die Morpheme C3 und C4 Konjugationswörter sind, ist ein Kopfteil des Morphems C3 in dem Konjugationswort-Standardisierungsergebnis durch seine Standardform E1 ersetzt und ist der Kopfteil des Morphems C4 durch seine Standardform E2 ersetzt.
  • Da die Morphemfolge in dem Satzteil D1 das Morphem C5 enthält, dessen genaue Wortart ein Negationshilfsverb ist, entfernt die Negationsausdruck-Integrationseinheit 1604 das Morphem C5 aus dem Konjugationswort-Standardisierungsergebnis und verleiht sie dem Kopf eines Kopfteils eines Konjugationsworts als ein Zentrum des Satzteils D1 Markierungsinformationen 220, die die Negation angeben.
  • In dem Beispiel aus 22 ist der Vorderseite eines Kopfteils einer Standardform E1 in dem Satzteil D1 ein Zeichen „!“, das eine Markierungsinformation 220 ist, verliehen worden und sind die Markierungsinformationen 220 und die Standardform E1 integriert.
  • Die Adverbausdruck-Integrationseinheit 1605 führt auf der Grundlage des Ergebnisses der morphologischen Analyse von der Einheit 1601 zum morphologischen Analysieren, des Änderungsanalyseergebnisses von der Änderungsanalysiereinheit 1602 und des Konjugationswort-Standardisierungsergebnisses von der Konjugationswort-Standardisierungseinheit 1603 eine Adverbausdruckintegration aus (Schritt ST1705).
  • Zum Beispiel nimmt die Adverbausdruck-Integrationseinheit 1605 auf eine Morphemfolge in einem Satzteil Bezug, die eine Einheit der Änderungsanalyse in dem Konjugationswort-Standardisierungsergebnis ist, wobei die Adverbausdruck-Integrationseinheit 1605 das Morphem und ein Konjugationswort, das eine Änderungsbestimmung davon ist, integriert, wenn ein Morphem, dessen Wortart ein Adverb ist, enthalten ist.
  • Wie oben beschrieben wurde, ist die Adverbausdruckintegration ein Prozess zum Integrieren eines Morphems eines Adverbs und eines Konjugationsworts, das eine Änderungsbestimmung davon ist, in dem Konjugationswort-Standardisierungsergebnis.
  • 23 ist eine Darstellung, die ein Beispiel eines Adverbausdruck-Integrationsergebnisses darstellt. Der Satzteil F 1, der in dem in 23 dargestellten Änderungsanalyseergebnis enthalten ist, enthält Morphemfolgen der Morpheme G1 bis G6.
  • Da das Morphem G4 ein Konjugationswort ist, ist ein Kopfteil des Morphems G4 in dem Konjugationswort-Standardisierungsergebnis durch seine Standardform H1 ersetzt.
  • Da eine Morphemfolge in dem Satzteil F1 das Morphem G1 enthält, dessen Wortart ein Adverb ist, spezifiziert die Adverbausdruck-Integrationseinheit 1605 auf der Grundlage des Änderungsanalyseergebnisses eine Änderungsbestimmung des Morphems G1 und integriert sie das Morphem G1 und die Standardform H1 des Morphems G4, das die Änderungsbestimmung davon ist. Als ein Kopfteil des Integrationsergebnisses werden z. B. das Wort/die Phrase I1, in dem bzw. in der ein Kopfteil des Morphems G1 und ein Kopfteil der Standardform H1 durch einen „-“, der die Integration angibt, verbunden sind, festgesetzt.
  • Die Lerneinheit 1606 lernt unter Verwendung des Ergebnisses der morphologischen Analyse, des Änderungsanalyseergebnisses, des Konjugationswort-Standardisierungsergebnisses, des Negationsausdruck-Integrationsergebnisses und des Adverbausdruck-Integrationsergebnisses, die oben beschrieben sind, als Lerndaten verteilte Darstellungen von Wörterdaten (Schritt ST1706).
  • Die Lerneinheit 1606 kann das Lernen z. B. durch ein Verfahren ausführen, das in der folgenden Referenzliteratur 4 beschrieben ist. Durch dieses Verfahren werden verteilte Darstellungen von Wörtern unter Verwendung einer Wahrscheinlichkeit des Auftretens eines anderen Worts, das um ein bestimmtes Wort in den Lerndaten auftritt, gelernt.
  • (Referenzliteratur 4) Tomas Mikolov, Kai Chen, Greg Corrado und Jeffrey Dean, „Efficient Estimation of Word Representations in Vector Space“, Proceedings of Workshop at ICLR, 2013.
  • Wie oben beschrieben ist, wählt der Datenanalysator 100 gemäß der ersten Ausführungsform eine Dimension einer Worteinbettung in Abhängigkeit von einem Gesichtspunkt der Analyse aus und komprimiert er eine Worteinbettung, die einem Analysezielwort/einer Analysezielphrase in der ausgewählten Dimension entspricht. Im Ergebnis kann die Unterscheidbarkeit zwischen einer Wort/Phrasen-Gruppe, die einem Wort/einer Phrase des Paars semantisch nahe ist, und einer Wort/Phrasen-Gruppe, die dem anderen Wort/der anderen Phrase semantisch nahe ist, auch dann verbessert sein, wenn ein Paar von Antonymen, die in ähnlichen Kontexten verwendet sind, als Analysegesichtspunkt-Wörter/Phrasen bestimmt sind.
  • In dem Datenanalysator 100 gemäß der ersten Ausführungsform analysiert die Datenerzeugungseinheit 106 Morpheme von Textdaten in einem Lernkorpus und die Änderung zwischen den Morphemen, ersetzt sie ein Morphem, das ein Konjugationswort ist, in dem Analyseergebnis durch eine Standardform des Konjugationsworts, integriert sie Negationsausdrücke in einem Satzteil, integriert sie ein Adverb und ein Änderungsbestimmung davon in dem Satzteil, um Lerndaten zu erzeugen, und erzeugt sie durch Lernen unter Verwendung der Lerndaten verteilte Darstellungen von Wörterdaten.
  • Durch Analysieren der auf diese Weise erzeugten verteilten Darstellungen von Wörterdaten ist es möglich, die Stärke (den Grad) des Ausdrucks mit einem Adjektiv oder mit einem Adjektivverb zu analysieren.
  • Zweite Ausführungsform.
  • 24 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators 100A gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt. Dieselben Komponenten wie jene in 1 sind durch dieselben Bezugszeichen bezeichnet und ihre Beschreibung ist weggelassen.
  • Der Datenanalysator 100A enthält eine Steuereinheit 101, eine Analysebedingungs-Eingabeeinheit 102A, eine Einheit 103A zum Sammeln ähnlicher Ausdrücke, eine Dimensionsauswahleinheit 104, eine Visualisierungsverarbeitungseinheit 105 und eine Datenerzeugungseinheit 106.
  • Die Analysebedingungs-Eingabeeinheit 102A enthält eine Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 und eine Analyseziel-Wort/Phrase-Eingabeeinheit 2401. Die Einheit 103A zum Sammeln ähnlicher Ausdrücke enthält eine Erfassungseinheit 701A, eine Syntheseeinheit 702A und eine Sucheinheit 703A.
  • Die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 empfängt eine Eingabe eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase. Die Analyseziel-Wort/Phrasen-Eingabeeinheit 2401 empfängt eine Eingabe eines Worts/einer Phrase, das bzw. die analysiert werden soll.
  • Das Wort/die Phrase, das bzw. die analysiert werden soll, ist ein Wort/eine Phrase, an dem bzw. an der eine Analyse wie etwa eine Dimensionsauswahl und eine Kompression ausgeführt wird, und entspricht einem Wort/einer Phrase, das bzw. die durch die Einheit 103 zum Sammeln ähnlicher Ausdrücke in der ersten Ausführungsform gesammelt wird.
  • Im Folgenden wird ein Wort/eine Phrase, das bzw. die analysiert werden soll, als ein Analysezielwort/eine Analysezielphrase bezeichnet.
  • Die Einheit 103A zum Sammeln ähnlicher Ausdrücke sammelt von verteilten Darstellungen von Wörterdaten eine Worteinbettung, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht, ein Wort/eine Phrase eines Ausdrucks, der dem Analysezielwort/der Analysezielphrase ähnlich ist, und eine Worteinbettung, die dem Wort/der Phrase entspricht. Die Erfassungseinheit 701A erfasst von verteilten Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, eine Worteinbettung, die jedem eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase und eines Analysezielworts/einer Analysezielphrase entspricht. Die Syntheseeinheit 702A erzeugt einen Synthesevektor einer Worteinbettungsgruppe, die einem Analysezielwort/einer Analysezielphrase, das bzw. die durch die Erfassungseinheit 701A erfasst wird, entspricht. Die Sucheinheit 703A sucht unter Verwendung des Synthesevektors als ein Suchschlüssel aus Stücken verteilter Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, nach verteilten Darstellungen von Wörterdaten eines Ausdrucks, der einem Analysezielwort/einer Analysezielphrase ähnlich ist.
  • Jede der Funktionen der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102A, der Einheit 103A zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 in dem Datenanalysator 100A wird durch eine Verarbeitungsschaltung implementiert. Das heißt, der Datenanalysator 100A enthält eine Verarbeitungsschaltung zum Ausführen dieser Funktionen. Wie in 2 und 3 gezeigt ist, kann die Verarbeitungsschaltung dedizierte Hardware oder eine CPU zum Ausführen eines in einem Speicher gespeicherten Programms sein.
  • 25 ist ein Ablaufplan, der eine Operation der Analysebedingungs-Eingabeeinheit 102A darstellt.
  • In Schritt ST2501 empfängt die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 eine Eingabe eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase. In Schritt ST2502 empfängt die Analyseziel-Wort/Phrasen-Eingabeeinheit 2401 eine Eingabe eines Analysezielworts/einer Analysezielphrase.
  • Es wird angemerkt, dass 25 einen Fall darstellt, dass der Eingabeprozess eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase vor dem Eingabeprozess eines Analysezielworts/einer Analysezielphrase ausgeführt wird, wobei der Eingabeprozess eines Analysezielworts/einer Analysezielphrase aber vor dem Eingabeprozess eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase ausgeführt werden kann oder beide Prozesse parallel ausgeführt werden können.
  • Zum Beispiel geben die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 und die Analyseziel-Wort/Phrasen-Eingabeeinheit 2401 Eingabebildschirminformationen zum Eingeben eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase und eines Analysezielworts/einer Analysezielphrase an die Anzeige 204 aus und zeigt die Anzeige 204 auf der Grundlage der eingegebenen Bildschirminformationen einen Eingabebildschirm an.
  • Auf der Grundlage dieses Eingabebildschirms gibt ein Analysearbeiter in Abhängigkeit von einem Zweck der Analyse unter Verwendung der Eingabevorrichtung 203 ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase und ein Analysezielwort/eine Analysezielphrase in den Datenanalysator 100A ein.
  • 26A ist eine Darstellung, die einen Eingabebildschirm (Beispiel 1) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase und ein Analysezielwort/eine Analysezielphrase darstellt.
  • Der in 26A dargestellte Eingabebildschirm enthält eine Vielzahl von Eingabespalten, wobei in jede von ihnen ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase eingegeben wird, und eine Vielzahl von Eingabespalten, wobei in jede von ihnen ein Analysezielwort/eine Analysezielphrase eingegeben wird, wobei in Bezug auf das entsprechende Analysezielwort/die entsprechende Analysezielphrase eine Eingabespalte für die Anzahl der Zielwörter und eine Eingabespalte für die Zielwortähnlichkeit vorgesehen sind. Die Anzahl der Zielwörter ist ein Schwellenwert für die Anzahl der Wörter/Phrasen, die jeweils als ein Wort/eine Phrase eines Ausdrucks, der einem Analysezielwort/einer Analysezielphrase ähnlich ist, gesammelt werden. Die Zielwortähnlichkeit ist ein Schwellenwert für eine Kosinusentfernung zwischen einer Worteinbettung, die einem Analysezielwort/einer Analysezielphrase entspricht, und einer Worteinbettung, die einem Wort/einer Phrase, die als ein Wort/eine Phrase des ähnlichen Ausdrucks gesammelt wird, entspricht. Dies sind Daten zum Definieren eines Umfangs der Analyse.
  • In dem Beispiel aus 26A sind die Wörter b1 bis b4 in Eingabespalten für die Analysegesichtspunkt-Wörter/Phrasen 1 bis 4 eingegeben worden bzw. sind die Wörter/Phrasen g1 bis g3 in Eingabespalten für Analysezielwörter/Analysezielphrasen 1 bis 3 eingegeben worden.
  • Da in eine Eingabespalte für die Anzahl der Zielwörter, die dem Analysezielwort/der Analysezielphrase 2 entsprechen, „100“ eingegeben worden ist, werden 100 oder weniger Wörter/Phrasen, die jeweils einen ähnlichen Ausdruck wie das Wort/die Phrase g2, die das Analysezielwort/die Analysezielphrase 2 ist, aufweisen, gesammelt.
  • Da in eine Eingabespalte für die Zielwortähnlichkeit, die einem Analysezielwort/einer Analysezielphrase 3 entspricht, „0,8“ eingegeben worden ist, wird für das Wort/die Phrase g3, die ein Analysezielwort/eine Analysezielphrase 3 ist, ein Wort/eine Phrase, das bzw. die einer Worteinbettung mit einer Kosinusentfernung gleich oder kleiner 0,8 entspricht, als ein Wort/eine Phrase eines Ausdrucks, der dem Wort/der Phrase g3 ähnlich ist, gesammelt.
  • Übrigens wird ein im Voraus definierter Standardwert verwendet, wenn in eine Eingabespalte für die Anzahl der Zielwörter oder in eine Eingabespalte für die Zielwortähnlichkeit kein Zahlenwert eingegeben worden ist.
  • Wenn sowohl in eine Eingabespalte für die Anzahl der Zielwörter als auch in eine Eingabespalte für die Zielwortähnlichkeit Zahlenwerte eingegeben worden sind, kann einer von beiden mit Priorität verwendet werden.
  • 26B ist eine Darstellung, die einen Eingabebildschirm (Beispiel 2) für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase und für ein Analysezielwort/eine Analysezielphrase darstellt.
  • Der in 26B dargestellte Eingabebildschirm enthält eine Vielzahl von Eingabespalten, wobei in jede von ihnen ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase eingegeben worden ist, und mehrere Eingabespalten, wobei in jede von ihnen ein Analysezielwort/eine Analysezielphrase eingegeben worden ist, wobei mit Bezug auf das entsprechende Analysezielwort/die entsprechende Analysezielphrase eine Eingabespalte für die Anzahl der Zielwörter und eine Eingabespalte für die Zielwortähnlichkeit vorgesehen sind.
  • In dem Beispiel aus 26B sind in die Eingabespalten für die Analysegesichtspunkt-Wörter/Phrasen 1 bis 4 in dieser Reihenfolge die Wörter b 1 bis b4 eingegeben worden. In drei Eingabespalten für das Analysezielwort/die Analysezielphrase 1 sind die Wörter/Phrasen g1, g4 und g5 eingegeben worden, in drei Eingabespalten für das Analysezielwort/die Analysezielphrase 2 sind die Wörter/Phrasen g6 bis g8 eingegeben worden und in drei Eingabespalten für das Analysezielwort/die Analysezielphrase 3 sind die Wörter/Phrasen g9 bis g11 eingegeben worden.
  • Da in eine Eingabespalte für die Anzahl der Zielwörter, die dem Analysezielwort/der Analysezielphrase 2 entsprechen, „100“ eingegeben worden ist, werden 100 oder weniger Wörter/Phrasen, die jeweils einen ähnlichen Ausdruck wie ein entsprechendes bzw. eine entsprechende der Wörter/Phrasen g6 bis g8, die das Analysezielwort/die Analysezielphrase 2 sind, aufweisen, gesammelt.
  • Da in eine Eingabespalte für die Zielwortähnlichkeit, die dem Analysezielwort/der Analysezielphrase 3 entspricht, „0,8“ eingegeben worden ist, wird für jedes der Wörter/jede der Phrasen g9 bis g11, die das Analysezielwort/die Analysezielphrase 3 sind, ein Wort/eine Phrase, die einer Worteinbettung mit einer Kosinusentfernung gleich oder kleiner als 0,8 entspricht, als ein Wort/eine Phrase eines Ausdrucks, der einem entsprechenden der Wörter/Phrasen g9 bis g11 ähnlich ist, gesammelt.
  • Übrigens wird ein im Voraus definierter Standardwert verwendet, wenn in eine Eingabespalte für die Anzahl der Zielwörter oder in eine Eingabespalte für die Zielwortähnlichkeit kein Zahlenwert eingegeben worden ist.
  • Wenn sowohl in eine Eingabespalte für die Anzahl der Zielwörter als auch in eine Eingabespalte für die Zielwortähnlichkeit Zahlenwerte eingegeben worden sind, kann einer von ihnen mit Priorität verwendet werden.
  • 27 ist ein Ablaufplan, der eine Operation der Einheit 103A zum Sammeln ähnlicher Ausdrücke darstellt.
  • Zunächst erfasst die Erfassungseinheit 701A von verteilten Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, eine Worteinbettung, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht, und eine Worteinbettung, die einem Analysezielwort/einer Analysezielphrase entspricht (Schritt ST2701).
  • Zum Beispiel erfasst die Erfassungseinheit 701A auf der Grundlage eines Analysegesichtspunktworts/einer Analysegesichtspunktphrase, das bzw. die in Schritt ST2501 eingegeben worden ist, durch Suchen nach einem Wort/einer Phrase in der Kopfteilspalte 802 in den verteilten Darstellungen von Wörterdaten eine Worteinbettung, die dem Analysegesichtspunktwort/der Analysegesichtspunktphrase entspricht. Darüber hinaus erfasst die Erfassungseinheit 701A auf der Grundlage eines Analysezielworts/einer Analysezielphrase, das bzw. die in Schritt ST2502 eingegeben worden ist, durch Suchen nach einem Wort/einer Phrase in der Kopfteilspalte 802 in den verteilten Darstellungen von Wörterdaten eine Worteinbettung, die dem Analysezielwort/der Analysezielphrase entspricht.
  • Die Worteinbettung, die dem Analysegesichtspunktwort/der Analysegesichtspunktphrase entspricht, wird in den in 11 dargestellten Prozessen von Schritt ST1001 bis Schritt ST1004 der ersten Ausführungsform verwendet.
  • Nachfolgend synthetisiert die Syntheseeinheit 702A eine Worteinbettungsgruppe, die einem Analysezielwort/einer Analysezielphrase, das bzw. die durch die Erfassungseinheit 701A erfasst worden ist, entspricht (Schritt ST2702).
  • Zum Beispiel dividiert die Syntheseeinheit 702A Worteinbettungen in der Worteinbettungsgruppe WO[j], die einem Analysezielwort/einer Analysezielphrase entsprechen, durch ihre jeweiligen Normen, um ihre jeweiligen Längen zu normieren, dividiert sie die Summe dieser Worteinbettungen durch ihre Norm, um einen normierten Vektor zu erhalten, und gibt sie den normierten Vektor als einen Synthesevektor aus.
  • Die Sucheinheit 703A sucht unter Verwendung des in Schritt ST2702 erhaltenen Synthesevektors als ein Suchschlüssel aus Stücken verteilter Darstellungen von Wörterdaten, die in der Ablagespeichereinheit 108 gespeichert sind, nach verteilten Darstellungen von Wörterdaten eines Ausdrucks, der einem Analysezielwort/einer Analysezielphrase ähnlich ist (Schritt ST2703).
  • Zum Beispiel erfasst die Sucheinheit 703A von der Ablagespeichereinheit 108 Worteinbettungen, in denen jeweils eine Kosinusentfernung von dem Synthesevektor gleich oder kleiner einem Schwellenwert ist, und erfasst sie außerdem Wörter/Phrasen in der Kopfteilspalte 802, die den jeweiligen Worteinbettungen entspricht, und listet sie auf. Eine Liste der Wörter/Phrasen, die somit erfasst werden, und der Worteinbettungen, die den Wörtern/Phrasen entsprechen, ist ein Ergebnis des Sammelns ähnlicher Ausdrücke. Prozesse nach der Sammlung ähnlicher Ausdrücke sind ähnlich den in der ersten Ausführungsform beschriebenen. Es wird angemerkt, dass in einem Prozess nach dem in 11 dargestellten Schritt ST1005 der ersten Ausführungsform ein Wort/eine Phrase eines Ausdrucks, der einem Analysezielwort/einer Analysezielphrase, das bzw. die durch die Einheit 103A zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, ähnlich ist, und eine Worteinbettung, die dem Wort/der Phrase entspricht, verwendet werden.
  • Wie oben beschrieben wurde, enthält die Analysebedingungs-Eingabeeinheit 102A in dem Datenanalysator 100A gemäß der zweiten Ausführungsform die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 und die Analyseziel-Wort/Phrasen-Eingabeeinheit 2401.
  • Die Einheit 103A zum Sammeln ähnlicher Ausdrücke sammelt Vektordaten, die einem Wort/einer Phrase, das bzw. die durch die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit 501 empfangen wird, entsprechen und sammelt ein Wort/eine Phrase eines Ausdrucks, der einem Wort/einer Phrase, das bzw. die durch die Analyseziel-Wort/Phrasen-Eingabeeinheit 2401 empfangen wird, ähnlich ist, und Vektordaten, die dem Wort/der Phrase entsprechen. Da eine solche Konfiguration eine Eingabe einer Analysebedingung, die ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase enthält, und eine Eingabe einer Analysebedingung, die ein Analysezielwort/eine Analysezielphrase enthält, unabhängig voneinander macht, kann eine genauere Analysebedingung eingegeben werden.
  • Dritte Ausführungsform.
  • 28 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators 100B gemäß einer dritten Ausführungsform der vorliegenden Erfindung darstellt. Dieselben Komponenten wie in 1 sind durch dieselben Bezugszeichen bezeichnet und ihre Beschreibung ist weggelassen.
  • Der Datenanalysator 100B enthält eine Steuereinheit 101, eine Analysebedingungs-Eingabeeinheit 2801, eine Einheit 103 zum Sammeln ähnlicher Ausdrücke, eine Dimensionsauswahleinheit 2802, eine Visualisierungsverarbeitungseinheit 105 und eine Datenerzeugungseinheit 106.
  • Die Analysebedingungs-Eingabeeinheit 2801 empfängt eine geordnete Eingabe eines Gesichtspunkts der Analyse. Die geordnete Eingabe eines Gesichtspunkts der Analyse ist die Eingabe von Wörtern/Phrasen mit Zwischenbedeutungen von einem bestimmten Wort/einer bestimmten Phrase der Reihe nach bis zu ihrem Antonym. Zum Beispiel ist es in einem Eingabebildschirm für das Analysegesichtspunktwort/die Analysegesichtspunktphrase der Analysebedingungs-Eingabeeinheit 2801 möglich, als Analysegesichtspunkt-Wörter/Phrasen „sehr heiß“, „etwas heiß“, „etwas kalt“ und „sehr kalt“ einzugeben.
  • Die Dimensionsauswahleinheit 2802 wählt eine Dimension einer Worteinbettung in Abhängigkeit von Wörtern/Phrasen mit Zwischenbedeutungen bis zu einem Antonym, die der Reihe nach als ein Gesichtspunkt der Analyse eingegeben worden sind, aus und komprimiert eine Worteinbettung, die einem Wort/einer Phrase, das bzw. die durch die Einheit 103 zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, in der ausgewählten Dimension entspricht.
  • Jede der Funktionen der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 2801, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 2802, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 in dem Datenanalysator 100B wird durch eine Verarbeitungsschaltung implementiert. Das heißt, der Datenanalysator 100B enthält eine Verarbeitungsschaltung zum Ausführen dieser Funktionen. Wie in 2 und 3 dargestellt ist, kann die Verarbeitungsschaltung dedizierte Hardware oder eine CPU zum Ausführen eines in einem Speicher gespeicherten Programms sein.
  • 29 ist ein Ablaufplan, der eine Operation des Datenanalysators 100B darstellt, wobei er eine Reihe von Prozessen von einer Eingabe einer Analysebedingung bis zur Visualisierung eines Analyseergebnisses angibt.
  • In 29 sind Schritte zum Ausführen derselben Prozesse wie in 4 durch dieselben Schrittnummern bezeichnet und ist ihre Beschreibung weggelassen.
  • Zunächst empfängt die Analysebedingungs-Eingabeeinheit 2801 eine geordnete Eingabe eines Gesichtspunkts der Analyse (Schritt ST2901). Zum Beispiel gibt die Analysebedingungs-Eingabeeinheit 2801 Eingabebildschirminformationen zum Eingeben eines Gesichtspunkts der Analyse der Reihe nach an eine Anzeige 204 aus und zeigt die Anzeige 204 dadurch einen Eingabebildschirm an. Ein Analysearbeiter gibt auf der Grundlage des Eingabebildschirms unter Verwendung der Eingabevorrichtung 203 eine Analysebedingung ein. Die Analysebedingungs-Eingabeeinheit 2801 gibt unter Verwendung der Eingabevorrichtung 203 eingegebene Informationen an die Einheit 103 zum Sammeln ähnlicher Ausdrücke und an die Dimensionsauswahleinheit 2802 aus.
  • 30 ist eine Darstellung, die ein Beispiel eines Eingabebildschirms für ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase, das bzw. die durch die Analysebedingungs-Eingabeeinheit 2801 bereitgestellt wird, darstellt. Der in 30 dargestellte Eingabebildschirm enthält mehrere Eingabespalten zum aufeinanderfolgenden Eingeben jeweiliger Wörter/Phrasen mit Zwischenbedeutungen von dem Analysegesichtspunktwort/der Analysegesichtspunktphrase 1 bis zu dem Analysegesichtspunktwort/der Analysegesichtspunktphrase 4, das bzw. die ein Antonym davon ist.
  • Wenn in eine Eingabespalte des Analysegesichtspunktworts/der Analysegesichtspunktphrase 1 z. B. das Wort/die Phrase h1 eingegeben wird, werden Wörter/Phrasen h2 und h3 mit Zwischenbedeutungen in der Weise in Eingabespalten für die Analysegesichtspunkt-Wörter/Phrasen 2 und 3 eingegeben, dass sie in dieser Reihenfolge allmählich entgegengesetzte Bedeutungen angeben. Daraufhin wird in eine Eingabespalte für das Analysegesichtspunktwort/die Analysegesichtspunktphrase 4 das Wort/die Phrase h4, das bzw. die ein Antonym des Worts/der Phrase h1 ist, eingegeben.
  • In Schritt ST2902 wählt die Dimensionsauswahleinheit 2802 eine Dimension einer Worteinbettung in Abhängigkeit von den in Schritt ST2901 eingegebenen Wörtern/Phrasen aus und komprimiert sie eine Worteinbettung, die einem Wort/einer Phrase, das bzw. die durch die Einheit 103 zum Sammeln ähnlicher Ausdrücke von verteilten Darstellungen von Wörterdaten gesammelt worden ist, entspricht, in der ausgewählten Dimension.
  • 31 ist ein Ablaufplan, der eine Operation der Dimensionsauswahleinheit 2802 darstellt, wobei er Einzelheiten eines Prozesses in Schritt ST2902 darstellt. In 31 sind Schritte zum Ausführen derselben Prozesse wie in 11 durch dieselben Schrittnummern bezeichnet und ist ihre Beschreibung weggelassen.
  • Es wird angemerkt, dass der Schritt ST1001 ein Prozess zum Wiederholen der Auswahlbewertungsberechnung ist.
  • Das heißt, die Dimensionsauswahleinheit 2802 wiederholt die Prozesse in den Schritten ST3101 und ST3102 für die Dimensionszahlen N verteilter Darstellungen von Wörterdaten.
  • In Schritt ST3101 hebt die Dimensionsauswahleinheit 2802 die i-te Dimension verteilter Darstellungen von Wörterdaten, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase, das bzw. die in Schritt ST2901 eingegeben worden ist, entspricht, hervor.
  • Zum Beispiel erzeugt die Dimensionsauswahleinheit 2802 eine neue Worteinbettung, in der ein Element in der i-ten Dimension einer Worteinbettung, die einem Analysegesichtspunktwort/einer Analysegesichtspunktphrase entspricht, durch Multiplizieren des Elements in der i-ten Dimension mit einer vorgegebenen Zahl hervorgehoben ist. Wenn vier Analysegesichtspunkt-Wörter/Phrasen „sehr heiß“, „etwas heiß“, „etwas kalt“ und „sehr kalt“ eingegeben werden, erzeugt die Dimensionsauswahleinheit 2802 durch Multiplizieren der i-ten Elemente aus den Worteinbettungen W[i1], W[i2], W[i3] und W[i4], die jeweils diesen Wörtern/Phrasen entsprechen, mit einer vorgegebenen Zahl neue Worteinbettungen W[i1]', W[i2]', W[i3]' und W[i4]'.
  • In Schritt ST3102 berechnet die Dimensionsauswahleinheit 2802 in der i-ten Dimension eine geordnete Auswahlbewertung S[i].
  • Zunächst berechnet die Dimensionsauswahleinheit 2802 (n-1) Divisionspunktvektoren zwischen Worteinbettungen W[i1]' und W[i4]', die „sehr heiß“ und „sehr kalt“ entsprechen, die ein in Schritt ST2901 erhaltenes Paar von Antonymen bilden. Das Paar von Antonymen entspricht in der geordneten Eingabe eines Gesichtspunkts der Analyse einem Wort/einer Phrase, das bzw. die als Analysegesichtspunkt-Wort/Phrase 1 an der ersten Stelle festgesetzt worden ist, und einem Wort/einer Phrase, das bzw. die als Analysegesichtspunkt-Wort/Phrase 4 an der letzten Stelle festgesetzt worden ist. n ist die in Schritt ST2901 eingegebene Anzahl von Analysegesichtspunktwörtern/Analysegesichtspunktphrasen.
  • Da n = 4 erfüllt ist, berechnet die Dimensionsauswahleinheit 2802 Wd[1] und Wd[2], die Vektoren sind, die durch Dividieren einer Entfernung zwischen Worteinbettungen W[i1]' und W[i4]' durch drei erhalten werden.
  • Nachfolgend berechnet die Dimensionsauswahleinheit 2802 eine Kosinusentfernung zwischen jeder der Worteinbettungen W[i1]', W[i2]', W[i3]' und W[i4]' und jedem von Wd[1] und Wd[2], die (n-1) Divisionspunktvektoren sind.
  • Darüber hinaus berechnet die Dimensionsauswahleinheit 2802 auf der Grundlage einer Bewertungstabelle, die ein Standard ist, eine geordnete Auswahlbewertung S[i], um zu beurteilen, wie viel einer Ordnungsbeziehung von Wörtern/Phrasen in einer geordneten Eingabe eines Gesichtspunkts der Analyse wiedergegeben ist.
  • 32 ist eine Darstellung, die ein Beispiel der Bewertungstabelle darstellt. In der in 32 dargestellten Bewertungstabelle ist jeder der Bedingungen Abis D eine geordnete Auswahlbewertung zugeordnet.
  • Als Bedingung A ist beschrieben, dass eine Worteinbettung mit der kleinsten Kosinusentfernung von der Worteinbettung W[i1], die einem Wort/einer Phrase entspricht, das bzw. die in einer geordneten Eingabe eines Gesichtspunkts der Analyse an der ersten Stelle festgesetzt worden ist, eine Worteinbettung W[i2] ist, die einem Wort/einer Phrase entspricht, das bzw. die an der zweiten Stelle festgesetzt worden ist.
  • Als Bedingung B ist beschrieben, dass eine Worteinbettung, die einem (n-1)-Divisionspunktvektor Wd[x] am nächsten ist, eine Worteinbettung W[i(x+1)] ist, die einem Wort/einer Phrase entspricht, das bzw. die an der (x+1)-ten Stelle festgesetzt worden ist.
  • Als Bedingung C ist beschrieben, dass eine Worteinbettung mit einer kleinsten Kosinusentfernung von der Worteinbettung W[im], die einem Wort/einer Phrase entspricht, das bzw. die in einer geordneten Eingabe eines Gesichtspunkts der Analyse an der letzten Stelle festgesetzt worden ist, eine Worteinbettung W[i(m-1)] ist, die einem Wort/einer Phrase entspricht, das bzw. die an der vorletzten Stelle festgesetzt worden ist.
  • Die Bedingung D enthält einen anderen Fall als die Bedingungen A bis C.
  • Da die Bedingungen A bis C jeweils eine Ordnungsbeziehung von Wörtern/Phrasen in einer geordneten Eingabe eines Gesichtspunkts der Analyse angeben, addiert die Dimensionsauswahleinheit 2802 zu der geordneten Auswahlbewertung S[i] +1, wenn ein in Schritt ST3102 erzeugter Vektor irgendeiner der Bedingungen A bis C genügt.
  • Währenddessen addiert die Dimensionsauswahleinheit 2802 zu der geordneten Auswahlbewertung S[i] -1, wenn ein in Schritt ST3102 erzeugter Vektor der Bedingung D genügt, da die Bedingung D der Ordnungsbeziehung der Wörter/Phrasen in der geordneten Eingabe eines Gesichtspunkts der Analyse nicht genügt.
  • In Schritt ST3103 wählt die Dimensionsauswahleinheit 2802 unter den geordneten Auswahlbewertungen S[i] in jeweiligen in dem Auswahlbewertungs-Berechnungsprozess berechneten Dimensionen eine Dimension aus, die einer geordneten Auswahlbewertung gleich oder größer dem Schwellenwert Th1 entspricht, und listet sie die Zahl i der erhaltenen Dimension auf, um eine Liste L = [i1, i2, ... ix] zu erhalten.
  • Wie oben beschrieben wurde, empfängt die Analysebedingungs-Eingabeeinheit 2801 in dem Datenanalysator 100B gemäß der dritten Ausführungsform als einen Gesichtspunkt der Analyse eine geordnete Eingabe von Wörtern/Phrasen mit Zwischenbedeutungen bis zu einem Antonym. Die Dimensionsauswahleinheit 2802 wählt eine Dimension einer Worteinbettung in Abhängigkeit von Wörtern/Phrasen mit Zwischenbedeutungen bis zu einem Antonym, die in der Reihenfolge als ein Gesichtspunkt der Analyse eingegeben worden sind, aus und komprimiert eine Worteinbettung, die einem Wort/einer Phrase, das bzw. die durch die Einheit 103 zum Sammeln ähnlicher Ausdrücke gesammelt worden ist, entspricht, in der ausgewählten Dimension. Da eine solche Konfiguration ermöglicht, eine Dimension auszuwählen, die einer semantischen Ordnungsbeziehung von Wörtern/Phrasen, die als ein Gesichtspunkt der Analyse eingegeben werden, Priorität gibt, kann eine genauere Analysebedingung eingegeben werden.
  • Vierte Ausführungsform.
  • 33 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators 100C gemäß einer vierten Ausführungsform der vorliegenden Erfindung darstellt. Dieselben Komponenten wie die in 1 sind mit denselben Bezugszeichen bezeichnet und ihre Beschreibung ist weggelassen.
  • Wie in 33 dargestellt ist, enthält der Datenanalysator 100C eine Steuereinheit 101, eine Analysebedingungs-Eingabeeinheit 102, eine Analysebedingungs-Leseeinheit 3301, eine Analysebedingungs-Speichereinheit 3302, eine Einheit 103 zum Sammeln ähnlicher Ausdrücke, eine Dimensionsauswahleinheit 104, eine Visualisierungsverarbeitungseinheit 105 und eine Datenerzeugungseinheit 106.
  • Die Analysebedingungs-Leseeinheit 3301 liest eine gespeicherte Analysebedingung (im Folgenden als eine Ablagespeicher-Analysebedingung 3303 bezeichnet) und setzt die Analysebedingung für eine Eingabe der Analysebedingungs-Eingabeeinheit 102 fest.
  • Die Analysebedingungs-Speichereinheit 3302 speichert die Ablagespeicher-Analysebedingung 3303. Die Analysebedingungs-Speichereinheit 3302 speichert die Ablagespeicher-Analysebedingung 3303 z. B. in einem Speicher, der in dem Datenanalysator 100C enthalten ist. Die Analysebedingungs-Speichereinheit 3302 kann die Ablagespeicher-Analysebedingung 3303 in einer externen Ablagespeichervorrichtung speichern, die in der Lage ist, Daten durch die Analysebedingungs-Leseeinheit 3301 zu lesen.
  • Die Ablagespeicher-Analysebedingung 3303 ist eine Bedingung, die dafür bestimmt ist, unter Analysebedingungen, die die Analysegesichtspunkt-Wörter/Phrasen, die durch die Analysebedingungs-Eingabeeinheit 102 empfangen werden, enthalten, wiederverwendet zu werden. Zum Beispiel bestimmt ein Analysearbeiter, ob eine Bedingung wiederverwendet werden soll.
  • Jede der Funktionen der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102, der Analysebedingungs-Leseeinheit 3301, der Analysebedingungs-Speichereinheit 3302, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 in dem Datenanalysator 100C wird durch eine Verarbeitungsschaltung implementiert.
  • Das heißt, der Datenanalysator 100C enthält eine Verarbeitungsschaltung zum Ausführen dieser Funktionen. Wie in 2 und 3 dargestellt ist, kann die Verarbeitungsschaltung dedizierte Hardware oder eine CPU zum Ausführen eines in einem Speicher gespeicherten Programms sein.
  • 34 ist ein Ablaufplan, der eine Operation des Datenanalysators 100C darstellt, wobei er eine Reihe von Prozessen von einer Eingabe einer Analysebedingung bis zur Speicherung der Analysebedingung angibt.
  • In 34 sind Schritte zum Ausführen derselben Prozesse wie in 4 durch dieselben Schrittnummern bezeichnet und ist ihre Beschreibung weggelassen.
  • In Schritt ST3401 liest die Analysebedingungs-Leseeinheit 3301 die Ablagespeicher-Analysebedingung 3303 und setzt sie die Ablagespeicher-Analysebedingung 3303 für eine Eingabe der Analysebedingungs-Eingabeeinheit 102 fest. Der Prozess wird ausgeführt, falls ein Analysebearbeiter bestimmt, dass die Ablagespeicher-Analysebedingung 3303 gelesen werden soll, wenn die Analysearbeit beginnt. Die Analysebedingungs-Eingabeeinheit 102 behandelt die durch die Analysebedingungs-Leseeinheit 3301 festgesetzte Ablagespeicher-Analysebedingung 3303 als eine Analysebedingung, für die eine Eingabe empfangen worden ist, und gibt die Ablagespeicher-Analysebedingung 3303 an die Einheit 103 zum Sammeln ähnlicher Ausdrücke und an die Dimensionsauswahleinheit 104 aus. Im Ergebnis werden die Prozesse von Schritt ST402 bis zu Schritt ST404 auf ähnliche Weise wie in der ersten Ausführungsform ausgeführt.
  • Es wird angemerkt, dass die Analysebedingungs-Eingabeeinheit 102 die Ablagespeicher-Analysebedingung 3303 nach Bedarf bearbeiten kann.
  • Wenn kein Bearbeiten notwendig ist, gibt die Analysebedingungs-Eingabeeinheit 102 die Ablagespeicher-Analysebedingung 3303 an die Einheit 103 zum Sammeln ähnlicher Ausdrücke und an die Dimensionsauswahleinheit 104 aus, ohne die Ablagespeicher-Analysebedingung 3303 zu bearbeiten.
  • In Schritt ST3402 speichert die Analysebedingungs-Speichereinheit 3302 eine durch die Analysebedingungs-Eingabeeinheit 102 empfangene Analysebedingung als die Ablagespeicher-Analysebedingung 3303.
  • Die Analysebedingungs-Speichereinheit 3302 speichert die Ablagespeicher-Analysebedingung 3303 z. B. in Übereinstimmung mit der unter Verwendung der Eingabevorrichtung 203 eingegebenen Speicheranweisung eines Analysearbeiters.
  • Die Ablagespeicher-Analysebedingung 3303 kann irgendeine Form aufweisen, solange sie in der Lage ist, in der nächsten Analyse oder danach wiederverwendet zu werden. Die Ablagespeicher-Analysebedingung 3303 können z. B. Daten sein, die in einem tabulatorgetrennten Textformat oder in einem strukturierten Dokument im XML-Format beschrieben sind.
  • Wie oben beschrieben wurde, enthält der Datenanalysator 100C gemäß der vierten Ausführungsform die Analysebedingungs-Leseeinheit 3301 und die Analysebedingungs-Speichereinheit 3302. Die Analysebedingungs-Speichereinheit 3302 speichert die Ablagespeicher-Analysebedingung 3303, die ein Analysegesichtspunktwort/eine Analysegesichtspunktphrase enthält. Die Analysebedingungs-Leseeinheit 3301 liest die Ablagespeicher-Analysebedingung 3303 und setzt die Ablagespeicher-Analysebedingung 3303 für eine Eingabe der Analysebedingungs-Eingabeeinheit 102 fest.
  • Mit dieser Konfiguration kann die Ablagespeicher-Analysebedingung 3303 wiederholt verwendet werden und ist es nicht notwendig, bei jeder Analyse eine komplizierte Analysebedingung einzugeben.
  • Fünfte Ausführungsform.
  • 35 ist ein Blockschaltplan, der eine Konfiguration eines Datenanalysators 100D gemäß einer fünften Ausführungsform der vorliegenden Erfindung darstellt. Dieselben Komponenten wie in 1 sind durch dieselben Bezugszeichen bezeichnet und ihre Beschreibung ist weggelassen.
  • Wie in 35 dargestellt ist, enthält der Datenanalysator 100D eine Steuereinheit 101, eine Analysebedingungs-Eingabeeinheit 102, eine Analyseprozedurdefinitions-Leseeinheit 3501, eine Einheit 103 zum Sammeln ähnlicher Ausdrücke, eine Dimensionsauswahleinheit 104, eine Visualisierungsverarbeitungseinheit 105 und eine Datenerzeugungseinheit 106.
  • Die Analyseprozedurdefinitions-Leseeinheit 3501 ist eine Definitionsinformations-Leseeinheit zum Lesen der Analyseprozedurdefinition 3502 und zum Festsetzen der Analyseprozedurdefinition 3502 in der Steuereinheit 101.
  • Die Analyseprozedurdefinitions-Leseeinheit 3501 kann z. B. die durch einen Analysearbeiter eingegebene Analyseprozedurdefinition 3502 lesen und die Analyseprozedurdefinition 3502 in der Steuereinheit 101 festsetzen.
  • Die Analyseprozedurdefinitions-Leseeinheit 3501 kann die Analyseprozedurdefinition 3502 von einer externen Ablagespeichervorrichtung lesen und die Analyseprozedurdefinition 3502 in der Steuereinheit 101 festsetzen.
  • Die Analyseprozedurdefinition 3502 sind Definitionsinformationen, in denen eine Vielzahl verschiedener Analysebedingungen definiert sind, wobei die Bedingungen Analysegesichtspunkt-Wörter/Phrasen enthalten.
  • Es wird angemerkt, dass die Analyseprozedurdefinition 3502 irgendein Format aufweisen kann, solange sie Informationen sind, in denen mehrere Analysebedingungen definiert sind. Die Analyseprozedurdefinition 3502 kann z. B. Daten sein, die in einem tabulatorgetrennten Textformat oder in einem strukturierten Dokument im XML-Format beschrieben sind.
  • Jede der Funktionen der Steuereinheit 101, der Analysebedingungs-Eingabeeinheit 102, der Analyseprozedurdefinitions-Leseeinheit 3501, der Einheit 103 zum Sammeln ähnlicher Ausdrücke, der Dimensionsauswahleinheit 104, der Visualisierungsverarbeitungseinheit 105 und der Datenerzeugungseinheit 106 in dem Datenanalysator 100D wird durch eine Verarbeitungsschaltung implementiert. Das heißt, der Datenanalysator 100D enthält eine Verarbeitungsschaltung zum Ausführen dieser Funktionen.
  • Wie in 2 und 3 dargestellt ist, kann die Verarbeitungsschaltung dedizierte Hardware oder eine CPU zum Ausführen eines in einem Speicher gespeicherten Programms sein.
  • 36 ist ein Ablaufplan, der eine Operation des Datenanalysators 100D darstellt, wobei er eine Reihe von Prozessen von einer Eingabe einer Analysebedingung bis zur Visualisierung eines Analyseergebnisses angibt.
  • In 36 sind Schritte zum Ausführen derselben Prozesse wie in 4 mit denselben Schrittnummern bezeichnet und ist ihre Beschreibung weggelassen.
  • In Schritt ST3601 liest die Analyseprozedurdefinitions-Leseeinheit 3501 die Analyseprozedurdefinition 3502 und setzt sie die Analyseprozedurdefinition 3502 in der Steuereinheit 101 fest.
  • Zum Beispiel gibt ein Analysearbeiter die Analyseprozedurdefinition 3502 unter Verwendung der Eingabevorrichtung 203 in den Datenanalysator 100D ein. Die Analyseprozedurdefinitions-Leseeinheit 3501 liest die eingegebene Analyseprozedurdefinition 3502 und entwickelt die Analyseprozedurdefinition 3502 in einem Speicher, der für die Informationsverarbeitung der Steuereinheit 101 verwendet wird.
  • In Schritt ST3602 steuert die Steuereinheit 101 die Analysebedingungs-Eingabeeinheit 102, die Einheit 103 zum Sammeln ähnlicher Ausdrücke, die Dimensionsauswahleinheit 104 und die Visualisierungsverarbeitungseinheit 105 in der Weise, dass die Analysebedingungs-Eingabeeinheit 102, die Einheit 103 zum Sammeln ähnlicher Ausdrücke, die Dimensionsauswahleinheit 104 und die Visualisierungsverarbeitungseinheit 105 für jede in der Analyseprozedurdefinition 3502 definierte Analysebedingung arbeiten. Das heißt, die Analysebedingungs-Eingabeeinheit 102, die Einheit 103 zum Sammeln ähnlicher Ausdrücke, die Dimensionsauswahleinheit 104 und die Visualisierungsverarbeitungseinheit 105 werden durch die Steuereinheit 101 gesteuert und führen aufeinanderfolgend für jede in der Analyseprozedurdefinition 3502 definierte Analysebedingung eine Analyseprozedur aus.
  • Im Ergebnis werden die Prozesse von Schritt ST401 bis zu Schritt ST404 für die Anzahl von Analyseprozeduren für jede in der Analyseprozedurdefinition 3502 definierte Analysebedingung wiederholt.
  • Wenn die Steuereinheit 101 von dem Datenanalysator 100D entfernt ist, kann die Analyseprozedurdefinitions-Leseeinheit 3501 die Analyseprozedurdefinition 3502 für die Analysebedingungs-Eingabeeinheit 102 und für die Einheit 103 zum Sammeln ähnlicher Ausdrücke und für die Dimensionsauswahleinheit 104 und für die Visualisierungsverarbeitungseinheit 105 festsetzen.
  • Auch in diesem Fall können die Analysebedingungs-Eingabeeinheit 102 und die Einheit 103 zum Sammeln ähnlicher Ausdrücke und die Dimensionsauswahleinheit 104 und die Visualisierungsverarbeitungseinheit 105 eine Analyseprozedur für jede in der Analyseprozedurdefinition 3502 definierte Analysebedingung aufeinanderfolgend ausführen.
  • Wie oben beschrieben wurde, enthält der Datenanalysator 100D gemäß der fünften Ausführungsform die Analyseprozedurdefinitions-Leseeinheit 3501 zum Lesen der Analyseprozedurdefinition 3502, in der eine Vielzahl von Analysebedingungen definiert sind.
  • Die Analysebedingungs-Eingabeeinheit 102, die Einheit 103 zum Sammeln ähnlicher Ausdrücke, die Dimensionsauswahleinheit 104 und die Visualisierungsverarbeitungseinheit 105 führen Prozesse gemäß jeder der Vielzahl von Analysebedingungen aus, die in der durch die Analyseprozedurdefinitions-Leseeinheit 3501 gelesenen Analyseprozedurdefinition 3502 definiert sind.
  • Eine solche Konfiguration ermöglicht es, eine Analyse gemäß einer durch Kombinieren einer Vielzahl von Analysebedingungen erhaltenen Analysebedingung auszuführen. Eine komplizierte Analysebedingung kann wiederholt verwendet werden.
  • Übrigens können im Schutzumfang der Erfindung die Ausführungsformen in der vorliegenden Erfindung frei miteinander kombiniert werden, kann irgendeine Komponente in den Ausführungsformen geändert werden oder kann irgendeine Komponente in den Ausführungsformen weggelassen werden.
  • INDUSTRIELLE ANWENDBARKEIT
  • Der Datenanalysator gemäß der vorliegenden Erfindung kann die Unterscheidbarkeit zwischen einer Wort/Phrasen-Gruppe, die einem Wort/einer Phrase des Paars semantisch nahe ist, und einer Wort/Phrasen-Gruppe, die dem anderen Wort/der anderen Phrase semantisch nahe ist, auch dann verbessern, wenn ein Paar von Antonymen in ähnlichen Kontexten verwendet sind, und kann somit für eine Suchvorrichtung einer Textdatenbank verwendet werden.
  • Bezugszeichenliste
  • 100, 100A bis 100D
    Datenanalysator,
    101
    Steuereinheit,
    102, 102A, 2801
    Analysebedingungs-Eingabeeinheit,
    103, 103A
    Einheit zum Sammeln ähnlicherAusdrücke,
    104, 2802
    Dimensionsauswahleinheit,
    105
    Visualisierungsverarbeitungseinheit,
    106
    Datenerzeugungseinheit,
    107, 108
    Ablagespeichereinheit,
    201
    Verarbeitungsschaltung,
    202
    Ablagespeichervorrichtung,
    203
    Eingabevorrichtung,
    204
    Anzeige,
    220
    Markierungsinformationen,
    301
    Prozessor,
    302
    Speicher,
    501
    Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit,
    701,701A
    Erfassungseinheit,
    702, 702A
    Syntheseeinheit,
    703, 703A
    Sucheinheit,
    801
    ID-Spalte,
    802
    Kopfteilspalte,
    803
    Worteinbettungsspalte,
    1301
    Entfernungsmatrix-Erzeugungseinheit,
    1302
    Positionierungskoordinaten-Berechnungseinheit,
    1303
    Positionierungsergebnis-Zeicheneinheit,
    1601
    Einheit zum morphologischenAnalysieren,
    1602
    Änderungsanalysiereinheit,
    1603
    Konjugationswort-Standardisierungseinheit,
    1604
    Negationsausdruck-Integrationseinheit,
    1605
    Adverbausdruck-Integrationseinheit,
    1606
    Lerneinheit,
    2401
    Analyseziel-Wort/Phrasen-Eingabeeinheit,
    3301
    Analysebedingungs-Leseeinheit,
    3302
    Analysebedingungs-Speichereinheit,
    3303
    Ablagespeicher-Analysebedingung,
    3501
    Analyseprozedurdefinitions-Leseeinheit,
    3502
    Analyseprozedurdefinition.

Claims (7)

  1. Datenanalysator (100), der Folgendes umfasst: eine Analysebedingungs-Eingabeeinheit (102) zum Empfangen einer Eingabe eines ersten Worts/einer ersten Phrase als einen Gesichtspunkt der Analyse und einer Eingabe eines zweiten Worts/einer zweiten Phrase als einen Gesichtspunkt der Analyse; eine Einheit (103) zum Sammeln ähnlicher Ausdrücke zum Sammeln eines ersten Worts/einer ersten Phrase eines Ausdrucks, der einem ersten Wort/einer ersten Phrase, das bzw. die als ein Gesichtspunkt einer Analyse eingegeben wird, ähnlich ist, und von Vektordaten, die dem ersten Wort/der ersten Phrase des ähnlichen Ausdrucks entsprechen, aus verteilten Darstellungen von Wörterdaten, die eine Vielzahl von Wörtern/Phrasen und Vektordaten mit fester Dimension, die jedem der Vielzahl von Wörtern/Phrasen zugewiesen sind, enthalten und zum Sammeln eines zweiten Worts/einer zweiten Phrase eines Ausdrucks, der einem zweiten Wort/einer zweiten Phrase, das bzw. die als ein Gesichtspunkt einer Analyse eingegeben wird, ähnlich ist, und von Vektordaten, die dem zweiten Wort/der zweiten Phrase des ähnlichen Ausdrucks entsprechen, aus verteilten Darstellungen von Wörterdaten, die eine Vielzahl von Wörtern/Phrasen und Vektordaten mit fester Dimension, die jedem der Vielzahl von Wörtern/Phrasen zugewiesen sind; eine Dimensionsauswahleinheit (104) zum Auswählen einer Dimension von Vektordaten in Abhängigkeit von dem ersten und dem zweiten Wort/der ersten und der zweiten Phrase, die als der Gesichtspunkt der Analyse eingegeben worden sind, und zum Komprimieren der Vektordaten, die dem ersten und dem zweiten Wort/der ersten und der zweiten Phrase, die durch die Einheit zum Sammeln ähnlicher Ausdrücke gesammelt worden sind, entsprechen, in der ausgewählten Dimension; und eine Visualisierungsverarbeitungseinheit (105) zum Visualisieren eines Analyseergebnisses der verteilten Darstellungen von Wörterdaten auf einer Grundlage der Vektordaten, die durch die Dimensionsauswahleinheit dimensionskomprimiert worden sind; wobei die Dimensionsauswahleinheit (104) für jede Dimension neue erste Vektordaten erzeugt, indem sie ein Element in den Vektordaten, das der Eingabe eines ersten Worts/einer ersten Phrase als dem Gesichtspunkt der Analyse entspricht, mit einer vorgegebenen Zahl multipliziert, und für jede Dimension neue zweite Vektordaten erzeugt, indem sie ein Element in den Vektordaten, das der Eingabe eines zweiten Worts/einer zweiten Phrase als dem Gesichtspunkt der Analyse entspricht, mit der vorgegebenen Zahl multipliziert, und für jede Dimension einen Kosinusabstand zwischen den neuen ersten Vektordaten und den neuen zweiten Vektordaten als eine Auswahlbewertung berechnet und eine Dimension auswählt, die einer Auswahlbewertung entspricht, die gleich oder größer als ein Schwellenwert unter den Auswahlbewertungen in den jeweiligen Dimensionen ist.
  2. Datenanalysator nach Anspruch 1, der ferner Folgendes umfasst: eine Datenerzeugungseinheit (106) zum Analysieren von Morphemen von Textdaten in einem Lernkorpus und einer Änderung zwischen den Morphemen, zum Ersetzen eines Morphems, das ein Konjugationswort ist, in einem Analyseergebnis, durch eine Standardform des Konjugationsworts, zum Integrieren von Negationsausdrücken in einem Satzteil, zum Integrieren eines Adverbs und einer Änderungsbestimmung des Adverbs in dem Satzteil, um Lerndaten zu erzeugen, und zum Erzeugen der verteilten Darstellungen von Wörterdaten durch Lernen unter Verwendung der Lerndaten.
  3. Datenanalysator (100A) nach Anspruch 1, wobei: die Analysebedingungs-Eingabeeinheit enthält: eine Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit (501) zum Empfangen einer Eingabe eines Worts/einer Phrase als einen Gesichtspunkt der Analyse; und eine Analyseziel-Wort/Phrasen-Eingabeeinheit (2401) zum Empfangen einer Eingabe eines Worts/einer Phrase als ein Analyseziel, und wobei die Einheit (103A) zum Sammeln ähnlicher Ausdrücke Folgendes sammelt: aus den verteilten Darstellungen von Wörterdaten Vektordaten, die dem ersten und/oder zweiten Wort/der Phrase, das bzw. die durch die Analysegesichtspunkt-Wort/Phrasen-Eingabeeinheit empfangen wurde, entsprechen, ein Wort/eine Phrase eines Ausdrucks, der dem ersten und/oder zweiten Wort/der Phrase, das bzw. die durch die Analyseziel-Wort/Phrasen-Eingabeeinheit empfangen wurde, ähnlich ist, und Vektordaten, die dem Wort/der Phrase des ähnlichen Ausdrucks entsprechen.
  4. Datenanalysator (100B) nach Anspruch 1, wobei: die Analysebedingungs-Eingabeeinheit (2801) eine geordnete Eingabe von Wörtern/Phrasen mit Zwischenbedeutungen bis zu einem Antonym als einen Gesichtspunkt der Analyse empfängt, und die Dimensionsauswahleinheit (2802) eine Dimension von Vektordaten in Abhängigkeit von den Wörtern/Phrasen mit Zwischenbedeutungen bis zu dem Antonym auswählt, die der Reihe nach als der Gesichtspunkt der Analyse eingegeben wurden, und Vektordaten, die einem Wort/einer Phrase, das bzw. die durch die Einheit zum Sammeln ähnlicher Ausdrücke gesammelt wurde, entsprechen, in der ausgewählten Dimension komprimiert.
  5. Datenanalysator (100C) nach Anspruch 1, der ferner umfasst: eine Analysebedingungs-Speichereinheit (3302) zum Speichern einer Analysebedingung, die ein Wort/eine Phrase, das bzw. die als ein Gesichtspunkt der Analyse eingegeben worden ist, enthält; und eine Analysebedingungs-Leseeinheit (3301) zum Lesen der Analysebedingung, die durch die Analysebedingungs-Speichereinheit gespeichert worden ist, und zum Setzen der Analysebedingung für eine Eingabe der Analysebedingungs-Eingabeeinheit.
  6. Datenanalysator (100D) nach Anspruch 1, der ferner eine Definitionsinformations-Leseeinheit (3501) zum Lesen von Definitionsinformationen, in denen eine Vielzahl von Analysebedingungen definiert sind, umfasst, wobei die Analysebedingungs-Eingabeeinheit, die Einheit zum Sammeln ähnlicher Ausdrücke, die Dimensionsauswahleinheit und die Visualisierungsverarbeitungseinheit Prozesse in Übereinstimmung mit jeder der Vielzahl von Analysebedingungen, die in den durch die Definitionsinformations-Leseeinheit gelesenen Definitionsinformationen definiert sind, ausführen.
  7. Datenanalyseverfahren, das Folgendes umfasst: Empfangen einer Eingabe eines ersten Worts/einer ersten Phrase als einen Gesichtspunkt der Analyse und einer Eingabe eines zweiten Worts/einer zweiten Phrase als einen Gesichtspunkt der Analyse, durch eine Analysebedingungs-Eingabeeinheit (102); Sammeln eines ersten Worts/einer ersten Phrase eines Ausdrucks, der einem ersten Wort/einer ersten Phrase, das bzw. die als ein Gesichtspunkt der Analyse eingegeben wird, ähnlich ist, und von Vektordaten, die dem ersten Wort/der ersten Phrase des ähnlichen Ausdrucks entsprechen, aus verteilten Darstellungen von Wörterdaten, die eine Vielzahl von Wörtern/Phrasen und Vektordaten mit fester Dimension, die jedem der Vielzahl von Wörtern/Phrasen zugewiesen sind, enthalten, eines zweiten Worts/einer zweiten Phrase eines Ausdrucks, der einem zweiten Wort/einer zweiten Phrase, das bzw. die als ein Gesichtspunkt einer Analyse eingegeben wird, ähnlich ist, und von Vektordaten, die dem zweiten Wort/der zweiten Phrase des ähnlichen Ausdrucks entsprechen, aus verteilten Darstellungen von Wörterdaten, die eine Vielzahl von Wörtern/Phrasen und Vektordaten mit fester Dimension, die jedem der Vielzahl von Wörtern/Phrasen zugewiesen sind, durch eine Einheit (103) zum Sammeln ähnlicher Ausdrücke; Auswählen einer Dimension von Vektordaten in Abhängigkeit von dem ersten und dem zweiten Wort/der ersten und der zweiten Phrase, die als der Gesichtspunkt der Analyse eingegeben wurden, und Komprimieren der Vektordaten, die dem ersten und dem zweiten Wort/der ersten und der zweiten Phrase, die durch die Einheit zum Sammeln ähnlicher Ausdrücke gesammelt wurden, entsprechen in der ausgewählten Dimension durch eine Dimensionsauswahleinheit (104); und Visualisieren eines Analyseergebnisses der verteilten Darstellungen von Wörterdaten auf einer Grundlage der Vektordaten, die durch die Dimensionsauswahleinheit dimensionskomprimiert worden sind, durch eine Visualisierungsverarbeitungseinheit (105); wobei die Dimensionsauswahleinheit (104) für jede Dimension neue erste Vektordaten erzeugt, indem sie ein Element in den Vektordaten, das der Eingabe eines ersten Worts/einer ersten Phrase als dem Gesichtspunkt der Analyse entspricht, mit einer vorgegebenen Zahl multipliziert, und für jede Dimension neue zweite Vektordaten erzeugt, indem sie ein Element in den Vektordaten, das der Eingabe eines zweiten Worts/einer zweiten Phrase als dem Gesichtspunkt der Analyse entspricht, mit der vorgegebenen Zahl multipliziert, und für jede Dimension einen Kosinusabstand zwischen den neuen ersten Vektordaten und den neuen zweiten Vektordaten als eine Auswahlbewertung berechnet und eine Dimension auswählt, die einer Auswahlbewertung entspricht, die gleich oder größer als ein Schwellenwert unter den Auswahlbewertungen in den jeweiligen Dimensionen ist.
DE112017006785.5T 2017-02-14 2017-02-14 Datenanalysator und Datenanalyseverfahren Active DE112017006785B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/005292 WO2018150453A1 (ja) 2017-02-14 2017-02-14 データ分析装置およびデータ分析方法

Publications (2)

Publication Number Publication Date
DE112017006785T5 DE112017006785T5 (de) 2019-10-17
DE112017006785B4 true DE112017006785B4 (de) 2023-01-19

Family

ID=63170544

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017006785.5T Active DE112017006785B4 (de) 2017-02-14 2017-02-14 Datenanalysator und Datenanalyseverfahren

Country Status (5)

Country Link
US (1) US11182561B2 (de)
JP (1) JP6529698B2 (de)
CN (1) CN110268398A (de)
DE (1) DE112017006785B4 (de)
WO (1) WO2018150453A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376240A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 一种文本分析方法及终端
JP7342972B2 (ja) * 2019-12-19 2023-09-12 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067368A1 (en) 2012-08-29 2014-03-06 Microsoft Corporation Determining synonym-antonym polarity in term vectors

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014341A (ja) * 1999-07-02 2001-01-19 Ricoh Co Ltd データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体
US8682823B2 (en) * 2007-04-13 2014-03-25 A-Life Medical, Llc Multi-magnitudinal vectors with resolution based on source vector features
JP5213742B2 (ja) * 2009-02-04 2013-06-19 日本電信電話株式会社 概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP6517537B2 (ja) 2015-02-26 2019-05-22 日本電信電話株式会社 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
JP6583686B2 (ja) * 2015-06-17 2019-10-02 パナソニックIpマネジメント株式会社 意味情報生成方法、意味情報生成装置、およびプログラム
JP6699753B2 (ja) * 2016-11-07 2020-05-27 富士通株式会社 分析プログラム、情報処理装置および分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067368A1 (en) 2012-08-29 2014-03-06 Microsoft Corporation Determining synonym-antonym polarity in term vectors

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FARUQUI, Manaal, et al. Retrofitting word vectors to semantic lexicons, Version 4, 2015, arXiv preprint arXiv:1411.4166v4.
MRKŠIĆ, Nikola, et al. Counter-fitting word vectors to linguistic constraints. Version 1, 2016. arXiv pre-print arXiv:1603.00892v1.
Santus, E. [et al.].: Unsupervised Antonym-Synonym Discrimination in Vector Space. 2014. Proceedings of the First Italian Conference on Computational Linguistics (CLiC-it 2014), S. 328-333. https://www.researchgate.net/publication/270052276
TURNEY, Peter D.; PANTEL, Patrick. From frequency to meaning: Vector space models of semantics. Journal of artificial intelligence research, Vol. 37 (2010) 141-188. – DOI: 10.1613/jair.2934

Also Published As

Publication number Publication date
JP6529698B2 (ja) 2019-06-12
CN110268398A (zh) 2019-09-20
US20190354589A1 (en) 2019-11-21
DE112017006785T5 (de) 2019-10-17
JPWO2018150453A1 (ja) 2019-06-27
US11182561B2 (en) 2021-11-23
WO2018150453A1 (ja) 2018-08-23

Similar Documents

Publication Publication Date Title
DE19952769A1 (de) System und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
US7778820B2 (en) Inferring informational goals and preferred level of detail of answers based on application employed by the user based at least on informational content being displayed to the user at the query is received
DE69731142T2 (de) System zum Wiederauffinden von Dokumenten
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
US7567954B2 (en) Sentence classification device and method
DE102014113870A1 (de) Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112020000227T5 (de) Maschinelles lernen eines computermodells auf grundlage von korrelationenvon trainingsdaten mit leistungstrends
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE102012221251A1 (de) Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern
DE112017007530T5 (de) Entitätsmodell-erstellung
WO2021032824A1 (de) Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE102008005083A1 (de) Abrufen einer Information eines fallbasierten Schliessens aus Archivaufzeichnungen
Ferenhof et al. Demystifying the literature review as basis for scientific writing: SSF method
DE112017006785B4 (de) Datenanalysator und Datenanalyseverfahren
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
CN116775879A (zh) 大语言模型的微调训练方法、合同风险评审方法及系统
Tocoglu et al. Emotion extraction from turkish text
CN113033178A (zh) 用于商业计划书的文本评估方法、装置及计算机
CN117453805B (zh) 一种不确定性数据的可视化分析方法
Grigoriev et al. Methodology for Scientific Publications Search Results Automated Structuring to Analyze the Level of Elaboration of Scientific and Technical Problems in the Aviation Industry
CN112347121B (zh) 一种可配置的自然语言转sql的方法及系统
DE202023103625U1 (de) Informationsverarbeitungseinrichtung
DE102020208884A1 (de) Hierachisierung einer Suche auf Zeitreihen-Daten zu deren Beschleunigung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016300000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0016300000

Ipc: G06F0017280000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017280000

Ipc: G06F0040400000

R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R020 Patent grant now final