DE112012006633T5 - Dokumentensuchvorrichtung und Dokumentensuchverfahren - Google Patents

Dokumentensuchvorrichtung und Dokumentensuchverfahren Download PDF

Info

Publication number
DE112012006633T5
DE112012006633T5 DE112012006633.2T DE112012006633T DE112012006633T5 DE 112012006633 T5 DE112012006633 T5 DE 112012006633T5 DE 112012006633 T DE112012006633 T DE 112012006633T DE 112012006633 T5 DE112012006633 T5 DE 112012006633T5
Authority
DE
Germany
Prior art keywords
document
search
results
estimation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112012006633.2T
Other languages
English (en)
Inventor
c/o Mitsubishi Electric Corporat Fujii Yoichi
c/o Mitsubishi Electric Corporation Ishii Jun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112012006633T5 publication Critical patent/DE112012006633T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine Aussageinhalt-Schätzvorrichtung (14) schätzt einen Dokument-ID entsprechend einer Antwort auf Benutzereingabe Analyseergebnisse (11) von einem Dokument (1) auf der Grundlage eines Aussageschätzmodells (9), das durch Lernen einer Entsprechung zwischen hypothetischen Fragen jeweils hinsichtlich eines Inhalts des Dokuments (1) und Dokument-IDn, von denen jeder eine Antwort auf eine der hypothetischen Fragen ist, erzeugt wurde. Eine Ergebnisintegrationsvorrichtung (16) integriert Dokumentenschätzergebnisse (15) des Aussageschätzmodells (9) und Dokumentensuchergebnisse (13) von Suchindizes (5), um endgültige Suchergebnisse (17) zu erzeugen.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf eine Dokumentensuchvorrichtung für und ein Dokumentensuchverfahren zum Suchen durch feine Einheiten eines elektronischen Dokuments, wie Kapitel, Absätze und Abschnitte.
  • HINTERGRUND DER ERFINDUNG
  • An jedem von vielen Ausrüstungsstücken wie elektrischen Hausgeräten und Stücken von in Fahrzeugen befestigten Ausrüstungen ist ein Betriebshandbuch aus Papier, in welchem Betriebsabläufe, Informationen über das, was im Fall von Schwierigkeiten zu tun, usw. beschrieben sind, beigefügt. Für eine Informationsvorrichtung unter vielen Ausrüstungsstücken ist ein Betriebshandbuch in elektronische Form gebracht, so dass der Benutzer in der Lage ist, direkt eine Suche nach einem gewünschten Inhalt durchzuführen und diesen ”durchzublättern”. Als eine Folge ist der Benutzer in der Lage, den gewünschten Inhalt überschlägig durchzusehen, ohne die Schwierigkeit, ein Dokument aus Papier mit sich zu führen. Demgegenüber hat ein elektronisches Dokument einen niedrigen Grad von oberflächlicher Lesbarkeit, und es ist für den Benutzer schwierig, nach einem Inhalt zu suchen, den er zu prüfen wünscht. Daher ist es unerlässlich, eine Suchfunktion für eine derartige Informationsvorrichtung vorzusehen.
  • Das Einfachste von typischen herkömmlichen Suchfunktionen ist ein GREP-Suchverfahren zum Durchführen einer Suche durch Verwenden eines Schlüsselworts und Anzeigen von Treffern in der Reihenfolge, in der sie in dem Dokument von dem Kopf des Dokuments aus erscheinen. Zusätzlich gibt es ein Boole'sches Suchverfahren zum vorhergehenden Erzeugen von Suchindizes aus einem Dokument und herausgezogenen Schlüsselwörtern, Durchführen einer Suche auf der Grundlage einer logischen Formel durch Verwendung der Suchindizes, und Anzeigen von Kandidaten. Weiterhin ist, da gemäß dem Boole'schen Suchverfahren ein Ergebnis, das den Grad der Assoziation zwischen einem eingegebenen Schlüsselwort und einem Suchindex zeigt, nicht definiert werden kann, ein Suchverfahren anhand der besten Übereinstimmung vorgesehen, bei dem einfach ein Schlüsselwort eingegeben und ein Ergebnis bestimmt wird durch Zählen der Häufigkeit des Erscheinens des Schlüsselworts. Zusätzlich gibt es ein statistisches Suchverfahren des Erzeugens von Suchindizes, zu denen jeweils ein statistisches Gewicht wie tf-idf (Begriffshäufigkeit und umgekehrte Dokumenthäufigkeit) hinzugefügt ist, anhand von Schlüsselwörtern, des Durchführens einer Suche durch Verwendung eines Vektorabstands (inneres Produkt) zwischen jedem der Suchindizes und einem eingegebenen Schlüsselwort, und des Anzeigens von Kandidaten. Das Vorsehen dieser Suchverfahren ermöglicht dem Benutzer, ein elektronisches Dokument zu durchsuchen und einen Teil des Dokuments, den der Benutzer wünscht, in gewissem Maße zu sichten.
  • Da gemäß dem Boole'schen Suchverfahren nur Teile, die genau mit einem Suchkriterium übereinstimmen, gesucht werden, während das Boole'sche Suchverfahren den Vorteil hat, leicht Teile zu finden, die mit der Suchabsicht des Benutzers übereinstimmen, wenn eine vollständige Verwendung eines komplizierten Suchkriteriums erfolgt, hat das Boole'sche Suchverfahren den Nachteil, dass es leicht zu einer Erhöhung der Anzahl von Teilen führt, die aus den Suchergebnissen herausfallen, wenn das Suchkriterium nicht mehr angemessen ist. Weiterhin hat die Bildung einer komplizierten Suchformel auch den Nachteil, allgemeinen Benutzern eine hohe Hürde aufzustellen. Daher ist die typischste Boole'sche Suche ein Verfahren, das bewirkt, dass der Benutzer zwei oder mehr Schlüsselwörter eingibt, und Suchergebnisse durch Realisieren einer logischen ODER-Operation bestimmt und die Suchergebnisse präsentiert. Demgegenüber haben, während das Suchverfahren unter Verwendung der besten Übereinstimmung und das statistische Suchverfahren den Vorteil haben, in der Lage zu sein, eine Suche ohne das Erfordernis des Einführens einer logischen Struktur in Schlüsselwörter durchzuführen, diese Verfahren den Nachteil, dass es für den Benutzer schwierig ist, die Suche zu steuern, da die Häufigkeit des Erscheinens jedes Schlüsselworts in dem Dokument einfach erfasst wird und ein Ergebnis anhand eines Werts, der entsprechend der Tendenz des Erscheinens jedes Schlüsselworts gewichtet wird, berechnet wird.
  • Als ein Verfahren, das die Vorteile beider Verfahren unter Berücksichtigung der Vorteile und Nachteile der Verfahren nutzt, wurde ein Verfahren des Integrierens mehrerer Suchmaschinen und Ausführens der Verarbeitung vorgeschlagen. Beispielsweise offenbart das Patentdokument 1 ein Verfahren zum unabhängigen Durchführen des Boole'schen Suchverfahrens und des statistischen Suchverfahrens, oder des Suchverfahrens unter Verwendung der besten Übereinstimmung und des statistischen Suchverfahrens, und des logischen Integrierens der Suchergebnisse, die durch die Verfahren zum Durchführen einer Suche erhalten wurden.
  • Genauer gesagt, nur Informationen über Kandidaten für die Suchergebnisse können durch eine Suchmaschine unter Verwendung des Boole'schen Suchverfahrens erhalten werden, während Kandidaten für die Suchergebnisse und ihre Trefferzahlen als Informationen durch eine Suchmaschine, die das Suchverfahren unter Verwendung der besten Übereinstimmung und das statistische Suchverfahren verwendet, erhalten werden können. Wenn beispielsweise das Boole'sche Sucherverfahren und das statistische Suchverfahren kombiniert werden, wird nur ein Ergebnis, das in den Suchergebnissen vom logischen Formeltyp enthalten ist und denselben Dokument-ID wie den hat, der in den statistischen Suchergebnissen enthalten ist, als ein endgültiger Ergebniskandidat bestimmt, und nachdem alle Dokument-ID, die in den Suchergebnissen vom logischen Formeltyp enthalten sind, und alle Dokument-ID, die in den statistischen Suchergebnissen enthalten sind, werden als endgültige Ergebniskandidaten bestimmt, wobei die Trefferzahlen in den statistischen Suchergebnissen verwendet werden, um den Rang der endgültigen Ergebnisse festzulegen.
  • Zusätzlich wird, wenn das Suchverfahren unter Verwendung der besten Übereinstimmung und das statistische Suchverfahren kombiniert werden, den endgültigen Ergebnissen ein Rang durch Verwendung des Durchschnitts der Trefferzahlen gegeben.
  • Weiterhin wird ein herkömmliches Suchverfahren des Erzeugens einer Tabelle von Synonymen und Fast-Synonymen vorgeschlagen, um die Fälle zu reduzieren, in denen nichts gesucht werden kann aufgrund einer oberflächlichen Differenz zwischen Schlüsselwörtern und des Erweiterns jedes Schlüsselworts in dem Suchkriterium in Synonyme und Fast-Synonyme, um eine Suche durchzuführen.
  • DOKUMENT NACH DEM STAND DER TECHNIK
  • Patentdokument
    • Patentdokument 1: Veröffentlichung Nr. Hei 10-143530 einer ungeprüften japanischen Patentanmeldung
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
  • Da herkömmliche Dokumentensuchvorrichtungen und herkömmliche Dokumentsuchverfahren wie vorbeschrieben konfiguriert sind, können Suchergebnisse, die der Benutzer wünscht, leichter erhalten werden im Vergleich mit dem Fall des Durchführens einer Suche durch Verwendung eines einzelnen Suchverfahrens. Jedoch basieren, da bei diesen Suchverfahren das Ziel für das Herausziehen von Schlüsselwörtern für die Erzeugung von Suchindizes das Dokument, das das Suchziel ist, selbst ist, die Suchverfahren auf einer Suche nach Schlüsselwörtern, die in dem Dokument erscheinen, selbst wenn ein einziges Suchverfahren verwendet wird und selbst wenn eine Kombination aus mehreren Suchverfahren verwendet wird.
  • Weiterhin tritt, da der Benutzer, der eine Suche durchführt, ein Suchkriterium in einem Zustand des Nichtidentifizierens von in dem Dokument verwendeten Schlüsselwörtern in einer tatsächlichen Suchsituation einzugeben hat, ein Problem dahingehend auf, dass er nicht in der Lage ist, ein gewünschtes Dokument nachzuschlagen. Um dieses Problem zu lösen, wird eine Suche mit Ausdehnung in Synonyme und Fast-Synonyme durchgeführt, so dass eine Verbesserung erwartet werden kann. Jedoch hat ein Dokument wie ein Betriebshandbuch in vielen Fällen eine Erläuterung, die technische Ausdrücke und spezielle Ausdrücke, die mit einer spezifischen Funktion assoziiert sind, für die Zwecke der Genauigkeit verwendet, und es tritt eine Situation auf, in der ein allgemeiner Benutzer und ein Benutzer mit einem Anfängerwissen, der zu wissen wünscht, wie das Produkt zu verwenden ist, in vielen Fällen nicht verstehen, welches Schlüsselwort eingegeben werden sollte, um eine Suche durchzuführen, damit eine gewünschte Erläuterung erhalten wird. Genauer gesagt, Ausdrücke, die die Richtung einer Karte für eine Fahrzeugnavigation zeigen, wie ”nach Norden” und ”Fahrtrichtung nach oben” sind Schlüsselwörter, die von Anfängern einer Fahrzeugnavigationsbenutzung nicht erwartet werden können. Wenn daher ein derartiger Benutzer eine Suche durch Eingaben eines Kriteriums ”Ich möchte die Karte so ändern, dass die Richtung, in der wir fahren, nach oben ist” durchführt, kann ein Fall des Nichterhaltens von gewünschten Suchergebnissen eintreten, da keine angemessenen Schlüsselwörter existieren.
  • Die vorliegende Erfindung wurde gemacht, um das vorgenannte Problem zu lösen, und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Technik des Darstellens von Suchergebnissen anzugeben, die angemessener sind als diejenigen, die durch ein einfaches Suchverfahren als Antwort auf eine Benutzereingabe in natürlicher Sprache dargestellt werden.
  • MITTEL ZUM LÖSEN DES PROBLEMS
  • Gemäß der vorliegenden Erfindung ist eine Dokumentensuchvorrichtung vorgesehen, enthaltend: Suchindizes, die von einem Dokument erzeugt wurden, das vorher vorbereitet wird; eine Dokumentensucheinheit, die eine Eingabe von einem Benutzer empfängt und das Dokument nach einem Datenfeld durchsucht, das mit der Benutzereingabe assoziiert ist, durch Verwendung der Suchindizes; ein Aussageschätzmodell, das erzeugt wird durch Lernen einer Entsprechung zwischen hypothetischen Fragen jeweils hinsichtlich eines Inhalts des Dokuments und Datenfeldern in dem Dokument, von denen jedes eine Antwort auf eine der hypothetischen Fragen ist; eine Aussageinhalt-Schätzvorrichtung, die ein Datenfeld entsprechend einer Antwort auf die Benutzereingabe aus dem Dokument schätzt auf der Grundlage des Aussageschätzmodells; und eine Ergebnisintegrationsvorrichtung, die Dokumentensuchergebnisse, die von der Dokumentensucheinheit erhalten wurden, und Dokumentenschätzergebnisse, die von der Aussageinhalt-Schätzvorrichtung erhalten wurden, integriert, um endgültige Suchergebnisse zu erzeugen.
  • Gemäß der vorliegenden Erfindung ist ein Dokumentensuchverfahren vorgesehen, enthaltend: einen Benutzereingabeschritt des Annehmens einer Eingabe von einem Benutzer; einen Dokumentensuchschritt des Durchsuchens des Dokuments nach einem Datenfeld, das mit der Benutzereingabe assoziiert ist, durch Verwendung von Suchindizes, die aus einem Dokument, das vorher vorbereitet wurde, erzeugt wurden; einen Aussageinhalts-Schätzschritt des Schätzens eines Datenfelds entsprechend einer Antwort auf die Benutzereingabe aus dem Dokument auf einer Grundlage eines Aussageschätzmodells, das durch Lernen einer Entsprechung zwischen hypothetischen Fragen jeweils hinsichtlich eines Inhalts des Dokuments und Datenfeldern in dem Dokument, von denen jedes eine Antwort auf eine der hypothetischen Fragen ist, erzeugt wird; und einen Ergebnisintegrationsschritt des Integrierens von Dokumentensuchergebnissen, die durch den Dokumentensuchschritt erhalten wurden, und Dokumentenschätzergebnissen, die durch den Aussageinhalts-Schätzschritt erhalten wurden, um endgültige Suchergebnisse zu erzeugen.
  • VORTEILE DER ERFINDUNG
  • Da gemäß der vorliegenden Erfindung ein Datenfeld entsprechend einer Antwort auf die Benutzereingabe aus dem Dokument geschätzt wird durch Verwendung des Aussageschätzmodells, das durch Lernen der Entsprechung zwischen Fragen, die durch die Erwartung, welche Frage der Benutzer stellt, erzeugt wurden, und Dokumentendatenfeldern, die jeweils eine Antwort auf eine der Fragen sind, erzeugt wurde, und die Schätzergebnisse mit den Ergebnissen der Indexsuche integriert werden, können Suchergebnisse, die im Vergleich mit Ergebnissen, durch Verwendung eines einfachen Suchverfahrens erhalten wurden, geeigneter sind, als Antwort auf eine Benutzereingabe in natürlicher Sprache dargestellt werden.
  • KURZBESCHREIBUNG DER FIGUREN
  • 1 ist ein Blockschaltbild, das die Struktur einer Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 der vorliegenden Erfindung zeigt;
  • 2 ist eine Ansicht, die ein Beispiel für ein Dokument zeigt, das von der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 gehandhabt wird;
  • 3 ist eine Ansicht, die die Ergebnisse einer von der Dokumentensuchvorrichtung durchgeführten Dokumentenanalyse gemäß dem Ausführungsbeispiel 1 und ein Beispiel für eine Schlüsselwortliste für Suchindizes zeigt;
  • 4 ist eine Ansicht, die ein Beispiel für gesammelte Aussagedaten zeigt, die durch die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 vorgesehen sind;
  • 5 ist eine Ansicht, die die Ergebnisse einer gesammelten Aussageanalyse, die von der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 durchgeführt wurde, und ein Beispiel für eine Schlüsselwortliste für Aussageschätzmodelle zeigt;
  • 6 ist ein Flussdiagramm, das eine Operation des Erzeugens von Suchindizes aus einem Dokument, das durch die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 gehandhabt wird, zeigt;
  • 7 ist ein Flussdiagramm, das eine Operation des Erzeugens eines Aussageschätzmodells aus gesammelten Aussagedaten, durch die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 vorgesehen sind, zeigt;
  • 8 ist ein Flussdiagramm, das eine Operation des Erzeugens eines endgültigen Suchergebnisses aus einer Benutzereingabe der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 zeigt;
  • 9 ist eine Ansicht, die ein Beispiel für einen Übergang einer Benutzereingabe in der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 1 zeigt;
  • 10 ist eine Ansicht, die eine Fortsetzung des in 9 gezeigten Beispiels für den Übergang der Benutzereingabe zeigt;
  • 11 ist ein Blockschaltbild, das die Struktur einer Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 2 der vorliegenden Erfindung zeigt;
  • 12 ist eine Ansicht, die hierarchische Schichten eines Dokuments, das durch die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 2 gehandhabt wird, zeigt;
  • 13 ist ein Flussdiagramm, das eine Operation des Erzeugens eines endgültigen Suchergebnisses aus einer Benutzereingabe der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 2 zeigt;
  • 14 ist eine Ansicht, die ein Beispiel für einen Übergang einer Benutzereingabe in die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 2 zeigt;
  • 15 ist eine Ansicht, die ein Beispiel für ein Dokument, das durch eine Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 3 gehandhabt wird, zeigt;
  • 16 ist eine Ansicht, die die Ergebnisse einer von der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 3 durchgeführten Dokumentenanalyse und ein Beispiel für eine Schlüsselwortliste für Suchindizes zeigt;
  • 17 ist eine Ansicht, die ein Beispiel für gesammelte Aussagedaten zeigt, die durch die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 3 vorgesehen sind;
  • 18 ist eine Ansicht, die die Ergebnisse einer gesammelten Aussageanalyse, die von der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 3 durchgeführt wurde, und ein Beispiel für eine Schlüsselwortliste für Aussageschätzmodelle zeigt;
  • 19 ist eine Ansicht, die ein Beispiel für einen Übergang einer Benutzereingabe in der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 3 zeigt;
  • 20 ist eine Ansicht, die eine Fortsetzung des in 19 gezeigten Beispiels für den Übergang der Benutzereingabe zeigt;
  • 21 ist eine Ansicht, die ein Beispiel für ein Dokument zeigt, das durch eine Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 4 gehandhabt wird;
  • 22 ist eine Ansicht, die die Ergebnisse einer von der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 4 durchgeführten Dokumentenanalyse und ein Beispiel für eine Schlüsselwortliste für Suchindizes zeigt;
  • 23 ist eine Ansicht, die ein Beispiel für gesammelte Aussagendaten zeigt, die durch die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 4 vorgesehen sind;
  • 24 ist eine Ansicht, die die Ergebnisse einer gesammelten Aussageanalyse, die durch die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 4 durchgeführt wurde, und ein Beispiel für eine Schlüsselwortliste für Aussageschätzmodelle zeigt;
  • 25 ist eine Ansicht, die ein Beispiel für einen Übergang einer Benutzereingabe in der Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 4 zeigt; und
  • 26 ist eine Ansicht, die eine Fortsetzung des in 25 gezeigten Beispiels für den Übergang der Benutzereingabe zeigt.
  • AUSFÜHRUNGSBEISPIELE DER ERFINDUNG
  • Nachfolgend werden, um diese Erfindung im Einzelnen zu erläutern, die bevorzugten Ausführungsbeispiele der vorliegenden Erfindung mit Bezug auf die begleitenden Zeichnungen beschrieben.
  • Ausführungsbeispiel 1
  • Nachfolgend wird ein Ausführungsbeispiel der vorliegenden Erfindung mit Bezug auf die Zeichnungen erläutert. 1 ist ein Blockschaltbild, das die Struktur einer Dokumentensuchvorrichtung gemäß diesem Ausführungsbeispiel 1 zeigt. Ein Dokument 1 stellt Textdaten enthaltend einen elektronischen Text dar, wie eine elektronische Betriebsanleitung für ein Produkt. Es wird angenommen, dass dieses Dokument 1 in bis zu einige hierarchische Schichten geteilt ist, wie eine Kapitelschicht, eine Absatzschicht und eine Abschnittsschicht, entsprechend den Funktionen des Produkts. Eine Eingabeanalysevorrichtung 2 teilt einen Text wie das Dokument 1 in Morpheme durch Verwendung eines Verfahrens wie eines morphologischen Analyseverfahrens, das eine bekannte Technik ist. Dokumentenanalyseergebnisse 3 sind Daten, in denen das Dokument 1 durch die Eingabeanalysevorrichtung 2 in Morpheme geteilt ist.
  • Ein Suchindexgenerator 4 erzeugt Suchindizes 5 aus den Dokumentanalyseergebnissen 3. Jeder dieser Suchindizes 5 führt ein Datenfeld in dem Dokument 1 zurück, wie ein spezifisches Kapitel, einen spezifischen Absatz oder einen spezifischen Abschnitt, als ein Suchergebnis als Antwort auf eine Eingabe einer Tastatur von einer Dokumentensucheinheit 12. Gesammelte Aussagendaten 6 werden erhalten durch Sammeln von etwas zu fragen, wenn das Dokument 1 verwendet wird, durch vorhergehendes Verwenden eines Verfahrens zum Erhalten von Informationen mittels eines Fragebogens oder dergleichen. Es wird angenommen, dass ein Erzeugungsverfahren zum Erzeugen gesammelter Aussagedaten 6 die Schritte des vorhergehenden Erzeugens von Fragen aus den Funktionen des Produkts, die in dem Dokument 1 beschrieben sind, und des Sammelns von Fragen, um vorher mittels Fragebogen oder dergleichen zu fragen, enthält. Gesammelte Aussageanalyseergebnisse 7 sind Daten, in denen die gesammelten Aussagedaten 6 durch die Eingabeanalysevorrichtung 2 in Morpheme geteilt sind.
  • Ein Aussageschätzmodellgenerator 8 führt ein statistisches Lernen durch durch Definieren jedes der Morpheme der gesammelten Aussageanalyseergebnisse 7 als eine Lerneinheit (Merkmal), um ein Aussageschätzmodell 9 zu erzeugen. Dieses Aussageschätzmodell 9 empfängt eine Morphemkette der gesammelten Aussageanalyseergebnisse 7 als eine Eingabe und lernt Ergebnisdaten für die Rückführung von Datenfeldern, die jeweils einer Antwort auf eine der vorgenannten Fragen entsprechen, als Aussageinhalt-Schätzergebnisse, während ein Treffer zu jedem der Datenfelder hinzugefügt wird.
  • Eine Benutzereingabe 10 sind Daten, die eine Eingabe von einem Benutzer in die Dokumentensuchvorrichtung zeigen. Nachfolgend wird die Erläuterung unter der Annahme gemacht, dass die Benutzereingabe 10 eine Texteingabe ist. Die Benutzereingabe-Analyseergebnisse 11 sind Daten, in denen die Benutzereingabe 10 durch die Eingabeanalysevorrichtung 2 in Morpheme geteilt ist.
  • Die Dokumentensucheinheit 12 empfängt die Benutzereingabe-Analyseergebnisse 11 als eine Eingabe und führt eine Suche durch Verwendung der Suchindizes 5 so durch, dass Dokumentensuchergebnisse 13 erzeugt werden.
  • Eine Aussageinhalt-Schätzvorrichtung 14 empfängt die Benutzereingabe-Analyseergebnisse 11 als eine Eingabe und schätzt ein Datenfeld entsprechend dieser Eingabe durch Verwendung des Aussageschätzmodells 9, und erwirbt den Dokumenten-ID des Datenfelds. Die Dokumentenschätzergebnisse 15 sind Daten enthaltend den von der Aussageinhalt-Schätzvorrichtung 14 geschätzten Dokument-ID und dessen Trefferergebnis (das nachfolgend erläutert wird).
  • Ein Ergebnisintegrator 16 integriert die Dokumentensuchergebnisse 13 und die Dokumentenschätzergebnisse 14 in einzelne Suchergebnisse und gibt die Suchergebnisse als endgültige Suchergebnisse 17 aus.
  • 2 zeigt ein Beispiel für das Dokument 1. Das Dokument 1 hat eine Struktur aus hierarchischen Schichten, wie einer Kapitelschicht, einer Absatzschicht und einer Abschnittsschicht, und hat einen Dokumenten-ID, der eine Suchergebnisposition für jede hierarchische Schicht zeigt. Bei dem in 2 gezeigten Beispiel enthält ein Dokument 1-1 mit einem Dokument-ID ”Id_10_1” auch Texte, die in einer unteren Schichtdatenstruktur enthalten sind. Beispielsweise zeigt die Figur, dass ein Dokument 1-2 von ”Id_10_1_1” auch in dem Dokument 1-1 von ”Id_10_1” enthalten ist.
  • 3 zeigt ein Beispiel für die Dokumentenanalyseergebnisse 3 und eine Schlüsselwortliste für die Suchindizes 5. ”Id_10_1_1” ist ein Beispiel für Dokumentenanalyseergebnisse 3-1 und zeigt die Ergebnisse des Durchführens einer Eingabeanalyse gemäß einer morphologischen Analyse des Dokuments 1-2 von ”Id_10_1_1”, das in 2 gezeigt ist. In diesen Dokumentenanalyseergebnissen 3-1 sind die Abschnitte der morphologischen Analyseergebnisse durch ”/” getrennt. Daten 3-2 für Suchindizes zeigen ein Beispiel für Daten, die auf der Grundlage der Dokumentenanalyseergebnisse 3-1 von ”Id_10_1_1” erzeugt sind und die der Suchindexgenerator 4 verwendet. Bei diesem Ausführungsbeispiel werden der Dokument-ID und eine Liste von allgemeinen Formen (Schlüsselwörtern) von unabhängigen Wortmorphenen herausgezogen.
  • 4 zeigt ein Beispiel für die gesammelten Aussagedaten 6. Gesammelte Aussagedaten 6-1 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10”, gesammelte Aussagedaten 6-2 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10_1”, und gesammelte Aussagedaten 6-3 sind ein Beispiel für eine Frage entsprechend einem Dokument von Id_10_1_1”. Obgleich gesammelte Aussagendaten 6-4 eine Frage sind, die eine Absicht des Wunsches ausdrückt, ein konkretes Änderungsverfahren für das Ändern des Typs einer Karte zu wissen, sind die gesammelten Aussagedaten ein Beispiel für gesammelte Aussagedaten, die es unmöglich machen, irgendeinen Dokument-ID in derselben hierarchischen Schicht wie ”Id_10_1_1” auszuwählen, da der Kartentyp, den der Benutzer wünscht, nicht durch das Produkt erhalten werden kann, das in diesem Ausführungsbeispiel angenommen wird. Diese gesammelten Aussagedaten 6-1 bis 6-4 sind Beispiele für Fragesätze, die erzeugt sind durch die Erwartung, welche Frage der Benutzer stellt, um die Funktionen des Produkts zu prüfen.
  • 5 zeigt ein Beispiel für die gesammelten Aussageanalyseergebnisse 7 und eine Schlüsselwortliste für das Aussageschätzmodell 9. ”Id_10_1_1” ist ein Beispiel für gesammelte Aussageanalyseergebnisse 7-1 und zeigt die Ergebnisse des Durchführens einer Eingabeanalyse gemäß einer morphologischen Analyse des Texts der gesammelten Aussagedaten 6-1 von ”Id_10_1_1”, die in 4 gezeigt sind. Die Daten 7-2 für das Aussageschätzmodell zeigen ein Beispiel für Daten, die auf den gesammelten Aussageanalyseergebnissen 7-1 von ”Id_10_1_1” basieren und die der Aussageschätzmodellgenerator 8 verwendet. Bei diesem Ausführungsbeispiel werden der Dokument-ID und eine Liste von allgemeinen Formen (Schlüsselwörtern) von unabhängigen Wortmorphemen herausgezogen.
  • Als Nächstes wird die Operation der Dokumentensuchvorrichtung erläutert. Die Operation wird grob in zwei Prozesse geteilt. Einer dieser Prozesse ist ein Erzeugungsprozess des Erzeugens von Suchindizes 5 und eines Aussageschätzmodells 9 aus dem Dokument 1 bzw. der gesammelten Aussagedaten 6, und der andere ist ein Suchprozess des Erzeugens endgültiger Suchergebnisse 17 als Antwort auf eine Benutzereingabe 10. Zuerst wird der Erzeugungsprozess erläutert.
  • Zuerst wird ein Erzeugungsverfahren zum Erzeugen von Suchindizes 5 in dem Erzeugungsprozess erläutert. Nachfolgend wird angenommen, dass eine Gewichtung entsprechend tf-idf, die durch eine herkömmliche Technologie offenbart ist, durchgeführt wird. 6 ist ein Flussdiagramm, das eine Operation enthaltend bis zu dem Prozess des Erzeugens von Suchindizes 5 aus dem Dokument 1 zeigt. Wie in 2 gezeigt ist, wird angenommen, dass das Dokument 1 Paare enthält, in denen jeweils ein Dokument-ID mit einem Text assoziiert ist. Beispielsweise ist in dem Dokument 1-2 der Name des Dokument-ID ”Id_10_1_1” mit einem Text ”Fahrtrichtung nach oben. Zeige die Karte an, die so gedreht ist, dass sie immer der Richtung, in der Du fährst, zugewandt ist”. Im Schritt ST1 liest die Eingabeanalysevorrichtung 2 das Dokument 1 mit dieser Struktur der Reihe nach, und führt eine morphologische Analyse, die eine bekannte Technologie ist, bei dem Dokument so durch, dass das Dokument in Morphemketten geteilt wird. Die Ergebnisse des Durchführens einer morphologischen Analyse des Dokuments 1-2 sind die Dokumentanalyseergebnisse 3-1, die in 3 gezeigt sind. Obgleich nur Separatoren ”/” zum Trennen der Morpheme in diesen Dokumentanalyseergebnissen 3-1 gezeigt sind, enthalten die Dokumentanalyseergebnisse tatsächlich Stücke eines Teils von Sprachinformationen, die Prototypen von konjugierten Wörtern und Ablesungen.
  • Nachdem Dokumentanalyseergebnisse 3 für jeden von sämtlichen Dokument-IDn erzeugt sind, zieht der Suchindexgenerator 4 im nächsten ST2 Morpheme (Schlüsselwörter), die für die Erzeugung von Suchindizes 5 erforderlich sind, aus allen Dokumentanalyseergebnissen 3 heraus, erzeugt Paare von (einem Dokument-ID und einer Schlüsselwortliste), und erzeugt Suchindizes 5, bei denen jeweils eine Gewichtung unter Verwendung von tf-idf auf der Grundlage sämtlicher Paare durchgeführt wird. Das Paar (ein Dokument-ID und eine Schlüsselwortliste), das aus den in 3 gezeigten Dokumentanalyseergebnissen 3-1 herausgezogen wurde, wird durch Daten 3-2 für Suchindizes, die auch in 3 gezeigt sind, gezeigt.
  • Obgleich ein konkreter Vorgang des Erzeugens von Suchindizes nicht erläutert wird, wird dieser Vorgang kurz erläutert. Zuerst wird tf-idf in einer solchen Weise durchgeführt, dass die Anzahl von Schlüsselwörtern, die in allen Dokument-IDn enthalten sind, definiert wird als die Dimension eines Vektors, die Schlüsselwörter werden jeweils den Komponenten des Vektors zugewiesen, und der Wert des Vektors wird durch eine Frequenz ausgedrückt (dieser Prozess entspricht tf). Weiterhin wird eine Gewichtung dieses Vektorwerts in einer solchen Weise durchgeführt, dass der Vektorwert Heuristiken ”Schlüsselwörter (allgemeine Begriffe), die in vielen Dokumenten erscheinen, haben einen niedrigen Wichtigkeitsgrad, während Schlüsselwörter, die nur in einem spezifischen Dokument erscheinen, haben einen hohen Wichtigkeitsgrad” entspricht (dieser Prozess entspricht idf). Diese Tabelle mit Gewichten dient als die Suchindizes 5.
  • Als Nächstes wird der Erzeugungsprozess des Erzeugens eines Aussageschätzmodells 9 erläutert. 7 ist ein Flussdiagramm, das einen Ablauf enthaltend bis zu dem Prozess des Erzeugens eines Aussageschätzmodells 9 anhand der gesammelten Aussagedaten 6 zeigt. Die gesammelten Aussagedaten 6 sind Daten, in denen vorher gesammelte Aussagen des Benutzers den Dokument-IDn von Dokumenten, die jeweils Antworten auf die Aussagen sind, zugewiesen sind, wie als die gesammelten Aussagedaten 6-1 bis 6-4 in 4 gezeigt ist. Gemäß dem Erzeugungsverfahren des Erzeugens der gesammelten Aussagedaten 6 werden die Daten erzeugt durch Darstellen einer Beschreibung, die die Funktion jedes Dokument-ID erläutert, durch Verwendung eines Fragebogens oder dergleichen, und Sammeln eines Dokuments, das zeigt, was der Besucher gesagt hat, um nach der Funktion zu suchen. Beispielsweise kann erwartet werden, dass eine Aussage wie die gesammelten Aussagedaten 6-3 gesammelt werden kann, wenn die konkrete Beschreibung ”Fahrtrichtung nach oben. Zeige die Karte an, die so gedreht ist, dass sie immer der Richtung zugewandt ist, in der Du fährst.” von ”Id_10_1_1”, wie in 4 gezeigt ist, dem Benutzer präsentiert wird. Andererseits kann erwartet werden, dass gesammelte Aussagedaten, die von den gesammelten Aussagedaten 6-1 starten und auch die gesammelten Aussagedaten 6-2 bis 6-4 enthalten, gesammelt werden können, wenn ein Superordinatenkonzept wie ein Dokument von ”Id_10” dem Benutzer präsentiert wird. Die gesammelten Aussagedaten 6-4 sind Aussagedaten über eine Beschreibung, die eine andere als die in dem Dokument 1 beschriebenen Funktionen des Produkts ist. In diesem Fall werden die gesammelten Aussagedaten 6-4 einem Zwischendokument-ID von ”Id_10_1” zugewiesen. Die vorbeschriebenen Operationen werden vorher durch Verwendung menschlicher Arbeitsleistung durchgeführt, und die Daten mit der in 4 gezeigten Struktur werden vorbereitet.
  • Die Eingabeanalysevorrichtung 2 führt im Schritt ST3 eine morphologische Analyse der gesammelten Aussagedaten 6 durch, wie in dem Fall des Empfangens des Dokuments 1 im Schritt ST1 als eine Eingabe. Beispielsweise sind die Ergebnisse des Durchführens einer morphologischen Analyse der gesammelten Aussagedaten 6-3, die in 4 gezeigt sind, die gesammelten Aussageanalyseergebnisse 7-1, die in 5 gezeigt sind. Der Aussageschätzmodellgenerator 8 führt im nächsten Schritt ST4 einen Prozess des Herausziehens eines Dokument-ID und einer Liste von Schlüsselwörtern als die Daten 7-2 für das Aussageschätzmodell so durch, dass ein Aussageschätzmodell 9 erzeugt wird, wie in dem Fall des Schritts ST2. Es wird bei diesem Ausführungsbeispiel angenommen, dass für das Aussageschätzmodell 9 das Lernen durchgeführt wird durch Verwendung eines Maximalentropieverfahrens (nachfolgend als ein ME-Verfahren bezeichnet).
  • Obgleich nachfolgend keine detaillierte Erläuterung des ME-Verfahrens gegeben wird, wird das ME-Verfahren kurz erläutert. Das ME-Verfahren ist dasjenige des Definierens eines Paares von (einem Dokument-ID und einer Schlüsselwortliste) als Lerndaten, und, wenn eine Liste von Schlüsselwörtern als eine Eingabe empfangen wird, des Schätzens eines Dokument-ID entsprechend der Liste. Ein Gewicht für jedes Paar aus (einem Dokument-ID und einer Schlüsselwortliste) wird in einer solchen Weise berechnet, dass die Wahrscheinlichkeit des Auftretens die höchste (die Anzahl von korrekten Antworten nimmt zu) in den Daten ist, die gelernt wurden, wenn ein Dokument-ID anhand der Liste von Schlüsselwörtern geschätzt wird, und das Aussageschätzmodell 9 ist dasjenige, in dem das Gewicht gespeichert ist. Schlüsselwörter werden aus allen gesammelten Aussageanalyseergebnissen 7 herausgezogen, und das Lernen wird durchgeführt durch Verwendung des ME-Verfahrens, um das Aussageschätzmodell 9 zu erzeugen. Genauer gesagt, für die gesammelten Aussageanalyseergebnisse 7-1, die in 5 gezeigt sind, werden die Daten 7-2 für das Aussageschätzmodell, die auch in 5 gezeigt sind, herausgezogen, und das vorbeschriebene Lernen wird auf der Grundlage dieser Daten 7-2 für das Aussageschätzmodell durchgeführt.
  • Als Nächstes wird der Suchprozess erläutert. 8 ist ein Flussdiagramm, das einen Ablauf enthaltend bis zu dem Prozess des Erzeugens endgültiger Suchergebnisse 7 anhand der Benutzereingabe 10 zeigt. Die 9 und 10 sind Ansichten, die ein Beispiel für einen Übergang in dem Suchprozess auf eine Benutzereingabe 10-1, die ein Beispiel für die Benutzereingabe 10 ist, zeigen. Nachfolgend wird angenommen, dass die Benutzereingabe 10 die Eingabe eines Texts ist, und eine Erläuterung wird gegeben unter der Annahme, dass die in 9 gezeigte Benutzereingabe 10-1 eingegeben wird. Die Eingabeanalysevorrichtung 2 empfängt im Schritt ST11 die Benutzereingabe 10-1 und führt zuerst eine morphologische Analyse der Benutzereingabe so durch, dass Benutzereingabe-Analyseergebnisse 11-1 erzeugt werden, und zieht unabhängige Wörter aus den Benutzereingabe-Analyseergebnissen 11-1 so heraus, dass eine Schlüsselwortliste 11-2 erzeugt wird. Die Aussageinhalt-Schätzvorrichtung 14 verwendet im nächsten Schritt ST12 die Schlüsselwortliste 11-2 als eine Eingabe und erwirbt Dokumentenschätzergebnisse 15-1 wie in 10 gezeigt aus dem Aussageschätzmodell 9. Wie in 10 gezeigt ist, sind die Dokumentenschätzergebnisse 15-1 in einer Linie in der Reihenfolge ihrer Trefferergebnisse angeordnet. Diese Trefferergebnisse sind Werte, die anhand der Gewichte der Paare, die jeweils aus (einem Dokument ID und einer Schlüsselwortliste) bestehen, die in dem Aussageschätzmodell 9 gespeichert sind, berechnet wurden, und ein höheres Trefferergebnis wird einem Dokument-ID mit einem höheren Grad von Assoziation mit der Benutzereingabe 10 zugewiesen, d. h., einem Dokument-ID, der als eine Antwort auf die Frage der Benutzereingabe 10 geeigneter ist.
  • Nachdem die Dokumentenschätzergebnisse 15-1 erworben wurden, verwendet im nächsten Schritt ST13 die Dokumentensucheinheit 12 die Schlüsselwortliste 11-2 dieses Mal als eine Eingabe und erwirbt die in 10 gezeigten Dokumentensuchergebnisse 13-1 aus den Suchindizes 5. Wie in 10 gezeigt ist, sind die Dokumentensuchergebnisse 13-1 auch in einer Linie in der Reihenfolge ihrer Trefferergebnisse angeordnet. Dieses Trefferergebnisse sind von den Gewichten von tf-idf, die in den Suchindizes 5 gespeichert sind, berechnete Werte, und ein höheres Trefferergebnis wird einem Dokument-ID zugewiesen, der einen höheren Grad von Assoziation mit der Benutzereingabe 10 hat. Da eine bekannte Technik als ein Berechnungsverfahren zum Berechnen der Trefferergebnisse in den Dokumentenschätzergebnissen 15 und der Trefferergebnisse in den Dokumentensuchergebnissen verwendet werden kann, wird die Erläuterung des Berechnungsverfahrens nachfolgend weggelassen.
  • Nachdem der Prozess des Schrittes ST13 beendet ist, geht die Dokumentensuchvorrichtung dann zu einem Prozess des Schritts ST14 weiter, und die Ergebnisintegrationsvorrichtung 16 beurteilt, ob das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-1 gleich einem oder größer als ein Schwellenwert X (z. B. ist X = 0,9), der in diesem Schritt bestimmt wird, ist oder nicht. Da das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-1 kleiner als der Schwellenwert X ist (bei ”NEIN” im Schritt ST14), geht die Ergebnisintegrationsvorrichtung 16 zu einem Prozess des Schrittes ST16 weiter. Die Ergebnisintegrationsvorrichtung führt im Schritt ST16 eine gewichtete Addition bei jedem Trefferergebnis in den Dokumentensuchergebnissen 13-1 und dem entsprechenden Trefferergebnis in den Dokumentenschätzergebnissen 15-1 für jeden Dokument-ID so durch, dass endgültige Suchergebnisse 17-1 erzeugt werden. Gemäß 10 sind die Ergebnisse der Durchführung der Addition mit (jedes Trefferergebnis in den Dokumentenschätzergebnissen 15-1):(das entsprechende Trefferergebnis in den Dokumentensuchergebnissen 13-1) = 1:1 die endgültigen Suchergebnisse 74.
  • Demgegenüber verwirft, wenn im Schritt ST14 das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-1 den Schwellenwert X überschreitet (bei ”JA” im Schritt ST14), die Ergebnisintegrationsvorrichtung 16 im nächsten Schritt ST15 die Dokumentensuchergebnisse 13-1 und bestimmt die Dokumentenschätzergebnisse 15-1 als die endgültigen Suchergebnisse (nicht gezeigt). Nachdem die Suche beendet ist, zeigt die Dokumentensuchvorrichtung die Titel oder dergleichen der Dokument-ID auf dem Schirm an, um dem Benutzer zu ermöglichen, einen von diesen auszuwählen, wodurch dem Benutzer seine gewünschte Dokumentposition dargestellt wird.
  • Wie vorstehend beschrieben ist, enthält die Dokumentensuchvorrichtung nach dem Ausführungsbeispiel 1: die anhand des Dokuments 1, das vorher vorbereitet wurde, erzeugten Suchindizes 5; die Dokumentensucheinheit 12, die die Benutzereingabe-Analyseergebnisse 11, die durch Analysieren der Benutzereingabe 10 erworben wurden, empfängt und das Dokument 1 nach Dokument-IDn, die mit den Benutzereingabe-Analyseergebnissen 11 assoziiert sind, durchsucht unter Verwendung der Suchindizes 5; das Aussageschätzmodell 9, das erzeugt wird durch Lernen der gesammelten Aussagedaten 6, in denen eine Entsprechung zwischen hypothetischen Fragen (Benutzeraussagen) jeweils hinsichtlich eines Inhalts des Dokuments 1 und Dokument-IDn, von denen jeder eine Antwort auf eine der hypothetischen Fragen ist; die Aussageinhalts-Schätzvorrichtung 14, die einen Dokument-ID entsprechend einer Antwort auf die Benutzereingabe-Analyseergebnisse 11 anhand des Dokuments 1 auf der Grundlage des Aussageschätzmodells 9 schätzt; und die Ergebnisintegrationsvorrichtung 16, die von der Dokumentensucheinheit 12 erworbene Dokumentensuchergebnisse 13 und von der Aussageinhalts-Schätzvorrichtung 14 erworbene Dokumentenschätzergebnisse 15 so integriert, dass endgültige Suchergebnisse 17 erzeugt werden. Daher führt die Dokumentensuchvorrichtung eine Aussageinhaltsschätzung auf der Grundlage der gesammelten Aussagedaten 6 durch, die von einer einfachen Dokumentensuchfunktion verschieden ist, wodurch es möglich ist, eine Suche durchzuführen, die durch eine herkömmliche Dokumentensuchfunktion nicht realisiert werden kann, unter Verwendung von einem von einem Ausdruck und einem allgemeinen Begriff, der eingegeben ist durch einen von einem allgemeinen Benutzer und einem Anfängerbenutzer, und der in dem Dokument 1 nicht erscheint. Daher können Suchergebnisse, die im Vergleich zu Ergebnissen, die durch Verwendung eines einfachen Suchverfahrens erworben wurden, geeigneter sind, als Antwort auf eine Benutzereingabe in natürlicher Sprache dargestellt werden.
  • Weiterhin fügt gemäß dem Ausführungsbeispiel 1 die Aussageinhalts-Schätzvorrichtung 14 ein Trefferergebnis gemäß dem Grad der Assoziation mit der Benutzereingabe 10 zu jedem geschätzten Dokument-ID hinzu und, wenn das Trefferergebnis in den Dokumentenschätzergebnissen 15, die von der Aussageinhalts-Schätzvorrichtung 14 erworben wurden, größer als der vorbestimmte Schwellenwert X ist, vernachlässigt die Ergebnisintegrationsvorrichtung 16 die von der Dokumentensucheinheit 12 erworbenen Dokumentensuchergebnisse 13, um endgültige Suchergebnisse 17 zu erzeugen. Daher kann, wenn die Eingabe von einem von einem allgemeinen Benutzer und einem Anfängerbenutzer vorgenommen wird und einer von einem Ausdruck und einem allgemeinen Begriff ist, die nicht in dem Dokument 1 erscheinen, die Dokumentensuchvorrichtung verhindern, dass die Suchergebnisse viele ungeeignete Suchergebniskandidaten enthalten, anders als in dem Fall des Verwendens eines einfachen Suchverfahrens, und sie kann angemessenere Suchergebnisse für die Benutzereingabe präsentieren.
  • Obgleich die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel derart ausgebildet ist, dass sie, wenn das größte Trefferergebnis in den Dokumentenschätzergebnissen 15 größer als der vorbestimmte Schwellenwert X ist, die Dokumentenschätzergebnisse 15 als endgültige Suchergebnisse 17 bestimmt, so wie sie sind, kann die Dokumentensuchvorrichtung alternativ eine Gewichtungshinzufügung jedes Trefferergebnisses in den Dokumentenschätzergebnissen 15 und dem entsprechenden Trefferergebnis in den Dokumentensuchergebnissen 13 mit einem vorbestimmten Verhältnis vom Anfang an durchführen. Während jedes Trefferergebnis in den Dokumentenschätzergebnissen 15 anhand des direkt von der Aussage des Benutzers geschätzten Dokuments berechnet wird, wird jedes Trefferergebnis in den Dokumentensuchergebnissen 13 anhand der Anwesenheit oder Abwesenheit eines Schlüsselworts in dem Dokument berechnet. Demgemäß kann, obgleich jedes der beiden Verfahren seine Vor- und Nachteile hat, die Dokumentensuchvorrichtung endgültige Suchergebnisse präsentieren, die sehr gute Trefferergebnisse gemäß den beiden Verfahren haben, indem eine Gewichtungsaddition bei den durch die beiden Verfahren erhaltenen Trefferergebnissen durchgeführt wird.
  • Weiterhin enthält die Dokumentensuchvorrichtung nach dem Ausführungsbeispiel 1: die Eingabeanalysevorrichtung 2, die das vorher vorbereitete Dokument 1 und die gesammelten Aussagedaten 6 analysiert, in denen eine Entsprechung zwischen Benutzeraussagen, die jeweils eine Frage über einen Inhalt des Dokuments 1 stellen, und Dokument-IDn, die jeweils eine Antwort auf eine der Benutzeraussagen ist, definiert ist; den Suchindexgenerator 4, der Suchindizes 5 aus von der Eingabeanalysevorrichtung 2 ausgegebenen Dokumentenanalyseergebnissen 3 erzeugt; und den Aussageschätzmodellgenerator 8, der die Entsprechung zwischen den Benutzeraussagen und den Dokument-IDn lernt durch Verwendung der gesammelten Aussageanalyseergebnisse 7, die von der Eingabeanalysevorrichtung 2 ausgegeben wurden, um ein Aussageschätzmodell 9 zu erzeugen. Daher kann die Dokumentsuchvorrichtung eine Suche durchführen, die nicht durch eine herkömmliche Dokumentensuchfunktion realisiert werden kann, unter Verwendung von einem von einem Ausdruck und einem allgemeinen Begriff, der durch einen von einem allgemeinen Benutzer und einem Anfängerbenutzer eingegeben wird und der nicht in dem Dokument 1 erscheint.
  • Ausführungsbeispiel 2
  • 11 ist ein Blockschaltbild, das die Struktur einer Dokumentensuchvorrichtung nach diesem Ausführungsbeispiel 2 zeigt. In 11 sind dieselben Komponenten wie die in 1 gezeigten oder ähnliche Komponenten durch dieselben Bezugszahlen bezeichnet, und die Erläuterung der Komponenten wird nachfolgend weggelassen. Ein großer Unterschied zwischen dem Ausführungsbeispiel 2 und dem vorbeschriebenen Ausführungsbeispiel 1 besteht in den folgenden beiden Punkten.
    • (1) Erzeugen eines Aussageschätzmodells 9, in welchem gesammelte Aussagedaten 6 jeweils Dokument-IDn von größeren Einheiten anstatt von feineren Einheiten zugewiesen sind.
    • (2) Verwenden von Dokumentenschätzergebnissen 15, um den Suchbereich zu beschränken, unter Verwendung von Suchindizes 5.
  • Gemäß 11 beschränkt ein Suchzielbegrenzer 18 das Suchziel einer Dokumentensucheinheit 12 auf Dokument-ID unterer Schichten von Dokumentschätzergebnissen 15. Eine Dokumentenbegrenzungsliste 19 hält begrenzte Dokument-ID.
  • 12 ist eine Ansicht, die die hierarchischen Schichten von Dokument-IDn eines Dokuments 1 zeigt. Das Beispiel nach 12 zeigt, dass gesammelte Aussagedaten 6 Dokument-IDn in einer ersten hierarchischen Schicht und Dokument-IDn in einer zweiten hierarchischen Schicht zugewiesen sind, ohne dass die gesammelten Aussagedaten 6 Dokument-IDn in Schichten, die niedriger als die zweite hierarchische Schicht sind (Dokument-ID, die jeweils von einem Rechteck umschlossen sind), zugewiesen sind.
  • Als Nächstes wird die Arbeitsweise der Dokumentensuchvorrichtung erläutert. Ein Ablauf in dem Erzeugungsprozess ist im Wesentlichen derselbe wie der gemäß dem vorbeschriebenen Ausführungsbeispiel 1. Jedoch wird, wie in 12 gezeigt ist, angenommen, dass die Zuweisung der gesammelten Aussagedaten 6 zu Dokument-IDn auf die hierarchischen Schichten auf demselben Pegel wie der oder höher als der zweiten hierarchischen Schicht begrenzt ist. Daher sind bei dem in 4 gezeigten Beispiel die gesammelten Aussagedaten 6-1 einem Dokument-ID ”Id_10” zugewiesen, und die anderen gesammelten Aussagedaten 6-2 bis 6-4 sind sämtlich einem Dokument-ID ”Id_10_1” zugewiesen.
  • Als Nächstes wird ein Suchprozess erläutert. 13 ist ein Flussdiagramm, das einen Ablauf enthaltend bis zu einem Prozess des Erzeugens endgültiger Suchergebnisse 17 aus einer Benutzereingabe 10 zeigt. 14 ist eine Ansicht, die die Arbeitsweise des Suchzielbegrenzers 18 erläutert. Wie in dem Fall des vorbeschriebenen Ausführungsbeispiels 1 wird eine Erläuterung unter der Annahme gemacht, dass die Benutzereingabe 10 die Eingabe eines Texts ist und eine in 9 gezeigte Benutzereingabe 10-1 eingegeben wird. Eine Eingabeanalysevorrichtung 2 analysiert im Schritt ST11 die Benutzereingabe 10-1, wie in dem in 8 gezeigten Fall. Als Nächstes führt im Schritt ST12 eine Aussageinhalts-Schätzvorrichtung 14 eine Aussageinhaltsschätzung durch. Als die Ergebnisse der Schätzung werden Dokumentenschätzergebnisse 15-2 (Dokument-ID und Trefferergebnisse), die in 14 gezeigt sind, erhalten. Da die Zuweisung der gesammelten Aussagedaten 6 zu Dokument-IDn auf die hierarchischen Schichten auf denselben Pegel wie oder höher als die zweite hierarchische Schicht begrenzt ist, wie vorstehend beschrieben ist, gibt es keine Dokument-ID von hierarchischen Schichten auf demselben Pegel wie der oder niedriger als die dritte hierarchische Schicht.
  • Der Suchzielbegrenzer 18 prüft im nächsten Schritt ST21, ob ein oder mehrere Dokument-ID, deren Trefferergebnisse in den Dokumentschätzergebnissen 15-2 gleich einem oder größer als ein Schwellenwert Y (z. B. ist Y = 0,6) sind, existieren. Da das Trefferergebnis von ”ID_10_1” gleich oder größer als 0,6 in den Dokumentenschätzergebnissen 15-2 ist (bei ”JA” im Schritt ST21), verschiebt der Suchzielbegrenzer den Prozess zum Schritt ST22, erweitert den Dokument-ID, dessen Trefferergebnis gleich dem oder größer als der Schwellenwert Y ist, in Dokument-ID in unteren hierarchischen Schichten, und addiert dasselbe Trefferergebnis zu jedem der erweiterten Dokument-ID. Weiterhin wählt, da nur ”Id_10_1” ein Trefferergebnis gleich dem oder größer als der Schwellenwert Y in den Dokumentenschätzergebnissen 15-2 hat, der Suchzielbegrenzer 18 die Dokument-ID von ”Id_10_1_1” bis ”Id_10_1_7” in den Schichten, die niedriger als die von ”Id_10_1” sind, als ein Suchziel aus und setzt die Dokument-ID als eine Dokumentenbegrenzungsliste 19-1.
  • Die Dokumentensucheinheit 12 durchsucht im nächsten Schritt ST23 die Suchindizes 5 durch Verwendung einer in 14 gezeigten Schlüsselwortliste 11-2 und erwirbt Dokumentensuchergebnisse 13-1. Die Dokumentensuchvorrichtung gibt dann im Schritt ST24 die Ergebnisse des Multiplizierens jedes Trefferergebnisses in diesen Dokumentensuchergebnissen 13-1 mit dem entsprechenden Trefferergebnis in der Dokumentenbegrenzungsliste 19-1 als endgültige Suchergebnisse 17-2 aus.
  • Demgegenüber verwirft, wenn im Schritt ST21 kein den Schwellenwert Y übersteigendes Trefferergebnis in den Dokumentenschätzergebnissen 15-2 existiert (bei ”NEIN” im Schritt ST21), der Suchzielbegrenzer 18 diese Dokumentenschätzergebnisse 15-2 (Schritt ST25), und die Dokumentensucheinheit 12 erwirbt im nächsten Schritt ST26 Dokumentensuchergebnisse (nicht gezeigt) mit sämtlichen Dokument-IDn, die als das Suchziel bestimmt sind, und gibt die Dokumentsuchergebnisse als endgültige Suchergebnisse (nicht gezeigt) so wie sind aus.
  • Wie vorstehend beschrieben ist, ist die Suchvorrichtung gemäß dem Ausführungsbeispiel 2 so ausgebildet, dass die Dokumentensuchvorrichtung einen Suchzielbegrenzer 18 enthält, der einen Dokument-ID, dessen Trefferergebnis gleich dem oder größer als der vorbestimmte Schwellenwert Y ist, und einen anderen Dokument-ID in einer niedrigeren Schicht als der des Dokument-ID aus den von der Aussageinhalts-Schätzvorrichtung 14 erworbenen Dokumentenschätzergebnissen 15 herauszieht, wobei die Aussageinhalts-Schätzvorrichtung 14 eine Schätzung auf der Grundlage eines Aussageschätzmodells durchführt, das eine Entsprechung zwischen Dokument-IDn in höheren hierarchischen Schichten als einer hierarchischen Schicht, die die kleinste Einheit für die Suche unter Verwendung der Suchindizes 5 ist, und den gesammelten Aussagedaten 6 gelernt hat, und die Ergebnisintegrationsvorrichtung 16 einen Dokument-ID, der in den Dokumentschätzergebnissen, die von der Aussageinhalts-Schätzvorrichtung 14 erworben und durch den Suchzielbegrenzer 18 herausgezogen wurden, enthalten ist, mit den von der Dokumentensuchvorrichtung 12 erworbenen Dokumentensuchergebnissen 13 integriert. Daher kann durch Zuweisen der gesammelten Aussagedaten 6 zu den Dokument-IDn in den höheren hierarchischen Schichten eine Umsetzung der gesammelten Aussagedaten 6 auf Dokument-ID, die eine kleine Differenz von Funktionen zwischen den Modellen des Produkts nicht zu berücksichtigen brauchen, realisiert werden. Daher kann die Umsetzung zwischen Dokument-IDn und den gesammelten Aussagendaten 6 erleichtert werden und eine Verringerung der Genauigkeit der Suche aufgrund von Datenknappheit kann verhindert werden. Weiterhin kann, da die Funktionen des Produkts auf einem Universalpegel definiert werden können, die Dokumentensuchvorrichtung die gesammelten Aussagedaten 6 auch bei der Entwicklung von Produkten mit vielen Modellen gemeinsam verwenden und kann neue Produkte leicht handhaben.
  • Obgleich bei den vorbeschriebenen Ausführungsbeispielen 1 und 2 die Erläuterung durch Verwendung von Suchindizes, die mit dem statistischen Suchverfahren im Einklang sind, als den Suchindizes 5 erfolgte, kann eine Wahrscheinlichkeit aufgestellt werden durch Verwendung von Suchindizes, die mit einem Boole'schen Suchverfahren im Einklang sind, auf der Grundlage der Gesamtsumme der Male des Erscheinens von Suchschlüsselwörtern. In diesem Fall kann ein Verfahren des Ausdrückens eines Maximums der Gesamtsumme der Male des Erscheinens von Suchschlüsselwörtern als N und des Definierens des Ergebnisses des Teilens der Gesamtsumme der Male des Erscheinens von Suchschlüsselwörtern in jedem Dokument durch N als ein Trefferergebnis und ein Verfahren des Ausdrückens der Gesamtsumme N aller Dokumente in den Suchergebnissen als M und des Definierens des Ergebnisses des Teilens der Gesamtsumme der Male des Erscheinens von Suchschlüsseln in jedem Dokument durch N als ein Trefferergebnis berücksichtigt werden.
  • Zusätzlich können, obgleich das Beispiel des Definierens eines unabhängigen Worts als jede Einheit für die Erzeugung der Suchindizes 5 und jede Einheit für die Erzeugung des Aussageschätzmodells 9 bei den vorbeschriebenen Ausführungsbeispielen 1 und 2 gezeigt ist, der Suchindex 5 und das Aussageschätzmodell 9 alternativ erzeugt werden durch Definieren einer Einheit, wie eines Phonem-n-Gramms oder eines Silben-n-Gramms als jeder Einheit für die Erzeugung der Suchindizes 5 und jeder Einheit für die Erzeugung des Aussageschätzmodells 9. Als eine Alternative können der Suchindex 5 und das Aussageschätzmodell 9 erzeugt werden durch Kombinieren eines Worts, das häufig erscheint, und eines Phonem-n-Gramms, oder eines Worts, das häufig erscheint, und eines Silben-n-Gramms. In diesem Fall können die Größe der Suchindizes 5 und die Größe des Aussageschätzmodells 9 reduziert werden.
  • Weiterhin kann bei den vorbeschriebenen Ausführungsbeispielen 1 und 2 ein spezieller Dokument-ID zu einer Aussage hinzugefügt werden, wie den in 4 gezeigten gesammelten Aussagedaten 6-4, der nicht irgendeinem Teil des Dokuments 1 zugewiesen werden kann, da keine entsprechende Produktfunktion existiert und daher keine zweckmäßige Beschreibung in dem Dokument existiert, um ein Aussageschätzmodell 9 zu erzeugen, und wenn der Dokument-ID mit dem größten Trefferergebnis in den Dokumentenschätzergebnissen 15 für die Benutzereingabe 10 der spezielle Dokument-ID ist, kann die Ergebnisintegrationsvorrichtung 16 endgültige Suchergebnisse 17 ohne Verwendung der Dokumentensuchergebnisse 13 erzeugen. Weiterhin kann in diesem Fall die Dokumentensuchvorrichtung so ausgestaltet sein, dass eine Nachricht entsprechend dem speziellen Dokument-ID präsentiert wird.
  • Zusätzlich kann, obgleich der Fall, in welchem die Benutzereingabe 10 eine Texteingabe ist, bei den vorbeschriebenen Ausführungsbeispielen 1 und 2 als ein Beispiel erläutert wird, eine Spracherkennung als eine Eingabeeinheit verwendet werden. In diesem Fall können ein Verfahren der Verarbeitung eines ersten Kandidatentexts in Spracherkennungsergebnissen als die Benutzereingabe 10 und ein Verfahren der Verarbeitung von ersten bis N-ten Kandidatentexten in den Spracherkennungsergebnissen als die Benutzereingabe 10 betrachtet werden. Weiterhin kann in dem Fall, in welchem Spracherkennungsergebnisse pro Morphem erzeugt werden, der Prozess durch die Eingabeanalysevorrichtung 2 weggelassen werden und die Spracherkennungsergebnisse können als die Benutzereingabe-Analyseergebnisse 11 so wie sind gehandhabt werden.
  • Weiterhin ist, obgleich das Beispiel einer Eingabe auf Japanisch bei den vorbeschriebenen Ausführungsbeispielen 1 und 2 erläutert ist, die Sprache nicht auf Japanisch beschränkt. Die vorliegende Erfindung kann auf eine Eingabe in einer anderen Sprache wie Englisch, Deutsch oder Chinesisch angewendet werden, und dieselbe Wirkung kann erzeugt werden durch Ändern der Eingabeanalysevorrichtung 2 gemäß der Sprache.
  • Ausführungsbeispiel 3
  • Nachfolgend wird ein Beispiel für eine Eingabe auf Englisch erläutert. Da eine Dokumentensuchvorrichtung gemäß diesem Ausführungsbeispiel 3 unter einem grafischen Gesichtspunkt dieselbe Struktur wie die in 1 gezeigte Dokumentensuchvorrichtung hat, wird die Dokumentensuchvorrichtung nach diesem Ausführungsbeispiel nachfolgend unter Verwendung von 1 erläutert.
  • 15 zeigt ein Beispiel für ein englisches Dokument 1, das in die Dokumentensuchvorrichtung gemäß diesem Ausführungsbeispiel 3 eingegeben wird. Das Dokument 1 hat eine Struktur aus hierarchischen Schichten, wie einer Kapitelschicht, einer Absatzschicht und einer Abschnittsschicht, und hat einen Dokument-ID, der eine Suchergebnisposition für jede hierarchische Schicht zeigt. Bei dem in 15 gezeigten Beispiel enthält ein Dokument 1-11 mit einem Dokument-ID ”Id_10_1” auch Texte, die in einer Datenstruktur einer unteren Schicht enthalten sind. Beispielsweise zeigt die Figur, dass ein Dokument 1-12 von ”Id_10_1_1” auch in dem Dokument 1-11 von ”Id_10_1” enthalten ist.
  • 16 zeigt ein Beispiel für Dokumentenanalyseergebnisse 3 und eine Schlüsselwortliste für die Suchindizes 5. ”Id_10_1_1” ist ein Beispiel für Dokumentenanalyseergebnisse und zeigt die Ergebnisse des Durchführens einer Eingabeanalyse gemäß einer morphologischen Analyse des in 15 gezeigten Dokuments 1-12 von ”Id_10_1_1”. Obgleich nur Informationen, in denen die Abschnitte der morphologischen Analyseergebnisse durch ”/” getrennt sind, in diesen Dokumentenanalyseergebnissen 3-11 gezeigt sind, werden tatsächlich auch Informationen enthaltend einen Teil aus Sprachinformationen erzeugt. Daten 3-12 für Suchindizes zeigen ein Beispiel für Daten, die auf der Grundlage der Dokumentenanalyseergebnisse 3-11 von ”Id_10_1_1” erzeugt sind und die ein Suchindexgenerator 4 verwendet. Bei diesem Ausführungsbeispiel werden Dokument-ID und unabhängige Wortmorpheme mit Ausnahme von Präpositionen, Artikeln, Hilfsverben und Pronomen herausgezogen.
  • 17 zeigt ein Beispiel für gesammelte Aussagedaten 6. Gesammelte Aussagedaten 6-11 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10”, gesammelte Aussagedaten 6-12 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10_1”, und gesammelte Aussagedaten 6-13 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10_1_1”. Obgleich gesammelte Aussagedaten 6-14 eine Frage sind, die eine Absicht des Wunsches ausdrücken, ein konkretes Änderungsverfahren des Änderns des Kartentyps zu wissen, sind die gesammelten Aussagedaten ein Beispiel für gesammelte Aussagedaten, die es unmöglich machen, irgendeinen Dokument-ID in derselben hierarchischen Schicht wie ”Id_10_1_1” auszuwählen, da der Kartentyp, den der Benutzer wünscht, durch das Produkt, das in diesem Ausführungsbeispiel angenommen wird, nicht vorgesehen werden kann.
  • 18 zeigt ein Beispiel für gesammelte Aussageanalyseergebnisse 7 und eine Schlüsselwortliste für ein Aussageschätzmodell 9. Gesammelte Aussageanalyseergebnisse 7-11 von ”Id_10_1_1” sind ein Beispiel für die gesammelten Aussageanalyseergebnisse von in 17 gezeigten gesammelten Aussagedaten 6-13 von ”Id_10_1_1”, und Daten 7-12 für ein Aussageschätzmodell zeigen ein Beispiel für Daten, die auf den gesammelten Aussageanalyseergebnissen 7-11 von ”ID_10_1_1” basieren und die ein Aussageschätzmodellgenerator 8 verwendet. Bei diesem Ausführungsbeispiel werden Dokument-ID und unabhängige Wortmorpheme mit Ausnahme von Präpositionen, Artikeln und Hilfsverben herausgezogen.
  • Als Nächstes wird die Arbeitsweise der Dokumentensuchvorrichtung erläutert. Die Arbeitsweise der Dokumentensuchvorrichtung gemäß diesem Ausführungsbeispiel 3 (ein Erzeugungsprozess und ein Suchprozess) ist grundsätzlich dieselbe wie die in den 6 bis 8 gemäß dem vorbeschriebenen Ausführungsbeispiel 1 gezeigte. Daher wird nur ein unterschiedlicher Teil im Folgenden erläutert. Zuerst wird der Erzeugungsprozess erläutert.
  • Zuerst wird ein Erzeugungsverfahren des Erzeugens von Suchindizes 5 in dem Erzeugungsprozess erläutert. Nachfolgend wird angenommen, dass eine Gewichtung gemäß tf-idf, die durch eine herkömmliche Technologie offenbart ist, durchgeführt wird. Wie in 15 gezeigt ist, wird angenommen, dass das Dokument 1 Paare enthält, in denen jeweils ein Dokument-ID mit einem Text assoziiert ist. Beispielsweise ist in einem Dokument 1-2 der Name des Dokument-ID ”Id_10_1_1” mit einem Text ”Fahrtrichtung nach oben. Zeige die Karte an, die so gedreht ist, dass sie immer der Richtung, in der Du fährst, zugewandt ist”. Im Schritt ST1 von 6 liest eine Eingabeanalysevorrichtung 2 das Dokument 1 mit dieser Struktur der Reihe nach und führt eine morphologische Analyse, die eine bekannte Technologie ist, bei dem Dokument so durch, dass das Dokument in Morphemreihen geteilt wird. Die Ergebnisse des Durchführens einer morphologischen Analyse bei dem Dokument 1-2 sind die Dokumentenanalyseergebnisse 3-11, die in 16 gezeigt sind. Obgleich nur Separatoren zum Trennen der Morpheme in diesen Dokumentanalyseergebnissen 3-11 gezeigt sind, enthalten die Dokumentenanalyseergebnisse tatsächlich Stücke von Teilen von Sprachinformationen, und die Prototypen sind konjugierte Wörter.
  • Nachdem Dokumentenanalyseergebnisse 3 für jeden von sämtlichen Dokument-IDn erzeugt wurden, zieht der Suchindexgenerator 4 im nächsten Schritt ST2 Morpheme (Schlüsselwörter), die für die Erzeugung von Suchindizes 5 erforderlich sind, aus allen Dokumentenanalyseergebnissen 3 heraus, erzeugt Paare von (einem Dokumenten-ID und einer Schlüsselwortliste), und erzeugt Suchindizes 5, bei denen jeweils eine Gewichtung unter Verwendung von tf-idf auf der Grundlage sämtlicher Paare durchgeführt wird. Das Paar (ein Dokument-ID und eine Schlüsselwortliste), das aus den in 16 gezeigten Dokumentenanalyseergebnissen 3-11 herausgezogen ist, ist gezeigt durch Daten 3-12 für Suchindizes, die auch in 16 gezeigt sind.
  • Da ein konkreter Ablauf für die Erzeugung von Suchindizes derselbe ist wie der gemäß dem vorbeschriebenen Ausführungsbeispiel 1, wird die Erläuterung des Erzeugungsablaufs nachfolgend weggelassen.
  • Als Nächstes wird der Erzeugungsprozess des Erzeugens eines Aussageschätzmodells 9 erläutert. Die gesammelten Aussagedaten 6 sind Daten, in denen vorher gesammelte Aussagen des Benutzers den Dokument-IDn von Dokumenten, die jeweils Antworten zu den Aussagen sind, zugewiesen sind, wie durch die gesammelten Aussagedaten 6-11 bis 6-14 in 17 gezeigt ist.
  • Da das Erzeugungsverfahren des Erzeugens der gesammelten Aussagedaten 6 dasselbe ist wie das gemäß dem vorbeschriebenen Ausführungsbeispiel 1, wird die Erläuterung des Erzeugungsverfahrens nachfolgend weggelassen.
  • Die Eingabeanalysevorrichtung 2 führt in dem in 7 gezeigten Schritt ST3 eine morphologische Analyse bei den gesammelten Aussagedaten 6 durch, wie in dem Fall des Empfangens des Dokuments 1 in dem vorstehend erläuterten Schritt ST1 als eine Eingabe. Beispielsweise sind die Ergebnisse des Durchführens einer morphologischen Analyse bei den in 17 gezeigten gesammelten Aussagedaten 6-13 die in 18 gezeigten gesammelten Aussageanalyseergebnisse 7-11. Der Aussageschätzmodellgenerator 8 zieht im nächsten Schritt ST4 einen Dokument-ID und eine Liste von Schlüsselwörtern als die Daten 7-12 für ein Aussageschätzmodell heraus, wie in dem Fall des vorstehend erläuterten Schritts ST2, und führt einen Lernvorgang für das Aussageschätzmodell 9 durch Anwendung eines ME-Verfahrens durch, wie in dem Fall des vorbeschriebenen Ausführungsbeispiels 1. Schlüsselwörter werden aus allen gesammelten Aussageanalyseergebnissen 7 herausgezogen, und das Lernen wird durchgeführt durch Anwendung des ME-Verfahrens derart, dass das Aussageschätzmodell 9 erzeugt wird. Genauer gesagt, für die gesammelten Aussageanalyseergebnisse 7-11, die in 18 gezeigt sind, werden die Daten 7-12 für das Aussageschätzmodell, die auch in 18 gezeigt sind, herausgezogen, und das vorbeschriebene Lernen wird auf der Grundlage dieser Daten 7-12 für das Aussageschätzmodell durchgeführt.
  • Als Nächstes wird der Suchvorgang erläutert. Die 19 und 20 sind Ansichten, die ein Beispiel für einen Übergang in dem Suchprozess bei einer Benutzereingabe 10-11, der ein Beispiel für die Benutzereingabe 10 ist, zeigen. Nachfolgend wird angenommen, dass die Benutzereingabe 10 eine Eingabe eines Texts ist, und eine Erläuterung wird unter der Annahme gegeben, dass die in 19 gezeigte Benutzereingabe 10-11 eingegeben wird. Die Eingabeanalysevorrichtung 2 empfängt im in 8 gezeigten Schritt ST11 die Benutzereingabe 10-11 und führt zuerst eine morphologische Analyse bei der Benutzereingabe durch, um Benutzereingabe-Analyseergebnisse 11-11 zu erzeugen, und zieht unabhängige Wörter unter Ausschluss von Präpositionen, Artikeln, Hilfsverben und Pronomen aus den Benutzereingabe-Analyseergebnissen 11-11 so heraus, dass eine Schlüsselwortliste 11-12 erzeugt wird. Eine Aussageinhalt-Schätzvorrichtung 14 verwendet im nächsten Schritt ST12 diese Schlüsselwortliste 11-12 als eine Eingabe und erwirbt Dokumentenschätzergebnisse 15-11 wie in 20 gezeigt aus dem Aussageschätzmodell 9. Wie in 20 gezeigt ist, sind die Dokumentenschätzergebnisse 15-11 in einer Linie in der Reihenfolge ihrer Trefferergebnisse angeordnet.
  • Nachdem die Dokumentenschätzergebnisse 15-11 erhalten sind, verwendet eine Dokumentensuchvorrichtung 12 im nächsten Schritt ST13 die Schlüsselwortliste 11-12 dieses Mal als eine Eingabe und erhält in 20 gezeigte Dokumentensuchergebnisse 13-11 aus den Suchindizes 5. Wie in 20 gezeigt ist, sind die Dokumentensuchergebnisse 13-11 auch in einer Linie in der Reihenfolge ihrer Trefferergebnisse angeordnet.
  • Eine Ergebnisintegrationsvorrichtung 16 beurteilt in dem nächsten Schritt ST14, ob das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-11 gleich einem oder größer als ein Schwellenwert X (beispielsweise ist X = 0,9), der in diesem Schritt bestimmt wurde, ist oder nicht. Da das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-11 kleiner als der Schwellenwert X ist (bei ”NEIN” im Schritt ST14), geht die Ergebnisintegrationsvorrichtung 16 zu einem Prozess des Schritts ST16 weiter. Die Ergebnisintegrationsvorrichtung führt im Schritt ST16 eine Gewichtungsaddition bei jedem Trefferergebnis in den Dokumentensuchergebnissen 13-11 und dem entsprechenden Trefferergebnis in den Dokumentenschätzergebnissen 15-11 für jeden Dokument-ID so durch, dass endgültige Suchergebnisse 17-11 erzeugt werden. Gemäß 20 sind die Ergebnisse des Durchführens der Addition mit (jedes Trefferergebnis in den Dokumentenschätzergebnissen 15-11):(das entsprechende Trefferergebnis in den Dokumentensuchergebnissen 13-11) = 1:1 die endgültigen Suchergebnisse 17-11.
  • Demgegenüber verwirft, wenn im Schritt ST14 das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-11 den Schwellenwert X überschreitet (bei ”JA” im Schritt ST14), die Ergebnisintegrationsvorrichtung 16 im nächsten Schritt ST15 die Dokumentensuchergebnisse 13-11 und bestimmt die Dokumentenschätzergebnisse 15-11 als die endgültigen Suchergebnisse (nicht gezeigt). Nach Beendigen der Suche zeigt die Dokumentensuchvorrichtung die Titel oder dergleichen der Dokument-ID auf dem Schirm an, um dem Benutzer zu ermöglichen, einen von diesen auszuwählen, wodurch seine gewünschte Dokumentposition dem Benutzer präsentiert wird.
  • Wie vorstehend beschrieben ist, kann die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 3 dieselben Prozesse wie diejenigen des vorbeschriebenen Ausführungsbeispiels 1 nicht nur bei einem japanischen Dokument, sondern einem englischen Dokument 1 durchführen, und kann dieselben Vorteile wie die durch das vorbeschriebene Ausführungsbeispiel 1 erhaltenen erzielen, auch wenn sie eine englische Eingabe empfängt. Obgleich eine Erläuterung nachfolgend weggelassen wird, kann die Struktur gemäß dem Ausführungsbeispiel 3 auf das vorbeschriebene Ausführungsbeispiel 2 angewendet werden.
  • Ausführungsbeispiel 4
  • Nachfolgend wird ein Beispiel für eine in Chinesisch ausgedrückte Eingabe erläutert. Da eine Dokumentensuchvorrichtung gemäß diesem Ausführungsbeispiel 4 unter einem grafischen Gesichtspunkt dieselbe Struktur wie die in 1 gezeigte Dokumentensuchvorrichtung hat, wird die Dokumentensuchvorrichtung nach diesem Ausführungsbeispiel nachfolgend unter Verwendung von 1 erläutert.
  • 21 zeigt ein Beispiel für ein in die Dokumentensuchvorrichtung nach diesem Ausführungsbeispiel eingegebenes chinesisches Dokument 1. Das Dokument 1 hat eine Struktur aus hierarchischen Schichten, wie einer Kapitelschicht, einer Absatzschicht und einer Abschnittsschicht, und hat einen Dokument-ID, der eine Suchergebnisposition für jede hierarchische Schicht zeigt. Bei dem in 21 gezeigten Beispiel enthält ein Dokument 1-21 mit einem Dokument-ID von ”Id_10_1” auch in der Datenstruktur einer unteren Schicht enthaltene Texte. Beispielsweise zeigt die Figur, dass ein Dokument 1-22 von ”Id_10_1_1” auch in dem Dokument 1-21 von ”Id_10_1” enthalten ist.
  • 22 zeigt ein Beispiel für Dokumentenanalyseergebnisse 3 und eine Schlüsselwortliste für die Suchindizes 5. ”Id_10_1_1” ist ein Beispiel für Dokumentenanalyseergebnisse und zeigt die Ergebnisse des Durchführens einer Eingabeanalyse gemäß einer morphologischen Analyse bei dem in 21 gezeigten Dokument 1-22 von ”Id_10_1_1”. Obgleich nur Informationen, in denen die Abschnitt der morphologischen Analyseergebnisse durch ”/” getrennt sind, in diesen Dokumentanalyseergebnissen 3-21 gezeigt sind, werden tatsächlich auch Informationen enthaltend einen Teil von Sprachinformationen erzeugt. Daten 3-22 für Suchindizes zeigen ein Beispiel für Daten, die auf der Grundlage der Dokumentanalyseergebnisse 3-22 von ”Id_10_1_1” erzeugt sind und die ein Suchindexgenerator 4 verwendet. Bei diesem Ausführungsbeispiel werden Dokument-ID und unabhängige Wortmorpheme mit der Ausnahme von Pronomen, Artikeln und Präpositionen herausgezogen.
  • 23 ist ein Beispiel für gesammelte Aussagedaten 6. Gesammelte Aussagedaten 6-21 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10”, gesammelte Aussagedaten 6-22 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10_1”, und gesammelte Aussagendaten 6-23 sind ein Beispiel für eine Frage entsprechend einem Dokument von ”Id_10_1_1”. Obgleich gesammelte Aussagedaten 6-24 eine Frage sind, die eine Absicht des Wunsches ausdrücken, ein konkretes Änderungsverfahren zum Ändern des Kartentyps zu wissen, sind die gesammelten Aussagedaten ein Beispiel für gesammelte Aussagedaten, die es unmöglich machen, irgendeinen Dokument-ID in derselben hierarchischen Schicht wie ”Id_10_1_1” auszuwählen, da der Kartentyp, den der Benutzer wünscht, nicht durch das Produkt, das in diesem Ausführungsbeispiel angenommen wird, vorgesehen werden kann.
  • 24 zeigt ein Beispiel für gesammelte Aussageanalyseergebnisse 7 und eine Schlüsselwortliste für ein Aussageschätzmodell 9. Die gesammelten Aussageanalyseergebnisse 7-2 von ”Id_10_1_1” sind ein Beispiel für die gesammelten Aussageanalyseergebnisse der in 23 gezeigten, gesammelten Aussagedaten 6-23 von ”Id_10_1_1”, und die Daten 7-22 für ein Aussageschätzmodell zeigen ein Beispiel für Daten, die auf den gesammelten Aussageanalyseergebnissen 7-21 von ”Id_10_1_1” basieren und die ein Aussageschätzmodellgenerator 8 verwendet. Bei diesem Ausführungsbeispiel werden Dokument-ID und unabhängige Wortmorpheme mit Ausnahme von Pronomen, Artikeln und Präpositionen herausgezogen.
  • Als Nächstes wird die Arbeitsweise der Dokumentensuchvorrichtung erläutert.
  • Die Arbeitsweise der Dokumentensuchvorrichtung gemäß diesem Ausführungsbeispiel 4 (ein Erzeugungsprozess und ein Suchprozess) ist grundsätzlich dieselbe wie die in den 6 bis 8 gezeigte gemäß dem vorbeschriebenen Ausführungsbeispiel 1. Daher wird nur ein unterschiedlicher Teil nachfolgend erläutert. Zuerst wird der Erzeugungsprozess erläutert.
  • Zuerst wird ein Erzeugungsverfahren des Erzeugens von Suchindizes 5 in dem Erzeugungsprozess erläutert. Nachfolgend wird angenommen, dass eine Gewichtung gemäß tf-idf, die durch eine herkömmliche Technologie offenbart ist, durchgeführt wird. Wie in 21 gezeigt ist, wird angenommen, dass das Dokument 1 Paare enthält, in denen jeweils ein Dokument-ID mit einem Text assoziiert ist.
  • Beispielsweise ist in dem Dokument 1-2 der Name des Dokument-ID ”Id_10_1_1” mit einem Text
    Figure DE112012006633T5_0002
    assoziiert.
  • Im Schritt ST1 von 6 liest eine Eingabeanalysevorrichtung 2 das Dokument mit dieser Struktur der Reihe nach und führt eine morphologische Analyse, die eine bekannte Technologie ist, bei dem Dokument so durch, dass das Dokument in Morphemreihen geteilt wird. Die Ergebnisse des Durchführens einer morphologischen Analyse bei dem Dokument 1-22 sind die in 22 gezeigten Dokumentenanalyseergebnisse 3-21. Obgleich nur Separatoren zum Trennen der Morpheme in diesen Dokumentanalyseergebnissen 3-21 gezeigt sind, enthalten die Dokumentenanalyseergebnis tatsächlich Stücke eines Teils von Sprachinformationen.
  • Nachdem Dokumentenanalyseergebnisse 3 für jeden von sämtlichen Dokument-IDn erzeugt wurden, zieht im nächsten Schritt ST2 der Suchindexgenerator 4 Morpheme (Schlüsselwörter), die für die Erzeugung von Suchindizes 5 erforderlich sind, aus allen Dokumentanalyseergebnissen 3 heraus, erzeugt Paare aus (einem Dokument-ID und einer Schlüsselwortliste), und erzeugt Suchindizes 5, bei denen jeweils eine Gewichtung unter Verwendung von tf-idf auf der Basis sämtlicher Paare durchgeführt wird. Das Paar (ein Dokument-ID und eine Schlüsselwortliste), das aus den in 22 gezeigten Dokumentenanalyseergebnissen 3-21 herausgezogen wurde, ist durch Daten 3-22 für Suchindizes gezeigt, die auch in 22 gezeigt sind.
  • Da ein konkreter Vorgang zum Erzeugen von Suchindizes derselbe wie der gemäß dem vorbeschriebenen Ausführungsbeispiel 1 ist, wird die Erläuterung des Erzeugungsvorgangs nachfolgend weggelassen.
  • Als Nächstes wird der Erzeugungsprozess des Erzeugens eines Aussageschätzmodells 9 erläutert. Die gesammelten Aussagedaten 6 sind Daten, in denen vorher gesammelte Aussagen von dem Benutzer den Dokument-IDn von Dokumenten, die jeweils Antworten auf die Aussagen sind, zugewiesen, wie als die gesammelten Aussagedaten 6-21 bis 6-24 in 23 gezeigt ist. Da das Erzeugungsverfahren des Erzeugens der gesammelten Aussagedaten 6 dasselbe wie das gemäß dem vorbeschriebenen Ausführungsbeispiel 1 ist, wird die Erläuterung des Erzeugungsverfahrens nachfolgend weggelassen.
  • Die Eingabeanalysevorrichtung 2 führt im in 7 gezeigten Schritt ST3 eine morphologische Analyse bei den gesammelten Aussagedaten 6 durch, wie in dem Fall des Empfangens des Dokuments 1 im vorstehend erläuterten Schritt ST1 als einer Eingabe. Beispielsweise sind die Ergebnisse des Durchführens einer morphologischen Analyse bei den in 23 gezeigten, gesammelten Aussagedaten 6-23 die in 24 gezeigten, gesammelten Aussageanalyseergebnisse 7-21. Der Aussageschätzmodellgenerator 8 zieht im nächsten Schritt ST4 einen Dokument-ID und eine Liste von Schlüsselwörtern als die Daten 7-22 für ein Aussageschätzmodell heraus, wie in dem Fall des vorstehend erläuterten Schritts ST2, und führt einen Lernvorgang für das Aussageschätzmodell 9 durch Anwendung eines ME-Verfahrens durch, wie in dem Fall des vorbeschriebenen Ausführungsbeispiels 1. Schlüsselwörter werden aus allen gesammelten Aussageanalyseergebnissen 7 herausgezogen, und das Lernen wird durch Anwendung des ME-Verfahrens derart durchgeführt, dass das Aussageschätzmodell 9 erzeugt wird. Genauer gesagt, für die in 24 gezeigten, gesammelten Aussageanalyseergebnisse 7-21 werden die Daten 7-22 für das Aussageschätzmodell, die auch in 24 gezeigt sind, herausgezogen, und der vorbeschriebene Lernvorgang wird auf der Grundlage dieser Daten 7-22 für das Aussageschätzmodell durchgeführt.
  • Als Nächstes wird der Suchprozess erläutert. Die 25 und 26 sind Ansichten, die ein Beispiel für einen Übergang in dem Suchprozess bei einer Benutzereingabe 10-21, die ein Beispiel für die Benutzereingabe 10 ist, zeigen. Nachfolgend wird angenommen, dass die Benutzereingabe 10 eine Eingabe eines Texts ist, und eine Erläuterung wird unter der Annahme gegeben, dass die in 25 gezeigte Benutzereingabe 10-21 eingegeben wird. Die Eingabeanalysevorrichtung 2 empfängt im in 8 gezeigten Schritt ST11 die Benutzereingabe 10-21 und führt zuerst eine morphologische Analyse bei der Benutzereingabe so durch, dass Benutzereingabe-Analyseergebnisse 11-21 erzeugt werden, und zieht unabhängige Wörter unter Ausschluss von Pronomen, Artikeln und Einführungsverben aus den Benutzereingabe-Analyseergebnissen 11-21 so heraus, dass eine Schlüsselwortliste 11-22 erzeugt wird. Eine Aussageinhalt-Schätzvorrichtung 14 verwendet im nächsten Schritt ST12 diese Schlüsselwortliste 11-22 als eine Eingabe und erwirbt Dokumentenschätzergebnisse 15-21 wie in 26 gezeigt aus dem Aussageschätzmodell 9. Wie in 26 gezeigt ist, sind die Dokumentenschätzergebnisse 15-21 in einer Linie in der Reihenfolge ihrer Trefferergebnisse angeordnet.
  • Nachdem die Dokumentenschätzergebnisse 25-21 erhalten wurden, verwendet eine Dokumentensucheinheit 12 im nächsten Schritt ST13 die Schlüsselwortliste 11-22 dieses Mal als eine Eingabe und erwirbt in 26 gezeigte Dokumentensuchergebnisse 13-21 aus den Suchindizes 5. Wie in 26 gezeigt ist, sind die Dokumentensuchergebnisse 13-21 auch in einer Linie in der Reihenfolge ihrer Trefferergebnisse angeordnet.
  • Eine Ergebnisintegrationsvorrichtung 16 beurteilt im nächsten Schritt ST14, ob das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-21 gleich einem oder größer als ein in diesem Schritt bestimmter Schwellenwert X (beispielsweise ist X = 0,9) ist oder nicht. Da das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-21 kleiner als der Schwellenwert X ist (bei ”NEIN” im Schritt ST14), geht die Ergebnisintegrationsvorrichtung 16 zu einem Prozess des Schritts ST16 weiter. Die Ergebnisintegrationsvorrichtung führt im Schritt ST16 eine Gewichtungsaddition bei jedem Trefferergebnis in den Dokumentensuchergebnissen 13-21 und dem entsprechenden Trefferergebnis in den Dokumentenschätzergebnissen 15-21 für jeden Dokument-ID so durch, dass endgültige Suchergebnisse 17-21 erzeugt werden. Gemäß 26 sind die Ergebnisse der Durchführung der Addition mit (jedes Trefferergebnis in den Dokumentenschätzergebnissen 15-21):(das entsprechende Trefferergebnis in den Dokumentensuchergebnissen 13-21) = 1:1 die endgültigen Suchergebnisse 17-21.
  • Demgegenüber verwirft, wenn im Schritt ST14 das größte Trefferergebnis in den Dokumentenschätzergebnissen 15-21 den Schwellenwert X überschreitet (bei ”JA” im Schritt ST14), die Ergebnisintegrationsvorrichtung 16 im nächsten Schritt ST15 die Dokumentensuchergebnisse 13-21 und bestimmt die Dokumentenschätzergebnisse 15-21 als die endgültigen Suchergebnisse (nicht gezeigt). Nachdem die Suche beendet ist, zeigt die Dokumentensuchvorrichtung die Titel oder dergleichen der Dokument-ID so auf dem Schirm an, dass dem Benutzer ermöglicht wird, einen von diesen auszuwählen, wodurch dem Benutzer seine gewünschte Dokumentenposition präsentiert wird.
  • Wie vorstehend beschrieben ist, kann die Dokumentensuchvorrichtung gemäß dem Ausführungsbeispiel 4 dieselben Prozesse wie diejenigen gemäß dem vorbeschriebenen Ausführungsbeispiel 1 nicht nur bei einem japanischen Dokument, sondern auch einem chinesischen Dokument 1 durchführen und dieselben Vorteile wie die durch das vorbeschriebene Ausführungsbeispiel 1 erhaltenen auch bei Empfang einer chinesischen Eingabe erhalten. Obgleich eine Erläuterung nachfolgend weggelassen wird, kann die Struktur gemäß dem Ausführungsbeispiel 4 auch auf das vorbeschriebene Ausführungsbeispiel 2 angewendet werden.
  • Während die Erfindung anhand ihrer bevorzugten Ausführungsbeispiele beschrieben wurde, ist darauf hinzuweisen, dass zusätzlich zu den vorbeschriebenen Ausführungsbeispielen eine beliebige Kombination von zwei oder mehr der Ausführungsbeispiele vorgenommen werden kann, verschiedene Änderungen bei einer beliebigen Komponente gemäß irgendeinem der Ausführungsbeispiele durchgeführt werden können und eine beliebige Komponente gemäß einem der Ausführungsbeispiele innerhalb des Bereichs der Erfindung weggelassen werden kann.
  • GEWERBLICHE ANWENDBARKEIT
  • Wie vorstehend beschrieben ist, ist, da die Dokumentensuchvorrichtung gemäß der vorliegenden Erfindung die Ergebnisse der Durchführung einer Suche eines Dokuments präsentiert durch Verwendung eines Aussageschätzmodells, das durch Lernen einer Entsprechung zwischen Fragen, die durch die Erwartung, welche Frage der Benutzer stellt, erzeugt wurden, und Dokumentendatenfeldern, die jeweils eine Antwort auf eine der Fragen sind, erzeugt wird, als Antwort auf eine Benutzereingabe in natürlicher Sprache, die Dokumentensuchvorrichtung geeignet zur Verwendung beispielsweise in einer Informationsvorrichtung, die eine elektronische Betriebsanleitung für ein Gerät durchsucht und darstellt, wie ein elektrisches Heimgerät oder ein in einem Fahrzeug befestigtes Gerät.
  • ERLÄUTERUNG DER BEZUGSZAHLEN
    • 1 Dokument, 2 Eingabeanalysevorrichtung, 3 Dokumentenanalyseergebnisse, 4 Suchindexgenerator, 5 Suchindizes, 6 gesammelte Aussagedaten, 7 gesammelte Aussageanalyseergebnisse, 8 Aussageschätzmodellgenerator, 9 Aussageschätzmodell, 10 Benutzereingabe, 11 Benutzereingabe-Analyseergebnisse, 12 Dokumentensucheinheit, 13 Dokumentensuchergebnisse, 14 Aussageinhalt-Schätzvorrichtung, 15 Dokumentenschätzergebnisse, 16 Ergebnisintegrationsvorrichtung, 17 endgültige Suchergebnisse, 18 Suchzielbegrenzer, 19 Dokumentenbegrenzungsliste.

Claims (6)

  1. Dokumentensuchvorrichtung, enthaltend anhand eines Dokuments, das vorher vorbereitet wurde, erzeugte Suchindizes und eine Dokumentensucheinheit, die eine Eingabe von einem Benutzer empfängt und das Dokument nach einem Datenfeld, das mit der Benutzereingabe assoziiert ist, durch Verwendung der Suchindizes durchsucht, welche Dokumentensuchvorrichtung aufweist: ein Aussageschätzmodell, das durch Lernen einer Entsprechung zwischen hypothetischen Fragen jeweils hinsichtlich eines Inhalts des Dokuments und Datenfeldern in dem Dokument, von denen jedes eine Antwort auf eine der hypothetischen Fragen ist, erzeugt wird; eine Aussageinhalt-Schätzvorrichtung, die ein Datenfeld entsprechend einer Antwort auf die Benutzereingabe anhand des Dokuments auf einer Grundlage des Aussageschätzmodells schätzt; und eine Ergebnisintegrationsvorrichtung, die von der Dokumentensucheinheit erworbene Dokumentensuchergebnisse und von der Aussageinhalt-Schätzvorrichtung erworbene Dokumentenschätzergebnisse so integriert, dass endgültige Suchergebnisse erzeugt werden.
  2. Dokumentensuchvorrichtung nach Anspruch 1, bei der die Aussageinhalt-Schätzvorrichtung ein Trefferergebnis gemäß einem Grad von Assoziation mit der Benutzereingabe zu dem geschätzten Datenfeld in dem Dokument hinzufügt, und, wenn ein Trefferergebnis in den von der Aussageinhalt-Schätzvorrichtung erworbenen Dokumentenschätzergebnissen größer als ein vorbestimmter Wert ist, die Ergebnisintegrationsvorrichtung die von der Dokumentensucheinheit erworbenen Dokumentensuchergebnisse vernachlässigt und die endgültigen Suchergebnisse erzeugt.
  3. Dokumentensuchvorrichtung nach Anspruch 1, bei der die Dokumentensucheinheit ein Trefferergebnis gemäß einem Grad der Assoziation mit der Benutzereingabe zu dem gesuchten Datenfeld in dem Dokument hinzufügt, die Aussageinhalt-Schätzvorrichtung ein Trefferergebnis gemäß einem Grad der Assoziation mit der Benutzereingabe zu dem geschätzten Datenfeld in dem Dokument hinzufügt, und die Ergebnisintegrationsvorrichtung die von der Dokumentensucheinheit erworbenen Dokumentensuchergebnisse und die von der Aussageinhalt-Schätzvorrichtung erworbenen Dokumentenschätzergebnisse integriert durch Hinzufügen des Trefferverhältnisses in den Dokumentensuchergebnissen und des Trefferergebnisses in den Dokumentenschätzergebnissen mit einem festen Verhältnis.
  4. Dokumentensuchvorrichtung nach Anspruch 1, bei der die Dokumentensuchvorrichtung einen Suchzielbegrenzer enthält, der ein Datenfeld, das einem vorbestimmten Kriterium genügt, aus den von der Aussageinhalt-Schätzvorrichtung erworbenen Dokumentenschätzergebnissen herauszieht, die Aussageinhalt-Schätzvorrichtung die Schätzung auf einer Grundlage eines Aussageschätzmodells durchführt, das durch Lernen einer Entsprechung zwischen Datenfeldern, die größer als eine kleinste Einheit für die Sucher unter Verwendung der Suchindizes ist, und den hypothetischen Fragen erzeugt wurde, und die Ergebnisintegrationsvorrichtung ein durch den Suchzielbegrenzer aus den von der Aussageinhalt-Schätzvorrichtung erworbenen Dokumentenschätzergebnissen herausgezogenes Datenfeld mit den von der Dokumentensucheinheit erworbenen Dokumentensuchergebnissen integriert.
  5. Dokumentensuchvorrichtung nach Anspruch 1, bei der die Dokumentensuchvorrichtung enthält: eine Eingabeanalysevorrichtung, die das vorher vorbereitete Dokument und gesammelte Aussagedaten, in denen die Entsprechung zwischen den hypothetischen Fragen jeweils hinsichtlich eines Inhalts des Dokuments und den Datenfeldern in dem Dokument, von denen jedes eine Antwort auf eine der hypothetischen Fragen ist, definiert ist, analysiert, einen Suchindexgenerator, der Suchindizes aus von der Eingabeanalysevorrichtung ausgegebenen Ergebnissen der Analyse des Dokuments erzeugt, und einen Aussageschätzmodellgenerator, der die Entsprechung zwischen den hypothetischen Fragen und den Datenfeldern in dem Dokument lernt durch Verwendung von von der Eingabeanalysevorrichtung ausgegebenen Ergebnissen der Analyse der gesammelten Aussagedaten, um das Aussageschätzmodell zu erzeugen.
  6. Dokumentensuchverfahren, welches aufweist: einen Benutzereingabeschritt des Annehmens einer Eingabe von einem Benutzer; einen Dokumentensuchschritt des Durchsuchens des Dokuments nach einem mit der Benutzereingabe assoziierten Datenfeld durch Verwendung von aus einem Dokument, das vorher vorbereitet wurde, erzeugten Suchindizes; einen Aussageinhalt-Schätzschritt des Schätzens eines Datenfelds entsprechend einer Antwort auf die Benutzereingabe aus dem Dokument auf einer Grundlage eines Aussageschätzmodells, das durch Lernen einer Entsprechung zwischen hypothetischen Fragen jeweils hinsichtlich eines Inhalts des Dokuments und Datenfeldern in dem Dokument, von denen jedes eine Antwort auf eine der hypothetischen Fragen ist, erzeugt wurde; und einen Ergebnisintegrationsschritt des Integrierens von durch den Dokumentensuchschritt erworbenen Dokumentensuchergebnissen und von durch den Aussageinhalt-Schätzschritt erworbenen Dokumentenschätzergebnissen, um endgültige Suchergebnisse zu erzeugen.
DE112012006633.2T 2012-03-13 2012-12-27 Dokumentensuchvorrichtung und Dokumentensuchverfahren Pending DE112012006633T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012055841 2012-03-13
JP2012055841 2012-03-13
PCT/JP2012/083925 WO2013136634A1 (ja) 2012-03-13 2012-12-27 ドキュメント検索装置およびドキュメント検索方法

Publications (1)

Publication Number Publication Date
DE112012006633T5 true DE112012006633T5 (de) 2015-03-19

Family

ID=49160587

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112012006633.2T Pending DE112012006633T5 (de) 2012-03-13 2012-12-27 Dokumentensuchvorrichtung und Dokumentensuchverfahren

Country Status (5)

Country Link
US (1) US20150112683A1 (de)
JP (1) JP5847290B2 (de)
CN (1) CN104221012A (de)
DE (1) DE112012006633T5 (de)
WO (1) WO2013136634A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116180A1 (en) * 2015-10-23 2017-04-27 J. Edward Varallo Document analysis system
US10606815B2 (en) 2016-03-29 2020-03-31 International Business Machines Corporation Creation of indexes for information retrieval
JP6805927B2 (ja) * 2017-03-28 2020-12-23 富士通株式会社 インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP7192507B2 (ja) * 2019-01-09 2022-12-20 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
CN111339261A (zh) * 2020-03-17 2020-06-26 北京香侬慧语科技有限责任公司 一种基于预训练模型的文档抽取方法及系统
US11386164B2 (en) 2020-05-13 2022-07-12 City University Of Hong Kong Searching electronic documents based on example-based search query
CN111783403B (zh) * 2020-06-11 2022-10-04 云账户技术(天津)有限公司 一种文档提供方法、设备及介质
KR102585545B1 (ko) * 2020-12-31 2023-10-05 채상훈 음성 기반 제품사용설명서 안내 서비스 제공 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5519608A (en) * 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
JP3495912B2 (ja) * 1998-05-25 2004-02-09 シャープ株式会社 学習機能付き検索装置
JP2002073661A (ja) * 2000-08-31 2002-03-12 Toshiba Corp 知的情報管理システム及び知的情報登録方法
JP2004302660A (ja) * 2003-03-28 2004-10-28 Toshiba Corp 質問応答システム、質問応答方法及びプログラム
US20070168382A1 (en) * 2006-01-03 2007-07-19 Michael Tillberg Document analysis system for integration of paper records into a searchable electronic database
JP2007219955A (ja) * 2006-02-17 2007-08-30 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
CN101086843A (zh) * 2006-06-07 2007-12-12 中国科学院自动化研究所 一种应用于语音问答系统中的句子相似度识别方法
US20090006358A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Search results
JP5229782B2 (ja) * 2007-11-07 2013-07-03 独立行政法人情報通信研究機構 質問応答装置、質問応答方法、及びプログラム
CN101593518A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 实际场景语料和有限状态网络语料的平衡方法
JP2010282403A (ja) * 2009-06-04 2010-12-16 Kansai Electric Power Co Inc:The 文書検索方法
EP2616927A4 (de) * 2010-09-24 2017-02-22 International Business Machines Corporation Verwendung ontologischer informationen bei einer bedrohung durch offene domänen

Also Published As

Publication number Publication date
JP5847290B2 (ja) 2016-01-20
WO2013136634A1 (ja) 2013-09-19
JPWO2013136634A1 (ja) 2015-08-03
US20150112683A1 (en) 2015-04-23
CN104221012A (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
DE112012006633T5 (de) Dokumentensuchvorrichtung und Dokumentensuchverfahren
DE69933187T2 (de) Dokumentensuchverfahren und Dienst
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE60030920T2 (de) Verfahren zur Ermittlung von Persönlichkeitsmerkmalen unter Verwendung eines sprachbasierten Dialogs
Griffin et al. Some observations on formal methods of qualitative analysis
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
DE102012224488A1 (de) System, Verfahren und Programm zur Entnahme eines themenfremden Teils aus einem Gespräch
DE112014007123T5 (de) Dialogsteuersystem und Dialogsteuerverfahren
EP3100174A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
DE3901485A1 (de) Dokumenten-wiedergewinnungssystem
DE102013202365A1 (de) Herausziehen von informationen aus krankenakten
DE102004003878A1 (de) System und Verfahren zum Identifizieren eines speziellen Wortgebrauchs in einem Dokument
DE102014112983A1 (de) Aktive Wissenslenkung beruhend auf Dokumententiefenanalyse
DE102022201753A1 (de) Erweiterung Graph- basierter Kennzeichnungsregeln für schwach überwachtesTraining von auf maschinellem Lernen basierender Eigennamenerkennung
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE10131193A1 (de) Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche
Bettega et al. Gender and number agreement in Arabic
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
Van Doorslaer Quantitative and qualitative aspects of corpus selection in translation studies

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R409 Internal rectification of the legal status completed
R409 Internal rectification of the legal status completed
R082 Change of representative

Representative=s name: PFENNING MEINIG & PARTNER GBR, DE

Representative=s name: PFENNING, MEINIG & PARTNER MBB PATENTANWAELTE, DE

R084 Declaration of willingness to licence
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000