DE69923650T2 - System für mehrsprachige Informationswiederauffindung - Google Patents

System für mehrsprachige Informationswiederauffindung Download PDF

Info

Publication number
DE69923650T2
DE69923650T2 DE69923650T DE69923650T DE69923650T2 DE 69923650 T2 DE69923650 T2 DE 69923650T2 DE 69923650 T DE69923650 T DE 69923650T DE 69923650 T DE69923650 T DE 69923650T DE 69923650 T2 DE69923650 T2 DE 69923650T2
Authority
DE
Germany
Prior art keywords
search
linguistic
elementary
words
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69923650T
Other languages
English (en)
Other versions
DE69923650D1 (de
Inventor
Jutta Williamowski
Uwe M. Borghoff
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Application granted granted Critical
Publication of DE69923650D1 publication Critical patent/DE69923650D1/de
Publication of DE69923650T2 publication Critical patent/DE69923650T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf das Durchsuchen von Informationsspeicherorten, wie etwa Datenbanken, und insbesondere auf eine Einrichtung zum Erzeugen mehrsprachiger Abfragen.
  • Eine beispielhafte Informations-Wiederauffindungsarchitektur ist im Aufsatz mit dem Titel "System Components For Embedded Information Retrieval From Multiple Disparate Information Sources", Ramana B. Rao, Daniel M. Russel und Jock D. Mackinlay, Proceedings of 1993 ACM Symposium on User Interface Software and Technology, Atlanta, GA, November 1993 ACM SIGGRAPH and SIGCHI beschrieben. Die Architektur enthält einen Zwischenserver, der Zugriffsanfragen zwischen einem Informationszugriffs-Client (d.h. dem Benutzer) und unterschiedlichen Informationsquellen verwaltet. Somit muß der Benutzer lediglich mit dem Informationszugriffs-Client arbeiten, um die Informationen aus unterschiedlichen Informationsquellen wiederaufzufinden.
  • Eine weitere Eigenschaft von Informationen im Internet besteht darin, daß sie in einer beliebigen Sprache sein können. Im allgemeinen sucht eine Suchanfrage nach Begriffen die in derselben Sprache sind wie die Suchanfrage. Bei Situationen, in denen die gefundenen Informationen in einer anderen Sprache sind, besteht der Grund hierfür normalerweise darin, daß die Informationen ein "Wort" beinhalten, das mit dem Suchbegriff übereinstimmt. Beispielsweise kann die Suche nach Informationen über eine berühmte Persönlichkeit oder Ereignis zum Erhalt von Informationen/Dokumenten in mehreren Sprachen führen.
  • Ein Verfahren auf der Basis eines Wörterbuchs für mehrsprachige Informationswiederauffindung ist von Lisa Ballesteros und Bruce Croft, "Dictionary Methods for Cross-Lingual Information Retrieval", Lecture Notes in Computer Science 1134 ISSN 0302-9743 (1996) beschrieben. Die Druckschrift beschreibt Versuche, die die Faktoren analysieren, die Verfahren auf der Basis eines Wörterbuchs für mehrsprachige Informationswiederauffindung und gegenwärtige Verfahren beeinflussen, die die Fehler drastisch verringern, die ein derartiger Ansatz normalerweise macht. Die Druckschrift definiert die mehrsprachige Informationswiederauffindung als die Fähigkeit, in einer Sprache zu suchen, das Wiederauffinden jedoch in mehreren Sprachen auszuführen.
  • Gemäß einem Aspekt der vorliegenden Erfindung umfaßt ein Verfahren zum Erzeugen einer mehrsprachigen Abfrage in einem Informations-Wiederauffindungssystem folgende Schritte:
    • a) Empfangen eines Suchbegriffes;
    • b) Extrahieren eines oder mehrerer elementarer Wörter aus dem Suchbegriff;
    • c) Bestimmen abgestammter Übersetzungen für jedes der einzelnen oder der mehreren Wörter;
    • d) Suchen nach und Wiederauffinden von Dokumenten, die Kombinationen der abgestammten Übersetzungen enthalten;
    • e) Verifizieren, daß die angestammten Übersetzungen der elementaren Wörter in den wiederaufgefundenen Dokumenten dieselbe linguistische Struktur haben wie die elementaren Wörter des Suchbegriffs; und
    • f) Verwerfen der wiederaufgefundenen Dokumente, wenn die abgestammte Übersetzung der elementaren Wörter in den Dokumenten nicht dieselbe linguistische Struktur hat wie die elementaren Wörter des Suchbegriffs.
  • Die Erfindung bezieht sich auf das Durchsuchen von Datenbanken, die über ein Netzwerk, wie etwa das Internet, verteilt und über dieses zugänglich sind. Diese Erfindung versetzt einen Benutzer in die Lage, eine Abfrage zu erzeugen, die Suchbegriffe und Ausdrücke in ihrer Muttersprache verwendet, und festzulegen, daß die Suchergebnisse Dokumente in anderen Sprachen enthalten können. Mit der Abfrage zeigt der Benutzer die Zielsprache an, in der die Ergebnisse akzeptiert werden. Das System verarbeitet anschließend die Abfrage mit Hilfe computerlinguistischer Techniken und verifiziert die Genauigkeit der erhaltenen Ergebnisse im Bezug auf ihre Sprache und die linguistische Struktur der Ausgangssuchbegriffe. Bei einem Ausdruck, der aus mehreren Worten besteht, können sämtliche Kombinationen automatisch verifiziert werden.
  • Ein Beispiel eines Verfahrens und einer Vorrichtung gemäß der Erfindung wird nun unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben. In diesen ist/sind:
  • 1 ein Blockschaltbild, das die Bestandteile und den Vorgangsablauf eines Informations-Wiederauffindungssystems der bevorzugten Ausführungsform der vorliegenden Erfindung darstellt;
  • 23 ein einfaches und komplexes Abfragefenster, wie sie bei der bevorzugten Ausführungsform der Erfindung verwendet werden können;
  • 4 und 5 ein einfaches und ein komplexes Ergebnisfenster, wie sie bei der bevorzugten Ausführungsform der vorliegenden Erfindung Verwendung finden können;
  • 67 ein Fenster, das eine Benutzerschnittstelle zeigt, um die mehrsprachige Informations-Wiederauffindung festzulegen, wie es bei der bevorzugten Ausführungsform der vorliegenden Erfindung ausgeführt werden kann;
  • 8 eine diagrammartige Darstellung des Verfahrens für die mehrsprachige Informations-Wiederauffindung, wie sie bei der bevorzugten Ausführungsform der vorliegenden Erfindung ausgeführt werden kann;
  • 9 eine diagrammartige Darstellung eines "Übersetzungs- und Stammbildungs-"Schrittes des Verfahrens von 8, wie es bei der bevorzugten Ausführungsform der vorliegenden Erfindung ausgeführt werden kann; und
  • 10 eine Darstellung eines Systems auf Computerbasis, wie es verwendet werden kann, um die bevorzugte Ausführungsform der vorliegenden Ausführungsform auszuführen.
  • Die vorliegende Erfindung bezieht sich auf eine Schnittstelle für die Erzeugung von Abfragen auf und das Wiederauffinden von Informationen aus einer oder mehreren Informationsquellen. Die bevorzugte Ausführungsform wird in einem Informations-Wiederauffindungssystem ausgeführt, das Softwarevermittler bereitstellt, die mehrere heterogene Datenbanken abfragen, Informationen rekonstruieren und angepaßte Berichte erstellen können. Eine Beschreibung des Systems folgt unten, wobei eine umfangreichere Beschreibung, wie etwa zum Zeitpunkt der Einreichung dieser Anmeldung unter folgender URL (Uniform Resource Locator) im Internet zu finden ist: (http://.xrce.xerox.com/research/ct/research/cbkb.html.) Die vorliegende Erfindung baut auf dem System auf, indem eine Einrichtung bereitgestellt wird, um dynamische komplexe Abfragen zu erzeugen. Bei einer dynamischen komplexen Abfrage sind die Abfrageattribut-Spezifikation dynamisch und nicht statisch, so daß die Ergebnisse (oder Teilergebnisse) einer Abfrage als Attribut-Spezifikation für eine weitere Abfrage verwendet werden können. Weiterhin wird die Einrichtung dem Benutzer in einer sehr intuitiven Art zur Verfügung gestellt, indem hinreichend bekannte grafische Drag-and-Drop-Schnittstellenverfahren zur Anwendung kommen.
  • Die bevorzugte Ausführungsform der vorliegenden Erfindung eignet sich für die Verwendung auf Computersystemen, die in der Lage sind, auf des Internet unter Verwendung eines geeigneten Java®-Browsers zuzugreifen. Die unterschiedlichen Softwareprogramme, die bei der Ausführung verwendet werden, sind in der hinlänglich bekannten Java-Programmiersprache beschrieben.
  • 1 stellt dar, wie Informationsanfragen im Informations-Wiederauffindungssystem verarbeitet werden. Unter Bezugnahme auf 1 fragt ein Benutzer 101 Informationen durch einen Bedarfsvermittler 102 ab. Der Bedarfsvermittler 102 bildet normalerweise eine Benutzerschnittstelle, die einem Benutzer bereitgestellt wird. Bei der bevorzugten Ausführungsform ist der Bedarfsvermittler ein Java®-Applet, das auf das Computersystem des Benutzers heruntergeladen wird und auf das unter Verwendung eines in geeigneter Weise konfigurierten Browsers (wie etwa Netscape Navigator® mit entsprechenden Java®-Softwarefähigkeiten) zugegriffen werden kann.
  • Die Bedarfsvermittler 102 stellen anschließend die Informationsanfrage einem Zwischenvermittler 103 zur Verfügung. Die Zwischenvermittler 103 zerlegen Informationsanfragen in voneinander abhängige Unteranfragen 104. Die Anfragen oder Unteranfragen, die nicht weiter zerlegt werden können, werden Versorgungsvermittlern 105 zugeführt, die auf elektronische Informationsspeicherorte mit Hilfe von Suchmaschinen 106 zugreifen. Die Versorgungsvermittler 105 sind normalerweise als Schnittstelle konfiguriert, die die Protokolle einer bestimmten Suchmaschine verwenden. Es kann beispielsweise ein Versorgungsvermittler bereitgestellt sein, der mit der Suchmaschine Alta Vista® arbeitet und Anfragen an diese stellt. Bei der bevorzugten Ausführungsform arbeiten die Zwischenvermittler und die Versorgungsvermittler auf einem Serversystem, das die Informations-Wiederauffindung bereitstellt.
  • Die Ergebnisse der Informationsanfrage werden vom Zwischenvermittler 103 empfangen und anschließend wieder zusammengesetzt. Es wird darauf hingewiesen, daß das Informations-Wiederauffindungssystem dem Benutzer erweiterte Abfragemöglichkeiten zur Verfügung stellt, die durch einige Informationsquellen nicht bereitgestellt werden, weshalb das Wiederzusammensetzen weiteres Filtern der Ergebnisse beinhaltet, um die erweiterten Abfragemöglichkeiten zu ermöglichen. Die Wiederzusammenstellung kann weiterhin Aufgaben, wie etwa das Formatieren der empfangenen Informationen und/oder das Aufstellen einer Sortierung der Ergebnisse mit Bezug auf die Suchabfrage enthalten. Sobald die Wiederzusammenstellung abgeschlossen ist, werden die Ergebnisse an die Bedarfsvermittler 102 zur Darstellung für den Benutzer 101 zurückgegeben.
  • Es wird darauf hingewiesen, daß Anfragen, Informationen und Ergebnisse vorzugsweise über Merkmalbeschränkungen repräsentiert werden. Anfragen müssen nicht vollständig definiert sein; sie können Teilspezifikationen der angefragten Informationen entsprechen. Weiterhin können Anfragen, die nicht vollständig erfüllt werden können, dennoch Ergebnisse in Gestalt von Teilobjekten liefern, die ursprüngliche Anfragen verfeinern, indem einige der Attribute instanziiert werden oder neue Attribute hinzugefügt werden, wodurch eine Benutzerrückmeldung erzeugt wird.
  • Unterschiedliche Aspekte des Informations-Wiederauffindungssystems finden sich in den folgenden PCT-Veröffentlichungen WO 98/48359 (29. Oktober 1998) und WO 98/48361 (29. Oktober 1998).
  • Jeder der unterschiedlichen Vermittler, die oben beschrieben wurden, ist vorzugsweise als Softwareprogramme ausgeführt, das in der Java-Programmiersprache geschrieben ist, um auf in geeigneter Weise konfigurierten Computersystemen ausgeführt zu werden.
  • Die Informationssystem-Benutzerschnittstelle wird dem Benutzer normalerweise über den Bedarfsvermittler dargeboten, der oben beschrieben wurde. 2 ist eine Darstellung eines Abfragefensters zum Spezifizieren einer Abfrage. Unter Bezugnahme auf 2 stellt ein Gebiet-Bereich 210 des Abfragefensters 200 eine Einrichtung zum Spezifizieren eines von mehreren vorbestimmten Gebieten für die Abfrage bereit. Das Abfragegebiet bezieht sich auf den Typ von Informationen, nach denen gesucht wird. Beispielsweise kann ein Abfragegebiet ein Typ von Dokumenten (z.B. Bücher oder Aufsätze) oder ein Fachbereich (z.B. Physik oder Opern) sein. Bei der bevorzugten Ausführungsform sind diese Gebiete vorbestimmt und entsprechen einer oder mehreren Informationsquellen, auf die sich die Abfrage richten wird. Die Bereiche 202204 dienen zum Festlegen eines Suchmusters. Der Bereich 202 dient der Festlegung eines vorbestimmten Attributes (z.B. Titel oder Autor). Der Bereich 203 dient der Festlegung einer Einschränkung (z.B. exakte Inhalte oder Übereinstimmungen), die am Attribut und einem speziellen Schlüsselwort plaziert werden soll. Der Bereich 204 dient zum Festlegen eines gewünschten Schlüsselwortes (Schlüsselwörter), das einen Ausdruck definieren kann, der aus Schlüsselwörtern und Bool'schen Operatoren gebildet wird. Ist das Suchmuster korrekt, bewirkt das Drücken der Taste 205 mit der Aufschrift "Hinzufügen zur Spezifikation", daß das Muster der momentanen Spezifikation der Abfrage hinzugefügt wird, wie es im Spezifikationsbereich 206 angezeigt ist. Ist das Suchmuster nicht korrekt, kann es mit Hilfe einer Rücksetztaste 207 rückgesetzt werden. Der Spezifikationsbereich 206 enthält sämtliche gewünschte Suchmuster, die durch den Benutzer festgelegt werden.
  • Die Tasten 208211 dienen dem Editieren der Festlegung. Die Taste 208 dient dem Editieren des gewählten Suchmusters. Die Taste 209 ist eine Einrichtung zum Entfernen eines Suchmusters. Die Taste 210 ist eine Einrichtung zum Löschen der gesamten Festlegung.
  • Schließlich dienen die Tasten 212 und 213 der Steuerung des Sendens bzw. des Abbruchs einer Abfrage.
  • 3 stellt ein Fenster zum Ausführen einer Unterabfrage innerhalb einer Abfrage, d.h. einer komplexen Abfrage, dar. Bei einer komplexen Abfrage erzeugt eine Unterabfrage einen Satz von Teilergebnissen. Die erzeugten Ergebnisse sind Teilergebnisse in dem Sinn, daß sie Werte liefern, die im Abfragemuster der Hauptabfrage (oder allgemein bei einer Abfrage höherer Ordnung) verwendet werden. Eine Unterabfrage wird erzeugt, indem eine vorbestimmte Option im Bereich 203, nämlich die "Antwort von"-Option gewählt wird. Dadurch wird das Fenster von 3 angezeigt. Wie es in 3 zu erkennen ist, wurde ein neuer Reiter 301 hinzugefügt, um zu kennzeichnen, daß dies eine Unterabfrage ist. Dies versetzt den Benutzer in die Lage, zwischen der Hauptabfrage und der Unterab frage zu queren. Es wird darauf hingewiesen, daß der übrige Teil des Unterabfragefensters der Hauptabfrage gleicht.
  • 4 und 5 zeigen eine Gesamt- bzw. eine Detailansicht des Ergebnisfensters einer Suche. Unter Bezugnahme auf 4 zeigt eine Gesamtdarstellung eine Liste sämtlicher Treffer und einige Gesamtinformationen, wie etwa die Anzahl der Treffer. In 5 werden alle Informationsfelder angezeigt, die sich auf einen speziellen "Treffer" beziehen. Ein Hauptbereich 501 zeigt den Textinhalt des Dokumentes. Ein Informationsbereich 502 liefert unterschiedliche Informationen, wie etwa das Datum, die URL, die Informationsquelle, Größe und Titel. Bei dieser Darstellung erfolgt das Navigieren durch die Trefferliste mit Hilfe der Tasten Zurück 503 und Vor 504, die sich innerhalb des Fensters befinden.
  • Wie es oben beschrieben wurde, wäre es wünschenswert, daß es möglicht ist Dokumente wiederaufzufinden, die die gewünschten Informationen enthalten, unabhängig von der Sprache der Abfrage. Die vorliegende Erfindung stellt eine derartige Einrichtung durch die Möglichkeit bereit, mehrsprachige Abfragen durchzuführen.
  • 6 zeigt ein Fenster, bei dem eine mehrsprachige Informations-Wiederauffindung spezifiziert werden kann. Wie im Bezug auf den Rest der Benutzerschnittstelle werden die Fenster, die hier beschrieben werden, dem Benutzer normalerweise über den Bedarfsvermittler dargeboten. Unter Bezugnahme auf 6 erfolgt die Steuerung durch eine Schnittstelle, mit der Abfrageoptionen festgelegt werden können, hier das Optionsfeld 601. Auf andere Optionsfelder kann hier zugegriffen werden, wie etwa ein Ergebnisanzeige-/Ranglistenfeld 602 oder Allgemeine Optionen 603. Bei einem beliebigen Ereignis läßt ein "Abfragesprache"-Bereich 604 den Benutzer eine Abfragesprache festlegen. Die festgelegte Abfragesprache ist diejenige, in der die Suchausdrücke erzeugt werden. Im allgemeinen ist bei der Einrichtung der vorliegenden Erfindung die gewählte Abfragesprache jene, die dem Benutzer am meisten vertraut ist. Ein zweiter "Abfrageverarbeitungs"-Bereich 605 gestattet es dem Benutzer, Abfrage-Vorverarbeitungsoptionen festzulegen. Abfrage-Vorverarbeitungsoptionen sind Operationen, die am Suchbegriff vor dem Durchführen einer Suche ausgeführt werden. Hier dienen die Verarbeitungsoptionen der Stammbildung 606 oder der Übersetzung 607. Der Übersetzungsoption 607 ist ein Sprachfestlegungsbereich 608 zugeordnet. Im Sprachfestlegungsbereich 608 kann ein Benutzer die Sprachen wählen, in die die Abfrage übersetzt werden kann.
  • Weitere dargestellte Abfrageoptionen beinhalten einen Suchoptionsbereich 609 und einen Abfrage-Nachbearbeitungsbereich 610. Der Sachoptionsbereich 609 enthält Optionen für eine fallbezogene Suche 611, für das Übereinstimmen mit Wortgrenzen 612 oder zum Suchen mit Webcrawlern 613. Es wird darauf hingewiesen, daß ein Webcrawler eine spezielle Art einer Suchmaschine ist, die eine umfassende Suche in zahlreichen Informationsquellen durchführt. Im Abfrage-Nachbearbeitungsbereich kann eine Operation zum Ermitteln der Sprache der Ergebnisse 614 festgelegt werden. Schließlich gestatten es die Tasten 615 und 616 einem Benutzer, die festgelegten Optionen entweder anzuwenden oder abzubrechen.
  • 7 stellt das "Ergebnisanzeige-/Sortierfeld 602 detaillierter dar. Unter Bezugnahme auf 7 hat ein "Ergebnisanzeige"-Bereich 700 einen ersten Unterbereich mit dem Titel "In Detailansicht" 701, der es dem Benutzer gestattet, die Informationen festzulegen, die in der Detailansichtsoption gezeigt werden (wie es in 5 oben dargestellt ist). Hier dienen die Optionen dazu, entweder die Hauptergebnisfelder 702 oder sämtliche Ergebnisfelder 703 zu zeigen. Im Bereich 704 "Für komplexe Abfragen" kann ein Benutzer festlegen, lediglich die Hauptabfrage 705 oder die Ergebnisse für alle Unteranfragen 706 zu zeigen.
  • Ein "Sortierkriterium"-Bereich 707 gestattet es dem Benutzer festzulegen, wie die Ergebnisse der Abfrage sortiert werden sollen. Eine Untergruppe des Sortierkriteriums-Bereiches 707 ist ein "Vorzugs"-Bereich 708, der es einem Benutzer gestattet festzulegen, daß die Sortierung auf "Besser erfüllten Vorgaben" 709 basiert, und ein "Ergebnis in"-Bereich 710, der es einem Benutzer gestattet, die Sprache festzulegen, in der sich die Ergebnisse befinden sollen. Dem Ergebnisbereich 710 ist ein Sprachfestlegungsbereich 711 zugeordnet, in dem der Benutzer die Sprache oder die Sprachen festlegen kann, in dem sich die zurückgesendeten Dokumente befinden sollen. Diese Festlegung bestimmt auch, wie die Ergebnisse sortiert werden. Schließlich gestatten es die Tasten 712 und 713 einem Benutzer, die festgelegten Optionen anzuwenden oder zu löschen.
  • 8 zeigt eine diagrammartige Darstellung der mehrsprachigen Wiederauffindung, wie sie bei der vorliegenden Erfindung ausgeführt werden kann. Unter Bezugnahme auf 8 wird bei 801 eine Suche nach Dokumenten abgefragt, die über den Mehrwort-Suchbegriff "ABCD" verfügen. Bei Schritt 802 wird der Suchbegriff in "Elementarwörter" aufgeteilt und werden "Stopwörter" (z.B. "und" oder "der, die das") unterdrückt: Hier sind A, B und D Elementarwörter und C ein Stopwort.
  • Somit stehen nur die Elementarwörter A, B und D für eine weitere Verarbeitung zur Verfügung. Bei Schritt 803 werden die Elementarwörter A, B und D anschließend übersetzt und deren Stamm gebildet, was zu einer Gruppe von Kombinationen abgestammter und übersetzter Elementarwörter führt.
  • Das Übersetzen und die Stammbildung sind in 9 weiter dargestellt. Unter Bezugnahme auf 9 wird das Elementarwort A beim Verfahrensschritt 901 übersetzt, was zu Übersetzungen A1, A2 und A3 führt. Für jede der einzelnen Übersetzungen A1, A2 wird beim Verfahrensschritt 902 der Stamm gebildet. Stammbildung ist ein Vorgang, bei dem sprachliche Ableitungen eines Wortes gebildet werden. Beispielsweise kann die Stammbildung des Wortes "Focus" zu den Wörtern "focused", "focusing", etc. führen. In jedem Fall führen, wie es in 9 dargestellt ist, der Stamm und die übersetzten Elementarwörter zu mehreren Begriffen, die Teil der Suchbegriffe werden.
  • Beim Stammbilden und Übersetzen der vorliegenden Erfindung können die Techniken zur Anwendung kommen, wie sie in US-A-5.450.598, 5.581.780, 5.564.058, 5.613.145 und 5.642.522 beschrieben sind.
  • Wendet man sich wieder 8 zu, so werden Suchen nach Dokumenten durchgeführt, die wenigstens eine der Kombinationen von stammgebildeten und übersetzten Elementarwörtern enthalten. Vorzugsweise werden gleichzeitige Suchen für jede Kombination ausgeführt. Schließlich wird der Verifiziervorgangsschritt 804 an den Ergebnissen jeder Suche ausgeführt. Dieser Verifiziervorgangsschritt wird verwendet, um sicherzustellen, daß die Suchbegriffe der zurückgesendeten Dokumente dieselbe linguistische Struktur haben, wie der Originalsuchbegriff. Die Techniken, die beim Verifizierungsschritt verwendet werden, können unter Anwendung der Verfahren ausgeführt werden, die im US-Patent No. 5.426.583 für Uribe-Echebarria Diaz De Mendibil mit dem Titel "Automatic Interlingual Translation System" (das 583-Patent) beschrieben sind. Jedoch ist der Verifizierungsschritt der vorliegenden Erfindung weit weniger anspruchsvoll als ein automatisches Sprachübersetzungssystem, weshalb die vorliegende Erfindung darauf ausgelegt ist, weniger vollständige oder komplexe Merkmale zu handhaben, wie sie bei der automatischen Sprachübersetzung im 583-Patent erforderlich sind. Es wird darauf hingewiesen, daß die Vorgangsschritte, die im Bezug auf 8 und 9 ausgeführt werden, normalerweise entweder beim Bedarfsvermittler oder beim Zwischenvermittler oder Kombinationen derselben durchgeführt werden, wie es oben unter Bezugnahme auf 1 beschrieben ist.
  • Eine der Hauptschwierigkeiten, die sich durch die vorliegende Erfindung ergeben, ist die Verwaltung der zahlreichen Kombinationen, die aus den Stammbildungs- und Übersetzungsschritten resultieren. Das Verwalten derartiger Kombinationen, die intern als voneinander abhängige komplexe Abfragen modelliert werden, ist eines der inhärenten Merkmale des Informations-Wiederauffindungssystems, das von der vorliegenden Erfindung verwendet wird (siehe die zuvor erwähnten PCT-Veröffentlichungen WO 98/48359 (29. Oktober 1998) und WO 98/48361 (29. Oktober 1998)). Beispielsweise kann jede der unterschiedlichen Kombinationen durch das Informations-Wiederauffindungssystem, in dem die vorliegende Erfindung ausgeführt wird, als "Unterabfrage" für eine Hauptabfrage behandelt werden (die eine logische "OR"-Funktion ausführen kann, um die Ergebnisse aller Unteranfragen anzuhäufen).
  • Da das Informations-Wiederauffindungssystem der bevorzugten Ausführungsform Abfragen auf begrenzte Fachgebiete (wie etwa Computerwissenschaft) verfolgt, werden im Bezug auf die Zahl der erzeugten Kombinationen fachspezifische Wörterbücher verwendet, um die Menge der möglichen Übersetzungen und somit finaler Kombinationen zu verringern. Derartige fachspezifische Wörterbücher können lediglich Definitionen und Übersetzungen beinhalten, die für dieses spezielle Fachgebiet spezifisch sind. Zudem gestatten Wörterbücher idiomatischer Ausdrücke die Verbesserung und Fokussierung der Übersetzung und verringern somit möglicherweise die Zahl der erzeugten Kombinationen.
  • Eine weitere bedeutende Angelegenheit bei der Informations-Wiederauffindung ist die Qualität der erhaltenen Ergebnisse, die durch zwei Standardparameter gemessen wird: Präzision und Erinnerung. Die Präzision ist als die Zahl der wiederaufgefundenen relevanten Dokumente dividiert durch die Gesamtzahl der wiederaufgefundenen Dokumente definiert; die Erinnerung als die Zahl der wiederaufgefundenen relevanten Dokumente dividiert durch die Gesamtzahl der rele vanten Dokumente in der Dokumentenbank. Bei der mehrsprachigen Informations-Wiederauffindung leidet die Präzision des finalen Suchbegriffes an sich, dargestellt durch die Kombination abgestammter Übersetzungen, bereits unter den zahlreichen Ergebnissen der Übersetzungs- und Stammbildungsschritte. Ohne Nachbearbeitung nach der Wiederauffindung der Dokumente ist wenigstens die Präzision des Wiederauffindungsergebnisses offensichtlich gering. Daher spielt der letzte Schritt des Verfahrens der vorliegenden Erfindung eine bedeutende Rolle beim Verbessern der Präzision der Abfragen. Von besonderer Bedeutung ist die Tatsache, daß die Verifizierung der korrekten linguistischen Struktur der Suchschlüsselwörter in den wiederaufgefundenen Dokumenten hilfreich ist, unpassende Ergebnisse zu eliminieren.
  • Eine weitere Technik zum Verbessern der Präzision wäre die Steuerung der Ergebnisse der Übersetzungs- und Stammbildungsschritte durch den Benutzer. Mit Hilfe dieser Technik kann eine erste Abfrage mehrere Suchmuster erzeugen, die jeweils einer der Kombinationen der übersetzten Stämme entspricht. Es kann ein Suchkanal geöffnet werden, mit dem ein Benutzer die Suchergebnisse untersuchen kann. Sofern der Benutzer mit der Zielsprache vertraut ist, können sie einige der erzeugten Suchbegriffe auf der Basis der empfangenen Ergebnisse unterdrücken, wie etwa durch Steuern und manuelles Bestätigen der erzeugten Suchmuster oder Unterdrücken derselben, wenn diese nicht passend sind.
  • Das Computersystem, auf dem die bevorzugte Ausführungsform der vorliegenden Erfindung ausgeführt werden kann, ist unter Bezugnahem auf 10 beschrieben. Das Computersystem 10 kann beispielsweise ein Benutzersystem sein, auf dem ein Bedarfsvermittler arbeitet und die Benutzerschnittstelle einem Benutzer dargeboten wird, oder es kann ein Serversystem sein, auf dem unterschiedliche Zwischen- und Versorgungsvermittler arbeiten.
  • In jedem Fall besteht unter Bezugnahme auf 10 das Computersystem aus mehreren Komponenten, die über einen Bus 1001 gekoppelt sind. Der Bus 1001, der hier dargestellt ist, ist aus Gründen des besseren Verständnisses vereinfacht. Der Bus 1001 kann aus mehreren parallelen Bussen (z.B. Adreß-, Daten- und Statusbussen) wie auch aus einer Hierarchie von Bussen (z.B. Prozessorbus, lokaler Bus und einem I/O-Bus) bestehen. In jedem Fall besteht das Computersystem weiterhin aus einem Prozessor 1002 zum Ausführen von Anweisungen, die über den Bus 1001 vom internen Speicher 1003 bereitgestellt werden (es wird darauf hingewiesen, daß der interne Speicher 1003 normalerweise eine Kombination von RAMs und ROMs ist). Der Prozessor 1002 und der Internspeicher-ROM 1003 können einzelne Komponenten oder eine einzige integrierte Vorrichtung, wie etwa ein Application-Specification-Integrated-Circuit-(ASIC-) Chip sein, der entwickelt wurde, um die Funktionsmerkmale der vorliegenden Erfindung zu enthalten.
  • Mit dem Bus 1001 sind zudem eine Tastatur 1004 zum Eingeben einer alphanumerischen Eingabe, ein externer Speicher 1005 zum Speichern von Daten, eine Cursorsteuervorrichtung 1006 zum Betätigen eines Cursors und eine Anzeigeeinrichtung 1007 zum Anzeigen einer visuellen Ausgabe verbunden. Die Tastatur 1004 ist normalerweise eine Standard-QWERTZ-Tastatur, kann jedoch auch ein telefonähnliches Tastenfeld sein. Der externe Speicher 1005 kann ein fest installiertes oder entnehmbares magnetisches oder optisches Plattenlaufwerk sein. Die Cursorsteuervorrichtung 1006 hat normalerweise eine Taste oder einen Schalter, der mit ihr verbunden ist, über den die Ausführung bestimmter Funktionen programmiert werden kann. Die Netzwerkverbindung 1008 kann verwendet werden, um Daten, die eine Bitmap-Darstellung eines Mediums enthalten, zu empfangen und/oder zu senden.

Claims (6)

  1. Verfahren zum mehrsprachigen Abfragen in einem Informations-Wiederauffindungssystem, wobei das Verfahren folgende Schritte enthält: a) Empfangen eines Suchbegriffes; b) Extrahieren eines oder mehrerer elementarer Wörter aus dem Suchbegriff (801); c) Bestimmen linguistischer Ableitungen von Übersetzungen für jedes des einzelnen oder der mehreren elementaren Wörter (802); d) Suchen nach und Wiederauffinden von Dokumenten, die Kombinationen der linguistischen Ableitungen von Übersetzungen enthalten (803); und e) Verifizieren, dass die linguistischen Ableitungen von Übersetzungen von elementaren Wörtern in den wiederaufgefundenen Dokumenten dieselbe linguistische Struktur haben wie die elementaren Wörter des Suchbegriffes (804); f) Verwerfen wiederaufgefundener Dokumente, wenn die linguistischen Ableitungen von Übersetzungen elementarer Wörter in den Dokumenten nicht dieselbe linguistische Struktur hat wie die elementaren Wörter des Suchbegriffes.
  2. Verfahren nach Anspruch 1, bei dem vor dem Such- und Wiederauffindungsschritt der Schritt des Erzeugens von Kombinationen der linguistischen Ableitungen von Übersetzungen ausgeführt wird; und der Such- und Wiederauffindungsschritt aus der Suche nach Dokumenten besteht, die über jede der erzeugten Kombinationen linguistischer Ableitungen von Übersetzungen verfügen.
  3. Verfahren nach Anspruch 2, bei dem gleichzeitig mit dem Such- und Wiederauffindungsschritt folgende Schritte ausgeführt werden: Versorgen des Benutzers mit vorläufigen Suchergebnissen, die einer speziellen Kombination linguistischer Ableitungen von Übersetzungen zugeordnet sind, die man während des Such- und Wiederauffindungsschrittes ermittelt; und Empfangen eines Signals vom Benutzer, um diesen Such- und Wiederauffindungsschritt für die spezielle Kombination linguistischer Ableitungen von Übersetzungen abzubrechen.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Bestimmens linguistischer Ableitungen von Übersetzungen für jedes der elementaren Wörter aus folgenden Schritten besteht: c1) Übersetzen eines elementaren Wortes in eine Zielsprache; und c2) Ermitteln linguistischer Ableitungen des übersetzten elementaren Wortes.
  5. System für mehrsprachige Informationswiederauffindung, enthaltend: einen Bedarfsvermittler (102), der bereitstellt: eine Benutzerschnittstelle, um es einem Benutzer zu ermöglichen, einen Suchbegriff anzugeben; eine Abfrage-Angabeschnittstelle, die es dem Benutzer gestattet anzugeben, dass eine Abfrage von einer Ursprungssprache in eine Zielsprache übersetzt werden soll; einen Zwischenvermittler (103), der bereitstellt: ein Begriffs-Zerlegeelement zum Zerlegen eines Suchbegriffes in elementare Wörter und Stopwörter; ein Übersetzungselement zum Übersetzen elementarer Wörter in eine Zielsprache; ein Element linguistischer Ableitung zum Ermitteln linguistischer Ableitungen jedes der übersetzten elementaren Wörter; ein Suchen-Spezifikationselement zum Erzeugen von Suchanfragen für jede Kombination linguistischer Ableitungen übersetzter elementarer Wörter; und einen Versorgungsvermittler (105) zum Empfangen der Suchanfragen und Anfragen sowie Ermitteln von Dokumenten von den Informationsquellen in Abhängigkeit von den Suchanfragen; und ein Verifikationselement zum Verifizieren, daß die linguistischen Ableitungen übersetzter elementarer Wörter in den ermittelten Dokumenten dieselbe linguistische Struktur wie die elementaren Wörter des durch den Benutzer festgelegten Suchbegriffs haben, dadurch gekennzeichnet, dass das Verifikationselement so eingerichtet ist, dass es ermittelte Dokumente, deren linguistischen Ableitungen übersetzter elementarer Wörter nicht dieselbe linguistische Struktur wie die elementaren Wörter des durch den Benutzer festgelegten Suchbegriffs haben.
  6. Programmspeichervorrichtung, die durch eine Maschine lesbar ist, in der ein Programm von Befehlen enthalten ist, die von der Maschine ausgeführt werden können, um ein Verfahren gemäß einem der Ansprüche 1 bis 4 durchzuführen.
DE69923650T 1998-12-22 1999-12-17 System für mehrsprachige Informationswiederauffindung Expired - Lifetime DE69923650T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/218,431 US6381598B1 (en) 1998-12-22 1998-12-22 System for providing cross-lingual information retrieval
US218431 2002-08-13

Publications (2)

Publication Number Publication Date
DE69923650D1 DE69923650D1 (de) 2005-03-17
DE69923650T2 true DE69923650T2 (de) 2005-07-07

Family

ID=22815091

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69923650T Expired - Lifetime DE69923650T2 (de) 1998-12-22 1999-12-17 System für mehrsprachige Informationswiederauffindung

Country Status (4)

Country Link
US (1) US6381598B1 (de)
EP (1) EP1014278B1 (de)
JP (1) JP2000194730A (de)
DE (1) DE69923650T2 (de)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
CN1176432C (zh) * 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US7016977B1 (en) * 1999-11-05 2006-03-21 International Business Machines Corporation Method and system for multilingual web server
US20020059223A1 (en) * 1999-11-30 2002-05-16 Nash Paul R. Locator based assisted information browsing
US20020007382A1 (en) * 2000-07-06 2002-01-17 Shinichi Nojima Computer having character input function,method of carrying out process depending on input characters, and storage medium
US6598040B1 (en) * 2000-08-14 2003-07-22 International Business Machines Corporation Method and system for processing electronic search expressions
JP2002189721A (ja) * 2000-10-11 2002-07-05 Mieko Tsuyusaki Webページ検索システム及び翻訳システム
JP4066600B2 (ja) * 2000-12-20 2008-03-26 富士ゼロックス株式会社 多言語文書検索システム
US20020099533A1 (en) * 2001-01-23 2002-07-25 Evan Jaqua Data processing system for searching and communication
US6850934B2 (en) * 2001-03-26 2005-02-01 International Business Machines Corporation Adaptive search engine query
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7392173B2 (en) * 2001-09-06 2008-06-24 International Business Machines Corporation Method and system of presenting a document to a user
JP3452558B2 (ja) * 2001-09-25 2003-09-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム
US8135575B1 (en) 2003-08-21 2012-03-13 Google Inc. Cross-lingual indexing and information retrieval
US20060004730A1 (en) * 2004-07-02 2006-01-05 Ning-Ping Chan Variant standardization engine
US20060048053A1 (en) * 2004-08-30 2006-03-02 Xerox Corporation Individually personalized customized report document system
US20060048042A1 (en) 2004-08-30 2006-03-02 Xerox Corporation Individually personalized customized report document system with user feedback
CA2591897C (en) * 2005-01-04 2013-03-19 Thomson Global Resources Systems, methods, software, and interfaces for multilingual information retrieval
AU2015215882A1 (en) * 2005-01-04 2015-09-10 Thomson Reuters Global Resources Systems, methods, software, and interfaces for multilingual information retrieval
US7412441B2 (en) 2005-05-31 2008-08-12 Microsoft Corporation Predictive phonetic data search
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9098489B2 (en) * 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9069750B2 (en) * 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
CZ17575U1 (cs) * 2007-03-05 2007-06-11 I2S A. S. Multilinguální internetový vyhledávac
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US7720856B2 (en) * 2007-04-09 2010-05-18 Sap Ag Cross-language searching
US8799307B2 (en) * 2007-05-16 2014-08-05 Google Inc. Cross-language information retrieval
US8051061B2 (en) 2007-07-20 2011-11-01 Microsoft Corporation Cross-lingual query suggestion
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US7908278B2 (en) * 2008-02-07 2011-03-15 International Business Machines Corporation Recommendation system for assisting mashup developers at build-time
US7917488B2 (en) * 2008-03-03 2011-03-29 Microsoft Corporation Cross-lingual search re-ranking
US8819046B2 (en) * 2008-06-24 2014-08-26 Microsoft Corporation Data query translating into mixed language data queries
US8457441B2 (en) * 2008-06-25 2013-06-04 Microsoft Corporation Fast approximate spatial representations for informal retrieval
US8364751B2 (en) 2008-06-25 2013-01-29 Microsoft Corporation Automated client/server operation partitioning
US8364462B2 (en) * 2008-06-25 2013-01-29 Microsoft Corporation Cross lingual location search
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8666730B2 (en) * 2009-03-13 2014-03-04 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
CN102141990B (zh) * 2010-02-01 2014-02-26 阿里巴巴集团控股有限公司 一种搜索方法和装置
CN102207938A (zh) * 2010-03-31 2011-10-05 北京金山软件有限公司 一种互译词条的获取方法及系统
US20110302220A1 (en) * 2010-06-08 2011-12-08 Albert Marcella Sql processing for data conversion
US8639701B1 (en) 2010-11-23 2014-01-28 Google Inc. Language selection for information retrieval
WO2012103458A1 (en) * 2011-01-28 2012-08-02 The Dun And Bradstreet Corporation Inventory data access layer
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9971771B2 (en) * 2014-03-29 2018-05-15 Camelot Uk Bidco Limited Method, system and software for searching, identifying, retrieving and presenting electronic documents
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
WO2017216642A2 (en) * 2016-06-14 2017-12-21 Babel Street, Inc. Cross lingual search using multi-language ontology for text based communication
US11886446B2 (en) * 2021-04-05 2024-01-30 Baidu Usa Llc Cross-lingual language models and pretraining of cross-lingual language models

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450598A (en) 1985-12-27 1995-09-12 Xerox Corporation Finite state machine data storage where data transition is accomplished without the use of pointers
JPS63204466A (ja) * 1987-02-20 1988-08-24 Sanyo Electric Co Ltd 機械翻訳システム
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
ES2101613B1 (es) 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5956740A (en) * 1996-10-23 1999-09-21 Iti, Inc. Document searching system for multilingual documents
GB9708175D0 (en) 1997-04-23 1997-06-11 Xerox Corp Feature constraint based document information retrieval and distribution
GB9708172D0 (en) 1997-04-23 1997-06-11 Xerox Corp Knowledge brokers using signed feature constraints
JPH10307829A (ja) * 1997-05-02 1998-11-17 Fuji Ginkou:Kk 電子文書検索システム及び記録媒体
US5953726A (en) * 1997-11-24 1999-09-14 International Business Machines Corporation Method and apparatus for maintaining multiple inheritance concept hierarchies
US6092036A (en) * 1998-06-02 2000-07-18 Davox Corporation Multi-lingual data processing system and system and method for translating text used in computer software utilizing an embedded translator

Also Published As

Publication number Publication date
EP1014278A1 (de) 2000-06-28
EP1014278B1 (de) 2005-02-09
DE69923650D1 (de) 2005-03-17
JP2000194730A (ja) 2000-07-14
US6381598B1 (en) 2002-04-30

Similar Documents

Publication Publication Date Title
DE69923650T2 (de) System für mehrsprachige Informationswiederauffindung
DE60208604T2 (de) Automatisches Verfahren zur Erzeugung von Image-buttons
DE60129652T2 (de) Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung
US6285998B1 (en) System and method for generating reusable database queries
DE19842688B4 (de) Verfahren zum Filtern von Daten, die von einem Datenanbieter stammen
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE69820343T2 (de) Linguistisches Suchsystem
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE60213409T2 (de) Erstellung von strukturierten daten aus unformatiertem text
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE69930690T2 (de) Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium
EP1311989B1 (de) Verfahren zur automatischen recherche
DE10135445B4 (de) Integriertes Verfahren für das Schaffen einer aktualisierbaren Netzabfrage
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE69628374T2 (de) Datenverwaltungssystem
DE10028688A1 (de) Methode, System und Programm für eine Verbindungsoperation in einer mehrspaltigen Tabelle sowie in Satellitentabellen mit doppelten Werten
DE10120869A1 (de) Verwendung eines Index für den Zugriff auf eine mehrdimensionale Subjektdatenbank
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE60212330T2 (de) Verfahren zur Verarbeitung von mehrsprachigen Abfragen
DE102006040208A1 (de) Patentbezogenes Suchverfahren und -system
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE19959765A1 (de) Datei-Editor für mehrere Datenuntermengen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition