DE69909360T2 - Verfahren und System um Dokumente über eine elektronische Datei wiederaufzufinden - Google Patents

Verfahren und System um Dokumente über eine elektronische Datei wiederaufzufinden Download PDF

Info

Publication number
DE69909360T2
DE69909360T2 DE69909360T DE69909360T DE69909360T2 DE 69909360 T2 DE69909360 T2 DE 69909360T2 DE 69909360 T DE69909360 T DE 69909360T DE 69909360 T DE69909360 T DE 69909360T DE 69909360 T2 DE69909360 T2 DE 69909360T2
Authority
DE
Germany
Prior art keywords
terms
thesaurus
documents
relationships
indexing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69909360T
Other languages
English (en)
Other versions
DE69909360D1 (de
Inventor
Fernand Jozef Vandamme
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HET BABBAGE INST VOOR KENNIS E
Het Babbage Instituut Voor Kennis En Informatie Technologie "bikit
Original Assignee
HET BABBAGE INST VOOR KENNIS E
Het Babbage Instituut Voor Kennis En Informatie Technologie "bikit
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HET BABBAGE INST VOOR KENNIS E, Het Babbage Instituut Voor Kennis En Informatie Technologie "bikit filed Critical HET BABBAGE INST VOOR KENNIS E
Publication of DE69909360D1 publication Critical patent/DE69909360D1/de
Application granted granted Critical
Publication of DE69909360T2 publication Critical patent/DE69909360T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Wiederauffinden von Dokumenten über eine elektronische Datei sowie ein System zur Verwirklichung dieses Verfahrens.
  • An erster Stelle ist die Erfindung für den Einsatz in Datensystemen bestimmt, in denen elektronische Dokumente oder Teile dieser Dokumente gespeichert sind, um die erforderlichen Dokumente mittels spezifischer Suchschlüssel später wiederauffinden zu können. Allgemeiner kann die Erfindung jedoch in einem beliebigen System verwendet werden, das elektronische Dokumente beinhaltet.
  • Insbesondere zielt die Erfindung auf ein Verfahren ab, um elektronische Dokumente mittels spezifischer Suchschlüssel wiederaufzufinden.
  • Verschiedene Verfahren zum Indexieren und anschließenden Wiederauffinden von Daten in elektronischen Dokumenten sind bereits bekannt. Beispiele hierfür sind unter anderem in den Patenten US-A-5.007.019, US-A-5.371.807, US-A-5.418.91, US-S-555.408, WO 95/14973, WO 96/23265 und in dem Dokument beschrieben.
  • Im Allgemeinen könnte man sagen, dass es drei Verfahren zum Umsetzen von Textdaten in Indexen gibt. Bei dem ersten Verfahren handelt es sich um ein automatisches, "nicht intelligentes" Indexierverfahren. Gemäß diesem Verfahren werden Wörter mittels eines Auswertungssystems automatisch in dem Text wiederaufgefunden und in einen Index integriert.
  • Das zweite Verfahren ist das manuelle "intelligente" Indexierverfahren. Dieses Verfahren macht gewöhnlich Gebrauch von vorbestimmten Koordinaten. Die Person, die die Dokumente indexiert, weist jedem Dokument eines oder mehrere Labels zu, anhand derer das Dokument später wiederaufgefunden werden kann.
  • Das dritte Verfahren ist das automatische "intelligente" Indexierverfahren. Hier wird die indexierende Person durch ein automatisches System ersetzt.
  • Es ist klar, dass die Qualität des Verfahrens, mit dem die richtigen Dokumente später im Nu wiederaufgefunden werden können, von den Schlüsseln abhängt, die für die Indexierung verwendet werden. Hauptsächlich unterscheiden wir zwei grundlegende Schlüssel Ein erster grundlegender Schlüssel betrifft die "Erschöpfbarkeit", durch die impliziert wird, in wieweit der Inhalt eines bestimmten Dokuments vollständig mittels des Index gespeichert wird. Ein zweiter grundlegender Schlüssel ist die Spezifizität, die im Hinblick auf die Präzision bestimmt wird, mit der abgesuchte Dokumente aufgefunden werden können.
  • Es ist klar, dass, um die richtigen Dokumente im Nu wiederauffinden zu können, ein Verfahren erforderlich ist, das ein ideales Gleichgewicht bietet zwischen der Möglichkeit zum Wiederauffinden der Dokumente einerseits und der Präzision, mit der die Dokumente aufgefunden werden können, andererseits. Im Fall der erschöpfenden Indexierung entstehen Situationen, wobei die Suche nach bestimmten Dokumenten, die sich auf ein bestimmtes Thema beziehen, eine große Anzahl von Dokumenten liefert, einschließlich jede Menge Informationen, die jedoch wertlos sind. In diesem Fall enthalten die wiederaufgefundenen Dokumente sozusagen viel "Rauschen". Ein hohes Maß an Präzision setzt voraus, dass nur nützliche Informationen indexiert werden, indem dieser sehr präzise Labels zugewiesen werden.
  • Des Weiteren ist bekannt, dass man nach der so genannten "Einzelbegriff-Indexierung", wobei Indexe einzelnen Begriffen oder "Wörtern" zugewiesen werden, oder nach der so genannten "Begriffsbeziehungs-Indexierung", wobei Indexe zugewiesen werden, die Beziehungen zwischen verschiedenen Konzepten zulassen, indexieren kann.
  • Die bisher bekannten Systeme für elektronisches Dokumentenmanagement sind dadurch nachteilig, dass sie alle hauptsächlich auf statistischen Formeln beruhen und keine auf Wissen basierenden Indexierverfahren verwenden, oder dass sie wenn auf Wissen basierende Indexierverfahren verwendet werden, die hier führ verwendeten Verfahren wenig effizient sind.
  • Die vorliegende Erfindung zielt auf ein Verfahren zum Verwalten von Dokumenten ab, insbesondere zum Wiederauffinden von Dokumenten, die es dem Endbenutzer ermöglichen, relevante Informationen auf sehr effiziente Weise zu erhalten, worunter zu verstehen ist, dass die richtigen Dokumente mit hoher Präzision und ohne einen hohen Anteil an "Rauschen" wiederaufgefunden werden können.
  • Zu diesem Zweck sieht die Erfindung an erster Stelle ein Verfahren zum Wiederauffinden von Dokumenten über eine elektronische Datei vor, wobei zum Wiederauffinden Schlüssel benutzt werden, die eine oder mehrere Beziehungen zwischen den Textdaten der betreffenden Dokumente finden, gekennzeichnet dadurch, dass es sich bei den vorgenannten Beziehungen um "kausale" Beziehungen handelt.
  • Die vorgenannten kausalen Beziehungen werden benutzt, um den eingegebenen Dokumenten Indexe zuzuweisen, so dass, wenn diese Dokumente wiederaufgefunden werden müssen, automatisch nach kausalen Beziehungen auf der Grundlage dieser Indexe gesucht wird. Obwohl die Erfindung in erster Linie dazu bestimmt ist, Dokumente auf diese Weise zu indexieren und es anschließend zu ermöglichen, diese Dokumente auf der Grundlage der genannten Indexe wiederaufzufinden, ist es nicht ausgeschlossen, das Verfahren der Erfindung nur zum Zeitpunkt des Wiederauffindens ohne Verwendung irgendwelcher Indexe anzuwenden.
  • Die Ermittlung von Beziehungen, insbesondere von kausalen Beziehungen, bietet den Vorteil, dass der semantische Überfluss eines Thesaurus optimal zum Indexieren und/oder Wiederauffinden von Dokumenten aus einer Datei verwendet werden kann.
  • Vorzugsweise in Verbindung mit der vorliegenden Erfindung wird Gebrauch gemacht von einem oder mehreren nach Themen orientierten Thesauri, insbesondere Thesauri, die im Zusammenhang mit bestimmten Domänen stehen.
  • Gemäß einer bevorzugten Ausführung, abgesehen von dem/den oben genannten Thesaurus oder Thesauri, kann auch eine Datei erstellt und/oder verwendet werden, in der kausale Beziehungen festgelegt worden sind. Dies hilft den Endbenutzern, Gründe und/oder Beziehungen in bestimmten Zusammenhängen zu finden.
  • Das grundlegende Konzept des vorgenannten Verfahrens der Erfindung kann in der Praxis auf verschiedene Weisen verwirklicht werden.
  • Um die Merkmale der Erfindung besser zu veranschaulichen, wird die folgende praktische wie auch bevorzugte Ausführung beschrieben.
  • Gemäß dieser bevorzugten Ausführung wird eine Struktur verwendet, in der hauptsächlich fünf grundlegende Komponente unterschieden werden können.
  • Die erste Komponente besteht aus Mitteln zur Verwaltung eines Thesaurus. Diese Komponente kann auch als "Thesaurus-Manager" bezeichnet werden. Die erwähnte Komponente ermöglicht es, neue Daten in der bekannten Weise in dem Thesaurus zu speichern, ebenso wie gleichwertige Begriffe, breitere und einschränkendere Begriffe.
  • Die zweite Komponente besteht aus Mitteln für eine syntaktische Analyse und kann kurz als "Parser" bezeichnet werden, wobei es sich im Grunde genommen um einen Sprachanalysator handelt. Dieser Sprachanalysator zielt darauf ab, neue Dokumente wiederaufzufinden und Dokumente auf der Grundlage semantischer Beziehungen in der bestimmten Domäne des verwendeten Thesaurus automatisch zu indexieren.
  • Vorzugsweise erzeugt der Parser automatisch Stichwörter und Konzepte für jedes elektronische Dokument in ASCII-Format.
  • Die dritte Komponente besteht aus grafischen Suchformulatormitteln oder einem so genannten "grafischen Query Builder". Dieser Query Builder ermöglicht es dem Endbenutzer, eine Abfrage in der geeigneten Weise einzugeben. Die besagten Query Builder identifizieren außerdem die Anzahl der Dokumente, die aufgefunden werden, wenn ein bestimmtes Stichwort eingegeben wird, sowie die Anzahl der Konzepte, die hierbei gefunden werden. Die Anzahl breiter Begriffe im Zusammenhang mit einem eingeschränkten Begriff wird ebenfalls dargestellt.
  • Die vierte Komponente besteht aus Mitteln zum Bestimmen und Aufzeichnen der kausalen Beziehungen und kann im Rahmen der vorliegenden Erfindung als "Beziehungsmanager" bezeichnet werden. Die vierte Komponente ermöglicht das interaktive Auslesen kausaler oder möglicherweise anderer Beziehungen.
  • Die fünfte Komponente besteht aus Query Buildern, die es ermöglichen, durch die Datei zwischen den Dokumenten zu navigieren, die mittels des Beziehungsmanagers indexiert worden sind, und zwar auf der Basis kausaler Beziehungen.
  • Die oben genannten Beziehungen stellen sicher, dass mittels Algorithmen oder dergleichen die entsprechenden Operationen oder Schritte des Verfahrens ausgeführt werden können. Eine Reihe der möglichen Operationen wird im Folgenden systematisch beschrieben, um die Erfindung zu veranschaulichen.
  • Vorzugsweise werden vollständige Texte von Dokumenten als Grundlage herangezogen, die alle in derselben Sprache, vorzugsweise Englisch, geschrieben sind. Insbesondere arbeiten wir mit Texten, die auf natürliche Weise geschrieben sind.
  • Ein erster Schritte oder eine erste Operation, der bzw. die gemäß der Erfindung auszuführen ist, verwendet die oben genannte erste und zweite Komponente und bietet eine erste Indexierung oder Verarbeitung auf der Grundlage des betreffenden Thesaurus, welcher Schritt als "Thesaurus-basierte Indexierung" bezeichnet werden kann.
  • Während dieses ersten Schritts wird der Text zum Beispiel automatisch auf explizite Indexbegriffe überprüft, worunter Begriffe zu verstehen sind, die wörtlich im Text des betreffenden Dokuments vorkommen. Diese expliziten Indexbegriffe können aus Unigrammen und/oder Bigrammen und/oder Trigrammen bestehen, wobei die Unigramme für getrennte Wörter stehen, während die Bigramme und Trigramme aus Begriffen mit jeweils zwei, drei Wörtern bestehen. Ein Unigramm ist beispielsweise das Wort "Komposition", während der Begriff "weicher Stahl" ein Bigramm und der Begriff "Verhalten bei Rekristallisierung" ein Trigramm ist.
  • Um diese expliziten Indexbegriffe wiederaufzufinden, werden die Textdaten gefiltert, wobei bei dieser Filterung mindestens die Füllwörter eliminiert werden.
  • Die restlichen Wörter werden weiter gefiltert, um mindestens die am wenigsten relevanten Unigramme und/oder Bigramme und/oder Trigramme zu eliminieren. Für diese extra Filterung wird vorzugsweise eine Häufigkeitsfilterung verwendet. Bei einer solchen Filterung wird das Vorkommen jedes Unigramms, Bigramms bzw. Trigramms im Text überprüft, woraufhin die Unigramme, Bigramme und Trigramme, die nur in beschränktem Maß vorkommen, eliminiert werden. Diese Häufigkeitsfilterung kann vom Benutzer eingestellt und geändert werden.
  • Als Nächstes werden die zurückbehaltenen expliziten Indexbegriffe mit dem Inhalt des benutzten Thesaurus verglichen und mindestens die Begriffe, die im Thesaurus vorkommen, werden für die weitere Indexierung berücksichtigt.
  • Eine Liste der nicht im Thesaurus vorkommenden expliziten Begriffe wird erstellt, die es ermöglicht, den Thesaurus zu aktualisieren. Ein Benutzer oder ein Dokumentationsverantwortlicher kann sich diese Liste ansehen und anschließend gegebenenfalls entscheiden, welche Wörter aus dieser Liste in den Thesaurus aufgenommen werden sollen. Dies ermöglicht interaktives Aktualisieren.
  • Während der Abfrage nach Bigrammen und/oder Trigrammen werden diese vorzugsweise durch Überprüfung aufgezeichnet, nachdem die Füllwörter eliminiert worden sind, welche Unigramme vorkommen und durch Ermittlung der Begriffe, die an diese angrenzen.
  • In einer zweiten Operation oder einem zweiten Schritt werden auch die oben genannten ersten und zweiten Komponenten verwendet, und es werden Konzepte auf der Grundlage des Thesaurus erzeugt. Dieser Schritt kann auch als "Erzeugung der Thesaurus-basierten Konzepte" bezeichnet werden.
  • In diesem Schritt werden implizite Indexbegriffe, mit anderen Worten Konzeptbegriffe, zu den expliziten Indexbegriffen hinzugefügt, mit anderen Worten, den Begriffen, die explizit im Text vorkommen und die wie oben beschrieben ermittelt worden sind. Diese impliziten Indexbegriffe sind Begriffe, die im Thesaurus auf der Grundlage der Tatsache wiedergefunden worden sind, dass sie mit den expliziten Indexbegriffen in Zusammenhang stehen. Die Beziehung zwischen diesen zwei Arten von Begriffen ist im Thesaurus hergestellt worden.
  • Die impliziten Indexbegriffe können Begriffe sein, die entweder einschränkender oder breiter als die expliziten Indexbegriffe sind. Zum Beispiel ist der Begriff "Metall" ein breiterer Begriff als "Stahl", und beispielsweise ist der Begriff "weicher Stahl" ein eingeschränkterer Begriff" zu dem Begriff "Stahl".
  • Es ist festzuhalten, dass beim Indexieren eines Dokuments diesem vorzugsweise nur eine beschränkte Anzahl von Indexbegriffen zugewiesen wird, und dieses durch drastische Selektion. Vorzugsweise gibt es maximal fünf Begriffe und besser noch maximal zwei Begriffe.
  • Gemäß der Erfindung werden Query Builder vorgesehen, insbesondere ein Algorithmus, die dem Benutzer ausschließlich über Stichwörter, die im Thesaurus vorkommen, Zugang bieten. Infolgedessen wird eines der herkömmlichen Probleme des Wiederauffindens von Dokumenten vermieden, indem eine Vokabularabweichung zwischen dem Wissen des Benutzers und dem in der Datenbank gespeicherten Wissen ausgeschlossen wird.
  • Der hierbei benutzte Algorithmus ermöglicht es dem Benutzer, unter Bezugnahme auf einen bestimmten Begriff eine Abfrage durchzuführen und bietet anschließend weitere Möglichkeiten zum Wiederauffinden auf der Grundlage dieses Begriffs. Gemäß der Erfindung wird hierbei eine hierarchische Struktur mit breiteren und eingeschränkteren Begriffen verwendet. So könnte beispielsweise, ausgehend von dem Begriff "Stahl", ein erster breiterer Begriff "eisenhaltige Legierungen" sein, während ein nachfolgender breiterer Begriff "Übergangsmetalllegierungen" sein könnte usw.
  • Ein vierter wichtiger Vorgang bzw. Schritt innerhalb des Rahmens der vorliegenden Erfindung ist das Auslesen kausaler Beziehungen auf automatische Weise.
  • Hierbei werden elektronische Mittel verwendet, insbesondere ein Algorithmus, um die kausalen Beziehungen zwischen den aufgefundenen Indexbegriffen, entweder expliziten oder impliziten Indexbegriffen, zu identifizieren und auszulesen.
  • Das automatische Wiederauffinden erfolgt auf der Grundlage einer Liste von Begriffen, die eine Beziehungsangabe enthält. Diese Liste enthält Wörter wie z. B. "hängt ab", "Ursachen", "Wirkungen" usw.
  • Gemäß der am meisten bevorzugten Ausführung werden postulierte kausale Rahmen verwendet, die zusammengesetzt sind aus Stichwörtern einerseits und aus Sprachkomponenten, einschließlich der oben genannten Begriffe, die eine Beziehungsangabe enthalten, andererseits, und der Text der Dokumente wird nach diesen Rahmen abgesucht.
  • Insbesondere werden Rahmen mit Stichwörtern verwendet, die mindestens drei Argumente definieren, ein Argument, das eine Ursache darstellt, ein Argument, das eine Wirkung darstellt, und ein Argument, das eine Situation darstellt.
  • Beispielsweise sieht der Rahmen, der sich auf das Muster "Wirkung von" bezieht, folgendermaßen aus:
    'F' und 'K1' und 'auf und 'K2' und 'C' und 'K3'
    wobei:
    • – F der Ausdruck "Wirkung von" ist;
    • – C die Bedingung darstellt und aus Begriffen wie "von", "in" oder "bei" bestehen kann;
    • – K1 die Argumente sind, die eine Ursache darstellen;
    • – K2 die Argumente sind, die eine Wirkung darstellen;
    • – K3 die Argumente sind, die eine Situation darstellen.
  • Die Ausdrücke "Wirkung von" und "auf" bilden Sprachkomponenten.
  • Auf ähnliche Weise werden verschiedene kausale Rahmen vorab ermittelt.
  • Mittels einer automatischen syntaktischen Analyse wird die Beziehung zwischen den oben erwähnten Indexbegriffen, entweder explizit und/oder implizit, und den Sprachkomponenten ermittelt, und in Abhängigkeit davon wird ermittelt, welche kausalen Rahmen in einem Text vorkommen, und die Indexierung wird schließlich ausgeführt.
  • Sooft ein kausaler Rahmen identifiziert wird, werden die entsprechenden Begriffe K1 und K2 in gesonderten Datensätzen aufgezeichnet, die spezielle für die Begriffe ausgelegt sind, die sich stets am Standort K1, K2 bzw. K3 befinden. So gibt es einen Datensatz für die Argumente, die eine Ursache darstellen, diejenigen, die eine Wirkung darstellen, und diejenigen, die eine Situation oder Bedingung darstellen.
  • Wenn zum Beispiel die folgende Begriffsfolge im Text vorkommt: Wirkung von CHEMISCHER ZUSAMMENSETZUNG auf REKRISTALLISIERUNGSVERHALTEN in WEICHEM STAHL, ist klar, dass dieses als kausaler Rahmen erkannt wird. Indem die Begriffe CHEMISCHE ZUSAMMENSETZUNG, REKRISTALLISIERUNGSVERHALTEN und WEICHER STAHL in den oben genannten Datensätzen gespeichert werden, ist klar, dass umgekehrt das betreffende Dokument durch eine Suche nach den entsprechenden kausalen Beziehungen wiederaufgefunden werden kann.
  • Das Ergebnis der oben beschriebenen syntaktischen Analyse kann erst dem Benutzer des Systems oder einem Dokumentationsverantwortlichen vorgelegt werden oder nicht, damit dieser entscheidet, ob die erhaltenen Indexierungsergebnisse in der Datei aufgezeichnet werden sollen und in welchem Umfang diese eventuell aufgezeichnet werden.
  • In einer bestimmten Anwendung wird das Verfahren gemäß der Erfindung für die Indexierung und/oder das Wiederauffinden von Dokumenten aus elektronischer Post benutzt, so dass der Benutzer viele Informationen über elektronische Post wiederauffinden kann, aber automatisch auch eine sehr effiziente Auswahl erhält, so dass nicht alle erhaltenen Daten nacheinander durchlaufen werden müssen.
  • Es ist festzuhalten, dass die Verwendung eines Thesaurus einer bestimmten Domäne und die automatische Erzeugung einer Liste von Begriffen, die in dem Thesaurus nicht enthalten sind und die eine Aktualisierung wie oben beschrieben ermöglichen, ebenfalls ein Aspekt sind, der Bestandteil der vorliegenden Erfindung ist.
  • Es ist klar, dass die vorliegende Erfindung ebenfalls Systeme betrifft, über die nötigen elektronischen Mittel und Algorithmen verfügen, um das oben beschriebene Verfahren zu verwirklichen.

Claims (20)

  1. Verfahren, um Dokumente über eine elektronische Datei wiederaufzubauen, bei dem zum Wiederauffinden Schlüssel benutzt werden, die eine oder mehrere Beziehungen zwischen den Textdaten der betreffenden Dokumente finden, dadurch gekennzeichnet, dass die oben genannten Beziehungen aus kausalen Beziehungen bestehen.
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass, um das Wiederauffinden der Dokumente zu ermöglichen, diese Dokumente elektronisch als Funktion der betreffenden kausalen Beziehungen, die in den Textdaten der betreffenden Dokumente vorkommen, indexiert werden.
  3. Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, dass die Suche nach den betreffenden kausalen Beziehungen und die Indexierung auf der Grundlage der vollständigen Texte der oben genannten Dokumente durchgeführt werden.
  4. Verfahren gemäß Anspruch 2 oder 3, dadurch gekennzeichnet, dass mindestens ein Filter auf die Textdaten angewendet wird, indem Füllwörter eliminiert werden und indem explizite Indexbegriffe mittels der im Text vorkommenden Unigramme und/oder Bigramme und/oder Trigramme bestimmt werden.
  5. Verfahren gemäß Anspruch 4, dadurch gekennzeichnet, dass die Bigramme und/oder Trigramme gebildet werden, nachdem die Füllwörter auf der Grundlage der zurückbehaltenen Unigramme eliminiert worden sind, indem bestimmt wird, welche Begriffe an diese angrenzen.
  6. Verfahren gemäß einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass mindestens ein Häufigkeitsfilter beteiligt ist.
  7. Verfahren gemäß einem der Ansprüche 4 bis 5, dadurch gekennzeichnet, dass ein Thesaurus verwendet wird und dass die zurückbehaltenen expliziten Indexbegriffe mit dem Inhalt dieses Thesaurus verglichen werden und dass mindestens die im Thesaurus vorkommenden Begriffe für die weitere Indexierung berücksichtigt werden.
  8. Verfahren gemäß Anspruch 7, dadurch gekennzeichnet, dass eine Liste der nicht im Thesaurus vorkommenden Begriffe erstellt wird, um den Thesaurus zu aktualisieren.
  9. Verfahren gemäß einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, dass beim Indexieren Gebrauch gemacht wird von impliziten Indexbegriffen, die zu den expliziten Indexbegriffen hinzugefügt werden, wobei die hinzugefügten Begriffe aus dem Thesaurus wiedergewonnen werden und wobei diese Begriffe breitere wie auch einschränkendere Begriffe sein können.
  10. Verfahren gemäß Anspruch 8, dadurch gekennzeichnet, dass Mittel verwendet werden, die eine interaktive Aktualisierung durch den Benutzer zulassen.
  11. Verfahren gemäß einem der Ansprüche 2 bis 10, dadurch gekennzeichnet, dass beim Indexieren eines Dokuments die Anzahl der Indexbegriffe auf maximal fünf und noch besser auf maximal drei beschränkt ist.
  12. Verfahren gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass ein Thesaurus und ein Query Builder verwendet werden, die zum Aufbauen der Abfrage ausschließlich Stichwörter verwenden, die im Thesaurus enthalten sind.
  13. Verfahren gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass für die Beziehungen die zwischen den erzeugten Indexbegriffen existierenden Beziehungen verwendet werden, welche automatisch anhand einer Begriffsliste, die eine kausale Beziehungsangabe enthält, abgesucht werden.
  14. Verfahren gemäß Anspruch 13, dadurch gekennzeichnet, dass postulierte Rahmen, insbesondere kausale Rahmen, verwendet werden, die zusammengesetzt sind aus Stichwörtern einerseits und aus Sprachkomponenten, einschließlich der oben erwähnten Begriffe, die eine Beziehungsangabe enthalten, andererseits, und dass der Text der betreffenden Dokumente auf diese Rahmen abgesucht wird.
  15. Verfahren gemäß Anspruch 14, dadurch gekennzeichnet, dass Rahmen mit Stichwörtern verwendet werden, die mindestens drei Argumente definieren, wobei ein Argument eine Ursache, ein Argument eine Wirkung und ein Argument eine Situation bzw. Bedingung darstellt.
  16. Verfahren gemäß Anspruch 14 oder 15, dadurch gekennzeichnet, dass die Beziehung zwischen den oben genannten Indexbegriffen und den Sprachkomponenten mittels einer automatischen syntaktischen Analyse ermittelt wird und dass als Funktion davon eine Indexierung durchgeführt wird.
  17. Verfahren gemäß Anspruch 16, dadurch gekennzeichnet, dass das Ergebnis der syntaktischen Analyse einem Benutzer des Systems übergeben wird, insbesondere dem Dokumentationsverantwortlichen, so dass er/sie entscheiden kann, ob und in welchem Ausmaß das erhaltene Ergebnis aufgezeichnet werden soll.
  18. Verfahren gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass es zum Indexieren und/oder Wiederauffinden von Dokumenten aus elektronischer Post verwendet wird.
  19. Verfahren gemäß einem der vorgenannten Ansprüche zum Wiederauffinden von Dokumenten über eine elektronische Datei, dadurch gekennzeichnet, dass ein Thesaurus verwendet wird, der sich auf eine bestimmte Domäne und/oder ein bestimmtes Anwendungsgebiet bezieht, und dass bei der Eingabe der Dokumente in die Datei die Begriffe, die nicht im Thesaurus vorkommen und die durch den Benutzer des Verfahrens als relevant eingestuft werden, in einer Liste aufgezeichnet werden, die es ermöglicht, den Thesaurus zu aktualisieren.
  20. System für die Verwirklichung des Verfahrens gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass es aus elektronischen Mitteln besteht, einschließlich Algorithmen, mit deren Hilfe das oben erwähnte Verfahren durchgeführt werden kann.
DE69909360T 1998-04-22 1999-04-16 Verfahren und System um Dokumente über eine elektronische Datei wiederaufzufinden Expired - Lifetime DE69909360T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BE9800302A BE1012981A3 (nl) 1998-04-22 1998-04-22 Werkwijze en systeem voor het weervinden van documenten via een elektronisch databestand.
BE9800302 1998-04-22

Publications (2)

Publication Number Publication Date
DE69909360D1 DE69909360D1 (de) 2003-08-14
DE69909360T2 true DE69909360T2 (de) 2004-05-27

Family

ID=3891209

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69909360T Expired - Lifetime DE69909360T2 (de) 1998-04-22 1999-04-16 Verfahren und System um Dokumente über eine elektronische Datei wiederaufzufinden

Country Status (4)

Country Link
US (1) US6807545B1 (de)
EP (1) EP0952535B1 (de)
BE (1) BE1012981A3 (de)
DE (1) DE69909360T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976214B1 (en) * 2000-08-03 2005-12-13 International Business Machines Corporation Method, system, and program for enhancing text composition in a text editor program
JP4405736B2 (ja) * 2003-01-31 2010-01-27 コニカミノルタホールディングス株式会社 データベースシステム
BE1016079A6 (nl) * 2004-06-17 2006-02-07 Vartec Nv Werkwijze voor het indexeren en terugvinden van documenten, computerprogramma daarbij toegepast en informatiedrager die is voorzien van het voornoemde computerprogramma.
US20070100823A1 (en) * 2005-10-21 2007-05-03 Inmon Data Systems, Inc. Techniques for manipulating unstructured data using synonyms and alternate spellings prior to recasting as structured data
BE1018334A5 (nl) * 2008-11-04 2010-09-07 Group Dado 13 Bv Met Beperkte Werkwijze en systeem voor het intelligent indexeren van documenten of teksten in een complexe database door het vermijden van "ruis".
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US9342582B2 (en) * 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US20150006528A1 (en) * 2013-06-28 2015-01-01 Iac Search & Media, Inc. Hierarchical data structure of documents

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching

Also Published As

Publication number Publication date
DE69909360D1 (de) 2003-08-14
BE1012981A3 (nl) 2001-07-03
EP0952535B1 (de) 2003-07-09
US6807545B1 (en) 2004-10-19
EP0952535A1 (de) 1999-10-27

Similar Documents

Publication Publication Date Title
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE60029845T2 (de) System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung
DE69329265T2 (de) Graphischer Datenbankzugriff
EP1303797B1 (de) System zur unterstützung einer fehlerursachenanalyse
DE69617515T2 (de) Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen
DE69022842T2 (de) Verwendung von Befehlsähnlichkeiten in einem intelligenten Hilfssystem.
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
DE69909360T2 (de) Verfahren und System um Dokumente über eine elektronische Datei wiederaufzufinden
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
DE69710309T2 (de) System für betriebliche veröffentlichung und speicherung
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE10131193A1 (de) Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
EP1276056A1 (de) Verfahren zum Verwalten einer Datenbank
DE10034694A1 (de) Verfahren zum Vergleichen von Suchprofilen
DE10348920A1 (de) Computersystem und Verfahren zur mehrsprachigen assoziativen Suche
DE60119643T2 (de) Homophonewahl in der Spracherkennung
DE69908106T2 (de) Erweiterung eines spracherkennungswortschatzes unter verwendung von abgeleiteten wörtern
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
DE69830524T2 (de) Verfahren und System zur Eliminierung von Mehrdeutigkeiten bei syntaktischen Wortgruppen
DE69903916T2 (de) Bewerten von texteinheiten
DE202022104673U1 (de) System zur Rückverfolgbarkeit von sozialen Netzwerken
DE19726569C1 (de) Verfahren zum Zugriff auf eine Speichereinheit und Datenverarbeitungsanlage zum Eingeben einer Eingabefolge sowie zugehörige Speichereinheit
EP1178400A1 (de) Hilfesystem mit freier Texteingabe und Rechtschreibkorrektur

Legal Events

Date Code Title Description
8364 No opposition during term of opposition