DE69909360T2

DE69909360T2 - Verfahren und System um Dokumente über eine elektronische Datei wiederaufzufinden

Info

Publication number: DE69909360T2
Application number: DE69909360T
Authority: DE
Inventors: Fernand Jozef Vandamme
Original assignee: HET BABBAGE INST VOOR KENNIS E; Het Babbage Instituut Voor Kennis En Informatie Technologie "bikit
Current assignee: HET BABBAGE INST VOOR KENNIS E; Het Babbage Instituut Voor Kennis En Informatie Technologie "bikit
Priority date: 1998-04-22
Filing date: 1999-04-16
Publication date: 2004-05-27
Anticipated expiration: 2019-04-17
Also published as: DE69909360D1; BE1012981A3; EP0952535B1; US6807545B1; EP0952535A1

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Wiederauffinden von Dokumenten über eine elektronische Datei sowie ein System zur Verwirklichung dieses Verfahrens.
An erster Stelle ist die Erfindung für den Einsatz in Datensystemen bestimmt, in denen elektronische Dokumente oder Teile dieser Dokumente gespeichert sind, um die erforderlichen Dokumente mittels spezifischer Suchschlüssel später wiederauffinden zu können. Allgemeiner kann die Erfindung jedoch in einem beliebigen System verwendet werden, das elektronische Dokumente beinhaltet.
Insbesondere zielt die Erfindung auf ein Verfahren ab, um elektronische Dokumente mittels spezifischer Suchschlüssel wiederaufzufinden.
Verschiedene Verfahren zum Indexieren und anschließenden Wiederauffinden von Daten in elektronischen Dokumenten sind bereits bekannt. Beispiele hierfür sind unter anderem in den Patenten US-A-5.007.019, US-A-5.371.807, US-A-5.418.91, US-S-555.408, WO 95/14973, WO 96/23265 und in dem Dokument beschrieben.
Im Allgemeinen könnte man sagen, dass es drei Verfahren zum Umsetzen von Textdaten in Indexen gibt. Bei dem ersten Verfahren handelt es sich um ein automatisches, "nicht intelligentes" Indexierverfahren. Gemäß diesem Verfahren werden Wörter mittels eines Auswertungssystems automatisch in dem Text wiederaufgefunden und in einen Index integriert.
Das zweite Verfahren ist das manuelle "intelligente" Indexierverfahren. Dieses Verfahren macht gewöhnlich Gebrauch von vorbestimmten Koordinaten. Die Person, die die Dokumente indexiert, weist jedem Dokument eines oder mehrere Labels zu, anhand derer das Dokument später wiederaufgefunden werden kann.
Das dritte Verfahren ist das automatische "intelligente" Indexierverfahren. Hier wird die indexierende Person durch ein automatisches System ersetzt.
Es ist klar, dass die Qualität des Verfahrens, mit dem die richtigen Dokumente später im Nu wiederaufgefunden werden können, von den Schlüsseln abhängt, die für die Indexierung verwendet werden. Hauptsächlich unterscheiden wir zwei grundlegende Schlüssel Ein erster grundlegender Schlüssel betrifft die "Erschöpfbarkeit", durch die impliziert wird, in wieweit der Inhalt eines bestimmten Dokuments vollständig mittels des Index gespeichert wird. Ein zweiter grundlegender Schlüssel ist die Spezifizität, die im Hinblick auf die Präzision bestimmt wird, mit der abgesuchte Dokumente aufgefunden werden können.
Es ist klar, dass, um die richtigen Dokumente im Nu wiederauffinden zu können, ein Verfahren erforderlich ist, das ein ideales Gleichgewicht bietet zwischen der Möglichkeit zum Wiederauffinden der Dokumente einerseits und der Präzision, mit der die Dokumente aufgefunden werden können, andererseits. Im Fall der erschöpfenden Indexierung entstehen Situationen, wobei die Suche nach bestimmten Dokumenten, die sich auf ein bestimmtes Thema beziehen, eine große Anzahl von Dokumenten liefert, einschließlich jede Menge Informationen, die jedoch wertlos sind. In diesem Fall enthalten die wiederaufgefundenen Dokumente sozusagen viel "Rauschen". Ein hohes Maß an Präzision setzt voraus, dass nur nützliche Informationen indexiert werden, indem dieser sehr präzise Labels zugewiesen werden.
Des Weiteren ist bekannt, dass man nach der so genannten "Einzelbegriff-Indexierung", wobei Indexe einzelnen Begriffen oder "Wörtern" zugewiesen werden, oder nach der so genannten "Begriffsbeziehungs-Indexierung", wobei Indexe zugewiesen werden, die Beziehungen zwischen verschiedenen Konzepten zulassen, indexieren kann.
Die bisher bekannten Systeme für elektronisches Dokumentenmanagement sind dadurch nachteilig, dass sie alle hauptsächlich auf statistischen Formeln beruhen und keine auf Wissen basierenden Indexierverfahren verwenden, oder dass sie wenn auf Wissen basierende Indexierverfahren verwendet werden, die hier führ verwendeten Verfahren wenig effizient sind.
Die vorliegende Erfindung zielt auf ein Verfahren zum Verwalten von Dokumenten ab, insbesondere zum Wiederauffinden von Dokumenten, die es dem Endbenutzer ermöglichen, relevante Informationen auf sehr effiziente Weise zu erhalten, worunter zu verstehen ist, dass die richtigen Dokumente mit hoher Präzision und ohne einen hohen Anteil an "Rauschen" wiederaufgefunden werden können.
Zu diesem Zweck sieht die Erfindung an erster Stelle ein Verfahren zum Wiederauffinden von Dokumenten über eine elektronische Datei vor, wobei zum Wiederauffinden Schlüssel benutzt werden, die eine oder mehrere Beziehungen zwischen den Textdaten der betreffenden Dokumente finden, gekennzeichnet dadurch, dass es sich bei den vorgenannten Beziehungen um "kausale" Beziehungen handelt.
Die vorgenannten kausalen Beziehungen werden benutzt, um den eingegebenen Dokumenten Indexe zuzuweisen, so dass, wenn diese Dokumente wiederaufgefunden werden müssen, automatisch nach kausalen Beziehungen auf der Grundlage dieser Indexe gesucht wird. Obwohl die Erfindung in erster Linie dazu bestimmt ist, Dokumente auf diese Weise zu indexieren und es anschließend zu ermöglichen, diese Dokumente auf der Grundlage der genannten Indexe wiederaufzufinden, ist es nicht ausgeschlossen, das Verfahren der Erfindung nur zum Zeitpunkt des Wiederauffindens ohne Verwendung irgendwelcher Indexe anzuwenden.
Die Ermittlung von Beziehungen, insbesondere von kausalen Beziehungen, bietet den Vorteil, dass der semantische Überfluss eines Thesaurus optimal zum Indexieren und/oder Wiederauffinden von Dokumenten aus einer Datei verwendet werden kann.
Vorzugsweise in Verbindung mit der vorliegenden Erfindung wird Gebrauch gemacht von einem oder mehreren nach Themen orientierten Thesauri, insbesondere Thesauri, die im Zusammenhang mit bestimmten Domänen stehen.
Gemäß einer bevorzugten Ausführung, abgesehen von dem/den oben genannten Thesaurus oder Thesauri, kann auch eine Datei erstellt und/oder verwendet werden, in der kausale Beziehungen festgelegt worden sind. Dies hilft den Endbenutzern, Gründe und/oder Beziehungen in bestimmten Zusammenhängen zu finden.
Das grundlegende Konzept des vorgenannten Verfahrens der Erfindung kann in der Praxis auf verschiedene Weisen verwirklicht werden.
Um die Merkmale der Erfindung besser zu veranschaulichen, wird die folgende praktische wie auch bevorzugte Ausführung beschrieben.
Gemäß dieser bevorzugten Ausführung wird eine Struktur verwendet, in der hauptsächlich fünf grundlegende Komponente unterschieden werden können.
Die erste Komponente besteht aus Mitteln zur Verwaltung eines Thesaurus. Diese Komponente kann auch als "Thesaurus-Manager" bezeichnet werden. Die erwähnte Komponente ermöglicht es, neue Daten in der bekannten Weise in dem Thesaurus zu speichern, ebenso wie gleichwertige Begriffe, breitere und einschränkendere Begriffe.
Die zweite Komponente besteht aus Mitteln für eine syntaktische Analyse und kann kurz als "Parser" bezeichnet werden, wobei es sich im Grunde genommen um einen Sprachanalysator handelt. Dieser Sprachanalysator zielt darauf ab, neue Dokumente wiederaufzufinden und Dokumente auf der Grundlage semantischer Beziehungen in der bestimmten Domäne des verwendeten Thesaurus automatisch zu indexieren.
Vorzugsweise erzeugt der Parser automatisch Stichwörter und Konzepte für jedes elektronische Dokument in ASCII-Format.
Die dritte Komponente besteht aus grafischen Suchformulatormitteln oder einem so genannten "grafischen Query Builder". Dieser Query Builder ermöglicht es dem Endbenutzer, eine Abfrage in der geeigneten Weise einzugeben. Die besagten Query Builder identifizieren außerdem die Anzahl der Dokumente, die aufgefunden werden, wenn ein bestimmtes Stichwort eingegeben wird, sowie die Anzahl der Konzepte, die hierbei gefunden werden. Die Anzahl breiter Begriffe im Zusammenhang mit einem eingeschränkten Begriff wird ebenfalls dargestellt.
Die vierte Komponente besteht aus Mitteln zum Bestimmen und Aufzeichnen der kausalen Beziehungen und kann im Rahmen der vorliegenden Erfindung als "Beziehungsmanager" bezeichnet werden. Die vierte Komponente ermöglicht das interaktive Auslesen kausaler oder möglicherweise anderer Beziehungen.
Die fünfte Komponente besteht aus Query Buildern, die es ermöglichen, durch die Datei zwischen den Dokumenten zu navigieren, die mittels des Beziehungsmanagers indexiert worden sind, und zwar auf der Basis kausaler Beziehungen.
Die oben genannten Beziehungen stellen sicher, dass mittels Algorithmen oder dergleichen die entsprechenden Operationen oder Schritte des Verfahrens ausgeführt werden können. Eine Reihe der möglichen Operationen wird im Folgenden systematisch beschrieben, um die Erfindung zu veranschaulichen.
Vorzugsweise werden vollständige Texte von Dokumenten als Grundlage herangezogen, die alle in derselben Sprache, vorzugsweise Englisch, geschrieben sind. Insbesondere arbeiten wir mit Texten, die auf natürliche Weise geschrieben sind.
Ein erster Schritte oder eine erste Operation, der bzw. die gemäß der Erfindung auszuführen ist, verwendet die oben genannte erste und zweite Komponente und bietet eine erste Indexierung oder Verarbeitung auf der Grundlage des betreffenden Thesaurus, welcher Schritt als "Thesaurus-basierte Indexierung" bezeichnet werden kann.
Während dieses ersten Schritts wird der Text zum Beispiel automatisch auf explizite Indexbegriffe überprüft, worunter Begriffe zu verstehen sind, die wörtlich im Text des betreffenden Dokuments vorkommen. Diese expliziten Indexbegriffe können aus Unigrammen und/oder Bigrammen und/oder Trigrammen bestehen, wobei die Unigramme für getrennte Wörter stehen, während die Bigramme und Trigramme aus Begriffen mit jeweils zwei, drei Wörtern bestehen. Ein Unigramm ist beispielsweise das Wort "Komposition", während der Begriff "weicher Stahl" ein Bigramm und der Begriff "Verhalten bei Rekristallisierung" ein Trigramm ist.
Um diese expliziten Indexbegriffe wiederaufzufinden, werden die Textdaten gefiltert, wobei bei dieser Filterung mindestens die Füllwörter eliminiert werden.
Die restlichen Wörter werden weiter gefiltert, um mindestens die am wenigsten relevanten Unigramme und/oder Bigramme und/oder Trigramme zu eliminieren. Für diese extra Filterung wird vorzugsweise eine Häufigkeitsfilterung verwendet. Bei einer solchen Filterung wird das Vorkommen jedes Unigramms, Bigramms bzw. Trigramms im Text überprüft, woraufhin die Unigramme, Bigramme und Trigramme, die nur in beschränktem Maß vorkommen, eliminiert werden. Diese Häufigkeitsfilterung kann vom Benutzer eingestellt und geändert werden.
Als Nächstes werden die zurückbehaltenen expliziten Indexbegriffe mit dem Inhalt des benutzten Thesaurus verglichen und mindestens die Begriffe, die im Thesaurus vorkommen, werden für die weitere Indexierung berücksichtigt.
Eine Liste der nicht im Thesaurus vorkommenden expliziten Begriffe wird erstellt, die es ermöglicht, den Thesaurus zu aktualisieren. Ein Benutzer oder ein Dokumentationsverantwortlicher kann sich diese Liste ansehen und anschließend gegebenenfalls entscheiden, welche Wörter aus dieser Liste in den Thesaurus aufgenommen werden sollen. Dies ermöglicht interaktives Aktualisieren.
Während der Abfrage nach Bigrammen und/oder Trigrammen werden diese vorzugsweise durch Überprüfung aufgezeichnet, nachdem die Füllwörter eliminiert worden sind, welche Unigramme vorkommen und durch Ermittlung der Begriffe, die an diese angrenzen.
In einer zweiten Operation oder einem zweiten Schritt werden auch die oben genannten ersten und zweiten Komponenten verwendet, und es werden Konzepte auf der Grundlage des Thesaurus erzeugt. Dieser Schritt kann auch als "Erzeugung der Thesaurus-basierten Konzepte" bezeichnet werden.
In diesem Schritt werden implizite Indexbegriffe, mit anderen Worten Konzeptbegriffe, zu den expliziten Indexbegriffen hinzugefügt, mit anderen Worten, den Begriffen, die explizit im Text vorkommen und die wie oben beschrieben ermittelt worden sind. Diese impliziten Indexbegriffe sind Begriffe, die im Thesaurus auf der Grundlage der Tatsache wiedergefunden worden sind, dass sie mit den expliziten Indexbegriffen in Zusammenhang stehen. Die Beziehung zwischen diesen zwei Arten von Begriffen ist im Thesaurus hergestellt worden.
Die impliziten Indexbegriffe können Begriffe sein, die entweder einschränkender oder breiter als die expliziten Indexbegriffe sind. Zum Beispiel ist der Begriff "Metall" ein breiterer Begriff als "Stahl", und beispielsweise ist der Begriff "weicher Stahl" ein eingeschränkterer Begriff" zu dem Begriff "Stahl".
Es ist festzuhalten, dass beim Indexieren eines Dokuments diesem vorzugsweise nur eine beschränkte Anzahl von Indexbegriffen zugewiesen wird, und dieses durch drastische Selektion. Vorzugsweise gibt es maximal fünf Begriffe und besser noch maximal zwei Begriffe.
Gemäß der Erfindung werden Query Builder vorgesehen, insbesondere ein Algorithmus, die dem Benutzer ausschließlich über Stichwörter, die im Thesaurus vorkommen, Zugang bieten. Infolgedessen wird eines der herkömmlichen Probleme des Wiederauffindens von Dokumenten vermieden, indem eine Vokabularabweichung zwischen dem Wissen des Benutzers und dem in der Datenbank gespeicherten Wissen ausgeschlossen wird.
Der hierbei benutzte Algorithmus ermöglicht es dem Benutzer, unter Bezugnahme auf einen bestimmten Begriff eine Abfrage durchzuführen und bietet anschließend weitere Möglichkeiten zum Wiederauffinden auf der Grundlage dieses Begriffs. Gemäß der Erfindung wird hierbei eine hierarchische Struktur mit breiteren und eingeschränkteren Begriffen verwendet. So könnte beispielsweise, ausgehend von dem Begriff "Stahl", ein erster breiterer Begriff "eisenhaltige Legierungen" sein, während ein nachfolgender breiterer Begriff "Übergangsmetalllegierungen" sein könnte usw.
Ein vierter wichtiger Vorgang bzw. Schritt innerhalb des Rahmens der vorliegenden Erfindung ist das Auslesen kausaler Beziehungen auf automatische Weise.
Hierbei werden elektronische Mittel verwendet, insbesondere ein Algorithmus, um die kausalen Beziehungen zwischen den aufgefundenen Indexbegriffen, entweder expliziten oder impliziten Indexbegriffen, zu identifizieren und auszulesen.
Das automatische Wiederauffinden erfolgt auf der Grundlage einer Liste von Begriffen, die eine Beziehungsangabe enthält. Diese Liste enthält Wörter wie z. B. "hängt ab", "Ursachen", "Wirkungen" usw.
Gemäß der am meisten bevorzugten Ausführung werden postulierte kausale Rahmen verwendet, die zusammengesetzt sind aus Stichwörtern einerseits und aus Sprachkomponenten, einschließlich der oben genannten Begriffe, die eine Beziehungsangabe enthalten, andererseits, und der Text der Dokumente wird nach diesen Rahmen abgesucht.
Insbesondere werden Rahmen mit Stichwörtern verwendet, die mindestens drei Argumente definieren, ein Argument, das eine Ursache darstellt, ein Argument, das eine Wirkung darstellt, und ein Argument, das eine Situation darstellt.
Beispielsweise sieht der Rahmen, der sich auf das Muster "Wirkung von" bezieht, folgendermaßen aus:
'F' und 'K1' und 'auf und 'K2' und 'C' und 'K3'
wobei:

– F der Ausdruck "Wirkung von" ist;
– C die Bedingung darstellt und aus Begriffen wie "von", "in" oder "bei" bestehen kann;
– K1 die Argumente sind, die eine Ursache darstellen;
– K2 die Argumente sind, die eine Wirkung darstellen;
– K3 die Argumente sind, die eine Situation darstellen.

Die Ausdrücke "Wirkung von" und "auf" bilden Sprachkomponenten.
Auf ähnliche Weise werden verschiedene kausale Rahmen vorab ermittelt.
Mittels einer automatischen syntaktischen Analyse wird die Beziehung zwischen den oben erwähnten Indexbegriffen, entweder explizit und/oder implizit, und den Sprachkomponenten ermittelt, und in Abhängigkeit davon wird ermittelt, welche kausalen Rahmen in einem Text vorkommen, und die Indexierung wird schließlich ausgeführt.
Sooft ein kausaler Rahmen identifiziert wird, werden die entsprechenden Begriffe K1 und K2 in gesonderten Datensätzen aufgezeichnet, die spezielle für die Begriffe ausgelegt sind, die sich stets am Standort K1, K2 bzw. K3 befinden. So gibt es einen Datensatz für die Argumente, die eine Ursache darstellen, diejenigen, die eine Wirkung darstellen, und diejenigen, die eine Situation oder Bedingung darstellen.
Wenn zum Beispiel die folgende Begriffsfolge im Text vorkommt: Wirkung von CHEMISCHER ZUSAMMENSETZUNG auf REKRISTALLISIERUNGSVERHALTEN in WEICHEM STAHL, ist klar, dass dieses als kausaler Rahmen erkannt wird. Indem die Begriffe CHEMISCHE ZUSAMMENSETZUNG, REKRISTALLISIERUNGSVERHALTEN und WEICHER STAHL in den oben genannten Datensätzen gespeichert werden, ist klar, dass umgekehrt das betreffende Dokument durch eine Suche nach den entsprechenden kausalen Beziehungen wiederaufgefunden werden kann.
Das Ergebnis der oben beschriebenen syntaktischen Analyse kann erst dem Benutzer des Systems oder einem Dokumentationsverantwortlichen vorgelegt werden oder nicht, damit dieser entscheidet, ob die erhaltenen Indexierungsergebnisse in der Datei aufgezeichnet werden sollen und in welchem Umfang diese eventuell aufgezeichnet werden.
In einer bestimmten Anwendung wird das Verfahren gemäß der Erfindung für die Indexierung und/oder das Wiederauffinden von Dokumenten aus elektronischer Post benutzt, so dass der Benutzer viele Informationen über elektronische Post wiederauffinden kann, aber automatisch auch eine sehr effiziente Auswahl erhält, so dass nicht alle erhaltenen Daten nacheinander durchlaufen werden müssen.
Es ist festzuhalten, dass die Verwendung eines Thesaurus einer bestimmten Domäne und die automatische Erzeugung einer Liste von Begriffen, die in dem Thesaurus nicht enthalten sind und die eine Aktualisierung wie oben beschrieben ermöglichen, ebenfalls ein Aspekt sind, der Bestandteil der vorliegenden Erfindung ist.
Es ist klar, dass die vorliegende Erfindung ebenfalls Systeme betrifft, über die nötigen elektronischen Mittel und Algorithmen verfügen, um das oben beschriebene Verfahren zu verwirklichen.

Claims

Verfahren, um Dokumente über eine elektronische Datei wiederaufzubauen, bei dem zum Wiederauffinden Schlüssel benutzt werden, die eine oder mehrere Beziehungen zwischen den Textdaten der betreffenden Dokumente finden, dadurch gekennzeichnet, dass die oben genannten Beziehungen aus kausalen Beziehungen bestehen.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass, um das Wiederauffinden der Dokumente zu ermöglichen, diese Dokumente elektronisch als Funktion der betreffenden kausalen Beziehungen, die in den Textdaten der betreffenden Dokumente vorkommen, indexiert werden.
Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, dass die Suche nach den betreffenden kausalen Beziehungen und die Indexierung auf der Grundlage der vollständigen Texte der oben genannten Dokumente durchgeführt werden.
Verfahren gemäß Anspruch 2 oder 3, dadurch gekennzeichnet, dass mindestens ein Filter auf die Textdaten angewendet wird, indem Füllwörter eliminiert werden und indem explizite Indexbegriffe mittels der im Text vorkommenden Unigramme und/oder Bigramme und/oder Trigramme bestimmt werden.
Verfahren gemäß Anspruch 4, dadurch gekennzeichnet, dass die Bigramme und/oder Trigramme gebildet werden, nachdem die Füllwörter auf der Grundlage der zurückbehaltenen Unigramme eliminiert worden sind, indem bestimmt wird, welche Begriffe an diese angrenzen.
Verfahren gemäß einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass mindestens ein Häufigkeitsfilter beteiligt ist.
Verfahren gemäß einem der Ansprüche 4 bis 5, dadurch gekennzeichnet, dass ein Thesaurus verwendet wird und dass die zurückbehaltenen expliziten Indexbegriffe mit dem Inhalt dieses Thesaurus verglichen werden und dass mindestens die im Thesaurus vorkommenden Begriffe für die weitere Indexierung berücksichtigt werden.
Verfahren gemäß Anspruch 7, dadurch gekennzeichnet, dass eine Liste der nicht im Thesaurus vorkommenden Begriffe erstellt wird, um den Thesaurus zu aktualisieren.
Verfahren gemäß einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, dass beim Indexieren Gebrauch gemacht wird von impliziten Indexbegriffen, die zu den expliziten Indexbegriffen hinzugefügt werden, wobei die hinzugefügten Begriffe aus dem Thesaurus wiedergewonnen werden und wobei diese Begriffe breitere wie auch einschränkendere Begriffe sein können.
Verfahren gemäß Anspruch 8, dadurch gekennzeichnet, dass Mittel verwendet werden, die eine interaktive Aktualisierung durch den Benutzer zulassen.
Verfahren gemäß einem der Ansprüche 2 bis 10, dadurch gekennzeichnet, dass beim Indexieren eines Dokuments die Anzahl der Indexbegriffe auf maximal fünf und noch besser auf maximal drei beschränkt ist.
Verfahren gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass ein Thesaurus und ein Query Builder verwendet werden, die zum Aufbauen der Abfrage ausschließlich Stichwörter verwenden, die im Thesaurus enthalten sind.
Verfahren gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass für die Beziehungen die zwischen den erzeugten Indexbegriffen existierenden Beziehungen verwendet werden, welche automatisch anhand einer Begriffsliste, die eine kausale Beziehungsangabe enthält, abgesucht werden.
Verfahren gemäß Anspruch 13, dadurch gekennzeichnet, dass postulierte Rahmen, insbesondere kausale Rahmen, verwendet werden, die zusammengesetzt sind aus Stichwörtern einerseits und aus Sprachkomponenten, einschließlich der oben erwähnten Begriffe, die eine Beziehungsangabe enthalten, andererseits, und dass der Text der betreffenden Dokumente auf diese Rahmen abgesucht wird.
Verfahren gemäß Anspruch 14, dadurch gekennzeichnet, dass Rahmen mit Stichwörtern verwendet werden, die mindestens drei Argumente definieren, wobei ein Argument eine Ursache, ein Argument eine Wirkung und ein Argument eine Situation bzw. Bedingung darstellt.
Verfahren gemäß Anspruch 14 oder 15, dadurch gekennzeichnet, dass die Beziehung zwischen den oben genannten Indexbegriffen und den Sprachkomponenten mittels einer automatischen syntaktischen Analyse ermittelt wird und dass als Funktion davon eine Indexierung durchgeführt wird.
Verfahren gemäß Anspruch 16, dadurch gekennzeichnet, dass das Ergebnis der syntaktischen Analyse einem Benutzer des Systems übergeben wird, insbesondere dem Dokumentationsverantwortlichen, so dass er/sie entscheiden kann, ob und in welchem Ausmaß das erhaltene Ergebnis aufgezeichnet werden soll.
Verfahren gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass es zum Indexieren und/oder Wiederauffinden von Dokumenten aus elektronischer Post verwendet wird.
Verfahren gemäß einem der vorgenannten Ansprüche zum Wiederauffinden von Dokumenten über eine elektronische Datei, dadurch gekennzeichnet, dass ein Thesaurus verwendet wird, der sich auf eine bestimmte Domäne und/oder ein bestimmtes Anwendungsgebiet bezieht, und dass bei der Eingabe der Dokumente in die Datei die Begriffe, die nicht im Thesaurus vorkommen und die durch den Benutzer des Verfahrens als relevant eingestuft werden, in einer Liste aufgezeichnet werden, die es ermöglicht, den Thesaurus zu aktualisieren.
System für die Verwirklichung des Verfahrens gemäß einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass es aus elektronischen Mitteln besteht, einschließlich Algorithmen, mit deren Hilfe das oben erwähnte Verfahren durchgeführt werden kann.