-
Die vorliegende Erfindung betrifft
ein Verfahren zum Wiederauffinden von Dokumenten über eine elektronische
Datei sowie ein System zur Verwirklichung dieses Verfahrens.
-
An erster Stelle ist die Erfindung
für den
Einsatz in Datensystemen bestimmt, in denen elektronische Dokumente
oder Teile dieser Dokumente gespeichert sind, um die erforderlichen
Dokumente mittels spezifischer Suchschlüssel später wiederauffinden zu können. Allgemeiner
kann die Erfindung jedoch in einem beliebigen System verwendet werden, das
elektronische Dokumente beinhaltet.
-
Insbesondere zielt die Erfindung
auf ein Verfahren ab, um elektronische Dokumente mittels spezifischer
Suchschlüssel
wiederaufzufinden.
-
Verschiedene Verfahren zum Indexieren
und anschließenden
Wiederauffinden von Daten in elektronischen Dokumenten sind bereits
bekannt. Beispiele hierfür
sind unter anderem in den Patenten US-A-5.007.019, US-A-5.371.807,
US-A-5.418.91, US-S-555.408,
WO 95/14973, WO 96/23265 und in dem Dokument beschrieben.
-
Im Allgemeinen könnte man sagen, dass es drei
Verfahren zum Umsetzen von Textdaten in Indexen gibt. Bei dem ersten
Verfahren handelt es sich um ein automatisches, "nicht intelligentes" Indexierverfahren. Gemäß diesem
Verfahren werden Wörter mittels
eines Auswertungssystems automatisch in dem Text wiederaufgefunden
und in einen Index integriert.
-
Das zweite Verfahren ist das manuelle "intelligente" Indexierverfahren.
Dieses Verfahren macht gewöhnlich
Gebrauch von vorbestimmten Koordinaten. Die Person, die die Dokumente
indexiert, weist jedem Dokument eines oder mehrere Labels zu, anhand
derer das Dokument später
wiederaufgefunden werden kann.
-
Das dritte Verfahren ist das automatische "intelligente" Indexierverfahren.
Hier wird die indexierende Person durch ein automatisches System
ersetzt.
-
Es ist klar, dass die Qualität des Verfahrens, mit
dem die richtigen Dokumente später
im Nu wiederaufgefunden werden können,
von den Schlüsseln abhängt, die
für die
Indexierung verwendet werden. Hauptsächlich unterscheiden wir zwei
grundlegende Schlüssel
Ein erster grundlegender Schlüssel
betrifft die "Erschöpfbarkeit", durch die impliziert
wird, in wieweit der Inhalt eines bestimmten Dokuments vollständig mittels
des Index gespeichert wird. Ein zweiter grundlegender Schlüssel ist
die Spezifizität,
die im Hinblick auf die Präzision
bestimmt wird, mit der abgesuchte Dokumente aufgefunden werden können.
-
Es ist klar, dass, um die richtigen
Dokumente im Nu wiederauffinden zu können, ein Verfahren erforderlich
ist, das ein ideales Gleichgewicht bietet zwischen der Möglichkeit
zum Wiederauffinden der Dokumente einerseits und der Präzision,
mit der die Dokumente aufgefunden werden können, andererseits. Im Fall
der erschöpfenden
Indexierung entstehen Situationen, wobei die Suche nach bestimmten Dokumenten,
die sich auf ein bestimmtes Thema beziehen, eine große Anzahl
von Dokumenten liefert, einschließlich jede Menge Informationen,
die jedoch wertlos sind. In diesem Fall enthalten die wiederaufgefundenen
Dokumente sozusagen viel "Rauschen". Ein hohes Maß an Präzision setzt
voraus, dass nur nützliche
Informationen indexiert werden, indem dieser sehr präzise Labels
zugewiesen werden.
-
Des Weiteren ist bekannt, dass man
nach der so genannten "Einzelbegriff-Indexierung", wobei Indexe einzelnen
Begriffen oder "Wörtern" zugewiesen werden,
oder nach der so genannten "Begriffsbeziehungs-Indexierung", wobei Indexe zugewiesen werden,
die Beziehungen zwischen verschiedenen Konzepten zulassen, indexieren
kann.
-
Die bisher bekannten Systeme für elektronisches
Dokumentenmanagement sind dadurch nachteilig, dass sie alle hauptsächlich auf
statistischen Formeln beruhen und keine auf Wissen basierenden Indexierverfahren
verwenden, oder dass sie wenn auf Wissen basierende Indexierverfahren
verwendet werden, die hier führ
verwendeten Verfahren wenig effizient sind.
-
Die vorliegende Erfindung zielt auf
ein Verfahren zum Verwalten von Dokumenten ab, insbesondere zum
Wiederauffinden von Dokumenten, die es dem Endbenutzer ermöglichen,
relevante Informationen auf sehr effiziente Weise zu erhalten, worunter
zu verstehen ist, dass die richtigen Dokumente mit hoher Präzision und
ohne einen hohen Anteil an "Rauschen" wiederaufgefunden
werden können.
-
Zu diesem Zweck sieht die Erfindung
an erster Stelle ein Verfahren zum Wiederauffinden von Dokumenten über eine
elektronische Datei vor, wobei zum Wiederauffinden Schlüssel benutzt
werden, die eine oder mehrere Beziehungen zwischen den Textdaten
der betreffenden Dokumente finden, gekennzeichnet dadurch, dass
es sich bei den vorgenannten Beziehungen um "kausale" Beziehungen handelt.
-
Die vorgenannten kausalen Beziehungen werden
benutzt, um den eingegebenen Dokumenten Indexe zuzuweisen, so dass,
wenn diese Dokumente wiederaufgefunden werden müssen, automatisch nach kausalen
Beziehungen auf der Grundlage dieser Indexe gesucht wird. Obwohl
die Erfindung in erster Linie dazu bestimmt ist, Dokumente auf diese Weise
zu indexieren und es anschließend
zu ermöglichen,
diese Dokumente auf der Grundlage der genannten Indexe wiederaufzufinden,
ist es nicht ausgeschlossen, das Verfahren der Erfindung nur zum Zeitpunkt
des Wiederauffindens ohne Verwendung irgendwelcher Indexe anzuwenden.
-
Die Ermittlung von Beziehungen, insbesondere
von kausalen Beziehungen, bietet den Vorteil, dass der semantische Überfluss
eines Thesaurus optimal zum Indexieren und/oder Wiederauffinden
von Dokumenten aus einer Datei verwendet werden kann.
-
Vorzugsweise in Verbindung mit der
vorliegenden Erfindung wird Gebrauch gemacht von einem oder mehreren
nach Themen orientierten Thesauri, insbesondere Thesauri, die im
Zusammenhang mit bestimmten Domänen
stehen.
-
Gemäß einer bevorzugten Ausführung, abgesehen
von dem/den oben genannten Thesaurus oder Thesauri, kann auch eine
Datei erstellt und/oder verwendet werden, in der kausale Beziehungen
festgelegt worden sind. Dies hilft den Endbenutzern, Gründe und/oder
Beziehungen in bestimmten Zusammenhängen zu finden.
-
Das grundlegende Konzept des vorgenannten
Verfahrens der Erfindung kann in der Praxis auf verschiedene Weisen
verwirklicht werden.
-
Um die Merkmale der Erfindung besser
zu veranschaulichen, wird die folgende praktische wie auch bevorzugte
Ausführung
beschrieben.
-
Gemäß dieser bevorzugten Ausführung wird eine
Struktur verwendet, in der hauptsächlich fünf grundlegende Komponente
unterschieden werden können.
-
Die erste Komponente besteht aus
Mitteln zur Verwaltung eines Thesaurus. Diese Komponente kann auch
als "Thesaurus-Manager" bezeichnet werden.
Die erwähnte
Komponente ermöglicht
es, neue Daten in der bekannten Weise in dem Thesaurus zu speichern,
ebenso wie gleichwertige Begriffe, breitere und einschränkendere
Begriffe.
-
Die zweite Komponente besteht aus
Mitteln für
eine syntaktische Analyse und kann kurz als "Parser" bezeichnet werden, wobei es sich im
Grunde genommen um einen Sprachanalysator handelt. Dieser Sprachanalysator
zielt darauf ab, neue Dokumente wiederaufzufinden und Dokumente
auf der Grundlage semantischer Beziehungen in der bestimmten Domäne des verwendeten
Thesaurus automatisch zu indexieren.
-
Vorzugsweise erzeugt der Parser automatisch
Stichwörter
und Konzepte für
jedes elektronische Dokument in ASCII-Format.
-
Die dritte Komponente besteht aus
grafischen Suchformulatormitteln oder einem so genannten "grafischen Query
Builder". Dieser
Query Builder ermöglicht
es dem Endbenutzer, eine Abfrage in der geeigneten Weise einzugeben.
Die besagten Query Builder identifizieren außerdem die Anzahl der Dokumente,
die aufgefunden werden, wenn ein bestimmtes Stichwort eingegeben
wird, sowie die Anzahl der Konzepte, die hierbei gefunden werden.
Die Anzahl breiter Begriffe im Zusammenhang mit einem eingeschränkten Begriff
wird ebenfalls dargestellt.
-
Die vierte Komponente besteht aus
Mitteln zum Bestimmen und Aufzeichnen der kausalen Beziehungen und
kann im Rahmen der vorliegenden Erfindung als "Beziehungsmanager" bezeichnet werden. Die vierte Komponente
ermöglicht
das interaktive Auslesen kausaler oder möglicherweise anderer Beziehungen.
-
Die fünfte Komponente besteht aus
Query Buildern, die es ermöglichen,
durch die Datei zwischen den Dokumenten zu navigieren, die mittels
des Beziehungsmanagers indexiert worden sind, und zwar auf der Basis
kausaler Beziehungen.
-
Die oben genannten Beziehungen stellen
sicher, dass mittels Algorithmen oder dergleichen die entsprechenden
Operationen oder Schritte des Verfahrens ausgeführt werden können. Eine
Reihe der möglichen
Operationen wird im Folgenden systematisch beschrieben, um die Erfindung
zu veranschaulichen.
-
Vorzugsweise werden vollständige Texte
von Dokumenten als Grundlage herangezogen, die alle in derselben
Sprache, vorzugsweise Englisch, geschrieben sind. Insbesondere arbeiten
wir mit Texten, die auf natürliche
Weise geschrieben sind.
-
Ein erster Schritte oder eine erste
Operation, der bzw. die gemäß der Erfindung
auszuführen
ist, verwendet die oben genannte erste und zweite Komponente und
bietet eine erste Indexierung oder Verarbeitung auf der Grundlage
des betreffenden Thesaurus, welcher Schritt als "Thesaurus-basierte Indexierung" bezeichnet werden
kann.
-
Während
dieses ersten Schritts wird der Text zum Beispiel automatisch auf
explizite Indexbegriffe überprüft, worunter
Begriffe zu verstehen sind, die wörtlich im Text des betreffenden
Dokuments vorkommen. Diese expliziten Indexbegriffe können aus Unigrammen
und/oder Bigrammen und/oder Trigrammen bestehen, wobei die Unigramme
für getrennte
Wörter
stehen, während
die Bigramme und Trigramme aus Begriffen mit jeweils zwei, drei
Wörtern
bestehen. Ein Unigramm ist beispielsweise das Wort "Komposition", während der
Begriff "weicher Stahl" ein Bigramm und
der Begriff "Verhalten
bei Rekristallisierung" ein
Trigramm ist.
-
Um diese expliziten Indexbegriffe
wiederaufzufinden, werden die Textdaten gefiltert, wobei bei dieser
Filterung mindestens die Füllwörter eliminiert werden.
-
Die restlichen Wörter werden weiter gefiltert, um
mindestens die am wenigsten relevanten Unigramme und/oder Bigramme
und/oder Trigramme zu eliminieren. Für diese extra Filterung wird
vorzugsweise eine Häufigkeitsfilterung
verwendet. Bei einer solchen Filterung wird das Vorkommen jedes Unigramms,
Bigramms bzw. Trigramms im Text überprüft, woraufhin
die Unigramme, Bigramme und Trigramme, die nur in beschränktem Maß vorkommen, eliminiert
werden. Diese Häufigkeitsfilterung
kann vom Benutzer eingestellt und geändert werden.
-
Als Nächstes werden die zurückbehaltenen expliziten
Indexbegriffe mit dem Inhalt des benutzten Thesaurus verglichen
und mindestens die Begriffe, die im Thesaurus vorkommen, werden
für die
weitere Indexierung berücksichtigt.
-
Eine Liste der nicht im Thesaurus
vorkommenden expliziten Begriffe wird erstellt, die es ermöglicht,
den Thesaurus zu aktualisieren. Ein Benutzer oder ein Dokumentationsverantwortlicher
kann sich diese Liste ansehen und anschließend gegebenenfalls entscheiden,
welche Wörter
aus dieser Liste in den Thesaurus aufgenommen werden sollen. Dies ermöglicht interaktives
Aktualisieren.
-
Während
der Abfrage nach Bigrammen und/oder Trigrammen werden diese vorzugsweise durch Überprüfung aufgezeichnet,
nachdem die Füllwörter eliminiert
worden sind, welche Unigramme vorkommen und durch Ermittlung der
Begriffe, die an diese angrenzen.
-
In einer zweiten Operation oder einem
zweiten Schritt werden auch die oben genannten ersten und zweiten
Komponenten verwendet, und es werden Konzepte auf der Grundlage
des Thesaurus erzeugt. Dieser Schritt kann auch als "Erzeugung der Thesaurus-basierten
Konzepte" bezeichnet
werden.
-
In diesem Schritt werden implizite
Indexbegriffe, mit anderen Worten Konzeptbegriffe, zu den expliziten
Indexbegriffen hinzugefügt,
mit anderen Worten, den Begriffen, die explizit im Text vorkommen
und die wie oben beschrieben ermittelt worden sind. Diese impliziten
Indexbegriffe sind Begriffe, die im Thesaurus auf der Grundlage
der Tatsache wiedergefunden worden sind, dass sie mit den expliziten Indexbegriffen
in Zusammenhang stehen. Die Beziehung zwischen diesen zwei Arten
von Begriffen ist im Thesaurus hergestellt worden.
-
Die impliziten Indexbegriffe können Begriffe sein,
die entweder einschränkender
oder breiter als die expliziten Indexbegriffe sind. Zum Beispiel
ist der Begriff "Metall" ein breiterer Begriff
als "Stahl", und beispielsweise
ist der Begriff "weicher
Stahl" ein eingeschränkterer
Begriff" zu dem
Begriff "Stahl".
-
Es ist festzuhalten, dass beim Indexieren
eines Dokuments diesem vorzugsweise nur eine beschränkte Anzahl
von Indexbegriffen zugewiesen wird, und dieses durch drastische
Selektion. Vorzugsweise gibt es maximal fünf Begriffe und besser noch
maximal zwei Begriffe.
-
Gemäß der Erfindung werden Query
Builder vorgesehen, insbesondere ein Algorithmus, die dem Benutzer
ausschließlich über Stichwörter, die
im Thesaurus vorkommen, Zugang bieten. Infolgedessen wird eines
der herkömmlichen
Probleme des Wiederauffindens von Dokumenten vermieden, indem eine Vokabularabweichung
zwischen dem Wissen des Benutzers und dem in der Datenbank gespeicherten Wissen
ausgeschlossen wird.
-
Der hierbei benutzte Algorithmus
ermöglicht es
dem Benutzer, unter Bezugnahme auf einen bestimmten Begriff eine
Abfrage durchzuführen
und bietet anschließend
weitere Möglichkeiten
zum Wiederauffinden auf der Grundlage dieses Begriffs. Gemäß der Erfindung
wird hierbei eine hierarchische Struktur mit breiteren und eingeschränkteren
Begriffen verwendet. So könnte
beispielsweise, ausgehend von dem Begriff "Stahl", ein erster breiterer Begriff "eisenhaltige Legierungen" sein, während ein
nachfolgender breiterer Begriff "Übergangsmetalllegierungen" sein könnte usw.
-
Ein vierter wichtiger Vorgang bzw.
Schritt innerhalb des Rahmens der vorliegenden Erfindung ist das
Auslesen kausaler Beziehungen auf automatische Weise.
-
Hierbei werden elektronische Mittel
verwendet, insbesondere ein Algorithmus, um die kausalen Beziehungen
zwischen den aufgefundenen Indexbegriffen, entweder expliziten oder
impliziten Indexbegriffen, zu identifizieren und auszulesen.
-
Das automatische Wiederauffinden
erfolgt auf der Grundlage einer Liste von Begriffen, die eine Beziehungsangabe
enthält.
Diese Liste enthält
Wörter
wie z. B. "hängt ab", "Ursachen", "Wirkungen" usw.
-
Gemäß der am meisten bevorzugten
Ausführung
werden postulierte kausale Rahmen verwendet, die zusammengesetzt
sind aus Stichwörtern
einerseits und aus Sprachkomponenten, einschließlich der oben genannten Begriffe,
die eine Beziehungsangabe enthalten, andererseits, und der Text
der Dokumente wird nach diesen Rahmen abgesucht.
-
Insbesondere werden Rahmen mit Stichwörtern verwendet,
die mindestens drei Argumente definieren, ein Argument, das eine
Ursache darstellt, ein Argument, das eine Wirkung darstellt, und
ein Argument, das eine Situation darstellt.
-
Beispielsweise sieht der Rahmen,
der sich auf das Muster "Wirkung
von" bezieht, folgendermaßen aus:
'F' und 'K1' und 'auf und 'K2' und 'C' und 'K3'
wobei:
- – F
der Ausdruck "Wirkung
von" ist;
- – C
die Bedingung darstellt und aus Begriffen wie "von", "in" oder "bei" bestehen kann;
- – K1
die Argumente sind, die eine Ursache darstellen;
- – K2
die Argumente sind, die eine Wirkung darstellen;
- – K3
die Argumente sind, die eine Situation darstellen.
-
Die Ausdrücke "Wirkung von" und "auf" bilden
Sprachkomponenten.
-
Auf ähnliche Weise werden verschiedene kausale
Rahmen vorab ermittelt.
-
Mittels einer automatischen syntaktischen Analyse
wird die Beziehung zwischen den oben erwähnten Indexbegriffen, entweder
explizit und/oder implizit, und den Sprachkomponenten ermittelt,
und in Abhängigkeit
davon wird ermittelt, welche kausalen Rahmen in einem Text vorkommen,
und die Indexierung wird schließlich
ausgeführt.
-
Sooft ein kausaler Rahmen identifiziert
wird, werden die entsprechenden Begriffe K1 und K2 in gesonderten
Datensätzen
aufgezeichnet, die spezielle für
die Begriffe ausgelegt sind, die sich stets am Standort K1, K2 bzw.
K3 befinden. So gibt es einen Datensatz für die Argumente, die eine Ursache
darstellen, diejenigen, die eine Wirkung darstellen, und diejenigen,
die eine Situation oder Bedingung darstellen.
-
Wenn zum Beispiel die folgende Begriffsfolge
im Text vorkommt: Wirkung von CHEMISCHER ZUSAMMENSETZUNG auf REKRISTALLISIERUNGSVERHALTEN
in WEICHEM STAHL, ist klar, dass dieses als kausaler Rahmen erkannt
wird. Indem die Begriffe CHEMISCHE ZUSAMMENSETZUNG, REKRISTALLISIERUNGSVERHALTEN
und WEICHER STAHL in den oben genannten Datensätzen gespeichert werden, ist
klar, dass umgekehrt das betreffende Dokument durch eine Suche nach
den entsprechenden kausalen Beziehungen wiederaufgefunden werden
kann.
-
Das Ergebnis der oben beschriebenen
syntaktischen Analyse kann erst dem Benutzer des Systems oder einem
Dokumentationsverantwortlichen vorgelegt werden oder nicht, damit
dieser entscheidet, ob die erhaltenen Indexierungsergebnisse in
der Datei aufgezeichnet werden sollen und in welchem Umfang diese
eventuell aufgezeichnet werden.
-
In einer bestimmten Anwendung wird
das Verfahren gemäß der Erfindung
für die
Indexierung und/oder das Wiederauffinden von Dokumenten aus elektronischer
Post benutzt, so dass der Benutzer viele Informationen über elektronische
Post wiederauffinden kann, aber automatisch auch eine sehr effiziente
Auswahl erhält,
so dass nicht alle erhaltenen Daten nacheinander durchlaufen werden
müssen.
-
Es ist festzuhalten, dass die Verwendung
eines Thesaurus einer bestimmten Domäne und die automatische Erzeugung
einer Liste von Begriffen, die in dem Thesaurus nicht enthalten
sind und die eine Aktualisierung wie oben beschrieben ermöglichen,
ebenfalls ein Aspekt sind, der Bestandteil der vorliegenden Erfindung
ist.
-
Es ist klar, dass die vorliegende
Erfindung ebenfalls Systeme betrifft, über die nötigen elektronischen Mittel
und Algorithmen verfügen,
um das oben beschriebene Verfahren zu verwirklichen.