DE69132678T2

DE69132678T2 - Ein textverwaltungssystem

Info

Publication number: DE69132678T2
Application number: DE69132678T
Authority: DE
Inventors: Cheryl Clark; F. Harvey; A. Kadashevich
Original assignee: Wang Laboratories Inc
Current assignee: Wang Laboratories Inc
Priority date: 1991-02-01
Filing date: 1991-02-01
Publication date: 2002-06-27
Anticipated expiration: 2011-02-02
Also published as: DE69132678D1

Description

Die Erfindung betrifft allgemein Textverwaltungs-Systeme.
Jedes Jahr verbringen Organisationen unzählige Stunden mit dem Durchsuchen von Dokumenten und Bildern, dem Organisieren von Ablagesystemen und Datenbanken. Selbst bei Einsatz großer Informations-Gewinnungssysteme werden beträchtliche Mittel benötigt, um Dokumente zu indexieren, zu erraten, welche Stichwörter zum Auffinden benötigter Informationen führen, um Seiten mit zu einem Zeitpunkt jeweils einer Abfrage zu durchsuchen, und um die gesamten irrelevanten Daten auszusortieren, die bei der Suche in der Praxis ausgegeben werden.
Eine Zahl von Studien, die große Informations-Gewinnungssysteme ausgewertet haben, zeigt, daß diese Systeme weniger als 20% der für eine bestimmte Suche relevanten Dokumente gewinnen, und daß gleichzeitig nur 30% der gewonnenen Information tatsächlich für die beabsichtigte Bedeutung der Suchanfrage relevant sind. Einer der Hauptgründe für die schlechten Gewinnungsergebnisse besteht darin, daß die Leute, die einen Gewinnungsvorgang durchführen, lediglich allgemein die Gegenstände ihres Interesses kennen und nicht die exakten Wörter kennen, die in den Texten oder in den Stichwortbeschreibern, die zum Indexieren der Dokumente verwendet werden, verwendet werden.
Eine weitere Studie analysierte, wie lange man brauchen würde, um 5000 Berichte zu indexieren. Es wurde angenommen, daß jedem Benutzer 10 Minuten zum Studium jedes Berichts, zum Treffen von Indexier-Entscheidungen, durch Auswählen der Stichwörter und zum Aufzeichnen der Information, zugestanden wurde. Bei dieser Geschwindigkeit würde eine in Vollzeit (mit 40 Stunden pro Woche) arbeitende Person 833 Stunden oder 21 Wochen brauchen, um die Dokumente zu verarbeiten. Die Benutzer würden außerdem zusätzliche Zeit benötigen, um die Daten zu überprüfen und zu korrigieren. Mit einem solchen Ansatz muß der Benutzer eintreffende Dokumente täglich indexieren, um zu verhindern, daß das System hoffnungslos zurückbleibt. Außerdem werden, weil der Benutzer die relevanten Suchbegriffe auswählt, für die Zwecke der Suche sämtliche nicht angegebene Begriffe ausgelassen. Dadurch wird ein bedeutendes Risiko hervorgerufen, daß Dokumente, welche einschlägige Informationen enthalten, bei einer Suche wegen subjektiven Entscheidungen des Benutzers bei der Auswahl von Stichwörtern nicht angezeigt werden.
Viele Textgewinnungs-Systeme verwenden Indexdateien, die Wörter in den Dokumenten zusammen mit dem Ort in dem Dokument für jedes Wort enthalten. Die Indizes haben bezüglich der Gewinnungsgeschwindigkeit bedeutende Vorteile. Ein größerer Nachteil dieses Ansatzes besteht darin, daß bei den meisten der Systeme der Platzbedarf des Indexes 50 bis 100% der Dokumenten-Datenbank ausmacht. Das bedeutet, daß eine Dokumenten-Datenbank von 100 MByte einen Index im Bereich von 50 bis 100 MBytes benötigt. Hierdurch werden die Massenspeicherkosten sowie der Platzbedarf des Systems erhöht.
Es wurde eine Technik des Beschneidens von Wörtern, durch Löschen von Präfixen und Suffixen, angewendet, um die Speichererfordernisse und Zugriffszeiten in einer Textverarbeitungsmaschine für die automatische Rechtschreibüberprüfung und Silbentrennungs- Funktionen zu verringern.
Es wurden auch automatische Indexierungsverfahren vorgeschlagen.
Der Stand der Technik, der für die Generierung von Wörtern relevant ist, welche mit einem eingegebenen Wort verwandt sind, umfaßt das für Glickman et al. erteile US-Patent Nr. 4 342 085, betreffend "STEM PROCESSING FOR DATA REDUCTION IN A DICTIONARY STORAGE FILE", nachfolgend als "Glickman" zitiert, und die "Introduction to Modern Information Retrieval" von O. Salton und J-J. McGill, McGrawHill Book Company 1983, Seiten 71-75, nachfolgend als "Salton" zitiert. Glickman beschreibt eine Anlage zum Verringern des Dateienplatzes, der erforderlich ist, um ein Lexikon zu speichern, in dem von den Wörtern, die zu dem Lexikon hinzugefügt werden sollen, Präfixe und Suffixe entfernt werden, um die Wortstämme zu finden, die Wortstämme gespeichert werden und nachfolgend die Wörter wieder erzeugt werden, indem den aus der Datei ausgelesenen Wortstämmen Präfixe und Suffixe angefügt werden. Salton hingegen beschreibt eine Anlage zum Generieren von Dokumenten-Indexworten, welche beim Dokumentensuchen verwendet wird, in welchem Präfixe und Suffixe von in einem Dokument auftauchenden Wörtern entfernt werden, um die Wurzeln der in dem Dokument auftauchenden Wörter zu bestimmen. Anschließend werden Indexwörter generiert, in dem an die Wortstämme Präfixe und Suffixe angefügt werden, um sowohl die ursprünglichen Wörter als auch die Synonyme der in dem Dokument auftretenden Wörter zu generieren.
Glickman und Salton ähneln sich darin, daß sie ausdrücklich oder implizit die Verwendung eines Analysators zum Bestimmen der Stämme, Präfixe und Suffixe jedes angegebenen Wortes und zum Entfernen von Präfixen und Suffixen von Stämmen sowie die Verwendung eines Wortgenerators zum Generieren neuer Wörter aus Wortstämmen, durch Anfügen von Suffixen und Präfixen an die Wortstämme, beschreiben, während Salton zusätzlich die Verwendung einer Thesaurus-Funktion beim Generieren neuer Wörter beschreibt. Glickman und Salton ähneln sich auch in ihrer Vorgangsweise bei der Auswahl und dem Entfernen von Präfixen und Suffixen von Wörtern, um die Stämme der Wörter zu bestimmen, und beim Anfügen von Präfixen und Suffixen an die Wortstämme zum Bilden neuer Wörter, und sie können daher gemeinsam betrachtet werden.
Glickman und Salton beschreiben beide Anlagen zum Generieren von Wortlisten, durch Entfernen von Präfixen und Suffixen von eingegebenen Wörtern, um die Stämme der eingegebenen Wörter zu identifizieren und zu speichern, und zum nachfolgenden Generieren von Wörtern aus den Wortstämmen, durch Anfügen von Präfixen und Suffixen. Sowohl bei Glickman als auch bei Salton ist es so, und dies ist ein zentraler Punkt bei den Prinzipien der Vorgehensweise von sowohl Glickman als auch Salton, daß eine Bedingung bezüglich der Suffixe und Präfixe, die von einem Wort oder Stamm zum Bilden eines neues Stammes entfernt werden können, nur darin besteht, daß ein, nach dem Entfernen eines Präfixes oder Suffixes resultierender Stamm mindestens eine vorbestimmte minimale Buchstabenzahl umfassen muß, und daß ein, von einem Wort oder Stamm zu entfernendes Präfix oder Suffix ein ,zulässiges" Präfix oder Suftlx ist. Desgleichen kann zum Generieren eines neuen Wortes jedes Präfix oder Suffix an einen Wortstamm angefügt werden, solange das Präfix oder Suffix wieder ein "zulässiges" Präfix oder Suffix ist. In dieser Hinsicht definieren Glickman und Salton ein "zulässiges" Präfix oder Suffix, als jedes Präfix oder Suffix, das in der Sprache des ursprünglichen Wortes, von dem der Stamm abgeleitet wird, zu finden ist.
Ein regelmäßig auftretendes Problem bei Anlagen, die gemäß den von Glickman und Salton gelehrten Prinzipien arbeiten, besteht jedoch darin, daß derartige Anlagen nicht auf der Grundlage der lexikalischen Eigenschaften der Wörter oder Stämme, d.h. auf der Grundlage der Bedeutung der Wörter oder Stämme, Präfixe und Suffixe von eingegebenen Wörtern oder Stämmen entfernen oder Präfixe und Suffixe an Stämme anfügen. In dieser Hinsicht ist es gemeinhin das Verständnis, daß das "Lexikon" eine Sprache der Körper von definierten Wörtern der Sprache ist, d.h. die Gruppen und Kombinationen von Morphemen, die definierte Wörter bilden, welchen definierten Bedeutungen zugeordnet sind, und es wird durch ein Wörterbuch veranschaulicht. Die Begriffe "Lexikografie" und "lexikalisch" sind von Lexikon abgeleitet, und sie sind im wesentlichen die Prinzipien und Gangweisen, wie die Morpheme der Sprache kombiniert werden können, um die definierten Wörter der Sprache zu bilden. Falls ein Stamm eines eingegebenen Wortes lexikalisch mit dem eingegebenen Wort verwandt ist, hat der Stamm des eingegebenen Wortes infolgedessen eine Bedeutung, die lexikalisch mit der Bedeutung des eingegebenen Wortes verwandt ist, d.h. der Stamm hat in der Sprache des eingegebenen Wortes eine definierte Bedeutung, und die Bedeutung des Stammes ist im Lexikon der Sprache mit dem angegebenen Wort verwandt. Zur Veranschaulichung: Es gibt viele Wörter, die Stämme enthalten, welche Morpheme sind oder welche eine definierte minimale Buchstabenzahl aufweisen, die aber entweder keine in der Sprache definierten Wörter oder Stämme sind, oder mehrere verschiedene allgemeine Sinngehalte oder Klassen von Bedeutungen vermitteln und in der Sprache nicht eine einzige eindeutig definierte Bedeutung haben. Beispielsweise ist die Wurzel "mut" ein Morphem und ein gemäß den von Glickman und Salton gelehrten Prinzipien gültiger Stamm und ist, während sie selbst kein Wort darstellt, eine Wurzel von mehreren Wörtern, wie etwa "mutate", "mutilate", "mute" und "mutter", die klar unterschiedliche Bedeutungen haben. Das Morphem "mut" ist daher keine lexikalische Wurzel, weil sie in dem Lexikon der Sprache nicht eine einzige definierte Bedeutung oder Gruppe von verwandten Bedeutungen hat, sondern mehrere klar unterschiedliche Bedeutungen haben kann, je nach dem, welche Suffixe an diese Wurzel angehängt werden. Hingegen - und zur weiteren Veranschaulichung - wäre der Stamm "muta" ein lexikalischer Stamm, der die zugehörige Bedeutung oder Bedeutungen von "mutate" und der flektierte oder abgeleitete Abwandlungen von "mutate" und Synonymen von "mutate" hat. Gemäß lexikalischer Prinzipien wäre daher ein Stamm, der in der Sprache keine Bedeutung hat, kein lexikalischer Stamm, und ein Stamm, der eine Mehrzahl unterschiedlicher möglicher lexikalischer Bedeutungen hat, wäre nicht als ein einziger lexikalischer Stamm definiert, sondern als eine Mehrzahl lexikalischer Stämme, einer für jede mögliche Bedeutung in der Sprache.
Als solche, und weil die von Glickman und Salton gelehrten Anlagen nur die Buchstabenzahl in einem Stamm beachten, und ob ein vorgegebenes Präfix oder Suffix in einer Sprache "zulässig" ist, können die von Glickman und Salton gelehrten Anlagen Stämme von eingegebenen Wörtern und Wörter von Stämmen erzeugen und tun dies auch, wobei die Stämme und Wörter nicht notwendigerweise irgendeine lexikalische Verwandtschaft mit dem ursprünglichen eingegebenen Wort haben, d.h. wobei die Stämme und Wörter von dem ursprünglich eingegebenen Wort unterschiedliche Bedeutungen haben können. Dies führt seinerseits zu Problemen beim Generieren von beispielsweise einem Wörterbuch oder einem Index von Suchwörtern aus eingegebenen Wörtern oder den in einem Dokument auftretenden Wörtern, weil die Bedeutungen der resultierenden aufgegebenen Wörter möglicherweise keine Verwandtschaft mit den Bedeutungen der ursprünglich eingegebenen Wörter haben.
Es ist die Aufgabe der Erfindung, wie sie in den Ansprüchen 1 und 6 definiert ist, ein verbessertes Gerät und Verfahren zum Suchen einer Sammlung von Wörtern auf der Grundlage eines eingegebenen Wortes bereitzustellen, wobei die Sammlung von Wörtern ein Index oder ein Text ist.
Die Erfindung stellt in einer Anlage zum Generieren von Wortlisten, durch Entfernen von Suffixen von eingegebenen Wörtern, zum Kennzeichnen und Speichern der Stämme der eingegebenen Wörter und zum nachfolgenden Generieren von Wörtern aus den Wortstämmen, durch Anfügen von Suffixen, eine Vorrichtung zum Generieren einer Vielzahl von Wörtern bereit, ausgehend von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort. Die Vorrichtung zum Generieren umfaßt einen Morphologie-Analysator zum lexikalischen Zerlegen des eingegebenen Wortes, um wenigstens einen Stamm des eingegebenen Wortes zu bestimmen, der mit dem eingegebenen Wort lexikalisch verwandt ist, derart, daß er eine mit der Bedeutung des eingegebenen Wortes lexikalisch verwandte Bedeutung hat und für jeden Stamm des eingegebenen Wortes eines oder mehrerer Suffixe, die nacheinander an den Stamm angehängt sind. Die Vorrichtung zum Generieren umfaßt ferner eine Wortgenerierungseinrichtung, die in Abhängigkeit vom Morphologie-Analysator, ausgehend vom eingegebenen Wort, eine erste Gruppe Wörter generiert, die mit dem eingegebenen Wort lexikalisch verwandt sind, derart, daß sie durch Entfernen aufeinanderfolgender Suffixe von dem eingegebenen Wort mit der Bedeutung des eingegebenen Wortes lexikalisch verwandte Bedeutungen haben.
Jedes Wort der ersten Gruppe Wörter ist von dem eingegebenen Wort, von dem ein oder mehrere Suffixe entfernt sind, gebildet. Die vom eingegebenen Wort entfernten Suffixe sind aus einer ersten Serie Suffixe ausgewählt, wobei die Suffixe der ersten Serie Suffixe nur Suffixe enthalten, durch deren Entfernen die Bedeutung von Wörtern nicht wesentlich verändert wird, und nur Suffixe enthalten, die zu denen Flexions- und Ableitungs-Suffixen gehören, wobei die erste Serie Suffixe die Suffixe: #ful, #ish, +ous, +ic, +al. #ar, #er, #or, +ive, +ory, #able, +able, +ible, #ment, #ness, +ity, +ety" +ty, #ly, #ize, +ify, +fy und #y enthält.
Weitere Fortentwicklungen bevorzugter Ausführungsformen der Erfindung sind in abhängigen Ansprüchen definiert.
Die Vorrichtung umfaßt eine Einrichtung zum Generieren einer ersten Serie Wörter, die Elemente enthält, die mit dem eingegebenen Wort lexikalisch verwandt sind, wobei die erste Serie Wörter Wörter umfaßt, die keine regelmäßigen flektierenden Substantive sind; und eine Suchmaschine zum Suchen der Sammlung von Wörtern, um das Auftreten eines der Wörter aus einer Gruppe von Suchwörtern zu erfassen, wobei die Gruppe von Suchwörtern das eingegebene Wort und die erste Serie Wörter umfaßt.
Der Morphologie-Analysator umfaßt eine Erkennungsmaschine zum Erkennen des eingegebenen Wortes und zum Aufgeben von Ableitungsinformationen über das erkannte eingegebene Wort. Die Erkennungsmaschine arbeitet so, daß sie das eingegebene Wort lexikalisch zerlegt, um Stämme in dem eingegebenen Wort zu kennzeichnen, und um für jeden gekennzeichneten Stamm Suffixe zu kennzeichnen, die angefügt sind, um das eingegebene Wort zu erzeugen. Die Erkennungsmaschine gibt eine Darstellung der Ableitungsstufen aus, die Informationen über jede lexikalische Zerlegung des eingegebenen Wortes umfaßt, welche von der Erkennungsmaschine erfolgreich durchgeführt wurde. Die Darstellung der Ableitungsstufen enthält für jede erfolgreiche lexikalische Zerlegung des eingegebenen Wortes die Wortart des eingegebenen Wortes für diese besondere Zerlegung.
Bei einer bevorzugten Ausführungsform umfaßt die Vorrichtung eine Thesaurus- Datenbank zum Generieren einer Gruppe Synonyme, deren Elemente Synonyme bestimmter Elemente der ersten Serie lexikalisch verwandter Wörter sind. Die Gruppe von Suchwörtern umfaßt die Gruppe der Synonyme. Die Generierungs-Einrichtung kann eine zweite Gruppe Wörter aus ausgewählten Elementen der Gruppe von Synonymen generieren, indem an ausgewählte Elemente der Gruppe von Synonymen nur diejenigen Suffixe angefügt werden, die aus einer zweiten Gruppe von Suffixen ausgewählt wurden. Die Gruppe von Suchwörtern umfaßt ferner die zweite Gruppe Wörter. Die Elemente der zweiten Gruppe Suffixe umfassen nur diejenigen Suffixe, die beim Anfügen die Bedeutung von Wörtern nicht wesentlich ändern. Insbesondere umfaßt die zweite Gruppe Suffixe Elemente, die aus einer zweiten Unterserie ausgewählt wurden, die sämtliche Flexions-Suffixe enthält: #ful, #ish, +ous, +ic, +al. #ar, #er, #or, +ive, +ory, #able, +able, +ible, #ment, #ness, +ity, +ety, +ty, #ly, und #y.
Der Morphologie-Analysator kann ferner eine Generierungsmaschine zum Generieren einer zweiten Serie von Wörtern umfassen, die mit ausgewählten Elementen der Gruppe von Synonymen lexikalisch verwandt sind. Die Generierungsmaschine generiert die zweite Serie von Wörtern auf der Grundlage von Informationen, die von der Erkennungsmaschine für das eingegebene Wort zugeführt wurden. Die Gruppe von Suchwörtern umfaßt außerdem die zweite Serie Wörter. Die Vorrichtung umfaßt ferner eine Auswahlrichtung zum Auswählen von Elementen aus der Gruppe von Synonymen, um die ausgewählten Elemente zu kennzeichnen.
Bevorzugte Ausführungsformen haben die folgenden Merkmale. Die Generierungs- Vorrichtung generiert auch mindestens einige aus der ersten Gruppe Wörter, durch Anfügen an, von dem eingegebenen Wort abgeleiteten Wörtern, nur diejenigen Suffixe, die aus einer zweiten Gruppe Suffixe ausgewählt wurden, wobei die Elemente der zweiten Gruppe Suffixe nur diejenigen Suffixe umfassen, die beim Anfügen an Wörter deren Bedeutung nicht wesentlich ändern. Die Subjekt-Erweiterungsanlage umfaßt auch eine Thesaurus-Datenbank, welche die Generierungs-Einrichtung dazu verwendet, eine Gruppe von Synonymen zu generieren, wobei die Elemente der Gruppe von Synonymen Synonyme bestimmter Elemente der ersten Gruppe Wörter sind. Die Generierungs-Einrichtung vergrößert die Gruppe von Synonymen hin zu einer größeren Gruppe von Wörtern, in dem an ausgewählte Elemente der Gruppe von Synonymen nur Suffixe angeführt werden, die aus der zweiten Gruppe Suffixe ausgewählt wurden. Die Generierungs-Einrichtung umfaßt einen Morphologie-Analysator, der seinerseits eine Erkennungsmaschine zum Generieren einer Darstellung der Basisstufen für das eingegebene Wort umfaßt. Die Darstellung der Basisstufen kennzeichnet ein oder mehrere Basiswörter für das eingegebene Wort, wobei jedes der Basiswörter das eingegebene Wort repräsentiert, von welchem ein oder mehrere Suffixe entfernt wurden.
Die Erfindung ist gemäß einem weiteren Aspekt allgemein eine Subjekt- Erweiterungsanlage zum Generieren einer Gruppe Wörter aus einem eingegeben Wort.
Gemäß einem noch weiteren Aspekt ist die Erfindung allgemein ein Gerät zum Generieren eines Indexes für eine Sammlung von Wörtern.
Gemäß einem weiteren Aspekt ist die Erfindung allgemein ein Gerät zum Generieren einer Mehrzahl von einem Gegenstand betreffenden Wörtern aus einer Sammlung von Wörtern mit einem bestimmten Informationsgehalt.
Bevorzugte Ausführungsformen umfassen die folgenden Merkmale. Die Sammlung von Wörtern ist Text. Die Einrichtung zum Auswählen umfaßt eine Stopliste mit Wörtern, die sich nicht als, auf einen Gegenstand bezogene Wörter eignen, und die Einrichtung zum Auswählen schließt aus der Unterserie von Wörtern diejenigen Wörter aus der Sammlung von Wörtern aus, die unter die Stopliste fallen. Die Einrichtung zum Auswählen umfaßt außerdem eine Beibehalteliste mit Wörtern, die sich automatisch als, auf einen Gegenstand bezogene Wörter eignen, und die Einrichtung zum Auswähle fügt diejenigen aus der Sammlung von Wörtern in die Unterserie von Wörtern ein, die unter die Beibehalteliste fallen. Das Gerät umfaßt ferner eine Indexiermaschine, wobei die Indexiermaschine das für das gegebene Wort generierte, auf den Gegenstand bezogene Wort verwendet, um einen Index für die Sammlung von Wörtern zu erzeugen.
Außerdem umfaßt bei bevorzugten Ausführungsformen der Morphologie-Analysator eine Erkennungsmaschine zum Erkennen einer oder mehrerer erfolgreicher lexikalischer Zerlegungen des gegebenen Wortes, wobei eine erfolgreiche lexikalische Zerlegung vorliegt, wenn die Erkennungsmaschine das gegebene Wort in einen, ihm zugrundeliegenden Stamm und eine Folge von einem oder mehreren Suffixen zerlegen kann, welche bei Anfügung an den zugrundeliegenden Stamm das gegebene Wort bilden. Die Erkennungsmaschine generiert für jede erfolgreiche lexikalische Zerlegung des gegebenen Wortes eine morphologische Abfolge. Die morphologische Abfolge für eine erfolgreiche lexikalische Zerlegung kennzeichnet für das gegebene Wort eine Wortart, ein oder mehrere zu dem gegebenen Wort zugehörige Basiswörter und eine Wortart für jedes der Basiswörter. Die Auswertungseinrichtung wertet aus, ob das gegebene Wort eine Information über den Inhalt der Sammlung von Wörtern übermittelt, die auf der Zahl erfolgreicher lexikalischer Zerlegung des gegebenen Wortes basieren, und die auf den, ein oder mehreren für das gegebene Wort gekennzeichneten Wortarten basieren. Die ein, auf einen Gegenstand bezogenes Wort generierende Einrichtung wählt als, auf einen Gegenstand bezogenes Wort entweder das gegebene Wort oder eines der Basiswörter aus, die in der morphologischen Abfolge, die zu einer erfolgreichen lexikalischen Zerlegung des gegebenen Wortes gehört, gekennzeichnet wurden.
Ein Vorteil der Erfindung besteht darin, daß sie die Vollständigkeit der Ergebnisse bei Dokumenten- und/oder Text-Suchen wesentlich verbessert. Ferner erweitert die Erfindung automatisch Stichwörter in einer Suche, um lexikalisch verwandte Wörter, Synonyme von bestimmten, der lexikalisch verwandten Wörter und Wörter zu umfassen, die mit den Synonymen lexikalisch verwandt sind. Außerdem setzt die Erfindung einen Benutzer in die Lage, Text und weitere Dokumente, betreffend Konzepte, zu suchen, ohne daß er die exakte Form weiß, in der die Konzepte besprochen werden. Ferner kann die Erfindung ein Stichwort analysieren und erweitern, um Synonyme zu erfassen, selbst wenn sich das Stichwort nicht in einem Thesaurus befindet.
Ein weiterer Vorteil der Erfindung besteht darin, daß sie verwendet werden kann, um diesen zusätzlichen Platzbedarf beim Indexieren von Dokumenten wesentlich zu verringern, in dem die Wörter, die für den Inhalt des Dokumentes wichtig sind, gekennzeichnet werden und ein Index, der diese Unterserie Wörter enthält, generiert wird. Dadurch wird nicht nur Speicherplatz auf einer Platte, sondern auch Verarbeitungszeit gespart, weil die Suchoperationen in einem wesentlich kleineren Index erfolgen können. Die Erfindung generiert aus Text eine Liste von auf einen Gegenstand bezogenen Wörtern, die jeweils bezüglich des Inhalts des Textes aufgezeigt sind, und sie schließt Wörter aus einem Text aus, die nicht viel Information übermitteln. Unter Verwendung von linguistischen Informationen zur Durchführung dieser Aufgabe stehen mehrere grundsätzliche Wege zum Unterscheiden von Wörtern mit einem hohen Informationsgehalt von Wörtern mit einem niedrigen Informationsgehalt bereit.
Ein weiterer Vorteil besteht darin, daß die Erfindung dazu beiträgt, zusätzliche Redundanz aus einem Index von, in dem Text zu findenden Konzepten zu entfernen, in dem Wörter gekennzeichnet werden, die durch Flexion oder Ableitung lexikalisch verwandt sind (z.B. "category" und "categories", "subject", "subjects" und "subjectness"). Anstelle jedes Beispiel eines Worts darzustellen, das sich leicht von vorherigen Beispielen unterscheidet, wird eine Basis eines Worts gespeichert und verwendet, um sämtliche Formen darzustellen, die von ihr abgeleitet werden können. Daher kann beispielsweise" category" einmal in der Liste gespeichert werden, und es kann "category", "categories" und sogar "categorical" darstellen. Hierdurch wird der, für Indexe für Text benötige Speicherbereich stark verringert.
Die in dieser Anmeldung beschriebenen Filterverfahren wurden zur Auswertung bei einer Zahl von Textbeispielen benutzt, darunter einem 153 Wörter umfassenden Absatz aus einem linguistischen Artikel, einem 447 Wörter umfassenden Memo aus dem Finanzwesen und eine Seite aus einer Betriebsanleitung mit 550 Wörtern. Die resultierenden Listen für diese drei Beispiele enthielten 23%, 25% bzw. 17% den Wörter aus dem ursprünglichen Text. Die durch Überprüfen weiterer Textbeispiele erzielten Ergebnisse standen in Einklang mit diesen Zahlen. Die Filtermachanismen der Erfindung können 75% bis 80% des Textes, als für den Gegenstand des Textes irrelevant kennzeichnen.
Weitere Vorteile und Eigenschaften werden aus der folgenden Beschreibung der bevorzugten Ausführungsform und aus den Ansprüchen ersichtlich.

Beschreibung der bevorzugten Ausführungsform

Fig. 1 ist ein Blockschaubild, das einen Morphologie-Analysator und ein Lexikon zeigt;
Fig. 2 ist eine Basisabfolge für "flsh";
Fig. 3 ist ein Blockschaubild eines Indexiersystems, das einen intelligenten Filter umfaßt;
Fig. 4a-d stellen eine Pseudo-Code-Beschreibung der Betriebsweise des intelligenten Filters dar;
Fig. 5 ist eine Gegenstands-Datenstruktur, die von dem intelligenten Filter verwendet wird, um Gegenstandsinformationen der Anwendung wieder zurück zu übermitteln;
Fig. 6 stellt die Verwendung des intelligenten Filters zum blockweisen Analysieren von Text dar;
Figur T ist ein Blockschaubild eines Text-Suchsystems mit einem Subjekterweiterungsmodul;
Fig. 8 ist ein Blockschaubild des in Fig. 7 gezeigten Subjekterweiterungsmoduls;
Fig. 9a-b stellen eine Pseudo-Code-Beschreibung der Betriebsweise von SESrecword dar;
Fig. 10 ist ein Informationsobjekt, das ein Element der, durch SESrecword erzeugten Informationslisten-Datenstruktur ist;
Fig. 11 ist eine Liste von Suffixen, die an ein Wort angefügt werden können, und eine Liste von Suffixen, die von einem Wort entfernt werden können, ohne daß die Bedeutung des Worts wesentlich geändert wird;
Fig. 12 ist ein Blockschaubild einer weiteren Ausführungsform des in Fig. 7 gezeigten Subjekterweiterungsmoduls;
Fig. 13 ist eine Pseudo-Code-Beschreibung der Betriebsweise von SESexplist; und
Fig. 14 ist eine Pseudo-Code-Beschreibung der Betriebsweise von SESgen.

Struktur und Betriebsweise

Unter Bezug auf Fig. 1: Zwei Hauptkomponenten der hier beschriebenen Ausführungsformen sind ein Morphologie-Analysator 10 und ein Lexikon 12.

Das Lexikon

Das Lexikon 12 enthält Informationen über die zugrundeliegenden (lexikalischen) Formen von all den Wörtern, die von dem Morphologie-Analysator 10 generiert oder (in ihrer Oberflächenform) erkannt werden können. Das Lexikon 12 ist nicht nur eine Auflistung all dieser Wörter in ihrer zugrundeliegenden Form, sondern enthält statt dessen morphologische Einheiten, die als Morpheme bezeichnet werden, welche miteinander kombiniert werden, um die lexikalische Form von Wörtern zu bilden. Beispielsweise bilden die Morpheme "success" + "ful" + "ly" das Wort "successfully". Zugehörig zu jedem Morphem gehören Informationen, die die Wortart der Morphemformen, verwandte Formen und eine Liste umfassen können, welche Arten von Morphemen dem Gegenwärtigen folgen können.

Der Morphologie-Analysator

Die Hauptfunktionen des Morphologie-Analysators 10 sind Erkennung und Generierung. Eine interne Funktion, die als WFSrecognize bezeichnet wird, implementiert die Erkennungsfähigkeiten des Morphologie-Analysators 10. Eine weitere interne Funktion, die als WFSgenerate bezeichnet wird, implementiert die Generierungsfähigkeiten des Morphologie- Analysators 10. WFSrecognize analysiert ein Wort, um seine morphologische Struktur zu bestimmen, und WFSgenerate generiert die korrekte Rechtschreibung eines Worts, wenn seine zugrundeliegende morphologische Struktur gegeben ist.
Beim Durchführen der Erkennung analysiert der Morphologie-Analysator 10 eine eingegebene Zeichenfolge, kennzeichnet deren Wurzel (oder Wurzeln), sämtliche in der Darstellung ihrer Ableitungsstufen auftretenden Wörter, sämtliche Suffixe, die sie enthalten kann, und die lexikalischen Kategorien aller Wörter in der Darstellung der Ableitungsstufen. Wenn die eingegebene Zeichenfolge erfolgreich lexikalisch zerlegt wird (d.h., wenn ein Stamm und die zugehörigen Suffixe, die zum Bilden des eingegebenen Wortes notwendig sind, gefunden wurden), gibt der Morphologie-Analysator 10 eine Darstellung der Basisstufen aus. Wenn das eingegebene Wort mehr als eine lexikalische Zerlegung hat, wird jeweils eine Darstellung der Basisstufen ausgegeben, wobei jede Darstellung (oder jeder Pfad) eine Auflistung jeder Form des eingegebenen Wortes nach dem Entfernen jedes aufeinanderfolgenden Suffixes zeigt. Somit werden, beispielsweise im Falle von "fishes", zwei Darstellungen, die in Fig. 2 dargestellt sind, ausgegeben.
Jede Darstellung der Basisstufen umfaßt einen oder mehrere Einträge, die die Basisstufen zeigen, die das Ergebnis vom aufeinanderfolgenden Entfernen von Suffixen ist. Man beachte, daß das, nach dem Entfernen eines Suffes verbleibende Wort die Basisstufe des Worts mit angefügtem Suffix genannt wird. Wenn von einem Wort keine weiteren Suffixe mehr entfernt werden können, ist das Wort die Wurzel der anderen Wörter. Jeder Eintrag enthält das Wort, von dem ein Suffix entfernt wurde, die Wortart dieses Wortes, einen Index, der den Eintrag in der Darstellung betrifft, welcher die Basisstufe enthält, die nach dem Entfernen des Suffixes gebildet wird, das Suffix, das an die Basisstufe angefügt wird, um das Wort zu erzeugen, und die Einstufung des angefügten Suffixes. Die Suffix-Einstufung ist eine Zahl, die verwendet wird, um ein Suffix und das Wort, welches sie bildet, zu klassifizieren. Suffixe werden je nach der Nähe der Bedeutungen vor und nach dem Anfügen des Suffixes gruppiert. Beispielsweise haben Flexionsendungen, die lediglich grammatikalische Eigenschaften des ursprünglichen Worts ändern, eine Einstufung von 1. Ableitungsendungen, die üblicherweise die Wortart des ursprünglichen Wortes ändern und ein in seiner Bedeutung weiter entfernteres Wort bilden, haben eine Einstufung von 2.
Beim Durchführen der Generierung synthetisiert der Morphologie-Analysator 10 Wörter, die mit einem gegebenen Wort lexikalisch verwandt sind, wobei, falls geeignet, Suffixe angefügt werden, indem bei der Eingabe vorgegebene Einschränkungen, betreffend Suffixe oder die lexikalische Kategorie, verwendet werden, um die Größe und den Inhalt der ausgegebenen Serie Wörter zu steuern. Die Generierung umfaßt die folgenden Unteraufgaben. Der Morphologie-Analysator 10 führt zunächst einen Erkennungsvorgang an der eingegebenen Zeichenfolge durch, um herauszufinden: wie viele Lexikalische Zerlegungen die eingegebene Zeichenfolge hat; ihren Stamm oder Stämme; und ob sie bereits Suffixe enthält. Der Morphologie-Analysator 10 kennzeichnet dann den Stamm, der für die Synthese zu verwenden ist. Als nächstes bestimmt der Morphologie-Analysator 10, welche Suffixe an diesen angefügt werden können und gibt alle Oberflächen-Zeichenfolgen aus, die aus dem lexikalisch eingegebenen Wort synthetisiert werden können.

Textverwaltungs-Funktionen

Gemäß einem Aspekt der Erfindung wird der Morphologie-Analysator verwendet, um Textverwaltungs-Funktionen, wie etwa Indexieren und Suchen, zu unterstützen. Es werden nun Ausführungsformen zum Ausführen dieser Textverwaltungs-Funktion beschrieben.
Unter Bezug auf Fig. 3: In einem Indexierungssystem 100 werden eingegebene Wörter 102 aus einem Textblock einem intelligenten Filter 104 zugeführt, der automatisch identifiziert, welche der eingegebenen Wörter auf einen Gegenstand bezogene oder Konzeptwörter sind, d.h. Wörter, die die Bedeutung des Textes, in dem die Wörter auftreten, beschreiben. Der intelligente Filter 104 verwendet verschiedene Mechanismen, um die auf einen Gegenstand bezogenen Wörter zu identifizieren, darunter eine Stopliste 106, welche Wörter auflistet, die automatisch als, auf einen Gegenstand bezogene Wörter abgewiesen wurden, eine Beibehaltungsliste 108, welche Wörter auflistet, die automatisch als, auf einen Gegenstand bezogene Wörter identifiziert wurden, und einen Morphologie-Analysator 110, der das eingegebene Wort analysiert, um seine morphologische Struktur zu identifizieren. Der Morphologie- Analysator 110 verwendet ein Lexikon 116, um die morphologische Analyse der ihm zugeführten eingegebenen Wörter durchzuführen. Der intelligente Filter 104 verwendet die von den eingegebenen Wörtern, die dem Morphologie-Analysator 110 übermittelt werden, um zu bestimmen, welche der eingegebenen Wörter am ehesten, auf einen Gegenstand bezogene Wörter sind, abgeleitete morphologische Information. Die von dem intelligenten Filter 104 generierte Liste von, auf einen Gegenstand bezogenen Wörtern wird dann einer herkömmlichen Indexiermaschine 114 zugeführt, die die auf einen Gegenstand bezogenen Wörter verwendet, um einen Index für den Text, aus dem die eingegebenen Wörter entnommen wurden, zu generieren. Die Indexiermaschine 114 kann irgendeine aus einer Anzahl bekannter Indexier-Techniken verwenden, um entweder Indexkarten für den zu indexierenden Text zu erzeugen, oder um einen Index zu generieren, der den Ort der auf einen Gegenstand bezogenen Wörter in dem Textkörper kennzeichnet.
Die Stopliste 106 enthält eine Liste von Wörtern, die typischerweise keine, auf einen Gegenstand bezogene Information vermitteln, beispielsweise Artikel, Präpositionen, Konjunktionen und weitere funktionelle Wörter. Eine bedeutende Anzahl der Wörter in dieser Liste kann aufgrund ihrer Wortart aus einem Wörterbuch entnommen werden. Der Wert des Hinzufügens aller derartiger Wörter zu einer Stopliste besteht darin, daß der intelligente Filter 104 keine Zeit und Rechenkapazität des Morphologie-Analysators 110 zum Analysieren dieser Wörter verschwenden muß. Die Stopliste 106 umfaßt außerdem Wörter, die dadurch gekennzeichnet wurden, daß Textproben den intelligenten Filter 104 durchlaufen haben und dann die Ergebnisse analysiert wurden, um Wörter zu identifizieren, die am Aufgang auftreten, aber klarer Weise keine, auf einen Gegenstand bezogene Information übermitteln. Daher besteht ein weiterer Wert der Stopliste 106 darin, daß sie dazu dient, diese wenigen Wörter zu erfassen, die durch die analytische Komponente des intelligenten Filters 104 nicht erfaßt werden.
Die Beibehaltungsliste 108 dient der gegenteiligen Funktion, die das Gegenteil von der der Stopliste 106 ist. Sie bestimmt Wörter, die die analytische Komponente des intelligenten Filters 104 zurückweisen könnte, auch wenn sie auf einen Gegenstand bezogene Informationen übermitteln. Die Beibehaltungsliste 108 kann empirisch generiert werden, in dem man mehrere Probedokumente durch den intelligenten Filter 104 laufen läßt und dann diejenigen Wörter identifiziert, die zurückgewiesen wurden, von denen der Benutzer aber der Auffassung ist, daß sie in eine Liste von, auf einen Gegenstand bezogenen Wörtern aufgenommen werden sollten. Auf diese Weise stellt die Beibehaltungsliste 108 einen Mechanismus zum Feinabstimmen des Systems und zum Gewöhnen des Systems an die besonderen Bedürfnisse und das spezifische Vokabular bestimmter Benutzer bereit.
Die Betriebsweise des intelligenten Filters 104 wird nun unter Zuhilfenahme des in den Fig. 4a-d dargestellten Flußschaubildes beschrieben. Wenn ein Textindexier- Anwendungs-programm einen Textblock indexieren muß, ruft es zunächst eine Initialisierungsfunktion auf, um alle Funktionen und Lexika (d.h. die Bezugserzeugnisse) zu öffnen, die von dem intelligenten Filter 104 verwendet werden, um die hinzugefügten Wörter zu analysieren. Die Anwendung, die den intelligenten Filter 104 aufruft, stellt auch Platz für eine Gegenstandsstruktur 124 (siehe Fig. 5) bereit, die von dem intelligenten Filter 104 verwendet wird, um die, auf einen Gegenstand bezogene Information der Anwendung wieder zurückzuführen. Die Gegenstandsstruktur 124 umfaßt ein Feld 115 für das eingegebene Wort, das analysiert wurde, ein Feld 119 für eine Gruppe von Zeigern auf die Basisstufen, die in dem eingegebenen Wort gefunden wurden, und ein Feld 117 für die Zahl der Basisstufen in der Gruppe.
Beim Aufrufen des intelligenten Filters 104 führt die Anwendung ein eingegebenes Wort 102, d.h. das gegenwärtige Wort, zu. In Bezug auf die Fig. 4a-d bestimmt der intelligente Filter 104 zunächst, ob sich das gegenwärtige Wort für eine morphologische Analyse eignet, in dem überprüft wird, ob es alphabetische Buchstaben enthält (Schritt 130). Falls es keine alphabetischen Buchstaben aufweist, weist der Filter 104 das gegenwärtige Wort als ein, auf einen Gegenstand bezogenes Wort zurück und fordert das nächste Wort aus dem Anwendungsprogramm an (Schritt 132). Wenn das gegenwärtige Wort keine alphabetischen Buchstaben aufweist, überprüft der Filter 104, ob sich, um es herum, Anführungszeichen befinden (Schritt 134). Wenn das gegenwärtige Wort eine zitierte Zeichenfolge ist, kennzeichnet der Filter 104 es als, auf einen Gegenstand bezogenes Wort und übermittelt diese Information an die Indexiermaschine 114, wobei die Gegenstands-Datenstruktur 124 verwendet wird, so daß die Indexiermaschine 114 das gegenwärtige Wort indexieren kann (Schritt 136). Anschließend fordert der Filter 104 ein weiteres Wort an. Wenn das gegenwärtige Wort andererseits nicht eine zitierte Zeichenfolge ist, sucht der Filter 104 in der Beibehaltungsliste 108 nach dem Wort (Schritt 138).
Wenn das gegenwärtige Wort in der Beibehaltungsliste 108 auftaucht, indexiert der Filter 104 das Wort und geht zum nächsten Wort über (Schritt 140). Wenn das gegenwärtige Wort nicht in der Beibehaltungsliste 108 auftaucht, vergleicht der Filter 104 es mit der Stop- liste 106 (Schritt 142). Wenn das gegenwärtige Wort in der Stopliste 106 auftaucht, weist der Filter 104 das Wort zurück und fragt nach dem nächsten Wort an (Schritt 144). Falls das gegenwärtige Wort in der Stopliste 106 nicht auftaucht, ruft der Filter 104 die Erkennungsfähigkeit des Morphologie-Analysators 110, nämlich WFSrecognize, auf, um eine morphologische Analyse desselben zu erhalten (Schritt 146).
WFSrecognize kennzeichnet die Stämme in dem gegenwärtigen Wort und bestimmt, welche Suffixe an diese Stämme angefügt wurden, um das gegenwärtige Wort zu erzeugen. Die Analyse beginnt mit dem ersten Buchstaben in dem gegenwärtigen Wort und schreitet buchstabenweise weiter fort, bis jeder Stamm und alle Suffixe, die an den Stamm angefügt wurden, gefunden wurden. Das heißt, WFSrecognize zerlegt das eingegebene Wort lexikalisch. Wenn die Analyse abgeschlossen ist, gibt WFSrecognize eine Darstellung der Basisstufen für das gegenwärtige Wort aus. Die Darstellung der Basisstufen besteht aus einer Liste von dargestellten Gruppen, die jeweils die Einträge einer entsprechenden der erfolgreichen lexikalischen Zerlegungen, welche aufgefunden wurden, enthält.
Es ist möglich, daß WFSrecognize das gegenwärtige Wort oder irgendwelche Basisstufenwörter für das gegenwärtige Wort nicht in dem Lexikon 116 findet. In diesem Falle zeigt WFSrecognize an, daß das Wort nicht erkannt wurde. Dies erfolgt bei Wörtern, wie bei einigen Eigennamen (z.B. Nixon). Wenn WFSrecognize berichtet, daß das gegenwärtige Wort nicht erkannt wurde, behandelt der Filter 104 das gegenwärtige Wort als, auf einen Gegenstand bezogenes Wort, indexiert es und fordert dann das nächste Worte an (Schritt 148). Es ist auch möglich, daß das gegenwärtige Wort ein Zeichen enthält, das durch WFSrecognize nicht bearbeitet werden kann. In diesen Fällen indexiert der Filter 104 das Wort und geht dann zum nächsten Wort über (Schritt 150).
Falls WFSrecognize mit der lexikalischen Zerlegung des gegenwärtigen Wortes Erfolg hat, verwendet der intelligente Filter 104 die ausgegebene Information über die Darstellung der Basisstufen, um zu ermitteln, ob das gegenwärtige Wort ein, auf einen Gegenstand bezogenes Wort ist. Zunächst überprüft der Filter 104, ob zu dem gegenwärtigen Wort nur eine Wortart gehört (d.h., ob es nur eine erfolgreiche grammatikalische Zerlegung des Wortes gab?) (Schritt 152). Falls nur eine Wortart ausgegeben wurde, überprüft der Filter 104, was dieses für eine Wortart ist. Wenn die Wortart ein Substantiv ist, indexiert der Filter 104 das gegenwärtige Wort und geht zum nächsten Wort über (Schritt 154). Beispielsweise kann das gegenwärtige Wort "history" oder,; science" sein, was beides Substantive sind, und wobei der Filter 104 in diesem Falle das Wort indexiert.
Falls die Wortart andererseits an Adjektiv, wie etwa "historic" oder "scientific", ist, erhält der Filter 104 die Basisstufe des gegenwärtigen Wortes und überprüft deren Wortart (Schritt 156). (Man vergegenwärtige sich, daß die Basisstufe in dem Basisfeld des Darstellungseintrags des gegenwärtigen Wortes gekennzeichnet ist.) Falls die Wortart der Basisstufe des gegenwärtigen Wortes ein Substantiv ist, indexiert der Filter 104 die Basisstufe und geht dann zum nächsten Wort über (Schritte 158-160). Falls die Wortart der Basisstufe ein Adjektiv ist, erhält der Filter 104 die Basisstufe der Basisstufe und überprüft deren Wortart (Schritte 162-164). Bei adjektivischen Basisstufen indexiert der Filter 104 die Basisstufe nur, wenn die Basisstufe der Basisstufe ein Substantiv ist (Schritt 168). Sonst weist er das Wort zurück und geht zum nächsten Wort über (Schritt 170). Wenn beispielsweise das gegenwärtige Wort "historical", d.h. ein Adjektiv mit einer substantivischen Basisstufe "history", ist, indexiert der Filter 104 "history". Wenn die Basisstufe weder ein Substantiv noch ein Adjektiv ist, weist der Filter 104 das gegenwärtige Wort ebenfalls zurück und geht zum nächsten Wort über.
Falls das gegenwärtige Wort ein Adverb ist, führt der Filter 104 eine, der für ein Adjektiv durchgeführten Analyse ähnliche Analyse durch (Schritte 174-202). Das bedeutet, daß der Filter 104 die Basisstufe des gegenwärtigen Wortes nimmt und ihre Wortart überprüft. Falls die Basisstufe ein Substantiv ist, indexiert der Filter die Basisstufe und geht zum nächsten Wort über. Falls die Basisstufe jedoch ein Adjektiv ist, schaut der Filter 114 auf die nächste Ebene, d.h. die Basisstufe der Basisstufe. Falls die Basisstufe der Basisstufe ein Substantiv ist, wie etwa im Falle von "scientifically", indexiert der Filter 104 die Basisstufe der Basisstufe (d.h. "science") und fährt fort. Falls die Basisstufe der Basisstufe jedoch ein Adjektiv ist, geht der Filter zur nächsten Ebene der Darstellung des gegenwärtigen Wortes über und schaut auf die Basisstufe der Basisstufe der Basisstufe, falls es eine solche gibt. Falls die Basisstufe der Basisstufe der Basisstufe ein Substantiv ist, indexiert der Filter 104 diese Basisstufe, sonst weist er das Wort zurück und fährt fort.
Falls das gegenwärtige Wort nur eine Wortart hat, und falls diese kein Substantiv, kein Adjektiv oder kein Adverb ist, weist der Filter 104 es zurück. In ähnlicher Weise gilt, daß, wenn das gegenwärtige Wort ein Adverb ist, seine Basisstufe aber weder ein Substantiv noch ein Adjektiv ist, es der Filter 104 zurückweist.
In den Fällen, in denen das gegenwärtige Wort zwei Wortarten (und nur zwei) hat (d.h. es zweideutig ist), indexiert der Filter 104 das Wort nur, wenn eine der Wortarten ein Substantiv ist und die andere Wortart nicht ein Adverb ist (Schritte 206-212).
In den Fällen, in denen das gegenwärtige Wort drei Wortarten (und nur drei) hat, indexiert der Filter 104 das Wort nur, wenn eine der Wortarten ein Substantiv ist (Schritt 214- 220).
In denjenigen Fällen schließlich, in denen das gegenwärtige Wort mehr als drei Wortarten hat, indexiert der Filter das Wort nicht (Schritt 222-224).
Bei der obigen Beschreibung sollte beachtet werden, daß, wenn das gegenwärtige Wort zweideutig ist (z.B. kann "leaves", der Plural von "leaf', oder die dritte Person Singular des Verbs "leave" sein), der Filter 104 mehr als eine Basisstufe für das Wort ausgibt.
Nachdem der Filter 104 sämtliche Wörter in dem Text bearbeitet hat, löscht die Anwendung alle verwendeten zugeteilten Tabellen und schließt das Bezugserzeugnis ab.
Nachdem die Anwendung die Information in der Gegenstandsstruktur verwendet hat, die der Anwendung zugeführt wurde, löscht die Anwendung auch den dieser zugeordneten Speicher.
Bei der oben beschriebenen Ausführungsform wird Text wortweise bearbeitet. Das bedeutet, daß das Anwendungsprogramm jedes Wort dem intelligenten Filter 104 zuführt, Wort für Wort, und einen Index generiert, wobei das, was ausgegeben wird, verwendet wird. Es ist auch möglich, daß die Anwendung dem intelligenten Filter 104 einen Textblock zuführt, wobei der Filter 104 in diesem Falle eine Gruppe von Gegenstandstrukturen generiert, und zwar eine Struktur für jedes auf einen Gegenstand bezogene Wort, das in dem Textblock gekennzeichnet wurde. In diesem Fälle ruft das Anwendungsprogramm ein Textanalyseprogramm auf, das so arbeitet, wie es in dem Flußschaubild aus Fig. 6 gezeigt ist.
Das Anwendungsprogramm initialisiert zunächst das Textanalyseprogramm und die geeigneten Datenstrukturen, und es öffnet das Bezugserzeugnis mit dem Text, der zu indexieren ist (Schritt 225). Danach füllt das Anwendungsprogramm einen Puffer mit einem ersten Block von zu analysierendem Text und leitet diesen zu dem Textanalyseprogramm, das seinerseits den Text markiert, um die einzelnen Wörter in ihm zu kennzeichnen (Schritte 229 und 231). Es könnten bekannte Techniken verwendet werden, um den Text zu markieren, wobei beispielsweise Leerräume und/oder Anführungsstriche als Kennzeichen für Wortgrenzen verwendet werden. Das Textanalyseprogramm ruft für jedes in dem Textblock gefundene Wort den intelligenten Filter 104 auf (Sehritt 233). Der intelligente Filter 104 bearbeitet die ihm zugeleiteten Wörter und erstellt eine Gegenstandsstrukturengruppe mit den einzelnen Gegenstandsstrukturen, die für jede, der auf einen Gegenstand bezogenen Wörter erzeugt wurden, welche unter den Wörtern aus dem Textblock gefunden wurden. Nach dem die Gegenstandsstrukturengruppe des gesamten Textblocks vollständig ist, holt das Anwendungsprogramm die einzelnen Gegenstandsstrukturen in der Gruppe und überprüft jedes auf einen Gegenstand bezogene Wort, um zu sehen, ob es für den Text bereits gekennzeichnet wurde. Falls dies nicht der Fall ist, wird das, auf einen Gegenstand bezogene Wort einer Konzeptenliste hinzugefügt, die dem, Text zugeordnet ist (Schritte 235-237).
Das Anwendungsprogramm durchführt den Text auf diese Weise blockweise, bis der gesamte Text indexiert wurde (Schritt 239). Nach dem Bearbeiten des gesamten Textes löscht das Anwendungsprogramm den Speicher, der während des Textanalysebetriebs verwendet wurde, und schließt alle wichtigen Dateien.
Man beachte, daß der intelligente Filter 104 dazu neigt, die Größe des für irgendeinen gegebenen Text erforderlichen Indexes aus mindestens zwei Gründen zu komprimieren. Zunächst kennzeichnet er Wörter, die sich als auf einen Gegenstand bezogene Wörter eignen und weist andere Wörter zurück, die sich nicht auf den Inhalt des Textes beziehen. Außerdem stellt er für viele Textwörter ein Wort bereit, das lexikalisch mit dem Textwort verwandt ist, und die Indexiermaschine indexiert das lexikalisch verwandte Wort. Infolgedessen wird eine Gruppe lexikalisch miteinander verwandter Wörter in dem Text eher durch ein einzelnes Wort repräsentiert, das aus der Gruppe von lexikalisch miteinander verwandten Wörtern ausgewählt wurde.
Der Ansatz, in einem Textindex ein einzelnes Wort zu verwenden, um eine Gruppe lexikalisch miteinander verwandter Wörter zu repräsentieren, kann als solcher verwendet werden. In diesem Falle kann der Benutzer ein Wort aus einem Text von Hand auswählen, das in dem Index repräsentiert werden soll, und dann die Erkennungsfähigkeiten des Morphologie- Analysators verwenden, um eine Gruppe Wörter zu erzeugen, die mit dem ausgewählten Wort lexikalisch verwandt sind. Als indexiertes Wort würde die Indexiermaschine dann ein Wort verwenden, das aus der Serie Wörter ausgewählt wurde, welche durch das ursprüngliche Wort und seine lexikalisch mit ihm verwandten Wörter gebildet ist. Mit anderen Worten repräsentiert jedes Wort in dem resultierenden Index eine Serie lexikalisch miteinander verwandter Wörter in dem Text. In diesem Falle erscheint nicht jedes der lexikalisch miteinander verwandten Wörter in dem Text als getrenntes Wort in dem Index.
Fig. 7 stellt ein System 10 dar, in dem der Morphologie-Analysator 110 beim Suchen von Text hilft. In der Textsuchanordnung 201 wird ein eingegebenes Wort 203, das Teil einer durch einen Benutzer generierten Suchanfrage ist, einem Subjekterweitungsmodul (SES- Modul) 205 zugeführt, wo es zu einer Liste verwandter Subjekte erweitert wird. Eine Suchmaschine 213 verwendet die, aus dem eingegebenen Wort generierte erweiterte Liste, um in einem Speicher 207 abgelegten Text zu durchsuchen, und um als Ausgabe die Identität derjenigen Dokumente auszugeben, die irgendeinen, in der erweiterten Liste auftretenden Punkt betreffen. Um seine Subjekterweiterungsfunktionen zu erfüllen, verwendet das SES-Modul den Morphologie-Analysator 110, um eine Liste von Wörtern zu generieren, die mit dem eingegebenen Wort lexikalisch verwandt sind. Der Morphologie-Analysator 110 stützt sich auf die, in einem Lexikon 116 abgelegte Information, um eine morphologische Analyse des eingegebenen Wortes auszuführen und eine entsprechende Darstellung der Basisstufen zu generieren. Die Darstellung enthält die unterschiedlichen Basisstufen, die in dem eingegebenen Wort gefunden wurden, und die Suffixe, die an diese Basisstufen angefügt sind, um das eingegebene Wort zu generieren. Wenn es die, durch den Morphologie-Analysator 110 entwickelte Information verwendet, verwendet das SES-Modul 205 ein Thesaurus-Lexikon 211, um bestimmte der lexikalisch miteinander verwandten Wörter in eine Liste von Synony nen für diese Wörter zu erweitern. Im allgemeinen erfolgt die Erweiterung für jede der Definitionen, die für das eingegebene Wort gefunden werden, d.h. für jede Wortart. Da Synonymen jedoch nicht für alle Wörter zur Verfügung stehen, verwendet das SES-Modul 205 in den Fällen, in denen keine Synonyme für das eingegebene Wort gefunden werden, lexikalisch mit diesem verwandte Wörter, die in der Darstellung der Basisstufen, die für das eingegebene Wort generiert wurde, gefunden werden.
Die Betriebsweise des SES-Moduls 205 ist allgemein durch das in Fig. 8 gezeigte Blockschaubild dargestellt. Wenn dem SES-Modul 205 ein eingegebenes Wort zugeführt wird, ruft es eine SESinit-Funktion 215 auf, um die Datenstrukturen, Funktionen und Lexika, die während seines Betriebs verwendet werden, zu initialisieren. Nach der Initialisierung verwendet eine SESrecword-Funktion 217 den Morphologie-Analysator 110, um eine Darstellung der Basisstufen für das eingegebene Wort zu konstruieren, und generiert, unter Verwendung der in der Darstellung der Basisstufen zur Verfügung stehenden Informationen eine Liste von Synonymen aus dem Thesaurus-Lexikon 211. Für jedes der, durch SESrecword generierten Wörter und Synonyme nimmt eine zweite Funktion SESexplist 219 die durch SESrecword 217 generierten Wörter und Synonyme und generiert eine Serie lexikalisch verwandter Wörter und Synonyme und lexikalisch verwandter Synonyme, die sie zusammen mit dem eingegebenen Wort und seiner lexikalisch verwandten Wörter der Suchmaschine 213 als erweiterte, zum Suchen zu verwendende Liste zuführt. Nach dem die Aufgabe der Erweiterung abgeschlossen ist, löscht eine SESfini-Funktion 221 den Speicher, der für diesen Betrieb initialisiert wurde, und schließt die Lexika. Es werden nun SESrecword 217 und SESexplist 219 ausführlicher beschrieben.
SESrecword 217 arbeitet wie in den Fig. 9a-b gezeigt. Wenn die Funktion zunächst aufgerufen wird, verwendet WFSrecognize, um das eingegebene Wort, das im Rahmen des Funktionsaufrufs zugeführt wurde, zu analysieren (Schritt 230). Für jede erfolgreiche lexikalische Zerlegung des eingegebenen Wortes gibt WFSrecognize eine Darstellung aus. Jede Darstellung enthält unter anderem den Stamm, die an den Stamm zum Bilden des eingegebenen Wortes angefügten Suffixe und die Wortart des eingegebenen Worts. Da es möglich ist, daß es mehr als eine Definition des Wortes gibt, kann WFSrecognize mehr als eine erfolgreiche lexikalische Zerlegung finden.
Nach dem WFSrecognize seine Erkennungsfunktion beendet und die Information ausgibt, durchkämmt SESrecword 217 jede Definition (d.h. jeden Pfad in der Darstellung), die ausgegeben wird (Schritt 232), und für jeden Pfad führt sie die folgenden Schritte aus. Zunächst überprüft sie, ob der gegenwärtige Pfad dieselbe Wortart hat, als irgendein anderer Pfad, der bis dahin bearbeitet wurde (Schritt 234). Falls der gegenwärtige Pfad dieselbe Wortart hat, wie ein zuvor bearbeiteter Pfad, überspringt SESrecword 217 den gegenwärtigen Pfad und geht zum nächsten über (Schritt 236). Man beachte, daß die Erweiterung eines Pfads, der dieselbe Wortart, wie ein zuvor erweiterter Pfad, hat, auch dieselbe Erweiterung ergibt.
Falls die Wortart für den gegenwärtigen Pfad neu ist, überprüft SESrecword 217, ob die gegenwärtige Wortart flektiert ist (Schritt 236). Falls sie flektiert ist, besteht die Möglichkeit, daß die Basisstufe für den gegenwärtigen Pfad bereits für einen vorherigen Pfad gefunden wurde. Beispielsweise haben das Imperfekt und das Partizip Perfekt eines Verbs dieselbe Basisstufe und ergeben daher dieselbe Erweiterung. Um zu vermeiden, eine vorherige Arbeit zu wiederholen und im Falle flektierter Wörter, überprüft SESrecword 217 die Basisstufe des gegenwärtigen Pfades, im Vergleich zu anderen Basisstufen, die für andere Pfade gefunden wurden (Schritt 240). Informationen über die anderen Pfade werden in einer Informationsliste gespeichert, die SESrecword 217 während dieses Verfahrens bildet, um seine Ergebnisse an das Anwendungsprogramm auszugeben. Die Informationsliste, die eine Sammlung von unterschiedlichen Formen ist, die für das eingegebene Wort erkannt werden, ist eine verkoppelte Liste von Informationsobjekten 223, wie dies in Fig. 10 dargestellt ist. Falls die Basisstufe in der Informationsliste gefunden wird, überspringt SESrecword 217 den gegenwärtigen Pfad. Sonst überprüft es, ob die Basisstufenform in dem Thesaurus-Lexikon 211 zu finden ist. Falls die Basisstufenform in dem Thesaurus-Lexikon zu finden ist, bildet SESrecword 217 ein neues Informationsobjekt 223 für die Basisstufe und fügt das neue Objekt der Informationsliste hinzu. Das neue Objekt enthält alle Synonyme, die in dem Thesaurus-Lexikon gefunden wurden und dieser Basisstufe zugeordnet sind.
Zurück zu Fig. 10: Jedes Objekt 223 umfaßt ein Feld 223(a), das das Wort enthält, für welches Synony ne gefunden wurden, eine pos_Liste 223(b), die die zu dem Wort zugehörigen Wortarten kennzeichnet, einen Thesaurus-Puffer (TH-Puffer) 223(c), der alle Synonyme für das Wort enthält, und einen Zeiger 223(i) auf das nächste Objekt in der Liste. Jedes Informationsobjekt umfaßt außerdem ein num_Wörter-Feld 223(d) zum Bestimmen der Zahl der Synonyme in dem TH-Puffer 223(c), ein num_Bedeutungs-Feld 223(e), für die die Zahl der unterschiedlichen Bedeutungen oder Nebenbedeutungen, die für das Wort aufgelistet wurden, und ein pos_Summe-Feld 223(f), für vorbestimmte Statistiken über die Durchschnittszahl generierter Formen, die typischerweise auf eine Erweiterung des Worts, in Abhängigkeit von seiner Wortart, resultieren. Mit anderen Worten stellt pos_Summe eine Grundlage zum Abschätzen dar, wie viele Wörter eine Erweiterung der Liste von Wörtern in dem TH-Puffer 223(c) erzeugen wird. Die Erfahrung zeigt, daß die Zahl der Wörter, die eine Erweiterung erzeugen wird, von der Wortart des Wortes abhängt. Beispielsweise führt ein Substantiv bei seiner Erweiterung typischerweise zu drei Wörtern, ein Verb führt zu sieben Wörtern, und ein Adjektiv führt zu vier Wörtern. Diese Information wird von der Erweiterungsfunktion später verwendet, um zu bestimmen, wie viele Wörter des TH-Puffers zu erweitern sind.
Jedes Informationsobjekt 223 umfaßt auch ein Probeninformations-(Proben_Info)-Feld 223(g) mit einer Gruppe von Zeigern auf jede der möglichen Proben in dem TH-Puffer 223(c) sowie ein Auswahl_Info-Feld 223(h). Als Probe wird eine mögliche Bedeutung oder Nebenbedeutung des Wortes definiert. Im Falle des College-Thesaurus sind Synonyme in Kategorien mit unterschiedlichen Bedeutungen geordnet. Die Zeiger in dem Proben Info-Feld 223(g) kennzeichnen den Anfang jeder der Kategorien in dem TH-Puffer 223(c). Wie unten kurz ausführlicher erklärt werden wird, wird dem Benutzer bei einigen Ausführungsformen die Option eröffnet auszuwählen, welche Proben in die, durch SESexplist 219 durchgeführte Erweiterung eingeschlossen werden sollen. Die Angaben des Benutzers werden zur späteren Verwendung in dem Auswahl Info-Feld 223(h) eingetragen.
Nun wieder zurück zu den Schritten 238-248 in Fig. 9a: Nach dem Konstruieren des Informationsobjektes für die Basisstufe oder nach dem Bestimmen, daß die Basisstufenform in dem Thesaurus-Lexikon nicht zu finden ist, überprüft SESrecword 217 auch, ob das eingegebene Wort sich in dem Thesaurus als Flexion befindet (Schritt 246). Falls dies der Fall ist, bildet SESrecword ein weiteres Informationsobjekt für das eingegebene Wort (Schritt 248).
In den Fällen, in denen die Wortart für den gegenwärtigen Pfad nicht flektiert ist, überprüft SESrecword 217, ob sich das Wort in dem Thesaurus-Lexikon befindet (Schritt 252). Wenn sich das Wort in dem Thesaurus-Lexikon befindet, wird für das Wort ein Informationobjekt gebildet und der Informationsliste hinzugefügt (Schritt 256). Falls sich das Wort andererseits nicht in dem Thesaurus befindet, untersucht SESrecword 217 seine Darstellung, um zu bestimmen, ob ein Suffix von dem Wort entfernt werden kann, um eine Basisstufe mit im wesentlichen derselben Bedeutung zu bilden (Schritt 258-260). Daß die Wörter im wesentlichen dieselbe Bedeutung haben, bedeutet beispielsweise den Fall, daß die Funktion der, durch Entfernen des Suffixes gebildeten Wörter semantisch dieselbe wie die Funktion des Wortes ist, von dem das Suffix entfernt wurde. Es können nur bestimmte Suffixe entfernt werden, ohne die Bedeutung des Wortes bedeutend zu ändern. Eine Liste dieser Suffixe findet sich in Fig. 11. (Beachte, daß "+" und. "#" Begrenzungszeichen oder Markierer nach Aronoff, Mark (1976) Word Formation in Generative Grammar, Linguistic Inquiry Monograph 1, MIT Press, Cambridge, Massachusetts, sind.) Eine derartige Liste wird in einer Tabelle abgelegt, auf die SESrecword zugreift, um zu bestimmen, ob es erlaubt ist, das gegenwärtige Suffix zu entfernen, um so ein Wort zu erzeugen, aus welchem Synonyme generiert werden können. Wenn das Suffix entfernt werden kann, versucht SESrecword 217 die resultierende Basisstufe in dem Thesaurus-Lexikon zu finden. Falls die Basisstufe gefunden wird, bildet die Funktion ein Wort-informationsobjekt für die Basisstufe. Falls sie nicht gefunden werden kann, bildet die Funktion jedoch ein Wortinformationsobjekt für das eingegebene Wort ohne irgendwelche Thesaurus-Daten.
Nach dem SESrecword jeden Pfad durchkämmt hat und die oben beschriebenen Schritte aufgeführt hat, gibt es die vollständige Liste von Informationsobjekten an das Anwendungsprograrnm aus.
Wie in Fig. 12 gezeigt, wird das SES-Modul 205 in einer anderen Ausführungsform abgewandelt, um es dem Benutzer zu erlauben, Informationsobjekte zur Erweiterung oder zur Auswahl der Synonyme in einem Informationsobjekt, für das eine Erweiterung erfolgen wird (ein Schritt, der allgemein als Probenentnahme bezeichnet wird), zu überspringen. In der abgewandelten Version des SES-Moduls 205 leitet die Anwendung die Ausgabe von SESrecword 217 zu einre SESsample-Funktion 223, die eine Unterserie Wörter aus jeder Kategorie (d.h. auf jeder Bedeutung) ausgibt, und die Anwendung zeigt dem Benutzer diese Unterserie Wörter an. Bei der vorliegenden Ausführungsform (d.h. mit dem College-Thesaurus) wählt SESsample 223 die ersten beiden Wörter in jeder Kategorie zur Anzeige aus. Der Benutzer wählt dann aus, welche Informationsobjekte übersprungen werden sollen, und auch die Kategorie in den Informationsobjekten, für welche eine Erweiterung erwünscht ist. Eine weitere Funktion, nämlich SESadd_sel 227 speichert die Auswahl des Benutzers in dem Auswahl Info-Feld 223(a) des geeigneten Informationsobjekts 223 (siehe Fig. 10).
Bei beiden oben beschriebenen Ausführungsformen wird die tatsächliche Erweiterung der Wörter, die durch SESrecword 217, ausgegeben wird, durch zwei weitere Funktionen gemacht, nämlich SESexplist 219 und SESgen 221, die in den Flußschaubildern von Fig. 13 bzw. 14 dargestellt sind. Jede dieser Funktionen wird nun beschrieben werden.
SESexplist 219 nimmt die von SESrecword 217 ausgegebene Informationsliste und erweitert sie, um lexikalisch verwandte Wörter zu umfassen, die aus den erkannten Formen des eingegebenen Wortes und der, durch SESrecword 217 gefundenen Synonyme generiert wurden. Unter Bezug auf Fig. 13: Wenn SESexplist 219 zunächst aufgerufen wird, durchkämmt es die Liste von Informationsobjekten (Schritt 270) und berechnet die Gesamtzahl von Wörtern in den TH-Puffern aus den Zahlen in den num_Wörter-Feldern 223(d) (Schritt 272). Danach schätzt SESexplist 219, unter Verwendung der in dem pos_Summe-Feld 223(f) gespeicherten Information, die Gesamtzahl von Wörtern ab, die vermutlich aus dem Erweitern aller der erfaßten Kategorien resultieren, welche mittels des Thesaurus gewonnen wurden (Schritt 274). (Falls das Erfassungsmerkmal nicht vorhanden ist, wird angenommen, daß Wörter aus allen Kategorien erweitert werden.) Die Gesamtzahl wird dann skaliert, um irgendwelche Einschränkungen zu berücksichtigen, die betreffend des zur Verfügung stehenden Speichers vorhanden sein können. In einer DOS-Umgebung können die Speicherplatzeinschränkungen sehr schwerwiegend sein; in anderen Umgebungen, etwa virtuellen Speichersystemen, muß es hingegen nicht notwendig sein, die Zahl der Wörter, die generiert werden, zu begrenzen. Unter Verwendung der skalierten Zahl, berechnet SESexplist 219 die Zahl der Wörter, die aus jeder erfaßten Kategorie sicher zur Erweiterung ausgewählt werden können, ohne daß der zur Verfügung stehende Speicherplatz überschritten wird. Die Verteilung der, aus den Kategorien ausgewählten Wörtern erfolgt so, daß nahezu alle Probenkategorien in den TH- Puffern 223(c) repräsentiert werden. Dies heißt, aus allen ausgewählten Kategorien wird eine bestimmte Zahl ausgewählt, wobei die größeren Kategorien eine größere Darstellung als die kleineren Kategorien erfahren.
Nach dem SESexplist 219 die Zahl der Wörter bestimmt, die aus jeder Kategorie erweitert werden können, durchkämmt es die Liste von Informationsobjekten abermals, um die tatsächlichen Erweiterungsschritte auszuführen (Schritt 276). Betreffend das gegenwärtige Informationsobjekt überprüft SESexplist 219 zunächst, ob es als zu überspringend ausgewählt wurde (Schritt 278). Wenn das gegenwärtige Objekt als zu überspringend markiert ist, geht SESexplist 219 zum nächsten Informationsobjekt über. Falls das gegenwärtige Objekt nicht als zu überspringend ausgewählt ist, überprüft SESexplist 219, ob es erfaßt wurde, in dem die Inhalte seines Auswahl_Info-Feldes 223(h) überprüft werden. Falls das Objekt erfaßt wurde und eine Auswahl erfolgt ist, ruft SESexplist SESgen 221, betreffend diese Auswahl, auf. In dieser Phase des Betriebs erweitert SESgen 221 die erlaubte Zahl von Wörtern in der erfaßten Kategorie, auf der Grundlage der in obigen Schritten 272 und 274 durchgeführten Berechnungen.
Wenn das Objekt weder übersprungen noch erfaßt wurde, ruft SESexplist 219 SESgen 221, betreffend alle in dem Objekt vorhandenen Daten, auf (Schritt 282). Während dieses Schrittes erweitert SESgen nur die Zahl der Wörter in jeder Kategorie, die durch die in den obigen Schritten 272 und 274 berechneten Einschränkungen erlaubt sind.
Wenn SESexplist 219 das Wort in einem gegebenen Informationsobjekt erweitert hat, löscht es sämtlichen, diesem Objekt zugehörigen Speicherplatz (Schritt 284). Nachdem SESexplist sämtliche Informationsobjekte durchkämmt hat, gibt es die Ergebnisse der Erweiterung an die Suchmaschine 213 aus, die auf der Grundlage der Information in der erweiterten Liste eine Suche konstruierte. Mit anderen Worten führt die Suchmaschine 213 ihre Suche, unter Verwendung des eingegebenen Wortes von Wörtern, die mit dem eingegebenen Wort lexikalisch verwandt sind, von Synonymen des eingegebenen Wortes und der lexikalisch mit dem eingegebenen Wort verwandten Wörter (wenn es derartige Synonyme gibt) und von, mit den Synonymen lexikalisch vorhandenen Wörtern, durch. Die Suchmaschine 213 verwendet jede aus einer Zahl von bekannten Techniken, um die erweiterte Liste zu verwenden, um die Suche für alle Dokumente oder Orte in Dokumenten durchzuführen, die irgendwelche Wörter in der erweiterten Liste betreffen.
Die wiederholten Aufrufe von SESgen 221 generieren die Ergebnisliste, die ausgegeben wird. Wie in Fig. 14 gezeigt, kennzeichnet, wenn SESgen aufgerufen wird, es zunächst das eingegebene Wort und seine Wortart anhand der in den geeigneten Feldern des Informationsobjektes gefundenen Information (Schritt 290). Für das eingegebene Wort ruft SESgen eine Generierungsfunktion, WFSgenerate, auf, welche bewirkt, daß der Morphologie- Analysator 110 alle Flexionen und Ableitungen erzeugt, die aus diesem Wort, durch Anfügen eines Suffixes, generiert werden können. Es erzeugt auch Flexionen der Ableitungsformen. WFSgenerate gibt eine Ausgangsdarstellungs-Datenstruktur aus, welche eine Gruppe von Darstellungen für alle gefundenen Erweiterungen ist. Der erste Eintrag in jeder Darstellung enthält das eingegebene Wort, und der letzte Eintrag enthält eine flektierte Form, eine abgeleitete Form oder eine Flexion einer abgeleiteten Form. In diesem letzteren Fall enthält ein mittlerer Eintrag die abgeleitete Form, d.h. das eingegebene Wort, an das ein Ableitungs-Suffix angefügt ist.
Aus den erzeugten Darstellungen wählt SESgen 221 sämtliche Flexionsformen aus und fügt dieser eine Ergebnisliste hinzu (Schritt 294). Wenn auch Ableitungsformen in der Ausgangsdarstellungs-Datenstruktur zu finden sind, wählt SESgen 221 nur diejenigen Ableitungen aus, die ein Suffix aufweisen, das an die gegenwärtige Wortart des eingegebenen Wortes angefügt werden kann, ohne die Bedeutung des Wortes bedeutend zu ändern. Nur bestimmte Ableitungs-Suffixe können an eine Basisstufe angefügt werden, ohne deren Bedeutung wesentlich zu ändern. Wie im Falle des Entfernens von Suffixen, haben Wörter durch Anfügen von Suffixen im wesentlichen dieselbe Bedeutung wie das Basisstufenwort, wenn beispielsweise die Funktion der, durch Anfügen des Suffixes, erzeugten Wörter semantisch dieselbe wie die Funktion des Wortes ist, an das das Suffix angefügt wird. Eine Liste dieser Suffixe findet sich unter der entsprechend bezeichneten Spalte in Fig. 11. Eine derartige Liste von Suffixen wird in einer Tabelle abgelegt, auf die SESgen zugreift, um zu bestimmen, ob irgendwelche Ableitungen ein Suffix haben, das an die gegenwärtige Wortart angehängt werden kann. Nur diese Einträge werden der Ergebnisliste hinzugefügt.
Nach dem SESgen das eingegebene Wort des Informationsobjektes bearbeitet hat, durchkämmt es die Synonyme, die in dem TH-Puffer in dem Informationsobjekt gefunden werden (Schritt 296). Betreffend das gegenwärtige Synonym, vergleicht SESgen 221 seine Wortart mit der des eingegebenen Wortes (Schritt 298). Wenn die Wortarten gleich sind, führt SESgen 221 dieselbe Erweiterung durch, wie es oben beschrieben wurde. Das bedeutet, es generiert sämtliche Flexionen und Ableitungen des Synonyms, bei denen nur ein Suffix an das Synonym angefügt wurde, und es fügt die Flexionen und nur diejenigen Ableitungen, die ein Suffix haben, das an die gegenwärtige Wortart des Synonyms angefügt werden kann, der Ergebnisliste für das Informationsobjekt hinzu (Schritte 300 und 302).
Nachdem SESgen 221 sämtliche Synonyme, für die Erweiterungen generiert werden sollen, durchkämmt hat, gibt es die Ergebnisliste an SESexplist 219 aus (Schritt 300).
Man beachte, daß eine eingeschränkte Form der Subjekterweiterung eingesetzt werden kann, bei der kein Thesaurus verwendet wird. In diesem Falle wird die Suche unter Verwendung des eingegebenen Wortes plus der Gruppe lexikalisch verwandter Wörter, die durch den Morphologie-Analysator generiert werden, durchgeführt.
Weitere Ausführungsformen sind Inhalt der folgenden Ansprüche.

Claims

1. Anlage zum Generieren von Wortlisten durch Entfernen von Suffixen von eingegebenen Wörtern zum Kennzeichnen und Speichern der Stämme der eingegebenen Wörter und zum nachfolgenden Generieren von Wörtern aus den Wortstämmen durch Hinzufügen von Suffixen, mit

- einer Vorrichtung zum Generieren einer Vielzahl von Wörtern ausgehend von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort, umfassend:

- einen Morphologie-Analysator zum lexikalischen Zerlegen des eingegebenen Wortes, um wenigstens einen Stamm des eingegebenen Wortes zu bestimmen, der mit dem eingegebenen Wort lexikalisch verwandt ist, derart, daß er eine mit der Bedeutung des eingegebenen Wortes lexikalisch verwandte Bedeutung hat, und für jeden Stamm des eingegebenen Wortes eines oder mehrerer Suffixe, die nacheinander an den Stamm angehängt sind, und

- eine Wortgenerierungseinrichtung, die in Abhängigkeit vom Morphologie-Analysator ausgehend vom eingegebenen Wort eine erste Gruppe Wörter generiert, die mit dem eingegebenen Wort lexikalisch verwandt sind, derart, daß sie durch Entfernen aufeinanderfolgender Suffixe mit der Bedeutung des eingegebenen Wortes lexikalisch verwandte Bedeutungen haben,

- wobei jedes Wort der ersten Gruppe Wörter von dem eingegebenen Wort, von dem ein oder mehrere Suffixe entfernt sind, gebildet ist, und

- wobei die vom eingegebenen Wort entfernten Suffixe aus einer ersten Serie Suffixe ausgewählt sind, wobei die Sufftxe der ersten Serie Suffixe nur Suffixe enthalten, durch deren Entfernen von Wörtern die Bedeutung von Wörtern nicht wesentlich verändert wird, und nur Suffixe enthalten, die zu den Flexions- und Ableitungssuffixen gehören, wobei die erste Serie Suffixe die Suffixe #ful, #ish, +ous, +ic, +al, #ar, #er, #or, +ive, +ory, #able, +able, +ible, #ment, #ness, +ity, +ety, +ty, #ly, #ize, +ify, +fy und #y enthält.

2. Vorrichtung zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach Anspruch 1, bei der die erste Serie Wörter sowohl Wörter, die regelmäßige flektierende Substantive sind, als auch Wörter enthält, die keine regelmäßigen flektierenden Substantive sind.

3. Vorrichtung zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach Anspruch 1, bei der die Wortgenerierungseinrichtung ferner umfaßt:

- eine Einrichtung zum Generieren zusätzlicher Wörter aus der ersten Gruppe Wörter durch Anhängen an die Wörter der ersten Gruppe Wörter von Suffixen, die aus einer zweiten Gruppe Suffixe ausgewählt sind,

- wobei die vom eingegebenen Wort entfernten Suffixe aus einer zweiten Gruppe Suffixe ausgewählt sind, wobei die Suffixe der zweiten Gruppe nur Suffixe enthalten, die nach Hinzufügen an Wörter die Bedeutung von Wörtern nicht wesentlich verändern, und nur sowohl Flexions- als auch Ableitungssuffixe enthalten, einschließlich der Suffixe #ful, #ish, +ous, +ic, +al. #ar, #er, #or, +ive, +ory, #able, +able, +ible, #ment, #ness, +ity, +ety. +ty, #ly und #y.

4. Vorrichtung zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach einem der Ansprüche 1 bis 3, ferner mit

- einer Thesaurus-Datenbank und, in der Generierungseinrichtung, einer Einrichtung zum Indexieren der Thesaurus- Datenbank mit Wörtern der ersten Gruppe Wörter, um aus der Thesaurus-Datenbank eine zweite Gruppe Wörter zu generieren,

- wobei die Wörter der zweiten Gruppe Wörter Synonyme von Wörtern der ersten Serie Wörter sind.

5. Vorrichtung zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach einem der Ansprüche 1 bis 4, bei der der Morphologie-Analysator ferner umfaßt:

- eine Erkennungsmaschine zum Generieren einer Darstellung der Ableitungsstufen für jede lexikalische Zerlegung des eingegebenen Wortes in Stamm und ein oder mehrere Suffixe,

- wobei jede Darstellung der Ableitungsstufen die Wortart des von der entsprechenden lexikalischen Zerlegung des eingegebenen Wortes generierten Wortes enthält.

6. Verfahren zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort, mit den Arbeitsschritten:

- lexikalisches Zerlegen des eingegebenen Wortes, um wenigstens einen Stamm des eingegebenen Wortes zu bestimmen, der mit dem eingegebenen Wort lexikalisch verwandt ist, derart, daß er eine mit der Bedeutung des eingegebenen Wortes lexikalisch verwandte Bedeutung hat, und für jeden Stamm des eingegebenen Wortes eines oder mehrerer Suffixe, die nacheinander an den Stamm angehängt sind, und

- Generieren einer ersten Gruppe Wörter aus dem eingegebenen Wort, die mit dem eingegebenen Wort lexikalisch verwandt sind, derart, daß sie durch Entfernen aufeinanderfolgender Suffixe vom eingegebenen Wort mit der Bedeutung des eingegebenen Wortes lexikalisch verwandte Bedeutungen haben,

- wobei jedes Wort der ersten Gruppe Wörter vom eingegebenen Wort, von dem ein oder mehrere Suffixe entfernt sind, gebildet ist, und

- wobei die vom eingegebenen Wort entfernte Suffixe aus einer ersten Serie Suffixe ausgewählt sind, wobei die Suffixe der ersten Serie Suffixe nur Suffixe enthalten, durch deren Entfernen von Wörtern die Bedeutung von Wörtern nicht wesentlich verändert wird, und nur Suffixe enthalten, die zu den Flexions- und Ableitungssuffixen gehören, wobei die erste Serie Suffixe die Suffixe #ful, #ish, +ous, +ic, +al, #ar, #er, #or, +ive, +ory, #able, +able, +ible, #ment, #ness, +ity, +ety, +ty, +ly, +ize, +ify, +fy und #y enthält.

7. Verfahren zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach Anspruch 6, bei dem die erste Serie Wörter sowohl Wörter, die regelmäßige flektierende Substantive sind als auch Wörter enthält, die keine regelmäßigen flektierenden Substantive sind.

8. Verfahren zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach Anspruch 6 oder 7, ferner mit den Arbeitsschritten:

- Generieren zusätzlicher Wörter der ersten Gruppe Wörter durch Hinzufügen von Suffixen, die aus einer zweiten Gruppe Suffixe ausgewählt sind, zu den Wörtern der ersten Gruppe Wörter, wobei

- die Suffixe der zweiten Gruppe Suffixe nur Suffixe enthalten, die durch Hinzufügen zu Wörtern die Bedeutung von Wörtern nicht wesentlich verändern, wobei die vom eingegebenen Wort gestrichenen Suffixe aus einer zweiten Gruppe Suffixe ausgewählt sind, wobei die Suffixe der zweiten Gruppe nur Suffixe enthalten, die nach Hinzufügen zu Wörtern die Bedeutung von Wörtern nicht wesentlich verändern, und sowohl Flexions- als auch Ableitungssuffixe enthalten, einschließlich der Suffixe #ful, #ish, +ous, +ic, +al, #ar, #er, #or, +ive, +ory, #able, +able, +ible, #ment, #ness, +ity, +ety, +ty, #ly und #y.

9. Verfahren zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach einem der Ansprüche 6 bis 8, ferner mit den Arbeitsschritten:

- Indexieren der Thesaurus-Datenbank mit Wörtern der ersten Gruppe Wörter, um aus der Thesaurus-Datenbank eine zweite Gruppe Wörter zu generieren,

10. Verfahren zum Generieren einer Vielzahl Wörter auf der Grundlage von und von lexikalischer Verwandtschaft mit einem eingegebenen Wort nach einem der Ansprüche 6 bis 9, ferner mit dem Arbeitsschritt:

- Generieren einer Darstellung der Ableitungsstufen für jede lexikalische Zerlegung des eingegebenen Wortes in einen Stammund ein oder mehrere Suffixe,

- wobei jede Darstellung der Ableitungsstufen die Wortart des durch die entsprechende lexikalische Zerlegung des eingegebenen Wortes generierten Wortes enthält.