DE4225200A1

DE4225200A1 - Elektronisches woerterbuch

Info

Publication number: DE4225200A1
Application number: DE4225200A
Authority: DE
Inventors: Kim D Letkeman
Original assignee: Mitel Corp
Current assignee: Microsemi Semiconductor ULC
Priority date: 1991-09-11
Filing date: 1992-07-30
Publication date: 1993-03-18
Also published as: IT1261883B; ITMI920948A1; CA2051135A1; GB2259596A; GB2259596B; MX9205163A; US5383121A; ITMI920948A0; GB9207399D0; CA2051135C

Description

Die Erfindung betrifft ein elektronisches Wörterbuch, das dazu dient, einem Benutzer in einer natürlichen Sprache Antwort zu geben, und das vorteilhafterweise bei einer Mensch-Maschine- Schnittstelle angewendet wird.

Die Benutzer von Personal-Computern (PCs), Telefonen, Telefonvermittlungsanlagen etc., kommunizieren mit diesen Geräten mittels einer Tastatur oder anderen bekannten Einrichtungen. Die derart angesprochenen Geräte reagieren hierauf beispielsweise durch eine Anzeige auf einer Anzeigevorrichtung, z. B. einem Monitor, oder mittels einer akustischen Antwort. Wenn ein Gerät in einem Land eingesetzt werden soll, in dem man eine andere Sprache als in dem Herstellerland spricht, wird eine Übersetzung der auf eine Eingabe (Befehl) auszugebenden Antwort benötigt.

Es ist erwünscht, dem Benutzer eine Antwort in natürlicher Sprache zu geben. Allerdings birgt eine Mensch-Maschine- Schnittstelle in mehreren natürlichen Sprachen eine Reihe von Problemen. Beispielsweise beanspruchen Wörter bzw. Sätze in natürlichen Sprachen eine beträchtliche Speicherkapazität. Bei Befehlen und Antworten ist bei den verschiedenen verwendeten Wörtern und Sätzen eine beträchtliche Redundanz festzustellen. Ein Beispiel für solch eine Struktur bzw. Verfahren mit beträchtlicher Redundanz ist in der US-PS 43 65 315 zu finden.

Beim Verarbeiten von Befehlen und bei der Ausgabe von Ergebnissen an einen Benutzer müssen die verwendeten Sätze bzw. Wörter mit einem Index versehen und derart organisiert werden, daß Vergleichs- und Wiederauffinde-Operationen sehr rasch durchgeführt werden können.

Ein für einen Benutzer vorgesehenes Gerät kann mehr als einen Eingabe/Ausgabe(I/O)-Anschluß aufweisen und es gestatten, daß voneinander völlig unabhängige Befehle gleichzeitig abgearbeitet werden. Dies bedingt, daß die Suche im Wörterbuch gleichzeitig Zugang zu allen Wörtern bzw. Sätzen vorsieht. Da die Mensch-Maschine-Schnittstelle völlig in Form von Sätzen aus dem Wörterbuch (und nicht fest codiert) ausgeführt werden muß, müssen die Vergleichs- und Wiederauffinde-Operationen hunderte bzw. tausende Mal für jeden Befehl bzw. für jede Antwort durchgeführt werden. Dies zwingt dazu, all diese Wörterbücher in einem FAM-Speicher zu speichern, um einen sehr raschen Zugriff zu gewährleisten. Bei einer sehr umfangreichen Programmbibliothek zur Übersetzung vieler Sprachen kann dies extrem hohe Kosten verursachen, insbesondere bei Konsumgeräten, wie z. B. Telefonen. Bei größeren Geräten, wie z. B. Telefonvermittlungsanlagen, kann der nur für die elektronischen Wörterbücher benötigte exzessive RAM-Speicherbedarf bewirken, daß das Gerät in seinem jeweiligen Markt nicht wettbewerbsfähig ist.

Daher werden solche Geräte, wie beispielsweise Telefonvermittlungsanlagen, bisher nur in einer Sprache betrieben. Diejenigen, die auch in einer zweiten Sprache betrieben werden, entstellen die natürliche Satzbildung in der zu übersetzenden Sprache dergestalt, daß diese Sätze parallel zu den ursprünglichen Sätzen abgespeichert werden können. Außerdem können diese Geräte selten in mehreren Sprachen gleichzeitig betrieben werden.

In der Regel sprechen solche Geräte nur langsam auf den Benutzer an, da sie jeweils eine eigene Serie von Sätzen für jede "Tabelle", die der Benutzer einzuprogrammieren wünscht, einlesen müssen. Dies ist unflexibel und für den Benutzer frustrierend.

Der Erfindung liegt die Aufgabe zugrunde, bei einem elektronischen Wörterbuch der eingangs genannten Art die oben aufgezeigten Nachteile der Vorrichtung gemäß dem Stand der Technik zu vermeiden.

Diese Aufgabe wird durch die Merkmale des Patentanspruchs 1 gelöst. Weitere Ausgestaltungen der Erfindung sind Gegenstand der Ansprüche 2 und 3.

Erfindungsgemäß wird ein kompletter Satz von Wörtern, Sätzen und Zeichenfolgen in einem Speicher mit Adressen versehen, was der erfindungsgemäßen Vorrichtung ermöglicht, mehrere verschiedene Sprachen gleichzeitig zur Verfügung zu stellen. Die Komprimierung, Indexierung und Organisation basiert auf einzelnen Sätzen, so daß der Satzbau und die Grammatik der jeweiligen Sprache nicht beeinträchtigt wird. Komprimierte Sätze können sehr schnell wieder hergestellt und verglichen werden, was den Einsatz der Wörterbücher für jede denkbare Anwendung in Mensch-Maschine-Schnittstellen gestattet. Diese kann ihrerseits wirksam von der tatsächlichen Darstellung der Zeichenfolgen entkoppelt werden, so daß die Hinzufügung eines Wörterbuchs für eine zusätzliche Sprache nicht zwangsläufig bedingt, daß die Softwareumgebung des Hauptsystems geändert oder umgestaltet werden muß. Ein Wörterbuch für eine neue Sprache kann zu einem laufenden Gerät zugefügt und benutzt werden, ohne die Software des Geräts wieder anlaufen lassen zu müssen.

Einer erfindungsgemäßen Ausführungsform zufolge umfaßt das Verfahren zur Erzeugung eines computergenerierten Wörterbuchs für eine natürliche Sprache, einschließlich der Schritte zur Erzeugung des Wörterbuchs, folgende Teilschritte:

- Aufstellung einer aus einzelnen Wörtern (Zeichen) bestehenden Liste von Zeichenfolgen des Wörterbuchs der natürlichen Sprache;
- Zuordnung eines individuellen Zahlenwerts zu dem jeweiligen Zeichen, wobei der jeweils gleiche Zahlenwert dem jeweils identischen Zeichen in verschiedenen Zeichenfolgen zugeordnet wird;
- Erzeugung einer aus einem Index und einem Verzeichnis bestehenden Tabelle, wobei der Index aus einer ersten, die Anzahl der Zeichenfolgen repräsentierenden Größe und weiteren, die Stelle im Verzeichnis repräsentierenden Größen besteht, wobei jeder dieser Größen sofort eine Größe folgt, die die Anzahl der Zeichen pro Zeichenfolge angibt, und wobei das Verzeichnis die zugeordneten Zahlenwerte für jedes Zeichen im Verzeichnis der Zeichenfolge des Wörterbuchs umfaßt;
- Einlesen jedes Zeichens des Wörterbuchs in einen Speicher;
- Aufstellung einer Tabelle, die die Korrelation der jeweiligen Zeichen-Nummer, die Speicheradressierung des Startpunkts sowie die Länge des jeweiligen Zeichens enthält;

wobei nach Eingabe eines entsprechenden Befehls die Anzahl der Wörter jeder Zeichenfolge, die Zeichen-Nummern sowie die Speicheradressierung der Zeichen der aufgerufenen Zeichenfolgen in der jeweiligen natürlichen Sprache wiedergewonnen und angezeigt werden können.

Einer zweiten erfindungsgemäßen Ausführungsform zufolge besteht das Verfahren zur Wiedergewinnung von Sätzen einer natürlichen Sprache aus folgenden Teilschritten:

- Empfang eines Befehls;
- Korrelierung von Zeichen im Befehl mit Zeichen-Nummern, die durch den Befehl repräsentiert bzw. durch diesen hervorgerufen werden;
- Ablesen einer ersten Tabelle, die einen Index für die Lage bzw. Positionen der Zeichen-Nummern und für die Wort (Zeichen)- Nummern in einem Satz einer natürlichen Sprache in der Tabelle der jeweiligen natürlichen Sprache enthält;
- Ablesen einer zweiten Tabelle und Korrelierung der aus der ersten Tabelle ausgelesenen Zeichen-Nummern mit einer komprimierten Zeichen-Liste und mit der Länge des jeweiligen Zeichens;
- Ablesen der komprimierten Zeichen-Liste, um die Zeichen in der Reihenfolge gemäß der ersten Tabelle zu erhalten; und
- Zurverfügungstellung der geordneten Zeichen zur Präsentation bzw. Weiterleitung an einen Benutzer.

Nach einer weiteren erfindungsgemäßen Ausführungsform umfaßt ein Verfahren zur Übersetzung eines Befehls in eine natürliche Sprache folgende Teilschritte:

- Einmaliges Abspeichern komprimierter Wörter der jeweiligen Sprache entweder als Wort bzw. als Wortteil bzw. als Gruppe von zusammenhängenden Wörtern in einem Speicher;
- Abspeichern einer Bezugszahl für jede Gruppe von Zeichen, die eine Zeichenfolge in einer natürlichen Sprache bilden, mit der jeweiligen Lagebezeichnung;
- Nachschlagen der Lagebezeichnungen als Antwort auf den Befehl, woraufhin auf den Speicher zugegriffen wird, um die komprimierten Wörter wiederzugewinnen; sowie
- Erzeugung einer Zeichenfolge als Zeichenfolge einer natürlichen Sprache.

Die Erfindung wird nachstehend anhand der Zeichnung näher erläutert. Es zeigen:

Fig. 1 ein Blockschaltbild einer repräsentativen Anlage, bei der die Erfindung eingesetzt werden kann;

Fig. 2 anhand der Tabelle 4 die im FAM-Speicher 24 abgespeicherten Zeichenfolgen, die zur Erzeugung von Sätzen in einer natürlichen Sprache wiedergewonnen werden;

Fig. 3 anhand der Tabelle 5 einen Teil des RAM-Speichers 24, in dem die Korrelierung der Zeichen-Nummer, die Speicheradresse des Beginns des Zeichens und die Länge des Zeichens abgespeichert sind; und

Fig. 4 eine Kombination der Tabellen 2 und 3.

In Fig. 1 ist eine typische Anlage dargestellt, in der die vorliegende Erfindung eingesetzt werden kann. Für die Anwendung in beispielsweise einer Telefonvermittlungsanlage wird ein Schalter 10, der z. B. ein Koppelpunktschalter oder ein Kombinations-Raum-/Zeit-Multiplexschalter usw. sein kann, von einer Zentraleinheit 12 in an sich bekannter Weise angesteuert. Die Zentraleinheit 12 weist für ihren Betrieb Hilfsspeicher und dergleichen (nicht gezeigt) auf. Der Schalter 10 steht mit einem Bus 14 in Verbindung, an den Peripheriegeräte 16 angeschlossen sind. Ein Peripheriegerät 16 kann in Verbindung stehen mit einem Computerterminal 18, einer Amtsleitung 20, einer Verbindungsleitung 22 usw. Die verschiedenen Peripheriegeräte 16 werden nachfolgend als Anschlüsse bezeichnet, da sie Stellen darstellen, an denen Daten und/oder Signale in das System einlaufen bzw. abgehen.

Um die Erfindung zu implementieren, wird ein FAM-Speicher 24 an die Zentraleinheit 12 sowie an die verschiedenen Anschlüsse 16 angeschlossen. In der in Fig. 1 dargestellten Konfiguration dient der Bus 14 als Verbindung zu den Anschlüssen 16, aber auch andere Konfigurationen können dazu dienen, die Erfindung zu implementieren. Ein Plattenspeicher 26 mit Steuerteil kann zur permanenten Speicherung von Daten dienen, die in den FAM- Speicher 24 einzulesen sind.

Der RAM-Speicher 24 ist in Untereinheiten aufgeteilt, die jeweils eine der nachfolgend beschriebenen Tabellen enthalten.

Die vorliegende Erfindung ermöglicht die Ausgabe von Antworten in natürlicher Sprache an einen Benutzer, der auf das System über einen Anschluß 16 zugreift. In einer nachfolgend beschriebenen Weise kann jedes Wort einer natürlichen Sprache (z. B. in Englisch, Französisch, Spanisch usw.) in einer höchst effizienten Weise erzeugt werden.

Das Verfahren zur Erzeugung der im FAM-Speicher 24 abzuspeichernden Tabellen ist wie folgt beschaffen. Die Tabellen stellen Verzeichnisse bzw. Listen von aufeinander bezogenen Daten dar, wobei die ersten Daten im Verzeichnis jeweils "Kenndaten" verkörpern, die ein jeweiliges Beispiel hiervon in einer bestimmten Sprache eindeutig identifizieren. Das nachfolgende Beispiel wird in einer bestimmten Sprache (Englisch) aufgeführt.

Es wird angenommen, daß über einen Anschluß 16, beispielsweise mittels eines Tastendrucks, bestimmte Befehle eingegeben werden, die als "tl 1-Befehle" bezeichnet werden sollen. Beispielsweise könnten diese Befehle (in Englisch) wie folgt lauten:

tl1_retrieve
tl1_retrieve_first
tl1_retrieve-next
tl1_retrieve-last
tl1_retrieve previous
tl1_add
tl1_change
tl1_delete

Die Zeichenfolgen dieses Verzeichnisses können dann wie folgt lauten:

retrieve
retrieve first
retrieve next
retrieve last
retrieve previous
add
change
delete

Für jede andere natürliche Sprache wäre eine äquivalente Tabelle aufzustellen und intern dem Schalter mit dem Namen "tl1-Befehle" zuzuordnen.

Im FAM-Speicher 24 ist die vom jeweiligen Benutzer bevorzugte natürliche Sprache aufgezeichnet, und es wird eine Hinweisadresse (Zeiger) im FAM-Speicher 24 auf dieses Wörterbuch mittels der oben erwähnten Kenndaten zur Verfügung gestellt. Für alle Satz- bzw. Zeichenfolgen-Vergleichs- und Wiederaufnahme-Operationen wird dieses Wörterbuch eingesetzt. Dies kann erfolgen, während ein weiterer Benutzer (an einem anderen Anschluß 16) in einer anderen Sprache kommuniziert.

Eine komprimierte Version der in den Zeichenfolgen verwendeten Wörter ist im FAM-Speicher 24 unter besonderen Adressen gespeichert, wie nachfolgend erläutert wird. Jedes Wort wird als Zeichen angesprochen. Um die Tabellen zu erzeugen, wird die Prüfung der Übereinstimmung zwischen dem jeweiligen Befehl und den Zeichenfolgen in der jeweiligen natürlichen Sprache (d. h. Übersetzungstabelle), wie nachfolgend erläutert, durchgeführt (wobei diese Operation, falls gewünscht, außerhalb der Vermittlungsanlage durchgeführt werden kann).

Jeder Satz von Übersetzungstabellen in der jeweiligen natürlichen Sprache passiert ein "Filter", um die einzelnen "Zeichen" abzutrennen. Ein "Zeichen" ist jede durch einen oder mehrere Zwischenräume getrennte Zeichengruppe. Für das obige Beispiel würde das Verzeichnis der Zeichen umfassen: "retrieve", "first", "next", "last", "previous", "add", "change" und "delete".

Diese Zeichen werden anschließend geordnet und mit einem Identifizierer, Zeichen-Identifizierer genannt, versehen. Im obigen Beispiel lauten die Zeichen-Identifizierer: add=0, change=1, delete=2, first=3, last=4, next=5, previous=6 und retrieve=7.

Der ursprüngliche Tabellensatz passiert sodann ein zweites Filter, das die geordnete Zeichenliste dazu benutzt, Zeichenbezugnahmen (Zeichenbezugsadressen) zu erzeugen, um den jeweiligen Satz in jeder Tabelle zu bezeichnen. Im obigen Beispiel würde die Zeichenliste wie folgt lauten:

retrieve
7
retrieve first	7,3
retrieve next	7,5
retrieve last	7,4
retrieve previous	7,6
add	0
change	1
delete	2

Speziell diese Liste stellt eine sehr komprimierte Darstellungsweise für die Zeichenfolgen dar.

Die Verzeichnisse der Bezugnahmen werden sodann in eine weitere Datei indexiert, wobei ein Indexsatz pro Tabelle vorgesehen ist. Der Index für eine jeweilige Tabelle besteht aus einer Abzählung der Anzahl der Zeichenfolgen in dieser Tabelle, gefolgt von der Position der jeweiligen Zeichenliste innerhalb des kompletten Satzes aller Zeichenlisten und der Abzählung der Zeichen für alle Zeichenlisten.

Unter der Annahme, daß im obigen Beispiel der Index bei der Position (Adresse) 100 in der Gesamtbezugnahmendatei beginnt, und daß jeder Wert ein Leerzeichen beansprucht, würde der Index für diese beispielhafte Tabelle wie folgt lauten:

Zeichenfolgenummer:
8
Position der ersten Zeichenliste für eine Zeichenfolge (d. h. 7):	117
Zeichenanzahl für diese Zeichenfolge:	1
Position der zweiten Zeichenliste einer Zeichenfolge (d. h. 7,3):	118
Zeichenanzahl für diese Zeichenfolge:	2

Die endgültige Bezugstabelle für diese Sprachentabelle (beginnend mit Position 100) lautet wie folgt:

Tabelle 3

8, 117, 1, 118, 2, 120, 2, 122,
2, 124, 2, 126, 1, 127, 1, 128, 1

Die gesamte Tabelle beansprucht demgemäß nur 17 Positionen. Wie aus Fig. 4, einer Kombination der Fig. 2 und 3, ersichtlich, ist die gesamte Tabelle im FAM-Speicher 24 abgespeichert.

Der letzte Schritt bei der Erzeugung des Wörterbuchs besteht darin, die Zeichenlisten zu komprimieren und einen Index in diese komprimierte Liste einzufügen. Ein Komprimierungsalgorithmus sollte einen Echtzeitvergleich der Zeichen in sehr kurzer Zeit (d. h. in wenigen µsec) ermöglichen, so daß eine Vielzahl von Zeichenbezugslisten auf eine bestimmte Zeichenfolge hin abgefragt werden kann.

Anschließend wird die Zeichenliste nach der jeweiligen Zeichenlänge umsortiert, wobei bei gleicher Zeichenlänge eine alphabetische Reihenfolge gewählt wird. Die Zeichen werden sodann nacheinander in einen Pufferspeicher (d. h. in dem FAM- Speicher 24), beginnend mit dem Satz der längsten Zeichen und endend mit dem Satz der kürzesten Zeichen, eingelesen.

Bevor ein Zeichen in den Pufferspeicher überführt wird, wird dieser abgefragt, ob dieses spezielle Zeichen schon abgespeichert ist. Dabei wird es sogar als Teil eines früher eingelesenen Zeichens oder als Überdeckung zweier Zeichen, die zufälligerweise nebeneinander eingespeichert worden sind, entdeckt.

Falls das Zeichen aufgefunden wird, gibt dessen Indexeintrag die Position (Adresse), unter der das Zeichen aufgefunden worden ist, sowie dessen Datenlänge an. Falls es nicht aufgefunden worden ist, wird es in den Speicher 24 eingelesen, und seine Position sowie seine Länge aufgezeichnet.

Dieses Verfahren gestattet die einmalige Speicherung eines jeweiligen Zeichens und bedeutet in der Praxis, daß viele Zeichen überhaupt nicht abgespeichert werden, sondern noch einmal den Platz nutzen, den ein größeres Zeichen einnimmt, das zufälligerweise ein übergeordnetes Zeichen für das jeweilige Zeichen darstellt.

Obwohl das obige Fallbeispiel keine Beispiele für kleinere Zeichen, die als Teile von größeren Zeichen aufgefaßt werden können, aufweist, demonstriert es die Möglichkeit, sich wiederholende Zeichen zu eliminieren. Das Zeichen "retrieve" wird im obigen Beispiel fünfmal benutzt. Da es auch aus acht Buchstaben besteht, würde es gewöhnlich 40 Buchstaben und fünf Leerzeichen allein für das Wort benötigen, zuzüglich zwei für die Zeichenposition und -länge, was eine Summe von 10 ergibt. Der Einsatz dieses Zeichens ein weiteres hundertmal würde an dieser Tatsache nichts ändern.

In Tabelle 4 (Fig. 2) ist ein Teil des im FAM-Speicher 24 gespeicherten komprimierten Listen aufgeführt. Es besteht jeweils aus den Wörtern der Zeichenfolgen, die jeweils einmal als solche eingelesen oder schon als Teilwörter in diesem enthalten sind. Oberhalb des gepackten Verzeichnisses ist eine repräsentative Adresse für jeden Buchstaben des jeweiligen Worts gezeigt.

Wenn im Betrieb ein Befehl beispielsweise vom Computerterminal 18 ins System über einen angeschlossenen Eingabe/Ausgabe- Anschluß 16 eingegeben wird, werden die Tabelle 2 und 3 abgefragt (Fig. 4), da die vom jeweiligen Benutzer verwendete Sprache als für diese Operation an diesem Anschluß 16 vorgesehene Sprache bereits im FAM-Speicher 24 abgespeichert ist. Dies führt zur Rückgewinnung der Information, wieviele Zeichenfolgen in der komprimierten Liste der Tabelle 4 enthalten sind. Aus der Lage in Tabelle 2 wiederum wird ermittelt, wieviele Wörter in der jeweiligen Zeichenfolge enthalten sind, sowie die Zeichennummer.

Dieser Schritt führt direkt zum Auslesen der Fig. 3, die anhand der gespeicherten Tabelle 5 die Korrelation zwischen der Zeichennummer, der Speicherzelle und der Zeichenlänge illustriert.

Aus Tabelle 2 ist daher ableitbar, wieviele Zeichen in jeder Zeichenfolge vorhanden sind und welche Zeichen verwendet werden sollen. Das Abfragen der Tabelle 5 wiederum liefert die numerische Speicherzelle des jeweiligen Zeichens in Tabelle 4 sowie dessen Datenlänge.

Der von der Zentraleinheit 12 gesteuerte FAM-Speicher 24 kann daher die Zeichen nacheinander sehr schnell wiedergewinnen und somit dem Benutzer in seiner jeweiligen natürlichen Sprache antworten.

Ähnliche Tabellengruppen werden für jede natürliche Sprache eingesetzt. Die Zentraleinheit 12 kann im Time-sharing-Betrieb mit jedem Benutzer kommunizieren und auf jede dieser Tabellengruppen zurückgreifen.

Falls die Zeichenfolgen in der jeweiligen natürlichen Sprache Satzzeichen enthalten, können die Interpunktionen von diesen Zeichen abgetrennt und eine einfache Bittabelle mit der jeweiligen Bezugnahme auf das Zeichen abgespeichert werden, worin festgehalten ist, wie das Zeichen beim Auslesen zu behandeln ist. Beispielsweise könnte eine geöffnete bzw. geschlossene Klammer oder ein Punkt mit einem separaten Bit angezeigt werden. Gleichermaßen könnte das Zeichen ursprünglich mit großgeschriebenem Anfangsbuchstaben bzw. ganz in Großbuchstaben dargestellt worden sein und dergestalt nach dem Aus lesen wieder hergestellt werden.

Anders ausgedrückt, die Zeichen "immer", "Immer", "IMMER", "(immer)" und "immer." würden alle durch das komprimierte Zeichen "immer" repräsentiert.

Während dieses Verfahren zusätzliche Speicherkapazität beansprucht, d. h. daß für jedes Zeichen einer Zeichenliste ein eigenes Leerzeichen vorzusehen ist, bedeutet dies dennoch ein sehr effizientes Verfahren, den Speicherbedarf eines Zeichens zu teilen. Dies beinhaltet nämlich, daß all die individuellen Wörter in ein und derselben Weise gespeichert sind, und zwar ohne Rücksicht auf ihr Vorkommen in verschiedenen Tabellen oder Zeichenfolgen.

Es ist zu beachten, daß die vorliegende Erfindung in verschiedenen Gerätetypen eingesetzt werden kann, ohne auf die angeführte Fernsprechvermittlungsanlage beschränkt zu sein. Beispielsweise kann es in einem Personal-Computer oder in einem Telefon verwendet werden. Die Antwort muß nicht notwendigerweise auf einem Monitor angezeigt werden, sondern kann akustisch oder auf irgendeine andere Weise ausgegeben werden.

Z. B. kann ein Telefon die Erfindung selbst enthalten, um einen "Namensaufruf" oder eine Funktion "Suche im Telefonbuch" zu ermöglichen. Eine komprimierte Liste von Fernsprechteilnehmern könnte im Telefon abgespeichert werden, was den Speicherbedarf vermindern könnte, der andernfalls für einen Massenartikel, wie z. B. ein Telefon, hohe Kosten verursachen würde.

Claims

1. Verfahren zur Bereitstellung eines computergenerierten Wörterbuchs für eine natürliche Sprache einschließlich der Schritte zur Erzeugung des Wörterbuchs, dadurch gekennzeichnet, daß es folgende Teilschritte umfaßt:

- Erstellung einer Liste von Zeichenfolgen des Wörterbuchs der natürlichen Sprache, die aus einzelnen Wörtern bzw. Zeichen bestehen;
- Zuordnung eines individuellen Zahlenwerts zu jedem unterschiedlichen Zeichen, wobei der jeweils gleiche Zahlenwert dem jeweils identischen Zeichen in verschiedenen Zeichenfolgen zugeordnet wird;
- Erzeugung einer aus einem Index und einem Verzeichnis bestehenden Tabelle, wobei der Index aus einer ersten, die Anzahl der Zeichenfolgen im Wörterbuch repräsentierenden Größe und weiteren, die Positionen im Verzeichnis repräsentierenden Größen besteht, wobei jeder dieser Größen sofort eine Größe folgt, die die Anzahl der Zeichen pro Zeichenfolge angibt, und wobei das Verzeichnis die zugeordneten Zahlenwerte für jedes Zeichen im Verzeichnis Wörterbuch-Zeichenfolgen umfaßt;
- Packen jedes Zeichens des Wörterbuchs in einen Speicher (24);
- Erstellung einer Tabelle, die die Korrelation der jeweiligen Zeichen-Nummer, der Speicherzelle, an der es beginnt, sowie der Länge des jeweiligen Zeichens enthält; wobei nach Spezifizierung eines entsprechenden Befehls die Anzahl der Wörter jeder Zeichenfolge, die Zeichen-Nummern sowie die Speicherzellen der Zeichen einer aufgerufenen Zeichenfolge in der jeweiligen gespeicherten Zeichenfolge der natürlichen Sprache wiedergewonnen und angezeigt werden können.

2. Verfahren zur Wiedergewinnung von Sätzen einer natürlichen Sprache, dadurch gekennzeichnet, daß es folgende Teilschritte umfaßt:

- Empfang eines Befehls;
- Korrelierung von Zeichen mit Zeichen-Nummern, die durch den Befehl repräsentiert bzw. durch diesen hervorgerufen werden;
- Ablesen einer ersten Tabelle, die einen Index für die Position der Zeichen-Nummern und für die Wort (Zeichen)- Nummern in einem Satz einer natürlichen Sprache in der Tabelle der jeweiligen natürlichen Sprache enthält;
- Ablesen einer zweiten Tabelle und Korrelierung der aus der ersten Tabelle ausgelesenen Zeichen-Nummern mit einer komprimierten Zeichen-Liste und mit der Länge des jeweiligen Zeichens;
- Ablesen der komprimierten Zeichen-Liste, um die Zeichen in der Reihenfolge gemäß der ersten Tabelle zu erhalten; und
- Zurverfügungstellung der geordneten Zeichen zur Präsentation bzw. Weiterleitung an einen Benutzer.

3. Verfahren zur Übersetzung eines Befehls in eine natürliche Sprache, dadurch gekennzeichnet, daß es folgende Teilschritte umfaßt:

- Einmaliges Abspeichern komprimierter Wörter der jeweiligen Sprache entweder als Wort bzw. als Wortteil bzw. als Gruppe von zusammenhängenden Wörtern in einem Speicher (24);
- Abspeichern eines numerischen Kennzeichens für jede Gruppe von Zeichen, die eine Zeichenfolge in einer natürlichen Sprache bilden, mit der jeweiligen Positionsbezeichnung;
- Nachschlagen der Positionsbezeichnungen als Antwort auf den Befehl; sowie
- Bereitstellung einer Zeichenfolge als Zeichenfolge einer natürlichen Sprache.