DE4225200A1 - Elektronisches woerterbuch - Google Patents

Elektronisches woerterbuch

Info

Publication number
DE4225200A1
DE4225200A1 DE4225200A DE4225200A DE4225200A1 DE 4225200 A1 DE4225200 A1 DE 4225200A1 DE 4225200 A DE4225200 A DE 4225200A DE 4225200 A DE4225200 A DE 4225200A DE 4225200 A1 DE4225200 A1 DE 4225200A1
Authority
DE
Germany
Prior art keywords
character
natural language
characters
dictionary
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE4225200A
Other languages
English (en)
Inventor
Kim D Letkeman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsemi Semiconductor ULC
Original Assignee
Mitel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitel Corp filed Critical Mitel Corp
Publication of DE4225200A1 publication Critical patent/DE4225200A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Description

Die Erfindung betrifft ein elektronisches Wörterbuch, das dazu dient, einem Benutzer in einer natürlichen Sprache Antwort zu geben, und das vorteilhafterweise bei einer Mensch-Maschine- Schnittstelle angewendet wird.
Die Benutzer von Personal-Computern (PCs), Telefonen, Telefonvermittlungsanlagen etc., kommunizieren mit diesen Geräten mittels einer Tastatur oder anderen bekannten Einrichtungen. Die derart angesprochenen Geräte reagieren hierauf beispielsweise durch eine Anzeige auf einer Anzeigevorrichtung, z. B. einem Monitor, oder mittels einer akustischen Antwort. Wenn ein Gerät in einem Land eingesetzt werden soll, in dem man eine andere Sprache als in dem Herstellerland spricht, wird eine Übersetzung der auf eine Eingabe (Befehl) auszugebenden Antwort benötigt.
Es ist erwünscht, dem Benutzer eine Antwort in natürlicher Sprache zu geben. Allerdings birgt eine Mensch-Maschine- Schnittstelle in mehreren natürlichen Sprachen eine Reihe von Problemen. Beispielsweise beanspruchen Wörter bzw. Sätze in natürlichen Sprachen eine beträchtliche Speicherkapazität. Bei Befehlen und Antworten ist bei den verschiedenen verwendeten Wörtern und Sätzen eine beträchtliche Redundanz festzustellen. Ein Beispiel für solch eine Struktur bzw. Verfahren mit beträchtlicher Redundanz ist in der US-PS 43 65 315 zu finden.
Beim Verarbeiten von Befehlen und bei der Ausgabe von Ergebnissen an einen Benutzer müssen die verwendeten Sätze bzw. Wörter mit einem Index versehen und derart organisiert werden, daß Vergleichs- und Wiederauffinde-Operationen sehr rasch durchgeführt werden können.
Ein für einen Benutzer vorgesehenes Gerät kann mehr als einen Eingabe/Ausgabe(I/O)-Anschluß aufweisen und es gestatten, daß voneinander völlig unabhängige Befehle gleichzeitig abgearbeitet werden. Dies bedingt, daß die Suche im Wörterbuch gleichzeitig Zugang zu allen Wörtern bzw. Sätzen vorsieht. Da die Mensch-Maschine-Schnittstelle völlig in Form von Sätzen aus dem Wörterbuch (und nicht fest codiert) ausgeführt werden muß, müssen die Vergleichs- und Wiederauffinde-Operationen hunderte bzw. tausende Mal für jeden Befehl bzw. für jede Antwort durchgeführt werden. Dies zwingt dazu, all diese Wörterbücher in einem FAM-Speicher zu speichern, um einen sehr raschen Zugriff zu gewährleisten. Bei einer sehr umfangreichen Programmbibliothek zur Übersetzung vieler Sprachen kann dies extrem hohe Kosten verursachen, insbesondere bei Konsumgeräten, wie z. B. Telefonen. Bei größeren Geräten, wie z. B. Telefonvermittlungsanlagen, kann der nur für die elektronischen Wörterbücher benötigte exzessive RAM-Speicherbedarf bewirken, daß das Gerät in seinem jeweiligen Markt nicht wettbewerbsfähig ist.
Daher werden solche Geräte, wie beispielsweise Telefonvermittlungsanlagen, bisher nur in einer Sprache betrieben. Diejenigen, die auch in einer zweiten Sprache betrieben werden, entstellen die natürliche Satzbildung in der zu übersetzenden Sprache dergestalt, daß diese Sätze parallel zu den ursprünglichen Sätzen abgespeichert werden können. Außerdem können diese Geräte selten in mehreren Sprachen gleichzeitig betrieben werden.
In der Regel sprechen solche Geräte nur langsam auf den Benutzer an, da sie jeweils eine eigene Serie von Sätzen für jede "Tabelle", die der Benutzer einzuprogrammieren wünscht, einlesen müssen. Dies ist unflexibel und für den Benutzer frustrierend.
Der Erfindung liegt die Aufgabe zugrunde, bei einem elektronischen Wörterbuch der eingangs genannten Art die oben aufgezeigten Nachteile der Vorrichtung gemäß dem Stand der Technik zu vermeiden.
Diese Aufgabe wird durch die Merkmale des Patentanspruchs 1 gelöst. Weitere Ausgestaltungen der Erfindung sind Gegenstand der Ansprüche 2 und 3.
Erfindungsgemäß wird ein kompletter Satz von Wörtern, Sätzen und Zeichenfolgen in einem Speicher mit Adressen versehen, was der erfindungsgemäßen Vorrichtung ermöglicht, mehrere verschiedene Sprachen gleichzeitig zur Verfügung zu stellen. Die Komprimierung, Indexierung und Organisation basiert auf einzelnen Sätzen, so daß der Satzbau und die Grammatik der jeweiligen Sprache nicht beeinträchtigt wird. Komprimierte Sätze können sehr schnell wieder hergestellt und verglichen werden, was den Einsatz der Wörterbücher für jede denkbare Anwendung in Mensch-Maschine-Schnittstellen gestattet. Diese kann ihrerseits wirksam von der tatsächlichen Darstellung der Zeichenfolgen entkoppelt werden, so daß die Hinzufügung eines Wörterbuchs für eine zusätzliche Sprache nicht zwangsläufig bedingt, daß die Softwareumgebung des Hauptsystems geändert oder umgestaltet werden muß. Ein Wörterbuch für eine neue Sprache kann zu einem laufenden Gerät zugefügt und benutzt werden, ohne die Software des Geräts wieder anlaufen lassen zu müssen.
Einer erfindungsgemäßen Ausführungsform zufolge umfaßt das Verfahren zur Erzeugung eines computergenerierten Wörterbuchs für eine natürliche Sprache, einschließlich der Schritte zur Erzeugung des Wörterbuchs, folgende Teilschritte:
  • - Aufstellung einer aus einzelnen Wörtern (Zeichen) bestehenden Liste von Zeichenfolgen des Wörterbuchs der natürlichen Sprache;
  • - Zuordnung eines individuellen Zahlenwerts zu dem jeweiligen Zeichen, wobei der jeweils gleiche Zahlenwert dem jeweils identischen Zeichen in verschiedenen Zeichenfolgen zugeordnet wird;
  • - Erzeugung einer aus einem Index und einem Verzeichnis bestehenden Tabelle, wobei der Index aus einer ersten, die Anzahl der Zeichenfolgen repräsentierenden Größe und weiteren, die Stelle im Verzeichnis repräsentierenden Größen besteht, wobei jeder dieser Größen sofort eine Größe folgt, die die Anzahl der Zeichen pro Zeichenfolge angibt, und wobei das Verzeichnis die zugeordneten Zahlenwerte für jedes Zeichen im Verzeichnis der Zeichenfolge des Wörterbuchs umfaßt;
  • - Einlesen jedes Zeichens des Wörterbuchs in einen Speicher;
  • - Aufstellung einer Tabelle, die die Korrelation der jeweiligen Zeichen-Nummer, die Speicheradressierung des Startpunkts sowie die Länge des jeweiligen Zeichens enthält;
wobei nach Eingabe eines entsprechenden Befehls die Anzahl der Wörter jeder Zeichenfolge, die Zeichen-Nummern sowie die Speicheradressierung der Zeichen der aufgerufenen Zeichenfolgen in der jeweiligen natürlichen Sprache wiedergewonnen und angezeigt werden können.
Einer zweiten erfindungsgemäßen Ausführungsform zufolge besteht das Verfahren zur Wiedergewinnung von Sätzen einer natürlichen Sprache aus folgenden Teilschritten:
  • - Empfang eines Befehls;
  • - Korrelierung von Zeichen im Befehl mit Zeichen-Nummern, die durch den Befehl repräsentiert bzw. durch diesen hervorgerufen werden;
  • - Ablesen einer ersten Tabelle, die einen Index für die Lage bzw. Positionen der Zeichen-Nummern und für die Wort (Zeichen)- Nummern in einem Satz einer natürlichen Sprache in der Tabelle der jeweiligen natürlichen Sprache enthält;
  • - Ablesen einer zweiten Tabelle und Korrelierung der aus der ersten Tabelle ausgelesenen Zeichen-Nummern mit einer komprimierten Zeichen-Liste und mit der Länge des jeweiligen Zeichens;
  • - Ablesen der komprimierten Zeichen-Liste, um die Zeichen in der Reihenfolge gemäß der ersten Tabelle zu erhalten; und
  • - Zurverfügungstellung der geordneten Zeichen zur Präsentation bzw. Weiterleitung an einen Benutzer.
Nach einer weiteren erfindungsgemäßen Ausführungsform umfaßt ein Verfahren zur Übersetzung eines Befehls in eine natürliche Sprache folgende Teilschritte:
  • - Einmaliges Abspeichern komprimierter Wörter der jeweiligen Sprache entweder als Wort bzw. als Wortteil bzw. als Gruppe von zusammenhängenden Wörtern in einem Speicher;
  • - Abspeichern einer Bezugszahl für jede Gruppe von Zeichen, die eine Zeichenfolge in einer natürlichen Sprache bilden, mit der jeweiligen Lagebezeichnung;
  • - Nachschlagen der Lagebezeichnungen als Antwort auf den Befehl, woraufhin auf den Speicher zugegriffen wird, um die komprimierten Wörter wiederzugewinnen; sowie
  • - Erzeugung einer Zeichenfolge als Zeichenfolge einer natürlichen Sprache.
Die Erfindung wird nachstehend anhand der Zeichnung näher erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer repräsentativen Anlage, bei der die Erfindung eingesetzt werden kann;
Fig. 2 anhand der Tabelle 4 die im FAM-Speicher 24 abgespeicherten Zeichenfolgen, die zur Erzeugung von Sätzen in einer natürlichen Sprache wiedergewonnen werden;
Fig. 3 anhand der Tabelle 5 einen Teil des RAM-Speichers 24, in dem die Korrelierung der Zeichen-Nummer, die Speicheradresse des Beginns des Zeichens und die Länge des Zeichens abgespeichert sind; und
Fig. 4 eine Kombination der Tabellen 2 und 3.
In Fig. 1 ist eine typische Anlage dargestellt, in der die vorliegende Erfindung eingesetzt werden kann. Für die Anwendung in beispielsweise einer Telefonvermittlungsanlage wird ein Schalter 10, der z. B. ein Koppelpunktschalter oder ein Kombinations-Raum-/Zeit-Multiplexschalter usw. sein kann, von einer Zentraleinheit 12 in an sich bekannter Weise angesteuert. Die Zentraleinheit 12 weist für ihren Betrieb Hilfsspeicher und dergleichen (nicht gezeigt) auf. Der Schalter 10 steht mit einem Bus 14 in Verbindung, an den Peripheriegeräte 16 angeschlossen sind. Ein Peripheriegerät 16 kann in Verbindung stehen mit einem Computerterminal 18, einer Amtsleitung 20, einer Verbindungsleitung 22 usw. Die verschiedenen Peripheriegeräte 16 werden nachfolgend als Anschlüsse bezeichnet, da sie Stellen darstellen, an denen Daten und/oder Signale in das System einlaufen bzw. abgehen.
Um die Erfindung zu implementieren, wird ein FAM-Speicher 24 an die Zentraleinheit 12 sowie an die verschiedenen Anschlüsse 16 angeschlossen. In der in Fig. 1 dargestellten Konfiguration dient der Bus 14 als Verbindung zu den Anschlüssen 16, aber auch andere Konfigurationen können dazu dienen, die Erfindung zu implementieren. Ein Plattenspeicher 26 mit Steuerteil kann zur permanenten Speicherung von Daten dienen, die in den FAM- Speicher 24 einzulesen sind.
Der RAM-Speicher 24 ist in Untereinheiten aufgeteilt, die jeweils eine der nachfolgend beschriebenen Tabellen enthalten.
Die vorliegende Erfindung ermöglicht die Ausgabe von Antworten in natürlicher Sprache an einen Benutzer, der auf das System über einen Anschluß 16 zugreift. In einer nachfolgend beschriebenen Weise kann jedes Wort einer natürlichen Sprache (z. B. in Englisch, Französisch, Spanisch usw.) in einer höchst effizienten Weise erzeugt werden.
Das Verfahren zur Erzeugung der im FAM-Speicher 24 abzuspeichernden Tabellen ist wie folgt beschaffen. Die Tabellen stellen Verzeichnisse bzw. Listen von aufeinander bezogenen Daten dar, wobei die ersten Daten im Verzeichnis jeweils "Kenndaten" verkörpern, die ein jeweiliges Beispiel hiervon in einer bestimmten Sprache eindeutig identifizieren. Das nachfolgende Beispiel wird in einer bestimmten Sprache (Englisch) aufgeführt.
Es wird angenommen, daß über einen Anschluß 16, beispielsweise mittels eines Tastendrucks, bestimmte Befehle eingegeben werden, die als "tl 1-Befehle" bezeichnet werden sollen. Beispielsweise könnten diese Befehle (in Englisch) wie folgt lauten:
tl1_retrieve
tl1_retrieve_first
tl1_retrieve-next
tl1_retrieve-last
tl1_retrieve previous
tl1_add
tl1_change
tl1_delete
Die Zeichenfolgen dieses Verzeichnisses können dann wie folgt lauten:
retrieve
retrieve first
retrieve next
retrieve last
retrieve previous
add
change
delete
Für jede andere natürliche Sprache wäre eine äquivalente Tabelle aufzustellen und intern dem Schalter mit dem Namen "tl1-Befehle" zuzuordnen.
Im FAM-Speicher 24 ist die vom jeweiligen Benutzer bevorzugte natürliche Sprache aufgezeichnet, und es wird eine Hinweisadresse (Zeiger) im FAM-Speicher 24 auf dieses Wörterbuch mittels der oben erwähnten Kenndaten zur Verfügung gestellt. Für alle Satz- bzw. Zeichenfolgen-Vergleichs- und Wiederaufnahme-Operationen wird dieses Wörterbuch eingesetzt. Dies kann erfolgen, während ein weiterer Benutzer (an einem anderen Anschluß 16) in einer anderen Sprache kommuniziert.
Eine komprimierte Version der in den Zeichenfolgen verwendeten Wörter ist im FAM-Speicher 24 unter besonderen Adressen gespeichert, wie nachfolgend erläutert wird. Jedes Wort wird als Zeichen angesprochen. Um die Tabellen zu erzeugen, wird die Prüfung der Übereinstimmung zwischen dem jeweiligen Befehl und den Zeichenfolgen in der jeweiligen natürlichen Sprache (d. h. Übersetzungstabelle), wie nachfolgend erläutert, durchgeführt (wobei diese Operation, falls gewünscht, außerhalb der Vermittlungsanlage durchgeführt werden kann).
Jeder Satz von Übersetzungstabellen in der jeweiligen natürlichen Sprache passiert ein "Filter", um die einzelnen "Zeichen" abzutrennen. Ein "Zeichen" ist jede durch einen oder mehrere Zwischenräume getrennte Zeichengruppe. Für das obige Beispiel würde das Verzeichnis der Zeichen umfassen: "retrieve", "first", "next", "last", "previous", "add", "change" und "delete".
Diese Zeichen werden anschließend geordnet und mit einem Identifizierer, Zeichen-Identifizierer genannt, versehen. Im obigen Beispiel lauten die Zeichen-Identifizierer: add=0, change=1, delete=2, first=3, last=4, next=5, previous=6 und retrieve=7.
Der ursprüngliche Tabellensatz passiert sodann ein zweites Filter, das die geordnete Zeichenliste dazu benutzt, Zeichenbezugnahmen (Zeichenbezugsadressen) zu erzeugen, um den jeweiligen Satz in jeder Tabelle zu bezeichnen. Im obigen Beispiel würde die Zeichenliste wie folgt lauten:
retrieve
7
retrieve first 7,3
retrieve next 7,5
retrieve last 7,4
retrieve previous 7,6
add 0
change 1
delete 2
Speziell diese Liste stellt eine sehr komprimierte Darstellungsweise für die Zeichenfolgen dar.
Die Verzeichnisse der Bezugnahmen werden sodann in eine weitere Datei indexiert, wobei ein Indexsatz pro Tabelle vorgesehen ist. Der Index für eine jeweilige Tabelle besteht aus einer Abzählung der Anzahl der Zeichenfolgen in dieser Tabelle, gefolgt von der Position der jeweiligen Zeichenliste innerhalb des kompletten Satzes aller Zeichenlisten und der Abzählung der Zeichen für alle Zeichenlisten.
Unter der Annahme, daß im obigen Beispiel der Index bei der Position (Adresse) 100 in der Gesamtbezugnahmendatei beginnt, und daß jeder Wert ein Leerzeichen beansprucht, würde der Index für diese beispielhafte Tabelle wie folgt lauten:
Zeichenfolgenummer:
8
Position der ersten Zeichenliste für eine Zeichenfolge (d. h. 7): 117
Zeichenanzahl für diese Zeichenfolge: 1
Position der zweiten Zeichenliste einer Zeichenfolge (d. h. 7,3): 118
Zeichenanzahl für diese Zeichenfolge: 2
Die endgültige Bezugstabelle für diese Sprachentabelle (beginnend mit Position 100) lautet wie folgt:
Tabelle 3
8, 117, 1, 118, 2, 120, 2, 122,
2, 124, 2, 126, 1, 127, 1, 128, 1
Die gesamte Tabelle beansprucht demgemäß nur 17 Positionen. Wie aus Fig. 4, einer Kombination der Fig. 2 und 3, ersichtlich, ist die gesamte Tabelle im FAM-Speicher 24 abgespeichert.
Der letzte Schritt bei der Erzeugung des Wörterbuchs besteht darin, die Zeichenlisten zu komprimieren und einen Index in diese komprimierte Liste einzufügen. Ein Komprimierungsalgorithmus sollte einen Echtzeitvergleich der Zeichen in sehr kurzer Zeit (d. h. in wenigen µsec) ermöglichen, so daß eine Vielzahl von Zeichenbezugslisten auf eine bestimmte Zeichenfolge hin abgefragt werden kann.
Anschließend wird die Zeichenliste nach der jeweiligen Zeichenlänge umsortiert, wobei bei gleicher Zeichenlänge eine alphabetische Reihenfolge gewählt wird. Die Zeichen werden sodann nacheinander in einen Pufferspeicher (d. h. in dem FAM- Speicher 24), beginnend mit dem Satz der längsten Zeichen und endend mit dem Satz der kürzesten Zeichen, eingelesen.
Bevor ein Zeichen in den Pufferspeicher überführt wird, wird dieser abgefragt, ob dieses spezielle Zeichen schon abgespeichert ist. Dabei wird es sogar als Teil eines früher eingelesenen Zeichens oder als Überdeckung zweier Zeichen, die zufälligerweise nebeneinander eingespeichert worden sind, entdeckt.
Falls das Zeichen aufgefunden wird, gibt dessen Indexeintrag die Position (Adresse), unter der das Zeichen aufgefunden worden ist, sowie dessen Datenlänge an. Falls es nicht aufgefunden worden ist, wird es in den Speicher 24 eingelesen, und seine Position sowie seine Länge aufgezeichnet.
Dieses Verfahren gestattet die einmalige Speicherung eines jeweiligen Zeichens und bedeutet in der Praxis, daß viele Zeichen überhaupt nicht abgespeichert werden, sondern noch einmal den Platz nutzen, den ein größeres Zeichen einnimmt, das zufälligerweise ein übergeordnetes Zeichen für das jeweilige Zeichen darstellt.
Obwohl das obige Fallbeispiel keine Beispiele für kleinere Zeichen, die als Teile von größeren Zeichen aufgefaßt werden können, aufweist, demonstriert es die Möglichkeit, sich wiederholende Zeichen zu eliminieren. Das Zeichen "retrieve" wird im obigen Beispiel fünfmal benutzt. Da es auch aus acht Buchstaben besteht, würde es gewöhnlich 40 Buchstaben und fünf Leerzeichen allein für das Wort benötigen, zuzüglich zwei für die Zeichenposition und -länge, was eine Summe von 10 ergibt. Der Einsatz dieses Zeichens ein weiteres hundertmal würde an dieser Tatsache nichts ändern.
In Tabelle 4 (Fig. 2) ist ein Teil des im FAM-Speicher 24 gespeicherten komprimierten Listen aufgeführt. Es besteht jeweils aus den Wörtern der Zeichenfolgen, die jeweils einmal als solche eingelesen oder schon als Teilwörter in diesem enthalten sind. Oberhalb des gepackten Verzeichnisses ist eine repräsentative Adresse für jeden Buchstaben des jeweiligen Worts gezeigt.
Wenn im Betrieb ein Befehl beispielsweise vom Computerterminal 18 ins System über einen angeschlossenen Eingabe/Ausgabe- Anschluß 16 eingegeben wird, werden die Tabelle 2 und 3 abgefragt (Fig. 4), da die vom jeweiligen Benutzer verwendete Sprache als für diese Operation an diesem Anschluß 16 vorgesehene Sprache bereits im FAM-Speicher 24 abgespeichert ist. Dies führt zur Rückgewinnung der Information, wieviele Zeichenfolgen in der komprimierten Liste der Tabelle 4 enthalten sind. Aus der Lage in Tabelle 2 wiederum wird ermittelt, wieviele Wörter in der jeweiligen Zeichenfolge enthalten sind, sowie die Zeichennummer.
Dieser Schritt führt direkt zum Auslesen der Fig. 3, die anhand der gespeicherten Tabelle 5 die Korrelation zwischen der Zeichennummer, der Speicherzelle und der Zeichenlänge illustriert.
Aus Tabelle 2 ist daher ableitbar, wieviele Zeichen in jeder Zeichenfolge vorhanden sind und welche Zeichen verwendet werden sollen. Das Abfragen der Tabelle 5 wiederum liefert die numerische Speicherzelle des jeweiligen Zeichens in Tabelle 4 sowie dessen Datenlänge.
Der von der Zentraleinheit 12 gesteuerte FAM-Speicher 24 kann daher die Zeichen nacheinander sehr schnell wiedergewinnen und somit dem Benutzer in seiner jeweiligen natürlichen Sprache antworten.
Ähnliche Tabellengruppen werden für jede natürliche Sprache eingesetzt. Die Zentraleinheit 12 kann im Time-sharing-Betrieb mit jedem Benutzer kommunizieren und auf jede dieser Tabellengruppen zurückgreifen.
Falls die Zeichenfolgen in der jeweiligen natürlichen Sprache Satzzeichen enthalten, können die Interpunktionen von diesen Zeichen abgetrennt und eine einfache Bittabelle mit der jeweiligen Bezugnahme auf das Zeichen abgespeichert werden, worin festgehalten ist, wie das Zeichen beim Auslesen zu behandeln ist. Beispielsweise könnte eine geöffnete bzw. geschlossene Klammer oder ein Punkt mit einem separaten Bit angezeigt werden. Gleichermaßen könnte das Zeichen ursprünglich mit großgeschriebenem Anfangsbuchstaben bzw. ganz in Großbuchstaben dargestellt worden sein und dergestalt nach dem Aus lesen wieder hergestellt werden.
Anders ausgedrückt, die Zeichen "immer", "Immer", "IMMER", "(immer)" und "immer." würden alle durch das komprimierte Zeichen "immer" repräsentiert.
Während dieses Verfahren zusätzliche Speicherkapazität beansprucht, d. h. daß für jedes Zeichen einer Zeichenliste ein eigenes Leerzeichen vorzusehen ist, bedeutet dies dennoch ein sehr effizientes Verfahren, den Speicherbedarf eines Zeichens zu teilen. Dies beinhaltet nämlich, daß all die individuellen Wörter in ein und derselben Weise gespeichert sind, und zwar ohne Rücksicht auf ihr Vorkommen in verschiedenen Tabellen oder Zeichenfolgen.
Es ist zu beachten, daß die vorliegende Erfindung in verschiedenen Gerätetypen eingesetzt werden kann, ohne auf die angeführte Fernsprechvermittlungsanlage beschränkt zu sein. Beispielsweise kann es in einem Personal-Computer oder in einem Telefon verwendet werden. Die Antwort muß nicht notwendigerweise auf einem Monitor angezeigt werden, sondern kann akustisch oder auf irgendeine andere Weise ausgegeben werden.
Z. B. kann ein Telefon die Erfindung selbst enthalten, um einen "Namensaufruf" oder eine Funktion "Suche im Telefonbuch" zu ermöglichen. Eine komprimierte Liste von Fernsprechteilnehmern könnte im Telefon abgespeichert werden, was den Speicherbedarf vermindern könnte, der andernfalls für einen Massenartikel, wie z. B. ein Telefon, hohe Kosten verursachen würde.

Claims (3)

1. Verfahren zur Bereitstellung eines computergenerierten Wörterbuchs für eine natürliche Sprache einschließlich der Schritte zur Erzeugung des Wörterbuchs, dadurch gekennzeichnet, daß es folgende Teilschritte umfaßt:
  • - Erstellung einer Liste von Zeichenfolgen des Wörterbuchs der natürlichen Sprache, die aus einzelnen Wörtern bzw. Zeichen bestehen;
  • - Zuordnung eines individuellen Zahlenwerts zu jedem unterschiedlichen Zeichen, wobei der jeweils gleiche Zahlenwert dem jeweils identischen Zeichen in verschiedenen Zeichenfolgen zugeordnet wird;
  • - Erzeugung einer aus einem Index und einem Verzeichnis bestehenden Tabelle, wobei der Index aus einer ersten, die Anzahl der Zeichenfolgen im Wörterbuch repräsentierenden Größe und weiteren, die Positionen im Verzeichnis repräsentierenden Größen besteht, wobei jeder dieser Größen sofort eine Größe folgt, die die Anzahl der Zeichen pro Zeichenfolge angibt, und wobei das Verzeichnis die zugeordneten Zahlenwerte für jedes Zeichen im Verzeichnis Wörterbuch-Zeichenfolgen umfaßt;
  • - Packen jedes Zeichens des Wörterbuchs in einen Speicher (24);
  • - Erstellung einer Tabelle, die die Korrelation der jeweiligen Zeichen-Nummer, der Speicherzelle, an der es beginnt, sowie der Länge des jeweiligen Zeichens enthält; wobei nach Spezifizierung eines entsprechenden Befehls die Anzahl der Wörter jeder Zeichenfolge, die Zeichen-Nummern sowie die Speicherzellen der Zeichen einer aufgerufenen Zeichenfolge in der jeweiligen gespeicherten Zeichenfolge der natürlichen Sprache wiedergewonnen und angezeigt werden können.
2. Verfahren zur Wiedergewinnung von Sätzen einer natürlichen Sprache, dadurch gekennzeichnet, daß es folgende Teilschritte umfaßt:
  • - Empfang eines Befehls;
  • - Korrelierung von Zeichen mit Zeichen-Nummern, die durch den Befehl repräsentiert bzw. durch diesen hervorgerufen werden;
  • - Ablesen einer ersten Tabelle, die einen Index für die Position der Zeichen-Nummern und für die Wort (Zeichen)- Nummern in einem Satz einer natürlichen Sprache in der Tabelle der jeweiligen natürlichen Sprache enthält;
  • - Ablesen einer zweiten Tabelle und Korrelierung der aus der ersten Tabelle ausgelesenen Zeichen-Nummern mit einer komprimierten Zeichen-Liste und mit der Länge des jeweiligen Zeichens;
  • - Ablesen der komprimierten Zeichen-Liste, um die Zeichen in der Reihenfolge gemäß der ersten Tabelle zu erhalten; und
  • - Zurverfügungstellung der geordneten Zeichen zur Präsentation bzw. Weiterleitung an einen Benutzer.
3. Verfahren zur Übersetzung eines Befehls in eine natürliche Sprache, dadurch gekennzeichnet, daß es folgende Teilschritte umfaßt:
  • - Einmaliges Abspeichern komprimierter Wörter der jeweiligen Sprache entweder als Wort bzw. als Wortteil bzw. als Gruppe von zusammenhängenden Wörtern in einem Speicher (24);
  • - Abspeichern eines numerischen Kennzeichens für jede Gruppe von Zeichen, die eine Zeichenfolge in einer natürlichen Sprache bilden, mit der jeweiligen Positionsbezeichnung;
  • - Nachschlagen der Positionsbezeichnungen als Antwort auf den Befehl; sowie
  • - Bereitstellung einer Zeichenfolge als Zeichenfolge einer natürlichen Sprache.
DE4225200A 1991-09-11 1992-07-30 Elektronisches woerterbuch Withdrawn DE4225200A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CA002051135A CA2051135C (en) 1991-09-11 1991-09-11 Compressed language dictionary

Publications (1)

Publication Number Publication Date
DE4225200A1 true DE4225200A1 (de) 1993-03-18

Family

ID=4148345

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4225200A Withdrawn DE4225200A1 (de) 1991-09-11 1992-07-30 Elektronisches woerterbuch

Country Status (6)

Country Link
US (1) US5383121A (de)
CA (1) CA2051135C (de)
DE (1) DE4225200A1 (de)
GB (1) GB2259596B (de)
IT (1) IT1261883B (de)
MX (1) MX9205163A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19624988A1 (de) * 1996-06-22 1998-01-02 Peter Dr Toma Verfahren zur automatischen Erkennung eines gesprochenen Textes

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
US5701459A (en) * 1993-01-13 1997-12-23 Novell, Inc. Method and apparatus for rapid full text index creation
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
US5819265A (en) * 1996-07-12 1998-10-06 International Business Machines Corporation Processing names in a text
US5913209A (en) * 1996-09-20 1999-06-15 Novell, Inc. Full text index reference compression
US5895463A (en) * 1997-05-20 1999-04-20 Franklin Electronic Publishers, Incorporated Compression of grouped data
US6216123B1 (en) 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
US6584458B1 (en) 1999-02-19 2003-06-24 Novell, Inc. Method and apparatuses for creating a full text index accommodating child words
US6401105B1 (en) * 1999-07-08 2002-06-04 Telescan, Inc. Adaptive textual system for associating descriptive text with varying data
JP3717730B2 (ja) 1999-11-02 2005-11-16 セイコーインスツル株式会社 電子辞書
DE19963812A1 (de) * 1999-12-30 2001-07-05 Nokia Mobile Phones Ltd Verfahren zum Erkennen einer Sprache und zum Steuern einer Sprachsyntheseeinheit sowie Kommunikationsvorrichtung
DE10031008A1 (de) 2000-06-30 2002-01-10 Nokia Mobile Phones Ltd Verfahren zum Zusammensetzen von Sätzen zur Sprachausgabe
US6950793B2 (en) * 2001-01-12 2005-09-27 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US7127402B2 (en) * 2001-01-12 2006-10-24 International Business Machines Corporation Method and apparatus for converting utterance representations into actions in a conversational system
AT6920U1 (de) * 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
US6980949B2 (en) * 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US20070067155A1 (en) * 2005-09-20 2007-03-22 Sonum Technologies, Inc. Surface structure generation
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
WO2016033618A2 (en) * 2014-08-28 2016-03-03 Duy Thang Nguyen Method of data storage and language conversion
US10621978B2 (en) 2017-11-22 2020-04-14 International Business Machines Corporation Dynamically generated dialog

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4365315A (en) * 1980-09-08 1982-12-21 Kearney & Trecker Corporation System for multilingual communication of computer-specified aural or visual control messages in an operator-designated language
EP0268069A2 (de) * 1986-11-17 1988-05-25 International Business Machines Corporation Verfahren zur Herstellung einer Meldungsdatei in einem Computer

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57108962A (en) * 1980-12-25 1982-07-07 Casio Comput Co Ltd Search system of electronic dictionary
JPH0682370B2 (ja) * 1987-05-26 1994-10-19 シャープ株式会社 文字処理装置
US5191622A (en) * 1987-07-17 1993-03-02 Hitachi, Ltd. Hand-written character recognition apparatus with a personal dictionary preparation function
JPH02140868A (ja) * 1988-11-22 1990-05-30 Toshiba Corp 機械翻訳システム
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
US5153831A (en) * 1990-05-29 1992-10-06 Franklin Electronic Publishers, Incorporated Electronic text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4365315A (en) * 1980-09-08 1982-12-21 Kearney & Trecker Corporation System for multilingual communication of computer-specified aural or visual control messages in an operator-designated language
EP0268069A2 (de) * 1986-11-17 1988-05-25 International Business Machines Corporation Verfahren zur Herstellung einer Meldungsdatei in einem Computer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19624988A1 (de) * 1996-06-22 1998-01-02 Peter Dr Toma Verfahren zur automatischen Erkennung eines gesprochenen Textes

Also Published As

Publication number Publication date
IT1261883B (it) 1996-06-03
ITMI920948A1 (it) 1993-03-12
CA2051135A1 (en) 1993-03-12
GB2259596A (en) 1993-03-17
GB2259596B (en) 1995-08-16
MX9205163A (es) 1993-03-01
US5383121A (en) 1995-01-17
ITMI920948A0 (it) 1992-04-17
GB9207399D0 (en) 1992-05-13
CA2051135C (en) 1996-05-07

Similar Documents

Publication Publication Date Title
DE4225200A1 (de) Elektronisches woerterbuch
DE3042508C2 (de) Elektronisches Sprachübersetzungsgerät
DE3115318C2 (de) Elektronisches Übersetzungsgerät
DE69932344T2 (de) Zugriff zu hierarchischem datenspeicher via sql-eingabe
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE3151106C2 (de)
DE3142540C2 (de)
DE2854837A1 (de) Uebersetzungsvorrichtung
DE19882933B4 (de) Flash-Speicher-Unterteilung für Lese-während-Schreiboperationen
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
DE2905328A1 (de) Verfahren und vorrichtung zur assoziativen informationswiedergewinnung
DE69722085T2 (de) Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Botschaften
DE3129011A1 (de) "elektronisches uebersetzungsgeraet"
DE112006003651T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Disambiguierung einer Texteingabe zur Unterdrückung von künstlichen Varianten mit geringer Wahrscheinlichkeit
DE112005002100T5 (de) System und Verfahren für multilinguale Texteinabe in einer tragbaren elektronischen Vorrichtung
DE3214117C2 (de) Elektronisches Übersetzungsgerät
DE2357654C2 (de) Assoziativspeicher
DE2917161A1 (de) Elektronisches lernhilfegeraet
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE4243181C2 (de) Sprachgesteuerte Vorrichtung und Verfahren zu deren Betrieb
DE1474042C3 (de) Datenspeichersystem zur Ein- und Ausspeicherung von in Ketten zusammengefaßten Daten unterschiedlicher Feldlänge
DE69835239T2 (de) Verfahren und anordnung zur übersetzung von informationen
EP1005750A2 (de) Verfahren zum ermitteln der technischen adresse eines kommunikationspartners und telekommunikationsgerät
DE19624988A1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
EP0230994A2 (de) Verfahren zur Steuerung des Programmablaufs bei der Formularbearbeitung in Datenverarbeitungsanlagen

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8139 Disposal/non-payment of the annual fee