DE69803043T2

DE69803043T2 - Übersetzungssystem

Info

Publication number: DE69803043T2
Application number: DE69803043T
Authority: DE
Inventors: James Anglehart; Marek Brandon; Maria Veres
Original assignee: SHINAR LINGUISTIC TECHNOLOGIES
Current assignee: SHINAR LINGUISTIC TECHNOLOGIES
Priority date: 1997-05-28
Filing date: 1998-05-27
Publication date: 2002-08-14
Anticipated expiration: 2018-05-28
Also published as: DE69803043D1; AU7753998A; CA2286935C; CA2286935A1; ATE211277T1; WO1998054655A1; EP0968475A1; US20020128814A1; EP0968475B1; US6385568B1

Description

Die Erfindung betrifft ein computerbasiertes Übersetzungssystem. Speziell betrifft die vorliegende Erfindung ein computerbasiertes Übersetzungssystem, bei dem eine Person, die vollständiges Verständnis und vollständige Kompetenz in einer Sprache eines Originaltextes, der zu übersetzen ist, aufweist, die Bedeutung des Textes bereitstellt und/oder bestätigt, ohne dass Kenntnis irgendeiner anderen Sprache erforderlich wäre, so dass die Daten, die die Bedeutung des Originaltextes betreffen, dazu verwendet werden können, den Originaltext automatisch zu übersetzen. Die Erfindung bezieht sich auch auf ein computerbasiertes Übersetzungssystem das automatisch Bedeutungscodedaten übersetzt, die einen Quelltext repräsentieren, um eine Übersetzung in einer speziellen Sprache zu erhalten. Die Erfindung bezieht sich weiterhin auf ein Verfahren zum Übersetzen, bei dem Bedeutungsdaten, die einen Quelltext enthalten, durch eine Person, die der Sprache des Quelltextes mächtig ist, bereitgestellt werden, ohne irgendeine Kenntnis irgendeiner anderen Sprache zu erfordern, und daraufhin die Bedeutungsdaten automatisch in einen Übersetzungszieltext übersetzt werden, ohne irgendeine andere Kenntnis der Quellsprache zu erfordern.
Auf dem Gebiet automatisierter Übersetzungssysteme werden traditionell zwei Ansätze verfolgt. Bei dem ersten Ansatz wird künstliche Intelligenz dazu verwendet, einen bestmöglichen Treffer der Bedeutung der Quellsprache bereitzustellen, um in der Lage zu sein, automatisch eine Übersetzung des Quelltextes zu erzeugen. Solche automatisierten Systeme erkennen Sprachteile in der Quellsprache, und diese grammatikalische Information wird dazu verwendet, um in der Zielsprache eine geeignete Übersetzung zu rekonstruieren. Wenn ein Wort in der Quellsprache zwei Bedeutungen hat, wird, basierend auf dem Kontext, die wahrscheinlichste Bedeutung verwendet, um die Übersetzung bereitzustellen. Der Kontext wird durch das Vorhandensein anderer Worte bestimmt. Die Ausgabe solcher Systeme ist ein übersetzter Text, der bis heute von zweifelhafter Qualität und Verlässlichkeit ist.
Bei dem zweiten Typ von Übersetzungssystemen stellen die automatischen Übersetzungssysteme eine Hülfe für Übersetzer bereit, in der der Quelltext automatisch grammatikalisch analysiert wird, und jede mögliche Übersetzung für jedes Wort in dem Satz kann von dem Übersetzer ausgewählt werden, um den übersetzten Text in effizienter Weise zu erhalten. Der Übersetzer muss sowohl die Bedeutung der Originalsprache als auch die Bedeutung der Zielsprache kennen, um dafür kompetent zu sein, zu bestätigen, dass der Durchgang des Quelltextes korrekt ist und um die korrekte Übersetzung für jedes Wort in dem Satz auszuwählen und auf diese Weise eine korrekte Übersetzung bereitzustellen.
Im Stand der Technik sind zwei Ansätze, einen unterschiedlichen Typ eines Übersetzungssystems bereitzustellen, erwähnenswert. In dem US- Patent 5,587,903 von Yale wird ein von einem Benutzer eingegebener Satz unter Verwendung seiner oder ihrer Muttersprache in Esperanto übersetzt. Dies ist ähnlich zu dem zweiten Typ von Übersetzungssystemen, mit der Ausnahme, dass der Benutzer von seiner oder ihrer Muttersprache in Esperanto übersetzt, und dass die Übersetzung eine Datenbasis einschließt, die relationale und/oder grammatikalische Information über den Esperantotext enthält. Das erhaltene Ergebnis, dient dazu, den Sinn der übersetzten Sätze in einer Form nachzuzeichnen, die von einer Maschine erkannt werden kann. In "Technical translation as information transfer across language boundaries" von P. C. Ganeshsundaram, Journal of Information Science 2(1980), Seiten 91 bis 100, wird eine Struktur zum Voreditieren eines Textes in der Quellsprache beschrieben, um Wortarten der Worte teilweise zu definieren. Bei diesem Voreditieren wird keine Übersetzung oder Bestimmung der Bedeutung der Worte durchgeführt. Bei einfachen technischen Texten wird angenommen, dass der voreditierte Text mittels einer Maschine unter Verwendung wortgetreuer Übersetzungen der voreditierten Worte in eine von zahlreichen Zielsprachen korrekt übersetzt werden kann.
Die internationale Anmeldung WO 94/06086 beschreibt ein Übersetzungssystem, das mittels eines interaktiven Texteditors, der von den Autoren des eingegebenen Textes verwendet wird, einer Untermenge der natürlichen Sprache lexikalische und grammatikalische Randbedingungen oder Abhängigkeiten aufsetzt, eine sogenannte natürliche Sprache mit Randbedingungen. Darüber hinaus wird dann, wenn eine semantische Doppeldeutigkeit verbleibt, der Benutzer zum Auflösen dieser Doppeldeutigkeit aufgefordert und entsprechende Markierungen werden in den Quelltext eingefügt, um die korrekte Interpretation sicherzustellen. Der mit aufgelösten Doppeldeutigkeiten und Abhängigkeiten versehene Text wird in eine Zwischensprache übersetzt, bevor er in den Zieltext übersetzt wird.
US-Patent Nr. US-A-5,535,120 beschreibt ein Maschinenübersetzungssystem, das auf dem "Interlingua"-Ansatz aufbaut, der beabsichtigt, eingegebene Texte einer Quellsprache in eine Zwischensprache zu dekompilieren, die deren "Bedeutung" oder semantischen Gehalt repräsentiert, und dann die semantischen Strukturen in äquivalente Ausgabesätze der Zielsprache umzuwandeln.
Das US-Patent Nr. US-A-4,954,984 stellt ein Maschinenübersetzungssystem bereit, das von einem Benutzer verlangt, einen eingegebenen Text mit grammatikalischer Information zu versehen, die in der Quellsprache weggelassen aber in der Zielsprache erforderlich ist.
Die internationale Anmeldung WO 97/18516 beschreibt ein System zum Übersetzen von HTML-Dokumenten, das den textlichen Inhalt übersetzt aber das Layout des Dokuments beibehält.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Übersetzungssystem bereitzustellen, bei dem die Aufgabe, die exakte Bedeutung eines zu übersetzenden Textes zu definieren, von einer Person gelöst wird, die die Sprache und die Bedeutung eines zu übersetzenden Textes kennt, ohne irgendeine Kenntnis der Sprache, in die der Text übersetzt werden soll, zu erfordern. Daten, die die exakte Bedeutung repräsentieren, werden gespeichert, um eine automatische Übersetzung in eine oder mehrere Zielsprachen zu erleichtern. Beispielsweise kann ein Autor eines Textes, der möchte, dass sein oder ihr Text leicht in andere Sprachen übersetzt werden kann, einen Texteditor gemäß der Erfindung verwenden, um die erforderlichen Bedeutungsdaten bereitzustellen, so dass die Übersetzung automatisch durchgeführt werden kann, ohne weitere linguistische Daten zu erfordern.
Eine weitere Aufgabe der vorliegenden Erfindung ist es, einen automatischen Übersetzungstextgenerator bereitzustellen, der einen Übersetzungstext ausgehend von der Ausgabe eines einsprachigen Bedeutungseditors erzeugt.
Gemäß der Erfindung wird ein Übersetzungssystem zum Übersetzen eines Eingangstextes in einen Bedeutungscode bereitgestellt, das Eingaben von einem Benutzer verwendet und die Kenntnis einer Sprache des Eingangstextes erfordert, und bei dem der Bedeutungscode von einem Maschinenübersetzungssystem in einen Ausgabetext in wenigstens einer unterschiedlichen Sprache umgesetzt wird. Das System umfasst Analysiermittel zum Erkennen von Sätzen und Worten innerhalb der Sätze des Eingangstextes. Die Analysiermittel lokalisieren die Worte in einer Begriffsdatenbasis. Ein Bedeutungseditormittel ist bereitgestellt, um von einer Bedeutungsdatenbasis mehrere Beschreibungen der Bedeutung in der Sprache des Eingangstextes für jedes der wenigstens einigen Worte mit mehreren Bedeutungen in der Begriffsdatenbasis bereitzustellen, um von dem Benutzer eine Bestätigung zu erhalten, welche der mehreren Bedeutungsbeschreibungen für jedes der Worte geeignet ist, und um von dem Benutzer einen Hinweis auf eine Wortart der Worte in jedem der Sätze zu erhalten. Ebenfalls vorgesehen sind Bedeutungscodegeneratormittel, um Daten von den Bedeutungseditormitteln zu empfangen und zum Erzeugen eines Bedeutungscodes, der dem Eingangstext entspricht. Der Bedeutungscode weist einen Identifizierungscode auf, der einer Bedeutung jedes Worts, das in dem Eingangstext gefunden wird, entspricht und ausreichend grammatikalische Informationen enthält, so dass der Bedeutungscode mittels einer Maschine korrekt in die wenigstens eine unterschiedliche Sprache übersetzt werden kann.
Die Erfindung stellt auch ein Verfahren zum personenunterstützten Maschinenübersetzen eines Eingangstextes einer Sprache bereit, um einen Ausgangstext in wenigstens einer unterschiedlichen Sprache zu erhalten, wobei das Verfahren folgende Schritte aufweist:
- Definieren einer Wortart und einer Bedeutung von Worten in jedem Satz des Eingangstextes unter Verwendung eines Editors in der Sprache des Eingangstextes, wobei die für jedes der Worte definierte Bedeutung von einer vorbestimmten Bedeutungsdatenbasis mit einem Satz von Bedeutungen und entsprechenden Bedeutungscodes abgeleitet wird,
- Speichern von Information, die aus dem vorhergehenden Schritt abgeleitete Bedeutungscodes aufweist, in einer Bedeutungscodedatei,
- Bereitstellen einer Maschinenübersetzungsvorrichtung zum maschinellen Übersetzen der Bedeutungscodedatei in wenigstens eine unterschiedliche Sprache, wobei die Übersetzungsvorrichtung eine Datenbasis übersetzter Begriffe, die den Bedeutungscodes entsprechen, aufweist, und
- Erzeugen des Ausgangstextes ausgehend von der Bedeutungscodedatei unter Verwendung der Maschinenübersetzungsvorrichtung. Einzelheiten und Merkmale bevorzugter Systeme und bevorzugter Verfahren gemäß der Erfindung sind in den Ansprüchen angegeben.
Vorteilhafterweise sind die Bedeutungscodedaten ausreichend deutlich, um eine automatische Übersetzung in mehrere Sprachen zu ermöglichen. Bei einer bevorzugten Ausführungsform enthalten die Bedeutungscodedaten auch eine Layout-Information, so dass der automatische Übersetzungsgenerator einen Ausgangstext erzeugen kann, der dasselbe Format wie der Eingangstext aufweist, und speziell kann der automatische Übersetzungsgenerator die Größe des übersetzten Textes skalieren, um ein Textobjekt zu erzeugen, das in dem originalen Quelltextformat spezifizierte Abmessungen aufweist. Es ist ein bevorzugtes Merkmal der vorliegenden Erfindung, dass der automatische Übersetzungsgenerator ein einspielbares Softwaremodul zur Verwendung mit vorhandenen Texteditoren oder HTML-Anzeigesoftware ist, die auch als Netzbrowser bezeichnet werden.
Vorzugsweise ist der einsprachige Bedeutungseditor so konfiguriert, dass dann, wenn er auf ein Wort trifft, das in seiner Sprachdatenbasis nicht zu finden ist, er dem Benutzer erlaubt, ein geeignetes Synonym einzugeben. Der Editor kann das unbekannte Wort aufnehmen und den Zeiger auf das nahekommende Synonym erzeugen. Zusätzlich ist es vorteilhaft, dass der einsprachige Bedeutungseditor es dem Benutzer erlaubt, den Originalsatz zu rekonstruieren, wenn ein Wort oder eine Gruppe von Worten in der Sprachdatenbasis nicht gefunden wird. Der rekonstruierte Satz kann auf diese Weise ein Satz sein, der unter Verwendung der vorhandenen Sprachdatenbasis leicht definiert werden kann. Vorzugsweise wird es dem einsprachigen Bedeutungseditor gestattet, ein Wort oder eine Gruppe von Worten unübersetzt zu lassen, um in dem Übersetzungstext kursiv, in Anführungszeichen oder einer anderen speziellen Schriftart zu erscheinen, die die Worte als originale, ausländische Worte identifiziert (beispielsweise "Katakana" in Japanisch). Worte, die in der Sprachdatenbasis nicht gefunden werden, können auch durch Telekommunikationsmittel automatisch an den Sprachdatenbasiserzeuger übermittelt werden, um eine Revision der Sprachdatenbasis und Implementierung in ein zukünftiges Release zu veranlassen. In letzterem Fall kann die Sprachdatenbasis eine Online- Datenbasis sein oder in regelmäßigen Intervallen über Telekommunikationsmittel auf den aktuellen Stand gebracht werden.
In einigen Fällen ist es wünschenswert, eine Sprachdatenbasis zu erzeugen, die von dem Benutzer einen Grad der Spezifizierung der Bedeutung verlangt, die einen speziellen Satz von Sprachen betrifft, der kleiner ist als ein vollständiger Satz von Sprachen, um den Grad der erforderlichen Detaillierung, der erforderlich ist, um die exakte Bedeutung des Eingangstextes sicherzustellen, zu verringern. Beispielsweise kann eine Sprachdatenbasis für die englische Sprache erzeugt werden, um zum Zweck der Übersetzung in jede romanische Sprache, die Bedeutung in der englischen Sprache festzustellen. Eine separate englische Sprachdatenbasis kann erzeugt werden, um die Bedeutung für den Zweck der Übersetzung der Bedeutungscodedaten in Japanisch, Chinesisch und Koreanisch festzustellen.
Falls der einsprachige Bedeutungseditor verwendet wurde, um die Bedeutung eines Eingangstextes für romanische Sprachen festzustellen, können dem Bedeutungseditor, der zum Feststellen der Bedeutung eines Textes für die automatische Übersetzung in die östlichen Sprachen verwendet wird, die Bedeutungscodedaten der romanischen Sprachen zur Verfügung gestellt werden, um die Zeit, die ein Benutzer dafür aufbringen muss, die notwendige Bedeutung zuzuschreiben, um Bedeutungscodedaten zu erzeugen, die für die Übersetzung des Eingangstextes in östliche Sprachen verwendet werden kann, zu verringern. Es ist festzustellen, dass der automatische Übersetzungsgenerator gemäß der Erfindung in der Lage sein würde, eine nicht vollständig perfekte Übersetzung in eine Sprache auszuführen, wenn die Übersetzung auf Bedeutungscodedaten gestützt wird, die nicht dafür vorgesehen sind, diese eine Sprache abzudecken.
Die Erfindung stellt im Zusammenhang mit einem automatischen Übersetzungsgenerator auch einen benutzergesteuerten Editor zum Ausführen von Verfeinerungen oder stilistischen Änderungen an dem Übersetzungstext bereit, mittels dem diese potentielle Doppeldeutigkeit, die in dem Übersetzungstext erscheinen kann, eliminiert werden kann, indem dem Benutzer einige oder alle Bedeutungscodedaten bereitgestellt werden, die mit dem überarbeiteten Text zusammenhängen, und vorzugsweise werden die Bedeutungscodedaten in der Sprache des übersetzten Textes bereitgestellt, so dass der Überarbeiter des übersetzten Textes keine Kenntnis der Quellsprache haben muss. Vorteilhafterweise schließen die Bedeutungscodedaten eine vollständige Beschreibung des originalen Eingangstextes ein, so dass eine Rückübersetzung in die Original-Eingangssprache immer eine exakte Replik des Originaltextes ergibt.
Ein besseres Verständnis der Erfindung wird anhand der folgenden detaillierten Beschreibung der bevorzugten Ausführungsform unter Bezugnahme auf die beigefügten Zeichnungen erreicht, die folgendes darstellen:
Fig. 1 ein schematisches Blockschaltbild des einsprachigen Bedeutungseditors gemäß der bevorzugten Ausführungsform der Erfindung und
Fig. 2 ein schematisches Blockschaltbild des automatischen Übersetzungsgenerators gemäß der bevorzugten Ausführungsform.
Bei der bevorzugten Ausführungsform wird ein Computersystem, beispielsweise ein Personal Computer für allgemeine Zwecke, mit Software versehen, um spezielle, nachstehend beschriebene Funktionen zu erfüllen.
Wie in der Fig. 1 dargestellt ist, weist der einsprachige Bedeutungseditor 10 Texteingabemittel 12 auf, wie beispielsweise eine Kommunikationsschnittstelle oder jede andere geeignete Quelle von Textdaten. Ein Speicher 14 wird dazu verwendet, den Eingangstext sowie eine Temporärdatei für die ausgegebenen Bedeutungscodedaten zu speichern. Eine grammatikalische Analysiereinrichtung 15 analysiert die Sätze in dem Eingangstext, der in dem Speicher 14 gespeichert ist, und zeigt die analysierten Sätze auf einem Display 20 an, wobei die spezielle Wortart für jedes der Worte angezeigt wird und die wahrscheinlichste oder einfach die erste Bedeutung jedes der Worte in dem angezeigten Satz identifiziert wird. Grammatikanalysiereinrichtungen, die auf Software basieren, sind per se im Stand der Technik bekannt. Die Sprachdatenbasis 25 stellt der Analysiereinrichtung Wortdefinitionen und Wortartdaten zur Verfügung, zusammen mit grammatikalischen Erfordernissen für den Satz von Sprachen, in die die Bedeutungscodedaten übersetzten werden sollen. Die Datenbasis 25 kombiniert die Begriffsdatenbasis, die eine Liste aller Worte und Ausdrücke in der 'A'-Sprache enthält, die mit einer Bedeutung im Bedeutungsdefinitionssatz abgeglichen sind mit der Bedeutungsdatenbasis, die die entsprechenden Identifizierungscodes enthält, die verwendet werden, um den resultierenden Bedeutungscode aufzubauen.
Die Analysiereinrichtung 15 erlaubt es dem Benutzer, die geeignete Bedeutung für jedes der Worte oder Gruppen von Worten, die in dem Satz erscheinen, unter Verwendung einer Bedeutungsauswahleinrichtung 16 auszuwählen, die Teil einer grafischen Benutzeroberfläche sein kann. Es wird von dem Benutzer auch verlangt, grammatikalische Information bereitzustellen, die nicht auf die Originalsprache oder die Bedeutung in der Originalsprache bezogen ist, die jedoch erforderlich sein kann, die Übersetzung in die Sprachen bereitzustellen, in die die Bedeutungscodedaten übersetzt werden sollen. Beispielsweise kann es notwendig sein, das Geschlecht einer Person zu identifizieren, um in der Lage zu sein, mit dieser Person zusammenhängende Wörter korrekt in eine andere Sprache zu übersetzen, wohingegen in der Originalsprache eine solche Geschlechtsinformation nicht erforderlich ist. Falls die originale Satzstruktur einfach zu kompliziert ist, um die Bedeutung der Begriffe darin leicht zu definieren, ist ein Editor 18 bereitgestellt, um den Originalsatz zu verändern, um auf diese Weise die Definition oder Spezifizierung der Bedeutung der Worte, die in dem Satz enthalten sind, zu erleichtern.
Die Bedeutungsauswahleinrichtung 16 kann mittels Software bereitgestellt werden, die ein Fenster anzeigt, das die Definitionen zeigt, die für ein gegebenes Wort oder eine Gruppe von Worten, die in dem Satz erscheinen, möglich sind, der in einem Hauptanzeigefenster erscheint, wobei das Wort oder die Gruppe von Worten markiert erscheinen. Unter Verwendung der grafischen Benutzeroberfläche wählt der Benutzer die spezielle Definition des Wortes oder der Gruppe von Worten aus, die zu der Bedeutung in der Originalsprache am besten passt. In dem Fall, dass ein Wort oder eine Gruppe von Worten in der Sprache oder den Sprachen, in die der Eingangstext übersetzt werden soll, eine eindeutige Definition hat, ist es nicht notwendig, eine von mehreren Bedeutungen unter Verwendung der Bedeutungsauswahleinrichtung auszuwählen, auch wenn die Wortart noch bestätigt werden muss.
Wenn ein Wort oder eine Gruppe von Worten in der Begriffsdatenbasis der Datenbasis 25 nicht gefunden wird, bietet eine Wörterbucheinrichtung 19 dem Benutzer eine Referenz, um ein alternatives Wort oder einen Ausdruck zu finden, der in der Sprache des Eingangstextes die gleiche Bedeutung hat und der durch den Benutzer für das originale Wort oder die originale Gruppe von Worten eingesetzt werden kann, die in der Begriffsdatenbasis der Datenbasis 25 nicht gefunden wurden. Die Wörterbucheinrichtung kann auch zusätzlich zu Synonymen und Antonymen lexikalische Definitionen von Worten bereitstellen.
Wie bereits zuvor erwähnt wurde, stellt die Bedeutungsauswahleinrichtung bei einem Wort oder einer Wortgruppe, das oder die unter Verwendung der in der Sprachdatenbasis 25 gefundenen Begriffe nicht definiert werden kann, die Option bereit, dass der spezielle Begriff unübersetzt bleibt, da der Begriff als neuer Begriff angesehen wird und in anderen Sprachen noch nicht definiert ist oder eine Handelsmarke usw. darstellt. In diesem Fall wird die Bedeutungsauswahleinrichtung nur dazu verwendet, für das Wort oder die Wortgruppe die Wortart festzulegen.
Die Quelle der Sprachdatenbasis 25 kann eine Online-Quelle sein, um sicherzustellen, dass die Datenbasis 25 aktuell und vollständig ist. Wenn ein Wort im Eingangstext 12 in der Sprachdatenbasis 25 nicht gefunden wird, ist es möglich, Kommunikationsmittel (E-Mail, Telefon oder dergleichen) bereitzustellen, so dass der Benutzer mit dem Compiler der Sprachdatenbasis 25 kommunizieren kann, um den Datenbasiscompiler zu informieren, dass das spezielle Wort oder die Wortgruppe nicht in der Sprachdatenbasis gefunden werden kann oder dass die spezielle Bedeutung, die für das Wort oder die Wortgruppe vorgesehen ist, nicht in der Sprachdatenbasis gefunden werden kann. Der Sprachdatencompiler kann dann ein Update der Sprachdatenbasis bereitstellen.
Die Bedeutungsdatenbasis in der Datenbasis 25 kann durch den Benutzer nicht editiert werden, vielmehr können die Bedeutungen nur durch den Hersteller der Software korrigiert oder expandiert werden. Um jedoch eine benutzereigene Texteditierung zum Erzeugen eines Bedeutungscodes zu erleichtern, ist ein Editor 29 bereitgestellt, um es dem Benutzer zu erlauben, neue Begriffe in der Begriffsdatenbasis zu erzeugen und diese mit bereits vorhandenen Bedeutungseinträgen in der Bedeutungsdatenbasis der Datenbasis 25 zu verbinden. Der Editor 29 kann auch dazu verwendet werden, die Verbindungen zwischen einem vorhandenen Begriff in der Begriffsdatenbasis und Eintragungen in der Bedeutungsdatenbasis zu verändern. Dies ermöglicht es dem Benutzer beispielsweise, einen neuen Eintrag für "Pfannkuchen" zu erzeugen und ihn zu der Bedeutungsdefinition "(Substantiv) dünner Kuchen zubereitet in einer Pfanne oder einem Kuchenblech" zu verbinden, wobei zuvor eine Verbindung nur zu dem Begriff "Pfannkuchen" bestand. Als weiteres Beispiel sei der vorhandene Begriff "plug (einstecken)" (Bedeutung als Verb: verbinden) angeführt, zu dem eine zusätzliche Verbindung zu der Definition "(Verb) Werben oder Fördern durch eine Aktion" hinzugefügt werden, wobei diese Definition zuvor nur mit "pitch (anpreisen)" verbunden war. Die Datenbasis 25 kann dadurch verbessert werden, um mit zunehmender Benutzungszeit durch den Benutzer an dessen Bedürfnisse besser angepasst zu werden.
Updates der Datenbasis 25, die die Bedeutungsidentifizierungscodes oder Definitionen nicht verändern, können regelmäßig implementiert werden, wohingegen Updates, die neue Bedeutungsidentifizierungscodes erzeugen, entsprechende Updates der Leseeinrichtungen zum Übersetzen des Bedeutungscodes erfordern und daher nicht so häufig vorkommen sollten. Um eine Rückwärtskompatibilität sicherzustellen, kann der Editor 10 in dem Bedeutungscode 26 erzeugte Identifizierungscodes enthalten, die den neuen, verbesserten Bedeutungsidentifizierungscode entsprechend einer jüngsten Version (eine genauere Bedeutung) zusammen mit dem alten Bedeutungscode für ältere Versionen (eine weniger genaue Bedeutung) enthalten, so dass die Lesesoftware den jüngsten Bedeutungscode verwenden kann, wenn sie in der Lage ist, ihn zu erkennen, und auf der anderen Seite eine Übersetzung wegen inkompatibler Versionen nicht verweigert.
Wenn der einsprachige Bedeutungseditor 10 dazu verwendet wurde, die Bedeutung des gesamten Eingangstextes zu definieren, sendet die Analysiereinrichtung 15 ein Signal zu den Speichermitteln 14, um die Bedeutungscodedaten in einem Ausgangsfile 26 anzuordnen. Der Ausgangsfile 26 kann mittels elektronischer Mittel zu der Person, die eine Übersetzung des Eingangstextes erhalten möchte, übertragen werden. Die Bedeutungscodedaten können innerhalb desselben Computers, auf dem das Übersetzungssystem arbeitet, verwendet werden, um automatisch eine Übersetzung zu erzeugen. Bei der bevorzugten Ausführungsform enthalten die Bedeutungscodedaten Informationen betreffend die spezifischen Definitionen jedes Wortes oder jeder Wortgruppe, die in dem Eingangstext erscheint, sowie grammatikalische Attribute für jedes Wort oder jede Wortgruppe sowie die Beziehung zwischen den Worten des Eingangstextes. Bei der bevorzugten Ausführungsform ist zusätzliche Information in den Bedeutungscodedaten 26 enthalten, um sicherzustellen, dass eine Übersetzung der Bedeutungscodedaten zurück in die Originalsprache des Eingangstextes eine exakte Kopie des Eingangstextes erzeugt. In dem Fall, in dem der Editor 18 dazu verwendet wurde, einen Satz zu restrukturieren oder ein Wort gegen ein Synonym auszutauschen, um dem originalen Eingangstext eine Bedeutung zuzuschreiben, die näher an den, in der Sprachdatenbasis gefundenen Definitionen liegt, enthalten die Bedeutungscodedaten daher zusätzliche Information, die die originalen Worte oder Gruppen von Worten betrifft, die unter Verwendung des Editors 16 vor dem Auswählen einer geeigneten Bedeutung ersetzt wurden.
Wie in der Fig. 1 gezeigt ist, ist der einsprachige Bedeutungseditor 10 mit einem Speicher 28 zum Speichern von Bedeutungscodedaten versehen, die ausgehend von einer vorhergehenden Revision des Originaltextes zum Zweck der Erzeugung der Bedeutungscodedaten zur Verwendung mit einem automatischen Übersetzungsgenerator für eine Sprache oder Gruppe von Sprachen (z. B. Sprachen Y) erzeugt wurden, die verschieden von der Sprache oder der Gruppe von Sprachen ist, der die Sprachdatenbasis 25 entspricht (z. B. Sprachen X). Eine Korrespondenzdatenbasis 27 zwischen den zwei verschiedenen Zielsprachen ist folglich ebenfalls vorgesehen, und die Bedeutungscodedaten 28 für die andere Sprache werden gemeinsam mit den Korrespondenztabellendatten 27 der Analysiereinrichtung 15 zur Verfügung gestellt, um auf der Anzeigevorrichtung 20 den Eingangstext 12 bereits analysiert und mit definierten Bedeutungen darzustellen, insoweit Gemeinsamkeiten zwischen den zwei Zielsprachen (z. B. zwischen X und Y) bestehen.
Von dem Benutzer des einsprachigen Bedeutungseditors wird es dann lediglich verlangt, diese Bedeutungen zu spezifizieren und die Information bezüglich der grammatikalischen Wortartinterpretation bereitzustellen, die nur die Sprache in der Datenbasis 25 betrifft. Da die Masse der Auswahl der Grammatik und der Bedeutungen bereits für die vorhergehende Sprache durchgeführt wurde, kann der Ausgangsbedeufungscode für die Zielsprache entsprechend der Datenbasis 25 relativ schnell durchgeführt werden. Das bevorzugte Ausführungsbeispiel bietet damit eine Möglichkeit, zwischen Zielsprachen oder Gruppen von Zielsprachen Beziehungen herzustellen, wobei der einsprachige Bedeutungseditor in dem Fall verwendet wird, dass eine Person, die den einsprachigen Bedeutungseditor benutzt, die Aufgabe hat, die Bedeutung des Eingangstextes für viele verschiedene Sprachgruppen (z. B. romanisch, orientalisch, indisch, usw.) zu definieren.
Unter Bezugnahme auf die Fig. 2 wird nun der automatische Übersetzungsgenerator 11 beschrieben. Die Bedeutungscodedatei 26 ist Teil eines Speichers, der von einem Interpretierer gelesen wird. Der Interpretierer 30 erhält von einer Sprachdatenbasis 35, die spezifisch ist für die Sprache, in die der Bedeutungscode übersetzt werden soll, Eingaben. Für jedes Wort oder jede Gruppe von Worten wird der zugeordnete Bedeutungscode in der Sprachdatenbasis nachgeschlagen, um den korrekten Begriff zu erhalten. Die Wortartinformation und Information über Beziehungen zu anderen Worten in dem Satz wird aus den Bedeutungscodedaten entnommen, um die Form des Wortes oder Wortgruppe gemäß der grammatikalischen Regeln zu ändern, die in der Sprachdatenbasis 35 enthalten sind. Beispielsweise müssen Verben in Sprachen, die eine Konjugation von Verben aufweisen, konjugiert werden. Ein Teil der grammatikalischen Information wird möglicherweise in der Zielsprache nicht benötigt, und daher kann ein Teil der Bedeutungscodedaten von dem Interpretierer 30 nicht verwendet werden, wenn dieser den Ausgabetext in der Zielsprache erzeugt.
Der Ausgabetext in der Zielsprache wird in einem Speicher 32 gespeichert und ein Editorsystem 33 mit einem Anzeigefenster 34 ist dafür vorgesehen, ein nach der automatischen Übersetzung folgendes Editieren für den Fall zu ermöglichen, dass die Person, die die Übersetzung in der Zielsprache erhält, es wünscht, stilistische Änderungen an dem Übersetzungstext vorzunehmen. Der Editor 33 wird nicht nur mit der Textausgabe von dem Speicher 32, sondern auch mit der geeigneten Information betreffend die Definitionen der Begriffe in der Zielsprache versehen, die von der Sprachdatenbasis 35 erhalten werden, die den Bedeutungscodes entsprechen, die für die Erzeugung des Ausgangstextes verantwortlich sind. Der Editor 33 kann auch die grammatikalische Beziehung zwischen den Begriffen in dem Übersetzungstext darstellen, um der Person, die den Editor 33 benutzt, ein besseres Verständnis des Übersetzungstextes zu ermöglichen und es zu erleichtern, Korrekturen auszuführen, die immer noch genau der ursprünglichen Bedeutung des Textes in der Quellsprache entsprechen.
Es wird angenommen, dass die Person, die den Editor 33 bedient, keine Kenntnis der Originalsprache hat. In dem speziellen Fall jedoch, dass die Person, die den Editor 33 bedient, eine Kenntnis der Originalsprache hat, könnte auch der ursprüngliche Text neben dem Übersetzungstext dargestellt werden, indem dem Interpretierer 30 Zugriff auf die Information, die in der Originalsprachendatenbasis 25 enthalten ist, gewährt und dem Editor 33 der Originalsprachentext ausgegeben wird.
Bei der bevorzugten Ausführungsform kann der Eingangstext Formatdaten enthalten, und diese Formatdaten können durch den einsprachigen Bedeutungseditor in die Bedeutungscodedaten 26 Eingang finden. Im Fall eines HTML-Textes für einen Netzbrowser können die Formateingangsdaten Spezifikationen betreffend der Textblockposition und Textblockabmessungen enthalten, damit eine solche Information in die Bedeutungscodedaten Eingang finden kann. Folglich kann der automatische Übersetzungsgenerator 11 ein Modul aufweisen, das in den Interpretierer 30 integriert ist, um automatisch eine HTML-Ausgangsdatei zu erzeugen, die in Layout und Schriftartstil einer ursprünglichen HTML- Datei in der Originalsprache ähneln würde. Bei der bevorzugten Ausführungsform können die X-Sprachdatenbasis 35 und der Interpretierer 30 den Kern eines plug-in-Moduls enthalten, das in einen Netz-Browser integriert werden kann. In diesem Fall würden die Bedeutungscodedaten 26 in der heruntergeladenen Datei eingeschlossen sein, um unter Verwendung eines Netz-Browsers dargestellt zu werden.
Zur Verbesserung des Verständnisses der vorliegenden Erfindung wird nun die bevorzugte Ausführungsform detaillierter in drei Abschnitten beschrieben. Zunächst wird die Bedeutungsdatenbasis und die Codierung beschrieben, die für Wortarten in dem Bedeutungscode verwendet wird. Zweitens wird der Bedeutungseditor beschrieben. Drittens wird die Leseeinrichtung oder die Maschinenübersetzungsvorrichtung zum Übersetzen des Bedeutungscodes in den Ausgabetext beschrieben.

Catome-Beschreibung

Innerhalb jeder Sprache, die bei der bevorzugten Ausführungsform verwendet wird, sind die linguistischen Datenbasen und -tabellen, die ihre Fähigkeiten in dieser Sprache unterstützten, innerhalb einer logischen Struktur gespeichert, die als Catome bezeichnet wird. Dieser neue Begriff ist eine Abkürzung des beschreibenden Begriffs "CATaloge Of MEanings", der die grundlegenden Funktionen dieser Struktur korrekt wiedergibt. Das Catome enthält die Begriffsdatenbasis und die Bedeutungsdatenbasis.

Struktur der höheren, Niveaus

Zwei primäre Erfordernisse liegen der Struktur der höheren Niveaus des Catomes zugrunde:
Größe des Catomes - so klein wie möglich
Geschwindigkeit bei Verwendung des Catomes - so schnell wie möglich Die bevorzugte Ausführungsform verwendet verschiedene Techniken, um die Größe des Catomes zu verringern - Komprimierung, um die Größe des Catomes während des Herunterladens zu verringern sowie die Verwendung von Modelltabellen, um den Speicherplatz zu verringern, der erforderlich ist, um die verschiedenen Formen jedes Substantivs und jedes Verbs zu speichern. Um die Geschwindigkeitserfordernisse zu erfüllen gibt es zwei Indizes, die bei direktem Zugriff ein Wiedergewinnen der Information aus dem Catome erlauben.
Um das Erfordernis einer kompakten Größe und hohen Geschwindigkeit zu erfüllen, enthält das Catome die folgenden Datenbasen, Tabellen und Indizes:
- WortlBedeutungsdatenbasis
- Satzstrukturdatenbasis
- Redewendungsdatenbasis
- Modelltabelle für regelmäßige Verben
- Modelltabelle für unregelmäßige Verben
- Modelltabelle für regelmäßige Substantive
- Modelltabelle für unregelmäßige Substantive
- Modelltabelle für Modalverben
- Modelltabelle für Pronomen
- Modelltabelle für zusammengezogene Worte
- Wort/Bedeutungsindex geordnet nach Wort-Identifizierern
- Wort/Bedeutungsindex geordnet nach Bedeutungs-Identifizierern
Der wesentliche Unterschied zwischen einer Datenbasis und einer Tabelle bei der bevorzugten Ausführungsform ist der, dass die Datenbasen weitere Eigenschaften der Basiseinheiten in ihnen enthalten, wohingegen die Tabellen lediglich zweidimensionale Felder von Basiseinheiten sind.

Übersicht über die Datenbasen

Wort/Bedeutungsdatenbasis

Diese Datenbasis ist innerhalb des Catomes die größte. Sie enthält alle Worte der Sprache mit zugeordneten Eigenschaften. Die Datenbasis weist zehn logische Sektionen auf, die jeweils einer speziellen Wortart zugeordnet sind:
1. Adjektive
2. Adverbien
3. Artikel
4. Konjunktionen
5. Interjektionen
6. Substantive
7. Präpositionen
8. Pronomen
9. Verben
10. Zahlen
Die erste Stelle des Wort-Identifizierers enthält die entsprechende Zahl der logischen Sektion, in die er gehört. Dies ist notwendig, um in Situationen auszuhelfen, in denen dasselbe Wort in einer oder mehreren verschiedenen Wortarten existiert, eine Situation, die im Englischen sehr üblich ist. Beispielsweise wird das Verb "to keep" vollständig unterschiedlich verwendet und hat vollständig verschiedene Bedeutungen zu dem englischen Substantiv "keep" (der am stärksten befestigte Teil einer Burg). Der Wort-Identifizierer ist eine sechsstellige Zahl, die durch eine Punkt und ein zweistelliges Verwendungsfeld abgeschlossen ist, beispielsweise 999999.99.
Das zweistellige Verwendungsfeld ist für jede Sprache spezifisch. Sein primärer Nutzen ist es, dem Editor zu helfen, die spezielle Art zu identifizieren, in der eine veränderbare Wortart (Adjektive, Adverbien, Substantive und Verben) durch Benutzer verwendet werden, wenn sie einen Text in das Eingabefenster des Editors schreiben.

Eigenschaften

Einige Wortarten haben Eigenschaften - einige spezifisch für die Sprache, einige relevant für andere Sprachen. Verben können transitiv oder intransitiv sein, Substantive können "proper (Eigennamen)" sein, sie können ein Geschlecht haben, sie können nur in der singulären oder pluralen Form existieren, usw. Sie können in einigen aber nicht allen regionalen Dialekten der Sprache existieren. Die wichtigste Eigenschaft ist jedoch "Bedeutung". Abgesehen von Zahlen (die bezüglich ihrer Bedeutung selbsterklärend sind) haben alle anderen Wortarten einen "Bedeutungsidentifizierer".

Die Eigenschaft der Bedeutung

Jedem Wort in dem Wort/Bedeutungsatome ist ein Bedeutungs- Identifizierer zugeordnet. Dies ermöglicht es, zwischen den unterschiedlichen Bedeutungen zu unterscheiden, die ein Wort in einer Sprache haben kann. Ein Wort wie beispielsweise "fan" im Englischen kann ein Verb sein "to fan" oder ein Substantiv "a fan", das entweder eine Vorrichtung zum Bewegen von Luft oder eine Person, die irgendetwas unterstützt, bedeuten kann. Wir unterscheiden zwischen Verben und Substantiven durch die erste Stelle des Wort-Identifizierers. Einem speziellen Wort mit verschiedenen Bedeutungen innerhalb derselben Wortart weisen wir unterschiedliche "Bedeutungs-Identifizierer" zu. Ein "fan" als Substantiv würde daher zwei Einträge in einem Catome aufweisen - jeder mit einem unterschiedlichen "Bedeutungs-Identifizierer", um zwischen der Vorrichtung zum Bewegen von Luft und einer menschlichen Person, die irgendetwas unterstützt, zu unterscheiden.

Bedeutungsschleifen

Um als Wörterbuch und Lexikon verwendet werden zu können, haben die Erfinder das Konzept der "Bedeutungsschleifen" entwickelt. Jeder "Bedeutungs-Identifizierer" ist Teil einer "Bedeutungsschleife", die aus anderen Worten mit derselben Bedeutung besteht. Jedes Wort in dem Catome ist mittels seines "Bedeutungs-ldentifizierers", der als Schlüssel wirkt, mit einer "Bedeutungsschleife" verbunden. Dieses Konzept ist aber ausgeweitet. Jede "Bedeutungs-Schleife" hat zusätzliche Zeiger: Einen ersten Zeiger auf eine höhere "Bedeutungsklasse", einen zweiten Zeiger auf eine niedrigere Klasse von Bedeutungsschleifen. Beispielsweise sei das Wort " male (männlich)" betrachtet, das als Substantiv verwendet wird. Es zeigt auf eine Bedeutungsschleife, die Synonyme für "male (männlich)" enthält, beispielsweise "man (Mann)", "stud (Kerl)", usw. Diese Bedeutungsschleife zeigt auf eine Bedeutungsschleife höherer Klasse, die Worte wie beispielsweise "being (Wesen)", "person (Person)", usw. enthält. Sie zeigt auch auf eine niedrigere Klasse der Bedeutung, die Worte wie "man (Mann)", "cob (männlicher Schwan)", "boy (Junge)", "stallion (Hengst)" enthält die "maleness (Männlichkeit)" in ihren Bedeutungen enthalten.
Bedeutungen und Bedeutungsschleifen werden über alle Catome hinweg verwendet - es ist die Bedeutung, die aus dem Text, der von dem Benutzer geschrieben wird, abgeleitet wird, und es sind diese Bedeutungen, die in den Bedeutungscode oder die CCML-Sprache eingebettet wird, die durch andere Sprachleseeinrichtungen interpretiert wird. Der Benutzer kann durch Interaktion mit dem Editor sicherstellen, dass die Bedeutung seiner Worte präzise ist. Der Bedeutungs-Identifizierer wird auf das korrekte Wort zeigen, das von einer Leseeinrichtung für eine andere Sprache bei einer automatischen Übersetzung verwendet werden soll.

Satzstrukturdatenbasis

Beim Erreichen des bevorzugten Ziels von 100%iger Übersetzbarkeit in andere Sprachen sind Worte und Bedeutungen kritisch. Für sich alleine genommen können sie dieses Ziel nicht erreichen. Es ist die Fähigkeit, die Satzstruktur zu erkennen, die die andere Komponente darstellt. Die bevorzugte Ausführungsform weist eine Datenbasis mit allgemeinen Satzstrukturen auf, die als Modell herangezogen werden, um zu bestimmen, wo die grammatikalischen Komponenten des Satzes gefunden werden können und welche Beziehungen zwischen diesen bestehen.
Der Schlüssel zu einer Satzstruktur ist zu bestimmen, welche "Verbform" in dem Satz verwendet wird. Die Hauptverbform in dem Satz zeigt auf einen Satz allgemeiner Satzstrukturen, die diese spezifische "Verbform" unterstützen und die dann durch den Editor verwendet werden, um das Subjekt, Objekt, Nebensätze, Adverbialsätze usw. - die grammatikalischen Komponenten des Satzes - zu identifizieren. Die Satzstrukturen selbst werden klassifiziert in "positive", "konditionale", "fragende" und "imperative" Untertypen. Es existiert dann eine "negative" Form jedes Satztyps innerhalb jeder Unterklasse. (Eine "imperative" Satzstruktur wie beispielsweise "Geh weg!" hat eine "negative" Form "Geh nicht weg!"). Die Satzstrukturen verwenden ein allgemeines Codierungsschema, um zu zeigen, wo Worte der verschiedenen Wortarten in dem Eingangstext erwartet werden können.
In obigem Beispiel wird das Verb dargestellt als "9*.8*"; die "9*" zeigt an, dass jedes Verb verwendet werden kann, aber lediglich in seinem imperativen Gebrauch - dargestellt durch den zweistelligen Verwendungsqualifizierungsteil "8*", der auf den Punkt folgt.

Redewendungsdatenbasis

Innerhalb der Redewendungsdatenbasis können Ausdrücke und Redewendungen gefunden werden, die eine Bedeutung haben, die sich durch einfaches Übersetzen ihrer Wortbestandteile nicht ergeben würde. Der Satz "The reason for the breakdown was the dying battery and not the starter motor, an entirely different kettle of frsh" verwendet die Redewendung "different kettle of fish". Falls diese Redewendung in andere Sprachen übersetzt würde, würde es dem Leser nicht dabei helfen, die Bedeutung der Redewendung oder ihren Einfluss auf die Bedeutung des ganzen Satzes zu verstehen.
Die Redewendungsdatenbasis enthält eine aktuelle Liste solcher Redewendungen, Klischees und anderer Mehrwort-Ausdrücke im allgemeinen Gebrauch. Jeder Redewendung ist ein "Redewendungs-Identifizierer" sowie ein gleichbedeutender Satz zugeordnet, der die Bedeutung genauer beschreibt. In dem verwendeten Beispiel würde der Ausdruck "different matter (unterschiedliche Sache)" von dem Editor an den erzeugten Bedeutungscode oder CCML-Code angefügt werden. Falls keine gleichwertigen Redewendungen in einer anderen Sprache existieren, würde die Leseeinrichtung für diese Sprache das übersetzte Äquivalent von "different matter (unterschiedliche Sache)" zeigen, anstatt die ursprüngliche Redewendung zu übersetzen. Eine äquivalente Redewendung in einer anderen Sprache existiert dann, wenn sie einen "Redewendungs-Identifizierer" aufweist, der gleich ist wie der der ursprünglichen Redewendung.

Übersicht über die Tabellen

Modelltabelle der regelmäßigen Verben

Für jeden Typ eines regelmäßigen Verbs in der Sprache ist eine vollständige Deklination des Verbs für jede Zeit, die in dieser Sprache im allgemeinen Gebrauch ist, vorhanden. Die Tabelle identifiziert auch (wo zweckmäßig) Infinitive, Gerundien und Partizipien für die Vergangenheit.

Modelltabelle der unregelmäßigen Verben

Für jeden speziellen irregulären Verbtyp in der Sprache ist eine vollständige Deklination des Verbs für jede Zeit vorhanden, die in der Sprache im allgemeinen Gebrauch ist. Die Tabelle identifiziert auch (wo zweckmäßig) Infinitive, Gerundien und Partizipien für die Vergangenheit. Zusätzlich wird ein regelmäßiges Verb als unregelmäßig angesehen, wenn die Deklination des Verbs zwischen regionalen Versionen derselben Sprache differiert. Das Verb "to dive" im Englischen wird als unregelmäßig angesehen, da das Partizip der Vergangenheit sich zwischen britischem und amerikanischem Gebrauch zwischen "dived" und "dove" unterscheidet.
Das Konzept eines unregelmäßigen Verbtyps rührt von Sprachen her, die einige unregelmäßige Verben haben, die auf einem anderen unregelmäßigen Verb aufbauen. Das Verb "to become" im Englischen folgt beispielsweise dem unregelmäßigen Verbmodell für das Verb "to come".

Modelltabelle der regelmäßigen Substantive

Für jeden Typ eines regelmäßigen Substantivs in der Sprache ist eine Tabelle vorhanden, die die Art und Weise modelliert, in der die Endung des Substantivs im speziellen Gebrauch innerhalb einer Satzstruktur verändert wird. Im Englischen führt diese Tabelle die folgenden Situationen für Endungen von Substantiven auf
Für andere Sprachen würde deren spezielle Verwendung von Endungen aufgelistet werden. Französisch hat beispielsweise nicht das grammatikalische Konzept einer Genitivendung für Substantive und die Französisch-Tabelle würde diese Situation nicht auflisten.

Modelltabelle der unregelmäßigen Substantive

Einige Sprachen haben Substantive, die keinen regelmäßigen Modellen folgen oder die in Abhängigkeit der regionalen Variante dieser Sprache mit unterschiedlichen Endungen versehen werden. In dieser Tabelle würden auch Substantive aufgelistet, die nur in einem "singulären" oder "pluralen" Zusammenhang verwendet werden können. Im Englischen sind dies beispielsweise "fish" und "men". Diese Situationen werden identifiziert und in der Modelltabelle für die unregelmäßigen Substantive aufgelistet.

Modelltabelle für modale Verben

Diese führt die Verwendung der Modalverben an. Diese schließen die Wort should, would, can, will, may, ought, dare und might sowie die allgegenwärtigen Worte "be" und "have" ein. Diese Modalverben stehen vor einem Verb und verändern die Bedeutung des folgenden Verbs. "Be" und "have" werden im Englischen als Basis für zahlreiche Zeiten extensiv verwendet, beispielsweise das passive Plusquamperfekt "I have been misled". Die Modalverben haben ihre eigenen Satzstruktureintragungen in der Satzstrukturdatenbasis, da sie einen wesentlichen Teil der "Verbform" darstellen, mittels der die Satzstrukturdatenbasis organisiert ist.

Modelltabelle der Pronomen

Diese Tabelle enthält alle Pronomen der Sprache und deren verschiedene Formen. Im Englischen würde folgendes zu finden sein:

Modelltabelle für Verkürzuncien

Diese Tabelle führt alle im allgemeinen aufzufindenden Verkürzungen mit ihrer voll ausgeschriebenen Form auf, die allgemein in der Sprache des Catomes vorhanden sind. Diese finden typischerweise auf Pronomen von Substantiven, die von einem Modalverb gefolgt werden, Anwendung oder auf die negative Verwendung eines Modalverbs. Einige Verkürzungen haben zwei getrennte ausgeschriebene Formen - beispielsweise ist im Englischen "I'd" eine verkürzte Form von "I had" oder "I would". Der Kontext definiert üblicherweise welche ausgeschriebene Form Anwendung findet. Die Modelltabelle der Verkürzungen führt in diesem Fall zwei Einträge an.

Übersicht über die Indices

Wort/Bedeutungsindex geordnet nach Wort-Identifizierer

Dieser Index verbindet ein Wort in der Sprache mit seinem entsprechenden Eintrag in der Wort/Bedeutungsdatenbasis. Dieser Index wird in dem Editor verwendet, wenn der Bedeutungscode oder die CCML- Sprache erzeugt werden und ermöglicht es, Worte unmittelbar nachzuschlagen, wenn sie in das Eingabefenster des Editors eingegeben werden.

Wort/Bedeutungsindex geordnet nach Bedeutungs-Identifizierer

In der Leseeinrichtung sind die hauptsächlichen Ergebnisse aus der Wort/Bedeutungsdatenbasis Bedeutungen, die aus der Zwischensprache CCML entnommen werden, um in die geeigneten Worte der Sprache der Leseeinrichtung übersetzt zu werden. Dieser Index ermöglicht eine augenblickliche, direkte Entnahme aus dem Catome.

Betriebsmodi des Catomes

Entwicklung

Catome werden auf Microsoft Access Datenbasen gespeichert. Sie werden durch Sprachwissenschaftler aktualisiert und erweitert. Es gibt zwei weitere Datenbasen auf der Entwicklungsseite, die der Kunde niemals sieht. Dies sind:
- Universelle Bedeutungs-Identifizierer-Datenbasis
- Universelle Redewendungs-ldentifizierer-Datenbasis.
Diese zwei Datenbasen integrieren Bedeutungen und Redewendungen in jeder verschiedenen Sprache.

Produkt

Sowohl für den Editor als auch die Leseeinrichtung wird das Catome ausschließlich im Lesemodus bereitgestellt und kann durch den Benutzer nicht verändert werden. Auf das Catome kann nicht unmittelbar durch den Benutzer zugegriffen werden, einzig die linguistischen Module greifen auf es zu, um speziellen internen Aufgaben innerhalb des Editors oder der Leseeinrichtung Daten zur Verfügung zu stellen.

Beschreibung des Editors

Einführung

Für jedes Eingangs- oder Quellsprache, die von der bevorzugten Ausführungsform unterstützt wird, existiert ein spezieller Spracheditor. Dieser kann über das Internet unter Verwendung von elektronischen Handelstransaktionen, basierend auf Kreditkartenverarbeitung, verkauft werden. Der Editor kann als Zusatz zu Microsoft Word, Internet Explorer, Outlook, Qualcast Eudora, Netscape Communicator und Corel Word Perfect Software aktiviert werden. In jedem dieser Fälle wird der Editor aus einem Windows Pull-down-Menü aktiviert.
Die erste Funktion des Editors ist es, von dem Benutzer des Editors eingegebenen Text abzutasten und über einen Dialog mit pop-up-Fenstern sicherzustellen, dass die Bedeutung jedes Worts identifiziert wird, und dass jeder Satz grammatikalisch korrekt ist.
Die zweite Hauptfunktion des Editors ist es, den Satz zu verarbeiten und ihn in einen eigentümlichen CCML-Sprach- oder Bedeutungscode zu übersetzen. Das Ergebnis CCML kann von einer kompatiblen Lesesoftware gelesen und in jede unterstützte Sprache übersetzt werden.

Installation

Kunden, die eine Kopie des Editors wünschen, können das Produkt unter Verwendung eines Internet-Browsers von einer Website herunterladen. Der Editor ist vorzugsweise gegen illegales Kopieren und Softwarepiraterie "gesperrt". Wenn die Installation beginnt, werden die Kunden aufgefordert, ein Sicherheits-HTML-Formular mit ihrer Kreditkarteninformation und optional demographischen Daten auszufüllen. Wenn sie das Formular von ihrem Browser absenden und die Transaktion akzeptiert wird, erhalten sie einen einzigartigen, einmal verwendbaren "Entsperrungsschlüssel" der es ermöglicht, die Installation fortzusetzen. Während der Installation werden die Benutzer gefragt, welche regionale Sprache sie verwenden wollen. Für die englische Sprache würden die Wahlmöglichkeiten folgende sein:
- UK-Englisch
- US-Englisch
- Kanadisches Englisch
- Australisches Englisch.
In ähnlicher Weise bietet die Leseeinrichtung für Französisch beispielsweise an:
- Pariser Französisch
- Quebecer Französisch
- Belgisches Französisch
- Schweizer Französisch
Der Benutzer kann diese regionale Spracheinstellung über ein pop-up- Menü jederzeit ändern.

Starten des Editors

Bei der bevorzugten Ausführungsform wird der Editor über ein pulldown-Fenster (normalerweise "tools") in der Menüleiste des Textprozessors, Internet Browsers oder sprachverarbeitenden Produkts aufgerufen. Anstelle in diese Produkte etwas hineinzuschreiben, wird dem Benutzer ein Editoreingabefenster angeboten. Der Benutzer schreibt einen Text in dieses Fenster, Sätze jeweils einzeln, und beendet den Satz normalerweise mit einem Punkt, einem Ausrufezeichen, einem Fragezeichen oder einem Doppelpunkt. Er wird dann aufgefordert, die Taste F7 zu drücken, wenn der Satz tatsächlich vollständig eingegeben wurde.

Linguistische Verarbeitung

Linguistischer Schritt 1

Dieser Schritt weist eine Wort-für-Wort-Übersetzung in den Bedeutungscodes auf, d. h. in die Catome-zu-Catome-Bedeutungssprache oder kurz CCML. Jedes Wort wird verglichen, um zu sehen, ob es zu einem Wort in dem Catome oder der Begriffsdatenbasis passt. Das Catome ist tatsächlich eine Kombination der Begriffsdatenbasis und der Bedeutungsdatenbasis.
Falls das Wort nicht existiert, öffnet sich ein pop-up-Fenster, das dem Benutzer drei Auswahlmöglichkeiten gibt:
1) Verwendung des Wortes wie es eingegeben wurde. Es wird dann demjenigen, der den Text mit einer Leseeinrichtung für eine unterschiedliche Sprache liest, unübersetzt dargestellt.
2) Zurückwechseln in das Eingabefenster und erneutes Eingeben des Satzes.
3) Auswählen der Wörterbuchfunktion und Erhalten einer Liste von Wörtern von dem Catome mit nahekommender Schreibweise sowie Auswählen des Wortes, das geschrieben werden sollte.
Falls das Wort existiert, erscheint ein pop-up-Fenster, wenn das Catome mehrere Einträge für dieses Wort aufweist. In diesem Fenster wird jeder Eintrag, der in dem Catome gefunden wurde, aufgelistet, seine Wortart (beispielsweise Adjektiv, Substantiv, Verb etc.) sowie ein naheliegendes Synonym, um die spezielle Bedeutung dieses Eintrags in dem Catome darzustellen. Der Benutzer wählt den Eintrag mit der gewünschten Bedeutung. Wenn alle Worte verarbeitet wurden, bereitet der Editor die CCML-Äquivalente für jedes übersetzbare Wort vor, und zwar unter Verwendung des "Bedeutungs-Indikators" aus dem Catome als CCML- Wert für jedes ausgewählte oder unzweideutige Wort.

Linguistischer Schritt 2

Der CCML-Satz wird auf Redewendungen durchgesehen (einschließlich Redensarten und andere Phrasen oder Ausdrücke mit mehreren Worten). Falls eine Übereinstimmung zwischen den CCML-Wörtern und einem Eintrag in der Redewendungsdatenbasis innerhalb des Catomes besteht, gibt das Catome einen "Redewendungs-Indikator" zurück - eine Zahl, die die Redewendung eindeutig identifiziert. Diese wird dazu verwendet, den CCML-Text, der die ursprüngliche Redensart darstellt, zu ersetzen. Zusätzlich gibt das Catome in dem Fall, in dem der Redewendungs-Identifizierer keine äquivalente Redewendung in einer anderen Sprache hat, einen Satz von Wörtern in CCML aus, die die tatsächliche Bedeutung der Redewendung ausdrücken. Dieser CCML-Text wird an das CCML-Wort mit dem "Redewendungs-Identifizierer" angehängt.
(Wenn bei der Übersetzung unter Verwendung einer Leseeinrichtung keine äquivalente Redewendung in der anderen Sprache existiert, wird diese alternative CCML verwendet).

Linguistischer Schritt 3

Der CCML-Satz wird abgetastet, um jede CCML-Komponente zu identifizieren, die spezielle Attribute benötigt, die das Cafome bei der Verarbeitung der ursprünglichen Worte nicht liefern konnte. Dies tritt in zwei Situationen auf:
- Pronomen. Mit einem pop-up-Fenster fragt der Editor einmal für jedes unterschiedliche Pronom, ob es sich auf ein maskulines, feminines oder unbeseeltes Objekt bezieht. Die Geschlechtsmarkierung wird an das CCML-Pronomen angefügt. Das Programm nimmt beim nächsten Mal, bei dem das spezielle Pronomen auftaucht, an, dass die Geschlechtsinformation stimmt und nicht erneut gefragt werden muss. Falls das Pronomen nicht anzeigt, ob eine Person oder mehrere Personen oder Objekte mit dem Pronomen bezeichnet werden ("you" im Englischen kann eine Person oder mehrere Personen bedeuten) erscheint ein pop-up-Fenster und fordert den Benutzer auf, dies klarzustellen. Die Mehrzahl- Markierung wird an das CCML-Pronomen angefügt.
- Unbekannte Wörter. Falls das Wort dem Catome unbekannt war und der Benutzer sich dafür entscheidet, das ursprüngliche Wort zu verwenden, weiß der Editor nichts über die Eigenschaften, die das Wort besitzt. Ein pop-up-Fenster, erscheint, das den Benutzer auffordert, folgendes anzugeben:
o Angeben der Wortart (Verb, Substantiv, Adjektiv, etc.) des unbekannten Wortes.
o Angeben, ob das Wort singular, plural und/oder possessiv ist, falls anwendbar.
o Angeben des Geschlechts des Worts (maskulin, feminin oder neutral)
o Angeben, ob das Wort ein Eigenname ist (immer in der Schreibweise beginnend mit einem Großbuchstaben - wie Marek oder Brandon)
o Falls das Wort ein Verb ist, Angeben, welche Zeit das Wort als Verb reflektiert.
Die relevanten Eigenschaften werden an das unbekannte Wort als Attribut-Gruppe angefügt.

Linguistischer Schritt 4 (Verarbeiten spezieller Sprachanomalien)

Substantive die im Englischen als Adjektive verwendet werden. Es wird angenommen, dass dann, wenn eine Kette separater, benachbarter Substantive gefunden wird, das letzte Substantiv als das "tatsächliche" Substantiv betrachtet werden kann, und dass die vorhergehenden Substantive als Adjektive eingesetzt werden. Der Benutzer wird aufgefordert, dies zu bestätigen, falls die Option detaillierter "Verifikation" zu Beginn der Sitzung ausgewählt wurde (andere Sprachen können unterschiedliche Anomalien und unterschiedliche Verarbeitungserfordernisse haben).

Linguistischer Schritt S

Die CCML wird nun als vollständiger Satz abgetastet, um festzustellen, ob sie zu einer der Satzstrukturen in der Satzstrukturdatenbasis in dem Catome passt. Der Editor identifiziert das Hauptverb oder den Hauptverbausdruck in dem CCML-Text und verwendet dies dazu, seine Suche in der Datenbasis einzuengen. Wenn die Satzstruktur identifiziert wurde, erhält der Satzstruktureintrag eine kodierte Beschreibung der grammatikalischen Komponenten und ihrer Position innerhalb des Satztyps. Mit diesem Kodierungssystem kann der Editor verstehen, welches CCML- Wort oder welche CCML-Wörter in der Eingabe das Subjekt, das Objekt, das indirekte Objekt, Nebensätze und andere grammatikalische Komponenten in dem Satz darstellen. Der CCML-Satz wird mit Attributen markiert, um die CCML-Wörter entsprechend zu gruppieren.
Falls die Software die Verbform und die sich ergebende Satzstruktur nicht finden kann, verwendet sie die am nächsten liegenden Treffer in der Satzstrukturdatenbasis. Dem Benutzer wird ein pop-up-Fenster mit dem Originalsatz gezeigt, wie er gemäß jeder nächstliegenden Satzstruktur umgeformt wurde, einschließlich jeglicher wichtiger fehlender Wörter (zur Satzeinleitung, beispielsweise "that" oder "which") und jeglicher kritischer Satzzeichen, wie beispielsweise Kommas, um das Ende eines Satzes zu markieren. Der Benutzer wird aufgefordert, einen dieser Sätze auszuwählen oder zurückzugehen und den Satz anhand der gezeigten hilfreichen Hinweise neu einzugeben.

Linguistischer Schritt 6

Der vervollständigte Satz wird nun in einem neuen pop-up-Fenster angezeigt, wobei jede grammatikalische Komponente farbkodiert ist. Ein Schlüssel zur Farbkodierung wird angezeigt, der vermittelt, welche Komponente als das Subjekt, die Verbform, das Objekt, das indirekte Objekt usw. koloriert ist. Der Haupt- und die Nebensätze sind ebenfalls farbkodiert. Dies ist tatsächlich sehr einfach durchzuführen, da die Software eine passende spezifische Satzstruktur für den ursprünglichen Satz ausgewählt hat und diese grammatikalische Übung sehr leicht durchzuführen ist. Anklicken irgendeines der Wörter in diesem Fenster zeigt an, welche Wortart das Wort repräsentiert, sei es Adjektiv, Adverb, Konjunktion, Substantiv, Verb usw. Die Erfindung kann auf diese Weise ein wichtiges Werkzeug zum Erlernen der Grammatik darstellen.
Die Übersetzung des Satzes in die CCML-Sprache ist nun vollständig.

Beschreibung der Leseeinrichtung

Einführung

Für jede von der bevorzugten Ausführungsform unterstützte Sprache ist ein spezielles Sprachleseeinrichtungsprodukt vorhanden. Diese können kostenlos über das Internet an alle verteilt werden, die diese herunterladen wollen. Die Leseeinrichtung wird als Browser-plug-in aktiviert, indem auf irgendeiner Netzseite auf ein Ikon geklickt wird oder indem die Leseeinrichtung aus einem Windows-pulldown-Menü in einem E-Mail - System aufgerufen wird. Die Leseeinrichtung kann jeden Text auf einer Netzseite oder in einer E-Mail, der unter Verwendung des Editors erzeugt wurde, fehlerlos, automatisch und perfekt in die Sprache der Leseeinrichtung übersetzen und diesen auf dem Schirm anzeigen.

Funktioneller Schritt 1

Wenn die Leseeinrichtung das erste Mal installiert wird, wird der Benutzer gefragt, ob er das Catome in komprimierter oder dynamischer Form speichern will. Der komprimierte Modus bedeutet ein Plattenplatzerfordernis von SMb, wohingegen der dynamische Modus bis zu 30Mb erfordern kann. Der Unterschied liegt in der Geschwindigkeit - die dynamische Version muss dann, wenn die komprimierte Version gespeichert ist, jedes Mal erzeugt werden, wenn die Leseeinrichtung verwendet wird.

Funktioneller Schritt 2

Der Benutzer wird gefragt, welche regionale Spracheversion er für die Übersetzungen benützen möchte. Für die englische Sprache wird die folgende Auswahl angeboten:
- UK-Englisch
- US-Englisch
- Kanadisches Englisch
- Australisches Englisch.
In ähnlicher Weise bietet die Leseeinrichtung für Französisch folgendes an:
- Pariser Französisch
- Quebecer Französisch
- Belgisches Französisch
- Schweizer Französisch.
Der Benutzer kann diese regionale Spracheinstellung jederzeit über ein pop-up-Menü ändern.

Funktioneller Schritt 3 - E-Mail

Der Benutzer erhält ein E-Mail und ein pop-up-Menü erscheint und informiert den Benutzer, dass die E-Mail unter Verwendung der Leseeinrichtung übersetzbar ist. Das an der Leseeinrichtung angefügte E-Mail- Modul hat detektiert, dass die ankommende E-Mail-Nachricht eine CCML-Komponente hat. Der Benutzer wird gebeten, eine der folgenden Möglichkeiten auszuwählen:
- Soll die Nachricht in ihrer ursprünglichen Sprache gelesen werden?
- Soll die Nachricht in der Sprache der Leseeinrichtung gelesen werden? (Falls der Benutzer mehrere Sprachleseeinrichtung hat, wird das pop-up-Fenster diese alle zeigen).
Falls sich der Benutzer dafür entscheidet, eine Sprachleseeinrichtung zu verwenden, wird der Benutzer gefragt, in welcher regionalen Sprachversion er die Übersetzung sehen möchte. Die CCML-Komponente wird dann in den Eingabepuffer der Leseeinrichtung verschoben und in den Schritten 5 bis 10 automatisch übersetzt. Die sich ergebende Übersetzung wird auf dem Schirm angezeigt, als ob es die ursprüngliche Nachricht wäre.
Wenn die Nachricht gelesen wurde, wird der Benutzer gefragt, ob er die E-Mail-Nachricht gemäß der folgenden Optionen speichern möchte:
- Nur Übersetzung
- Übersetzung und ursprüngliche Nachricht.
In jedem Fall wird die CCML-Komponente immer gespeichert, so dass die Nachricht erneut in eine andere Sprache oder zu einem anderen Zeitpunkt in dieselbe Sprache übersetzt werden kann.
Damit ist die Funktion der Leseeinrichtung für E-Mail abgeschlossen.

Funktioneller Schritt 4 - Netzseite

Der Benutzer surft im Worldwide Web und findet eine Netzseite, die das Ikon hat, mit dem dargestellte CCML-Dateien identifiziert werden. Wenn der Benutzer auf dieses Ikon klickt, erscheint ein pop-up-Menü, das den Benutzer informiert, dass diese Netzseite unter Verwendung der CCML- Leseeinrichtung lesbar ist. Das plug-in-Modul der Leseeinrichtung im Browser hat detektiert, dass die aktuelle Netzseite eine unsichtbare CCML-Komponente hat. Der Benutzer wird gebeten, eine der folgenden Möglichkeiten auszuwählen:
- Die Seite in ihrer Originalsprache zu lesen
- Die Seite in der Sprache der Leseeinrichtung zu lesen. (Falls der Benutzer mehrere Sprachleseeinrichtungen hat, wird das pop-up- Fenster diese alle zeigen).
Falls der Benutzer sich dafür entscheidet, eine Sprachleseeinrichtung zu verwenden, wird der Benutzer gefragt, in welcher regionalen Sprachversion er die Übersetzung sehen möchte. Die CCML-Komponente wird zu dem Eingangszwischenspeicher der Leseeinrichtung verschoben und in den Schritten 5 bis 10 automatisch übersetzt. Die sich ergebende Übersetzung wird auf dem Schirm dargestellt, als ob es die Originalseite wäre. Alle HTML-Markierungen für die Originalsprache werden respektiert und beibehalten: Dies bedeutet, dass der übersetzte Text auf der Netzseite in exakt der gleichen Weise formatiert ist, wie der Text der Originalsprache.
Damit ist die Funktion der Leseeinrichtung für die Übersetzung von Netzseiten vollständig.

Funktioneller Schritt 5

Die zu übersetzende CCML-Sprache ist in dem Eingangszwischenspeicher des Leseeinrichtungsmoduls enthalten.
Die Leseeinrichtung greift jeden Satz nacheinander auf, übersetzt ihn und ordnet das Ergebnis in dem Ausgangszwischenspeicher an. Die Vorgänge sind in den folgenden Schritten 6 bis 10 beschrieben. Wenn alle Sätze übersetzt wurden, werden die Inhalte des Ausgangszwischenspeicher zu der Nachrichtenanzeigefunktion der E-Mail-Software oder zu der gespeicherten Kopie der Netzseite in dem Cache-Speicher des Browsers verschoben. Die E-Mail-Software wird getriggert, um die Nachricht anzuzeigen oder die "refresh"-Funktion des,Browsers wird aktiviert, um die Netzseite erneut aufzubauen.
Falls die CCML-Sprache von einer Netzseite kam, entfernt die Leseeinrichtung jedweden HTML-Bestandteil, der die Formatierung betrifft und jeden einzelnen CCML-Bestandteil umgibt und ordnet ihn um jeden übersetzten Satz innerhalb des Ausgangszwischenspeichers an. Dies ermöglicht es, dass der Text der Übersetzung in identischer Weise wie die Originalsprache formatiert wird.

Funktioneller Schritt 6

Der Satzstruktur-Identifizierer wird lokalisiert und in dem Catome nachgeschlagen. Eine äquivalente Struktur wird von dem Catome zurückgegeben, die Information bezüglich der Abfolge der grammatikalischen Komponenten gibt, in der die CCML-Sprache übersetzt werden sollte und in der sie in der Übersetzungsausgabe geordnet werden sollte. Die CCML-Komponenten werden demgemäß umgestellt, um dieser Spezifizierung zu entsprechen.

Funktioneller Schritt 7

Jede CCML-Komponente in dem Satz wird auf einen Redewendungs- Identifizierer hin abgetastet. Falls einer gefunden wird, wird dieser an das Catome übergeben, das eine äquivalente Redewendung in CCML zurückgibt und den Redewendungsbestandteil in der ursprünglichen CCML-Sprache ersetzt. Falls kein Ausdruck zurückgegeben wird, wird die angefügte "Redewendungsbedeutung" in der ursprünglichen CCML- Sprache verwendet, anstatt den Redewendungsausdruck zu ersetzen.

Funktioneller Schritt 8

Satz für Satz wird die CCML-Sprache auf jeden "Bedeutungs- Identifizierer" hin gelesen. Diese werden im Gegenzug an das Catome übergeben, das das zu verwendende Wort zusammen mit seinem "Wort- Identifizierer"- Wert zurückgibt.

Funktioneller Schritt 9

Die Worte werden verändert, um sie entweder bezüglich der Zeit, des Geschlechts, der Subjekt- oder Objektanpassung, singular und plural anzupassen. Dies wird durch Heranziehen der zweistelligen "Bedeutungs-Qualifizierer" von den ursprünglichen CCML-Komponenten sowie jeglicher Geschlechtsinformation oder anderer Attribute, die mit dem CCML-Bestandteil in der ursprünglichen CCML-Sprache assoziiert sind, durchgeführt. Eine Aktualisierung des zweistelligen Qualifizierers zu dem "Wort-Identifizierer" wird erzeugt, angehängt und der sich ergebenden "Wort-Identifizierer" wird an das Catome übergeben. Das Catome gibt das zu verwendende Wort, korrekt abgeändert, zurück.

Funktioneller Schritt 10

Falls bei dem Satz das "Verkürzungs-Attribut" vorhanden ist oder die Sprache formale Verkürzungen verwendet, werden jedwede anwendbare Verkürzungen für die Wörter oder Wortkombinationen von dem Catome entgegengenommen und anstelle des unverkürzten Textes eingesetzt. Wenn beispielsweise in das Französische übersetzt wird, übersetzt das Programm den englischen Ausdruck "I love" als "Je aime". Da das Französische eine formale Verkürzung verwendet, erzeugt dieser Schritt die korrekte Antwort "J'aime". Wenn dies durchgeführt wurde, wird der vollständige Satz an den Ausgangszwischenspeicher der Leseeinrichtung übergeben. Die Übersetzung ist vollständig.
Auch wenn die Erfindung vorstehend im Detail unter Bezugnahme auf eine spezielle, bevorzugte Ausführungsform beschrieben wurde, ist einsichtig, dass die Beschreibung der bevorzugten Ausführungsform nicht beabsichtigt, den Rahmen der vorliegenden Erfindung zu beschränken.

Claims

1. Übersetzungssystem zum Übersetzen eines Eingangstextes in einer im wesentlichen zwanglosen natürlichen Sprache in einen Bedeutungscode unter Verwendung von Eingaben von einem Benutzer, die eine Kenntnis der Sprache des Eingangstextes erfordern, wobei der Bedeutungscode von einem Maschinenübersetzungssystem in einen Ausgangstext in wenigstens einer unterschiedlichen Sprache umgesetzt werden soll, wobei das System folgendes aufweist:

- Analysiermittel zum Erkennen von Sätzen und Wörtern innerhalb der Sätze des Eingangstextes, wobei die Analysiermittel die Wörter in einer Begriffsdatenbasis lokalisieren,

- Bedeutungseditormittel zum Entnehmen mehrerer Bedeutungsbeschreibungen in der Sprache des Eingangstextes aus einer Bedeutungsdatenbasis für jedes von wenigstens einigen Wörtern, die für eine gegebene Wortart in der Begriffsdatenbasis mehrere Bedeutungen aufweisen, zum Entgegennehmen einer Bestätigung von dem Benutzer, welche der mehreren Bedeutungsbeschreibungen für jedes der wenigstens einigen Wörter geeignet ist und um von dem Benutzer einen Hinweis auf eine Wortart der Wörter in jedem der Sätze entgegenzunehmen, und

- Bedeutungscodegeneratormittel zum Empfangen von Daten von den Bedeutungseditormitteln und zum Erzeugen eines Bedeutungscodes entsprechend dem Eingangstext, wobei der Bedeutungscode einen Identifizierungscode enthält, der einer Bedeutung jedes Worts, das in dem Eingangstext gefunden wurde, entspricht und ausreichend grammatikalische Information enthält, so dass der Bedeutungscode mittels einer Maschine korrekt und automatisch in die wenigstens eine unterschiedliche Sprache übersetzt werden kann.

2. System nach Anspruch 1, worin die Bedeutungseditormittel weiter Eingabemittel aufweisen, um es einem Benutzer zu erlauben, eine Eingabe in Reaktion auf wenigstens ein Wort in einem gegebenen Satz, das in der Begriffsdatenbasis nicht gefunden wurde, zu machen.

3. System nach Anspruch 2, worin die Eingabemittel Mittel aufweisen, die es dem Benutzer erlauben, das wenigstens eine Wort als nicht übersetzbar zu kennzeichnen, wobei die Bedeutungscodegeneratormittel in den Bedeutungscode einen Code, der einen nicht übersetzbaren Text anzeigt, sowie einen Text einschließen, der das wenigstens eine Wort repräsentiert.

4. System nach Anspruch 2, worin die Eingabemittel Mittel aufweisen, die es dem Benutzer ermöglichen, den gegebenen Satz zu editieren, wobei ein Begriff oder ein Ausdruck, der in der Begriffsdatenbasis nicht gefunden wird, durch Ändern der Satzstruktur und Ändern von Wörtern vermieden werden kann.

5. System nach Anspruch 2, worin die Bedeutungseditormittel Wörterbuchmittel aufweisen und es dem Benutzer ermöglichen, wenigstens ein alternatives Wort oder einen alternativen Ausdruck, der von den Wörterbuchmitteln erhalten wurde und dem wenigstens einen Wort, das in der Begriffsdatenbasis nicht gefunden wurde, entspricht, auszuwählen, wobei der Benutzer beim Konvertieren von Wörtern, die in der Begriffsdatenbasis nicht gefunden wurden, in Worte mit einer ähnlichen Bedeutung, die in der Begriffsdatenbasis gefunden wurden, unterstützt wird.

6. System nach Anspruch 5, worin die Wörterbuchmittel Mittel aufweisen, um es dem Benutzer zu ermöglichen, Inhalte der Wörterbuchmittel zu editieren.

7. System nach Anspruch 5, worin der Bedeutungscode ein im wesentlichen numerischer Code ist und Text enthält, der das wenigstens eine Wort repräsentiert, das nicht in der Begriffsdatenbasis gefunden wurde, wobei der Bedeutungscode zuverlässig in die Sprache des Eingangstextes umgesetzt werden kann.

8. System nach einem der Ansprüche 1 bis 6, worin der Bedeutungscode ein im wesentlichen numerischer Code ist.

9. System nach Anspruch 8, worin der im wesentlichen numerische Code numerische Wort-Identifizierer aufweist, die jeweils ein Präfix, das eine Wortart kennzeichnet, einen eindeutigen Identifizierer innerhalb der gekennzeichneten Wortart, und ein Suffix aufweisen, das eine Art und Weise kennzeichnet, in der eine veränderliche Wortart verwendet wird.

10. System nach Anspruch 8 oder 9, worin der Bedeutungscode Text aufweist, der die Wörter in den Sätzen des Eingangstextes repräsentiert, wobei der Bedeutungscode zuverlässig in die Sprache des Eingangstextes umgesetzt werden kann.

11. System nach einem der Ansprüche 1 bis 10, worin der Eingangstext ein mit Markierungen versehenes Sprachformat aufweist und der Bedeutungscodegenerator in den Bedeutungscode mit Markierungen versehene Codes einschließt, die es ermöglichen, dass der Bedeutungscode maschinell in die wenigstens eine unterschiedliche Sprache übersetzt und in das mit Markierungen versehene Sprachformat umgesetzt wird, wobei der Bedeutungscode maschinell übersetzbar ist und unter Verwendung eines Internet- Browsers mit einem Plug-in-Programm zum Übersetzen und Umsetzen des Bedeutungscodes angezeigt werden kann.

12. System nach einem der Ansprüche 1 bis 11, weiter mit:

- Mitteln zum Hinzufügen eines neuen Eintrags in die Begriffsdatenbasis und zum Verbinden des neuen Eintrags mit wenigstens einer Bedeutungsbeschreibung in der Bedeutungsdatenbasis, wobei eine Qualität der Begriffsdatenbasis mit der Benutzung des Systems entwickelt werden kann.

13. System nach einem der Ansprüche 1 bis 12, weiter mit:

- Mitteln zum Editieren der Begriffsdatenbasis, um Verbindungen zwischen Eintragungen in der Begriffsdatenbasis und Bedeutungsbeschreibungen in der Bedeutungsdatenbasis zu verändern, wobei eine Qualität der Verbindungen zwischen Begriffen in der Begriffsdatenbasis und Bedeutungen in der Bedeutungsdatenbasis mit der Benutzung des Systems entwickelt werden kann.

14. System nach einem der Ansprüche 1 bis 13, worin die Bedeutungseditormittel zum Entgegennehmen eines Hinweises des Benutzers auf eine Wortart der Wörter in jedem der Sätze den Benutzer auffordern, grammatikalische Information bereitzustellen, die in der Sprache des Eingangstextes nicht erforderlich ist aber beim Erstellen einer genauen Übersetzung in wenigstens eine unterschiedliche Sprache nützlich ist, wobei wenigstens zwei unterschiedliche Sprachen vorgesehen sind.

15. System nach einem der Ansprüche 1 bis 14, worin die Bedeutungseditormittel folgendes aufweisen:

- eine Satzstrukturdatenbasis mit Daten, die eine Anzahl allgemeiner Satzstrukturen definieren, die als Modell herangezogen werden, um zu bestimmen, wo grammatikalische Komponenten eines Satzes zu finden sind und um Beziehungen zwischen den grammatikalischen Komponenten zu bestimmen, sowie

- Mittel zum Entgegennehmen eines Hinweises von dem Benutzer, welche Satzstruktur aus der Anzahl der allgemeinen Satzstrukturen auf wenigstens einige der Sätze zutrifft, wobei der Bedeutungscode weiter Satzstrukturdaten enthält.

16. Verfahren zum vom Menschen unterstützten maschinellen Verarbeiten eines Eingangstextes in einer im wesentlichen zwanglosen natürlichen Sprache, um eine Bedeutungscodedatei für das Erzeugen eines übersetzten Ausgangstextes in wenigstens einer unterschiedlichen Sprache zu erhalten, wobei das Verfahren folgende Schritte aufweist:

- Definieren einer Wortart und einer Bedeutung von Wörtern in jedem Satz des Eingangstextes entsprechend der Bestätigung eines Benutzers, der einen Editor in der Sprache des Eingangstextes bedient, wobei die für jedes der Wörter definierte Bedeutung aus einer vorbestimmten Bedeutungsdatenbasis, die einen Satz von Bedeutungen und zugeordnete Bedeutungscodes enthält, abgeleitet wird, wobei wenigstens einige der Wörter in der Bedeutungsdatenbasis für dieselbe Wortart einen Satz aus mehreren Bedeutungen aufweisen,

- Speichern von Information in der Bedeutungscodedatei, einschließlich der in dem vorhergehenden Schritt abgeleiteten Bedeutungscodes und - Übergeben der Bedeutungscodes an eine maschinelle Übersetzungseinrichtung zum automatischen Erzeugen eines übersetzten Ausgangstextes in wenigstens einer unterschiedlichen Sprache, wobei die Übersetzungseinrichtung eine Datenbasis übersetzter Begriffe aufweist, die den Bedeutungscodes zugeordnet sind.

17. Verfahren zum vom Menschen unterstützten maschinellen Verarbeiten eines Eingangstextes in einer im wesentlichen zwanglosen natürlichen Sprache, um eine Bedeutungscodedatei für das Erzeugen eines übersetzten Ausgangstextes in wenigstens einer unterschiedlichen Sprache zu erhalten, wobei das Verfahren folgende Schritte aufweist:

- Speichern von Information in der Bedeutungscodedatei, einschließlich der in dem vorhergehenden Schritt abgeleiteten Bedeutungscodes in der Bedeutungscodedatei,

- Bereitstellen einer maschinellen Übersetzungseinrichtung zum maschinellen Übersetzen der Bedeutungscodes in die wenigstens eine unterschiedliche Sprache, wobei die Übersetzungseinrichtung eine Datenbasis übersetzter Begriffe aufweist, die den Bedeutungscodes zugeordnet sind, und

- automatisches Erzeugen des Ausgangstextes aus der Bedeutungscodedatei unter Verwendung der maschinellen Übersetzungseinrichtung.

18. Verfahren nach Anspruch 16 oder 17, worin der Schritt des Speicherns eine elektronische Übertragung der Bedeutungscodedatei an einen entfernten Ort enthält, an dem die maschinelle Übersetzungseinrichtung angeordnet ist.

19. Verfahren nach einem der Ansprüche 16 bis 18, worin der Schritt des Definierens das Auffordern eines Benutzers einschließt, grammatikalische Information bereitzustellen, die in der Sprache des Eingangstextes nicht erforderlich ist aber beim Erstellen einer genauen Übersetzung in wenigstens eine unterschiedliche Sprache nützlich ist, wobei wenigstens zwei unterschiedliche Sprachen vorgesehen sind.

20. Verfahren nach Anspruch 16, mit den folgenden Schritten:

- Empfangen eines Signals, wobei das Signal Daten aus einer Bedeutungscodedatei enthält, die gemäß dem Verfahren nach den Ansprüchen 16 oder 17 erhalten wurde,

- Bereitstellen einer maschinellen Übersetzungseinrichtung zum maschinellen Übersetzen der Bedeutungscodedatei in wenigstens eine unterschiedliche Sprache, wobei die Übersetzungseinrichtung eine Datenbasis übersetzter Begriffe aufweist, die den Bedeutungscodes zugeordnet sind, und

21. Verfahren nach einem der Ansprüche 16 bis 20, worin:

- der Schritt des Definierens weiter das Auswählen einer allgemeinen Satzstruktur aus einer Anzahl von allgemeinen Satzstrukturen aufweist, die als Modell herangezogen werden, um zu bestimmen, wo grammatikalische Komponenten eines Satzes zu finden sind, und um Beziehungen zwischen den grammatikalischen Komponenten anzugeben, wobei die allgemeine Satzstruktur auf wenigstens einige der Sätze anwendbar ist,

- wobei die Bedeutungscodedatei weiter Satzstrukturdaten enthält und

- wobei die maschinelle Übersetzungseinrichtung weiter eine Datenbasis mit den allgemeinen Satzstrukturen enthält und

- wobei auch beim Erzeugen des Ausgangstextes die Satzstrukturdaten für die Sätze verwendet werden, die die ausgewählte allgemeine Satzstruktur haben.

22. Computerlesbarer Speicher zum Speichern programmierbarer Befehle, geeignet zum Durchführen aller Schritte des Verfahrens eines der Ansprüche 16 bis 21, wenn diese Befehle mittels eines Computers ausgeführt werden.