DE69803043T2 - Übersetzungssystem - Google Patents

Übersetzungssystem

Info

Publication number
DE69803043T2
DE69803043T2 DE69803043T DE69803043T DE69803043T2 DE 69803043 T2 DE69803043 T2 DE 69803043T2 DE 69803043 T DE69803043 T DE 69803043T DE 69803043 T DE69803043 T DE 69803043T DE 69803043 T2 DE69803043 T2 DE 69803043T2
Authority
DE
Germany
Prior art keywords
meaning
language
database
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69803043T
Other languages
English (en)
Other versions
DE69803043D1 (de
Inventor
James Anglehart
Marek Brandon
Maria Veres
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHINAR LINGUISTIC TECHNOLOGIES
Original Assignee
SHINAR LINGUISTIC TECHNOLOGIES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHINAR LINGUISTIC TECHNOLOGIES filed Critical SHINAR LINGUISTIC TECHNOLOGIES
Publication of DE69803043D1 publication Critical patent/DE69803043D1/de
Application granted granted Critical
Publication of DE69803043T2 publication Critical patent/DE69803043T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Separation By Low-Temperature Treatments (AREA)
  • Cyclones (AREA)
  • Vehicle Body Suspensions (AREA)

Description

  • Die Erfindung betrifft ein computerbasiertes Übersetzungssystem. Speziell betrifft die vorliegende Erfindung ein computerbasiertes Übersetzungssystem, bei dem eine Person, die vollständiges Verständnis und vollständige Kompetenz in einer Sprache eines Originaltextes, der zu übersetzen ist, aufweist, die Bedeutung des Textes bereitstellt und/oder bestätigt, ohne dass Kenntnis irgendeiner anderen Sprache erforderlich wäre, so dass die Daten, die die Bedeutung des Originaltextes betreffen, dazu verwendet werden können, den Originaltext automatisch zu übersetzen. Die Erfindung bezieht sich auch auf ein computerbasiertes Übersetzungssystem das automatisch Bedeutungscodedaten übersetzt, die einen Quelltext repräsentieren, um eine Übersetzung in einer speziellen Sprache zu erhalten. Die Erfindung bezieht sich weiterhin auf ein Verfahren zum Übersetzen, bei dem Bedeutungsdaten, die einen Quelltext enthalten, durch eine Person, die der Sprache des Quelltextes mächtig ist, bereitgestellt werden, ohne irgendeine Kenntnis irgendeiner anderen Sprache zu erfordern, und daraufhin die Bedeutungsdaten automatisch in einen Übersetzungszieltext übersetzt werden, ohne irgendeine andere Kenntnis der Quellsprache zu erfordern.
  • Auf dem Gebiet automatisierter Übersetzungssysteme werden traditionell zwei Ansätze verfolgt. Bei dem ersten Ansatz wird künstliche Intelligenz dazu verwendet, einen bestmöglichen Treffer der Bedeutung der Quellsprache bereitzustellen, um in der Lage zu sein, automatisch eine Übersetzung des Quelltextes zu erzeugen. Solche automatisierten Systeme erkennen Sprachteile in der Quellsprache, und diese grammatikalische Information wird dazu verwendet, um in der Zielsprache eine geeignete Übersetzung zu rekonstruieren. Wenn ein Wort in der Quellsprache zwei Bedeutungen hat, wird, basierend auf dem Kontext, die wahrscheinlichste Bedeutung verwendet, um die Übersetzung bereitzustellen. Der Kontext wird durch das Vorhandensein anderer Worte bestimmt. Die Ausgabe solcher Systeme ist ein übersetzter Text, der bis heute von zweifelhafter Qualität und Verlässlichkeit ist.
  • Bei dem zweiten Typ von Übersetzungssystemen stellen die automatischen Übersetzungssysteme eine Hülfe für Übersetzer bereit, in der der Quelltext automatisch grammatikalisch analysiert wird, und jede mögliche Übersetzung für jedes Wort in dem Satz kann von dem Übersetzer ausgewählt werden, um den übersetzten Text in effizienter Weise zu erhalten. Der Übersetzer muss sowohl die Bedeutung der Originalsprache als auch die Bedeutung der Zielsprache kennen, um dafür kompetent zu sein, zu bestätigen, dass der Durchgang des Quelltextes korrekt ist und um die korrekte Übersetzung für jedes Wort in dem Satz auszuwählen und auf diese Weise eine korrekte Übersetzung bereitzustellen.
  • Im Stand der Technik sind zwei Ansätze, einen unterschiedlichen Typ eines Übersetzungssystems bereitzustellen, erwähnenswert. In dem US- Patent 5,587,903 von Yale wird ein von einem Benutzer eingegebener Satz unter Verwendung seiner oder ihrer Muttersprache in Esperanto übersetzt. Dies ist ähnlich zu dem zweiten Typ von Übersetzungssystemen, mit der Ausnahme, dass der Benutzer von seiner oder ihrer Muttersprache in Esperanto übersetzt, und dass die Übersetzung eine Datenbasis einschließt, die relationale und/oder grammatikalische Information über den Esperantotext enthält. Das erhaltene Ergebnis, dient dazu, den Sinn der übersetzten Sätze in einer Form nachzuzeichnen, die von einer Maschine erkannt werden kann. In "Technical translation as information transfer across language boundaries" von P. C. Ganeshsundaram, Journal of Information Science 2(1980), Seiten 91 bis 100, wird eine Struktur zum Voreditieren eines Textes in der Quellsprache beschrieben, um Wortarten der Worte teilweise zu definieren. Bei diesem Voreditieren wird keine Übersetzung oder Bestimmung der Bedeutung der Worte durchgeführt. Bei einfachen technischen Texten wird angenommen, dass der voreditierte Text mittels einer Maschine unter Verwendung wortgetreuer Übersetzungen der voreditierten Worte in eine von zahlreichen Zielsprachen korrekt übersetzt werden kann.
  • Die internationale Anmeldung WO 94/06086 beschreibt ein Übersetzungssystem, das mittels eines interaktiven Texteditors, der von den Autoren des eingegebenen Textes verwendet wird, einer Untermenge der natürlichen Sprache lexikalische und grammatikalische Randbedingungen oder Abhängigkeiten aufsetzt, eine sogenannte natürliche Sprache mit Randbedingungen. Darüber hinaus wird dann, wenn eine semantische Doppeldeutigkeit verbleibt, der Benutzer zum Auflösen dieser Doppeldeutigkeit aufgefordert und entsprechende Markierungen werden in den Quelltext eingefügt, um die korrekte Interpretation sicherzustellen. Der mit aufgelösten Doppeldeutigkeiten und Abhängigkeiten versehene Text wird in eine Zwischensprache übersetzt, bevor er in den Zieltext übersetzt wird.
  • US-Patent Nr. US-A-5,535,120 beschreibt ein Maschinenübersetzungssystem, das auf dem "Interlingua"-Ansatz aufbaut, der beabsichtigt, eingegebene Texte einer Quellsprache in eine Zwischensprache zu dekompilieren, die deren "Bedeutung" oder semantischen Gehalt repräsentiert, und dann die semantischen Strukturen in äquivalente Ausgabesätze der Zielsprache umzuwandeln.
  • Das US-Patent Nr. US-A-4,954,984 stellt ein Maschinenübersetzungssystem bereit, das von einem Benutzer verlangt, einen eingegebenen Text mit grammatikalischer Information zu versehen, die in der Quellsprache weggelassen aber in der Zielsprache erforderlich ist.
  • Die internationale Anmeldung WO 97/18516 beschreibt ein System zum Übersetzen von HTML-Dokumenten, das den textlichen Inhalt übersetzt aber das Layout des Dokuments beibehält.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Übersetzungssystem bereitzustellen, bei dem die Aufgabe, die exakte Bedeutung eines zu übersetzenden Textes zu definieren, von einer Person gelöst wird, die die Sprache und die Bedeutung eines zu übersetzenden Textes kennt, ohne irgendeine Kenntnis der Sprache, in die der Text übersetzt werden soll, zu erfordern. Daten, die die exakte Bedeutung repräsentieren, werden gespeichert, um eine automatische Übersetzung in eine oder mehrere Zielsprachen zu erleichtern. Beispielsweise kann ein Autor eines Textes, der möchte, dass sein oder ihr Text leicht in andere Sprachen übersetzt werden kann, einen Texteditor gemäß der Erfindung verwenden, um die erforderlichen Bedeutungsdaten bereitzustellen, so dass die Übersetzung automatisch durchgeführt werden kann, ohne weitere linguistische Daten zu erfordern.
  • Eine weitere Aufgabe der vorliegenden Erfindung ist es, einen automatischen Übersetzungstextgenerator bereitzustellen, der einen Übersetzungstext ausgehend von der Ausgabe eines einsprachigen Bedeutungseditors erzeugt.
  • Gemäß der Erfindung wird ein Übersetzungssystem zum Übersetzen eines Eingangstextes in einen Bedeutungscode bereitgestellt, das Eingaben von einem Benutzer verwendet und die Kenntnis einer Sprache des Eingangstextes erfordert, und bei dem der Bedeutungscode von einem Maschinenübersetzungssystem in einen Ausgabetext in wenigstens einer unterschiedlichen Sprache umgesetzt wird. Das System umfasst Analysiermittel zum Erkennen von Sätzen und Worten innerhalb der Sätze des Eingangstextes. Die Analysiermittel lokalisieren die Worte in einer Begriffsdatenbasis. Ein Bedeutungseditormittel ist bereitgestellt, um von einer Bedeutungsdatenbasis mehrere Beschreibungen der Bedeutung in der Sprache des Eingangstextes für jedes der wenigstens einigen Worte mit mehreren Bedeutungen in der Begriffsdatenbasis bereitzustellen, um von dem Benutzer eine Bestätigung zu erhalten, welche der mehreren Bedeutungsbeschreibungen für jedes der Worte geeignet ist, und um von dem Benutzer einen Hinweis auf eine Wortart der Worte in jedem der Sätze zu erhalten. Ebenfalls vorgesehen sind Bedeutungscodegeneratormittel, um Daten von den Bedeutungseditormitteln zu empfangen und zum Erzeugen eines Bedeutungscodes, der dem Eingangstext entspricht. Der Bedeutungscode weist einen Identifizierungscode auf, der einer Bedeutung jedes Worts, das in dem Eingangstext gefunden wird, entspricht und ausreichend grammatikalische Informationen enthält, so dass der Bedeutungscode mittels einer Maschine korrekt in die wenigstens eine unterschiedliche Sprache übersetzt werden kann.
  • Die Erfindung stellt auch ein Verfahren zum personenunterstützten Maschinenübersetzen eines Eingangstextes einer Sprache bereit, um einen Ausgangstext in wenigstens einer unterschiedlichen Sprache zu erhalten, wobei das Verfahren folgende Schritte aufweist:
  • - Definieren einer Wortart und einer Bedeutung von Worten in jedem Satz des Eingangstextes unter Verwendung eines Editors in der Sprache des Eingangstextes, wobei die für jedes der Worte definierte Bedeutung von einer vorbestimmten Bedeutungsdatenbasis mit einem Satz von Bedeutungen und entsprechenden Bedeutungscodes abgeleitet wird,
  • - Speichern von Information, die aus dem vorhergehenden Schritt abgeleitete Bedeutungscodes aufweist, in einer Bedeutungscodedatei,
  • - Bereitstellen einer Maschinenübersetzungsvorrichtung zum maschinellen Übersetzen der Bedeutungscodedatei in wenigstens eine unterschiedliche Sprache, wobei die Übersetzungsvorrichtung eine Datenbasis übersetzter Begriffe, die den Bedeutungscodes entsprechen, aufweist, und
  • - Erzeugen des Ausgangstextes ausgehend von der Bedeutungscodedatei unter Verwendung der Maschinenübersetzungsvorrichtung. Einzelheiten und Merkmale bevorzugter Systeme und bevorzugter Verfahren gemäß der Erfindung sind in den Ansprüchen angegeben.
  • Vorteilhafterweise sind die Bedeutungscodedaten ausreichend deutlich, um eine automatische Übersetzung in mehrere Sprachen zu ermöglichen. Bei einer bevorzugten Ausführungsform enthalten die Bedeutungscodedaten auch eine Layout-Information, so dass der automatische Übersetzungsgenerator einen Ausgangstext erzeugen kann, der dasselbe Format wie der Eingangstext aufweist, und speziell kann der automatische Übersetzungsgenerator die Größe des übersetzten Textes skalieren, um ein Textobjekt zu erzeugen, das in dem originalen Quelltextformat spezifizierte Abmessungen aufweist. Es ist ein bevorzugtes Merkmal der vorliegenden Erfindung, dass der automatische Übersetzungsgenerator ein einspielbares Softwaremodul zur Verwendung mit vorhandenen Texteditoren oder HTML-Anzeigesoftware ist, die auch als Netzbrowser bezeichnet werden.
  • Vorzugsweise ist der einsprachige Bedeutungseditor so konfiguriert, dass dann, wenn er auf ein Wort trifft, das in seiner Sprachdatenbasis nicht zu finden ist, er dem Benutzer erlaubt, ein geeignetes Synonym einzugeben. Der Editor kann das unbekannte Wort aufnehmen und den Zeiger auf das nahekommende Synonym erzeugen. Zusätzlich ist es vorteilhaft, dass der einsprachige Bedeutungseditor es dem Benutzer erlaubt, den Originalsatz zu rekonstruieren, wenn ein Wort oder eine Gruppe von Worten in der Sprachdatenbasis nicht gefunden wird. Der rekonstruierte Satz kann auf diese Weise ein Satz sein, der unter Verwendung der vorhandenen Sprachdatenbasis leicht definiert werden kann. Vorzugsweise wird es dem einsprachigen Bedeutungseditor gestattet, ein Wort oder eine Gruppe von Worten unübersetzt zu lassen, um in dem Übersetzungstext kursiv, in Anführungszeichen oder einer anderen speziellen Schriftart zu erscheinen, die die Worte als originale, ausländische Worte identifiziert (beispielsweise "Katakana" in Japanisch). Worte, die in der Sprachdatenbasis nicht gefunden werden, können auch durch Telekommunikationsmittel automatisch an den Sprachdatenbasiserzeuger übermittelt werden, um eine Revision der Sprachdatenbasis und Implementierung in ein zukünftiges Release zu veranlassen. In letzterem Fall kann die Sprachdatenbasis eine Online- Datenbasis sein oder in regelmäßigen Intervallen über Telekommunikationsmittel auf den aktuellen Stand gebracht werden.
  • In einigen Fällen ist es wünschenswert, eine Sprachdatenbasis zu erzeugen, die von dem Benutzer einen Grad der Spezifizierung der Bedeutung verlangt, die einen speziellen Satz von Sprachen betrifft, der kleiner ist als ein vollständiger Satz von Sprachen, um den Grad der erforderlichen Detaillierung, der erforderlich ist, um die exakte Bedeutung des Eingangstextes sicherzustellen, zu verringern. Beispielsweise kann eine Sprachdatenbasis für die englische Sprache erzeugt werden, um zum Zweck der Übersetzung in jede romanische Sprache, die Bedeutung in der englischen Sprache festzustellen. Eine separate englische Sprachdatenbasis kann erzeugt werden, um die Bedeutung für den Zweck der Übersetzung der Bedeutungscodedaten in Japanisch, Chinesisch und Koreanisch festzustellen.
  • Falls der einsprachige Bedeutungseditor verwendet wurde, um die Bedeutung eines Eingangstextes für romanische Sprachen festzustellen, können dem Bedeutungseditor, der zum Feststellen der Bedeutung eines Textes für die automatische Übersetzung in die östlichen Sprachen verwendet wird, die Bedeutungscodedaten der romanischen Sprachen zur Verfügung gestellt werden, um die Zeit, die ein Benutzer dafür aufbringen muss, die notwendige Bedeutung zuzuschreiben, um Bedeutungscodedaten zu erzeugen, die für die Übersetzung des Eingangstextes in östliche Sprachen verwendet werden kann, zu verringern. Es ist festzustellen, dass der automatische Übersetzungsgenerator gemäß der Erfindung in der Lage sein würde, eine nicht vollständig perfekte Übersetzung in eine Sprache auszuführen, wenn die Übersetzung auf Bedeutungscodedaten gestützt wird, die nicht dafür vorgesehen sind, diese eine Sprache abzudecken.
  • Die Erfindung stellt im Zusammenhang mit einem automatischen Übersetzungsgenerator auch einen benutzergesteuerten Editor zum Ausführen von Verfeinerungen oder stilistischen Änderungen an dem Übersetzungstext bereit, mittels dem diese potentielle Doppeldeutigkeit, die in dem Übersetzungstext erscheinen kann, eliminiert werden kann, indem dem Benutzer einige oder alle Bedeutungscodedaten bereitgestellt werden, die mit dem überarbeiteten Text zusammenhängen, und vorzugsweise werden die Bedeutungscodedaten in der Sprache des übersetzten Textes bereitgestellt, so dass der Überarbeiter des übersetzten Textes keine Kenntnis der Quellsprache haben muss. Vorteilhafterweise schließen die Bedeutungscodedaten eine vollständige Beschreibung des originalen Eingangstextes ein, so dass eine Rückübersetzung in die Original-Eingangssprache immer eine exakte Replik des Originaltextes ergibt.
  • Ein besseres Verständnis der Erfindung wird anhand der folgenden detaillierten Beschreibung der bevorzugten Ausführungsform unter Bezugnahme auf die beigefügten Zeichnungen erreicht, die folgendes darstellen:
  • Fig. 1 ein schematisches Blockschaltbild des einsprachigen Bedeutungseditors gemäß der bevorzugten Ausführungsform der Erfindung und
  • Fig. 2 ein schematisches Blockschaltbild des automatischen Übersetzungsgenerators gemäß der bevorzugten Ausführungsform.
  • Bei der bevorzugten Ausführungsform wird ein Computersystem, beispielsweise ein Personal Computer für allgemeine Zwecke, mit Software versehen, um spezielle, nachstehend beschriebene Funktionen zu erfüllen.
  • Wie in der Fig. 1 dargestellt ist, weist der einsprachige Bedeutungseditor 10 Texteingabemittel 12 auf, wie beispielsweise eine Kommunikationsschnittstelle oder jede andere geeignete Quelle von Textdaten. Ein Speicher 14 wird dazu verwendet, den Eingangstext sowie eine Temporärdatei für die ausgegebenen Bedeutungscodedaten zu speichern. Eine grammatikalische Analysiereinrichtung 15 analysiert die Sätze in dem Eingangstext, der in dem Speicher 14 gespeichert ist, und zeigt die analysierten Sätze auf einem Display 20 an, wobei die spezielle Wortart für jedes der Worte angezeigt wird und die wahrscheinlichste oder einfach die erste Bedeutung jedes der Worte in dem angezeigten Satz identifiziert wird. Grammatikanalysiereinrichtungen, die auf Software basieren, sind per se im Stand der Technik bekannt. Die Sprachdatenbasis 25 stellt der Analysiereinrichtung Wortdefinitionen und Wortartdaten zur Verfügung, zusammen mit grammatikalischen Erfordernissen für den Satz von Sprachen, in die die Bedeutungscodedaten übersetzten werden sollen. Die Datenbasis 25 kombiniert die Begriffsdatenbasis, die eine Liste aller Worte und Ausdrücke in der 'A'-Sprache enthält, die mit einer Bedeutung im Bedeutungsdefinitionssatz abgeglichen sind mit der Bedeutungsdatenbasis, die die entsprechenden Identifizierungscodes enthält, die verwendet werden, um den resultierenden Bedeutungscode aufzubauen.
  • Die Analysiereinrichtung 15 erlaubt es dem Benutzer, die geeignete Bedeutung für jedes der Worte oder Gruppen von Worten, die in dem Satz erscheinen, unter Verwendung einer Bedeutungsauswahleinrichtung 16 auszuwählen, die Teil einer grafischen Benutzeroberfläche sein kann. Es wird von dem Benutzer auch verlangt, grammatikalische Information bereitzustellen, die nicht auf die Originalsprache oder die Bedeutung in der Originalsprache bezogen ist, die jedoch erforderlich sein kann, die Übersetzung in die Sprachen bereitzustellen, in die die Bedeutungscodedaten übersetzt werden sollen. Beispielsweise kann es notwendig sein, das Geschlecht einer Person zu identifizieren, um in der Lage zu sein, mit dieser Person zusammenhängende Wörter korrekt in eine andere Sprache zu übersetzen, wohingegen in der Originalsprache eine solche Geschlechtsinformation nicht erforderlich ist. Falls die originale Satzstruktur einfach zu kompliziert ist, um die Bedeutung der Begriffe darin leicht zu definieren, ist ein Editor 18 bereitgestellt, um den Originalsatz zu verändern, um auf diese Weise die Definition oder Spezifizierung der Bedeutung der Worte, die in dem Satz enthalten sind, zu erleichtern.
  • Die Bedeutungsauswahleinrichtung 16 kann mittels Software bereitgestellt werden, die ein Fenster anzeigt, das die Definitionen zeigt, die für ein gegebenes Wort oder eine Gruppe von Worten, die in dem Satz erscheinen, möglich sind, der in einem Hauptanzeigefenster erscheint, wobei das Wort oder die Gruppe von Worten markiert erscheinen. Unter Verwendung der grafischen Benutzeroberfläche wählt der Benutzer die spezielle Definition des Wortes oder der Gruppe von Worten aus, die zu der Bedeutung in der Originalsprache am besten passt. In dem Fall, dass ein Wort oder eine Gruppe von Worten in der Sprache oder den Sprachen, in die der Eingangstext übersetzt werden soll, eine eindeutige Definition hat, ist es nicht notwendig, eine von mehreren Bedeutungen unter Verwendung der Bedeutungsauswahleinrichtung auszuwählen, auch wenn die Wortart noch bestätigt werden muss.
  • Wenn ein Wort oder eine Gruppe von Worten in der Begriffsdatenbasis der Datenbasis 25 nicht gefunden wird, bietet eine Wörterbucheinrichtung 19 dem Benutzer eine Referenz, um ein alternatives Wort oder einen Ausdruck zu finden, der in der Sprache des Eingangstextes die gleiche Bedeutung hat und der durch den Benutzer für das originale Wort oder die originale Gruppe von Worten eingesetzt werden kann, die in der Begriffsdatenbasis der Datenbasis 25 nicht gefunden wurden. Die Wörterbucheinrichtung kann auch zusätzlich zu Synonymen und Antonymen lexikalische Definitionen von Worten bereitstellen.
  • Wie bereits zuvor erwähnt wurde, stellt die Bedeutungsauswahleinrichtung bei einem Wort oder einer Wortgruppe, das oder die unter Verwendung der in der Sprachdatenbasis 25 gefundenen Begriffe nicht definiert werden kann, die Option bereit, dass der spezielle Begriff unübersetzt bleibt, da der Begriff als neuer Begriff angesehen wird und in anderen Sprachen noch nicht definiert ist oder eine Handelsmarke usw. darstellt. In diesem Fall wird die Bedeutungsauswahleinrichtung nur dazu verwendet, für das Wort oder die Wortgruppe die Wortart festzulegen.
  • Die Quelle der Sprachdatenbasis 25 kann eine Online-Quelle sein, um sicherzustellen, dass die Datenbasis 25 aktuell und vollständig ist. Wenn ein Wort im Eingangstext 12 in der Sprachdatenbasis 25 nicht gefunden wird, ist es möglich, Kommunikationsmittel (E-Mail, Telefon oder dergleichen) bereitzustellen, so dass der Benutzer mit dem Compiler der Sprachdatenbasis 25 kommunizieren kann, um den Datenbasiscompiler zu informieren, dass das spezielle Wort oder die Wortgruppe nicht in der Sprachdatenbasis gefunden werden kann oder dass die spezielle Bedeutung, die für das Wort oder die Wortgruppe vorgesehen ist, nicht in der Sprachdatenbasis gefunden werden kann. Der Sprachdatencompiler kann dann ein Update der Sprachdatenbasis bereitstellen.
  • Die Bedeutungsdatenbasis in der Datenbasis 25 kann durch den Benutzer nicht editiert werden, vielmehr können die Bedeutungen nur durch den Hersteller der Software korrigiert oder expandiert werden. Um jedoch eine benutzereigene Texteditierung zum Erzeugen eines Bedeutungscodes zu erleichtern, ist ein Editor 29 bereitgestellt, um es dem Benutzer zu erlauben, neue Begriffe in der Begriffsdatenbasis zu erzeugen und diese mit bereits vorhandenen Bedeutungseinträgen in der Bedeutungsdatenbasis der Datenbasis 25 zu verbinden. Der Editor 29 kann auch dazu verwendet werden, die Verbindungen zwischen einem vorhandenen Begriff in der Begriffsdatenbasis und Eintragungen in der Bedeutungsdatenbasis zu verändern. Dies ermöglicht es dem Benutzer beispielsweise, einen neuen Eintrag für "Pfannkuchen" zu erzeugen und ihn zu der Bedeutungsdefinition "(Substantiv) dünner Kuchen zubereitet in einer Pfanne oder einem Kuchenblech" zu verbinden, wobei zuvor eine Verbindung nur zu dem Begriff "Pfannkuchen" bestand. Als weiteres Beispiel sei der vorhandene Begriff "plug (einstecken)" (Bedeutung als Verb: verbinden) angeführt, zu dem eine zusätzliche Verbindung zu der Definition "(Verb) Werben oder Fördern durch eine Aktion" hinzugefügt werden, wobei diese Definition zuvor nur mit "pitch (anpreisen)" verbunden war. Die Datenbasis 25 kann dadurch verbessert werden, um mit zunehmender Benutzungszeit durch den Benutzer an dessen Bedürfnisse besser angepasst zu werden.
  • Updates der Datenbasis 25, die die Bedeutungsidentifizierungscodes oder Definitionen nicht verändern, können regelmäßig implementiert werden, wohingegen Updates, die neue Bedeutungsidentifizierungscodes erzeugen, entsprechende Updates der Leseeinrichtungen zum Übersetzen des Bedeutungscodes erfordern und daher nicht so häufig vorkommen sollten. Um eine Rückwärtskompatibilität sicherzustellen, kann der Editor 10 in dem Bedeutungscode 26 erzeugte Identifizierungscodes enthalten, die den neuen, verbesserten Bedeutungsidentifizierungscode entsprechend einer jüngsten Version (eine genauere Bedeutung) zusammen mit dem alten Bedeutungscode für ältere Versionen (eine weniger genaue Bedeutung) enthalten, so dass die Lesesoftware den jüngsten Bedeutungscode verwenden kann, wenn sie in der Lage ist, ihn zu erkennen, und auf der anderen Seite eine Übersetzung wegen inkompatibler Versionen nicht verweigert.
  • Wenn der einsprachige Bedeutungseditor 10 dazu verwendet wurde, die Bedeutung des gesamten Eingangstextes zu definieren, sendet die Analysiereinrichtung 15 ein Signal zu den Speichermitteln 14, um die Bedeutungscodedaten in einem Ausgangsfile 26 anzuordnen. Der Ausgangsfile 26 kann mittels elektronischer Mittel zu der Person, die eine Übersetzung des Eingangstextes erhalten möchte, übertragen werden. Die Bedeutungscodedaten können innerhalb desselben Computers, auf dem das Übersetzungssystem arbeitet, verwendet werden, um automatisch eine Übersetzung zu erzeugen. Bei der bevorzugten Ausführungsform enthalten die Bedeutungscodedaten Informationen betreffend die spezifischen Definitionen jedes Wortes oder jeder Wortgruppe, die in dem Eingangstext erscheint, sowie grammatikalische Attribute für jedes Wort oder jede Wortgruppe sowie die Beziehung zwischen den Worten des Eingangstextes. Bei der bevorzugten Ausführungsform ist zusätzliche Information in den Bedeutungscodedaten 26 enthalten, um sicherzustellen, dass eine Übersetzung der Bedeutungscodedaten zurück in die Originalsprache des Eingangstextes eine exakte Kopie des Eingangstextes erzeugt. In dem Fall, in dem der Editor 18 dazu verwendet wurde, einen Satz zu restrukturieren oder ein Wort gegen ein Synonym auszutauschen, um dem originalen Eingangstext eine Bedeutung zuzuschreiben, die näher an den, in der Sprachdatenbasis gefundenen Definitionen liegt, enthalten die Bedeutungscodedaten daher zusätzliche Information, die die originalen Worte oder Gruppen von Worten betrifft, die unter Verwendung des Editors 16 vor dem Auswählen einer geeigneten Bedeutung ersetzt wurden.
  • Wie in der Fig. 1 gezeigt ist, ist der einsprachige Bedeutungseditor 10 mit einem Speicher 28 zum Speichern von Bedeutungscodedaten versehen, die ausgehend von einer vorhergehenden Revision des Originaltextes zum Zweck der Erzeugung der Bedeutungscodedaten zur Verwendung mit einem automatischen Übersetzungsgenerator für eine Sprache oder Gruppe von Sprachen (z. B. Sprachen Y) erzeugt wurden, die verschieden von der Sprache oder der Gruppe von Sprachen ist, der die Sprachdatenbasis 25 entspricht (z. B. Sprachen X). Eine Korrespondenzdatenbasis 27 zwischen den zwei verschiedenen Zielsprachen ist folglich ebenfalls vorgesehen, und die Bedeutungscodedaten 28 für die andere Sprache werden gemeinsam mit den Korrespondenztabellendatten 27 der Analysiereinrichtung 15 zur Verfügung gestellt, um auf der Anzeigevorrichtung 20 den Eingangstext 12 bereits analysiert und mit definierten Bedeutungen darzustellen, insoweit Gemeinsamkeiten zwischen den zwei Zielsprachen (z. B. zwischen X und Y) bestehen.
  • Von dem Benutzer des einsprachigen Bedeutungseditors wird es dann lediglich verlangt, diese Bedeutungen zu spezifizieren und die Information bezüglich der grammatikalischen Wortartinterpretation bereitzustellen, die nur die Sprache in der Datenbasis 25 betrifft. Da die Masse der Auswahl der Grammatik und der Bedeutungen bereits für die vorhergehende Sprache durchgeführt wurde, kann der Ausgangsbedeufungscode für die Zielsprache entsprechend der Datenbasis 25 relativ schnell durchgeführt werden. Das bevorzugte Ausführungsbeispiel bietet damit eine Möglichkeit, zwischen Zielsprachen oder Gruppen von Zielsprachen Beziehungen herzustellen, wobei der einsprachige Bedeutungseditor in dem Fall verwendet wird, dass eine Person, die den einsprachigen Bedeutungseditor benutzt, die Aufgabe hat, die Bedeutung des Eingangstextes für viele verschiedene Sprachgruppen (z. B. romanisch, orientalisch, indisch, usw.) zu definieren.
  • Unter Bezugnahme auf die Fig. 2 wird nun der automatische Übersetzungsgenerator 11 beschrieben. Die Bedeutungscodedatei 26 ist Teil eines Speichers, der von einem Interpretierer gelesen wird. Der Interpretierer 30 erhält von einer Sprachdatenbasis 35, die spezifisch ist für die Sprache, in die der Bedeutungscode übersetzt werden soll, Eingaben. Für jedes Wort oder jede Gruppe von Worten wird der zugeordnete Bedeutungscode in der Sprachdatenbasis nachgeschlagen, um den korrekten Begriff zu erhalten. Die Wortartinformation und Information über Beziehungen zu anderen Worten in dem Satz wird aus den Bedeutungscodedaten entnommen, um die Form des Wortes oder Wortgruppe gemäß der grammatikalischen Regeln zu ändern, die in der Sprachdatenbasis 35 enthalten sind. Beispielsweise müssen Verben in Sprachen, die eine Konjugation von Verben aufweisen, konjugiert werden. Ein Teil der grammatikalischen Information wird möglicherweise in der Zielsprache nicht benötigt, und daher kann ein Teil der Bedeutungscodedaten von dem Interpretierer 30 nicht verwendet werden, wenn dieser den Ausgabetext in der Zielsprache erzeugt.
  • Der Ausgabetext in der Zielsprache wird in einem Speicher 32 gespeichert und ein Editorsystem 33 mit einem Anzeigefenster 34 ist dafür vorgesehen, ein nach der automatischen Übersetzung folgendes Editieren für den Fall zu ermöglichen, dass die Person, die die Übersetzung in der Zielsprache erhält, es wünscht, stilistische Änderungen an dem Übersetzungstext vorzunehmen. Der Editor 33 wird nicht nur mit der Textausgabe von dem Speicher 32, sondern auch mit der geeigneten Information betreffend die Definitionen der Begriffe in der Zielsprache versehen, die von der Sprachdatenbasis 35 erhalten werden, die den Bedeutungscodes entsprechen, die für die Erzeugung des Ausgangstextes verantwortlich sind. Der Editor 33 kann auch die grammatikalische Beziehung zwischen den Begriffen in dem Übersetzungstext darstellen, um der Person, die den Editor 33 benutzt, ein besseres Verständnis des Übersetzungstextes zu ermöglichen und es zu erleichtern, Korrekturen auszuführen, die immer noch genau der ursprünglichen Bedeutung des Textes in der Quellsprache entsprechen.
  • Es wird angenommen, dass die Person, die den Editor 33 bedient, keine Kenntnis der Originalsprache hat. In dem speziellen Fall jedoch, dass die Person, die den Editor 33 bedient, eine Kenntnis der Originalsprache hat, könnte auch der ursprüngliche Text neben dem Übersetzungstext dargestellt werden, indem dem Interpretierer 30 Zugriff auf die Information, die in der Originalsprachendatenbasis 25 enthalten ist, gewährt und dem Editor 33 der Originalsprachentext ausgegeben wird.
  • Bei der bevorzugten Ausführungsform kann der Eingangstext Formatdaten enthalten, und diese Formatdaten können durch den einsprachigen Bedeutungseditor in die Bedeutungscodedaten 26 Eingang finden. Im Fall eines HTML-Textes für einen Netzbrowser können die Formateingangsdaten Spezifikationen betreffend der Textblockposition und Textblockabmessungen enthalten, damit eine solche Information in die Bedeutungscodedaten Eingang finden kann. Folglich kann der automatische Übersetzungsgenerator 11 ein Modul aufweisen, das in den Interpretierer 30 integriert ist, um automatisch eine HTML-Ausgangsdatei zu erzeugen, die in Layout und Schriftartstil einer ursprünglichen HTML- Datei in der Originalsprache ähneln würde. Bei der bevorzugten Ausführungsform können die X-Sprachdatenbasis 35 und der Interpretierer 30 den Kern eines plug-in-Moduls enthalten, das in einen Netz-Browser integriert werden kann. In diesem Fall würden die Bedeutungscodedaten 26 in der heruntergeladenen Datei eingeschlossen sein, um unter Verwendung eines Netz-Browsers dargestellt zu werden.
  • Zur Verbesserung des Verständnisses der vorliegenden Erfindung wird nun die bevorzugte Ausführungsform detaillierter in drei Abschnitten beschrieben. Zunächst wird die Bedeutungsdatenbasis und die Codierung beschrieben, die für Wortarten in dem Bedeutungscode verwendet wird. Zweitens wird der Bedeutungseditor beschrieben. Drittens wird die Leseeinrichtung oder die Maschinenübersetzungsvorrichtung zum Übersetzen des Bedeutungscodes in den Ausgabetext beschrieben.
  • Catome-Beschreibung
  • Innerhalb jeder Sprache, die bei der bevorzugten Ausführungsform verwendet wird, sind die linguistischen Datenbasen und -tabellen, die ihre Fähigkeiten in dieser Sprache unterstützten, innerhalb einer logischen Struktur gespeichert, die als Catome bezeichnet wird. Dieser neue Begriff ist eine Abkürzung des beschreibenden Begriffs "CATaloge Of MEanings", der die grundlegenden Funktionen dieser Struktur korrekt wiedergibt. Das Catome enthält die Begriffsdatenbasis und die Bedeutungsdatenbasis.
  • Struktur der höheren, Niveaus
  • Zwei primäre Erfordernisse liegen der Struktur der höheren Niveaus des Catomes zugrunde:
  • Größe des Catomes - so klein wie möglich
  • Geschwindigkeit bei Verwendung des Catomes - so schnell wie möglich Die bevorzugte Ausführungsform verwendet verschiedene Techniken, um die Größe des Catomes zu verringern - Komprimierung, um die Größe des Catomes während des Herunterladens zu verringern sowie die Verwendung von Modelltabellen, um den Speicherplatz zu verringern, der erforderlich ist, um die verschiedenen Formen jedes Substantivs und jedes Verbs zu speichern. Um die Geschwindigkeitserfordernisse zu erfüllen gibt es zwei Indizes, die bei direktem Zugriff ein Wiedergewinnen der Information aus dem Catome erlauben.
  • Um das Erfordernis einer kompakten Größe und hohen Geschwindigkeit zu erfüllen, enthält das Catome die folgenden Datenbasen, Tabellen und Indizes:
  • - WortlBedeutungsdatenbasis
  • - Satzstrukturdatenbasis
  • - Redewendungsdatenbasis
  • - Modelltabelle für regelmäßige Verben
  • - Modelltabelle für unregelmäßige Verben
  • - Modelltabelle für regelmäßige Substantive
  • - Modelltabelle für unregelmäßige Substantive
  • - Modelltabelle für Modalverben
  • - Modelltabelle für Pronomen
  • - Modelltabelle für zusammengezogene Worte
  • - Wort/Bedeutungsindex geordnet nach Wort-Identifizierern
  • - Wort/Bedeutungsindex geordnet nach Bedeutungs-Identifizierern
  • Der wesentliche Unterschied zwischen einer Datenbasis und einer Tabelle bei der bevorzugten Ausführungsform ist der, dass die Datenbasen weitere Eigenschaften der Basiseinheiten in ihnen enthalten, wohingegen die Tabellen lediglich zweidimensionale Felder von Basiseinheiten sind.
  • Übersicht über die Datenbasen Wort/Bedeutungsdatenbasis
  • Diese Datenbasis ist innerhalb des Catomes die größte. Sie enthält alle Worte der Sprache mit zugeordneten Eigenschaften. Die Datenbasis weist zehn logische Sektionen auf, die jeweils einer speziellen Wortart zugeordnet sind:
  • 1. Adjektive
  • 2. Adverbien
  • 3. Artikel
  • 4. Konjunktionen
  • 5. Interjektionen
  • 6. Substantive
  • 7. Präpositionen
  • 8. Pronomen
  • 9. Verben
  • 10. Zahlen
  • Die erste Stelle des Wort-Identifizierers enthält die entsprechende Zahl der logischen Sektion, in die er gehört. Dies ist notwendig, um in Situationen auszuhelfen, in denen dasselbe Wort in einer oder mehreren verschiedenen Wortarten existiert, eine Situation, die im Englischen sehr üblich ist. Beispielsweise wird das Verb "to keep" vollständig unterschiedlich verwendet und hat vollständig verschiedene Bedeutungen zu dem englischen Substantiv "keep" (der am stärksten befestigte Teil einer Burg). Der Wort-Identifizierer ist eine sechsstellige Zahl, die durch eine Punkt und ein zweistelliges Verwendungsfeld abgeschlossen ist, beispielsweise 999999.99.
  • Das zweistellige Verwendungsfeld ist für jede Sprache spezifisch. Sein primärer Nutzen ist es, dem Editor zu helfen, die spezielle Art zu identifizieren, in der eine veränderbare Wortart (Adjektive, Adverbien, Substantive und Verben) durch Benutzer verwendet werden, wenn sie einen Text in das Eingabefenster des Editors schreiben.
  • Eigenschaften
  • Einige Wortarten haben Eigenschaften - einige spezifisch für die Sprache, einige relevant für andere Sprachen. Verben können transitiv oder intransitiv sein, Substantive können "proper (Eigennamen)" sein, sie können ein Geschlecht haben, sie können nur in der singulären oder pluralen Form existieren, usw. Sie können in einigen aber nicht allen regionalen Dialekten der Sprache existieren. Die wichtigste Eigenschaft ist jedoch "Bedeutung". Abgesehen von Zahlen (die bezüglich ihrer Bedeutung selbsterklärend sind) haben alle anderen Wortarten einen "Bedeutungsidentifizierer".
  • Die Eigenschaft der Bedeutung
  • Jedem Wort in dem Wort/Bedeutungsatome ist ein Bedeutungs- Identifizierer zugeordnet. Dies ermöglicht es, zwischen den unterschiedlichen Bedeutungen zu unterscheiden, die ein Wort in einer Sprache haben kann. Ein Wort wie beispielsweise "fan" im Englischen kann ein Verb sein "to fan" oder ein Substantiv "a fan", das entweder eine Vorrichtung zum Bewegen von Luft oder eine Person, die irgendetwas unterstützt, bedeuten kann. Wir unterscheiden zwischen Verben und Substantiven durch die erste Stelle des Wort-Identifizierers. Einem speziellen Wort mit verschiedenen Bedeutungen innerhalb derselben Wortart weisen wir unterschiedliche "Bedeutungs-Identifizierer" zu. Ein "fan" als Substantiv würde daher zwei Einträge in einem Catome aufweisen - jeder mit einem unterschiedlichen "Bedeutungs-Identifizierer", um zwischen der Vorrichtung zum Bewegen von Luft und einer menschlichen Person, die irgendetwas unterstützt, zu unterscheiden.
  • Bedeutungsschleifen
  • Um als Wörterbuch und Lexikon verwendet werden zu können, haben die Erfinder das Konzept der "Bedeutungsschleifen" entwickelt. Jeder "Bedeutungs-Identifizierer" ist Teil einer "Bedeutungsschleife", die aus anderen Worten mit derselben Bedeutung besteht. Jedes Wort in dem Catome ist mittels seines "Bedeutungs-ldentifizierers", der als Schlüssel wirkt, mit einer "Bedeutungsschleife" verbunden. Dieses Konzept ist aber ausgeweitet. Jede "Bedeutungs-Schleife" hat zusätzliche Zeiger: Einen ersten Zeiger auf eine höhere "Bedeutungsklasse", einen zweiten Zeiger auf eine niedrigere Klasse von Bedeutungsschleifen. Beispielsweise sei das Wort " male (männlich)" betrachtet, das als Substantiv verwendet wird. Es zeigt auf eine Bedeutungsschleife, die Synonyme für "male (männlich)" enthält, beispielsweise "man (Mann)", "stud (Kerl)", usw. Diese Bedeutungsschleife zeigt auf eine Bedeutungsschleife höherer Klasse, die Worte wie beispielsweise "being (Wesen)", "person (Person)", usw. enthält. Sie zeigt auch auf eine niedrigere Klasse der Bedeutung, die Worte wie "man (Mann)", "cob (männlicher Schwan)", "boy (Junge)", "stallion (Hengst)" enthält die "maleness (Männlichkeit)" in ihren Bedeutungen enthalten.
  • Bedeutungen und Bedeutungsschleifen werden über alle Catome hinweg verwendet - es ist die Bedeutung, die aus dem Text, der von dem Benutzer geschrieben wird, abgeleitet wird, und es sind diese Bedeutungen, die in den Bedeutungscode oder die CCML-Sprache eingebettet wird, die durch andere Sprachleseeinrichtungen interpretiert wird. Der Benutzer kann durch Interaktion mit dem Editor sicherstellen, dass die Bedeutung seiner Worte präzise ist. Der Bedeutungs-Identifizierer wird auf das korrekte Wort zeigen, das von einer Leseeinrichtung für eine andere Sprache bei einer automatischen Übersetzung verwendet werden soll.
  • Satzstrukturdatenbasis
  • Beim Erreichen des bevorzugten Ziels von 100%iger Übersetzbarkeit in andere Sprachen sind Worte und Bedeutungen kritisch. Für sich alleine genommen können sie dieses Ziel nicht erreichen. Es ist die Fähigkeit, die Satzstruktur zu erkennen, die die andere Komponente darstellt. Die bevorzugte Ausführungsform weist eine Datenbasis mit allgemeinen Satzstrukturen auf, die als Modell herangezogen werden, um zu bestimmen, wo die grammatikalischen Komponenten des Satzes gefunden werden können und welche Beziehungen zwischen diesen bestehen.
  • Der Schlüssel zu einer Satzstruktur ist zu bestimmen, welche "Verbform" in dem Satz verwendet wird. Die Hauptverbform in dem Satz zeigt auf einen Satz allgemeiner Satzstrukturen, die diese spezifische "Verbform" unterstützen und die dann durch den Editor verwendet werden, um das Subjekt, Objekt, Nebensätze, Adverbialsätze usw. - die grammatikalischen Komponenten des Satzes - zu identifizieren. Die Satzstrukturen selbst werden klassifiziert in "positive", "konditionale", "fragende" und "imperative" Untertypen. Es existiert dann eine "negative" Form jedes Satztyps innerhalb jeder Unterklasse. (Eine "imperative" Satzstruktur wie beispielsweise "Geh weg!" hat eine "negative" Form "Geh nicht weg!"). Die Satzstrukturen verwenden ein allgemeines Codierungsschema, um zu zeigen, wo Worte der verschiedenen Wortarten in dem Eingangstext erwartet werden können.
  • In obigem Beispiel wird das Verb dargestellt als "9*.8*"; die "9*" zeigt an, dass jedes Verb verwendet werden kann, aber lediglich in seinem imperativen Gebrauch - dargestellt durch den zweistelligen Verwendungsqualifizierungsteil "8*", der auf den Punkt folgt.
  • Redewendungsdatenbasis
  • Innerhalb der Redewendungsdatenbasis können Ausdrücke und Redewendungen gefunden werden, die eine Bedeutung haben, die sich durch einfaches Übersetzen ihrer Wortbestandteile nicht ergeben würde. Der Satz "The reason for the breakdown was the dying battery and not the starter motor, an entirely different kettle of frsh" verwendet die Redewendung "different kettle of fish". Falls diese Redewendung in andere Sprachen übersetzt würde, würde es dem Leser nicht dabei helfen, die Bedeutung der Redewendung oder ihren Einfluss auf die Bedeutung des ganzen Satzes zu verstehen.
  • Die Redewendungsdatenbasis enthält eine aktuelle Liste solcher Redewendungen, Klischees und anderer Mehrwort-Ausdrücke im allgemeinen Gebrauch. Jeder Redewendung ist ein "Redewendungs-Identifizierer" sowie ein gleichbedeutender Satz zugeordnet, der die Bedeutung genauer beschreibt. In dem verwendeten Beispiel würde der Ausdruck "different matter (unterschiedliche Sache)" von dem Editor an den erzeugten Bedeutungscode oder CCML-Code angefügt werden. Falls keine gleichwertigen Redewendungen in einer anderen Sprache existieren, würde die Leseeinrichtung für diese Sprache das übersetzte Äquivalent von "different matter (unterschiedliche Sache)" zeigen, anstatt die ursprüngliche Redewendung zu übersetzen. Eine äquivalente Redewendung in einer anderen Sprache existiert dann, wenn sie einen "Redewendungs-Identifizierer" aufweist, der gleich ist wie der der ursprünglichen Redewendung.
  • Übersicht über die Tabellen Modelltabelle der regelmäßigen Verben
  • Für jeden Typ eines regelmäßigen Verbs in der Sprache ist eine vollständige Deklination des Verbs für jede Zeit, die in dieser Sprache im allgemeinen Gebrauch ist, vorhanden. Die Tabelle identifiziert auch (wo zweckmäßig) Infinitive, Gerundien und Partizipien für die Vergangenheit.
  • Modelltabelle der unregelmäßigen Verben
  • Für jeden speziellen irregulären Verbtyp in der Sprache ist eine vollständige Deklination des Verbs für jede Zeit vorhanden, die in der Sprache im allgemeinen Gebrauch ist. Die Tabelle identifiziert auch (wo zweckmäßig) Infinitive, Gerundien und Partizipien für die Vergangenheit. Zusätzlich wird ein regelmäßiges Verb als unregelmäßig angesehen, wenn die Deklination des Verbs zwischen regionalen Versionen derselben Sprache differiert. Das Verb "to dive" im Englischen wird als unregelmäßig angesehen, da das Partizip der Vergangenheit sich zwischen britischem und amerikanischem Gebrauch zwischen "dived" und "dove" unterscheidet.
  • Das Konzept eines unregelmäßigen Verbtyps rührt von Sprachen her, die einige unregelmäßige Verben haben, die auf einem anderen unregelmäßigen Verb aufbauen. Das Verb "to become" im Englischen folgt beispielsweise dem unregelmäßigen Verbmodell für das Verb "to come".
  • Modelltabelle der regelmäßigen Substantive
  • Für jeden Typ eines regelmäßigen Substantivs in der Sprache ist eine Tabelle vorhanden, die die Art und Weise modelliert, in der die Endung des Substantivs im speziellen Gebrauch innerhalb einer Satzstruktur verändert wird. Im Englischen führt diese Tabelle die folgenden Situationen für Endungen von Substantiven auf
  • Für andere Sprachen würde deren spezielle Verwendung von Endungen aufgelistet werden. Französisch hat beispielsweise nicht das grammatikalische Konzept einer Genitivendung für Substantive und die Französisch-Tabelle würde diese Situation nicht auflisten.
  • Modelltabelle der unregelmäßigen Substantive
  • Einige Sprachen haben Substantive, die keinen regelmäßigen Modellen folgen oder die in Abhängigkeit der regionalen Variante dieser Sprache mit unterschiedlichen Endungen versehen werden. In dieser Tabelle würden auch Substantive aufgelistet, die nur in einem "singulären" oder "pluralen" Zusammenhang verwendet werden können. Im Englischen sind dies beispielsweise "fish" und "men". Diese Situationen werden identifiziert und in der Modelltabelle für die unregelmäßigen Substantive aufgelistet.
  • Modelltabelle für modale Verben
  • Diese führt die Verwendung der Modalverben an. Diese schließen die Wort should, would, can, will, may, ought, dare und might sowie die allgegenwärtigen Worte "be" und "have" ein. Diese Modalverben stehen vor einem Verb und verändern die Bedeutung des folgenden Verbs. "Be" und "have" werden im Englischen als Basis für zahlreiche Zeiten extensiv verwendet, beispielsweise das passive Plusquamperfekt "I have been misled". Die Modalverben haben ihre eigenen Satzstruktureintragungen in der Satzstrukturdatenbasis, da sie einen wesentlichen Teil der "Verbform" darstellen, mittels der die Satzstrukturdatenbasis organisiert ist.
  • Modelltabelle der Pronomen
  • Diese Tabelle enthält alle Pronomen der Sprache und deren verschiedene Formen. Im Englischen würde folgendes zu finden sein:
  • Modelltabelle für Verkürzuncien
  • Diese Tabelle führt alle im allgemeinen aufzufindenden Verkürzungen mit ihrer voll ausgeschriebenen Form auf, die allgemein in der Sprache des Catomes vorhanden sind. Diese finden typischerweise auf Pronomen von Substantiven, die von einem Modalverb gefolgt werden, Anwendung oder auf die negative Verwendung eines Modalverbs. Einige Verkürzungen haben zwei getrennte ausgeschriebene Formen - beispielsweise ist im Englischen "I'd" eine verkürzte Form von "I had" oder "I would". Der Kontext definiert üblicherweise welche ausgeschriebene Form Anwendung findet. Die Modelltabelle der Verkürzungen führt in diesem Fall zwei Einträge an.
  • Übersicht über die Indices Wort/Bedeutungsindex geordnet nach Wort-Identifizierer
  • Dieser Index verbindet ein Wort in der Sprache mit seinem entsprechenden Eintrag in der Wort/Bedeutungsdatenbasis. Dieser Index wird in dem Editor verwendet, wenn der Bedeutungscode oder die CCML- Sprache erzeugt werden und ermöglicht es, Worte unmittelbar nachzuschlagen, wenn sie in das Eingabefenster des Editors eingegeben werden.
  • Wort/Bedeutungsindex geordnet nach Bedeutungs-Identifizierer
  • In der Leseeinrichtung sind die hauptsächlichen Ergebnisse aus der Wort/Bedeutungsdatenbasis Bedeutungen, die aus der Zwischensprache CCML entnommen werden, um in die geeigneten Worte der Sprache der Leseeinrichtung übersetzt zu werden. Dieser Index ermöglicht eine augenblickliche, direkte Entnahme aus dem Catome.
  • Betriebsmodi des Catomes Entwicklung
  • Catome werden auf Microsoft Access Datenbasen gespeichert. Sie werden durch Sprachwissenschaftler aktualisiert und erweitert. Es gibt zwei weitere Datenbasen auf der Entwicklungsseite, die der Kunde niemals sieht. Dies sind:
  • - Universelle Bedeutungs-Identifizierer-Datenbasis
  • - Universelle Redewendungs-ldentifizierer-Datenbasis.
  • Diese zwei Datenbasen integrieren Bedeutungen und Redewendungen in jeder verschiedenen Sprache.
  • Produkt
  • Sowohl für den Editor als auch die Leseeinrichtung wird das Catome ausschließlich im Lesemodus bereitgestellt und kann durch den Benutzer nicht verändert werden. Auf das Catome kann nicht unmittelbar durch den Benutzer zugegriffen werden, einzig die linguistischen Module greifen auf es zu, um speziellen internen Aufgaben innerhalb des Editors oder der Leseeinrichtung Daten zur Verfügung zu stellen.
  • Beschreibung des Editors Einführung
  • Für jedes Eingangs- oder Quellsprache, die von der bevorzugten Ausführungsform unterstützt wird, existiert ein spezieller Spracheditor. Dieser kann über das Internet unter Verwendung von elektronischen Handelstransaktionen, basierend auf Kreditkartenverarbeitung, verkauft werden. Der Editor kann als Zusatz zu Microsoft Word, Internet Explorer, Outlook, Qualcast Eudora, Netscape Communicator und Corel Word Perfect Software aktiviert werden. In jedem dieser Fälle wird der Editor aus einem Windows Pull-down-Menü aktiviert.
  • Die erste Funktion des Editors ist es, von dem Benutzer des Editors eingegebenen Text abzutasten und über einen Dialog mit pop-up-Fenstern sicherzustellen, dass die Bedeutung jedes Worts identifiziert wird, und dass jeder Satz grammatikalisch korrekt ist.
  • Die zweite Hauptfunktion des Editors ist es, den Satz zu verarbeiten und ihn in einen eigentümlichen CCML-Sprach- oder Bedeutungscode zu übersetzen. Das Ergebnis CCML kann von einer kompatiblen Lesesoftware gelesen und in jede unterstützte Sprache übersetzt werden.
  • Installation
  • Kunden, die eine Kopie des Editors wünschen, können das Produkt unter Verwendung eines Internet-Browsers von einer Website herunterladen. Der Editor ist vorzugsweise gegen illegales Kopieren und Softwarepiraterie "gesperrt". Wenn die Installation beginnt, werden die Kunden aufgefordert, ein Sicherheits-HTML-Formular mit ihrer Kreditkarteninformation und optional demographischen Daten auszufüllen. Wenn sie das Formular von ihrem Browser absenden und die Transaktion akzeptiert wird, erhalten sie einen einzigartigen, einmal verwendbaren "Entsperrungsschlüssel" der es ermöglicht, die Installation fortzusetzen. Während der Installation werden die Benutzer gefragt, welche regionale Sprache sie verwenden wollen. Für die englische Sprache würden die Wahlmöglichkeiten folgende sein:
  • - UK-Englisch
  • - US-Englisch
  • - Kanadisches Englisch
  • - Australisches Englisch.
  • In ähnlicher Weise bietet die Leseeinrichtung für Französisch beispielsweise an:
  • - Pariser Französisch
  • - Quebecer Französisch
  • - Belgisches Französisch
  • - Schweizer Französisch
  • Der Benutzer kann diese regionale Spracheinstellung über ein pop-up- Menü jederzeit ändern.
  • Starten des Editors
  • Bei der bevorzugten Ausführungsform wird der Editor über ein pulldown-Fenster (normalerweise "tools") in der Menüleiste des Textprozessors, Internet Browsers oder sprachverarbeitenden Produkts aufgerufen. Anstelle in diese Produkte etwas hineinzuschreiben, wird dem Benutzer ein Editoreingabefenster angeboten. Der Benutzer schreibt einen Text in dieses Fenster, Sätze jeweils einzeln, und beendet den Satz normalerweise mit einem Punkt, einem Ausrufezeichen, einem Fragezeichen oder einem Doppelpunkt. Er wird dann aufgefordert, die Taste F7 zu drücken, wenn der Satz tatsächlich vollständig eingegeben wurde.
  • Linguistische Verarbeitung Linguistischer Schritt 1
  • Dieser Schritt weist eine Wort-für-Wort-Übersetzung in den Bedeutungscodes auf, d. h. in die Catome-zu-Catome-Bedeutungssprache oder kurz CCML. Jedes Wort wird verglichen, um zu sehen, ob es zu einem Wort in dem Catome oder der Begriffsdatenbasis passt. Das Catome ist tatsächlich eine Kombination der Begriffsdatenbasis und der Bedeutungsdatenbasis.
  • Falls das Wort nicht existiert, öffnet sich ein pop-up-Fenster, das dem Benutzer drei Auswahlmöglichkeiten gibt:
  • 1) Verwendung des Wortes wie es eingegeben wurde. Es wird dann demjenigen, der den Text mit einer Leseeinrichtung für eine unterschiedliche Sprache liest, unübersetzt dargestellt.
  • 2) Zurückwechseln in das Eingabefenster und erneutes Eingeben des Satzes.
  • 3) Auswählen der Wörterbuchfunktion und Erhalten einer Liste von Wörtern von dem Catome mit nahekommender Schreibweise sowie Auswählen des Wortes, das geschrieben werden sollte.
  • Falls das Wort existiert, erscheint ein pop-up-Fenster, wenn das Catome mehrere Einträge für dieses Wort aufweist. In diesem Fenster wird jeder Eintrag, der in dem Catome gefunden wurde, aufgelistet, seine Wortart (beispielsweise Adjektiv, Substantiv, Verb etc.) sowie ein naheliegendes Synonym, um die spezielle Bedeutung dieses Eintrags in dem Catome darzustellen. Der Benutzer wählt den Eintrag mit der gewünschten Bedeutung. Wenn alle Worte verarbeitet wurden, bereitet der Editor die CCML-Äquivalente für jedes übersetzbare Wort vor, und zwar unter Verwendung des "Bedeutungs-Indikators" aus dem Catome als CCML- Wert für jedes ausgewählte oder unzweideutige Wort.
  • Linguistischer Schritt 2
  • Der CCML-Satz wird auf Redewendungen durchgesehen (einschließlich Redensarten und andere Phrasen oder Ausdrücke mit mehreren Worten). Falls eine Übereinstimmung zwischen den CCML-Wörtern und einem Eintrag in der Redewendungsdatenbasis innerhalb des Catomes besteht, gibt das Catome einen "Redewendungs-Indikator" zurück - eine Zahl, die die Redewendung eindeutig identifiziert. Diese wird dazu verwendet, den CCML-Text, der die ursprüngliche Redensart darstellt, zu ersetzen. Zusätzlich gibt das Catome in dem Fall, in dem der Redewendungs-Identifizierer keine äquivalente Redewendung in einer anderen Sprache hat, einen Satz von Wörtern in CCML aus, die die tatsächliche Bedeutung der Redewendung ausdrücken. Dieser CCML-Text wird an das CCML-Wort mit dem "Redewendungs-Identifizierer" angehängt.
  • (Wenn bei der Übersetzung unter Verwendung einer Leseeinrichtung keine äquivalente Redewendung in der anderen Sprache existiert, wird diese alternative CCML verwendet).
  • Linguistischer Schritt 3
  • Der CCML-Satz wird abgetastet, um jede CCML-Komponente zu identifizieren, die spezielle Attribute benötigt, die das Cafome bei der Verarbeitung der ursprünglichen Worte nicht liefern konnte. Dies tritt in zwei Situationen auf:
  • - Pronomen. Mit einem pop-up-Fenster fragt der Editor einmal für jedes unterschiedliche Pronom, ob es sich auf ein maskulines, feminines oder unbeseeltes Objekt bezieht. Die Geschlechtsmarkierung wird an das CCML-Pronomen angefügt. Das Programm nimmt beim nächsten Mal, bei dem das spezielle Pronomen auftaucht, an, dass die Geschlechtsinformation stimmt und nicht erneut gefragt werden muss. Falls das Pronomen nicht anzeigt, ob eine Person oder mehrere Personen oder Objekte mit dem Pronomen bezeichnet werden ("you" im Englischen kann eine Person oder mehrere Personen bedeuten) erscheint ein pop-up-Fenster und fordert den Benutzer auf, dies klarzustellen. Die Mehrzahl- Markierung wird an das CCML-Pronomen angefügt.
  • - Unbekannte Wörter. Falls das Wort dem Catome unbekannt war und der Benutzer sich dafür entscheidet, das ursprüngliche Wort zu verwenden, weiß der Editor nichts über die Eigenschaften, die das Wort besitzt. Ein pop-up-Fenster, erscheint, das den Benutzer auffordert, folgendes anzugeben:
  • o Angeben der Wortart (Verb, Substantiv, Adjektiv, etc.) des unbekannten Wortes.
  • o Angeben, ob das Wort singular, plural und/oder possessiv ist, falls anwendbar.
  • o Angeben des Geschlechts des Worts (maskulin, feminin oder neutral)
  • o Angeben, ob das Wort ein Eigenname ist (immer in der Schreibweise beginnend mit einem Großbuchstaben - wie Marek oder Brandon)
  • o Falls das Wort ein Verb ist, Angeben, welche Zeit das Wort als Verb reflektiert.
  • Die relevanten Eigenschaften werden an das unbekannte Wort als Attribut-Gruppe angefügt.
  • Linguistischer Schritt 4 (Verarbeiten spezieller Sprachanomalien)
  • Substantive die im Englischen als Adjektive verwendet werden. Es wird angenommen, dass dann, wenn eine Kette separater, benachbarter Substantive gefunden wird, das letzte Substantiv als das "tatsächliche" Substantiv betrachtet werden kann, und dass die vorhergehenden Substantive als Adjektive eingesetzt werden. Der Benutzer wird aufgefordert, dies zu bestätigen, falls die Option detaillierter "Verifikation" zu Beginn der Sitzung ausgewählt wurde (andere Sprachen können unterschiedliche Anomalien und unterschiedliche Verarbeitungserfordernisse haben).
  • Linguistischer Schritt S
  • Die CCML wird nun als vollständiger Satz abgetastet, um festzustellen, ob sie zu einer der Satzstrukturen in der Satzstrukturdatenbasis in dem Catome passt. Der Editor identifiziert das Hauptverb oder den Hauptverbausdruck in dem CCML-Text und verwendet dies dazu, seine Suche in der Datenbasis einzuengen. Wenn die Satzstruktur identifiziert wurde, erhält der Satzstruktureintrag eine kodierte Beschreibung der grammatikalischen Komponenten und ihrer Position innerhalb des Satztyps. Mit diesem Kodierungssystem kann der Editor verstehen, welches CCML- Wort oder welche CCML-Wörter in der Eingabe das Subjekt, das Objekt, das indirekte Objekt, Nebensätze und andere grammatikalische Komponenten in dem Satz darstellen. Der CCML-Satz wird mit Attributen markiert, um die CCML-Wörter entsprechend zu gruppieren.
  • Falls die Software die Verbform und die sich ergebende Satzstruktur nicht finden kann, verwendet sie die am nächsten liegenden Treffer in der Satzstrukturdatenbasis. Dem Benutzer wird ein pop-up-Fenster mit dem Originalsatz gezeigt, wie er gemäß jeder nächstliegenden Satzstruktur umgeformt wurde, einschließlich jeglicher wichtiger fehlender Wörter (zur Satzeinleitung, beispielsweise "that" oder "which") und jeglicher kritischer Satzzeichen, wie beispielsweise Kommas, um das Ende eines Satzes zu markieren. Der Benutzer wird aufgefordert, einen dieser Sätze auszuwählen oder zurückzugehen und den Satz anhand der gezeigten hilfreichen Hinweise neu einzugeben.
  • Linguistischer Schritt 6
  • Der vervollständigte Satz wird nun in einem neuen pop-up-Fenster angezeigt, wobei jede grammatikalische Komponente farbkodiert ist. Ein Schlüssel zur Farbkodierung wird angezeigt, der vermittelt, welche Komponente als das Subjekt, die Verbform, das Objekt, das indirekte Objekt usw. koloriert ist. Der Haupt- und die Nebensätze sind ebenfalls farbkodiert. Dies ist tatsächlich sehr einfach durchzuführen, da die Software eine passende spezifische Satzstruktur für den ursprünglichen Satz ausgewählt hat und diese grammatikalische Übung sehr leicht durchzuführen ist. Anklicken irgendeines der Wörter in diesem Fenster zeigt an, welche Wortart das Wort repräsentiert, sei es Adjektiv, Adverb, Konjunktion, Substantiv, Verb usw. Die Erfindung kann auf diese Weise ein wichtiges Werkzeug zum Erlernen der Grammatik darstellen.
  • Die Übersetzung des Satzes in die CCML-Sprache ist nun vollständig.
  • Beschreibung der Leseeinrichtung Einführung
  • Für jede von der bevorzugten Ausführungsform unterstützte Sprache ist ein spezielles Sprachleseeinrichtungsprodukt vorhanden. Diese können kostenlos über das Internet an alle verteilt werden, die diese herunterladen wollen. Die Leseeinrichtung wird als Browser-plug-in aktiviert, indem auf irgendeiner Netzseite auf ein Ikon geklickt wird oder indem die Leseeinrichtung aus einem Windows-pulldown-Menü in einem E-Mail - System aufgerufen wird. Die Leseeinrichtung kann jeden Text auf einer Netzseite oder in einer E-Mail, der unter Verwendung des Editors erzeugt wurde, fehlerlos, automatisch und perfekt in die Sprache der Leseeinrichtung übersetzen und diesen auf dem Schirm anzeigen.
  • Funktioneller Schritt 1
  • Wenn die Leseeinrichtung das erste Mal installiert wird, wird der Benutzer gefragt, ob er das Catome in komprimierter oder dynamischer Form speichern will. Der komprimierte Modus bedeutet ein Plattenplatzerfordernis von SMb, wohingegen der dynamische Modus bis zu 30Mb erfordern kann. Der Unterschied liegt in der Geschwindigkeit - die dynamische Version muss dann, wenn die komprimierte Version gespeichert ist, jedes Mal erzeugt werden, wenn die Leseeinrichtung verwendet wird.
  • Funktioneller Schritt 2
  • Der Benutzer wird gefragt, welche regionale Spracheversion er für die Übersetzungen benützen möchte. Für die englische Sprache wird die folgende Auswahl angeboten:
  • - UK-Englisch
  • - US-Englisch
  • - Kanadisches Englisch
  • - Australisches Englisch.
  • In ähnlicher Weise bietet die Leseeinrichtung für Französisch folgendes an:
  • - Pariser Französisch
  • - Quebecer Französisch
  • - Belgisches Französisch
  • - Schweizer Französisch.
  • Der Benutzer kann diese regionale Spracheinstellung jederzeit über ein pop-up-Menü ändern.
  • Funktioneller Schritt 3 - E-Mail
  • Der Benutzer erhält ein E-Mail und ein pop-up-Menü erscheint und informiert den Benutzer, dass die E-Mail unter Verwendung der Leseeinrichtung übersetzbar ist. Das an der Leseeinrichtung angefügte E-Mail- Modul hat detektiert, dass die ankommende E-Mail-Nachricht eine CCML-Komponente hat. Der Benutzer wird gebeten, eine der folgenden Möglichkeiten auszuwählen:
  • - Soll die Nachricht in ihrer ursprünglichen Sprache gelesen werden?
  • - Soll die Nachricht in der Sprache der Leseeinrichtung gelesen werden? (Falls der Benutzer mehrere Sprachleseeinrichtung hat, wird das pop-up-Fenster diese alle zeigen).
  • Falls sich der Benutzer dafür entscheidet, eine Sprachleseeinrichtung zu verwenden, wird der Benutzer gefragt, in welcher regionalen Sprachversion er die Übersetzung sehen möchte. Die CCML-Komponente wird dann in den Eingabepuffer der Leseeinrichtung verschoben und in den Schritten 5 bis 10 automatisch übersetzt. Die sich ergebende Übersetzung wird auf dem Schirm angezeigt, als ob es die ursprüngliche Nachricht wäre.
  • Wenn die Nachricht gelesen wurde, wird der Benutzer gefragt, ob er die E-Mail-Nachricht gemäß der folgenden Optionen speichern möchte:
  • - Nur Übersetzung
  • - Übersetzung und ursprüngliche Nachricht.
  • In jedem Fall wird die CCML-Komponente immer gespeichert, so dass die Nachricht erneut in eine andere Sprache oder zu einem anderen Zeitpunkt in dieselbe Sprache übersetzt werden kann.
  • Damit ist die Funktion der Leseeinrichtung für E-Mail abgeschlossen.
  • Funktioneller Schritt 4 - Netzseite
  • Der Benutzer surft im Worldwide Web und findet eine Netzseite, die das Ikon hat, mit dem dargestellte CCML-Dateien identifiziert werden. Wenn der Benutzer auf dieses Ikon klickt, erscheint ein pop-up-Menü, das den Benutzer informiert, dass diese Netzseite unter Verwendung der CCML- Leseeinrichtung lesbar ist. Das plug-in-Modul der Leseeinrichtung im Browser hat detektiert, dass die aktuelle Netzseite eine unsichtbare CCML-Komponente hat. Der Benutzer wird gebeten, eine der folgenden Möglichkeiten auszuwählen:
  • - Die Seite in ihrer Originalsprache zu lesen
  • - Die Seite in der Sprache der Leseeinrichtung zu lesen. (Falls der Benutzer mehrere Sprachleseeinrichtungen hat, wird das pop-up- Fenster diese alle zeigen).
  • Falls der Benutzer sich dafür entscheidet, eine Sprachleseeinrichtung zu verwenden, wird der Benutzer gefragt, in welcher regionalen Sprachversion er die Übersetzung sehen möchte. Die CCML-Komponente wird zu dem Eingangszwischenspeicher der Leseeinrichtung verschoben und in den Schritten 5 bis 10 automatisch übersetzt. Die sich ergebende Übersetzung wird auf dem Schirm dargestellt, als ob es die Originalseite wäre. Alle HTML-Markierungen für die Originalsprache werden respektiert und beibehalten: Dies bedeutet, dass der übersetzte Text auf der Netzseite in exakt der gleichen Weise formatiert ist, wie der Text der Originalsprache.
  • Damit ist die Funktion der Leseeinrichtung für die Übersetzung von Netzseiten vollständig.
  • Funktioneller Schritt 5
  • Die zu übersetzende CCML-Sprache ist in dem Eingangszwischenspeicher des Leseeinrichtungsmoduls enthalten.
  • Die Leseeinrichtung greift jeden Satz nacheinander auf, übersetzt ihn und ordnet das Ergebnis in dem Ausgangszwischenspeicher an. Die Vorgänge sind in den folgenden Schritten 6 bis 10 beschrieben. Wenn alle Sätze übersetzt wurden, werden die Inhalte des Ausgangszwischenspeicher zu der Nachrichtenanzeigefunktion der E-Mail-Software oder zu der gespeicherten Kopie der Netzseite in dem Cache-Speicher des Browsers verschoben. Die E-Mail-Software wird getriggert, um die Nachricht anzuzeigen oder die "refresh"-Funktion des,Browsers wird aktiviert, um die Netzseite erneut aufzubauen.
  • Falls die CCML-Sprache von einer Netzseite kam, entfernt die Leseeinrichtung jedweden HTML-Bestandteil, der die Formatierung betrifft und jeden einzelnen CCML-Bestandteil umgibt und ordnet ihn um jeden übersetzten Satz innerhalb des Ausgangszwischenspeichers an. Dies ermöglicht es, dass der Text der Übersetzung in identischer Weise wie die Originalsprache formatiert wird.
  • Funktioneller Schritt 6
  • Der Satzstruktur-Identifizierer wird lokalisiert und in dem Catome nachgeschlagen. Eine äquivalente Struktur wird von dem Catome zurückgegeben, die Information bezüglich der Abfolge der grammatikalischen Komponenten gibt, in der die CCML-Sprache übersetzt werden sollte und in der sie in der Übersetzungsausgabe geordnet werden sollte. Die CCML-Komponenten werden demgemäß umgestellt, um dieser Spezifizierung zu entsprechen.
  • Funktioneller Schritt 7
  • Jede CCML-Komponente in dem Satz wird auf einen Redewendungs- Identifizierer hin abgetastet. Falls einer gefunden wird, wird dieser an das Catome übergeben, das eine äquivalente Redewendung in CCML zurückgibt und den Redewendungsbestandteil in der ursprünglichen CCML-Sprache ersetzt. Falls kein Ausdruck zurückgegeben wird, wird die angefügte "Redewendungsbedeutung" in der ursprünglichen CCML- Sprache verwendet, anstatt den Redewendungsausdruck zu ersetzen.
  • Funktioneller Schritt 8
  • Satz für Satz wird die CCML-Sprache auf jeden "Bedeutungs- Identifizierer" hin gelesen. Diese werden im Gegenzug an das Catome übergeben, das das zu verwendende Wort zusammen mit seinem "Wort- Identifizierer"- Wert zurückgibt.
  • Funktioneller Schritt 9
  • Die Worte werden verändert, um sie entweder bezüglich der Zeit, des Geschlechts, der Subjekt- oder Objektanpassung, singular und plural anzupassen. Dies wird durch Heranziehen der zweistelligen "Bedeutungs-Qualifizierer" von den ursprünglichen CCML-Komponenten sowie jeglicher Geschlechtsinformation oder anderer Attribute, die mit dem CCML-Bestandteil in der ursprünglichen CCML-Sprache assoziiert sind, durchgeführt. Eine Aktualisierung des zweistelligen Qualifizierers zu dem "Wort-Identifizierer" wird erzeugt, angehängt und der sich ergebenden "Wort-Identifizierer" wird an das Catome übergeben. Das Catome gibt das zu verwendende Wort, korrekt abgeändert, zurück.
  • Funktioneller Schritt 10
  • Falls bei dem Satz das "Verkürzungs-Attribut" vorhanden ist oder die Sprache formale Verkürzungen verwendet, werden jedwede anwendbare Verkürzungen für die Wörter oder Wortkombinationen von dem Catome entgegengenommen und anstelle des unverkürzten Textes eingesetzt. Wenn beispielsweise in das Französische übersetzt wird, übersetzt das Programm den englischen Ausdruck "I love" als "Je aime". Da das Französische eine formale Verkürzung verwendet, erzeugt dieser Schritt die korrekte Antwort "J'aime". Wenn dies durchgeführt wurde, wird der vollständige Satz an den Ausgangszwischenspeicher der Leseeinrichtung übergeben. Die Übersetzung ist vollständig.
  • Auch wenn die Erfindung vorstehend im Detail unter Bezugnahme auf eine spezielle, bevorzugte Ausführungsform beschrieben wurde, ist einsichtig, dass die Beschreibung der bevorzugten Ausführungsform nicht beabsichtigt, den Rahmen der vorliegenden Erfindung zu beschränken.

Claims (22)

1. Übersetzungssystem zum Übersetzen eines Eingangstextes in einer im wesentlichen zwanglosen natürlichen Sprache in einen Bedeutungscode unter Verwendung von Eingaben von einem Benutzer, die eine Kenntnis der Sprache des Eingangstextes erfordern, wobei der Bedeutungscode von einem Maschinenübersetzungssystem in einen Ausgangstext in wenigstens einer unterschiedlichen Sprache umgesetzt werden soll, wobei das System folgendes aufweist:
- Analysiermittel zum Erkennen von Sätzen und Wörtern innerhalb der Sätze des Eingangstextes, wobei die Analysiermittel die Wörter in einer Begriffsdatenbasis lokalisieren,
- Bedeutungseditormittel zum Entnehmen mehrerer Bedeutungsbeschreibungen in der Sprache des Eingangstextes aus einer Bedeutungsdatenbasis für jedes von wenigstens einigen Wörtern, die für eine gegebene Wortart in der Begriffsdatenbasis mehrere Bedeutungen aufweisen, zum Entgegennehmen einer Bestätigung von dem Benutzer, welche der mehreren Bedeutungsbeschreibungen für jedes der wenigstens einigen Wörter geeignet ist und um von dem Benutzer einen Hinweis auf eine Wortart der Wörter in jedem der Sätze entgegenzunehmen, und
- Bedeutungscodegeneratormittel zum Empfangen von Daten von den Bedeutungseditormitteln und zum Erzeugen eines Bedeutungscodes entsprechend dem Eingangstext, wobei der Bedeutungscode einen Identifizierungscode enthält, der einer Bedeutung jedes Worts, das in dem Eingangstext gefunden wurde, entspricht und ausreichend grammatikalische Information enthält, so dass der Bedeutungscode mittels einer Maschine korrekt und automatisch in die wenigstens eine unterschiedliche Sprache übersetzt werden kann.
2. System nach Anspruch 1, worin die Bedeutungseditormittel weiter Eingabemittel aufweisen, um es einem Benutzer zu erlauben, eine Eingabe in Reaktion auf wenigstens ein Wort in einem gegebenen Satz, das in der Begriffsdatenbasis nicht gefunden wurde, zu machen.
3. System nach Anspruch 2, worin die Eingabemittel Mittel aufweisen, die es dem Benutzer erlauben, das wenigstens eine Wort als nicht übersetzbar zu kennzeichnen, wobei die Bedeutungscodegeneratormittel in den Bedeutungscode einen Code, der einen nicht übersetzbaren Text anzeigt, sowie einen Text einschließen, der das wenigstens eine Wort repräsentiert.
4. System nach Anspruch 2, worin die Eingabemittel Mittel aufweisen, die es dem Benutzer ermöglichen, den gegebenen Satz zu editieren, wobei ein Begriff oder ein Ausdruck, der in der Begriffsdatenbasis nicht gefunden wird, durch Ändern der Satzstruktur und Ändern von Wörtern vermieden werden kann.
5. System nach Anspruch 2, worin die Bedeutungseditormittel Wörterbuchmittel aufweisen und es dem Benutzer ermöglichen, wenigstens ein alternatives Wort oder einen alternativen Ausdruck, der von den Wörterbuchmitteln erhalten wurde und dem wenigstens einen Wort, das in der Begriffsdatenbasis nicht gefunden wurde, entspricht, auszuwählen, wobei der Benutzer beim Konvertieren von Wörtern, die in der Begriffsdatenbasis nicht gefunden wurden, in Worte mit einer ähnlichen Bedeutung, die in der Begriffsdatenbasis gefunden wurden, unterstützt wird.
6. System nach Anspruch 5, worin die Wörterbuchmittel Mittel aufweisen, um es dem Benutzer zu ermöglichen, Inhalte der Wörterbuchmittel zu editieren.
7. System nach Anspruch 5, worin der Bedeutungscode ein im wesentlichen numerischer Code ist und Text enthält, der das wenigstens eine Wort repräsentiert, das nicht in der Begriffsdatenbasis gefunden wurde, wobei der Bedeutungscode zuverlässig in die Sprache des Eingangstextes umgesetzt werden kann.
8. System nach einem der Ansprüche 1 bis 6, worin der Bedeutungscode ein im wesentlichen numerischer Code ist.
9. System nach Anspruch 8, worin der im wesentlichen numerische Code numerische Wort-Identifizierer aufweist, die jeweils ein Präfix, das eine Wortart kennzeichnet, einen eindeutigen Identifizierer innerhalb der gekennzeichneten Wortart, und ein Suffix aufweisen, das eine Art und Weise kennzeichnet, in der eine veränderliche Wortart verwendet wird.
10. System nach Anspruch 8 oder 9, worin der Bedeutungscode Text aufweist, der die Wörter in den Sätzen des Eingangstextes repräsentiert, wobei der Bedeutungscode zuverlässig in die Sprache des Eingangstextes umgesetzt werden kann.
11. System nach einem der Ansprüche 1 bis 10, worin der Eingangstext ein mit Markierungen versehenes Sprachformat aufweist und der Bedeutungscodegenerator in den Bedeutungscode mit Markierungen versehene Codes einschließt, die es ermöglichen, dass der Bedeutungscode maschinell in die wenigstens eine unterschiedliche Sprache übersetzt und in das mit Markierungen versehene Sprachformat umgesetzt wird, wobei der Bedeutungscode maschinell übersetzbar ist und unter Verwendung eines Internet- Browsers mit einem Plug-in-Programm zum Übersetzen und Umsetzen des Bedeutungscodes angezeigt werden kann.
12. System nach einem der Ansprüche 1 bis 11, weiter mit:
- Mitteln zum Hinzufügen eines neuen Eintrags in die Begriffsdatenbasis und zum Verbinden des neuen Eintrags mit wenigstens einer Bedeutungsbeschreibung in der Bedeutungsdatenbasis, wobei eine Qualität der Begriffsdatenbasis mit der Benutzung des Systems entwickelt werden kann.
13. System nach einem der Ansprüche 1 bis 12, weiter mit:
- Mitteln zum Editieren der Begriffsdatenbasis, um Verbindungen zwischen Eintragungen in der Begriffsdatenbasis und Bedeutungsbeschreibungen in der Bedeutungsdatenbasis zu verändern, wobei eine Qualität der Verbindungen zwischen Begriffen in der Begriffsdatenbasis und Bedeutungen in der Bedeutungsdatenbasis mit der Benutzung des Systems entwickelt werden kann.
14. System nach einem der Ansprüche 1 bis 13, worin die Bedeutungseditormittel zum Entgegennehmen eines Hinweises des Benutzers auf eine Wortart der Wörter in jedem der Sätze den Benutzer auffordern, grammatikalische Information bereitzustellen, die in der Sprache des Eingangstextes nicht erforderlich ist aber beim Erstellen einer genauen Übersetzung in wenigstens eine unterschiedliche Sprache nützlich ist, wobei wenigstens zwei unterschiedliche Sprachen vorgesehen sind.
15. System nach einem der Ansprüche 1 bis 14, worin die Bedeutungseditormittel folgendes aufweisen:
- eine Satzstrukturdatenbasis mit Daten, die eine Anzahl allgemeiner Satzstrukturen definieren, die als Modell herangezogen werden, um zu bestimmen, wo grammatikalische Komponenten eines Satzes zu finden sind und um Beziehungen zwischen den grammatikalischen Komponenten zu bestimmen, sowie
- Mittel zum Entgegennehmen eines Hinweises von dem Benutzer, welche Satzstruktur aus der Anzahl der allgemeinen Satzstrukturen auf wenigstens einige der Sätze zutrifft, wobei der Bedeutungscode weiter Satzstrukturdaten enthält.
16. Verfahren zum vom Menschen unterstützten maschinellen Verarbeiten eines Eingangstextes in einer im wesentlichen zwanglosen natürlichen Sprache, um eine Bedeutungscodedatei für das Erzeugen eines übersetzten Ausgangstextes in wenigstens einer unterschiedlichen Sprache zu erhalten, wobei das Verfahren folgende Schritte aufweist:
- Definieren einer Wortart und einer Bedeutung von Wörtern in jedem Satz des Eingangstextes entsprechend der Bestätigung eines Benutzers, der einen Editor in der Sprache des Eingangstextes bedient, wobei die für jedes der Wörter definierte Bedeutung aus einer vorbestimmten Bedeutungsdatenbasis, die einen Satz von Bedeutungen und zugeordnete Bedeutungscodes enthält, abgeleitet wird, wobei wenigstens einige der Wörter in der Bedeutungsdatenbasis für dieselbe Wortart einen Satz aus mehreren Bedeutungen aufweisen,
- Speichern von Information in der Bedeutungscodedatei, einschließlich der in dem vorhergehenden Schritt abgeleiteten Bedeutungscodes und - Übergeben der Bedeutungscodes an eine maschinelle Übersetzungseinrichtung zum automatischen Erzeugen eines übersetzten Ausgangstextes in wenigstens einer unterschiedlichen Sprache, wobei die Übersetzungseinrichtung eine Datenbasis übersetzter Begriffe aufweist, die den Bedeutungscodes zugeordnet sind.
17. Verfahren zum vom Menschen unterstützten maschinellen Verarbeiten eines Eingangstextes in einer im wesentlichen zwanglosen natürlichen Sprache, um eine Bedeutungscodedatei für das Erzeugen eines übersetzten Ausgangstextes in wenigstens einer unterschiedlichen Sprache zu erhalten, wobei das Verfahren folgende Schritte aufweist:
- Definieren einer Wortart und einer Bedeutung von Wörtern in jedem Satz des Eingangstextes entsprechend der Bestätigung eines Benutzers, der einen Editor in der Sprache des Eingangstextes bedient, wobei die für jedes der Wörter definierte Bedeutung aus einer vorbestimmten Bedeutungsdatenbasis, die einen Satz von Bedeutungen und zugeordnete Bedeutungscodes enthält, abgeleitet wird, wobei wenigstens einige der Wörter in der Bedeutungsdatenbasis für dieselbe Wortart einen Satz aus mehreren Bedeutungen aufweisen,
- Speichern von Information in der Bedeutungscodedatei, einschließlich der in dem vorhergehenden Schritt abgeleiteten Bedeutungscodes in der Bedeutungscodedatei,
- Bereitstellen einer maschinellen Übersetzungseinrichtung zum maschinellen Übersetzen der Bedeutungscodes in die wenigstens eine unterschiedliche Sprache, wobei die Übersetzungseinrichtung eine Datenbasis übersetzter Begriffe aufweist, die den Bedeutungscodes zugeordnet sind, und
- automatisches Erzeugen des Ausgangstextes aus der Bedeutungscodedatei unter Verwendung der maschinellen Übersetzungseinrichtung.
18. Verfahren nach Anspruch 16 oder 17, worin der Schritt des Speicherns eine elektronische Übertragung der Bedeutungscodedatei an einen entfernten Ort enthält, an dem die maschinelle Übersetzungseinrichtung angeordnet ist.
19. Verfahren nach einem der Ansprüche 16 bis 18, worin der Schritt des Definierens das Auffordern eines Benutzers einschließt, grammatikalische Information bereitzustellen, die in der Sprache des Eingangstextes nicht erforderlich ist aber beim Erstellen einer genauen Übersetzung in wenigstens eine unterschiedliche Sprache nützlich ist, wobei wenigstens zwei unterschiedliche Sprachen vorgesehen sind.
20. Verfahren nach Anspruch 16, mit den folgenden Schritten:
- Empfangen eines Signals, wobei das Signal Daten aus einer Bedeutungscodedatei enthält, die gemäß dem Verfahren nach den Ansprüchen 16 oder 17 erhalten wurde,
- Bereitstellen einer maschinellen Übersetzungseinrichtung zum maschinellen Übersetzen der Bedeutungscodedatei in wenigstens eine unterschiedliche Sprache, wobei die Übersetzungseinrichtung eine Datenbasis übersetzter Begriffe aufweist, die den Bedeutungscodes zugeordnet sind, und
- automatisches Erzeugen des Ausgangstextes aus der Bedeutungscodedatei unter Verwendung der maschinellen Übersetzungseinrichtung.
21. Verfahren nach einem der Ansprüche 16 bis 20, worin:
- der Schritt des Definierens weiter das Auswählen einer allgemeinen Satzstruktur aus einer Anzahl von allgemeinen Satzstrukturen aufweist, die als Modell herangezogen werden, um zu bestimmen, wo grammatikalische Komponenten eines Satzes zu finden sind, und um Beziehungen zwischen den grammatikalischen Komponenten anzugeben, wobei die allgemeine Satzstruktur auf wenigstens einige der Sätze anwendbar ist,
- wobei die Bedeutungscodedatei weiter Satzstrukturdaten enthält und
- wobei die maschinelle Übersetzungseinrichtung weiter eine Datenbasis mit den allgemeinen Satzstrukturen enthält und
- wobei auch beim Erzeugen des Ausgangstextes die Satzstrukturdaten für die Sätze verwendet werden, die die ausgewählte allgemeine Satzstruktur haben.
22. Computerlesbarer Speicher zum Speichern programmierbarer Befehle, geeignet zum Durchführen aller Schritte des Verfahrens eines der Ansprüche 16 bis 21, wenn diese Befehle mittels eines Computers ausgeführt werden.
DE69803043T 1997-05-28 1998-05-27 Übersetzungssystem Expired - Fee Related DE69803043T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US4871597P 1997-05-28 1997-05-28
PCT/CA1998/000549 WO1998054655A1 (en) 1997-05-28 1998-05-27 Translation system

Publications (2)

Publication Number Publication Date
DE69803043D1 DE69803043D1 (de) 2002-01-31
DE69803043T2 true DE69803043T2 (de) 2002-08-14

Family

ID=21956061

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69803043T Expired - Fee Related DE69803043T2 (de) 1997-05-28 1998-05-27 Übersetzungssystem

Country Status (7)

Country Link
US (2) US6385568B1 (de)
EP (1) EP0968475B1 (de)
AT (1) ATE211277T1 (de)
AU (1) AU7753998A (de)
CA (1) CA2286935C (de)
DE (1) DE69803043T2 (de)
WO (1) WO1998054655A1 (de)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2367320A1 (en) * 1999-03-19 2000-09-28 Trados Gmbh Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
WO2001075662A2 (en) * 2000-03-31 2001-10-11 Amikai, Inc. Method and apparatus for providing multilingual translation over a network
US7437669B1 (en) * 2000-05-23 2008-10-14 International Business Machines Corporation Method and system for dynamic creation of mixed language hypertext markup language content through machine translation
US6757739B1 (en) * 2000-06-05 2004-06-29 Contivo, Inc. Method and apparatus for automatically converting the format of an electronic message
US7389221B1 (en) * 2000-07-17 2008-06-17 Globalenglish Corporation System and method for interactive translation
US20020091509A1 (en) * 2001-01-02 2002-07-11 Yacov Zoarez Method and system for translating text
US20040205674A1 (en) * 2001-04-09 2004-10-14 Delgado Maria Elena E-mail translation system and method
US7130861B2 (en) * 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
JP2003091344A (ja) * 2001-09-19 2003-03-28 Sony Corp 情報処理装置および情報処理方法、記録媒体、データ構造、並びにプログラム
US20080300856A1 (en) * 2001-09-21 2008-12-04 Talkflow Systems, Llc System and method for structuring information
US20030074188A1 (en) * 2001-10-12 2003-04-17 Tohgo Murata Method and apparatus for language instruction
US7694325B2 (en) * 2002-01-31 2010-04-06 Innovative Electronic Designs, Llc Information broadcasting system
US8077877B1 (en) * 2002-01-31 2011-12-13 Mitek Corp., Inc. Courtesy announcement system and method of using
US20030236658A1 (en) * 2002-06-24 2003-12-25 Lloyd Yam System, method and computer program product for translating information
US20040117188A1 (en) * 2002-07-03 2004-06-17 Daniel Kiecza Speech based personal information manager
US20040004599A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for facilitating playback of media
GB2395029A (en) * 2002-11-06 2004-05-12 Alan Wilkinson Translation of electronically transmitted messages
US7536293B2 (en) * 2003-02-24 2009-05-19 Microsoft Corporation Methods and systems for language translation
JP3765801B2 (ja) * 2003-05-28 2006-04-12 沖電気工業株式会社 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
US8135575B1 (en) 2003-08-21 2012-03-13 Google Inc. Cross-lingual indexing and information retrieval
US7524191B2 (en) * 2003-09-02 2009-04-28 Rosetta Stone Ltd. System and method for language instruction
US9552354B1 (en) 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US20050216251A1 (en) * 2004-03-24 2005-09-29 Dorius Kirk D Bi-lingual language display and method
EP1754169A4 (de) * 2004-04-06 2008-03-05 Dept Of Information Technology System zur mehrsprachigen maschinenübersetzung aus dem englischen in hindi und andere indische sprachen unter verwendung eines pseudo-interlingua und hybridisierten ansatzes
US20050234700A1 (en) * 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
US20060004730A1 (en) * 2004-07-02 2006-01-05 Ning-Ping Chan Variant standardization engine
US7349924B2 (en) * 2004-11-29 2008-03-25 International Business Machines Corporation Colloquium prose interpreter for collaborative electronic communication
US7599828B2 (en) * 2005-03-01 2009-10-06 Microsoft Corporation Grammatically correct contraction spelling suggestions for french
US8219907B2 (en) * 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
US20060206797A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Authorizing implementing application localization rules
JP2006277103A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文書翻訳方法および文書翻訳装置
US20060277189A1 (en) * 2005-06-02 2006-12-07 Microsoft Corporation Translation of search result display elements
US20070219987A1 (en) * 2005-10-14 2007-09-20 Leviathan Entertainment, Llc Self Teaching Thesaurus
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US8600736B2 (en) * 2007-01-04 2013-12-03 Thinking Solutions Pty Ltd Linguistic analysis
US20080262827A1 (en) * 2007-03-26 2008-10-23 Telestic Llc Real-Time Translation Of Text, Voice And Ideograms
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US20120101803A1 (en) * 2007-11-14 2012-04-26 Ivaylo Popov Formalization of a natural language
US20090132257A1 (en) * 2007-11-19 2009-05-21 Inventec Corporation System and method for inputting edited translation words or sentence
US9201870B2 (en) * 2008-01-25 2015-12-01 First Data Corporation Method and system for providing translated dynamic web page content
US20090287471A1 (en) * 2008-05-16 2009-11-19 Bennett James D Support for international search terms - translate as you search
US20090313005A1 (en) * 2008-06-11 2009-12-17 International Business Machines Corporation Method for assured lingual translation of outgoing electronic communication
US20100049496A1 (en) * 2008-08-22 2010-02-25 Inventec Corporation Word translation enquiry system across multiple thesauri and the method thereof
TWI376656B (en) * 2008-09-11 2012-11-11 Shing Lung Chen Foreign-language learning method utilizing an original language to review corresponding foreign languages and foreign-language learning database system thereof
US8229971B2 (en) 2008-09-29 2012-07-24 Efrem Meretab System and method for dynamically configuring content-driven relationships among data elements
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US10671698B2 (en) 2009-05-26 2020-06-02 Microsoft Technology Licensing, Llc Language translation using embeddable component
US9405745B2 (en) * 2009-06-01 2016-08-02 Microsoft Technology Licensing, Llc Language translation using embeddable component
US9626339B2 (en) 2009-07-20 2017-04-18 Mcap Research Llc User interface with navigation controls for the display or concealment of adjacent content
US8204752B1 (en) * 2009-10-16 2012-06-19 Cranford Michael D Portable translation apparatus
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US8527259B1 (en) * 2011-02-28 2013-09-03 Google Inc. Contextual translation of digital content
US8965750B2 (en) 2011-11-17 2015-02-24 Abbyy Infopoisk Llc Acquiring accurate machine translation
US9323746B2 (en) 2011-12-06 2016-04-26 At&T Intellectual Property I, L.P. System and method for collaborative language translation
TWI530803B (zh) * 2011-12-20 2016-04-21 揚明光學股份有限公司 電子裝置及其詞彙資訊顯示方法
US9116885B2 (en) * 2012-01-16 2015-08-25 Google Inc. Techniques for a gender weighted pinyin input method editor
US9424364B2 (en) * 2012-02-14 2016-08-23 Jive Software, Inc. Integrated context-driven information search and interaction
US11010795B2 (en) * 2012-03-30 2021-05-18 Rewardstyle, Inc. System and method for affiliate link generation
KR20140079598A (ko) * 2012-12-17 2014-06-27 한국전자통신연구원 문맥 검증 장치 및 방법
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US20150104763A1 (en) * 2013-10-15 2015-04-16 Apollo Group, Inc. Teaching students to recognize and correct sentence fragments
CN104133854A (zh) * 2014-07-09 2014-11-05 新乡学院 一种MySQL多语言混合文本全文检索的实现方法
US9678954B1 (en) * 2015-10-29 2017-06-13 Google Inc. Techniques for providing lexicon data for translation of a single word speech input
KR102251832B1 (ko) * 2016-06-16 2021-05-13 삼성전자주식회사 번역 서비스를 제공하는 전자 장치 및 방법
JP7030434B2 (ja) * 2017-07-14 2022-03-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 翻訳方法、翻訳装置及び翻訳プログラム
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
JP7246027B2 (ja) * 2017-12-18 2023-03-27 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法、及びプログラム
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN109783826B (zh) * 2019-01-15 2023-11-21 四川译讯信息科技有限公司 一种文档自动翻译方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
JPS61184685A (ja) * 1985-02-12 1986-08-18 Hitachi Ltd 翻訳情報追加方法
JPS6244877A (ja) * 1985-08-22 1987-02-26 Toshiba Corp 機械翻訳装置
USRE35464E (en) * 1986-11-28 1997-02-25 Sharp Kabushiki Kaisha Apparatus and method for translating sentences containing punctuation marks
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
US5005127A (en) * 1987-10-26 1991-04-02 Sharp Kabushiki Kaisha System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
JP2814634B2 (ja) * 1989-12-29 1998-10-27 松下電器産業株式会社 機械翻訳装置
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
JP2815714B2 (ja) * 1991-01-11 1998-10-27 シャープ株式会社 翻訳装置
US5523946A (en) * 1992-02-11 1996-06-04 Xerox Corporation Compact encoding of multi-lingual translation dictionaries
JP3220560B2 (ja) * 1992-05-26 2001-10-22 シャープ株式会社 機械翻訳装置
EP0658259B1 (de) * 1992-09-04 2000-03-01 Caterpillar Inc. Integriertes entwurf- und übersetzungssystem
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
JP3356536B2 (ja) * 1994-04-13 2002-12-16 松下電器産業株式会社 機械翻訳装置
US5587903A (en) 1994-06-22 1996-12-24 Yale; Thomas W. Artificial intelligence language program
US6139201A (en) * 1994-12-22 2000-10-31 Caterpillar Inc. Integrated authoring and translation system
GB2300495A (en) * 1995-04-13 1996-11-06 Canon Kk Language processing
US6993471B1 (en) * 1995-11-13 2006-01-31 America Online, Inc. Integrated multilingual browser

Also Published As

Publication number Publication date
DE69803043D1 (de) 2002-01-31
AU7753998A (en) 1998-12-30
CA2286935C (en) 2001-02-27
CA2286935A1 (en) 1998-12-03
ATE211277T1 (de) 2002-01-15
WO1998054655A1 (en) 1998-12-03
EP0968475A1 (de) 2000-01-05
US20020128814A1 (en) 2002-09-12
EP0968475B1 (de) 2001-12-19
US6385568B1 (en) 2002-05-07

Similar Documents

Publication Publication Date Title
DE69803043T2 (de) Übersetzungssystem
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
DE69812162T2 (de) Vorrichtung zur Verwendung bei der Identifizierung semantischer Mehrdeutigkeiten
DE3789073T3 (de) System zur maschinellen Übersetzung.
DE68928693T2 (de) Verfahren zur Behandlung von digitalen Textdaten
DE69129107T2 (de) Automatisches übersetzungs-und fernübertragungssystem
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE69427848T2 (de) Unterstützungssystem zur Herstellung von Wörterbüchern
DE68928230T2 (de) System zur grammatikalischen Verarbeitung eines aus natürlicher Sprache zusammengesetzten Satzes
DE69028592T2 (de) Gerät zur automatischen Generierung eines Index
Teubert The role of parallel corpora in translation and multilingual lexicography
Gantar et al. Discovering automated lexicography: The case of the Slovene lexical database
Rodríguez-Ordóñez Reexamining differential object marking as a linguistic contact-phenomenon in Gernika Basque
DE69733294T2 (de) Einrichtung und Verfahren zum Zugriff auf eine Datenbank
Malaisé et al. Mining defining contexts to help structuring differential ontologies
Heny Binding and filtering
Smadja XTRACT: an overview
DE69933123T2 (de) Zugriff auf eine semi-strukturierte datenbank
DE68919030T2 (de) Computerunterstütztes Übersetzungsgerät.
Lezius et al. Imslex representing morphological and syntactic information in a relational database
Hamoud et al. Evaluation corpus for restricted-domain question-answering systems for the holy Quran
Rebdawi et al. An interactive Arabic dictionary
Kolditz Generating questions for German text
Jesenšek Specialised lexicography: print and digital, specialised dictionaries, databases
Barnett et al. A word database for natural language processing

Legal Events

Date Code Title Description
8339 Ceased/non-payment of the annual fee