DE4135261C1 - - Google Patents
Info
- Publication number
- DE4135261C1 DE4135261C1 DE4135261A DE4135261A DE4135261C1 DE 4135261 C1 DE4135261 C1 DE 4135261C1 DE 4135261 A DE4135261 A DE 4135261A DE 4135261 A DE4135261 A DE 4135261A DE 4135261 C1 DE4135261 C1 DE 4135261C1
- Authority
- DE
- Germany
- Prior art keywords
- words
- translation
- code
- word
- translations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Description
Die Erfindung betrifft eine elektronische Vorrichtung
zur Übersetzung von Wörtern aus einer ersten in eine
zweite Sprache mit Speichermitteln, in denen Wörter
und deren zugehörige Übersetzungen abgespeichert sind.
Des weiteren betrifft die Erfindung ein entsprechendes
Verfahren zur Übersetzung von Wörtern.
Eine derartige Vorrichtung ist aus DE 28 54 837 A1
bekannt. Dort sind die abzuspeichernden Wörter nach
Wortstämmen geordnet. Zu jedem Wortstamm sind
zusätzliche Informationen abgespeichert, z. B. ob es
sich um ein Substantiv, ein Verb, oder dergleichen
handelt oder ob ein Schlüsselwort für Redewendungen,
ein unregelmäßiges Verb usw. vorliegt. Des weiteren
sind jeweils die Buchstaben des Wortstamms sowie die
Adressen der Übersetzungen abgespeichert.
Besonderheiten im Zusammenhang mit Komposita sind
nicht offenbart.
Des weiteren sind Textübersetzungssysteme bekannt, in
denen ein Computersystem einem Übersetzer Vorschläge
für die Übersetzung der einzelnen Wörter eines Textes
macht. In diesem Fall liest das Computersystem die zu
jedem Wort des Textes abgespeicherte Übersetzung aus
den Speichermitteln aus und zeigt sie dem Übersetzer
beispielsweise auf einem Bildschirm an. Der Übersetzer
kann diese vorgeschlagenen Übersetzungen dann
übernehmen, muß aber die einzelnen Übersetzungen noch
zu einem übersetzten Text zusammenfügen. Das
Textübersetzungssystem ist somit ein Werkzeug des
Übersetzers für die Erstellung der Übersetzung.
Es sind jedoch auch Textübersetzungssysteme auf dem
Markt und in der Entwicklung, die eine vollautoma
tische Übersetzung anstreben. Bei diesen Textüber
setzungssystemen wird auch das Zusammenfügen der aus
den Speichermitteln ausgelesenen Übersetzungen zu dem
übersetzten Text nach bestimmten Übersetzungsregeln
von dem Computersystem selbst durchgeführt.
In beiden Fällen ist es erforderlich, daß in den
Speichermitteln des Computersystems sämtliche Wörter
der Quellsprache sowie sämtliche zugehörigen
Übersetzungen der Zielsprache abgespeichert sind.
Ist nun Deutsch die Quellsprache des Textübersetzungs
systems, so entsteht unabhängig von der Zielsprache
das Problem, daß sämtliche deutschen Komposita, also
sämtliche zusammengesetzten Wörter der deutschen
Sprache in den Speichermitteln abgespeichert werden
müßten. Es wäre also nicht nur erforderlich, daß die
Wörter "Tier", "Schutz", "Verein", sondern auch die
Wörter "Tierschutz", "Tierschutzverein", "Vereinskasse"
"Schutzhülle" usw. abgespeichert werden. Dies hätte
zum einen zur Folge, daß nur Großrechensysteme mit
großen Speichermitteln als Textübersetzungssysteme
geeignet wären, zum anderen hätte dies auch zur Folge,
daß die Verarbeitungsgeschwindigkeit dieser Textüber
setzungssysteme relativ langsam wäre, da bei jedem zu
übersetzenden Wort die gesamten Speichermittel
abgesucht werden müßten. Schließlich wäre bei einem
derartigen Textübersetzungssystem eine gewisse
Fehlerwahrscheinlichkeit vorhanden, da in der deutschen
Sprache permanent neue Komposita entstehen, die dann
in den Speichermitteln nicht abgespeichert wären.
Aufgabe der Erfindung ist es, ein
Textübersetzungs-System zu schaffen, das auch bei kleinen Computer
systemen eine vollautomatische und korrekte Über
setzung deutscher Komposita ermöglicht.
Diese Aufgabe wird bei einer Vorrichtung der eingangs
genannten Art erfindungsgemäß dadurch gelöst, daß bei
Wörtern, die Bestandteile von Komposita sind,
zusätzlich Segmentierungs- und Übersetzungshilfen als
Hilfsmittel zur korrekten Segmentierung und
Übersetzung der Komposita abgespeichert sind.
Bei einem erfindungsgemäßen Verfahren
zur Übersetzung von Wörtern aus einer ersten in
eine zweite Sprache mit Hilfe einer elektronischen
Vorrichtung werden
Komposita mittels abgespeicherter Segmentierungshilfen
in Wörter zerlegt und die den Wörtern zugehörigen
Übersetzungen unter Berücksichtigung von
abgespeicherten Übersetzungshilfen erzeugt.
Durch die Segmentierungshilfen ist es dem Textüber
setzungssystem möglich, Komposita in ihre Bestandteile,
also in einzelne Wörter zu zerlegen. Diese Wörter
können in den Speichermitteln aufgesucht, und die
zugehörigen Übersetzungen können dann ausgelesen
werden. Es ist also nicht mehr erforderlich, das
Kompositum als Ganzes in den Speichermitteln abzu
speichern, sondern es genügt, die Bestandteile des
Kompositums, also die einzelnen Wörter und deren Über
setzungen in den Speichermitteln abzulegen. Bei dem
eingangs genannten Beispiel genügt es somit, die
Wörter "Tier", "Schutz", "Verein", usw. abzuspeichern,
nicht aber die Worte "Tierschutzverein", usw. Der
erforderliche Speicherplatzbedarf wird dadurch wesent
lich verringert. Damit ist es möglich, daß derartige
Textübersetzungssysteme auch auf kleinen Computer
systemen betrieben werden können. Ebenfalls wird die
Verarbeitungsgeschwindigkeit des Textübersetzungs
systems erhöht.
Durch die des weiteren abgespeicherten Übersetzungs
hilfen wird eine korrekte Übersetzung von Komposita
gewährleistet. Dies ist insbesondere dann von
Bedeutung, wenn die Übersetzung eines Kompositums von
allgemeinen Übersetzungsregeln abweicht.
So ist beispielsweise festgestellt worden, daß bei
einer Übersetzung vom Deutschen ins Englische ein
deutsches Kompositum, das aus zwei Substantiven
zusammengesetzt ist, in den meisten Fällen auch im
Englischen in der Form zweier Substantive wieder
auftritt. Dies ist die allgemeine Übersetzungsregel.
Weicht nun die Übersetzung eines Kompositums von dieser
Regel ab, wird beispielsweise ein deutsches Kompositum,
das aus zwei Substantiven besteht, im Englischen in
der Form eines Adjektivs und eines Substantivs
wiedergegeben, so wird diese Abweichung von der
allgemeinen Übersetzungsregel als Übersetzungshilfe
bei dem entsprechenden Wort des deutschen Kompositums
abgespeichert und kann somit zur Erreichung einer
korrekten Übersetzung berücksichtigt werden.
Bei einer Ausgestaltung der Erfindung ist als
Übersetzungshilfe ein Transfercode vorgesehen, der auf
Besonderheiten der Übersetzung des Wortes im
Zusammenhang mit Komposita hinweist. Dieser
Transfercode kann beispielsweise auf eine andere
Wortart oder eine andere Konstruktion der Übersetzung
des Wortes hinweisen. Als weiteres Beispiel ist es
möglich, daß der Transfercode auf unterschiedliche
Übersetzungen des Wortes hinweist in Abhängigkeit von
anderen Wörtern des Kompositums.
Bei weiteren Ausgestaltungen der Erfindung sind als
Segmentierungshilfen ein Fugencode und ein Positions
code vorgesehen; als weitere Übersetzungshilfe kann
eine Tabelle vorgesehen sein, in der die Zusammen
setzung der Wörter von Komposita zugeordnet ist der
Zusammensetzung der Wörter der übersetzten Komposita.
Vorteilhafte Ausgestaltungen der Erfindung sind in den
Unteransprüchen angegeben.
Es folgt nun die anhand der
Zeichnung vorgenommene Beschreibung eines
Ausführungsbeispiels der Erfindung.
Fig. 1 zeigt einen Auszug aus einem Speicher einer
elektronischen Vorrichtung zur Übersetzung,
in der ein Wort mit
zugehöriger Wortart, zugehörigem
semantischen Typ sowie mit zugehörigem
Fugencode, Positionscode, Transfercode und
zugehöriger Übersetzung abgespeichert ist.
Fig. 2 zeigt eine Tabelle, in der die verschiedenen
Fugencodes der Fig. 1 definiert sind.
Fig. 3 zeigt eine Tabelle, in der die verschiedenen
Positionscodes der Fig. 1 definiert sind.
Fig. 4 zeigt nochmals einen Auszug aus dem
Speicher der elektronischen Vorrichtung der Fig. 1, in
dem einzelne Beispiele für die Worte,
Wortarten, Fugencodes, Positionscodes,
Transfercodes und Übersetzungen angegeben
sind.
Fig. 5 zeigt eine Tabelle, in der die
Zusammensetzung von Komposita in der
deutschen und der englischen Sprache
einander gegenübergestellt sind.
Fig. 1 zeigt einen Auszug aus einem Speicher
einer elektronischen Vorrichtung zur Übersetzung von Wörtern
aus einer ersten in eine zweite Sprache (im folgenden
Computersystem zur Textübersetzung genannte). Es ist eine Zeile
des Speichers dargestellt, die in sieben Spalten
unterteilt ist. Die erste Spalte dient zur Aufnahme
eines Wortes 100. Danach folgt eine Spalte für die
Wortart 101 und den semantischen Typ 102 des Wortes
100, sowie ein Fugencode F 103, ein Positionscode P
104 und ein Transfercode T 105. Schließlich enthält
die Zeile noch eine Übersetzung 106 des Wortes 100.
Bei dem Wort 100 handelt es sich um ein Wort einer
Quellsprache, also derjenigen Sprache die übersetzt
werden soll. Bei der Übersetzung 106 handelt es sich
um ein Wort einer Zielsprache, also derjenigen
Sprache, in die übersetzt werden soll. Das Wort 100
der Quellsprache und die Übersetzung 106 der
Zielsprache sind einander zugeordnet, haben also
dieselbe Bedeutung.
Die tatsächliche Länge der in der Fig. 1 dargestellten
Zeile des Speichers hängt insbesondere von der Anzahl
der Buchstaben des Wortes 100 sowie der Anzahl der
Buchstaben der Übersetzung 106 ab. Des weiteren kann
auch noch der semantische Typ 102, wie auch der
Transfercode 105 eine unterschiedliche Anzahl von
Zeichen aufweisen.
Die Wortart 101 bezieht sich auf das Wort 100. Handelt
es sich bei dem Wort 100 z. B. um ein Substantiv, so
ist dies mit Hilfe der Wortart 101 "n" (noun)
abgespeichert (vergleiche Fig. 4). Entsprechend können
Verben oder Adjektive durch die Wortarten 101 "v" oder
"a" zum Ausdruck gebracht werden.
Bei dem semantischen Typ 102 handelt es sich um
allgemeine Angaben zu dem zugehörigen Wort 100.
Beispiele hierzu werden nachfolgend erläutert
(vergleiche Fig. 4).
Mit Hilfe der Tabelle der Fig. 2 werden nachfolgend
die verschiedenen möglichen Fugencodes F 103 näher
erläutert. Die Tabelle weist drei Spalten auf, wobei
die erste Spalte den Fugencode 103 enthält, die zweite
Spalte eine Definition 121 des Fugencodes 103 und die
dritte Spalte ein Beispiel 122 für diesen Fugencode
103. Die Tabelle der Fig. 2 betrifft die deutsche
Sprache.
Bei dem Fugencode 103 handelt es sich um eine Codierung,
die angibt, welche Buchstaben beim Zusammensetzen von
Wörtern 100 zu einem Kompositum von dem jeweiligen
Wort 100 weggenommen bzw. zu dem jeweiligen Wort 100
hinzugefügt werden. So wird beispielsweise an das Wort
100 "Heizung" ein "s" hinzugefügt, wenn dieses Wort
100 in dem Kompositum "Heizungsmonteur" verwendet
wird. Der Fugencode 103 hierzu ist "13" und die
zugehörige Definition 121 "+s" bedeutet, daß an das
Wort 100 "Heizung", wie erwähnt, ein "s" angefügt
werden muß. Bei dem Fugencode 103 "17" geht aus der
Definition 121 "-en +s" hervor, daß beispielsweise bei
der Verwendung des Wortes 100 "Weihnachten" in einem
Kompositum die Buchstaben "en" am Ende weggelassen
werden müssen und statt dessen der Buchstabe "s"
hinzugefügt werden muß, so beispielsweise bei dem
Kompositum "Weihnachtskonzert".
In der Tabelle der Fig. 2 sind 27 solche Fugencodes
103 aufgelistet. Es versteht sich, daß auch noch
weitere Fugencodes 103 vorhanden sein und hinzugefügt
werden können.
Mit Hilfe der Tabelle der Fig. 3 wird nachfolgend der
Positionscode P 104 näher erläutert. Die Tabelle hat
drei Spalten, wobei in der ersten Spalte der Positions
code 104 enthalten ist, in der zweiten Spalte die
Definition 131 des Positionscodes 104 und in der
dritten Spalte Beispiele 132 für diesen Positionscode
104. Die Tabelle der Fig. 3 betrifft die deutsche
Sprache. In der Tabelle der Fig. 3 sind insgesamt acht
Positionscodes 104 aufgelistet.
Der Positionscode 104 gibt an, an welchen Stellen ein
Wort 100 unter Berücksichtigung des Fugencodes 103
innerhalb eines Kompositums auftreten kann. So kann
beispielsweise das Wort "Antritts", das sich aus dem
Wort 100 "Antritt" und dem Buchstaben "s" entsprechend
dem Fugencode 103 "13" zusammensetzt, alleine auftreten,
nämlich beispielsweise im Sinne von "des Antritts"; es
kann aber auch an jeder Stelle innerhalb eines
Kompositums auftreten, beispielsweise in dem Kompositum
"Antrittsbesuch" oder "des Probeantritts". Zu diesem
Beispiel gehört dann nach der Tabelle der Fig. 3 der
Positionscode 104 "1". Das Wort "Oster" hingegen, das
sich aus dem Wort 100 "Ostern" und dem weggenommenen
Buchstaben "n" entsprechend dem Fugencode 103 "18"
zusammensetzt, kann nicht alleine, sondern nur
innerhalb eines Kompositums an dessen Anfang oder in
dessen Mitte auftreten. Diesem Beispiel entspricht
somit der Positionscode 104 "6".
Steht ein Kompositum zur Übersetzung durch das Computer
system an, so zerlegt das Computersystem in einem
ersten Schritt das Kompositum in einzelne Wörter 100.
Dies wird dadurch erreicht, daß das Computersystem das
zu übersetzende Kompositum, vom Anfang des Kompositums
ausgehend, Buchstaben für Buchstaben so lange mit den
im Speicher abgespeicherten Wörtern 100 vergleicht,
bis ein übereinstimmendes Wort 100 gefunden wird.
Dabei werden mit Hilfe der Wortart 101 beispielsweise
Pronomina, Konjunktionen, oder dergleichen
ausgeschlossen und insbesondere nur Substantive,
Adjektive, Verben und Adverben zugelassen. Bei diesem
Suchverfahren wird nicht nur der jeweilige Teil des
Kompositums mit den Wörtern 100 verglichen, sondern
auch zusätzlich mit den aufgrund der mitabgespeicherten
Fugencodes 103 abgeänderten Wörtern 100. Dadurch wird
erreicht, daß beispielsweise in dem Kompositum
"Volksbefragungskampagne" nacheinander die Wörter 100
"Volk", "Befragung" und "Kampagne" im Speicher
aufgefunden werden, wobei bei den Wörtern 100 "Volk"
und "Befragung" der jeweils zugehörige Fugencode 103,
nämlich ein zusätzliches "s", berücksichtigt wird.
Gleichzeitig wird in diesem ersten Schritt überprüft,
ob die Stellung der erhaltenen Wörter 100 innerhalb
des zu übersetzenden Kompositums mit den bei den
Wörtern 100 mitabgespeicherten Positionscodes 104
übereinstimmt. Ist dies nicht der Fall, so besteht die
Möglichkeit eines Fehlers, der entweder angezeigt
werden kann oder der ein nochmaliges Durchlaufen des
Suchverfahrens bewirken kann. Stimmen die
abgespeicherten Positionscodes 104 mit den
tatsächlichen Stellungen der Wörter 100 innerhalb des
Kompositums überein, so werden diese Wörter 100 für
die weitere Übersetzung verwendet.
In einem nächsten Schritt liest das Computersystem die
jeweils zugehörigen Übersetzungen 106 zu den Wörtern
100 aus dem Speicher aus. Diese Übersetzungen 106
müssen zu einer korrekten Übersetzung des quellsprachigen
Kompositums in die Zielsprache zusammengefügt werden.
Hierzu werden Übersetzungshilfen verwendet, die anhand
der Fig. 4 und 5 nachfolgend erläutert werden.
Bei dem in der Fig. 4 gezeigten Auszug aus dem Speicher
des Computersystems ist Deutsch die Quellsprache und
Englisch die Zielsprache. Es sind eine Reihe von
deutschen Wörtern 100 angegeben, jeweils zusammen mit
der Wortart 101, dem semantischen Typ 102 sowie mit
dem zugehörigen Fugencode F 103, dem Positionscode P
104, dem Transfercode T 105 und der englischen
Übersetzung 106.
Soll beispielsweise das deutsche Kompositum
"Parlamentsdebatte" ins Englische übersetzt werden, so
zerlegt das Computersystem, wie erläutert, mit Hilfe
der Wortart 101, des Fugencodes 103 und des Positions
codes 104 dieses Kompositum in die Wörter 100
"Parlament" und "Debatte". Aus dem Speicher entnimmt
dann das Computersystem die jeweiligen Übersetzungen
106, nämlich "parliament" und "debate". Ohne den
Transfercode 105 könnte das Computersystem nur aus den
beiden genannten Übersetzungen 106 die dem Kompositum
"Parlamentsdebatte" zugehörige Übersetzung bilden. Da
die korrekte Übersetzung dieses Kompositums jedoch
"parliamentary debate" lautet, würde das Computersystem
in diesem Fall eine fehlerhafte Übersetzung liefern,
beispielsweise "parliament debate".
In dem vorliegenden Beispiel ist jedoch bei dem Wort
100 "Parlament" als Transfercode 105 "adj" angegeben.
Dieser Transfercode 105 hat die Bedeutung, daß bei der
Verwendung des zugehörigen Wortes 100 innerhalb eines
Kompositums dieses Wort 100 adjektivisch übersetzt
werden muß. Das Wort 100 "Parlament" darf also, sofern
es in einem Kompositum verwendet wird, nicht als
Substantiv, "parliament", übersetzt werden, sondern es
muß als Adjektiv, "parliamentary", übersetzt werden.
Der Transfercode 105 gibt also darüber Auskunft, wie
das zugehörige Wort 100 innerhalb eines Kompositums
abweichend von den allgemeinen Übersetzungsregeln
übersetzt werden muß. Falls es erforderlich ist, kann
diese abweichende Übersetzung dann noch besonders
angegeben werden. Dies wird in dem beschriebenen
Beispiel dadurch erreicht, daß als weitere Übersetzung
106 die adjektivische Übersetzung des Wortes 100
"Parlament" angegeben ist, nämlich "adj:
parliamentary". Selbstverständlich ist es auch
möglich, daß statt der unmittelbaren Angabe von
"parliamentary" eine Kodierung oder Adresse vorgesehen
ist, die auf das Wort 100 "parlamentarisch" und damit
auf die Übersetzung 106 "parliamentary" verweist.
In einem anderen Beispiel soll das deutsche Kompositum
"Sicherheitsglas" ins Englische übersetzt werden. Wie
beschrieben zerlegt das Computersystem das Kompositum
unter Berücksichtigung der Wortart 101, des Fugencodes
103 und des Positionscodes 104 in die Wörter 100
"Sicherheit" und "Glas". Für das Wort 100 "Sicherheit"
gibt es nun zwei Übersetzungen 106 im Englischen,
nämlich "safety" und "security". Ohne den Transfercode
105 wäre es für das Computersystem nicht möglich,
sicher und in jedem Fall die korrekte Übersetzung des
Kompositums anzugeben, nämlich "safety glas".
Der Transfercode 105 "phys/abs" bringt nun im vor
liegenden Beispiel zum Ausdruck, daß die Übersetzung
des zugehörigen Wortes 100 "Sicherheit" innerhalb
eines Kompositums davon abhängt, welchen semantischen
Typ 102 das oder die anderen Wörter des Kompositums
aufweisen. Besitzen diese anderen Wörter des
Kompositums physikalische Eigenschaften, bestehen sie
also insbesondere aus Materie, so ist das Wort 100
"Sicherheit" mit der Übersetzung 106 "safety" zu
übersetzen. Besitzen die anderen Wörter des Kompositums
hingegen abstrakte Eigenschaften, also beispielsweise
gedankliche Regeln oder dergleichen, so ist das Wort
100 "Sicherheit" innerhalb dieses Kompositums mit der
Übersetzung 106 "security" zu übersetzen.
Im vorliegenden Beispiel, dem Kompositum "Sicherheits
glas", besteht das zweite Wort 100 des Kompositums,
"Glas", aus Materie und besitzt somit physikalische
Eigenschaften im Sinne des Transfercodes 105. Dies ist
bei dem Wort 100 "Glas" durch den semantischen Typ 102
"phys" gekennzeichnet.
Das Wort 100 "Sicherheit" in dem Kompositum "Sicher
heitsglas" ist somit mit der Übersetzung 106 "safety"
zu übersetzen. Diese Übersetzung 106 ist im Speicher
dem Wort 100 "Sicherheit" zugeordnet, und zwar mit dem
Zusatz "phys". Die zweite Übersetzungsmöglichkeit des
Wortes 100 "Sicherheit" ist ebenfalls als Übersetzung
106 angegeben, jedoch mit dem Zusatz "abs".
Aufgrund des semantischen Typs 102 "phys" bei dem Wort
100 "Glas" wählt somit das Computersystem im vorliegen
den Beispiel die korrekte Übersetzung des Kompositums
"Sicherheitsglas" aus, nämlich "safety glas".
Mit Hilfe des Transfercodes 105 ist es also möglich,
Besonderheiten bei der Übersetzung von Wörtern 100 im
Zusammenhang mit Komposita zu berücksichtigen. Es sind
dabei alle möglichen Besonderheiten denkbar, die als
Transfercode 105 im Speicher vermerkt werden und die
dann bei der Übersetzung einen besonderen Ablauf zur
Folge haben können. Dieser besondere Ablauf kann in
der Form von Routinen festgelegt sein, die dann
ihrerseits wieder auf die Übersetzungen 106 zugreifen
und beispielsweise eine der dort abgespeicherten
verschiedenen Übersetzungsmöglichkeiten auswählen
können. Die beiden beschriebenen Transfercodes "adj"
und "phys/abs" dürfen deshalb nur als Beispiele für
die Verwendung anderer Wortarten oder anderer
Konstruktionen, z. B. auch mit Präpositionen oder
dergleichen, und in keinem Fall einschränkend gesehen
werden. Die Möglichkeiten von Transfercodes 105 sind,
wie erwähnt, beliebig erweiterbar, und darüber hinaus
von Sprache zu Sprache verschieden.
Es besteht auch die Möglichkeit, daß zu einem Wort 100
kein Transfercode 105 im Speicher angegeben ist. Dies
hat die Bedeutung, daß dieses Wort 100 innerhalb eines
Kompositums nach den allgemeinen Übersetzungsregeln
übersetzt werden kann. Dabei haben sich einige
Übersetzungsregeln als besonders wesentlich
herausgestellt. Diese sollen nachfolgend anhand der
Fig. 5 erläutert werden.
In der Fig. 5 sind die Zusammensetzungen deutscher
Komposita den zugehörigen englischen Übersetzungen
gegenübergestellt. Dabei wird davon ausgegangen, daß
die Komposita aus jeweils zwei Wörtern 100 bestehen,
was auch bei den meisten Komposita der Fall ist. Die
englischen Übersetzungen sind nach der Wahrschein
lichkeit ihres Auftretens geordnet. Durch Auszählungen
hat sich nun herausgestellt, daß Komposita, die im
Deutschen aus zwei Substantiven zusammengesetzt sind,
in den meisten Fällen auch im Englischen mit Hilfe
zweier Substantive übersetzt werden. Desweiteren hat
sich gezeigt, daß Komposita, die im Deutschen aus
einem Adjektiv und einem Substantiv zusammengesetzt
sind, auch im Englischen in den meisten Fällen mit
Hilfe eines Adjektivs und eines Substantivs übersetzt
werden. Schließlich hat sich, abweichend von den
bisherigen gleichartigen Übersetzungen, herausgestellt,
daß Komposita, die im Deutschen aus einem Verb und
einem Substantiv zusammengesetzt sind, im Englischen
in den meisten Fällen mit Hilfe zweier Substantive
übersetzt werden. Die jeweils danach angegebenen
Zusammensetzungen haben jeweils geringere
Auftretenswahrscheinlichkeiten.
Ist nun zu einem Wort 100 eines Kompositums kein
Transfercode 105 angegeben, so prüft das Computersystem,
ob das Kompositum aus zwei Substantiven zusammengesetzt
ist. Ist dies der Fall, so verwendet das Computersystem
als Übersetzungen 106 ebenfalls zwei Substantive.
Entsprechend geht das Computersystem nach der Tabelle
der Fig. 5 vor, wenn das Kompositum aus einem Adjektiv
und einem Substantiv oder aus einem Verb und einem
Substantiv zusammengesetzt ist.
Ergeben sich hingegen, z. B. aufgrund mehrerer
Transfercodes 105, zu einem Kompositum mehrere
unterschiedliche Zusammensetzungen der Übersetzungen
106, so wählt das Computersystem diejenige
Zusammensetzung aus, die aufgrund der Fig. 5 die
höchste Wahrscheinlichkeit besitzt.
Die Tabelle der Fig. 5 kann im Speicher des Computer
systems abgespeichert sein, es ist jedoch auch möglich,
daß die einzelnen Zuordnungen innerhalb einzelner
Routinen festgelegt sind. Eine entsprechende Tabelle
kann auch für Zusammensetzungen von mehr als zwei
Wörtern 100 aufgestellt und abgespeichert werden.
Insgesamt sind im Speicher des Computersystems sämtliche
Wörter 100 der Quellsprache abgespeichert, jeweils
zusammen mit der zugehörigen Wortart 101, dem zugehörigen
semantischen Typ 102 sowie dem jeweiligen Fugencode
103, dem Positionscode 104, dem Transfercode 105 und
der Übersetzung 106 der Zielsprache. Der Speicher des
Computersystems enthält somit ein elektronisches
Wörterbuch von der Quellsprache in die Zielsprache.
Das beschriebene Textübersetzungssystem vermeidet es
jedoch, Komposita der Quellsprache im Speicher des
Computersystems abzuspeichern, es sei denn, es handelt
sich um lexikalisierte Komposita wie beispielweise
"Gebärmutter" oder dergleichen. Alle anderen Komposita
sind in die Wörter 100 aufgelöst, aus denen sie
zusammengesetzt sind. Die Zerlegung in diese Wörter
100 wird mit Hilfe der Fugencodes 103 und der
Positionscodes 104 erreicht. Besonderheiten bei der
Übersetzung dieser Wörter 100 innerhalb von Komposita
können mit Hilfe der Transfercodes 105 berücksichtigt
werden.
Der Speicherplatzbedarf für die Abspeicherung des
elektronischen Wörterbuchs ist dadurch relativ gering.
Ebenfalls kann das Durchsuchen des Speichers aufgrund
des geringeren Umfangs relativ schnell durchgeführt
werden. Das beschriebene Textübersetzungssystem kann
daher auch auf kleineren Computersystemen betrieben
werden. Schließlich kann das Textübersetzungssystem
für beliebige Quell- und Zielsprachen erstellt und
eingesetzt werden.
Claims (9)
1. Elektronische Vorrichtung zur Übersetzung von
Wörtern aus einer ersten in eine zweite Sprache,
mit Speichermitteln,
in denen Wörter (100) und deren zugehörige
Übersetzungen (106) abgespeichert sind,
dadurch gekennzeichnet,
daß bei Wörtern (100), die Bestandteile von
Komposita sind, zusätzlich Segmentierungs- und
Übersetzungshilfen als Hilfsmittel zur korrekten
Segmentierung und Übersetzung der Komposita
abgespeichert sind.
2. Vorrichtung nach Anspruch 1,
dadurch gekennzeichnet,
daß als Segmentierungshilfe ein Fugencode (103)
vorgesehen ist, der die Veränderung von Wörtern
(100) bei Verwendung in Komposita angibt.
3. Vorrichtung nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
daß als Segmentierungshilfe ein Positionscode
(104) vorgesehen ist, der die möglichen Stellungen
von Wörtern (100) innerhalb von Komposita angibt.
4. Vorrichtung nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet,
daß als Übersetzungshilfe ein Transfercode (105)
vorgesehen ist, der auf Besonderheiten der
Übersetzung der Wörter (100) im Zusammenhang mit
Komposita hinweist.
5. Vorrichtung nach Anspruch 4,
dadurch gekennzeichnet,
daß der Transfercode (105) auf eine andere Wortart
(z. B. adjektivisch) oder eine andere Konstruktion
(z. B. mit Präposition) der Übersetzung (106) des
Wortes (100) hinweist.
6. Vorrichtung nach Anspruch 4 oder 5,
dadurch gekennzeichnet,
daß der Transfercode (105) auf unterschiedliche
Übersetzungen (106) des Wortes (100) hinweist in
Abhängigkeit von anderen Wörtern (100) des Kompositums.
7. Vorrichtung nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet,
daß als Übersetzungshilfe eine Tabelle (Fig. 5)
vorgesehen ist, in der die Zusammensetzung der
Wörter (100) von Komposita zugeordnet ist der
Zusammensetzung der Wörter der übersetzten
Komposita.
8. Vorrichtung nach Anspruch 7,
dadurch gekennzeichnet,
daß eine Substantiv-Substantiv-Zusammensetzung
der Wörter (100) einer
Substantiv-Substantiv-Zusammensetzung der Übersetzungen (106) zugeordnet
ist, daß eine Adjektiv-Substantiv-Zusammensetzung
der Wörter (100) einer Adjektiv-Substantiv-Zusammen
setzung der Übersetzungen (106) zugeordnet ist,
und daß eine Verb-Substantiv-Zusammensetzung der
Wörter (100) einer Substantiv-Substantiv-Zusammen
setzung der Übersetzungen (106) zugeordnet ist.
9. Verfahren zur Übersetzung von Wörtern aus einer
ersten in eine zweite Sprache mit Hilfe einer
elektronischen Vorrichtung,
bei dem Komposita mittels abgespeicherter
Segmentierungshilfen in Wörter (100) zerlegt
und die den Wörtern (100) zugehörigen
Übersetzungen (106) unter Berücksichtigung von
abgespeicherten Übersetzungshilfen erzeugt
werden.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4135261A DE4135261C1 (de) | 1991-10-25 | 1991-10-25 | |
DE69227881T DE69227881T2 (de) | 1991-10-25 | 1992-09-12 | Textübersetzungssystem |
EP92115645A EP0538617B1 (de) | 1991-10-25 | 1992-09-12 | Textübersetzungssystem |
AT92115645T ATE174702T1 (de) | 1991-10-25 | 1992-09-12 | Textübersetzungssystem |
US07/959,840 US5357430A (en) | 1991-10-25 | 1992-10-13 | System for text translation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4135261A DE4135261C1 (de) | 1991-10-25 | 1991-10-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4135261C1 true DE4135261C1 (de) | 1993-03-18 |
Family
ID=6443421
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4135261A Expired - Fee Related DE4135261C1 (de) | 1991-10-25 | 1991-10-25 | |
DE69227881T Expired - Fee Related DE69227881T2 (de) | 1991-10-25 | 1992-09-12 | Textübersetzungssystem |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69227881T Expired - Fee Related DE69227881T2 (de) | 1991-10-25 | 1992-09-12 | Textübersetzungssystem |
Country Status (4)
Country | Link |
---|---|
US (1) | US5357430A (de) |
EP (1) | EP0538617B1 (de) |
AT (1) | ATE174702T1 (de) |
DE (2) | DE4135261C1 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10015859A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
DE10015858A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
DE102009009123A1 (de) | 2009-02-16 | 2010-08-19 | Marius Gevers | Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3189186B2 (ja) * | 1992-03-23 | 2001-07-16 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | パターンに基づく翻訳装置 |
US5724594A (en) * | 1994-02-10 | 1998-03-03 | Microsoft Corporation | Method and system for automatically identifying morphological information from a machine-readable dictionary |
US5812818A (en) * | 1994-11-17 | 1998-09-22 | Transfax Inc. | Apparatus and method for translating facsimile text transmission |
JPH1011447A (ja) * | 1996-06-21 | 1998-01-16 | Ibm Japan Ltd | パターンに基づく翻訳方法及び翻訳システム |
JP3272288B2 (ja) * | 1997-12-24 | 2002-04-08 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置および機械翻訳方法 |
US6490548B1 (en) * | 1999-05-14 | 2002-12-03 | Paterra, Inc. | Multilingual electronic transfer dictionary containing topical codes and method of use |
SE519636C2 (sv) * | 2000-07-06 | 2003-03-25 | Hapax Information Systems Ab | Förfarande och anordning för analys av sammansatta ord |
US7509318B2 (en) * | 2005-01-28 | 2009-03-24 | Microsoft Corporation | Automatic resource translation |
US9020804B2 (en) * | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2854837A1 (de) * | 1978-02-17 | 1979-08-30 | Son Jung Eui | Uebersetzungsvorrichtung |
DE3104551C2 (de) * | 1981-02-10 | 1982-10-21 | Neumann Elektronik GmbH, 4330 Mülheim | Elektronischer Textgeber zur Abgabe von Kurztexten |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4672571A (en) * | 1984-10-24 | 1987-06-09 | International Business Machines Corporation | Compound word suitability for spelling verification |
US4777617A (en) * | 1987-03-12 | 1988-10-11 | International Business Machines Corporation | Method for verifying spelling of compound words |
US4873634A (en) * | 1987-03-27 | 1989-10-10 | International Business Machines Corporation | Spelling assistance method for compound words |
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
US5065318A (en) * | 1989-04-24 | 1991-11-12 | Sharp Kabushiki Kaisha | Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus |
-
1991
- 1991-10-25 DE DE4135261A patent/DE4135261C1/de not_active Expired - Fee Related
-
1992
- 1992-09-12 DE DE69227881T patent/DE69227881T2/de not_active Expired - Fee Related
- 1992-09-12 EP EP92115645A patent/EP0538617B1/de not_active Expired - Lifetime
- 1992-09-12 AT AT92115645T patent/ATE174702T1/de not_active IP Right Cessation
- 1992-10-13 US US07/959,840 patent/US5357430A/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2854837A1 (de) * | 1978-02-17 | 1979-08-30 | Son Jung Eui | Uebersetzungsvorrichtung |
DE3104551C2 (de) * | 1981-02-10 | 1982-10-21 | Neumann Elektronik GmbH, 4330 Mülheim | Elektronischer Textgeber zur Abgabe von Kurztexten |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10015859A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
DE10015858A1 (de) * | 2000-03-30 | 2001-10-11 | Gunthard Born | Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens |
DE10015858C2 (de) * | 2000-03-30 | 2002-03-28 | Gunthard Born | Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
DE10015859C2 (de) * | 2000-03-30 | 2002-04-04 | Gunthard Born | Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
DE102009009123A1 (de) | 2009-02-16 | 2010-08-19 | Marius Gevers | Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt |
Also Published As
Publication number | Publication date |
---|---|
DE69227881T2 (de) | 1999-07-29 |
US5357430A (en) | 1994-10-18 |
EP0538617A3 (en) | 1993-09-01 |
ATE174702T1 (de) | 1999-01-15 |
DE69227881D1 (de) | 1999-01-28 |
EP0538617A2 (de) | 1993-04-28 |
EP0538617B1 (de) | 1998-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
EP1157500B1 (de) | Vorrichtung und verfahren zum verbergen von informationen und vorrichtung und verfahren zum extrahieren von informationen | |
DE4135261C1 (de) | ||
DE3115349C2 (de) | Elektronisches Übersetzungsgerät | |
DE3032664C2 (de) | Elektronisches Sprachübersetzungsgerät. | |
EP0056948B1 (de) | Bürokommunikationssystem | |
DE102004046252A1 (de) | Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung | |
DE3112958A1 (de) | "tastenfeld mit signalaufbereitungsschaltung fuer elektrische geraete" | |
DE2633536A1 (de) | Sprachuebertragungsgeraet und -verfahren | |
DE3616751A1 (de) | Uebersetzungssystem | |
DE2652362C2 (de) | Einrichtung zum Versetzen von Tabulatorenmarken in Datenausgabegeräten | |
DE3034510A1 (de) | Elektronisches uebersetzungsgeraet | |
DE2902312A1 (de) | Verfahren zum aufbau von texten mit arabischen buchstaben und vorrichtung hierfuer | |
DE2825519A1 (de) | Elektronisches ausgabegeraet fuer mehrzeilige textwiedergabe | |
EP0590332B1 (de) | Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz | |
DE4213533C2 (de) | Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern | |
DE69835239T2 (de) | Verfahren und anordnung zur übersetzung von informationen | |
EP1412875B1 (de) | Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit | |
DE4311211C2 (de) | Computersystem und Verfahren zur automatisierten Analyse eines Textes | |
DE4209280C2 (de) | Verfahren und Computersystem zur automatisierten Analyse von Texten | |
DE2613703C2 (de) | Schaltungsanordnung zum Übersetzen von Programmtexten | |
DE3505291C2 (de) | ||
DE3505276C2 (de) | ||
DE4124024A1 (de) | Verfahren zum verarbeiten von tastatureingaben in einem rechner, einer schreibmaschine oder dergleichen | |
Gunnarsson | Thinking in Icelandic and Foreign Tongues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |