DE4135261C1 - - Google Patents

Info

Publication number
DE4135261C1
DE4135261C1 DE4135261A DE4135261A DE4135261C1 DE 4135261 C1 DE4135261 C1 DE 4135261C1 DE 4135261 A DE4135261 A DE 4135261A DE 4135261 A DE4135261 A DE 4135261A DE 4135261 C1 DE4135261 C1 DE 4135261C1
Authority
DE
Germany
Prior art keywords
words
translation
code
word
translations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4135261A
Other languages
English (en)
Inventor
Ulrike 6945 Hirschberg De Rackow
Ulrike 6915 Dossenheim De Schwall
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to DE4135261A priority Critical patent/DE4135261C1/de
Priority to DE69227881T priority patent/DE69227881T2/de
Priority to EP92115645A priority patent/EP0538617B1/de
Priority to AT92115645T priority patent/ATE174702T1/de
Priority to US07/959,840 priority patent/US5357430A/en
Application granted granted Critical
Publication of DE4135261C1 publication Critical patent/DE4135261C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Description

Die Erfindung betrifft eine elektronische Vorrichtung zur Übersetzung von Wörtern aus einer ersten in eine zweite Sprache mit Speichermitteln, in denen Wörter und deren zugehörige Übersetzungen abgespeichert sind. Des weiteren betrifft die Erfindung ein entsprechendes Verfahren zur Übersetzung von Wörtern.
Eine derartige Vorrichtung ist aus DE 28 54 837 A1 bekannt. Dort sind die abzuspeichernden Wörter nach Wortstämmen geordnet. Zu jedem Wortstamm sind zusätzliche Informationen abgespeichert, z. B. ob es sich um ein Substantiv, ein Verb, oder dergleichen handelt oder ob ein Schlüsselwort für Redewendungen, ein unregelmäßiges Verb usw. vorliegt. Des weiteren sind jeweils die Buchstaben des Wortstamms sowie die Adressen der Übersetzungen abgespeichert. Besonderheiten im Zusammenhang mit Komposita sind nicht offenbart.
Des weiteren sind Textübersetzungssysteme bekannt, in denen ein Computersystem einem Übersetzer Vorschläge für die Übersetzung der einzelnen Wörter eines Textes macht. In diesem Fall liest das Computersystem die zu jedem Wort des Textes abgespeicherte Übersetzung aus den Speichermitteln aus und zeigt sie dem Übersetzer beispielsweise auf einem Bildschirm an. Der Übersetzer kann diese vorgeschlagenen Übersetzungen dann übernehmen, muß aber die einzelnen Übersetzungen noch zu einem übersetzten Text zusammenfügen. Das Textübersetzungssystem ist somit ein Werkzeug des Übersetzers für die Erstellung der Übersetzung.
Es sind jedoch auch Textübersetzungssysteme auf dem Markt und in der Entwicklung, die eine vollautoma­ tische Übersetzung anstreben. Bei diesen Textüber­ setzungssystemen wird auch das Zusammenfügen der aus den Speichermitteln ausgelesenen Übersetzungen zu dem übersetzten Text nach bestimmten Übersetzungsregeln von dem Computersystem selbst durchgeführt.
In beiden Fällen ist es erforderlich, daß in den Speichermitteln des Computersystems sämtliche Wörter der Quellsprache sowie sämtliche zugehörigen Übersetzungen der Zielsprache abgespeichert sind.
Ist nun Deutsch die Quellsprache des Textübersetzungs­ systems, so entsteht unabhängig von der Zielsprache das Problem, daß sämtliche deutschen Komposita, also sämtliche zusammengesetzten Wörter der deutschen Sprache in den Speichermitteln abgespeichert werden müßten. Es wäre also nicht nur erforderlich, daß die Wörter "Tier", "Schutz", "Verein", sondern auch die Wörter "Tierschutz", "Tierschutzverein", "Vereinskasse" "Schutzhülle" usw. abgespeichert werden. Dies hätte zum einen zur Folge, daß nur Großrechensysteme mit großen Speichermitteln als Textübersetzungssysteme geeignet wären, zum anderen hätte dies auch zur Folge, daß die Verarbeitungsgeschwindigkeit dieser Textüber­ setzungssysteme relativ langsam wäre, da bei jedem zu übersetzenden Wort die gesamten Speichermittel abgesucht werden müßten. Schließlich wäre bei einem derartigen Textübersetzungssystem eine gewisse Fehlerwahrscheinlichkeit vorhanden, da in der deutschen Sprache permanent neue Komposita entstehen, die dann in den Speichermitteln nicht abgespeichert wären.
Aufgabe der Erfindung ist es, ein Textübersetzungs-System zu schaffen, das auch bei kleinen Computer­ systemen eine vollautomatische und korrekte Über­ setzung deutscher Komposita ermöglicht.
Diese Aufgabe wird bei einer Vorrichtung der eingangs genannten Art erfindungsgemäß dadurch gelöst, daß bei Wörtern, die Bestandteile von Komposita sind, zusätzlich Segmentierungs- und Übersetzungshilfen als Hilfsmittel zur korrekten Segmentierung und Übersetzung der Komposita abgespeichert sind.
Bei einem erfindungsgemäßen Verfahren zur Übersetzung von Wörtern aus einer ersten in eine zweite Sprache mit Hilfe einer elektronischen Vorrichtung werden Komposita mittels abgespeicherter Segmentierungshilfen in Wörter zerlegt und die den Wörtern zugehörigen Übersetzungen unter Berücksichtigung von abgespeicherten Übersetzungshilfen erzeugt.
Durch die Segmentierungshilfen ist es dem Textüber­ setzungssystem möglich, Komposita in ihre Bestandteile, also in einzelne Wörter zu zerlegen. Diese Wörter können in den Speichermitteln aufgesucht, und die zugehörigen Übersetzungen können dann ausgelesen werden. Es ist also nicht mehr erforderlich, das Kompositum als Ganzes in den Speichermitteln abzu­ speichern, sondern es genügt, die Bestandteile des Kompositums, also die einzelnen Wörter und deren Über­ setzungen in den Speichermitteln abzulegen. Bei dem eingangs genannten Beispiel genügt es somit, die Wörter "Tier", "Schutz", "Verein", usw. abzuspeichern, nicht aber die Worte "Tierschutzverein", usw. Der erforderliche Speicherplatzbedarf wird dadurch wesent­ lich verringert. Damit ist es möglich, daß derartige Textübersetzungssysteme auch auf kleinen Computer­ systemen betrieben werden können. Ebenfalls wird die Verarbeitungsgeschwindigkeit des Textübersetzungs­ systems erhöht.
Durch die des weiteren abgespeicherten Übersetzungs­ hilfen wird eine korrekte Übersetzung von Komposita gewährleistet. Dies ist insbesondere dann von Bedeutung, wenn die Übersetzung eines Kompositums von allgemeinen Übersetzungsregeln abweicht.
So ist beispielsweise festgestellt worden, daß bei einer Übersetzung vom Deutschen ins Englische ein deutsches Kompositum, das aus zwei Substantiven zusammengesetzt ist, in den meisten Fällen auch im Englischen in der Form zweier Substantive wieder auftritt. Dies ist die allgemeine Übersetzungsregel. Weicht nun die Übersetzung eines Kompositums von dieser Regel ab, wird beispielsweise ein deutsches Kompositum, das aus zwei Substantiven besteht, im Englischen in der Form eines Adjektivs und eines Substantivs wiedergegeben, so wird diese Abweichung von der allgemeinen Übersetzungsregel als Übersetzungshilfe bei dem entsprechenden Wort des deutschen Kompositums abgespeichert und kann somit zur Erreichung einer korrekten Übersetzung berücksichtigt werden.
Bei einer Ausgestaltung der Erfindung ist als Übersetzungshilfe ein Transfercode vorgesehen, der auf Besonderheiten der Übersetzung des Wortes im Zusammenhang mit Komposita hinweist. Dieser Transfercode kann beispielsweise auf eine andere Wortart oder eine andere Konstruktion der Übersetzung des Wortes hinweisen. Als weiteres Beispiel ist es möglich, daß der Transfercode auf unterschiedliche Übersetzungen des Wortes hinweist in Abhängigkeit von anderen Wörtern des Kompositums.
Bei weiteren Ausgestaltungen der Erfindung sind als Segmentierungshilfen ein Fugencode und ein Positions­ code vorgesehen; als weitere Übersetzungshilfe kann eine Tabelle vorgesehen sein, in der die Zusammen­ setzung der Wörter von Komposita zugeordnet ist der Zusammensetzung der Wörter der übersetzten Komposita.
Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben. Es folgt nun die anhand der Zeichnung vorgenommene Beschreibung eines Ausführungsbeispiels der Erfindung.
Fig. 1 zeigt einen Auszug aus einem Speicher einer elektronischen Vorrichtung zur Übersetzung, in der ein Wort mit zugehöriger Wortart, zugehörigem semantischen Typ sowie mit zugehörigem Fugencode, Positionscode, Transfercode und zugehöriger Übersetzung abgespeichert ist.
Fig. 2 zeigt eine Tabelle, in der die verschiedenen Fugencodes der Fig. 1 definiert sind.
Fig. 3 zeigt eine Tabelle, in der die verschiedenen Positionscodes der Fig. 1 definiert sind.
Fig. 4 zeigt nochmals einen Auszug aus dem Speicher der elektronischen Vorrichtung der Fig. 1, in dem einzelne Beispiele für die Worte, Wortarten, Fugencodes, Positionscodes, Transfercodes und Übersetzungen angegeben sind.
Fig. 5 zeigt eine Tabelle, in der die Zusammensetzung von Komposita in der deutschen und der englischen Sprache einander gegenübergestellt sind.
Fig. 1 zeigt einen Auszug aus einem Speicher einer elektronischen Vorrichtung zur Übersetzung von Wörtern aus einer ersten in eine zweite Sprache (im folgenden Computersystem zur Textübersetzung genannte). Es ist eine Zeile des Speichers dargestellt, die in sieben Spalten unterteilt ist. Die erste Spalte dient zur Aufnahme eines Wortes 100. Danach folgt eine Spalte für die Wortart 101 und den semantischen Typ 102 des Wortes 100, sowie ein Fugencode F 103, ein Positionscode P 104 und ein Transfercode T 105. Schließlich enthält die Zeile noch eine Übersetzung 106 des Wortes 100.
Bei dem Wort 100 handelt es sich um ein Wort einer Quellsprache, also derjenigen Sprache die übersetzt werden soll. Bei der Übersetzung 106 handelt es sich um ein Wort einer Zielsprache, also derjenigen Sprache, in die übersetzt werden soll. Das Wort 100 der Quellsprache und die Übersetzung 106 der Zielsprache sind einander zugeordnet, haben also dieselbe Bedeutung.
Die tatsächliche Länge der in der Fig. 1 dargestellten Zeile des Speichers hängt insbesondere von der Anzahl der Buchstaben des Wortes 100 sowie der Anzahl der Buchstaben der Übersetzung 106 ab. Des weiteren kann auch noch der semantische Typ 102, wie auch der Transfercode 105 eine unterschiedliche Anzahl von Zeichen aufweisen.
Die Wortart 101 bezieht sich auf das Wort 100. Handelt es sich bei dem Wort 100 z. B. um ein Substantiv, so ist dies mit Hilfe der Wortart 101 "n" (noun) abgespeichert (vergleiche Fig. 4). Entsprechend können Verben oder Adjektive durch die Wortarten 101 "v" oder "a" zum Ausdruck gebracht werden.
Bei dem semantischen Typ 102 handelt es sich um allgemeine Angaben zu dem zugehörigen Wort 100. Beispiele hierzu werden nachfolgend erläutert (vergleiche Fig. 4).
Mit Hilfe der Tabelle der Fig. 2 werden nachfolgend die verschiedenen möglichen Fugencodes F 103 näher erläutert. Die Tabelle weist drei Spalten auf, wobei die erste Spalte den Fugencode 103 enthält, die zweite Spalte eine Definition 121 des Fugencodes 103 und die dritte Spalte ein Beispiel 122 für diesen Fugencode 103. Die Tabelle der Fig. 2 betrifft die deutsche Sprache.
Bei dem Fugencode 103 handelt es sich um eine Codierung, die angibt, welche Buchstaben beim Zusammensetzen von Wörtern 100 zu einem Kompositum von dem jeweiligen Wort 100 weggenommen bzw. zu dem jeweiligen Wort 100 hinzugefügt werden. So wird beispielsweise an das Wort 100 "Heizung" ein "s" hinzugefügt, wenn dieses Wort 100 in dem Kompositum "Heizungsmonteur" verwendet wird. Der Fugencode 103 hierzu ist "13" und die zugehörige Definition 121 "+s" bedeutet, daß an das Wort 100 "Heizung", wie erwähnt, ein "s" angefügt werden muß. Bei dem Fugencode 103 "17" geht aus der Definition 121 "-en +s" hervor, daß beispielsweise bei der Verwendung des Wortes 100 "Weihnachten" in einem Kompositum die Buchstaben "en" am Ende weggelassen werden müssen und statt dessen der Buchstabe "s" hinzugefügt werden muß, so beispielsweise bei dem Kompositum "Weihnachtskonzert".
In der Tabelle der Fig. 2 sind 27 solche Fugencodes 103 aufgelistet. Es versteht sich, daß auch noch weitere Fugencodes 103 vorhanden sein und hinzugefügt werden können.
Mit Hilfe der Tabelle der Fig. 3 wird nachfolgend der Positionscode P 104 näher erläutert. Die Tabelle hat drei Spalten, wobei in der ersten Spalte der Positions­ code 104 enthalten ist, in der zweiten Spalte die Definition 131 des Positionscodes 104 und in der dritten Spalte Beispiele 132 für diesen Positionscode 104. Die Tabelle der Fig. 3 betrifft die deutsche Sprache. In der Tabelle der Fig. 3 sind insgesamt acht Positionscodes 104 aufgelistet.
Der Positionscode 104 gibt an, an welchen Stellen ein Wort 100 unter Berücksichtigung des Fugencodes 103 innerhalb eines Kompositums auftreten kann. So kann beispielsweise das Wort "Antritts", das sich aus dem Wort 100 "Antritt" und dem Buchstaben "s" entsprechend dem Fugencode 103 "13" zusammensetzt, alleine auftreten, nämlich beispielsweise im Sinne von "des Antritts"; es kann aber auch an jeder Stelle innerhalb eines Kompositums auftreten, beispielsweise in dem Kompositum "Antrittsbesuch" oder "des Probeantritts". Zu diesem Beispiel gehört dann nach der Tabelle der Fig. 3 der Positionscode 104 "1". Das Wort "Oster" hingegen, das sich aus dem Wort 100 "Ostern" und dem weggenommenen Buchstaben "n" entsprechend dem Fugencode 103 "18" zusammensetzt, kann nicht alleine, sondern nur innerhalb eines Kompositums an dessen Anfang oder in dessen Mitte auftreten. Diesem Beispiel entspricht somit der Positionscode 104 "6".
Steht ein Kompositum zur Übersetzung durch das Computer­ system an, so zerlegt das Computersystem in einem ersten Schritt das Kompositum in einzelne Wörter 100. Dies wird dadurch erreicht, daß das Computersystem das zu übersetzende Kompositum, vom Anfang des Kompositums ausgehend, Buchstaben für Buchstaben so lange mit den im Speicher abgespeicherten Wörtern 100 vergleicht, bis ein übereinstimmendes Wort 100 gefunden wird. Dabei werden mit Hilfe der Wortart 101 beispielsweise Pronomina, Konjunktionen, oder dergleichen ausgeschlossen und insbesondere nur Substantive, Adjektive, Verben und Adverben zugelassen. Bei diesem Suchverfahren wird nicht nur der jeweilige Teil des Kompositums mit den Wörtern 100 verglichen, sondern auch zusätzlich mit den aufgrund der mitabgespeicherten Fugencodes 103 abgeänderten Wörtern 100. Dadurch wird erreicht, daß beispielsweise in dem Kompositum "Volksbefragungskampagne" nacheinander die Wörter 100 "Volk", "Befragung" und "Kampagne" im Speicher aufgefunden werden, wobei bei den Wörtern 100 "Volk" und "Befragung" der jeweils zugehörige Fugencode 103, nämlich ein zusätzliches "s", berücksichtigt wird.
Gleichzeitig wird in diesem ersten Schritt überprüft, ob die Stellung der erhaltenen Wörter 100 innerhalb des zu übersetzenden Kompositums mit den bei den Wörtern 100 mitabgespeicherten Positionscodes 104 übereinstimmt. Ist dies nicht der Fall, so besteht die Möglichkeit eines Fehlers, der entweder angezeigt werden kann oder der ein nochmaliges Durchlaufen des Suchverfahrens bewirken kann. Stimmen die abgespeicherten Positionscodes 104 mit den tatsächlichen Stellungen der Wörter 100 innerhalb des Kompositums überein, so werden diese Wörter 100 für die weitere Übersetzung verwendet.
In einem nächsten Schritt liest das Computersystem die jeweils zugehörigen Übersetzungen 106 zu den Wörtern 100 aus dem Speicher aus. Diese Übersetzungen 106 müssen zu einer korrekten Übersetzung des quellsprachigen Kompositums in die Zielsprache zusammengefügt werden. Hierzu werden Übersetzungshilfen verwendet, die anhand der Fig. 4 und 5 nachfolgend erläutert werden.
Bei dem in der Fig. 4 gezeigten Auszug aus dem Speicher des Computersystems ist Deutsch die Quellsprache und Englisch die Zielsprache. Es sind eine Reihe von deutschen Wörtern 100 angegeben, jeweils zusammen mit der Wortart 101, dem semantischen Typ 102 sowie mit dem zugehörigen Fugencode F 103, dem Positionscode P 104, dem Transfercode T 105 und der englischen Übersetzung 106.
Soll beispielsweise das deutsche Kompositum "Parlamentsdebatte" ins Englische übersetzt werden, so zerlegt das Computersystem, wie erläutert, mit Hilfe der Wortart 101, des Fugencodes 103 und des Positions­ codes 104 dieses Kompositum in die Wörter 100 "Parlament" und "Debatte". Aus dem Speicher entnimmt dann das Computersystem die jeweiligen Übersetzungen 106, nämlich "parliament" und "debate". Ohne den Transfercode 105 könnte das Computersystem nur aus den beiden genannten Übersetzungen 106 die dem Kompositum "Parlamentsdebatte" zugehörige Übersetzung bilden. Da die korrekte Übersetzung dieses Kompositums jedoch "parliamentary debate" lautet, würde das Computersystem in diesem Fall eine fehlerhafte Übersetzung liefern, beispielsweise "parliament debate".
In dem vorliegenden Beispiel ist jedoch bei dem Wort 100 "Parlament" als Transfercode 105 "adj" angegeben. Dieser Transfercode 105 hat die Bedeutung, daß bei der Verwendung des zugehörigen Wortes 100 innerhalb eines Kompositums dieses Wort 100 adjektivisch übersetzt werden muß. Das Wort 100 "Parlament" darf also, sofern es in einem Kompositum verwendet wird, nicht als Substantiv, "parliament", übersetzt werden, sondern es muß als Adjektiv, "parliamentary", übersetzt werden.
Der Transfercode 105 gibt also darüber Auskunft, wie das zugehörige Wort 100 innerhalb eines Kompositums abweichend von den allgemeinen Übersetzungsregeln übersetzt werden muß. Falls es erforderlich ist, kann diese abweichende Übersetzung dann noch besonders angegeben werden. Dies wird in dem beschriebenen Beispiel dadurch erreicht, daß als weitere Übersetzung 106 die adjektivische Übersetzung des Wortes 100 "Parlament" angegeben ist, nämlich "adj: parliamentary". Selbstverständlich ist es auch möglich, daß statt der unmittelbaren Angabe von "parliamentary" eine Kodierung oder Adresse vorgesehen ist, die auf das Wort 100 "parlamentarisch" und damit auf die Übersetzung 106 "parliamentary" verweist.
In einem anderen Beispiel soll das deutsche Kompositum "Sicherheitsglas" ins Englische übersetzt werden. Wie beschrieben zerlegt das Computersystem das Kompositum unter Berücksichtigung der Wortart 101, des Fugencodes 103 und des Positionscodes 104 in die Wörter 100 "Sicherheit" und "Glas". Für das Wort 100 "Sicherheit" gibt es nun zwei Übersetzungen 106 im Englischen, nämlich "safety" und "security". Ohne den Transfercode 105 wäre es für das Computersystem nicht möglich, sicher und in jedem Fall die korrekte Übersetzung des Kompositums anzugeben, nämlich "safety glas".
Der Transfercode 105 "phys/abs" bringt nun im vor­ liegenden Beispiel zum Ausdruck, daß die Übersetzung des zugehörigen Wortes 100 "Sicherheit" innerhalb eines Kompositums davon abhängt, welchen semantischen Typ 102 das oder die anderen Wörter des Kompositums aufweisen. Besitzen diese anderen Wörter des Kompositums physikalische Eigenschaften, bestehen sie also insbesondere aus Materie, so ist das Wort 100 "Sicherheit" mit der Übersetzung 106 "safety" zu übersetzen. Besitzen die anderen Wörter des Kompositums hingegen abstrakte Eigenschaften, also beispielsweise gedankliche Regeln oder dergleichen, so ist das Wort 100 "Sicherheit" innerhalb dieses Kompositums mit der Übersetzung 106 "security" zu übersetzen.
Im vorliegenden Beispiel, dem Kompositum "Sicherheits­ glas", besteht das zweite Wort 100 des Kompositums, "Glas", aus Materie und besitzt somit physikalische Eigenschaften im Sinne des Transfercodes 105. Dies ist bei dem Wort 100 "Glas" durch den semantischen Typ 102 "phys" gekennzeichnet.
Das Wort 100 "Sicherheit" in dem Kompositum "Sicher­ heitsglas" ist somit mit der Übersetzung 106 "safety" zu übersetzen. Diese Übersetzung 106 ist im Speicher dem Wort 100 "Sicherheit" zugeordnet, und zwar mit dem Zusatz "phys". Die zweite Übersetzungsmöglichkeit des Wortes 100 "Sicherheit" ist ebenfalls als Übersetzung 106 angegeben, jedoch mit dem Zusatz "abs".
Aufgrund des semantischen Typs 102 "phys" bei dem Wort 100 "Glas" wählt somit das Computersystem im vorliegen­ den Beispiel die korrekte Übersetzung des Kompositums "Sicherheitsglas" aus, nämlich "safety glas".
Mit Hilfe des Transfercodes 105 ist es also möglich, Besonderheiten bei der Übersetzung von Wörtern 100 im Zusammenhang mit Komposita zu berücksichtigen. Es sind dabei alle möglichen Besonderheiten denkbar, die als Transfercode 105 im Speicher vermerkt werden und die dann bei der Übersetzung einen besonderen Ablauf zur Folge haben können. Dieser besondere Ablauf kann in der Form von Routinen festgelegt sein, die dann ihrerseits wieder auf die Übersetzungen 106 zugreifen und beispielsweise eine der dort abgespeicherten verschiedenen Übersetzungsmöglichkeiten auswählen können. Die beiden beschriebenen Transfercodes "adj" und "phys/abs" dürfen deshalb nur als Beispiele für die Verwendung anderer Wortarten oder anderer Konstruktionen, z. B. auch mit Präpositionen oder dergleichen, und in keinem Fall einschränkend gesehen werden. Die Möglichkeiten von Transfercodes 105 sind, wie erwähnt, beliebig erweiterbar, und darüber hinaus von Sprache zu Sprache verschieden.
Es besteht auch die Möglichkeit, daß zu einem Wort 100 kein Transfercode 105 im Speicher angegeben ist. Dies hat die Bedeutung, daß dieses Wort 100 innerhalb eines Kompositums nach den allgemeinen Übersetzungsregeln übersetzt werden kann. Dabei haben sich einige Übersetzungsregeln als besonders wesentlich herausgestellt. Diese sollen nachfolgend anhand der Fig. 5 erläutert werden.
In der Fig. 5 sind die Zusammensetzungen deutscher Komposita den zugehörigen englischen Übersetzungen gegenübergestellt. Dabei wird davon ausgegangen, daß die Komposita aus jeweils zwei Wörtern 100 bestehen, was auch bei den meisten Komposita der Fall ist. Die englischen Übersetzungen sind nach der Wahrschein­ lichkeit ihres Auftretens geordnet. Durch Auszählungen hat sich nun herausgestellt, daß Komposita, die im Deutschen aus zwei Substantiven zusammengesetzt sind, in den meisten Fällen auch im Englischen mit Hilfe zweier Substantive übersetzt werden. Desweiteren hat sich gezeigt, daß Komposita, die im Deutschen aus einem Adjektiv und einem Substantiv zusammengesetzt sind, auch im Englischen in den meisten Fällen mit Hilfe eines Adjektivs und eines Substantivs übersetzt werden. Schließlich hat sich, abweichend von den bisherigen gleichartigen Übersetzungen, herausgestellt, daß Komposita, die im Deutschen aus einem Verb und einem Substantiv zusammengesetzt sind, im Englischen in den meisten Fällen mit Hilfe zweier Substantive übersetzt werden. Die jeweils danach angegebenen Zusammensetzungen haben jeweils geringere Auftretenswahrscheinlichkeiten.
Ist nun zu einem Wort 100 eines Kompositums kein Transfercode 105 angegeben, so prüft das Computersystem, ob das Kompositum aus zwei Substantiven zusammengesetzt ist. Ist dies der Fall, so verwendet das Computersystem als Übersetzungen 106 ebenfalls zwei Substantive. Entsprechend geht das Computersystem nach der Tabelle der Fig. 5 vor, wenn das Kompositum aus einem Adjektiv und einem Substantiv oder aus einem Verb und einem Substantiv zusammengesetzt ist.
Ergeben sich hingegen, z. B. aufgrund mehrerer Transfercodes 105, zu einem Kompositum mehrere unterschiedliche Zusammensetzungen der Übersetzungen 106, so wählt das Computersystem diejenige Zusammensetzung aus, die aufgrund der Fig. 5 die höchste Wahrscheinlichkeit besitzt.
Die Tabelle der Fig. 5 kann im Speicher des Computer­ systems abgespeichert sein, es ist jedoch auch möglich, daß die einzelnen Zuordnungen innerhalb einzelner Routinen festgelegt sind. Eine entsprechende Tabelle kann auch für Zusammensetzungen von mehr als zwei Wörtern 100 aufgestellt und abgespeichert werden.
Insgesamt sind im Speicher des Computersystems sämtliche Wörter 100 der Quellsprache abgespeichert, jeweils zusammen mit der zugehörigen Wortart 101, dem zugehörigen semantischen Typ 102 sowie dem jeweiligen Fugencode 103, dem Positionscode 104, dem Transfercode 105 und der Übersetzung 106 der Zielsprache. Der Speicher des Computersystems enthält somit ein elektronisches Wörterbuch von der Quellsprache in die Zielsprache.
Das beschriebene Textübersetzungssystem vermeidet es jedoch, Komposita der Quellsprache im Speicher des Computersystems abzuspeichern, es sei denn, es handelt sich um lexikalisierte Komposita wie beispielweise "Gebärmutter" oder dergleichen. Alle anderen Komposita sind in die Wörter 100 aufgelöst, aus denen sie zusammengesetzt sind. Die Zerlegung in diese Wörter 100 wird mit Hilfe der Fugencodes 103 und der Positionscodes 104 erreicht. Besonderheiten bei der Übersetzung dieser Wörter 100 innerhalb von Komposita können mit Hilfe der Transfercodes 105 berücksichtigt werden.
Der Speicherplatzbedarf für die Abspeicherung des elektronischen Wörterbuchs ist dadurch relativ gering. Ebenfalls kann das Durchsuchen des Speichers aufgrund des geringeren Umfangs relativ schnell durchgeführt werden. Das beschriebene Textübersetzungssystem kann daher auch auf kleineren Computersystemen betrieben werden. Schließlich kann das Textübersetzungssystem für beliebige Quell- und Zielsprachen erstellt und eingesetzt werden.

Claims (9)

1. Elektronische Vorrichtung zur Übersetzung von Wörtern aus einer ersten in eine zweite Sprache, mit Speichermitteln, in denen Wörter (100) und deren zugehörige Übersetzungen (106) abgespeichert sind, dadurch gekennzeichnet, daß bei Wörtern (100), die Bestandteile von Komposita sind, zusätzlich Segmentierungs- und Übersetzungshilfen als Hilfsmittel zur korrekten Segmentierung und Übersetzung der Komposita abgespeichert sind.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß als Segmentierungshilfe ein Fugencode (103) vorgesehen ist, der die Veränderung von Wörtern (100) bei Verwendung in Komposita angibt.
3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß als Segmentierungshilfe ein Positionscode (104) vorgesehen ist, der die möglichen Stellungen von Wörtern (100) innerhalb von Komposita angibt.
4. Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß als Übersetzungshilfe ein Transfercode (105) vorgesehen ist, der auf Besonderheiten der Übersetzung der Wörter (100) im Zusammenhang mit Komposita hinweist.
5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß der Transfercode (105) auf eine andere Wortart (z. B. adjektivisch) oder eine andere Konstruktion (z. B. mit Präposition) der Übersetzung (106) des Wortes (100) hinweist.
6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß der Transfercode (105) auf unterschiedliche Übersetzungen (106) des Wortes (100) hinweist in Abhängigkeit von anderen Wörtern (100) des Kompositums.
7. Vorrichtung nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß als Übersetzungshilfe eine Tabelle (Fig. 5) vorgesehen ist, in der die Zusammensetzung der Wörter (100) von Komposita zugeordnet ist der Zusammensetzung der Wörter der übersetzten Komposita.
8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß eine Substantiv-Substantiv-Zusammensetzung der Wörter (100) einer Substantiv-Substantiv-Zusammensetzung der Übersetzungen (106) zugeordnet ist, daß eine Adjektiv-Substantiv-Zusammensetzung der Wörter (100) einer Adjektiv-Substantiv-Zusammen­ setzung der Übersetzungen (106) zugeordnet ist, und daß eine Verb-Substantiv-Zusammensetzung der Wörter (100) einer Substantiv-Substantiv-Zusammen­ setzung der Übersetzungen (106) zugeordnet ist.
9. Verfahren zur Übersetzung von Wörtern aus einer ersten in eine zweite Sprache mit Hilfe einer elektronischen Vorrichtung, bei dem Komposita mittels abgespeicherter Segmentierungshilfen in Wörter (100) zerlegt und die den Wörtern (100) zugehörigen Übersetzungen (106) unter Berücksichtigung von abgespeicherten Übersetzungshilfen erzeugt werden.
DE4135261A 1991-10-25 1991-10-25 Expired - Fee Related DE4135261C1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE4135261A DE4135261C1 (de) 1991-10-25 1991-10-25
DE69227881T DE69227881T2 (de) 1991-10-25 1992-09-12 Textübersetzungssystem
EP92115645A EP0538617B1 (de) 1991-10-25 1992-09-12 Textübersetzungssystem
AT92115645T ATE174702T1 (de) 1991-10-25 1992-09-12 Textübersetzungssystem
US07/959,840 US5357430A (en) 1991-10-25 1992-10-13 System for text translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4135261A DE4135261C1 (de) 1991-10-25 1991-10-25

Publications (1)

Publication Number Publication Date
DE4135261C1 true DE4135261C1 (de) 1993-03-18

Family

ID=6443421

Family Applications (2)

Application Number Title Priority Date Filing Date
DE4135261A Expired - Fee Related DE4135261C1 (de) 1991-10-25 1991-10-25
DE69227881T Expired - Fee Related DE69227881T2 (de) 1991-10-25 1992-09-12 Textübersetzungssystem

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69227881T Expired - Fee Related DE69227881T2 (de) 1991-10-25 1992-09-12 Textübersetzungssystem

Country Status (4)

Country Link
US (1) US5357430A (de)
EP (1) EP0538617B1 (de)
AT (1) ATE174702T1 (de)
DE (2) DE4135261C1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10015859A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens
DE10015858A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens
DE102009009123A1 (de) 2009-02-16 2010-08-19 Marius Gevers Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
US5724594A (en) * 1994-02-10 1998-03-03 Microsoft Corporation Method and system for automatically identifying morphological information from a machine-readable dictionary
US5812818A (en) * 1994-11-17 1998-09-22 Transfax Inc. Apparatus and method for translating facsimile text transmission
JPH1011447A (ja) * 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6490548B1 (en) * 1999-05-14 2002-12-03 Paterra, Inc. Multilingual electronic transfer dictionary containing topical codes and method of use
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
US7509318B2 (en) * 2005-01-28 2009-03-24 Microsoft Corporation Automatic resource translation
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2854837A1 (de) * 1978-02-17 1979-08-30 Son Jung Eui Uebersetzungsvorrichtung
DE3104551C2 (de) * 1981-02-10 1982-10-21 Neumann Elektronik GmbH, 4330 Mülheim Elektronischer Textgeber zur Abgabe von Kurztexten

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2854837A1 (de) * 1978-02-17 1979-08-30 Son Jung Eui Uebersetzungsvorrichtung
DE3104551C2 (de) * 1981-02-10 1982-10-21 Neumann Elektronik GmbH, 4330 Mülheim Elektronischer Textgeber zur Abgabe von Kurztexten

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10015859A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer grammatische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens
DE10015858A1 (de) * 2000-03-30 2001-10-11 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen Kommunikation in natürlichen Sprachen und Einrichtung zur rechnergestützten Durchführung dieses Verfahrens
DE10015858C2 (de) * 2000-03-30 2002-03-28 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE10015859C2 (de) * 2000-03-30 2002-04-04 Gunthard Born Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE102009009123A1 (de) 2009-02-16 2010-08-19 Marius Gevers Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt

Also Published As

Publication number Publication date
DE69227881T2 (de) 1999-07-29
US5357430A (en) 1994-10-18
EP0538617A3 (en) 1993-09-01
ATE174702T1 (de) 1999-01-15
DE69227881D1 (de) 1999-01-28
EP0538617A2 (de) 1993-04-28
EP0538617B1 (de) 1998-12-16

Similar Documents

Publication Publication Date Title
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
EP1157500B1 (de) Vorrichtung und verfahren zum verbergen von informationen und vorrichtung und verfahren zum extrahieren von informationen
DE4135261C1 (de)
DE3115349C2 (de) Elektronisches Übersetzungsgerät
DE3032664C2 (de) Elektronisches Sprachübersetzungsgerät.
EP0056948B1 (de) Bürokommunikationssystem
DE102004046252A1 (de) Einrichtung zum Trennen zusammengesetzter Wörter und zur Rechtschreibprüfung
DE3112958A1 (de) &#34;tastenfeld mit signalaufbereitungsschaltung fuer elektrische geraete&#34;
DE2633536A1 (de) Sprachuebertragungsgeraet und -verfahren
DE3616751A1 (de) Uebersetzungssystem
DE2652362C2 (de) Einrichtung zum Versetzen von Tabulatorenmarken in Datenausgabegeräten
DE3034510A1 (de) Elektronisches uebersetzungsgeraet
DE2902312A1 (de) Verfahren zum aufbau von texten mit arabischen buchstaben und vorrichtung hierfuer
DE2825519A1 (de) Elektronisches ausgabegeraet fuer mehrzeilige textwiedergabe
EP0590332B1 (de) Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz
DE4213533C2 (de) Verfahren und Computersystem zum Zerlegen von zusammengesetzten Wörtern
DE69835239T2 (de) Verfahren und anordnung zur übersetzung von informationen
EP1412875B1 (de) Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit
DE4311211C2 (de) Computersystem und Verfahren zur automatisierten Analyse eines Textes
DE4209280C2 (de) Verfahren und Computersystem zur automatisierten Analyse von Texten
DE2613703C2 (de) Schaltungsanordnung zum Übersetzen von Programmtexten
DE3505291C2 (de)
DE3505276C2 (de)
DE4124024A1 (de) Verfahren zum verarbeiten von tastatureingaben in einem rechner, einer schreibmaschine oder dergleichen
Gunnarsson Thinking in Icelandic and Foreign Tongues

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee