DE102008003572A1

DE102008003572A1 - Verfahren zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache basierend auf dem Prinzip der von mir entwickelten Farbontologie

Info

Publication number: DE102008003572A1
Application number: DE102008003572A
Authority: DE
Original assignee: GRUNERT FLORIAN SILVER
Current assignee: GRUNERT FLORIAN SILVER
Priority date: 2008-01-09
Filing date: 2008-01-09
Publication date: 2009-10-01

Abstract

Verfahren zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache mit den folgenden Schritten:
1. Der Text der Ausgangssprache wird in einzelne Wörter zerlegt,
2. den einzelnen Wörtern im Text der Ausgangssprache werden gemäß dem Prinzip der Farbontologie, das eine Korrespondenz zwischen menschlichen Charaktertypen und Farben zugrunde legt, Punkte (x, y, z), etwa in einem CIE-Luv-Modell, wo dann die Punkte Punkte (L, u, v) gelten zugeordnet,
3. die Punkte (L, u, v) in dem CIE-Luv-Modell werden moduliert, das heißt in einheitlicher Weise einer Abbildung f unterzogen und in die Punkte (f(L), f(u), f(v)) überführt,
4. den einzelnen Punkten (f(L), f(u), f(v)) werden gemäß dem Prinzip der Farbontologie Wörter in der Zielsprache zugeordnet,
5. die einzelnen Wörter in der Zielsprache werden zu einem Text in der Zeilsprache kombiniert.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung, basierend auf dem Prinzip einer so genannten Farbontologie, welche insbesondere für die Bearbeitung oder Übersetzung natürlicher Sprache ausgelegt sind.
Sprache ist die wichtigste Kommunikationsform zwischen den Menschen. Ein großes Problem ist heutzutage die noch immer vorherrschende Sprachenvielfalt unter der Weltbevölkerung. Erschwerend tritt hinzu, dass der Sprachschatz eines einzelnen Menschen je nach Charaktertyp und sozialem Umfeld ganz unterschiedliche Ausprägung findet. Sowohl die Kommunikation innerhalb einer einzigen Sprache als auch die Kommunikation zwischen verschiedenen Sprachen wird hierdurch schwieriger, und es werden beispielsweise der Transfer von Wissen und kultureller Austausch auf diese Weise behindert. Aufgrund der wachsenden Bedeutung des Computers als Kommunikationsmedium ist die maschinelle Verarbeitung natürlicher Sprache zu einem wichtigen Forschungsgebiet geworden. Ein bedeutendes Teilgebiet unter vielen Anwendungen ist die maschinelle Übersetzung. Die folgenden einleitenden Ausführungen sind einem Aufsatz von Ramiro Gomez: „Maschinelle Übersetzung" aus dem Jahr 2003 entlehnt. Bereits in den dreissiger Jahren des 20. Jahrhunderts wurden die ersten Patente für Übersetzungsmaschinen angemeldet. Im ersten Jahrzehnt der intensiven Forschung war der Optimismus noch groß, schnell funktionierende Systeme zu entwickeln. Im Laufe der Zeit stießen die Wissenschaftler aber auf sprachliche Probleme, vor allem im Bereich Semantik, für die es keine Lösung gab. Zu einem wissenschaftlichen Wendepunkt kam es Ende der achtziger Jahre des vergangenen Jahrhunderts, als auch Systeme entwickelt wurden, die nicht regelbasiert waren, sondern statistische Berechnungen und Modelle nutzten oder analogiebasiert waren, das heißt eine Datenbasis von Übersetzungen nutzten. In den neunziger Jahren begann die Kommerzialisierung der maschinellen Übersetzung. Wurden zunächst hauptsächlich professionelle Übersetzer mit oftmals domänenspezifischen Systemen versorgt, sind nunmehr viele Produkte auf dem Markt erhältlich, die auch von privaten Nutzern auf ihren heimischen PC's installiert und benutzt werden können. Auch Internetdienstleister wie Altavista und Google bieten seit einiger Zeit Online-Übersetzungssysteme an. Es gibt diverse Möglichkeiten, maschinelle Übersetzungssysteme zu konzipieren und aufzubauen. Man kann sie in zwei Klassen von Systemarchitekturen einteilen: regelbasierte und datenbasierte Architekturen. Erstere nutzen linguistische Erkenntnisse, um Regeln zu definieren, anhand derer übersetzt wird. Letztere nutzen so genannte Sprachkorpora. Gemeinsam ist den verschiedenen Ansätzen, dass der Satz gewöhnlich die Basiseinheit für die Verarbeitung ist. Der Text muß daher zunächst in Sätze zerlegt werden, was eine nichttriviale Aufgabe ist, da nicht jeder Punkt eine Satzgrenze markiert.
In regelbasierten Systemen erfolgt eine sprachliche Analyse des Ausgangstextes. Dabei werden die drei Ansätze direkte Übersetzung, Transfer und Interlingua unterschieden. Direkte Übersetzung heißt, dass die Sätze des Ausgangstextes direkt in Sätze der Zeilsprache transformiert werden. Zunächst wird die sysntaktische Struktur der Ausgangssätze soweit wie möglich vereinfacht und dann jedes Wort einzeln unter Verwendung eines zweisprachigen Wörterbuchs übersetzt. Anhand eines begrenzten Regelapparates wird die Wortart bestimmt, und die Wörter werden gegebenenfalls flektiert. Dann erfolgt die Anordnung der Wörter nach Wortstellungsregeln der Zielsprache. Es erfolgt keine tiefe Analyse der Ausgangswerte, außerdem haben solche Systeme keine detailierten Informationen über die Grammatik der Zielsprache, weshalb die erzeugten Sätze oft ungrammatikalisch und teilweise auch unverständlich sind. Bei Transferarchitekturen wird durch den Analyseschritt eine abstrakte Repräsentation des Ausgangssatzes erzeugt, die von der Grammatik der Ausgangssprache abhängig ist. Aus dieser Repräsentation des Ausgangssatzes wird über eine Transferkomponente eine entsprechende Repräsentation in der Zielsprache bestimmt. Der letzte Schritt ist dann die Erzeugung des Satzes in der Zielsprache aus dessen Repräsentation, wofür wiederum ein Regelsystem existiert. Für jede Sprache benötigt man mindestens eine Grammatik, und für jedes Sprachenpaar wird eine Transferkomponente benötigt, also ist auch die Erweiterung von Transfersystemen sehr aufwändig. Bei Interlinguasystemen wird durch die Analyse eine metasprachliche Repräsentation des Inhalts erzeugt, die unabhängig von einer bestimmten Sprache ist. Diese Zwischestufe wird Interlingua genannt und ist die Basis für die Synthese der Sätze der Zielsprache. Der Vorteil eines solchen Systems ist der im Vergleich zu Transfersystemen geringere Aufwand für die Erweiterung um andere Sprachen, da es keine Transferkomponente gibt. Das große Problem ist aber eine Repräsentation zu finden, die tatsächlich sprachunabhängig ist.
Datenbasierte Systeme lassen sich in statistische und analogiebasierte Systeme einteilen. Die grundlegende Idee hinter statistischen Systemen ist, dass jeder Satz einer Sprache eine mögliche Übersetzung eines Satzes in eine andere Sprache ist. Um die Wahrscheinlichkeit eines Satzes der Ausgangssprache zu bestimmen, zerlegt man diesen in seine einzelnen Wörter und berechnet das Produkt der Wahrscheinlichekeit des ersten Wortes mit den bedingten Wahrscheinlichkeiten der darauf folgenden Wörter. Zur Berechnung der Wahrscheinlichkeiten benötigt man ein umfassendes einsprachiges Sprachkorpus. Die Genauigkeit und damit die Nutzbarkeit des Sprachmodells hängen von Umfang und Qualität dieser Ressource ab. Die zweite Aufgabe besteht in der Berechnung der Parameter des Übersetzungsmodells. Hierfür benötigt man ein zweisprachiges Register, in dem die einzelnen Sätze paarweise übersetzt sind. Zu einem vorgegebenen Satz sucht man nun den Satz, dessen Wahrscheinlichkeit unter der Bedingung, dass der Ausgangssatz vorgegeben ist, am größten ist. Analogiebasierte Systeme übersetzen indem sie auf eine Datenbank mit Übersetzungspaaren zurückgreifen. Nach der Eingabe sucht ein solches System über Mustervergleiche in der Datenbank nach Beispielen, die der Eingabe ähnlich sind. Das Hauptproblem besteht bei diesem Ansatz in der Definition der Ähnlichkeit.
Darüber hinaus existieren Ansätze zur Kombination von regelbasierten und datenbasierten Systemen.
Einen neuen Weg mit erstaunlichen Ergebnissen beschreitet die Firma Microsoft. Dort wird ein neuronales IT-Netz mit einigen hunderttausend Seiten bereits übersetzter Sätze gefüttert. Das IT-Netz lernt diese Texte zweier Sprachen und übersetzt fortan automatisch. Dieses System arbeitet mittels einer Matrix bzw. Synapsen, welche das System über rekursive Algorithmen selbst einrichtet und legt die Lernergebnisse in Sektoren ab. Erhält das System einen unbekannten neuen Text vergleicht es jeden Satz sequentiell mit allen eingerichteten Synapsen, d. h. gespeicherten und gelernten Sätzen. Als praktische Hilfsmittel werden hierbei Datenextraktion zum Beispiel so genannte Hash-Werte, und Wahrscheinlichkeiten eingesetzt, um die mitunter sehr lange Verarbeitungsdauer solcher Systeme zu beschleunigen. Letztlich bleibt der Prozeß rechenaufwändig und ist auf die Kommunikation zwischen zwei Sprachen beschränkt.
Aus dem europäischen Patent EP 715 265 ist ein maschinelles Übersetzungssystem bekannt, welches als regelbasiertes System mit Transferarchitektur anzusehen ist. Zusätzlich zur Transferarchitektur ist hier ein so genannter Bewerter zum Bewerten der Struktur in der Zielsprache unter Verwendung grammatikalischer Kriterien vorgesehen, um die in der Zielsprache durch einen Transformator bereits gebildete Struktur weiter zu verbessern. Gleichfalls den regelbasierten Systemen mit Transferarchitektur ist das Maschinenübersetzungssystem TAUM-METEO zuzordnen, das an der Universität von Montreal zur Übersetzung von Wetterberichten vom Englischen ins Französische entwickelt wurde.
Aus den beiden Patenschriften DE 100 15 858 und DE 100 15 859 sind Verfahren bekannt, die auf statistische Systeme zurückgreifen.
Das an obiger Stelle beschriebene System der Firma Microsoft ist in diesem Zusammenhang als analogiebasiertes System einzuordnen.
Das europäische Patent EP 610 151 beschreibt ein automatisches Übersetzungssystem mit Hilfe einer Zwischensprache, das als regelbasiertes System, und insbesondere als eine Kombination von Transfersystem und Interlinguasystem angesehen werden kann. Mit Hilfe von baumartigen Strukturen wird hier von einer Ausgangssprache in eine erste Brückensprache, dann in eine Zwischensprache, anschließend in eine zweite Brückensprache und schließlich in die Zielsprache übersetzt. Die Übersetzung in die Brückensprachen und die Zwischensprache wird dadurch ermöglicht, dass den in einer Ausgangssprache verfassten Texten mit einer baumartigen Zuordnung entsprechende morphologische, syntaktische und semantische Merkmale zugeordnet werden.
Allen bisher bekannten Systemen zur Bearbeitung und Übersetzung von Sprachen ist gemein, dass sie bisher noch keine zufrieden stellende Resultate liefern. Insbesondere für regelbasierte Interlinguasysteme wurde bisher noch kein zufrieden stellendes Modell für eine metasprachliche Repräsentation gefunden.
Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren sowie eine Vorrichtung vorzustellen, die eine verbesserte Sprachbearbeitung und insbesondere Übersetzung von Sprache gewährleisten.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren nach dem Anspruch 1 sowie eine entsprechende Vorrichtung.
Die vorliegende Erfindung macht sich den heutigen Wissenstand auf dem Feld der Typologie, das heißt der Einteilung menschlicher Charaktere gemäß der Lehre von Hippokrates und des Galen zu nutze. Danach gibt es vier grundlegende Charaktertypen, nämlich den Sanguiniker, den Choleriker, den Melancholiker und den Phlegmatiker. In der jüngeren Vergangenheit haben Johann Caspar Lavater (1741–1801) und Carl Huter (1861–1912) die Typologie vertieft und scharf gezeichnet. Heute bedient sich beispielsweise das EMNID-Institut der Methode mittels spezifischen Wortgebrauchs eines Menschen auf seinen Charakter zu schließen und vermarktet dieses als „Semiometrie” bezeichnete Verfahren.
Die Erfindung basiert nun auf einer Zuordnung von Farben zu einem Wort auf der Grundlage der Einteilung der Charaktere nach oben genannter Typologie, über die der Farbkreis gelegt ist. Der Farbkreis wiederum ist eingebettet in ein Modell mit den Achsen (x, y, z), z. B. das CIE-Luv-Modell. Dieses Modell ist ein internationaler Standard in der Farbreproduktion zur allgemeinen Beschreibung einer Farbe und geht zurück auf die Commision International d'Eclairage. Die Farben gemäß CIE-Luv-Modell bestehen aus einer Luminanz- oder Helligkeitskomponente, der L-Komponente, und zwei chromatischen oder farbigen Komponenten: der a-Komponente, die von Grün bis Rot reicht, und der b-Komponente, die von Blau bis Gelb reicht.
Anhand dieses dreidimensionalen Modells ist es möglich, einem Wort in einer Sprache einen bestimmten Punkt mit ortsfesten Koordinaten innerhalb dieses Modells zuzordnen. Mit der Positionierung an einem bestimmten Ort kommt gleichzeitig ein bestimmter Charaktertypus zum Ausdruck. Hat ein Wort mehrere Bedeutungen, so werden dem Wort dabei mehrere Punkte in dem Modell zugeordnet. Das bei der Positionierung an einem bestimmten Ort ein Charaktertypus zum Ausdruck kommt, bedeutet, dass dieses Wort bevorzugt von Personen mit dem entsprechendem Charaktertypus benutzt wird.
Mit einer 12-Bit-Farbauswahl auf einem Rechner, das heißt 4096 unterschiedlichen Farbwerten, ist jede beliebige Sprache semantisch und gemäß der oben erläuterten Typologie charakterspezifisch, einschließlich aller Flexionsformen, einheitlich abbildbar. Dabei werden jedem Wort vorzugsweise zwei Farbwerte zugeordnet. Bei einer Verkettung von einzelnen Worten zu einem Satz offenbart sich nun ein charakterspezifischer Satzaufbau. Denn nur gewisse Wortkombinationen, das heißt also Farbkombinationen, sind semantisch angemessen und werden erfahrungsgemäß in Abhängigkeit vom Charaktertyp eines Menschen benutzt und kombiniert. Damit ist das im Folgenden als Farbontologie bezeichnete Prinzip, auf dem die Erfindung beruht, ein in sich geschlossenes harmonisches System, welches in natürlicher Weise eine auf die Sprache bezogene Typen- und Naturellzuordnung beinhaltet. Ist dieses System einheitlich für alle heutzutage in einer Datenbank archivierbaren Sprachen eingerichtet, so läßt sich rechnergestützt auf Knopfdruck die Übersetzung beliebiger Texte bereitstellen. Bei den arabischen Sprachen muß lediglich die Bitfolge invertiert werden. Die einheitliche typologische Einordnung von Texten nach dem Prinzip der Farbontologie bietet innerhalb einer Sprache oder sprachübergreifend Recherche-, Such- und Marketingoptionen. Ein vorgegebener Text läßt sich beispielsweise typologisch modulieren, indem man die entsprechenden Punkte im CIE-Luv-Modell hinsichtlich der gegebenen Frequenzen moduliert und anschließend in die Sprache zurücktransformiert. Mit Hilfe der Farbontologie kann jedes elektronische Gerät, wie zum Beispiel ein Computer, ein Handy, ein Palmtop usw., das 12 Bit interpretieren kann, für die beschriebene Bearbeitung oder Übersetzung von Sprache verwendet werden.
Die Erfindung wird im folgenden anhand der Figuren beispielhaft beschrieben.
Es zeigen:
1 die Einordnung der menschlichen Charaktertypen, wie sie auf die Lehre des Hippokrates und des Galen zurückgeht,
2 die Einteilung der vier Charaktertypen, die durch den Farbkreis unterlegt wird. Da die Abbildung in der Veröffentlichung schwarz-weiß ist, wird die farbliche Zuordnung kurz erläutert: Rechts oben in der Figur befindet sich der Farbbereich Gelb, rechts unten der rote Farbbereich, links unten schließt sich der blaue Farbbereich an und links oben befindet sich der Farbbereich Grün,
3 das CIE-Luv-Modell, in dem nun zu den vier Charaktertypen, die mit dem Farbkreis unterlegt sind, zusätzlich die vertikale Achse für die Helligkeit mit Wert L für Grauwerte zwischen Weiß mit L = 100 und Schwarz mit L = 0 hinzutritt. Die Charaktertypen selbst werden repräsentiert durch den Wert +u, Rot/Magenta, für den Choleriker, den Wert –u, Grün/Cyan, für den Melancholiker, den Wert +v, Gelb, für den Phlegmatiker und den Wert –v, Blau, für den Sanguiniker. Durch die zusätzliche senkrechte Achse für die Helligkeit ist für die Repräsentation eines Wortes durch einen Punkt (L, u, v) die Möglichkeit gegeben, anhand eines Wertes L Füllwörter und Intensität eines entsprechenden Charaktertypus mit Werten (u, v) darzustellen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- EP 715265 [0007]
- DE 10015858 [0008]
- DE 10015859 [0008]
- EP 610151 [0010]

Zitierte Nicht-Patentliteratur

- Ramiro Gomez: „Maschinelle Übersetzung” aus dem Jahr 2003 [0002]

Claims

Verfahren zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache mit den folgenden Schritten: 1. Der Text der Ausgangssprache wird in einzelne Wörter zerlegt, 2. den einzelnen Wörtern im Text der Ausgangssprache werden gemäß dem Prinzip der Farbontologie, das eine Korrespondenz zwischen menschlichen Charaktertypen und Farben zugrunde legt, Punkte (x, y, z), etwa in einem CIE-Luv-Modell, wo dann die Punkte Punkte (L, u, v) gelten zugeordnet, 3. die Punkte (L, u, v) in dem CIE-Luv-Modell werden moduliert, das heißt in einheitlicher Weise einer Abbildung f unterzogen und in die Punkte (f(L), f(u), f(v)) überführt, 4. den einzelnen Punkten (f(L), f(u), f(v)) werden gemäß dem Prinzip der Farbontologie Wörter in der Zielsprache zugeordnet, 5. die einzelnen Wörter in der Zielsprache werden zu einem Text in der Zeilsprache kombiniert.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Ausgangssprache und Zielsprache übereinstimmen, so dass es sich um eine Bearbeitung des Textes innerhalb ein und derselben Sprache handelt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, das es sich bei der Abbildung f um die identische Abbildung handelt, so dass es sich um eine einfache Übersetzung des Textes der Ausgangssprache in einen Text der Zielsprache handelt.
Vorrichtung zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache mit 1. einer ersten Einrichtung zur Aufnahme des Textes in der Ausgangssprache und seiner Zerlegung in einzelne Wörter, 2. einem Prozessor, 3. einer zweiten Einrichtung zur Ausgabe der Wörter in der Zielsprache und ihrer Synthese in einen Text in der Zielsprache, dadurch gekennzeichnet, dass 4. der Prozessor eine auf dem Prinzip der Farbontologie, das eine Korrespondenz zwischen menschlichen Charaktertypen und Farben zugrunde legt, beruhende Zuordnung zwischen Wörtern einer beliebigen Sprache und Punkten (x, y, z) z. B. in einem CIE-Luv-Modell (L, u, v) vorsieht.