-
Die
Erfindung betrifft ein Verfahren und eine Vorrichtung, basierend
auf dem Prinzip einer so genannten Farbontologie, welche insbesondere
für die Bearbeitung oder Übersetzung natürlicher
Sprache ausgelegt sind.
-
Sprache
ist die wichtigste Kommunikationsform zwischen den Menschen. Ein
großes Problem ist heutzutage die noch immer vorherrschende
Sprachenvielfalt unter der Weltbevölkerung. Erschwerend tritt
hinzu, dass der Sprachschatz eines einzelnen Menschen je nach Charaktertyp
und sozialem Umfeld ganz unterschiedliche Ausprägung findet.
Sowohl die Kommunikation innerhalb einer einzigen Sprache als auch
die Kommunikation zwischen verschiedenen Sprachen wird hierdurch
schwieriger, und es werden beispielsweise der Transfer von Wissen
und kultureller Austausch auf diese Weise behindert. Aufgrund der
wachsenden Bedeutung des Computers als Kommunikationsmedium ist
die maschinelle Verarbeitung natürlicher Sprache zu einem wichtigen
Forschungsgebiet geworden. Ein bedeutendes Teilgebiet unter vielen
Anwendungen ist die maschinelle Übersetzung. Die folgenden
einleitenden Ausführungen sind einem Aufsatz von Ramiro Gomez: „Maschinelle Übersetzung" aus
dem Jahr 2003 entlehnt. Bereits in den dreissiger Jahren
des 20. Jahrhunderts wurden die ersten Patente für Übersetzungsmaschinen
angemeldet. Im ersten Jahrzehnt der intensiven Forschung war der
Optimismus noch groß, schnell funktionierende Systeme zu
entwickeln. Im Laufe der Zeit stießen die Wissenschaftler
aber auf sprachliche Probleme, vor allem im Bereich Semantik, für
die es keine Lösung gab. Zu einem wissenschaftlichen Wendepunkt
kam es Ende der achtziger Jahre des vergangenen Jahrhunderts, als
auch Systeme entwickelt wurden, die nicht regelbasiert waren, sondern
statistische Berechnungen und Modelle nutzten oder analogiebasiert
waren, das heißt eine Datenbasis von Übersetzungen
nutzten. In den neunziger Jahren begann die Kommerzialisierung der maschinellen Übersetzung.
Wurden zunächst hauptsächlich professionelle Übersetzer
mit oftmals domänenspezifischen Systemen versorgt, sind
nunmehr viele Produkte auf dem Markt erhältlich, die auch
von privaten Nutzern auf ihren heimischen PC's installiert und benutzt
werden können. Auch Internetdienstleister wie Altavista
und Google bieten seit einiger Zeit Online-Übersetzungssysteme an.
Es gibt diverse Möglichkeiten, maschinelle Übersetzungssysteme
zu konzipieren und aufzubauen. Man kann sie in zwei Klassen von
Systemarchitekturen einteilen: regelbasierte und datenbasierte Architekturen.
Erstere nutzen linguistische Erkenntnisse, um Regeln zu definieren,
anhand derer übersetzt wird. Letztere nutzen so genannte
Sprachkorpora. Gemeinsam ist den verschiedenen Ansätzen,
dass der Satz gewöhnlich die Basiseinheit für
die Verarbeitung ist. Der Text muß daher zunächst
in Sätze zerlegt werden, was eine nichttriviale Aufgabe
ist, da nicht jeder Punkt eine Satzgrenze markiert.
-
In
regelbasierten Systemen erfolgt eine sprachliche Analyse des Ausgangstextes.
Dabei werden die drei Ansätze direkte Übersetzung,
Transfer und Interlingua unterschieden. Direkte Übersetzung heißt,
dass die Sätze des Ausgangstextes direkt in Sätze
der Zeilsprache transformiert werden. Zunächst wird die
sysntaktische Struktur der Ausgangssätze soweit wie möglich
vereinfacht und dann jedes Wort einzeln unter Verwendung eines zweisprachigen
Wörterbuchs übersetzt. Anhand eines begrenzten
Regelapparates wird die Wortart bestimmt, und die Wörter
werden gegebenenfalls flektiert. Dann erfolgt die Anordnung der
Wörter nach Wortstellungsregeln der Zielsprache. Es erfolgt
keine tiefe Analyse der Ausgangswerte, außerdem haben solche
Systeme keine detailierten Informationen über die Grammatik
der Zielsprache, weshalb die erzeugten Sätze oft ungrammatikalisch
und teilweise auch unverständlich sind. Bei Transferarchitekturen
wird durch den Analyseschritt eine abstrakte Repräsentation des
Ausgangssatzes erzeugt, die von der Grammatik der Ausgangssprache
abhängig ist. Aus dieser Repräsentation des Ausgangssatzes
wird über eine Transferkomponente eine entsprechende Repräsentation
in der Zielsprache bestimmt. Der letzte Schritt ist dann die Erzeugung
des Satzes in der Zielsprache aus dessen Repräsentation, wofür
wiederum ein Regelsystem existiert. Für jede Sprache benötigt
man mindestens eine Grammatik, und für jedes Sprachenpaar
wird eine Transferkomponente benötigt, also ist auch die
Erweiterung von Transfersystemen sehr aufwändig. Bei Interlinguasystemen
wird durch die Analyse eine metasprachliche Repräsentation des
Inhalts erzeugt, die unabhängig von einer bestimmten Sprache
ist. Diese Zwischestufe wird Interlingua genannt und ist die Basis
für die Synthese der Sätze der Zielsprache. Der
Vorteil eines solchen Systems ist der im Vergleich zu Transfersystemen
geringere Aufwand für die Erweiterung um andere Sprachen,
da es keine Transferkomponente gibt. Das große Problem
ist aber eine Repräsentation zu finden, die tatsächlich
sprachunabhängig ist.
-
Datenbasierte
Systeme lassen sich in statistische und analogiebasierte Systeme
einteilen. Die grundlegende Idee hinter statistischen Systemen ist, dass
jeder Satz einer Sprache eine mögliche Übersetzung
eines Satzes in eine andere Sprache ist. Um die Wahrscheinlichkeit
eines Satzes der Ausgangssprache zu bestimmen, zerlegt man diesen
in seine einzelnen Wörter und berechnet das Produkt der Wahrscheinlichekeit
des ersten Wortes mit den bedingten Wahrscheinlichkeiten der darauf
folgenden Wörter. Zur Berechnung der Wahrscheinlichkeiten benötigt
man ein umfassendes einsprachiges Sprachkorpus. Die Genauigkeit
und damit die Nutzbarkeit des Sprachmodells hängen von
Umfang und Qualität dieser Ressource ab. Die zweite Aufgabe besteht
in der Berechnung der Parameter des Übersetzungsmodells.
Hierfür benötigt man ein zweisprachiges Register,
in dem die einzelnen Sätze paarweise übersetzt
sind. Zu einem vorgegebenen Satz sucht man nun den Satz, dessen
Wahrscheinlichkeit unter der Bedingung, dass der Ausgangssatz vorgegeben
ist, am größten ist. Analogiebasierte Systeme übersetzen
indem sie auf eine Datenbank mit Übersetzungspaaren zurückgreifen.
Nach der Eingabe sucht ein solches System über Mustervergleiche
in der Datenbank nach Beispielen, die der Eingabe ähnlich
sind. Das Hauptproblem besteht bei diesem Ansatz in der Definition
der Ähnlichkeit.
-
Darüber
hinaus existieren Ansätze zur Kombination von regelbasierten
und datenbasierten Systemen.
-
Einen
neuen Weg mit erstaunlichen Ergebnissen beschreitet die Firma Microsoft.
Dort wird ein neuronales IT-Netz mit einigen hunderttausend Seiten
bereits übersetzter Sätze gefüttert.
Das IT-Netz lernt diese Texte zweier Sprachen und übersetzt
fortan automatisch. Dieses System arbeitet mittels einer Matrix
bzw. Synapsen, welche das System über rekursive Algorithmen
selbst einrichtet und legt die Lernergebnisse in Sektoren ab. Erhält
das System einen unbekannten neuen Text vergleicht es jeden Satz
sequentiell mit allen eingerichteten Synapsen, d. h. gespeicherten
und gelernten Sätzen. Als praktische Hilfsmittel werden
hierbei Datenextraktion zum Beispiel so genannte Hash-Werte, und
Wahrscheinlichkeiten eingesetzt, um die mitunter sehr lange Verarbeitungsdauer
solcher Systeme zu beschleunigen. Letztlich bleibt der Prozeß rechenaufwändig
und ist auf die Kommunikation zwischen zwei Sprachen beschränkt.
-
Aus
dem europäischen Patent
EP
715 265 ist ein maschinelles Übersetzungssystem
bekannt, welches als regelbasiertes System mit Transferarchitektur
anzusehen ist. Zusätzlich zur Transferarchitektur ist hier
ein so genannter Bewerter zum Bewerten der Struktur in der Zielsprache
unter Verwendung grammatikalischer Kriterien vorgesehen, um die
in der Zielsprache durch einen Transformator bereits gebildete Struktur
weiter zu verbessern. Gleichfalls den regelbasierten Systemen mit
Transferarchitektur ist das Maschinenübersetzungssystem
TAUM-METEO zuzordnen, das an der Universität von Montreal zur Übersetzung
von Wetterberichten vom Englischen ins Französische entwickelt
wurde.
-
-
Das
an obiger Stelle beschriebene System der Firma Microsoft ist in
diesem Zusammenhang als analogiebasiertes System einzuordnen.
-
Das
europäische Patent
EP
610 151 beschreibt ein automatisches Übersetzungssystem
mit Hilfe einer Zwischensprache, das als regelbasiertes System,
und insbesondere als eine Kombination von Transfersystem und Interlinguasystem
angesehen werden kann. Mit Hilfe von baumartigen Strukturen wird
hier von einer Ausgangssprache in eine erste Brückensprache,
dann in eine Zwischensprache, anschließend in eine zweite
Brückensprache und schließlich in die Zielsprache übersetzt.
Die Übersetzung in die Brückensprachen und die
Zwischensprache wird dadurch ermöglicht, dass den in einer
Ausgangssprache verfassten Texten mit einer baumartigen Zuordnung
entsprechende morphologische, syntaktische und semantische Merkmale
zugeordnet werden.
-
Allen
bisher bekannten Systemen zur Bearbeitung und Übersetzung
von Sprachen ist gemein, dass sie bisher noch keine zufrieden stellende
Resultate liefern. Insbesondere für regelbasierte Interlinguasysteme
wurde bisher noch kein zufrieden stellendes Modell für
eine metasprachliche Repräsentation gefunden.
-
Aufgabe
der vorliegenden Erfindung ist es daher, ein Verfahren sowie eine
Vorrichtung vorzustellen, die eine verbesserte Sprachbearbeitung
und insbesondere Übersetzung von Sprache gewährleisten.
-
Die
Aufgabe wird erfindungsgemäß gelöst durch
ein Verfahren nach dem Anspruch 1 sowie eine entsprechende Vorrichtung.
-
Die
vorliegende Erfindung macht sich den heutigen Wissenstand auf dem
Feld der Typologie, das heißt der Einteilung menschlicher
Charaktere gemäß der Lehre von Hippokrates und
des Galen zu nutze. Danach gibt es vier grundlegende Charaktertypen,
nämlich den Sanguiniker, den Choleriker, den Melancholiker
und den Phlegmatiker. In der jüngeren Vergangenheit haben
Johann Caspar Lavater (1741–1801) und Carl Huter (1861–1912)
die Typologie vertieft und scharf gezeichnet. Heute bedient sich beispielsweise
das EMNID-Institut der Methode mittels spezifischen Wortgebrauchs
eines Menschen auf seinen Charakter zu schließen und vermarktet
dieses als „Semiometrie” bezeichnete Verfahren.
-
Die
Erfindung basiert nun auf einer Zuordnung von Farben zu einem Wort
auf der Grundlage der Einteilung der Charaktere nach oben genannter Typologie, über
die der Farbkreis gelegt ist. Der Farbkreis wiederum ist eingebettet
in ein Modell mit den Achsen (x, y, z), z. B. das CIE-Luv-Modell.
Dieses Modell ist ein internationaler Standard in der Farbreproduktion
zur allgemeinen Beschreibung einer Farbe und geht zurück
auf die Commision International d'Eclairage. Die Farben gemäß CIE-Luv-Modell
bestehen aus einer Luminanz- oder Helligkeitskomponente, der L-Komponente,
und zwei chromatischen oder farbigen Komponenten: der a-Komponente,
die von Grün bis Rot reicht, und der b-Komponente, die von
Blau bis Gelb reicht.
-
Anhand
dieses dreidimensionalen Modells ist es möglich, einem
Wort in einer Sprache einen bestimmten Punkt mit ortsfesten Koordinaten
innerhalb dieses Modells zuzordnen. Mit der Positionierung an einem
bestimmten Ort kommt gleichzeitig ein bestimmter Charaktertypus
zum Ausdruck. Hat ein Wort mehrere Bedeutungen, so werden dem Wort
dabei mehrere Punkte in dem Modell zugeordnet. Das bei der Positionierung
an einem bestimmten Ort ein Charaktertypus zum Ausdruck kommt, bedeutet,
dass dieses Wort bevorzugt von Personen mit dem entsprechendem Charaktertypus
benutzt wird.
-
Mit
einer 12-Bit-Farbauswahl auf einem Rechner, das heißt 4096
unterschiedlichen Farbwerten, ist jede beliebige Sprache semantisch
und gemäß der oben erläuterten Typologie
charakterspezifisch, einschließlich aller Flexionsformen,
einheitlich abbildbar. Dabei werden jedem Wort vorzugsweise zwei
Farbwerte zugeordnet. Bei einer Verkettung von einzelnen Worten
zu einem Satz offenbart sich nun ein charakterspezifischer Satzaufbau.
Denn nur gewisse Wortkombinationen, das heißt also Farbkombinationen,
sind semantisch angemessen und werden erfahrungsgemäß in
Abhängigkeit vom Charaktertyp eines Menschen benutzt und
kombiniert. Damit ist das im Folgenden als Farbontologie bezeichnete Prinzip,
auf dem die Erfindung beruht, ein in sich geschlossenes harmonisches
System, welches in natürlicher Weise eine auf die Sprache
bezogene Typen- und Naturellzuordnung beinhaltet. Ist dieses System
einheitlich für alle heutzutage in einer Datenbank archivierbaren
Sprachen eingerichtet, so läßt sich rechnergestützt
auf Knopfdruck die Übersetzung beliebiger Texte bereitstellen.
Bei den arabischen Sprachen muß lediglich die Bitfolge
invertiert werden. Die einheitliche typologische Einordnung von
Texten nach dem Prinzip der Farbontologie bietet innerhalb einer
Sprache oder sprachübergreifend Recherche-, Such- und Marketingoptionen.
Ein vorgegebener Text läßt sich beispielsweise
typologisch modulieren, indem man die entsprechenden Punkte im CIE-Luv-Modell
hinsichtlich der gegebenen Frequenzen moduliert und anschließend
in die Sprache zurücktransformiert. Mit Hilfe der Farbontologie
kann jedes elektronische Gerät, wie zum Beispiel ein Computer,
ein Handy, ein Palmtop usw., das 12 Bit interpretieren kann, für
die beschriebene Bearbeitung oder Übersetzung von Sprache
verwendet werden.
-
Die
Erfindung wird im folgenden anhand der Figuren beispielhaft beschrieben.
-
Es
zeigen:
-
1 die
Einordnung der menschlichen Charaktertypen, wie sie auf die Lehre
des Hippokrates und des Galen zurückgeht,
-
2 die
Einteilung der vier Charaktertypen, die durch den Farbkreis unterlegt
wird. Da die Abbildung in der Veröffentlichung schwarz-weiß ist,
wird die farbliche Zuordnung kurz erläutert: Rechts oben in
der Figur befindet sich der Farbbereich Gelb, rechts unten der rote
Farbbereich, links unten schließt sich der blaue Farbbereich
an und links oben befindet sich der Farbbereich Grün,
-
3 das
CIE-Luv-Modell, in dem nun zu den vier Charaktertypen, die mit dem
Farbkreis unterlegt sind, zusätzlich die vertikale Achse
für die Helligkeit mit Wert L für Grauwerte zwischen
Weiß mit L = 100 und Schwarz mit L = 0 hinzutritt. Die
Charaktertypen selbst werden repräsentiert durch den Wert
+u, Rot/Magenta, für den Choleriker, den Wert –u, Grün/Cyan,
für den Melancholiker, den Wert +v, Gelb, für
den Phlegmatiker und den Wert –v, Blau, für den Sanguiniker.
Durch die zusätzliche senkrechte Achse für die
Helligkeit ist für die Repräsentation eines Wortes
durch einen Punkt (L, u, v) die Möglichkeit gegeben, anhand
eines Wertes L Füllwörter und Intensität eines
entsprechenden Charaktertypus mit Werten (u, v) darzustellen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - EP 715265 [0007]
- - DE 10015858 [0008]
- - DE 10015859 [0008]
- - EP 610151 [0010]
-
Zitierte Nicht-Patentliteratur
-
- - Ramiro Gomez: „Maschinelle Übersetzung” aus dem
Jahr 2003 [0002]