-
Es handelt sich hier um einen Antrag, der in anderer Form, aber mit genau dem gleichen Inhalt dem DPMA seit dem 28. August 2013 (Az. 10.2015.001.497.8, zurueckgezogen am 22.01.2015) bekannt ist.
-
Im Anschluss wurden am 07.02.2015 und am 17.02.2015 in zwei Schritten, einmal per Fax und einmal per Briefpost, wofuer das Az. 10.2015.001.596.6 ausgegeben wurde, dieselbe Erfindung noch einmal eingereicht.
-
Dieser Vorgang zu 10.2015.001.596.6 laeuft noch. Auf ihn wird in diesem hier vorliegenden neuen Antrag, der eine formale Verbesserung darstellen soll, Bezug genommen, sodass fuer diesen neuen Antrag, der innerhalb der 12 Monate-Frist gestellt wird, die alte Prioritaet vom 07.02.2015 beantragt werden kann.
-
Auf die Entwicklung des Wortfelds mit seiner Kontexterkennung (Unteranspruch), wie es in 10.2015.001.596.6 dargestellt wurde, wird in diesem hier vorliegenden Antrag nicht noch einmal Bezug genommen. Auf die Entwicklung der Uebersetzungsmaschine und ihrer Vorstufe, der Textanalyse wird her allerdings differenzierter eingegangen.
-
B)
-
Begruendung:
-
Auch ein menschlicher Uebersetzer muss sich immer erst des Sinnes des zu uebersetzenden Ursprungs-Textes (Quelltexts) bewusst werden. Hierfuer genuegt nicht nur die Kenntnis des Vokabulars, die bei Natursprachen selten eindeutig ist. Immer muss sich der Dolmetscher auch fragen, was der Autor des Quelltextes tatsaechlich ”sagen wollte”, da Woerter nicht eindeutig, d. h. da sie meist mit mehreren Sinnen pro Wort belegt, sind.
-
Um wenigstens die erste ”Haelfte” des Uebersetzungsvorgangs, naemlich die der Texterkennung des zur Uebersetzung anstehenden Quelltextes, sicher zu stellen, behaupten die meisten Maschinenuebersetzungen, dass sie zuerst immer den Ursprungstext (Quelltext) ”analysieren” wuerden.
-
Dies geschieht aber nicht und kann ohne die hier entwickelte Idee, jedem Wort nur einen Sinn und nur eine Zahl zuzuweisen, auch gar nicht geschehen.
-
Denn wie koennen eindeutige, gegeneinander abgegrenzte, exakte und in jeder Menge verfuegbare Zahlen mit den wenigen existierenden und uneinheitlich und unpraezise definierten Natursprachenwoerter kompatibel gemacht werden? Dies funktioniert nur, wenn die Sprache selbst mathematisiert wird, d. h. wenn sie sich ein paar Vorteile der Mathematik aneignet, d. h. wenn sie sich wenigstens so weit aufsplittet, dass jedes Wort nur noch mit einem Sinn belegt ist und dafuer eine unverwechselbare Zahl erhaelt, mit der dann auch korrekt gearbeitet werden kann.
-
C)
-
Zur Patentierbarkeit der hier angemeldeten Idee:
-
Bei diesem Patentantrag geht es um eine Verbesserung fuer saemtliche bisher zum Einsatz gekommenen Uebersetzungsmaschinen, inklusive die von Google betriebene vielfach patentierte (!) translation machine ”translator”.
- 1) Da sich diese hier vorgestellte Verbesserung auf Uebersetzungsmaschinen von Menschensprache bezieht, hat sie auf den ersten Bick mit nicht-patentfaehiger ”Sprache” und ”Methoden” zu tun. Tatsaechlich aber wird bei diesem hier vorgestellten Verfahren die gesamte Sprache konsequenter, als es je zuvor in der theoretischen Informatik geschah (also sehr viel weitreichender als in ASCII oder im Unicode oder in den programmiersprachlichen Feldern, bzw. Arrays und Strings oder in den Datenbanken usw.) nach vorheriger sprachlicher Analyse (also mittels einer umfassenden Sprachgrammatik, aber auf keinen Fall mittels einer angeblich formalen Grammatik mittels „Praedikatenlogik” und aehnlich Unbrauchbarem in nichts Anderes als in Zahlen ueberfuehrt, um tatsaechlich nur mit diesen Zahlen numerische Algorithmen erstellen zu koennen. Somit bleibt von der ”Sprache”, nach der anfaenglich noetigen, gruendlichen natursprachlichen Analyse fast nichts mehr uebrig. Denn die Loesung dieses oben genannten Problems ist rein technischer Art.
- 2) Auch als Konzept fuer neue ”Computerprogramme” sollte die hier vorgestellte Verbesserung fuer Spracherkennungsmaschinen und Uebersetzungsmaschinen keiner Patentierbarkeit im Weg stehen, da dieses Programm immer in technische Geraeten (zum Beispiel Sprachcomputern oder akustischen Steuerungsgeraeten) implementiert werden wird. Sie stellt also immer eine technische Loesung und Verbesserung eines technischen Problems von technischen Geraeten dar.
- 3) Darueber hinaus ist die hier vorgestellte technische Loesung, die der Industrie und dem Gewerbe zugefuehrt wird, neu.
- –) Neu ist die nach oben hin grenzenlose Aufsplittung des natursprachlichen Vokabulars.
- –) Neu ist, dass bei mehreren, voneinander abweichenden, Sinngehalten ein und desselben Wortes auch neue Woerter gebildet werden.
-
Diese muessen zwar von keinem Verwender einer Natursprache gelernt werden, aber sie bekommen in diesem hier vorgestellten System ihre eigene unverwechselbare Zahl.
- –) Neu ist also die Numerierung aller dieser oben genannten alten und neuen Woerter plus aller ihrer Nebenformen, Unterformen, Abweichungen, grammatisch bedingten Veraenderungen usw. Denn es werden nicht nur Grundwoerter numeriert, sondern alle Erscheinungsformen eines Wortes. Damit beinhaltet jedes einzelne Wort auch bereits seine grammatische Form.
- –) Diese Numerierung pro Wort erfolgt nach einem vorher einheitlich definierten Sinn, sodass es nicht mehr moeglich ist, einem Wort mehr als einen Sinn zuzuordnen.
- –) In dieser hier vorliegenden Entwicklung wird das Prinzip, nach dem ein Quelltext automatisch analysiert wird, anhand der deutschen Sprache dargestellt.
- –) Analog ist dasselbe aber auch mit jeder anderen Natursprache moeglich.
-
D)
-
Der Stand der Technik:
-
- 1) Chomskys Transfermethode war zum Scheitern verurteilt. Es reichte gerade bis zu einer kleinen Kunstgrammatik, aus ihr entstehenden Programmiersprachen und einem, jeden Algorithmus beleidigenden, endlichen 5 Tupel-Automaten, der seine wechselnden Zustaende erkennen kann. Danach war die Entwicklung beendet. Fuer Natursprachuebersetzungen oder auch nur Analysen von Quelltexten eignen sich solche primitiven Programme nicht, wie sie Frege, Whitehead und Russell schon vor fast 150 Jahren mit ihrer Praedikatenlogik vorbereitet haben.
- 2) Auch die sog. Interlingua-Methode, die in Zwischentexte zu uebersetzen versuchte, hat noch niemals brauchbaren Resultate liefern koennen.
- 3) Die beiden neueren Methoden EBMT, die nach Vorlage haeufig vorhandener Saetze und oft vorkommender Wortanordnungen (anscheinend) „uebersetzt” und die anfangs erwaehnte SBMT, die zur (vermeintlichen) „Uebersetzung” grosse Beispielmengen in ihrem Datenbestand als Vorlagen benoetigt, sind intelligente „Uebersetzungsmoeglichkeiten”, die auf diese Art (bei der EBMT Statistik und bei der SBMT Satzbeispiele aus der hauseigenen Datenbank) eine tatsaechliche Analyse der zu uebersetzenden Quelltexte vermeiden.
-
Es sind aber die beschriebenen Gruende (dass naemlich der annaeherungsweise Austausch von aehnlichen Textbausteinen und gaengigen Phrasen keine verlaessliche und sinngenaue „Uebersetzung” darstellt), warum auch in diesen letzten beiden Faellen brauchbare und verlaessliche Uebersetzungen nicht gelingen koennen, solange nicht zuvor eine umfassende Aufbereitung der Sprachen in der von uns entwickelten und dargelegten Weise vorgenommen wird.
-
E)
-
Warum es dieser hier vorgestellten Idee fuer alle (eigensprachigen oder fremdsprachigen) natursprachlich genutzten (output) oder gesteuerten (input) Maschinen bedarf:
- 1) Bildlich gesehen, kaempfen translation machines, die die Uebersetzungsprobleme mittels Einspeisung grosser Textmengen zu loesen versuchen, ”an zwei Fronten”, naemlich an der Front einer passenden und verstaendlichen Uebersetzung im Zieltext plus zusaetzlich an der Front einer richtigen Erkennung des Quelltextes.
-
Angenommen, eine solche TM wuerde das erstgenannte Problem einer guten Sprachdarstellung im Zieltext mittels seiner vielen eingespeisten (fehlerlosen) Beispielstexte geloest haben, so kann es dennoch nicht verlaesslich zu einer korrekten Entsprechung in dem jeweiligen Quelltext kommen, wenn nicht vorher eine Analzse in der hier beschriebenen Weise vorgenommen wurde.
-
Anders gesagt, es wuerde sich in einem solchen Fall (einer nicht-Interpretation des Quelltextes zuvor) auch eine noch so gute TM mit ihren Uebersetzungen immer auf ungesichertem Untergrund bewegen, also zwei Unsicherheitsfaktoren gleichzeitig haben. Dieses Problem wird (mit Ausnahme von pauschal austauschbaren Textbausteinen, Standardphrasen usw., die nach hiesiger Definition nichts mit anspruchsvollen Uebersetzungen zu tun haben) bestehen bleiben, solange es zuwenige Woerter pro Umgangssprache gibt und solange Menschen mit diesen wenigen, unpraezisen Begriffen (alle zudem in ihren eigenen Sprachen) willkuerlich herumjonglieren und sie in unendlich vielen Kombinationen immer wieder neu anordnen koennen.
-
Translation machines wie den oben beschriebenen waere, aehnlich wie menschlichen Uebersetzern, ebenfalls mit der hier (bzw. bis hierhin) entwickelten ”Uebersetzungshilfe” gedient, wenn sie diese ihren Quelltexten als eine Art Korsett ueberstuelpen wuerden, um erst danach, auf dieser dann gefestigten Basis, ihre mehr oder weniger freien Uebersetzungen vorzunehmen.
-
Denn auf der Seite des Zieltextes verletzen variable Uebersetzungen, wie sie Google anbietet, nicht unbedingt die beabsichtigte Aussage des Quelltextes, solange diese auf dem gesicherten Boden eines genau analysierten Quelltextes aufbauen. Wenn aber beide Seiten (Quelltext-Erfassung und Zieltext-Neuformulierung) unbestimmt und ”beweglich” sind, werden schwerlich verlaessliche und vor allem sich selbst kontrollierende Verbindungen zwischen beiden herzustellen sein.
-
F)
-
Umsetzung:
-
1) Theoretisch:
-
Der hier vorgestellte Ansatz beginnt mit dem neuen Unterschied, dass die eigene Datenbank nicht mit fertigen Saetzen oder gar ganzen Texten laufend weiter gefuettert wird (wie bei den genannten ”stastistic based” Uebersetzungsmaschinen), sondern nur mit einzelnen Woertern aufgebaut wird. Auch ist der Sinn hier nicht, per Wahrscheinlichkeit die meist-benutzten Woerter und in Formulierungen die am meisten zusammenstehenden Wortkombinatinen herauszufiltern, sondern jedes einzelne Wort von nur aehnlichen gleichen Woertern zu separieren und fuer jede erdenkliche Unterform dieses Wortes ein eigenes Wort (mit eigenem Platz und eigener Nummer) im eigenen Woerterlexikon bereit zu stellen.
-
Die unterschiedlichen Bedeutungen eines Wortes werden in grober Weise von (z. B. hier deutschen) Woerterbuechern aufgesplittet, indem man Homonyme gesondert auffuehrt und sich mittels Redensarten der leichten Bedeutungsunterschiede bewusst macht. So wird dort naheliegenderweise ”sich das Wort geben”, ”Wort halten”, ”ein Mann, ein Wort”, ”am Anfang war das Wort” und aehnliches voneinander unterschieden. Ein paar mehr Beispiele liefern Fremdsprachenlexika.
-
Aber die hier zu entwickelnden und regelmaessig weiter aufzubauenden Woerterbuecher beinhalten neben diesen o. g. verschiedenen Sinngehalten und einigem anderem auch noch saemtliche Grammatikformen, sodass fuer jede Grammatikform ein eigenes Wort mit einer eigenen Nummer besteht und somit jedes Wort grammatisch unverwechselbar definiert ist.
-
Bis auf wenige „unregelmaessige” Grammatikformen werden hier die meisten grammatischen Nebenformen der Grundwoerter (womit sich insgesamt das Volumen des Vokabulars bis auf das 500 fache ausdehnen kann) nicht manuell, sondern algorithmisch hergestellt (siehe Anlage 1).
-
Werden solche Woerter mit ihren grammatischen Zusatzinformationen zusammen als die richtigen, d. h. genau zu dem im Quelltext vorkommenden Woertern gehoerende, Woerter identifiziert, so ist bereits die erste Anforderung an eine umfassende grammatische ”Analyse” erfuellt. Die so gefundene grammatische Stimmigkeit laesst es im Idealfall sogar zu, falsche Grammatikanwendungen im Quelltext zu erkennen und zu melden.
-
Auch fuer die akustische Spracherkennung wird es von Vorteil sein, wenn strukturierte Saetze mit genau definierten, einzeln erfassten, Woertern und Wortsilben, in einem Erkennungs-Computer genauer identifiziert werden koennen, als dies ganze Wortansammlungen oder gar Saetze koennen, bei denen die Woerter oder Wortsilben durch ungenaue oder schnelle Aussprache uebergangslos ineinander und durcheinander geraten koennen.
-
2) Praktisch:
-
Der Satz ”das ist das Haus” beinhaltet 4 Woerter. Durch genaue Analyse ihres Sinns entstehen auch bei diesen vier einfachen Woerter leicht oder schwer sinnabweichende neue Woerter, die eigene ganze Zahlen erhalten.
-
Das Wort ”das” ist ein Wort, das trotz identischen Aussehens von verschiedenen Wortsinnen belegt wird. Um hier nur zwei von ihnen zu nennen: Das erste ”das” ist ein Pronomen, das zweite ”das” ist ein Artikel. Diese beiden Woerter sind vom Sinn her verschiedene Woerter und erhalten somit unabhaengig voneinander eigene ganze Zahlen. Diese Verschiedenartigkeit zeigt auch der englische Paralellsatz ”that” (nicht ”the”) is the house”.
-
Gleiches gilt fuer das Wort ”ist”. Auch fuer dieses Wort gibt es viele verschiedene Sinngehalte, die eine eigene Zahlenzuweisung erfordern. Um auch hier nur die zwei wichtigsten Beispiele zu nehmen: Das eine ”ist” koennte ein Hilfszeitverb sein, das andere ein Hauptverb.
-
Ginge es um eine Grammatik- und Sinn-Analyse eines Quelltextes, um ihn auf Korrektheit zu ueberpruefen oder um ihn fuer eine Uebersetzung in eine andere Sprache vorzubereiten, so wuerden die Woerter aus dem Quelltext Wort fuer Wort an das eigene, staendig wachsende, Vokabular andocken und faenden dabei oft mehrere gleich aussehende Woerter mit verschiedener Nummerierung vor.
-
In diesem vereinfachten obigen Beispiel traefen sie je zwei verschiedene Woerter an. Beim ersten ”das” wuesste das Programm noch nicht, ob es hier um einen Artikel oder um ein Pronomen geht. Folgt ein Hauptwort, ist klar, dass das vorherige ”das” ein Artikel war und zum Fall und Geschlecht des Hauptwortes ”Haus” passt.
-
Ein weiteres Beispiel liegt in der Anlage 2 anbei.
-
Das ist der erste Weg aus der natursprachlichen Ungenauigkeit aufgrund fehlender Woerter und uneinheitlicher oder fehlender Wortdefinitionen und verwirrender Homonyme usw. und aus den Abweichungen zwischen den einzelnen Sprachen, die alle die gleichen Probleme haben, aber an unterschiedlichen Stellen des Vokabulars, sodass sich erkannte Schwachstellen eines Wortes in einer Sprache nicht auf dieses Wort in einer anderen Sprache uebertragen lassen.
-
Warum es fuer eine echte Zahlen-Formalisierung einer zuvorigen Analyse mit sprachgrammatischen Mitteln bedarf?
-
Es gibt in der (deutschen) Sprache kein einziges Wort, das grammatisch nicht in unverwechselbarer und einmaliger Weise definiert ist. Darum wird bei der Analyse des Quelltextes Sprachgrammatik zugunde gelegt, und nicht die reduzierte und unvollstaendige formale Grammatik. Entsprechend koennen saemtliche moegliche Woerter und Wortformen mit einem eigenen, unverwechselbaren Zahlencode versehen werden, der eine eindeutige grammatische Beschreibung repraesentiert (und spaeter bei Uebersetzungen eins-zu-eins zuordnenbar ist).
-
Obwohl das Aufbauen eines solchen Lexikons eine bis zu 500-fache Erweiterung des zugrundeliegenden Grundwoerterstamms bedeutet, muessen die zusaetzlich enstehenden neuen Woerter und die grammatischen Unterformen groesstenteils nicht manuell in das hier zu entwickelnde Lexikon eingegeben werden, sondern koennen ueber Algorithmen gebildet werden. Auch Ausnahmen, wie z. B. die irregulaeren Verben, waeren per Algorithmen berechenbar und in das eigene Lexikon eintragbar. Sie stellen allerdings derart kleine Quantitaeten dar, dass Sie auch manuell in das hier entwickelte Lexikon eingegeben werden koennen.
-
Bei dem eigenen Woerterlexikon handelt es sich um eine relationale Datenbank, die leicht zu verwalten ist, da als Datentyp nur Integers (also ca. 2,1 Milliarden ganze Zahlen) auftauchen. Nur nach dem ersten Schluesselattribut, also der einen Nummer, die im Lexikon einem einzigen Wort zugewiesen ist, erscheint dieses Wort als Character und in Buchstabenschrift, damit die in Normalschrift geschriebenen Woerter des Quelltextes ihre Pendants erkennen koennen.
-
Der Rest, d. h. alle Inhalte der Spalten bestehen nur aus Zahlen, naemlich aus willkuerlich festgelegten Zusatzcodes (die soetwas angeben wie „transitives Verb”, „abstraktes Hauptwort” u. ae.) und aus den Nummerierungen anderer Woerter, die als foreign keys mit dem vorrliegenden Datensatz verknuepft sind, weil sie typischerweise in Quelltexten auftauchen und dem vorliegenden Wort bei seiner grammatischen und anderen Analyse dienen.
-
Bei der eins-zu-eins Aufsplittung eines Vokabulars (d. h. pro Wort gibt es nur einen Sinn) ergeben sich immer nur sehr wenige Doppelbelegungen, von denen mittels dieser im Datensatz aufgefuehrten Zusatz- und Umgebungs-Woerter leicht das richtige, mit dem Quelltext identische Wort, identifiziert werden kann.
-
Selbst die vielen hunderttausend Verben mit ihren ueber 500 Konjugationsformen lassen sich auf ganz normalem Natursprachenniveau mittels „ganz normaler” Natursprachengrammatik (die fuer die mathematischen Sprachlogiker offensichtlich nicht existiert, denn sich ihrer zu bedienen, wurde bis heute noch nicht einmal versucht) „formalisieren”, d. h. numerischen Algorithmen zufuehren. So verursachen Verben, inkl. Passiv, trotz ihrer 500 Konjugationsformen bei der Beugung nur 16 verschiedene Endungen und sind somit in ihrer berechenbaren Ordnung leicht zu verwalten und zu identifizieren (siehe Anlage 2).
-
G)
-
Als Nebeneffekt dieses hier vorgestellten neuen Ansatzes entsteht zusaetzlich eine voellig neuartige und erstmalig sinngenaue Uebersetzungsmaschine (das Projekt wird intern „HANA I” genannt):
Sollten sich naemlich zwei (oder mehr) Vokabulare der gleichen Numerik (inkl. der gleichen eins-zu-eins-Sinn-Zuteilung) bedienen, sodass zwei (oder mehr) Sprachen ueber die gemeinsame Numerik miteinander kompatibel sind, so sind die sinngleichen Woerter dieser verschiedensprachigen Vokabulare eins-zu-eins austauschbar. Hierbei bedarf es nur noch fuer die natursprachlichen Quelltexte der chars als Datentyp in der ersten Spalte eines jeden Datensatzes, ansonsten aber sind alle Spalten nur noch mit Zahlen gefuellt, d. h. hauptsaechlich mit den „foreign keys” anderer Wort-Nummern, die als Umgebungswoerter im Quelltext meistens typisch sind und zu dem gesuchten Wort gehoeren, wobei algorithmisch nur noch gleiche Zahlen ausgetauscht werden muessen, um gleiche Woerter bzw. Ihren Wortsinn auszutauschen.
-
Es bliebe bei einem solchen Austausch in der Wortreihenfolge des Quelltextes im Zieltext zwar die unveraenderte Wortstellung aus dem Quelltext bestehen, diese koennte bei der Weiterverwendung des gelieferten Textes, der entweder a) eine fertige Uebersetzung der hier entwickelten Uebersetzungsmaschine ist oder b) aus der Rueckuebersetzung des Quelltextes in die eigene Sprache entstand, aber keinen grammatischen oder sinnbezogenen Schaden im Zieltext verursachen. Denn dieser Schaden wuerde von den Textbausteinen der fertig formulierten Wortanordnungen der jeweiligen Zielsprachen, wie sie andere Maschinenuebersetzungen verwenden, wie alle Tests beweisen, ausgeglichen werden.
-
Die Vorteile von Uebersetzungen durch die hier neu vorgestellte Uebersetzungsmaschine (HANA I) liegen zwar in ihrer eins-zu-eins-Uebersetzung, also in ihrer „woertlichen” Genauigkeit und eignen sich insofern besonders fuer technische und wissenschaftliche Texte, bei denen es auf jedes einzelne Wort ankommt, aber wenn diese von der hier vorgestellten Maschine gelieferten Uebersetzungen mittels anderer Uebersetzugsmaschinen, die nach dem beschriebenen Prinzip des Austausches ganzer Saetze odr Satzteile vorgehen, umganssprachlich eleganter und leichter lesbar gemacht werden sollen, koennen diese Uebersetzungsmaschinen im Anschluss die oben genannten Uebersetzungen von „HANA I” noch einmal als Quelltext fuer eine zweite Uebersetzung in die gleiche Zielsprache zugrunde legen.
-
Wird von „HANA I” lediglich eine eigensprachliche Rueckuebersetzung (z. B. ins Deutsche) geliefert, muss diese Weiteruebersetzung mittels einer anderen Uebersetzungsmaschine erfolgen. Wird von „HANA I” eine fremdsprachige Uebersetzung geliefert, kann diese Weiteruebersetzung wahlweise erfolgen.
-
Wirksam ist eine solche (sei es eigentextliche oder fremdsprachige) Uebersetzung, die mittels der hier vorgestellten Uebersetzungsmaschine „HANA I” genau die richtigen Begriffe und deren genaue grammatische Analyse liefert, fuer den Weiterverwender aber nur dann, wenn sich die weiter verwendende Empfaengersprache pro Sinn eines Worts genau derselben Nummerierung bedient wie die liefernde hier entwickelte Uebersetzungsmaschine, denn nur an der Nummerierung der einzelnen Woerter ist die Analyse des gelieferten Textes zu erkennen. An den natursprachlichen Woertern selbst waere wenig zu erkennen.
-
Wie bereits erwaehnt ist zum Beispiel dem Wort „Haus” ohne Artikel nicht anzusehen, welchen Fall es bekleidet. Bei der Nummerierung aber hat das „Haus” im 1. Fall eine andere Nummer als das Haus im 4. Fall.
-
H)
-
Allgemeine Begruendung, warum Sprachprogramme in Computern zu technischen Ablaeufen gehoeren:
Nicht nur die Maschinensprache der Computer, sondern auch die menschliche Natursprache kann (seitdem Computer bei technischen Prozessen mitwirken!) Bestandteil der Technik sein.
-
Da Menschen innerhalb technischer Ablaeufe ebenfalls zu Bestandteilen der Technik werden (bzw. nach gaengiger Definition zu ”Naturkraeften” bzw. „technischen Mitteln”), und da ihnen ihre menschliche Natursprache allgemein verfuegbarer ist, gehoert auch diese menschliche Sprache zu den o. g. technischen Prozessen und technischen Loesungen.
-
Die Maschinen (inkl. Computer) kommunizieren mit anderen Maschinen (inkl. Computern) ueber ihre eigenen Kunst- und Maschinensprachen, aber dort, wo Menschen in der Kommunikationskette vorkommen, muss auch mittels der diversen menschlichen Natursprachen kommuniziert werden.
-
Letzteres betrifft sowohl die gesprochene, als auch die geschriebene, Kommunikation, und zwar in beide Richtungen: Sprechen und hoeren bzw. schreiben und lesen.
- 1) Der Mensch spricht und die Maschine agiert oder schreibt: Der bekannteste Fall ist der von St. Hawking, dessen Computer das schreibt, was er akkustisch eingibt. Dabei arbeitet dieser sog. Sprachcomputer sogar mit einem „statistic based”-Programm, das aus seinen bisherigen Formulierungen weitgehend individuelle Formulierungen generiert.
-
Andere phonetische Anwendungen liegen im Bereich der Sicherheitstechnik (z. B. Identifikation), der Steuerung von Maschinen und (Industrie-)Robotern u. v. a.
-
Bekannt sind auch die auf Computern gefahrenen Spracherkennungsprogramme im z. B. Gesundheitsbereich. Hierbei erledigen Aerzte aufschnelle, weil verbale, Art ihre taeglich anfallenden Schreibarbeiten.
-
Gleichzeitig laufen Initiativen (z. B. das ADOK-Projekt als ”Brueckenschlag zwischen Ingenieurswissnschaften und Deutsch als Fremdsprache”) oder werden Initiativen von den Aerztekammern gefordert, auslaendische Aezte in deutschen Krankenhaeusern aus ihrer Sprach-Inkompetenz zu befreien.
-
Inzwischen gibt es diverse Hersteller (z. B. von der Fa. ECTACO) von tragbaren ”Uebersetzungscomputern” aller Groessen, die schriftliche und sogar muendliche (also akustisch aufgenommene und gesprochene) Sprache in die gewuenschten Fremdsprachen transferieren. Allerdings ist den genannten Experten mit solchen „Textbausteinen” und „Phrasen” nicht gedient.
-
Es gibt aber auch professionelle Uebersetzungscomputer, die (analog zu den Implementierungen im ABS Bremssystem) eine Implementierung unserer Entwicklungen begruessen.
- 2) Der Mensch hoert und die Maschine spricht:
Hier bekommt der Mensch die fuer ihn notwendigen Informationen (z. B. Navigation, Gefahrenhinweise, Instruktionen, Qualifikationsmassnahmen, Oberflaechenbedienung usw. betreffend) akustisch uebermittelt. So hat der Mensch seine Haende und den Blick frei, sowohl, wenn er der Letzte in der Informationskette ist, als auch, wenn er, sehr viel haeufiger, ein Verbindungsglied eines technischen Prozesses ist.
-
Anlage 1
-
Konkretes Beispiel, wie ein natursprachlicher Text mit einer natursprachlichen Grammatik analysiert und fuer eine algorithmische Bearbeitung aufbereitet wird:
Auch das folgende, naturspachlich keineswegs komplizierte, Beispiel zeigt, wie mit jedem Text Spracherkennung und Sprachuebersetzung mit natursprachlichen Mitteln vorgenommen werden kann und dass die Metagrammatiken der formalen Linguistik mit ihren „atomaren” Wunschsaetzen u. a. ein fuer alle mal der Vergangenheit angehoeren sollten.
-
Denn bei Numerierung aller Woerter ist auch auf diesem unten gezeigten Niveau eine vollstaendige „Formalisierung” moeglich, die in jedem Bereich eines Textes numerische Algorithmen zulaesst:
- (1) Christoph
Nomen (Eigenname),
Eigenname, wahrscheinlich im Genus Masculinum. Falls nicht als solcher gespeichert, wird das Originalwort aus dem Quelltext in die Uebersetzung uebernommen. Als Eigenname von einem (meist menschlichen) Lebewesen ist dieses Wort fast immer im Numerus Singular und stellt ein artikelloses Substantiv dar, meist ohne Artikel, wenn dieses Nomen (meist im Plural) nicht gerade ein Appelativ (also eine Gattungsbezeichnung) ist.
Der Kasus ist hier (noch) unbekannt. Spaeter wird dieses Nomen Dativ.
- (2) Kolumbus
Nomen (Eigenname),
(Eigenname), Dativ. Falls nicht als solcher gespeichert, wird das Original aus dem Quelltext in die Uebersetzung uebernommen.
Zwei Eigennamen hintereinander machen es (im Deutschen) wahrscheinlich, dass es sich um Vornamen und Familiennamen handelt. Ausserdem um ein Singular.
Alles Weitere ist hier wie unter 1).
Falls jedes Wort des vorliegenen Textes (wie vorgesehen) mit jedem anderen Wort dieses Textes ueber das eigene Wortfeld verbunden ist, und erst recht, wenn schon bei der Speicherung dieses Namens zuvor nahe Begriffe in das Wortfeld eingegeben sind (also auch „Ei”, „Amerika” usw.), wird die Sinnerkennung zusaetzlich gesichert.
Der Kasus der beiden Namen ist, wie gesagt, an dieser Stelle noch unbekannt: Da bei Eigennamen meist kein Artikel verwendet wird, sind hier fuenf Faelle moeglich, Vokativ („Christoph Kolumbus, komm mal her”) plus 4 weitere Faelle Singular: Der, des, dem, den. (der CK tut etwas, des CK Haus steht hier, dem CK geben wir etwas, den CK fragen wir etwas). Spaeter im Text stellt sich dieses Nomen als Dativ heraus.
- (3) wird
Verb (Hilfsverb), 3. Person, Singular, Presens (vgl. „vorgehalten”).
Nach dem Eigennamen Christoph Kolumbus ist zwar noch der Kasus dieses Substantivs unbekannt, aber es wird nach diesem Nomen ein Verb erwartet, das hier in Form eines „wird” auftaucht. Allerdings:
a) Dieses „wird” kann bedeuten, dass CK (Nominativ) z. B. jetzt Vizekoenig „wird”.
b) Dieses Wort „wird” kann (ebenfalls im Nominativ) aber auch ein Hilfszeitverb darstellen, um Futur I und II einzuleiten: CK „wird” Amerika entdecken (oder wird es entdeckt haben).
c) Dieses „wird” kann aber auch zu einem Passiv gehoeren, wobei CK ebenfalls im Nominativ steht (CK wird belohnt oder wird belohnt werden).
d) Es kann aber auch ein Passivhilfsverb sein (in 3. Pers. Sing.), das in Verbindung mit einem noch ausstehenden Partizip II eines Vollverbs eine sog. Partizipialphrase bildet und diesen ersten Hauptsatz (als 1. Wuerfel) abschliesst, bei der CK im Praesenz oder im Futur ein Dativ darstellt (z. B. dem CK wird etwas geschenkt oder ihm wird etwas geschenkt werden).
- (4) nach
Praeposition (temporal, mit Dativ)
Nach dem o. g. „wird” folgt als 4. Wort das Wort „nach” (es ist das erste Wort im zweiten Wuerfel). Entsprechend dem hier vorgesehenen Prozedere bleiben die oben genannten 3 Woerter („Christoph Kolumbus wird...”) in Wartestellung, und die naechsten drei nach dem Sinn erfassten kleineren Textteile bzw. „Wuerfel” (Einschuebe wie „nach seiner Rueckkehr aus Amerika” und „waehrend eines Essens bei Kardinal Mendoza” und „im Jahre 1493”) werden Wort fuer Wort nacheinander uebersetzt und wuerfelweise abgeschlossen.
Diese o. g. genannten Wuerfel 2, 3 und 4 sind keine Aktanten (also semantisch bedeutsame Teilsaetze bzw. Satzglieder), sondern nur zeitlich und grammatisch nebeneinander gleichwertige Einschuebe innerhalb des erstgenannten, ihnen uebergeordneten, „Matrixsatzes”, und man kann schnell feststellen, dass keines ihrer Woerter dem erstgenannten Hauptsatz („Christoph Kolumbus wird”) irgendetwas bieten kann, um ihn zu ergaenzen und damit grammatisch und semantisch abzuschliessen.
Praepositionn wie „nach” oder „aus” u. a. bilden keinen Satzteil, sondern fordern eine Ergaenzung. Es gibt aber viele Woerter „nach”, die im Deutschen homonym sind (was nicht heisst, dass sie es in der Fremdsprache auch sein muessen: Vgl. „sailing to Amerika” fuer „Segeln nach Amerika” oder „after lunch” fuer „nach dem Essen” usw.). Die Ergaenzung, nach der die Praeposition verlangt, entscheidet also erst ueber die Art des Wortes „nach” (die statisch lokal (nach der Ampel), zielgerichtet lokal (nach Amerika segeln), temporal (nach dem Essen), modal (nach Schweizer Art) u. v. a. sein kann).
Erst das folgende Substantiv (oft erst hinter seinem Artikel), auf das sich die Praeposition bezieht, gibt der TM die Moeglichkeit, das richtige „nach” aus seinem Morphem-Vokabular auszuwaehlen. Hier im vorliegenden Fall folgt der Praeposition „nach” der Possessiv-Artikel „seiner” und dann das Sustantiv „Rueckkehr”.
- (5) seiner
Possessivartikel, Femininum, Dativ, Singular („vgl. „Rueckkehr”).
Was den Possessivartikel „seiner” betrifft, so schwebt bezueglich der Genera ueber allen Textteilen das grammatisch festgelegte Maskulinum des Cristoph Kolumbus (darum ist hier nicht von „ihrer” die Rede), aber die Kasus werden natuerlich vom Dativ Singular der „Rueckkehr” bestimmt, darum ist im vorliegenden Text von „nach seiner Rueckkehr” die Rede.
- (6) Rueckkehr
Nomen, Femininum, Dativ, Singular
Diese hier voliegende Interpretation ist einfach, denn das Nomen „Rueckkehr” ist eindeutig (d. h. es gibt keine Mehrdeutigkeiten bzw. Doppelbedeutungen dieses Wortes).
„Rueckkehr” ist hier temporal, d. h. es fodert das zeitliche „nach” (und z. B. nicht das lokale). Auch dieses zeitliche „nach” fordert von seiner Ergaenzung ein Dativ. Dieser Dativ ist dem Hauptwort „Rueckkehr” nicht anzusehen, da „Rueckkehr” nur im Singular existiert und es im Dativ Singular kein Flexionsmorphem aufweist. Alle Kasus dieses Wortes (das eine Konversion des Verbs „zu-rueckkehren” darstellt) heissen immer nur „Rueckkehr”, ohne ein einziges Suffix am Ende.
Pro Morphem kann das feminine Nomen ”Rueckkehr” 4-mal vorkommen (d. h. in allen 4 Kasus im Singular).
- (7) aus
Praeposition (lokal mit Dativ)
Bei „aus Amerika” handelt es sich ebenfalls um eine Praeposition („aus”) und ihrer Ergaenzung („Amerika”), einem lokalen Eigennamen, entsprechend meist ohne Artikel und immer im Singular.
Was die anfaenglichen drei Woerter betrifft („nach seiner Rueckkehr”), so duerften diese abgeschlossen sein, denn das Wort „aus” leitet eindeutig eine neue Aussage ein, sodass nicht damit gerechnet werden muss, dass sich die drei scheinbar zusammengehoerenden Woerter „nach seiner Rueckkehr” noch einmal in ihrem Sinn veraendern muessen, weil nachfolgende Begriffe eine andere Interpretation dieser drei Morpheme fordern.
Auch „aus” hat (genau wie „nach”) viele Bedeutungen („aus Versehen”, „aus der Mode”, „aus dem Gedaechtnis”, „fertig aus”, „ich frage ihn aus”, „aus Holz”, „aus Amerika” usw.).
Es muss also fuer die Wahl des richtigen Wortes „aus” durch die TM vorher geklaert werden, um was fuer ein Wort „aus” es sich handelt.
- (8) Amerika
Nomen (Eigenname), Neutrum, Dativ, Singular.
Wieder gibt erst das folgende Substantiv Aufschluss. (Eigenname).
„Amerika” benoetigt ein lokales „aus”, das einen Dativ verlangt, d. h. Amerika steht im Dativ. Dieser Dativ ist schwer zu erkennen, weil Amerika im Dativ Singular (genau wie bei der „Rueckkehr”) kein Suffix aufweist und (im Gegensatz zur „Rueckkehr”) keinen Artikel hat. Aber letzteres ist irrelevant, da die hier gegebenen zwei Woerter („aus Amerika”) eine aeusserst einfache Anordnung von Woertern darstellen und der ebenfalls einfach strukturierten Anordnung der ersten drei Woerter („nach seiner Rueckkehr”) nicht „in die Quere kommen”. Damit ist der zweite Wuerfel „nach seiner Rueckkehr aus Amerika” ebenfalls abgeschlossen.
- (9) waehrend
Praeposition (lokal mit Genitiv)
Das Wort „waehrend” ist nicht grundsaetzlich eine Praeposition. Hiesse der Satz im Text „waehrend sie assen”, waere „waehrend” nur eine sog. Subjunktion, die einen abhaengigen Teilsatz (Nebensatz) mit dem Hauptsatz verbindet.
Zur Praeposition gehoert (wie bei den Praepositionen „nach” und „aus” bereits dargelegt) ein Substantiv, dessen Kasus (wie ebenfalls schon ausgefuehrt wurde) immer von der jeweiligen Praeposition bestimmt wird. Hier ist es der Genitiv (weniger korrekt wird hier aber auch manchmal der Dativ verwendet).
- (10) eines
Artikel (indefinit), Neutrum, Genitiv, Singular („vgl. Essens”).
Indefiniter Artikel, grammatisch gleiche Form wie „Essens” (Genitiv, Singular, Neutrum).
- (11) Essens
Nomen, Neutrum, Genitiv, Singular, mit Suffix.
Zwischen dem (aus dem Verb „essen” gebildeten) Substantiv „Essens” (Genitiv, Singular, Neutrum) und der Praeposition „waehrend” steht der infinite Artikel des Substantivs „eines” (ebenfalls im Genitiv, Singular, Neutrum).
Pro Morphem kann das neutrale Nomen ”Essen” 3-mal vorkommen (d. h. in 3 Kasus im Singular).
- (12) bei
Praeposition, (lokal mit Dativ)
Auch „bei” ist wieder eine lokale Praeposition, die vom dazugehoerigen Substantiv den Normalkasus Dativ fordert und hier einen Raum bzw. eine Lage angibt.
- (13) Kardinal
Nomen, Maskulinum, Dativ, Singular (zu „Mandoza”)
„Kardinal” ist ein Titel, der normalerweise einen Artikel verlangt („bei dem Kardinal” oder „beim Kardinal”), hier aber als Bestandteil des Eigennamens „Mendoza” auf einen Artikel verzichten kann.
- (14) Mandoza
Nomen (Eigenname), Maskulinum, Dativ, Singular (zu „Kardinal”)
Da weder der Eigenname noch der Titel ihren Dativ per Artikel oder Wortendung zeigen, ist dieser Dativ unsichtbar und kann nicht an die Praeposition „bei” zurueckgemeldet werden. (Eigenname), Maskulinum, Dativ, Singular.
Dennoch wird die TM diese Ungewissheit akzeptieren, da nichts dagegen spricht, dass es sich bei „Kardinal Mendoza” um einen Dativ (Singular, Maskulinum) handelt.
- (15) im
Praeposition (hier temporal mit Dativ)
Auch die folgenden 3 Woerter „im Jahre 1493” sind lediglich ein weiterer Einschub und nehmen grammatisch keinen Bezug auf die ersten 3 Woerter.
Diese 3 folgenden Woerter beginnen mit der Praeposition „im” (wobei ein „in” mit dem folgenden definiten Artikel „dem” verschmolzen wird, was bei Abstrakta und vor allem Redewendungen (den sog. festen Wendungen) geschehen kann), d. h. einer Praeposition, die bei statischen Aussagen vom neutralen „Jahr” den Dativ („in dem (im) Jahr”) und bei gerichteten Aussagen den Akkusativ (bis in das (ins) Jahr”) fordern.
- (16) Jahre
Nomen, Neutrum, Dativ, Singular, mit Suffix
Statt „in dem Jahr 1493” hat sich also nicht nur die Verschmelzung zu „im” durchgesetzt, sondern auch die Formulierung „im Jahre”. Tatsaechlich ist das Suffix „e” hinter „Jahr” so unnoetig wie die ganze Formulierung „im Jahr” oder „im Jahre”, es wuerde auch genuegen, nur die Jahreszahl anzugeben.
Aber, wie gesagt, es handelt sich hier um eine sog. „feste Wendung”, die als solche auch zusaetzlich zu den einzelnen Morphemen „im” und „Jahre” im Woerterbuch abgespeichert werden kann.
Nach „im Jahre” folgt eine Vakanz fuer eine Erklaerung oder eine Jahreszahl.
- (17) 1493
Zahl (Jahreszahl)
Die Zahl „1493” muss weder fuer die Sinnerkennung, noch fuer Uebersetzungen definiert werden.
- (18) vorgehalten,
Verb, (Partizip II), (vgl. „wird”).
Nach 13 Morphemen und einer Zahl, die alle einzeln und zusammen nicht geeignet gewesen waren, den anfaenglichen Hauptsatz („Christoph Kolumbus wird...”) abzuschliessen, erscheint nun aber an Position 18 das Wort „vorgehalten,
Mit diesem Hauptverb „vorgehalten” wird der anfaengliche Hauptsatz endlich abgeschlossen und entscheidet nun erst ueber den Kasus von CK ganz am Anfang. Christoph Kolumbus steht dort also, wie man jetzt nach dem 15. Wort weiss, im Dativ, denn ihm wird „vorgehalten”.
Vorhalten hat zwei Bedeutungen, d. h. dem CK wird eine Waffe, also ein konkreter Gegenstand, vorgehalten oder dem CK wird (wie es hier der Fall ist) etwas Abstraktes vorgehalten. Aber diese Unterscheidung ist grammatisch irrelevant.
Wenn dem CK eine Waffe oder ein Verrat vorgehalten wird, kann in beiden Faellen der Satz mit einem dieser beiden Akkusativa beendet sein.
Aber das Nichtvorhandensein eines Akkusativs schafft eine sog. Vakanz, d. h. es steht eine Erklaerung aus, was dem CK denn vorgehalten wird. Dieses ergibt sich daraus, dass der Aktant „(dem) CK wird vorgehalten”) zwar ein eigener Wuerfel sein kann, aber grammatisch noch unfertig ist.
Beides koennte, wie oben erwaehnt, kurz mit einem Akkusativ geschehen: Dem CK wird eine Waffe bzw. ein Verrat vorgehalten (Punkt, Hauptsatz beendet).
Oder dieser erwartete Akkusativ bleibt aus, dann wird stattdessen eine Erklaerung erwartet (die erklaert, was dem CK vorgehalten wird). Diese wird mit „dass” eingeleitet oder erfolgt in direkter oder indirekter Rede.
Die Erklaerung folgt in diesem Text mit den Worten „es sei ein Leichtes gewesen” (also im Konjunktiv der indirekten Rede), die sodann eine weitere Vakanz erzeugt, indem sie auf einen untergeordneten Nebensatz wartet, der wiederum erklaert, was denn genau „ein Leichtes” gewesen sei usw.
Diese hier voliegende Interpretation ist einfach, denn das Nomen „Rueckkehr” ist eindeutig (d. h. es gibt keine Mehrdeutigkeiten bzw. Doppelbedeutungen dieses Wortes).
„Rueckkehr” ist hier temporal, d. h. es fodert das zeitliche „nach”.
Auch das zeitliche „nach” fordert von seiner Ergaenzung ein Dativ. Dieser Dativ ist dem Hauptwort „Rueckkehr” nicht anzusehen, da „Rueckkehr” nur im Singular existiert und es im Dativ Singular kein Flexionsmorphem aufweist. Alle Kasus dieses Wortes (das eine Konversion des Verbs „zu-rueckkehren” darstellt) heissen immer nur „Rueckkehr”, ohne ein einziges Suffix am Ende.
- (19) es
Pronomen
Nach dem Verb des Hauptsatzes „vorgehalten” (Praesens Indikativ Passiv) und vor diesem „es” (mit dem ein neuer Satzteil beginnt, steht ein Kommma, das (da im Hauptsatz kein Nomen Objekt fuer die ausstehende Erklaerung vorhanden war) mit „dass”, mit direkter Rede oder (wie hier) mit indirekter Rede, die Erklaerung liefert, was dem CK vorgehalten wird.
Hier handelt es sich um ein anderes „es” als z. B. bei „es ist mir schlecht”, einem Satz, bei dem das „es” ohne weiteres weggelassen werden koennte („mir ist schlecht”), da dieses vorgenannte „es” ein sog. Platzhalter ist und eine Funktion als Subjekt erfuellt.
Bei „es sei ein Leichtes gewesen” (oder vereinfacht: Es sei leicht gewesen) darf das „es” nicht fehlen, weil genau dieser Akkusativ (es, dies, das usw., der im Folgenden ja noch naeher erklaert wird, naemlich mit „die „Neue Welt” zu entdecken”) als Subjekt zum Satz gehoert (einem Nebensatz 1. Grades, der grammatisch im Konjunktiv II der indirekten Rede unmittelbar den Hauptsatz (C.K. wird vorgehalten”) nachgeordnet ist.
- (20) sei
Verb (Hilfsverb), 3 Person, Konjunktiv
Der Nebensatz 1. Grades „es sei ein Leichtes gewesen” verwendet hier die indirekte Rede mit Referatskonjunktiv II.
Ohne grammatischen Fehler haette das Hilfszeitwort „gewesen” auch wegfallen koennen, die Aussage haette dann, ebenfalls grammatisch korrekt, gelautet, „es sei ein Leichtes, die „Neue Welt” zu entdecken”. Semantisch genauer ist es aber, das Wort „gewesen” hinzuzufuegen, da es im Praesens und Futur keine Moeglichkeit der Wiederholung gibt. Denn die „Neue Welt” konnte nur einmal entdeckt werden.
- (21) ein
Artikel (indefinit), Neutrum, Nominativ, Singular, (vgl. „Leichtes”).
Hier handelt es sich nicht um eine Zahl, ein Kardinalzahladjektiv o. a., sondern um einen unbestimmten, infiniten Artikel. Auch ein unbestimmter Artikel wird mit dem dazugehoerigen Nomen mitdekliniert. Da das Nomen an dieser Stelle noch nicht bekannt ist, koennte das Wort „ein” entweder als Maskulinum Nominativ Singular vorkommen (ein Mann) oder als Neutrum Nominativ Singular (ein Haus) oder als Neutrum Singular Akkusativ (ein Haus).
- (22) Leichtes
Nomen, Neutrum, Nominativ, Singular (vgl. „ein”).
Es handelt sich hier um ein substantiviertes Adjektiv im Nominativ Singular. Fuer die hier zu entwickelnde TM ist es folgerichtig, dieses „ein Leichtes” woertlich zu uebersetzen, wenngleich mit fast dem gleichen Sinn auch nur das Adjektiv „einfach” ausgereicht haette.
- (23) gewesen,
Verb (Partizip II), Infinitiv, mit Wortstammaenderung und Praefix.
Wie unter „sei” dargelegt, handelt es sich bei diesem Konjunktiv um einen Konjunktiv II, also um ein Praeteritum von „sein”, bei dem dieses „sein” als finites Verb verwendet wird („sein” als Hauptwort) und seinen Perfekt, Plusquamperfekt und Futur II mit „gewesen” bildet (es ist gewesen, es war gewesen, es wird gewesen sein).
- (24) die
Artikel (finit), Femininum, Akkusativ, Singular.
Das vorige Wort „gewesen” und dieses naechste Wort „die” werden korrekterweise von einem Komma getrennt.
Die in der TM entwickelten Definitionen, die hier in dieser Anlage nur z. T. an einigen grammatischen Regeln dargestellt wurden, sind derart zwingend, dass sie, auch bei falscher oder voellig fehlender Interpunktion funktionieren! Der einzige Nachteil waere im Falle falscher oder fehlender Interpunktion lediglich, dass die Sinnkontrolle ihre Arbeit erst ganz am Ende des Satzes beendet haben wuerde, wenn alle Woerter des Satzes trotz der fehlenden Interpunktion als richtig zugeordnet (oder auch nicht) erkannt worden sind.
Das gesamte jetzt folgende Satzgefuege „die „Neue Welt” zu entdecken”, ist ein Nebensatz 2. Grades (der von dem vorherigen Nebensatz 1. Grades „es sei ein Leichtes gewesen” abhaengt bzw. ihm untergeordnet ist) und in einem paarige Kommata eingerahmt.
Muss die TM in ihrem eigenen Woerterbuch das Wort „die” suchen, wird sie viele Morpheme finden, die alle „die” heissen.
Ohne hier auf die vielen weiteren Formen von „die” im Wortfeld einzugehen (inkl. Assoziationen, Wertungen u. v. a.), ergibt auch schon eine hier nur verkuerzte Anwendung der Grammatik, sogar noch weiter verkuerzt, indem hier nur die Artkel aller drei Genera betrachtet werden, 8 unterschiedliche „die”, die zur Auswahl stehen:
Zweimal „die” im Maskulinum Plural, Nominativ und Akkusativ.
Zweimal „die” im Neutrum Plural, Nominativ und Akkusativ.
Viermal „die” im Femininum Singular, Nominativ und Akkusativ und Plural Nominativ und Akkusativ.
Nach „ein Leichtes gewesen” koennte der Satz auch weitergehen mit einem Einschub, der z. B. lautet „die Koenigin ist der gleichen Meinung” (wobei „die” ein Nominativ Singular Femininum waere). Oder er koennte mit irgendeinem anderen Satz (also auch mit einem gereihten Nebensatz 1. Grades oder gereihtem Hauptsatz) fortfahren.
Die TM kennt bei dem Begriff „die” zwar schon alle theoretischen Moeglichkeiten, weiss aber erst nach Rueckmeldung der folgenden Woerter („”Neue Welt” zu entdecken”), dass es sich bei diesem „die” um einen finiten (bestimmten) Artikel im Akkusativ Femininum Singular handelt.
- (25) „Neue
Adjektiv (Teil eines Namens), Femininum, Akkusativ, Singular.
Das Adjektiv „Neue deutet bereits auf ein Femininum Singular hin, denn Maskulinum und Neutrum kann dieses Adjektiv auch im Plural wegen des fehlenden n am Wortende (die neuen Maenner, die neuen Haeuser) nicht sein.
Dass *Neue” gross geschrieben ist, koennte bedeuten, dass nach Neue kein Nomen mehr folgt, da ein Adjektiv auch zum Substantiv werden kann. Was dagegen spricht, ist das Anfuehrungszeichen, das hinter „Neue nicht beendet wird.
Ehe die TM entscheiden muss, ob es sich hier vielleicht um einen Schreibfehler handelt, liefert das folgende Nomen Welt” mit der Beendigung der Anfuehrungszeichen die Information, dass hier kein Schreibfehler vorliegt, sondern dass die beiden Woerter „Neue Welt” zusammengehoeren und dass es sich hier um eine besondere Bezeichnung, vielleicht sogar um einen Eigennamen, handelt.
Im uebrigen koennen derart zusammen gehoerende Begriffe im Woerterbuch auch als Wortpaar oder Wortgruppe (vgl. bei Redensarten u. a.) neben der eins zu eins Abspeicherung von Einzelwoertern auch zusaetzlich noch zusammen abgespeichert werden.
- (26) Welt”
Nomen (Teil eines Namens), Femininum, Akkusativ, Singular.
Sowohl nach dem Wort „Neue, als auch nach dem Wort Welt”, aber auch nach beiden zusammen, ist immer noch der Kasus der „Neue Welt” offen.
Theoretisch koennte „die „Neue Welt” auch jetzt noch nach dem Nebensatz („es sei ein Leichtes gewesen”) im Nominativ stehen, wenn naemlich der vorliegende Satzteil nur ein Satzeinschub waere (z. B. „die „Neue Welt” war naemlich gar nicht so neu”).
Im Wortfeld spielen sich auch bei dem Morphem „Welt” wieder die gleichen Dinge ab, die schon bei einigen anderen Begriffen dargestellt wurden. Wieder gibt es auch bei diesem Begriff Unterschiede zwischen den gleichen Morphemen „Welt”, die fuer die Sinnerkennung und fuer Uebersetzungen auseinander gehalten werden muessen. Auch hier geben Redensarten, Phraseologien usw. gute Beispiele ab fuer die unterschiedlichen Inhalte des Begriffs „Welt”:
a) Wortnaehe: Erde, Kugel, Weltkrieg, Weltsprache, Weltfrieden, Weltbevoelkerung,
b) Phraseologien: „Mann von Welt”, „die Welt erschuettern”, der Welt „lebewohl” sagen, Miss Welt, die grosse Welt, die ganze Welt usw.
Pro Morphem kann das feminine Nomen ”Welt” 4-mal vorkommen (d. h. im Singular in allen 4 Kasus plus Vokativ).
- (27) zu
Bestandteil des Infinitivs („vgl. entdecken”).
Neben diesem vorgenannten „zu”, gibt es noch einige Woerter „zu” mit anderen Funktionen (als Adverb, Partikel, Verbpartikel, Praeposition usw.). Auch ohne grammatische Benennung dieser Funktionen leuchtet es ein, dass es sich bei den folgenden Beispielen um verschiedene „zu” handelt:
„ab und zu”, „zu leicht”, „der Weg fuehrt zu einer Stadt”, „man schliesst die Tuer zu”, „er hat nichts zu tun” usw.).
Es dauert also bis zu diesem vorletzten Wort „zu”, das einen folgenden Infinitiv und die „Neue Welt” im Akkusativ vermuten laesst.
- (28) entdecken,
Verb (vgl. „entdecken”).
Und es dauert bis zu diesem letzten Wort „entdecken”, einem transitiven Hauptverb, bis an die TM die erste, keine Alternativen mehr duldende, Rueckmeldung kommt, dass es sich bei („Neue Welt”) tatsaechlich um den vermuteten Akkusativ, Singular, Femininum handelt.
Es gibt in der (deutschen) Sprache kein einziges Wort, das grammatisch nicht in unverwechselbarer und einmaliger Weise definiert ist. Darum wird bei der Analyse des Quelltextes Sprachgrammatik zugunde gelegt, und nicht die reduzierte und unvollstaendige formale Grammatik.
Entsprechend koennen saemtliche moegliche Woerter und Wortformen mit einem eigenen, unverwechselbaren Zahlencode versehen werden, der eine eindeutige grammatische Beschreibung repraesentiert (und spaeter bei Uebersetzungen eins-zu-eins zuordbar ist).
Obwohl das Aufbauen eines solchen Lexikons eine bis zu 500-fache Erweiterung des zugrundeliegenden Grundwoerterstamms bedeutet, muessen die zusaetzlich enstehenden neuen Woerter und die grammatischen Unterformen groesstenteils nicht manuell in das hier zu entwickelnde Lexikon eingegeben werden, sondern koennen ueber Algorithmen gebildet werden.
Auch Ausnahmen, wie z. B. die irregulaeren Verben, waeren per Algorithmen berechenbar und in das eigene Lexikon eintragbar. Sie stellen allerdings derart kleine Quantitaeten dar, dass Sie manuell in das hier entwickelte Lexikon eingegeben werden.
Bei dem eigenen Woerterlexikon handelt es sich um eine relationale Datenbank, die leicht zu verwalten ist, da als Datentyp nur Integers (also ca. 2,1 Milliarden ganze Zahlen) auftauchen. Nur nach dem ersten Schluesselattribut, also der einen Nummer, die im Lexikon einem einzigen Wort zugewiesen ist, erscheint dieses Wort als Character und in Buchstabenschrift, damit die in Normalschrift geschriebenen Woerter des Quelltextes ihre Pendants erkennen koennen.
Der Rest, d. h. alle Inhalte der Spalten bestehen nur aus Zahlen, naemlich aus willkuerlich festgelegten Zusatzcodes (die soetwas angeben wie „transitives Verb”, „abstraktes Hauptwort” u. ae.) und aus den Nummerierungen anderer Woerter, die als foreign keys mit dem vorrliegenden Datensatz verknuepft sind, weil sie typischerweise in Quelltexten auftauchen und dem vorliegenden Wort bei seiner grammatischen und anderen Analyse dienen. Bei der eins-zu-eins Aufsplittung eines Vokabulars (d. h. pro Wort gibt es nur einen Sinn) ergeben sich immer nur sehr wenige Doppelbelegungen, von denen mittels dieser im Datensatz aufgefuehrten Zusatz- und Umgebungs-Woerter leicht das richtige, mit dem Quelltext identische Wort, identifiziert werden kann.
Selbst die vielen hunderttausend Verben mit ihren ueber 500 Konjugationsformen lassen sich auf ganz normalem Natursprachenniveau mittels „ganz normaler” Natursprachengrammatik (die fuer die mathematischen Sprachlogiker offensichtlich nicht existiert, denn sich ihrer zu bedienen, wurde bis heute noch nicht einmal versucht) „formalisieren”, d. h. numerischen Algorithmen zufuehren. So verursachen Verben, inkl. Passiv, trotz ihrer 500 Konjugationsformen bei der Beugung nur 16 verschiedene Endungen und sind somit in ihrer berechenbaren Ordnung leicht zu verwalten und zu identifizieren.
-
Anlage 2
-
Regelmaessige Verben als Beispiel, wie mit einer natursprachlichen Grammatik analysiert und fuer eine algorithmische Bearbeitung aufbereitet wird:
Hier die normalen, regelmaessigen, regulaeren, schwachen Verben, z. B. das Verb ”lieben”, das transitiv ist. (Intransitive schwache Verben werden genauso konjugiert, z. B. ”leben” bilden aber keine Passivformen):
Die meisten Verben sind schwach, d. h. regelmaessig, d. h. sie aendern beim Flektieren ihren Wortstamm nicht. Von solchen Verben enden die meisten im Infinitif auf ”en”. Erfasst werden hier vom Algorithmus alle Wortstaemme, optisch sind das Infinitive ohne Suffix (meist ohne ”en”).
-
Da sowohl Mensch, als auch Maschine, einem Wortstamm aber vorher nicht ansieht, ob er sich beim Flektieren aendern wird, gibt es keine Regel, nach der im Voraus ein Auswahlalgorithmus hergestellt werden koennte. Die Unterscheidung dieser Verben geschieht also am besten, indem aus Woerterbuechern oder Fremdsprachenlexika bzw. aus beiden die entsprechenden Hinweise entnommen werden.
- –) Verben sind darin fast immer als solche gekennzeichnet (vgl. Hinweise wie ”V” oder ”v”).
- –) Hier in diesem Beispiel interessieren diejenigen, die auf ”en” enden und diejenigen,
- –) die in den vorgenannten Quellen als regelmaessig (meist mit ”reg.” beschrieben) bezeichnet werden. (Sollten nur die unregelmaessigen Verben (und zwar mit ”irr.”) gekennzeichnet sein, sind diejenigen Verben regulaer, die nicht als irregulaer gekennzeichnet sind.
-
Mit all diesen oben genannten Verben wird vonseiten der Algorithmen immer gleich verfahren: Falls man das hier verwendete System (d. h. die hier zusammengestellten Konjugiertabellen) verwenden will (die Art und Reihenfolge allerdings, wie die Konjunktionen zusammengestellt sind, ist an dieser Stelle, an der noch keine international vereinheitlichte Codierung festgelegt ist, unerheblich. Es kommt hier nur darauf an, dass alle grammatischen Moeglichkeiten erfasst sind und zwar immer genau einmal pro Fall), sieht dieses System fuer alle oben genannten Verben wie folgt aus.
-
Fuer diese viele hunderttausend Verben entstehen einheitlich die unten noch einmal aufgefuehrten grammatischen Formen, deren Regelmaessigkeit und Berechenbarkeit es erlauben, die ueberall verfuegbaren Grundwoerter (Lexeme) mittels weniger Dutzend eigener Algorithmen zu einem eigenen Morphemlexikon aufzubauen.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Bei den schwachen Verben (leben, lieben u. a.) gibt es um den Wortstamm (Infinitiv ohne ”en”) herum (in den hier entwickelten Systemen gut 540 Konjugationsformen (ca. 745 minus 200 Deklinationen minus Freistellen). Insgesamt verursachen diese diese 540 Konjugationsformen nur 16 verschiedene Endungen (nur beim Partizip II kommt neben der Endung ”t” auch noch ein Praefix vor, das wie bei den regelmaessigen Verben ”ge” heisst):
1 mal ”e!” (Imperativ)
1 mal ”en!” (Imperativ)
1 mal ”t!” (Imperativ)
1 mal ”en Sie” (Imperativ)
1 mal ”end” (Partizip I)
1 mal ”st”
1 mal ”est”
1 mal ”et”
5 mal ”t”
6 mal ”e”
7 mal ”ten”
7 mal ”en”
10 mal ”te”
10 mal ”test”
31 mal ”tet”
551 mal ”ge” (Wortstamm) ”te”
-
Im Zusammenhang mit den sie umgebenden Woertern der grammatischen Hinweise (vgl. „wir” „werden” geliebt „worden” „sein”) sind diese in allen Faellen, also auch bei mehrfachem Vorkommen, am Ende von Algorithmen immer eindeutig zu identifizieren.