DE10015859C2 - Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen - Google Patents

Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen

Info

Publication number
DE10015859C2
DE10015859C2 DE10015859A DE10015859A DE10015859C2 DE 10015859 C2 DE10015859 C2 DE 10015859C2 DE 10015859 A DE10015859 A DE 10015859A DE 10015859 A DE10015859 A DE 10015859A DE 10015859 C2 DE10015859 C2 DE 10015859C2
Authority
DE
Germany
Prior art keywords
text
texts
grammatical
symbols
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE10015859A
Other languages
English (en)
Other versions
DE10015859A1 (de
Inventor
Gunthard Born
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE10015859A priority Critical patent/DE10015859C2/de
Publication of DE10015859A1 publication Critical patent/DE10015859A1/de
Application granted granted Critical
Publication of DE10015859C2 publication Critical patent/DE10015859C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren zu einer auf grammatische Inhalte bezogenen, ein- wie auch mehrsprachig zu führenden Kommunikation in natürlichen Sprachen gemäß Anspruch 1. In Unteransprüchen sind Einzelheiten und Ausgestaltungen angegeben, welche die Vielfalt der Erscheinungsformen, Kombinations- und dadurch mitbestimmten Bedeutungsmöglichkeiten der in solchen Sprachen eingeführten Symbole und hieraus auf unterschiedliche Arten kombinierbaren Äußerungen sowie der damit zu verbindenden grammatischen und semantischen Inhalte berücksichtigen und den Einsatz eines daran angepaßten Repertoires von, an einer entsprechenden Zahl von Sprachbeispielen erläuterten, Maßnahmen vorsehen, die mit neuartigen, hierfür geeigneten Sprachbegriffen durchzuführen sind, welche einheitlichen, auf angegebene Art universell auf beliebige Sprachen anzuwendenden Definitionen und Erzeugungsvorschriften genügen, so daß die mit der Übermittlung grammatischer Inhalte befaßte Kommunikationsaufgabe mit einem an die Kapazitäten verfügbarer Rechner anpaßbaren Speicher- und Verarbeitungsaufwand lösbar wird.
Für Verfahren der erfindungsgemäßen Art konnten bisher keine befriedigend funktionsfähigen Lösungen vorgelegt werden. Wie unten weiter ausgeführt, stehen einer Realisierung vielfältige, zum Teil bisher auch noch gar nicht ausreichend erkannte und definierte Probleme entgegen, die vor allem auch der komplexen Organisation und Funktion der einzusetzenden natürlichen Sprachen zuzuschreiben sind.
Dem gegenwärtigen Stand entsprechend existieren für die zur Beschreibung solcher Verfahren benötigten Begriffe, wie auch den Literaturstellen / /1/ /, S. 218 und / /24/ / zu entnehmen ist, zur Zeit noch keine einheitlichen terminologischen Konventionen, so daß hier zunächst einige wesentliche der für die nachfolgende Beschreibung des erfindungsgemäßen Verfahrens benützten, zum Teil auch für eine präzise, sachgerechte Beurteilung des gegenwärtigen Standes sowie die Beschreibung der zu lösenden Aufgabe benötigten Begriffe näher zu definieren sind: Unter natürlichen Sprachen L, kurz auch Sprachen L, werden, Literaturstelle / /2/ /, S. 14 folgend, Institutionen verstanden, mit deren Hilfe, dem gegenwärtigen Stand entsprechend natürliche, Personen miteinander kommunizieren und unter Verwendung gewohnheitsmäßig benutzter Symbole in Interaktion treten, wofür gemäß / /1/ /, S. 235 endliche oder gegebenenfalls auch unbegrenzte Mengen von Symbolkomplexen eingesetzt werden, die über einem endlichen Vokabular von Symbolen gebildet werden.
Im Einklang mit dieser Definition umfassen solche Interaktionen gegebenenfalls auch mehrsprachig zu führende Kommunikationsaktivitäten, wie sie von Menschen allgemein beim Austausch von Informationen über bestimmte Inhalte ausgeübt werden und beispielsweise beim Gespräch oder Schriftwechsel etwa bei der Erteilung und Entgegennahme von Aufträgen, beim Vorbringen und Beantworten von Fragen, beim Übersetzen, Dolmetschen, Stenotypieren oder auch Korrigieren von Äußerungen anfallen. Diesen Aktivitäten ist als einheitliches Merkmal gemeinsam, daß sie sowohl eine Beherrschung des Verstehens gegebenenfalls auch in zusammenhängender oder auch nicht normgerechter oder fehlerhafter Form vorgebrachter Äußerungen wie auch des Erzeugens verständlicher, ausreichend korrekt und eindeutig formulierter Sprachtexte umfaßt, ohne welche gemäß / /4/ /, S. 156 das genannte Verstehen nicht möglich ist. Dem gegenwärtigen Stand entsprechend legen die zitierten Sprachdefinitionen jedoch nicht im einzelnen fest, welche Art von Symbolen einzusetzen ist, welche Regeln bei deren gewohnheitsmäßiger Benutzung und Zusammenfügung zu Komplexen insgesamt einzuhalten sind und welcher Zusammenhang zwischen solchen Komplexen und den Interaktionen der Kommunikationspartner besteht.
Es wird zugrunde gelegt, daß in Verfahren zur Kommunikation in natürlichen Sprachen durch zu verwendende Symbole und Symbolkomplexe bestimmte Bedeutungen, auch Inhalte genannt, angezeigt, also symbolisiert werden, welche mit den genannten Interaktionen in Bezug stehen. Wie beispielsweise auch in / /4/ /, S. 410 f. und S. 445 gemäß historischer Tradition, jedoch ohne weiterführende Definitionen vorgeschlagen wird, werden solche Inhalte unterschieden in grammatische und semantische, wobei letztere hier auch als pragmatisch oder auch als Sachverhalte bezeichnet werden. Entsprechend beziehen sich Verfahren der erfindungsgemäßen Art zu einer auf grammatische Inhalte bezogenen Kommunikation, kurz auch als grammatische Kommunikation bezeichnet, auf Kommunikationsaktivitäten der oben genannten Art, die sich auf den Austausch von grammatischen Inhalten beschränken und sich vorteilhaft den beträchtlichen Zusatzaufwand für die Übermittlung auch semantischer Inhalte ersparen. Von solchen grammatischen Verfahren mit entsprechenden Fähigkeiten zum Erzeugen grammatisch korrekter und eindeutiger Äußerungen und zum Verstehen der grammatischen Inhalte von, auch fehlerhaft abgefaßten, Texten wird erwartet, daß mit ihnen eine Anzahl der genannten Kommunikationsaktivitäten durchführbar wird, welche beispielsweise das Stenotypieren, Korrigieren, Dolmetschen und Übersetzen gegebener Äußerungen wie auch das Erzeugen von Texten aus vorgegebenen Wortsammlungen umfassen. Des weiteren werden grammatische Verfahren als wesentliche Voraussetzung für die Realisierung natürlichsprachiger Kommunikationsverfahren betrachtet, welche den Austausch semantischer und pragmatischer Inhalte mit einschließen.
Für Verfahren der erfindungsgemäßen Art einzusetzende Symbole werden allgemein als Gs bezeichnet, ihre Eigenschaften als H(Gs), wobei zugrunde gelegt wird, daß sie, häufig auch mit Wahrscheinlichkeiten p unterhalb eins, weitere Begriffe A wie auch Symbole Gs anzeigen und somit symbolisieren. Die für die Anzeige von Symbolen und Symbolkomplexen in Anpassung an die betreffenden Sprachen L und die benützten Übertragungsmedien beispielsweise in akustischer, optischer, geometrischer oder elektronischer Form erzeugten Sprachsignale werden unabhängig von ihrer Länge, und somit abweichend von der Definition in / /24/ /, als Texte T bezeichnet. In der Beschreibung angeführte Beispiele von Texten T werden durch zwischen einfache Schrägstriche gesetzte Folgen von Buchstaben wie auch weiterer Zeichen repräsentiert beziehungsweise angenähert; auf Lautschrift-Alphabete und weitere Notationen wird zur Vereinfachung verzichtet. Wie in / /4/ /, S. 243 vorgeschlagen, werden die schriftliche und mündliche Version der jeweils in einer Sprachgemeinschaft X benutzten Sprache als unterschiedliche Sprachen L behandelt. Die als, auch Autoren At genannten, Erzeuger At auszugebenden Texte T und, auch Hörer Hr genannten, Empfänger und Verarbeiter Hr einlaufender Texte T miteinander kommunizierenden Personen wie auch erfindungsgemäßen Einrichtungen werden auch unter der Bezeichnung Partner Pa zusammengefaßt. Wie oben begründet, wird von Verfahren und Vorrichtungen der erfindungsgemäßen Art sowohl die Beherrschung der Funktion des Autors At wie auch des Hörers Hr gefordert. Für schriftliche wie auch mündliche Sprachen L eingeführte Begriffe wie Wörter, Sätze, Fragen, Befehle, Äußerungen usw. werden zur Unterscheidung von erfindungsgemäß zu verwendenden Begriffen streng auch als gebräuchliche oder auch natürliche Wörter, natürliche Sätze usw. bezeichnet. Entsprechend ihrer für die Texte von Schriftsprachen L wie auch Lautschrift-Notierungen von mündlichen Sprachen L üblichen Abhebung durch Abstände von weiteren solchen Wörtern werden die natürlichen Wörter auch als Schriftwörter, gemäß der Auflistung einiger ihrer Flexionsformen in Lexika auch als lexikalische Wörter bezeichnet. Weitere zur Darstellung natürlicher Äußerungen eingeführte Begriffe oder Symbole wie Laute, Buchstaben, Lautschrift-, Silben- oder Wortzeichen gelten entsprechend als gebräuchliche oder auch natürliche Zeichen usw. Zur Bedeutung weiterer in der Literatur eingeführter Begriffe wie Phonemen oder Morphemen wird auf / /4/ / und / /24/ / verwiesen. Ein in sich abgeschlossener, im Regelfall einen oder mehrere natürliche Sätze umfassender Text T eines Autors At wird als dessen Äußerung Tp bezeichnet, ein aus einer oder mehreren Äußerungen Tp eines oder mehrerer Partner Pa zusammengesetzter Kommunikationsvorgang, wie er beispielsweise im Gesprächs, bei der Beantwortung von Fragen, im Diktat oder bei Übersetzungen anfällt, wird Kommunikationsakt genannt. Eindeutige Übertragungen von Texten T mit Merkmalen H(T) in andere Medien, beispielsweise eines akustisch formulierten Textes T1 in einen elektronisch kodierten Text T2 mit entsprechend eindeutigen Zuordnungen ihrer Merkmale H(T1) und H(T2), werden im Regelfall als identische Texte T1 = T2 behandelt.
In Anlehnung an / /1/ /, S. 219 werden, im einzelnen zu definierende, Bezüge zwischen Teilen T von Äußerungen Tp auch als syntaktisch oder auch grammatisch und solche zwischen Textteilen T und zu definierenden grammatischen Inhalten als grammatisch bezeichnet. Ferner werden bestimmte, gegebenenfalls auch von ihren grammatischen Inhalten abhängige, Bezüge zwischen Texten oder Textteilen T, oder auch von grammatischen Inhalten solcher Texte T, zu, ebenfalls zu definierenden, gegebenenfalls auch durch die Partner Pa bedingten, pragmatischen Inhalten als semantisch und Bezüge zwischen pragmatischen Inhalten als pragmatisch bezeichnet, wobei neben der entsprechenden Sprach- und Sachkenntnis der Kommunikationspartner Pa gegebenenfalls auch ihre Situationen, Meinungen, Absichten usw. grundsätzlich zu berücksichtigen sind. Daß mit Verfahren der erfindungsgemäßen Art trotz der vorgesehenen weitgehenden Vernachlässigung semantischer und pragmatischer Bezüge Kommunikationsaufgaben, wie sie oben angeführt werden, beherrschbar sein sollten, folgt bereits aus einem einfachen, etwa mündlich in gebrochenem Deutsch geäußerten Textbeispiel /Ein helles Ton./, das ein Stenotypist allein aufgrund seiner grammatischen Fähigkeiten, welche ein Adressieren möglicherweise angesprochener Symbole aus den als Evidenz vorliegenden Textdaten mit einschließen, in den korrigierten Schrifttext /Ein heller Ton./ übertragen würde, ohne berücksichtigen zu müssen, ob semantisch ein Element der Musik oder ein Töpferwerkstoff gemeint ist.
Daß ein Verfahren der erfindungsgemäßen Art entsprechend den hiervon erwarteten eingangs genannten Fähigkeiten sowohl die Beherrschung des Erzeugens von Texten T als auch der Bestimmung und des Verstehens ihrer grammatischen Bedeutungen zu leisten hat, folgt auch aus der oben zitierten Erkenntnis, daß Hörer Hr ihrer Aufgabe des Verstehens von grammatischen Inhalten von Texten T ihrer Kommunikationspartner Pa nur nachzukommen vermögen, wenn sie dabei auf das für die Erzeugung dieser Texte verwendete Regelwerk zurückgreifen können, während umgekehrt Autoren At die Verständlichkeit ihrer Texte, auch unter Vermeidung irreführender Mehrdeutigkeiten, nur sichern können, wenn sie die Vorgehensweise der Hörer Hr beim Verstehen kennen und berücksichtigen. Selbstverständlich werden beide Fähigkeiten auch für die bei den erfindungsgemäß eingeschlossenen mehrsprachigen Kommunikationsakten anfallenden Übersetzungs-, Dolmetsch- und Stenotypieraufgaben benötigt. Abhängig von den gegebenen Unterschieden und Vorgaben werden unterschiedliche Dialekte hierbei einer oder mehreren Sprachen L zugeordnet. Die Erfindung bezieht sich insbesondere auf solche natürliche Sprachen L, für welche Personen existieren, die darin zu kommunizieren vermögen. Zu diesen, vereinfachend auch als lebende Sprachen L bezeichneten Kommunikationsmitteln gehören also beispielsweise neben Schriftsprachen wie Deutsch auch Altgriechisch; entsprechendes gilt für mündliche Sprachen L.
Personen, welche die Kommunikation in den hierfür eingesetzten Sprachen L unter Beachtung grammatischer und semantischer Inhalte ausreichend beherrschen, werden Experten genannt. Ein Text T, der hinsichtlich eines ihm zugesprochenen semantischen Inhalts, auch wenn er als Äußerung Tp für sich allein steht, von Experten für ausreichend zulässig erklärt wird, wird auch als korrekter Text T = Tf bezeichnet.
Sprachen L, deren Texten T, gemäß / /2/ /, S. 96 und S. 124 und / /24/ /, S. 765 als Syntagmen bezeichnete, Komplexe bestimmter, jeweils zu definierender Symbole zuordenbar sind, welche entlang einer Dimension angeordnet sind, bei mündlichen Texten T also entlang der Zeitachse und bei schriftlichen der Schreibrichtung, werden im folgenden als seriell oder auch linear bezeichnet, wobei erfindungsgemäß auch eine diskontinuierliche / /24/ /, durch weitere Symbole oder Teile hiervon unterbrochene lineare Anordnung nicht ausgeschlossen wird. Beispielsweise genügen die lexikalischen Wörter und Interpunktionen deutscher Schrifttexte einer seriellen Anordnung. Neben solchen seriellen Sprachen L werden zu natürlichen Sprachen L entsprechend der in der Semiotik eingeführten Terminologie gemäß / /1/ /, S. 219 auch anders strukturierte Kommunikationsformen gerechnet, wie sie beispielsweise von der menschlichen wie auch tierischen Kommunikation mittels Gebärden / /12/ /, S. 556, dem menschlichen Mienenspiel / /3/ / und allgemein von der Kommunikation mittels sinnlich wahrnehmbarer Signalkomplexe wie beispielsweise Bildern her bekannt sind. Erfindungsgemäß werden neben den genannten seriellen Sprachen L auch mehrdimensional zusammengesetzte, ebenfalls Syntagmen genannte, Symbolkomplexe als Inhalte, oder auch Teile hiervon, von Äußerungen Tp entsprechender Sprachen L zugelassen. Die Erfindungsbeschreibung erfolgt ohne Einschränkung der Allgemeingültigkeit am Beispiel serieller Sprachen L, welche sinngemäß auch auf nicht-serielle Sprachen L anzuwenden ist.
Die Zusammenfassung von Begriffen A zu einer Menge B wird / /13/ /, S. 61 f. folgend als Superierung bezeichnet. Die Zugehörigkeit von A zu B wird A a B notiert, wobei A beispielsweise eine Komponente A = Em eines Komplexes B = Kp = AA, auch Kp = A,A notiert, oder ein Element A = El einer Klasse B = Kl = (A) oder eines Repertoires B = R(A) darstellt. Klassen Kl und Repertoires R, deren Elemente El jeweils nur alternativ verwendet werden dürfen, werden als disjunkt bezeichnet, eine Menge von jeweils einem Element El mehrerer disjunkter Klassen Kl oder Repertoires R wird Permutation genannt, ebenfalls ein aus solchen Elementen El = Em gebildeter Komplex Kp. Bei Komplexen Kp sind grundsätzlich auch die Bezüge zwischen mehreren oder auch sämtlichen darin enthaltenen Komponenten Em zu beachten. Ein Begriff A kann auch als Menge weiterer Begriffe C usw. gebildet werden.
Verfahren der erfindungsgemäßen Art sind auch dadurch näher bestimmt, daß sie nach / /1/ /, S. 217 als Voraussetzung und Grundlage für eine Realisierung von technischen Vorrichtungen für eine Mensch-Maschine-Kommunikation in natürlichen Sprachen L anzusehen sind, bei welchen gewisse, von Menschen nach dem Erwerb beliebiger solcher Sprachen L gemäß / /2/ /, S. 47 intuitiv eingesetzte Kommunikationsfähigkeiten so weit maschinell beherrscht werden, daß Menschen in diesen Rollen durch entsprechende Maschinen ersetzt werden können. Gemäß / /1/ /, S. 217 und 218 wird hieraus ein Abbau der Kommunikationsschranken bei der Mensch-Maschine-Kommunikation für "naive" Nutzer, welche speziell für die Bedienung von Rechnern entwickelte Programmiersprachen nicht beherrschen, sowie auch, durch die Zwischenschaltung entsprechender technischer Vorrichtungen, der Kommunikationsbarrieren zwischen Menschen erwartet, die unterschiedlichen Sprachgemeinschaften X angehören oder sich auch ein unterschiedliches Maß an Sprachkompetenz beispielsweise in der Rechtschreibung oder einer Fremdsprachenbeherrschung angeeignet haben. Im einzelnen werden solche auf einem Verfahren der erfindungsgemäßen Art basierenden, gegebenenfalls auch in Verbindung mit semantischen Kommunikationsverfahren arbeitenden Vorrichtungen, wie ebenfalls in / /1/ /, S. 218 erwähnt, beispielsweise unter Bezeichnungen wie "hörende . . ." oder "handschriftenlesende Schreibmaschinen" diskutiert, welche entsprechend einlaufende Texte T verzugsarm in gedruckte, auch maschinenverarbeitbare Texte T von korrekter, Interpunktionen berücksichtigender Rechtschreibung übertragen. Ferner diskutiert werden Übersetzungsautomaten, welche Aufgaben von Übersetzern oder Dolmetschern wahrnehmen, wobei letztere analog zu Interpunktionsregeln auch, als Prosodie bezeichnete, Ausspracheregeln einschließlich Pausen und Betonungen berücksichtigen sollten, und "intelligente Roboter", welche für vorgegebene Sachgebiete Fragen akzeptieren, auch durch Rückfragen klären, sie beantworten, Aufträge entgegennehmen, bestätigen, zur Ausführung bringen und allgemein interaktiv mit natürlichsprachig kommunizierenden Menschen wie gegebenenfalls solche Sprachen L beherrschenden Maschinen tätig werden, wie es beispielsweise bei der Abwicklung von Dienstleistungs-, Verkehrs- und Produktionsaufgaben, insbesondere auch in einem internationalen, mehrsprachigen "globalen" Umfeld verlangt wird.
Wie oben erwähnt oder auch aus Schilderungen des gegenwärtigen Standes, wie sie in / /1/ / oder / /19/ / gegeben wurden, hervorgeht, liegen ausreichend funktionstüchtige Verfahren der erfindungsgemäßen Art, welche es erlauben, wesentliche der genannten, von Menschen bei der Kommunikation wahrgenommenen Funktionen ausreichend fehlerfrei wie auch robust gegen Fehler der Partner Pa maschinell, also rechnergestützt, durchführen zu lassen, bisher nicht vor. Ungelöste Fragen werden insbesondere einigen unter Begriffen wie Mehrdeutigkeit, Vagheit und Kontextabhängigkeit zusammenfaßbaren Problemkreisen / /24/ / zugeordnet, wie sie sich bei den in natürlichen Sprachen L gebräuchlichen Symbolen manifestieren, so etwa bei einem lexikalischen Wort in der Vielfalt seiner in unterschiedlichen Texten T oft unterschiedlichen Erscheinungsformen, seiner Kombinationsmöglichkeiten mit weiteren Wörtern und seiner hiervon wie auch der jeweiligen Situation abhängigen grammatischen und semantischen Bedeutungsmöglichkeiten. Verbunden hiermit erwächst die weitere Frage, welche Erscheinungsformen und Eigenschaften von Sprachtexten T überhaupt als Symbole ausreichend geeignet sein könnten und so zweckmäßig als Bausteine von Kommunikationsverfahren einzusetzen wären.
Zur Problematik der Erscheinungsformen gehört, daß Texte T auch in zusammenhängender, also nicht in gemäß natürlichen Wörtern oder Buchstaben unterteilter Form anfallen. So sind, ähnlich wie bei den Äußerungen mündlicher Sprachen L, auch die Schrifttexte von Thai-Sprachen L nicht durch Abstände in natürliche Wörter getrennt. Bei mündlichen Sprachen L verzichten Autoren At in vielen Fällen darauf, Texte T durch eine entsprechende Prosodie, also durch Signale wie Pausen und Betonungen beispielsweise durch Lautstärke- oder Schallfrequenzänderungen regelmäßig entsprechend den eingeführten Symbolen und hieraus gebildeten Komplexen wie lexikalischen Wörtern, Phrasen, Teilsätzen, Sätzen und Äußerungen zu untergliedern. Problematisch ist ferner die hohe Variationsbreite der Signalformen, mit der ein Symbol wie beispielsweise ein lexikalisches Wort insbesondere bei mündlich oder handschriftlich geäußerten Texten T, auch aufgrund von Einflüssen der Übertragungsstrecken, in Erscheinung treten kann, wobei gleichbedeutende Texte nicht nur weit voneinander, sondern gegebenenfalls auch von eingeführten Normen bis hin zur Fehlerhaftigkeit abweichen können. Die hohe Varianz der für ein Wort verwendeten Sprachsignale bedingt umgekehrt eine entsprechende Vielfalt von Deutungsmöglichkeiten für die Zuordnung von, vom Autor At möglicherweise gemeinten, lexikalischen Wörtern zu jeweils vorliegenden Sprachsignalkomplexen. Hier wie auch bei fehlerbehafteten maschinengeschriebenen Texten hat ein erfindungsgemäßes Verfahren in der Rolle des Hörers Hr das Problem des Erkennens der vom Autor At gemeinten sprachlichen Begriffe wie beispielsweise natürlicher Wörter oder auch natürlicher Buchstaben der betreffenden Sprache L zu meistern. Hinzu kommt das Problem des Auffindens und Identifizierens gemeinter Wörter, gegebenenfalls auch mit ihren Bezügen zu weiteren Wörtern, in alphabetisch geordneten Wörterbüchern oder Datenbänken, wenn beispielsweise der Abstand zu einem vorausgehenden Textabschnitt fehlt oder ein Anfangsbuchstabe beziehungsweise -laut fehlerhaft oder nicht entzifferbar vorliegt oder fehlt. Eine Realisierung der Funktion des Hörers Hr wird also bei zusammenhängend einlaufenden Texten T durch das Problem ihrer Unterteilung in Textabschnitte T entsprechend gegebenenfalls zuzuordnenden Bedeutungen, auch unter Beachtung von bei Schriftsprachen L eingeführten Interpunktionsregeln erschwert. Einer Realisierung der Funktion des Autors At stehen die Probleme einer ausreichend unmißverständlichen, häufig vom Zusammenhang abhängigen Formulierung insbesondere der Textsignale mündlicher Sprachen L wie auch einer Beherrschung der für Schriftsprachen L geltenden, ebenfalls durch den Zusammenhang mitbestimmten Rechtschreibregeln, beispielsweise auch bezüglich der Interpunktion oder bei Sprachen wie dem Deutschen auch der Groß- und Kleinschreibung entgegen.
Neben dieser Varianz der textlichen Erscheinungsformen gebräuchlicher Sprachsymbole und der resultierenden Vieldeutigkeit gegebener Texte T bezüglich solcher Symbole steht der Realisierung eines Verfahrens der erfindungsgemäßen Art das genannte Problem einer - im Vergleich beispielsweise zu für den Umgang mit Rechnern entwickelten eindeutigen Programmiersprachen - außerordentlichen Vieldeutigkeit der Symbole selbst entgegen, wie sie etwa bei lexikalischen Wörtern sowohl hinsichtlich ihrer semantischen wie auch grammatischen Bedeutungen auffällt. Neben den im allgemeinen als Symbole verstandenen Begriffen wie solchen Wörtern und diese sowie hieraus gebildete Syntagmen symbolisierenden Schrift- beziehungsweise Lautzeichen finden als weitere sprachübliche Begriffe auch gewisse Kategorien Verwendung / /4/ /, S. 274, wie sie bei abendländischen Sprachen beispielsweise unter Bezeichnungen wie Prädikat, Verb, Tempus, Modus, Person, Infinitiv, Imperativ, Aorist, Partikel, Adverb, Adjektiv, Pronomen, Verbalphrase, Subjekt, Substantiv, Kasus, Numerus, Nominalphrase usw. / /24/ /, auch zur Charakterisierung bestimmter grammatischer wie auch semantischer Symbolinhalte, eingeführt wurden. Dabei hängt die Zuordnung solcher und weiterer Inhalte zu einem von einem Textabschnitt T möglicherweise angezeigten Begriff in der Regel vom, auch als Kontext bezeichneten / /24/ /, Zusammenhang ab, wie er sowohl durch weitere hierzu in unterschiedlichen Entfernungen angeordnete Textabschnitte T und diesen möglicherweise zuordenbare Symbole als auch gegebenenfalls durch eine Situation bestimmt wird. Vom entsprechend sprach- wie sachkundigen Partner Pa wird somit verlangt, solche Inhalte aus einer, definitionsgemäß prinzipiell und unbegrenzten, Anzahl möglicher Symbolkomplexe zu erschließen. So werden bei Schrifttexten T auch den für die Zeichensetzung / /24/ / benutzten nichtalphabetischen Interpunktionszeichen sowohl grammatische als auch semantische Funktionen zugeordnet, ohne daß klargestellt wurde, ob sie als den natürlichen Wörtern gleichgestellte Symbole oder als, diesen zuzuordnende, Teile hiervon zu behandeln seien, welche Inhalte ihnen zukommen und wie diese mit weiteren Inhalten zu kombinieren seien.
Angesichts der angetroffenen Vielfalt und Vieldeutigkeit der in bisherigen Sprachbeschreibungen verwendeten Begriffe blieb unklar, durch welche Art von Symbolen und Begriffen die Bedeutungen / /24/ / von Texten T zweckmäßig auszudrücken seien und welche Eigenschaften diese aufweisen müßten, damit vorliegende Texte und Textabschnitte T mit ihnen in Bezug zu setzen und auf sie aufzuteilen sind, damit entsprechende Bedeutungen solcher Einzelsymbole zu Bedeutungen von Symbolkomplexen kombinierbar werden. So ist es beim gegenwärtigen Stand, wie in / /26/ /, S. 37 ausgeführt, nicht in allen Umständen leicht, zu definieren, was wir unter einem einzelnen - nach obiger Definition natürlichen - Wort verstehen, oder zu erklären, warum Wörterbücher nicht alle Vokabeln aufführen, die wir brauchen, sondern gewisse Klassen von "Ableitungswörtern" weglassen / /26/ /, S. 82. Es gilt so auch als klar, daß es keine allgemeingültige Syntax gibt, d. h. grammatische Regeln, die etwas über die Wortwahl oder die Anordnung der Wörter zu einer Aussage mit klarer Bedeutung besagen und die für alle Sprachen gültig wären / /26/ /, S. 122, zumal etwa für Inhalte, die im Englischen mit 20 Wörtern auszudrücken sind, im Sanskrit vierzigmal mehr Vokabeln gebraucht werden / /26/ /, S. 212. Entsprechend blieb unklar, aus welchen Bausteinen mit welchen Eigenschaften und Wechselbezügen und welchen dementsprechend daran anzupassenden Operationen Verfahren der erfindungsgemäßen Art aufgebaut werden könnten.
Menschen sind nach ihrem gemäß / /2/ /, S. 227 f. intuitiv ablaufenden Erstsprachenerwerb zwar in der Regel auch zu einer, ebenfalls intuitiven, Beherrschung der geschilderten und weiterer bei der Sprachkommunikation anzutreffender Einzelprobleme fähig, können aber gemäß / /2/ /, S. 16 u. 47 f. weder explizit angeben, wie dieser Spracherwerb stattfindet, noch welche Begriffe, Daten und Regeln sie dabei bilden und sich aneignen, um sie bei der Kommunikation einzusetzen. Da diese Fragen bisher nicht geklärt sind, ist auch eine Realisierung eines Verfahrens der erfindungsgemäßen Art durch eine naheliegende Übertragung der Kommunikationsfähigkeit des Menschen auf die Arbeitsprinzipien von Maschinen nicht möglich, zumal keine bestätigten Vorstellungen darüber bestehen, welche Begriffe, Daten und Regeln zur Festlegung der angeführten Textzusammenhänge benötigt werden und wie solche Daten, beispielsweise durch die Analyse von Texten T oder auch Befragung von Experten, gegebenenfalls zu erzeugen und zu beschreiben wären. Angesichts der im Vergleich zu dieser Problematik bisher unzureichenden Lösungsansätze herrscht gemäß / /5/ /, S. 31 die Einschätzung vor, daß eine Nachbildung der bei der Sprachkommunikation im menschlichen Gehirn ablaufenden Prozesse durch die Formulierung von Algorithmen, welche auf einer so weit wie möglich alle natürlichen Sprachen L umfassenden "universellen Grammatik" aufbauen, noch für lange Zeit "science fiction" bleiben müsse.
Wie bei den geschilderten, für den gegenwärtigen Stand charakteristischen Problemen nicht anders zu erwarten ist, werden in vorliegenden mit natürlichen Sprachen L befaßten Erfindungen nur einige untergeordnete Teilaspekte einer im Grundsatz auch weiterhin durch den Menschen abzuwickelnden Sprachkommunikation behandelt. So beziehen sich die unter DE 31 42 540 C2, DE 35 03 233 C2, DE 36 15 972 A1, DE 36 16 011 A1, DE 30 32 664 C2 und DE 31 51 106 A1 angegebenen Verfahren beziehungsweise Vorrichtungen auf Fragestellungen elektronisch bedienbarer Lexika, die einem als Übersetzer tätigen Menschen zu gegebenen, von ihm bereits vom restlichen Text abgeteilten und korrekt auch bezüglich zuzuordnender grammatischer Kategorien identifizierten natürlichen Wörtern beziehungsweise Phonemen einer Ausgangssprache L einige Wörter beziehungsweise Phoneme einer Zielsprache L' anbieten, jedoch weiter die Intelligenz und das Sprachwissen des Menschen voraussetzen, um aus einem fortlaufenden Fluß akustischer beziehungsweise schriftlicher Textsignale überhaupt die Wörter oder auch nur Phoneme beziehungsweise Morpheme der Ausgangssprache zu identifizieren und deren Vieldeutigkeit in unterschiedlichen Texten zu berücksichtigen. Dementsprechend soll der Mensch bei den Übersetzungshilfen DE 36 15 972 A1 und DE 30 32 664 C2 neben den Wörtern auch gewisse grammatische Funktionen bestimmen, woraus bei DE 30 32 664 C2 die gebeugte Form eines Wortes der Zielsprache, nicht jedoch beispielsweise auch dessen Stellung im Text resultiert; bei DE 36 16 011 A1 soll er das erkannte Wort mit angebotenen Synonymen näher charakterisieren und bei DE 31 42 540 C2 zusätzlich ein Austauschwort eingeben, um das für Übersetzungen charakteristische Problem der Vieldeutigkeit zu reduzieren. Das in DE 41 35 261 C1 beschriebene "Übersetzungssystem" dient der Reduzierung der Datenmenge, die für die lexikalische Zuordnung von fremdsprachlichen Wörtern zu identifizierten zusammengesetzten natürlichen Wörtern (Komposita) der Ausgangssprache benötigt wird. In dem in DE 43 11 211 A1 für Übersetzungen vorgeschlagenen Textanalysesystem soll berücksichtigt werden, daß deutschen Verben verschiedene, entsprechend unterschiedlich zu übersetzende Formen von Dativobjekten zuordenbar sind. DE 42 32 482 A1 schlägt vor, Übersetzungen unter Zwischenschaltung einer künstlichen Standardsprache durchzuführen, ohne anzugeben, wie die Vielfalt der Bedeutungsmöglichkeiten von Texten der Ausgangs- und Zielsprachen dabei zu berücksichtigen sind.
Verfahren zur Lösung der dort als "Spracherkennung" bezeichneten Aufgabe, wie sie in DE 32 11 313 C2, DE 37 33 391 C2 und DE 35 14 286 A1 beschrieben werden, bieten ebenfalls keine ausreichende Antwort auf die Frage, welche der gegebenenfalls alternativ möglichen Zuordnungen von natürlichen Wörtern sowie Bedeutungen grammatischer wie auch semantischer Art zu einem vorliegenden Text T jeweils zu bevorzugen sind.
Die Beschränkungen und Mängel bekanntgewordener Erfindungen lassen sich auch auf das folgende allgemeine, bei der Diskussion grammatischer Kategorien oben bereits angesprochene Defizit zurückführen: Einerseits befassen sie sich mit der Aufgabe, oder Teilen hiervon, Äußerungen zu verarbeiten oder auch zu erstellen, wie sie bei der menschlichen Kommunikation zur definitionsgemäßen Interaktion ausgetauscht werden, wobei solche Äußerungen als Nachrichten dienen sollen, in welchen mittels physikalisch nachweisbarer Sprachsignale gebildete Texte T auch bestimmte Inhalte übermitteln. Andererseits fehlen aber ausreichende Angaben dazu, worin die Natur solcher Inhalte bestehen könnte, die in Verbindung mit den Texten T die genannten Interaktionen bewirken, also auch, aus welchen Komponenten mit welchen Eigenschaften sie zu bilden sind, welche Verknüpfungen und Verknüpfungsstrukturen zwischen solchen Komponenten wie auch zu Texten und Textabschnitten T dabei zu beachten sind und wie dementsprechend Operationen auszulegen sind, die es möglich machen, solche Inhalte in einlaufenden Texten zu identifizieren oder ausgehende Texte damit auszustatten. Insofern erscheint der gegenwärtige Stand der maschinellen Sprachkommunikation mit einem offenkundig aussichtslosen Versuch vergleichbar, ein maschinelles Verfahren zur Erzeugung von chemischen Substanzen mit bestimmten physiologischen Wirkungen anzugeben, ohne darauf einzugehen, aus welchen Komponenten in welcher Form diese sich zusammensetzen und welche Stoffe auf welche Weise dementsprechend zu ihrer Herstellung zu kombinieren seien. So fehlen in mit natürlichen Sprachen L befaßten Erfindungsmeldungen Angaben zu brauchbaren Operationen und Vorrichtungen, welche es erlauben, mit ausreichender Zuverlässigkeit wie auch Robustheit gegen Normabweichungen der Autoren At und Einflüsse der Übertragungsstrecken, beispielsweise auch unter Berücksichtigung angemessener Toleranzen, gegebenenfalls angesprochene Inhalte und Symbolkomplexe, auch unter Berücksichtigung der Situationen einschließlich der Intentionen der Autoren At, zu bestimmen, wobei auch unklar bleibt, ob und auf welche Weise durch solche Symbole angezeigte Inhalte in semantische und grammatische Inhalte unterschieden werden sollten.
Die Beschreibung von als grammatisch bezeichneten Inhalten erfolgte bisher überwiegend im Rahmenwerk sogenannter Konstituentenstrukturgrammatiken / /24/ /, welchen gemäß / /1/ /, S. 235 f., / /2/ /, S. 116 f. und / /4/ /, S. 212 f. je nach Ausführungsform auch als generativ, kontextabhängig oder kontextfrei sowie als Dependenz-, Transformations-, Phrasenstrukturgrammatiken / /24/ / wie auch Unifikationsgrammatiken / /24/ /, / /25/ / bezeichnete grammatische Systeme zugeordnet wurden. Alternativ hierzu wurden zur Beschreibung von ebenfalls als grammatisch oder auch syntaktisch verstandenen Zusammenhängen auch sogenannte Markov-Wahrscheinlichkeitsketten, auch "Hidden-Markov"-Modelle genannt, vorgeschlagen, welche Wahrscheinlichkeitsbezüge zwischen 2 oder auch mehr jeweils aufeinandertreffenden Ereignissen, insbesondere auch zwischen aufeinanderfolgenden lexikalischen Wörtern, berücksichtigen, und die nach / /7/ / eingeführt wurden, um die den Konstituentenstukturgrammatiken angelasteten, auch in / /1/ /, S. 234 und / /2/ /, S. 127 und S. 233 kritisierten und bisher nicht behebbaren Mängel zu umgehen. So sieht DE 37 10 507 A1 entsprechend einer jeweils 2 Ereignisse berücksichtigenden Markov-Kette die Verwertung eines gegebenenfalls vorliegenden syntaktischen Zusammenhangs zwischen einem gerade zu analysierenden Textteil und jeweils einem der natürlichen Wörter vor, die dem vorausgehenden Textteil bereits versuchsweise zugeordnet wurden. Wird aber beispielsweise ein Text T1 mündlich geäußert, dessen Bedeutung dem Schrifttext B1 = /Der, sagt er, fehlt./ entsprechen soll, so ist, auch abhängig von der Aussprache, wohl eine Deutung gemäß B2 = /Der sagt, er fehlt./ oder auch B3 = /Der Sack Teer fehlt./ möglich, da bei B2 ein verwertbarer, den Zufall des Aufeinandertreffens beliebiger Wörter übersteigender Markov-Zusammenhang jeweils zwischen dem ersten und letzten Wortpaar, bei B3 bei allen 3 aufeinanderfolgenden Wortpaaren vorliegt. Eine Deutung als B1 würde dagegen ausscheiden, da hierzu ein vom 4. bis einschließlich 1. Wort zurückreichender Markov-Zusammenhang zu berücksichtigen wäre, welchem ein brauchbarer Wert zukommt, der die Zufallswerte für das Vorkommen beliebiger Wörter unabhängig vom jeweils vorangestellten Wort übersteigt, was jedoch in dieser Erfindung, auch wegen des genannten, unten weiter ausgeführten Problems kombinatorischer Datenexplosionen, nicht vorgesehen ist. Unter Bezug auf weitere in Texten T anzutreffende Wortfolgen wurde gemäß / /6/ /, S. 91 f. der Nachweis geführt, daß solche Markov-Ketten-Grammatiken den bei natürlichen Sprachen anfallenden Problemen grundsätzlich nicht gerecht werden können, so daß auch die in / /8/ / vorgeschlagene Ausdehnung des Markov-Prinzips auf jeweils 3 aufeinanderfolgende natürliche Wörter trotz der damit verbundenen beträchtlichen Aufwandssteigerung weder beim hier angeführten noch bei vielen anderen Texten ausreichen kann. Beispielsweise wäre für einen mündlich geäußerten Text wie T4 = /Der, sagen die in diesem Büro Dienst leistenden Beamten, fehlt./ ein über 10 natürliche Wörter reichender Zusammenhang zu beachten. Für erfindungsgemäß ebenfalls zu berücksichtigende nicht-serielle Sprachen L sind solche eindimensional angelegten Markov-Ketten definitionsgemäß ungeeignet.
Das in DE 37 11 348 A1 beschriebene Verfahren zum Erkennen kontinuierlich gesprochener Wörter ist zur Lösung der darin gestellten Aufgabe ebenfalls nicht geeignet, wenn entgegen dem dort gemachten Vorbehalt der Praxis entsprechend die zu erkennenden Texte nicht durch längere Sprechpausen in Sätze getrennt einlaufen. Außerdem fehlt auch in dieser Erfindung, abgesehen von einem Hinweis auf die Verwendungsmöglichkeit von bereits als unzureichend erkannten kontextfreien Konstituentenstrukturgrammatiken, eine Angabe, wie die dort vorgeschlagene Zuordnung natürlicher Wörter zu Kategorien sowie gegebenenfalls deren Zuordnung zu weiteren Kategorien vorzunehmen sei, damit ein funktionsfähiges Verfahren resultiert. Wie nach dem geschilderten gegenwärtigen Stand zu erwarten, wurden auch über die in / /8/ /, / /9/ /, / /10/ / und / /19/ / beschriebenen, auf natürliche Sprachen L bezogenen technischen Entwicklungen gravierende Mängel berichtet, die sich auch auf eine Zugrundelegung der erwähnten unzureichenden, aus mangelhaft definierten Komponenten aufgebauten grammatischen Modelle in den hierfür eingesetzten Verfahren zurückführen lassen. Charakteristisch für diesen Stand ist auch der in / /11/ / berichtete Mißerfolg des 1981 in Japan begonnenen Programms zur Entwicklung von Rechnern der sogenannten 5. Generation, bei dem auch die Aufgabe gestellt war, Menschen die Kommunikation mit Rechnern in einer natürlichen Sprache L, wenn möglich in mündlicher Form, zumindest aber schriftlich mittels normgerecht gedruckter Texte T zu ermöglichen. Dieses Ziel konnte im geplanten Zehnjahreszeitraum nicht erreicht werden, obwohl Mittel in Höhe von 54 Milliarden yen dafür bereitgestellt wurden.
Gründe dafür, daß die Realisierung eines Verfahrens der erfindungsgemäßen Art bisher nicht gelingen konnte, sind auch darauf zurückzuführen, daß zur Nutzung vorgeschlagene Konzepte in grundlegende Probleme auch quantitativer Art hineinführen, deren Schwierigkeitsgrad entweder unterschätzt oder nicht erkannt wurde, und die keine technisch praktikablen Lösungen zuließen. Als ein wesentliches Hindernis gegen die Verwendung hierfür vorgeschlagener grammatischer Begriffe, Daten und Regeln in Algorithmen für eine rechnergestützte Kommunikation der erfindungsgemäßen Art wurden deren häufig unpräzisen und somit für eine technische Anwendung unbrauchbaren Definitionen kritisiert / /1/ /, S. 231; / /2/ /, S. 43, 47, 99 f.; / /4/ /, S. 157, wie sie besonders auch für die genannten Konstituentenstrukturgrammatiken, vielfach auch auf der Grundlage intuitiver menschlicher und dabei häufig widersprüchlicher Urteile, vorgeschlagen werden. Beispielsweise wurden sprachliche Äußerungen jeweils als eine Kombination einer "Oberflächenstruktur" mit einer dieser hinterlegten "Tiefenstruktur" angesehen. Hierbei werden unter einer "Oberfläche" jedoch nicht die physikalisch eindeutig erfaßbaren Textsignale von sprachlichen Äußerungen, sondern Folgen von bereits festgelegten natürlichen Wörtern verstanden, ohne daß Gesetzmäßigkeiten für deren Zuordnungen zu den - sich häufig als mehrdeutig erweisenden - Textsignalen angegeben wurden. Weiterhin fehlen ausreichend streng definierte Beschreibungen für die vorgeschlagenen "Konstituenten", aus denen deren Verknüpfungsmöglichkeiten zu den genannten "Tiefenstrukturen" ableitbar wären / /4/ /, S. 250 f., wie auch für die hierfür benutzte Symbolik, zu welcher beispielsweise Verbindungslinien zwischen Begriffen oder auch für von einem Begriff ausgehende frei endende, als "Spuren" / /6/ /, S. 122 bezeichnete Linien gehören. Unklar bleibt darin auch, wie die gewissen "Konstituenten" zugeordneten "Valenzen" einerseits als zu schließende "slots" verstanden werden sollen / /1/ /, S. 253, andererseits aber in den genannten "Spuren" oft nicht geschlossen zu werden brauchen. Weiter wurde vorgeschlagen, grammatische Konstituenten wie auch die zwischen ihnen bestehenden Bezüge mit Hilfe von als "Transformationen" bezeichneten, vielfach jedoch willkürlich festgelegten Abwandlungsmöglichkeiten von "Oberflächen"- Wortfolgen in andere Wortfolgen, gegebenenfalls auch mit abgewandelten zugeordneten Strukturen, zu beschreiben / /4/ /, S. 250 f., wonach beispielsweise auch eine im Aktiv formulierte Äußerung in eine, häufig aber keineswegs völlig bedeutungsgleiche, Passiv-Form verwandelbar sein sollte / /6/ /, S. 122, ohne daß jedoch solche Manipulationen beispielsweise durch, gegebenenfalls auch quantitativ einzuhaltende, beobachtbare Randbedingungen so weit präzisiert wurden, wie es für technische Anwendungen, beispielsweise bei Koordinatentransformationen, üblich und notwendig ist.
Unbefriedigend blieb hierbei auch, daß es nicht gelang, Inhalte von Texten, wie sie für eine Identifizierung von möglicherweise darin angesprochenen Symbolen und deren Kombination zu möglichen "Tiefenstrukturen" aus dem Zusammenhang heraus benötigt werden, ausreichend streng festzulegen, also beispielsweise auch in grammatische und pragmatische Inhalte zu trennen und somit etwa auch grammatische von semantischen Fragestellungen abzugrenzen / /4/ /, S. 138. So wurde davon ausgegangen, daß es genüge, wenn Experten einer Sprache L die darin abgefaßten Äußerungen intuitiv nach rein formalen Kriterien ohne Beachtung semantischer oder pragmatischer Fragestellungen bewerten. Hierfür vorgeschlagene Prädikate / /4/ /, S. 157 und 159 wie "Wohlgeformtheit", "Akzeptierbarkeit", "Formalität" oder für die Beurteilung logischer Operationen eingeführte Kriterien wie "wahr", "unwahr" oder auch "falsch" halten jedoch gemäß / /2/ /, S. 47 der Kritik nicht stand. Beispielsweise ist so nach / /2/ /, S. 100 auch nicht klar, ob die natürlichen deutschen Wörter /singen/, /singe/, /singst/, /singt/, /sang/, /sangen/, /gesungen/ usw. zweckmäßiger als unterschiedliche grammatische Begriffe oder als unterschiedliche Formbildungen eines einzigen solchen Begriffes zu behandeln seien. Ein Kriterium, das eine befriedigende Klassifizierung von lexikalischen Wörtern einer Sprache L erlaubt, ist gemäß / /1/ /, S. 227 und / /2/ /, S. 100 nicht bekannt, so daß auch keine Lösung für das unten betrachtete Problem der kombinatorischen Explosion der zu beachtenden Daten für die Bezüge zwischen diesen Wörtern, beispielsweise durch deren Zusammenfassung zu einer wünschenswert geringen Anzahl von Kategorien, angegeben werden konnte. Entsprechende Unsicherheiten bestehen über die Festlegung solcher Bezüge. So wurden als möglich angesehene Unterordnungsbeziehungen zwischen den Wörtern eines natürlichen Satzes in sogenannten Dependenzgrammatiken / /24/ / dahingehend definiert, daß das Verb an die Spitze der Hierarchie eines natürlichen Satzes zu stellen sei / /1/ /, S. 233, während in kontextfreien Grammatiken / /24/ / als Nominalphrase und Verbalphrase bezeichnete, jeweils aus einem oder auch mehreren natürlichen Wörtern unterschiedlich zusammengesetzte Kategorien als gleichrangig nebeneinandergestellt wurden / /1/ /, S. 238, ohne daß die Vorschläge für solche Rangordnungen ausreichend begründet und, erforderlichenfalls auch quantitativ, präzisiert werden konnten. Uneinsichtig blieb auch, wie eine Auflösung der den Konstituenten anhaftenden Mehrdeutigkeiten aus dem Kontext, wie es für ein Verstehen syntaktischer Textzusammenhänge für notwendig erachtet wurde / /1/ /, S. 262, mit Hilfe der dafür vorgeschlagenen logischen Operationen / /1/ /, S. 239 f. möglich sein könnte, wenn man dabei von, wie erwähnt, unpräzise definierten Begriffen ausgehen mußte, wobei auch eine Verwendung diskontinuierlicher, also durch andere Elemente getrennter Elemente wie beispielsweise Wörter für problematisch gehalten wurde / /24/ /.
Eine zur Umgehung des Problems fehlender Kategorisierungsmöglichkeiten beziehungsweise dabei resultierender Mehrdeutigkeiten vorgeschlagene Alternative, den bisher eingeschlagenen Weg in Richtung einer viel stärker als bisher getriebenen Differenzierung der Konstituenten weiterzugehen, verbunden mit einer entsprechenden Ausweitung des deren wechselseitige Bezüge regelnden Datenvolumens, hätte nach / /1/ /, S. 239 allerdings zur Folge, daß die so erweiterten Grammatiken wie auch die hieraus resultierenden Struktur- und Entscheidungsbäume unüberschaubar vielfältig und so praktisch nicht mehr bearbeitbar würden. Wie bekannt, wächst nämlich grundsätzlich bei einer mit a ansteigenden Zahl von sprachlichen Begriffen A die Zahl der ihre wechselseitigen Bezüge beschreibenden Parameter größenordnungsmäßig mit a! (a-Fakultät). Es ergibt sich somit das Problem einer annähernd exponentiell gemäß aa verlaufenden kombinatorischen Explosion der benötigten Daten / /18/ /, S. 100, das vergleichbar ist mit der Datenexplosion für die genannten Markov-Ketten, wenn dort, den sprachlichen Gegebenheiten entsprechend, auch Zusammenhänge zwischen den Texten T hinterlegten, weit voneinander getrennt angeordneten lexikalischen Wörtern berücksichtigt werden. Versuche, natürlichsprachige Kommunikationsverfahren unter Verwendung der hierfür bisher eingeführten Begriffe und Parameter zu lösen, führen somit in grundsätzliche kombinatorische Probleme, die in der Terminologie der Komplexitätstheorie als NP-hart und damit als in der Praxis unlösbar klassifiziert wurden /22/, / /23/ /, S. 254.
Für bisher vorgeschlagene, auf der Grundlage von bekannten Konstituentenstrukturgrammatiken konzipierte Verfahren konnte, auch aufgrund der angeführten Defizite, des weiteren auch kein ausreichender Zusammenhang angegeben werden zwischen der Frage, welche Information Texte T bezüglich der durch sie gegebenenfalls angezeigten Inhalte pragmatischer wie auch grammatischer, beispielsweise Konstituentenstrukturen betreffender Natur liefern, und der Informationstheorie selbst, wie sie beispielsweise in / /13/ /, S. 87 f. versuchsweise erläutert wurde. So wird nach heutigem Sprachgebrauch unter Information häufig der übermittelte Sachverhalt selbst und nicht eine bestimmte quantitative Eigenschaft einer solchen Übermittlung verstanden. Beispielsweise wurde etwa in / /14/ / bestritten, daß eine natürliche Sprache überhaupt Information übermittle; sie rufe vielmehr nur eine - nicht näher erläuterte - Interaktion zwischen dem Gesagten und dem Hörer hervor. Aus dem unlösbar scheinenden Widerspruch zwischen der Erfahrung einerseits, daß Texte häufig keine ausreichenden Hinweise zur Auflösung von Mehrdeutigkeiten liefern, und der Vorstellung andererseits, daß eine solche unvollständige Informationslage durch eine Maschine auch wieder nur linear, beispielsweise mittels der hierfür vorgesehenen logischen Operationen, zu einem notwendig wieder unvollständigen Informationsbild abgebildet werden könne, wurde wiederholt die Forderung gefolgert, daß in jeder derartigen sprachverarbeitenden Maschine letztlich eine Art "homunculus" mit der Sprachkompetenz eines Menschen stecken müsse. Wollte man diesen durch eine Maschine ersetzen, so müsse eben darin wieder ein "homunculus" enthalten sein und so fort / /15/ /, S. 41, / /16/ /. Bisher vorgeschlagene Verfahren, welche keine Anleitung zu einer problemgerechten Bewältigung des Informationsproblems geben, sind auch aus diesem Grund zu einer Lösung der erfindungsgemäßen Aufgabe nicht geeignet.
An den vorgeschlagenen Konstituentenstrukturgrammatiken wurde schließlich auch kritisiert, daß sich die Eigenschaften der für ihren Aufbau vorgeschlagenen Gegenstände, beispielsweise ihre Bezugsmöglichkeiten zu weiteren Gegenständen, für welche vielfach auch eine universell auf alle natürlichen Sprachen L übertragbare Gültigkeit in Anspruch genommen wurde / /2/ /, S. 210 und S. 211, gar nicht auf empirisch erfaßbare Merkmale zurückführen lassen / /12/ /, S. 559. Vielmehr wurde von Vertretern solcher Grammatiken die Notwendigkeit einer solchen Beobachtbarkeit sogar bestritten / /6/ /, S. 124, / /2/ /, S. 16, so beispielsweise der darin postulierten syntaktischen Bezüge zwischen gewissen Konstituenten oder zwischen den genannten "Oberflächen" mit zugeordneten "Tiefenstrukturen" und den zugehörigen Texten. Verfahren der erfindungsgemäßen Art, zu deren Aufgabe die Erzeugung physikalisch nachweisbarer Gegenstände gehört, wie sie durch Texte T und dadurch gegebenenfalls ausgelöste, ebenfalls nachweisbare Aktionen repräsentiert werden, lassen sich nach den etablierten Regeln der Technik jedoch prinzipiell nur unter Einsatz von geeignet und nachweisbar miteinander in Interaktion zu bringenden Gegenständen realisieren, deren Eigenschaften grundsätzlich ebenfalls mit einer in der Technik üblichen Objektivität, Widerspruchsfreiheit und Präzision beobachtbar sind. Geht man also davon aus, daß eine Kommunikation in natürlichen Sprachen L neben dem Austausch von Texten T auch einem Austausch von diesen zuzuordnenden Gegenständen wie grammatischen Konstituentenstrukturen und pragmatischen Inhalten zu dienen hat, so weisen die beim gegenwärtigen Stand anzutreffenden, auf der Grundlage bekannter Grammatiken konzipierten Verfahren den grundsätzlichen Mangel auf, daß sie keine Anleitung dafür liefern, wie eine durch Beobachtungen zu definierende und zu verifizierende Festlegung der den Texten T zuzuordnenden Gegenstände und der diese näher bestimmenden Eigenschaften und Daten, beispielsweise durch Beobachtung von Texten T der betreffenden Sprachen L, der damit kommunizierenden Partner Pa wie gegebenenfalls auch der durch diese im Zusammenhang mit ausgetauschten Texten T ausgelösten Aktionen erfolgen könnte. Voraussetzung hierfür wäre im einzelnen eine Klärung der Frage, welche Beobachtungsverfahren anzuwenden sind, welches Beobachtungsmaterial geeignet ist, wie dieses zu manipulieren und auf welche Ergebnisse, gegebenenfalls auch quantitativ und mit welchen Toleranzen, dabei zu achten ist und welche Fähigkeiten einzusetzende Beobachter und zur Beobachtung benutzte Einrichtungen wie gegebenenfalls auch Personen mitzubringen haben. Als Folge dieses Defizits muß etwa auch der oben zitierte Anspruch, daß bestimmte Grammatiken "universell" für alle natürlichen Sprachen L gültig seien, als lediglich intuitiv gewonnene Wunschvorstellung beurteilt werden. Folgt man weiter der ebenfalls intuitiv vorgebrachten Vorstellung, daß lexikalische Wörter der Sprachen L auch als grammatische Symbole fungieren / /2/ /, S. 170 f., so bleibt insbesondere unklar, worin bei den in jeder Sprache L unterschiedlich formulierten wie häufig auch unterschiedlich miteinander zu verknüpfenden Wörtern solche "universell" für alle Sprachen L gleichen grammatischen Funktionen bestehen und woran sie erkennbar sein könnten.
Angesichts der Vielzahl der beim gegenwärtigen Stand anzutreffenden, häufig auf die Verwendung intuitiv bevorzugter Konstituenten zurückzuführenden Probleme wurde in einer neueren "Grammatik der deutschen Sprache" postuliert, daß Linguistik doch als empirische Wissenschaft zu gelten habe / /27/ /, S. 8 f., welche aufzeige, durch welches System von "Konstituenten" / /27/ /, S. 15 und diesen zuzusprechenden "Funktionen" / /27/ /, S. 21 eine Sprache zu beschreiben sei. Ein solches System könne aber nicht universell für alle, sondern jeweils nur für eine bestimmte Sprache gelten. Dies hätte allerdings einen entsprechend hohen Aufwand für die Erstellung und Beschreibung solcher Systeme für mehrere Sprachen sowie für die wechselseitigen Zuordnungen ihrer Konstituenten zur Folge, wie sie beispielsweise für die erfindungsgemäß zu leistenden Übersetzungen benötigt werden. Hierbei wurde, allerdings auch wieder intuitiv und ohne Angabe geeigneter empirischer Nachweisverfahren, davon ausgegangen, daß die in Schrifttexten durch Abstände voneinander getrennten Textabschnitte als solche Konstituenten einzusetzen seien. Die so in einer schriftdeutschen, in / /27/ /, S. 20 allerdings ohne abschließenden Punkt notierten, Äußerung wie /Jeder Student liest eine Tageszeitung./ anzutreffenden Konstituenten seien aber nicht als Wörter, sondern als jeweils eine Flexions- oder Wortform eines jeweils alle solche Formen umfassenden "Wortparadigmas" zu betrachten, das durch eine dieser Formen wie beispielsweise /Student/ oder /lesen/ in den für diese Sprache erstellten Lexika vertreten sei. Hierbei wurde allen Formen eines solchen Wortparadigmas, auch aufgrund des ihnen gemeinsamen gleichen Wortstamms, "dieselbe lexikalische Bedeutung" zugesprochen / /27/ /, S. 18 ungeachtet der Tatsache, daß Sprachkenner Wortformen wie /Haus/, /Hauses/ und /Häuser/ usw. neben unterschiedlichen syntaktischen Funktionen durchaus auch unterschiedliche semantische, etwa durch Singular und Plural unterschiedene, Bedeutungen zuordnen. Die Problematik einer datensparenden Zusammenfassung der Funktionen solcher Flexionsformen zu "syntaktischen Kategorien" wird auch nicht durch eine in / /27/ /, S. 17 für ausreichend angesehene Kategorisierung beispielsweise substantivischer deutscher Wortformen gemäß den Begriffen "Kasus" mit den Fällen Nominativ, Genitiv, Dativ und Akkusativ sowie "Numerus" mit Singular und Plural gelöst, da ihre Kombinierbarkeit etwa mit Artikel-Formen wie /der/, /die/, /das/ usw. oder /ein/, /eine/ usw. wie auch, davon wieder abhängig, mit Adjektiv-Formen wie /gute/, /guter/, /gutes/ /guten/ usw. auch noch vom, im Sachregister von / /27/ / nicht erwähnten Sexus dieser Wort-Paradigmen abhängt. Ausgehend von den als Konstituenten vorgeschlagenen Flexionsformen wird gemäß / /27/ /, S. 33 f. deren ein-eindeutige Zusammenfassung zu "Wortarten", welche als "in sich homogene Grundeinheiten" deren syntaktische Funktionen beschreiben, aufgrund der Vielzahl der im Deutschen anzutreffenden Wortformen und der darauf anzuwendenden grammatischen Kombinatorik für praktisch unmöglich gehalten; die Frage, wie viele Wortarten das Deutsche wirklich habe, sei eine sinnlose Scheinfrage. Auf die Tatsache, daß die semantische Bedeutung wie auch syntaktische Funktion einer Wortform in Schrifttexten auch durch darin aufgeführte Interpunktionszeichen wie etwas Punkt, Komma, Bindestrich, Anführungszeichen usw. mitbestimmt sein kann, wird in / /27/ / nicht eingegangen; sie werden im Sachwortregister nicht erwähnt. Die Begriffe "Kommunikation" und "Information" fehlen ebenfalls darin, da auch die erfindungsgemäß zu lösende Aufgabe, durch die bei der Sprachkommunikation verwendeten Wortformen Information zu übermitteln, in / /27/ / nicht diskutiert wird.
Als nachteilig erweist sich der gegenwärtig unbefriedigende Entwicklungsstand grammatischer Verfahren der erfindungsgemäßen Art außerdem für die Realisierung weiterer, hierdurch nicht abgedeckter Sprachverfahren, welche die Übermittlung semantischer Inhalte zum Ziel haben, da semantische Bedeutungen von Textabschnitten T häufig entscheidend von ihren durch weitere Textabschnitte T mitbestimmten grammatischen Bedeutungen abhängen. So werden beispielsweise in dem auch in / /6/ / zitierten englischen Satz /Time flies like an arrow./ den Wörtern /flies/ und /like/ ganz andere grammatische und daraus folgend auch semantische Inhalte zugeordnet als einem äußerlich ähnlich zusammengesetzten Satz /Fruit flies like an orchard./ mit /fruit flies/ als Subjekt und /like/ als Prädikat.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren der eingangs genannten Art für eine gemäß vorliegenden Vorgaben in einer oder mehreren natürlichen Sprachen, also auch mehrsprachig, zu führende Kommunikation anzugeben, welche mit, in den vorgesehenen Medien abzufassenden beziehungsweise aufzunehmenden, Texten durchgeführt wird, die so mit grammatischen, für die Zuordnung auch semantischer Inhalte geeigneten, Inhalten in Bezug gesetzt werden, daß damit eine Übermittlung solcher Inhalte einschließlich einer inhaltsbezogenen Übertragung in Texte weiterer natürlicher Sprachen, auch vom Mündlichen ins Schriftliche und umgekehrt, mittels rechnergestützt durchzuführender Verfahren möglich wird, wobei bei ungenau, mehrdeutig oder fehlerhaft abgefaßten Texten entsprechende Kennzeichnungen, gegebenenfalls auch Korrekturen, vornehmbar werden, so daß beim gegenwärtigen Stand angetroffene Probleme lösbar und maschinelle Einrichtungen möglich werden, welche bisher bei der natürlichsprachigen Kommunikation von Menschen wahrgenommene Funktionen der angeführten Art übernehmen und somit eine solche Kommunikation zwischen Mensch und Maschine sowie zwischen Maschinen möglich machen.
Diese Aufgabe wird durch die in Anspruch 1 aufgezeigten, in Unteransprüchen weiter ausgeführten Maßnahmen im Rahmen eines als M bezeichneten, mittels rechnergestützter Einrichtungen durchführbaren Verfahrens gelöst. Verfahren M sieht vor, die Kommunikation zwischen Kommunikationspartnern Pa entsprechend den von, gegebenenfalls auch als Partner Pa fungierenden, Nutzern des Verfahrens oder auch Partnern Pa eingebrachten Vorgaben Vr mittels von Autoren At aus Sprachsignalen der für die betreffenden natürlichen Sprachen L vorgesehenen Medien zu bildenden und von deren Empfängern Hr auszuwertenden, durch Eigenschaften H(T) gekennzeichneten Texten T durchzuführen, welche durch Zuordnung grammatischer Inhalte N, denen semantische Inhalte zugeordnet werden können, zu grammatischen Nachrichten TN ergänzt werden, wobei diese Zuordnungen unter Beachtung der Wahrscheinlichkeiten p(TN) ihres Auftretens vorgenommen werden, welche allgemein auf die unten näher beschriebenen Daten D bezogen werden. Diese Nachrichten TN werden als Komplexe Kp = EmEm aus bestimmten Komponenten Em unter Beachtung ihrer durch Daten D wie gegebenenfalls auch durch weitere Komponenten Em bedingten Wahrscheinlichkeiten p(Em) zusammengefügt. Diese Komponenten Em umfassen den Sprachen L angepaßte, unter Einbeziehung der Wahrscheinlichkeiten p(Gs) ihres Auftretens durch grammatische Daten Ws beschriebene Symbole Gs, die jeweils als zu einer disjunkten Klasse Kl = Gr = (Gt) von Textsymbolen Gt superierte grammatische Symbole Gr gebildet werden. Deren Textsymbole Gt werden jeweils durch, zu einer disjunkten Klasse Kl = Gt = (Ts) superierte, Textabschnitte T = Ts repräsentiert, die sämtlich ein Repertoire R(H(T)) von, durch Toleranzen dH näher bestimmten, also innerhalb dieser Toleranzen liegenden Texteigenschaften H(T) aufweisen. Hierbei gibt jedes grammatische Symbol Gr ein Repertoire R(Pr) von durch, gegebenenfalls durch weitere Symbole Gr bedingten, Wahrscheinlichkeiten p(Gr) näher bestimmten, Möglichkeiten seiner, durch Rangordnungen Ra und die Positionen P der über dessen Textsymbole Gt a Gr zugeordneten Textabschnitte Ts a Gt in Texten T festgelegten, Anordnungen Pr. in den grammatischen Nachrichten TN vor. Als Daten D werden allgemein mit Sicherheit, also mit Wahrscheinlichkeit p = 1 vorliegende, auch als Evidenz D bezeichnete Begriffe und Daten eingesetzt, wie sie beispielsweise auch gemäß der entsprechend Vorgaben Vr jeweils zu leistenden Kommunikationsaufgabe durch die Sprachsignale einlaufender Texte T wie auch durch definierte Merkmale H(T) solcher Texte T wie gegebenenfalls auch Vorgaben Vr repräsentiert werden, wobei, wie unten weiter ausgeführt, Wahrscheinlichkeiten p(TN) durch entsprechende, durch D beziehungsweise T bedingte, Vr implizierende Wahrscheinlichkeiten p(TN) = p(N/D) = p(N/T) gegeben sind. Für die aufgabengemäß eingeschlossene mehrsprachige Kommunikation werden weiterhin grammatische Vokabeln Vqq, kurz auch Vokabeln Vqq, eingesetzt, welche bestimmte Bezüge zwischen, als weitere Komponenten Em verwendeten, bestimmten Komplexen Vq = GtGt von Textsymbolen Gt unterschiedlicher Sprachen L angeben und durch Daten Wst der grammatischen Daten Ws beschrieben werden. Gemäß Verfahren M werden grammatische Nachrichten TN jeweils dadurch gebildet, daß ein oder mehrere grammatische Symbole Gr entsprechend den Möglichkeiten ihrer Anordnungen Pr zu eine 99999 00070 552 001000280000000200012000285919988800040 0002010015859 00004 99880m Hintergrund E zusammengefügt werden, der durch einen, aus einer Permutation von diesen Symbolen Gr zugeordneten und gemäß deren Anordnungen Pr zusammengefügten Textsymbolen Gt gebildeten Satz S zu einem grammatischen Inhalt N ergänzt wird, der durch einen, aus einer Permutation von den Symbolen Gt dieses Satzes S zugeordneten und an, durch diese Anordnungen Pr bestimmten, Positionen P angeordneten Textabschnitten Ts gebildeten, als Äußerung Tp oder auch als Teil hiervon einzusetzenden Text T zu dieser Nachricht TN ergänzt wird, wobei Textabschnitte Ts gegebenenfalls auch diskontinuierlich oder auch als Affixe weiterer Textabschnitte Ts angeordnet werden. Bei den bei mehrsprachigen Kommunikationsaufgaben gemäß Vorgaben Vr zu leistenden Übersetzungen werden hierzu die den Vokabeln Vqq zugeordneten, unter Beachtung ihrer Anordnungen Pr gebildeten Komplexe Vq = GtGt von Symbolen Gt a Gr der unterschiedlichen Sprachen L als Komponenten Em verwendet.
Verfahren M sieht in einer bevorzugten Ausgestaltung vor, für die Komplexbildung von grammatischen Nachrichten TN aus Komponenten Em als Textsymbole Gt, auch als objektive Wörter bezeichnete, Symbole Vt und als grammatische Symbole Gr hieraus zu disjunkten Klassen Kl = (Vt) superierte Einheiten Gr = G zu verwenden, die dadurch an die betreffenden natürlichen Sprachen L angepaßt sind, daß sie den Ergebnissen bestimmter, quantitativ auszuwertender Nachweisverfahren entsprechen, welche an Sprachtexten T unter Mitwirkung von Experten dieser Sprachen L unter Beachtung grammatischer und semantischer Bedeutungen dieser Texte durchgeführt werden und Beobachtungen bestimmter, unten beschriebener Invarianzen I bei ebenfalls unten beschriebenen Transformationen Q solcher Texte T vorsehen, woraus eine universelle Nutzbarkeit des Verfahrens M für beliebige natürliche Sprachen L mit Vorteilen besonders bei mehrsprachigen Anwendungen resultiert. Hierfür werden Transformationen Q zugrunde gelegt, die sich von den für bisher diskutierte Transformationsgrammatiken / /24/ / vorgeschlagenen Textmanipulationen und hierbei zu beachtenden Textmanipulationen unterscheiden, wie sie beispielsweise in "operationalen Verfahren" / /24/ / unter Bezeichnungen / /24/ / wie Verschiebeprobe, Ersatzprobe, Weglaß-, Erweiterungs- oder Kontaktprobe mit entsprechend resultierenden Satzgliedern / /24/ / bekannt wurden. Abweichend vom hierdurch charakterisierten und auch oben geschilderten gegenwärtigen Stand sieht das erfindungsgemäße Verfahren M den Einsatz empirisch ausreichend streng definierter Symbole Gs vor, deren Eigenschaften H(Gs) entsprechend den vorgesehenen Maßnahmen, welche statistische Auswertungen mit einschließen, auch quantitativ mit einer für technische Verfahren üblichen, auch quantitativ anzugebenden Genauigkeit festlegbar werden. Wie unter näher ausgeführt, schließen die erfindungsgemäßen Transformationen Q neben einer Beobachtung von Texten T auch Beobachtungen bestimmter Reaktionen der hinzugezogenen Experten mit ein, so wie analog beispielsweise medizinische Verfahren zur Behandlung bestimmter Krankheiten aufgrund der prinzipiell beobachtbaren Verwendung beobachtbarer Substanzen und Gegenstände wie auch Beobachtungen von Reaktionen der damit behandelten Personen festgelegt werden, wobei die erwünschte Objektivität grundsätzlich durch statistische Bewertungen der Aussagen einer ausreichenden Zahl von, als Sprachexperten beziehungsweise Patienten, gewissermaßen in der Rolle komplexer Meßgeräte eingesetzten Personen gewährleistet werden kann.
Abweichend von bekannten Transformationsgrammatiken / /24/ /, generativen Grammatiken und Semantiken / /24/ / sowie Konstituentenstukturgrammatiken / /24/ / wie auch Unifikationsgrammatiken / /24/ / einschließlich der darin verwendeten, auch als "Generalized Phrase Structure Grammar" / /24/ / oder auch "Lexical Functional Grammar" / /24/ / bezeichneten, Vorschlägen zur Darstellung der in natürlichen Sprachen L anzutreffenden Gesetzmäßigkeiten werden im erfindungsgemäßen Verfahren M entsprechend den Transformationen Q durch Texte wie auch Textkomplexe T repräsentierte Symbole Vt verwendet, die gegebenenfalls auch nur Teile lexikalischer Wörter oder, gegebenenfalls auch diskontinuierlich angeordnete, Komplexe Kp mehrerer lexikalischer Wörter umfassen, welche bei Schriftsprachen auch Satzzeichen, Abstände wie auch unten definierte Operatoren o zur Modifizierung zugeordneter Textabschnitte T mit einschließen und sich von den in den zitierten Grammatiken / /24/ / verwendeten Phrasen / /24/ / unterscheiden, wie sie beispielsweise auch in / /2/ /, S. 116 f. diskutiert wurden. Dies hat vorteilhaft zur Folge, daß die Symbole Vt zu einer vergleichsweise geringen Anzahl von, als disjunkte Klassen Kl = G = (Vt) gebildeten, grammatischen Symbolen Gr = G superierbar werden, wodurch es möglich wird, die Zuordenbarkeit der Symbole Vt zu grammatischen Nachrichten TN mit einer entsprechend geringen Menge von den Symbolen G zugeordneten Daten zu beschreiben. Aus der Zugrundelegung der Transformationen Q folgt weiterhin, daß diese Zuordenbarkeiten von Einheiten G und somit Symbolen Vt ganz überwiegend durch Daten 2. Ordnung, notiert als O(2), teilweise auch 1. Ordnung O(1) beschrieben werden, welche Abhängigkeiten von einer oder keiner weiteren Einheit G ausdrücken, während Daten höherer Ordnung, welche mehrfach verkettete, rechnerisch schwer zu bewältigende Abhängigkeiten anzeigen, weitgehend vermeidbar bleiben. Dabei unterscheiden sich die genannten, unter näher definierten Rangordnungen Ra von den für bekannte Dependenzgrammatiken / /24/ / eingeführten, beispielsweise durch Ersatzproben / /24/ / näher bestimmten Abhängigkeitsrelationen zwischen den hierfür wie auch für die oben zitierten Grammatiken / /24/ / als Konstituenten von natürlichen Sätzen angenommenen Begriffen.
Die in dieser bevorzugten Ausgestaltung des Verfahrens M vorgesehene Verwendung von Textsymbolen Gt = Vt, welche den genannten, sowohl syntaktisch- grammatische als auch semantische Bedeutungen berücksichtigenden Transformationen Q von Texten T genügen, hat weiterhin vorteilhaft zur Folge, daß die so definierten objektiven Wörter Vt nicht nur als Träger grammatischer, sondern auch semantischer Inhalte einsetzbar werden; entsprechend werden sie nachfolgend auch als grammatische Symbole Vt = Gr wie auch als semantische Symbole Vt = Gp bezeichnet.
Erfindungsgemäß werden Texte T zum einen als Zusammenfügungen, also Komplexe Kp = TxTx von, physikalisch grundsätzlich mit niedrigen Fehlertoleranzen dTx meßbaren, im gegebenen Kommunikationsmedium anfallenden Textsignalen Tx, beispielsweise des zeitabhängigen Schalldrucks oder der Schriftkoordinaten, definiert. Des weiteren werden sie auch als Komplexe Kp = GtGt von festzulegenden, auch Zeichen Gt = Z genannten, weiteren Textsymbolen Gt behandelt, welche jeweils durch ein innerhalb einer Toleranz dH liegendes Textmerkmal H(T), oder auch ein Repertoire R(H(T)) solcher Merkmale oder auch einen Komplex Kp solcher Merkmale H oder Repertoires R gegeben sind, wobei für die Toleranzen dH auch wesentlich über den physikalisch meßbaren Werten dTx liegende Werte gewählt werden. In Anpassung an die Sprachen L werden als Merkmale H(T) neben bestimmten Komplexen Kp von Meßwerten Tx des Schalldrucks oder der Schriftkoordinaten als Funktion der Zeit beziehungsweise der Schriftrichtung a auch hieraus abgeleitete Größen wie Tonfrequenz, spektrale Verteilung der akustischen Leistung, erste und zweite Ableitungen wie auch Integrale der Meßwerte Tx nach t beziehungsweise a, also auch Strichrichtung, - krümmung und -schlaufen, Minima und Maxima usw. verwendet, wobei Textsignale Tx auch relativ zu durch angrenzende Signale Tx bestimmten Durchschnittswerten und Varianzen beispielsweise von Lautstärke, Grundlinie und Höhe eines Schriftzuges usw. festgelegt werden. Aufgrund der prinzipiellen empirischen Nachweisbarkeit der Texteigenschaften H(T) mit Toleranzen dH stellen auch die Textsymbole Gt einschließlich der Zeichen Z mit ihren Eigenschaften H(Gt) ausreichend streng definierte, für die rechnerische Behandlung geeignete Größen dar, deren Zahl durch entsprechende Wahl der Toleranzen dH sowie der unter definierten Informationswerte h(Z) wie auch durch Komplexbildungen zu weiteren Symbolen Gt = ZZ wie beispielsweise auch objektive Wörter Gt = Vt in einem für verfügbare Rechner beherrschbaren Rahmen gehalten wird. Gemäß ihrer sicheren Nachweisbarkeit in gegebenen Texten T werden solche Merkmale H(T) und Komplexe Kp hiervon auch als vorliegende Evidenz D, kurz auch Daten D, bezeichnet. Entsprechend dieser Definition von Texten T sind unter den erfindungsgemäß bei der Zuordnung grammatischer Inhalte N zu Texten T zu beachtenden Wahrscheinlichkeiten p(N/T) allgemein bedingte Wahrscheinlichkeiten p(N/D) bezüglich vorliegender, die Texte T betreffender Evidenzen D zu verstehen. In Anpassung an die betreffenden Sprachen L werden bevorzugt Texteigenschaften H(T) wie auch Repertoires R und Komplexe Kp hiervon verwendet, welche entsprechend ihren unten definierten, quantitativ anzugebenden Informationswerten h(Z) in Sprachen L gewohnheitsmäßig als Merkmale oder auch Zeichen Z eingesetzt werden.
Eine bevorzugte Ausgestaltung der Erfindung sieht die Verwendung von Textsymbolen Gt vor, welche Zeichen Z sowie hieraus in einer oder mehreren Hierarchien durch komplex- wie gegebenenfalls auch klassenbildende Superierung gebildete objektive Wörter Vt umfassen, wobei die Zeichen Z als disjunkte Klassen Kl = (Tr) von diesen mit ausreichend hohen Wahrscheinlichkeiten p(Tr/Z) zugeordneten Textabschnitten T = Tr mit entsprechenden Merkmalen H(T) und die objektiven Wörter Vt auch als disjunkte Klassen Kl = (Ts) von entsprechend zugeordneten Textabschnitten Ts definiert werden. Entsprechend wird bei der Bildung grammatischer Nachrichten TN ein Textsymbol Gt einer übergeordneten Hierarchie wie beispielsweise ein Wort Vt als Komplex Kp = ZZ der diesem zugeordneten Zeichen Z dargestellt, wobei entsprechend ein Text Ts eines solchen Wortes Vt als Komplex Kp = TrTr = Ts einer Permutation von diesen Zeichen Z zugeordneten Textabschnitten Tr zusammengefügt wird. Wie unten weiter ausgeführt, werden als Evidenz D nachweisbare Merkmale H(T) wie auch bestimmte Komplexe Kp hiervon sowie Merkmale und Merkmalskomplexe H weiterer Begriffe A, welchen ein Symbol Gs mit ausreichend hoher Wahrscheinlichkeit p(Gs/A) zuordenbar ist, auch als Adressen A = Ad für dessen in Betracht zu ziehende Verwendung als Komponente Em in einer Nachricht TN verwendet.
Zur wechselseitigen Unterscheidung der hier eingeführten, in mehreren Superierungshierarchien aufgebauten Textsymbole Gt werden die objektiven Wörter Vt auch als Symbole Vt = Gt1 notiert, die einem Repertoire R1(Gt1) angehören und als Komplexe Gt1 = ZZ von Zeichen Z = Gt2 eines Repertoires R2(Gt2) = R2(Z) aufgebaut werden, welche auch als Zeichen Z = Z1 notiert werden, falls gegebenenfalls diese Zeichen Z1 = Gt2 als Komplexe Z1 = Z2Z2 weiterer Zeichen Z2 = Gt3 eines weiteren Repertoires R3(Z2) von Textsymbolen Gt3 aufgebaut werden usw.
Zur Beschreibung der erfindungsgmäß einzusetzenden Gegenstände und Maßnahmen werden neben den oben gegebenen Definitionen die folgenden weiteren Begriffe und Definitionen verwendet: Als grammatische Bedeutungen von Texten T natürlicher Sprachen L gelten neben den genannten grammatischen Inhalten N, kurz auch Inhalte N genannt, auch bestimmte Teile wie auch Komplexe Kp = NN hiervon. Semantische Inhalte werden auch als Inhalte F notiert. Eine aus einem Text T mit grammatischem Inhalt N gebildete grammatische Nachricht TN mit dieser zugeordnetem semantischem Inhalt F wird als semantische Nachricht TNF bezeichnet, beide kurz auch als Nachrichten TN beziehungsweise TNF, wobei vereinfachend auch die Notierungen T a TN, N a TN, F a TNF gebraucht werden. Die Bildung von semantischen Nachrichten TNF durch Zuordnung semantischer Inhalte F zu grammatischen Nachrichten TN und somit eine allgemeine pragmatikbezogene Kommunikation ist nicht Aufgabe der vorliegenden Erfindung, sie wird in Erfindungsmeldung P . . . behandelt. Da die hierfür zu fordernde Zuordnung von Sachverhalten F zu Textteilen T und deren Kombination zu weiteren Inhalten F jedoch im Regelfall von den grammatischen Bedeutungen der Texte T abhängt, liefert das vorliegende grammatische Verfahren M eine wesentliche Voraussetzung für die Realisierung solcher semantischen Verfahren. Die Erfindung schließt jedoch eine Berücksichtigung semantischer Inhalte F von Texten T, insbesondere bei der Festlegung von Symbolen Gs einschließlich der Vokabeln Vqq mittels Anwendung der Transformationen Q unter Mitwirkung von Experten sowie bei der maschinellen Abwicklung von Übersetzungen mit ein, wo sowohl die Korrektheit von Texten T = Tf bezüglich Inhalten F wie auch die Gleichheit der Inhalte F verschiedener Texte T zu beachten ist. Wie bereits oben am Textbeispiel /Ein heller Ton./ gezeigt, bietet das erfindungsgemäße grammatische Verfahren M die Möglichkeit, eine Vielzahl der bei der Sprachkommunikation anfallenden Aufgaben beispielsweise durch die genannten hörenden Schreibmaschinen und Einrichtungen zur Korrektur oder Übersetzung von Texten T zu lösen, ohne daß hierbei auf aufwendig zu erstellende, zu speichernde und anzuwendende Datensammlungen von Eigenschaften der angesprochenen pragmatischen Sachgebiete F zurückgegriffen werden muß, wie sie für semantische Verfahren allgemein zu fordern sind.
Entsprechend den Gegebenheiten der einzusetzenden Sprachen L läßt die Erfindung auch das Auftreten grammatisch und somit auch semantisch mehrdeutiger Texte T zu, die jeweils alternativ zugleich mehreren grammatischen Inhalten N mit entsprechend unterschiedlichen Hintergründen E und entsprechend unterschiedlichen semantischen Inhalten F zuzuordnen sind. Weiterhin wird das vorkommen semantisch mehrdeutiger grammatischer Nachrichten TN zugelassen, bei denen einem Text T mit einem eindeutig zugeordneten Inhalt N und Hintergrund E mehrere unterschiedliche Sachverhalte F zuordenbar sind. Die in der erfindungsgemäßen grammatikbezogenen Kommunikation dabei vorgeschlagene, unten näher erläuterte quantitative Beurteilung der Zuordnung mehrerer möglich erscheinender grammatischer Inhalte N zu einem Text T bietet dabei den Vorteil, daß so auch aufwandsparend Hinweise dafür geliefert werden, in welchem, in der Regel großen, Anteil der Kommunikationsakte, die Bedeutungen der Texte T bereits ausreichend berücksichtigt wurden und welcher, entsprechend geringe, Anteil gegebenenfalls weiteren semantischen Bedeutungsanalysen zugeführt oder auch für einen Nutzer oder Partner Pa entsprechend markiert werden sollte.
Folgende weitere Bezeichnungen werden benutzt: Eine aus Elementen A = El oder Komponenten Em gebildete Superierung B wird auch Superbegriff genannt. Beispielsweise gilt ein als Komplex Vt1 = Vt2,Vt3 aus zwei weiteren objektiven Wörtern Vt2 und Vt3 gebildetes Wort Vt1 als Superwort Vt1. Zugehörigkeiten A a B von Begriffen A zu Mengen B werden mit den entsprechenden Mengenbegriffen auch durch Kp(A), Kl(A) oder R(A) ausgedrückt. Durch nA wird angezeigt, daß ein Begriff A nicht verwendet wird oder nicht vorliegt. Durch A = El(B) und A = Em(B) wird A als Element El oder Komponente Em einer Klasse Kl = B beziehungsweise eines Komplexes Kp = B identifiziert. Die entsprechenden Bezüge werden auch als Kl/El- und Kp/Em-Bezüge notiert. Eine Superierung Kp beziehungsweise Kl gilt als seinen Komponenten Em beziehungsweise Elementen El hierarchisch übergeordnet; in einer Ausbildung wird ihnen auch ein höherer Rang Ra zugemessen. Gleichrangige Superierungsstufen werden jeweils einer gleichen Superierungshierarchie der betreffenden Menge B, beispielsweise eines Komplexes B = Kp, zugeordnet. Eigenschaften, durch die ein Begriff A näher gekennzeichnet ist wie Bezüge zu weiteren Begriffen, Wahrscheinlichkeiten usw. werden allgemein als Eigenschaften H(A) notiert. Es wird definiert, daß eine Superierung B durch ein oder mehrere Elemente El oder Komponenten Em gebildet wird. Die bei sequentieller Superierung nacheinander entstehenden Komplexe Kp werden auch Superierungsstufen genannt.
Die mengenbildende Superierung zweier Mengen oder Ensembles A und B wird unter Beachtung der Reihenfolge allgemein als A q B notiert. Unter Verwendung des Symbols =: für die explizite Bezeichnung von Identitäten zeigt q =: d den Durchschnitt zweier Ensembles an, q =: s ihre Vereinigung, q =: m den Ausschluß des nachgestellten Ensembles und q =: o disjunkt das voran- oder nachgestellte Ensemble an. Ein Repertoire R(A) von geordneten Begriffen A wird auch Alphabet genannt. Durch nachgestellte Ziffern oder Kleinbuchstaben entsprechend A1 oder Aa wird auch auf einen bestimmten Begriff A hingewiesen. Die nachgestellten Kleinbuchstaben u, v, w, x, y und z werden für laufende Indizes reserviert, wobei mehrstellige Indizes auch durch Punkte getrennt werden und Axy oder Ax.y beispielsweise für A11 entsprechend x = 1 und y = 1 oder für A12.4 mit x = 12 usw. oder für Aab steht. Es wird definiert, daß der gleiche Indexbuchstabe, beispielsweise x, an unterschiedlichen Positionen oder nach unterschiedlichen Größen nicht notwendig den gleichen Zahlenwert anzeigt.
Ein quantitativer Bezug zwischen 2 skalaren Größen A und B wird allgemein durch A r B ausgedrückt. Hierbei bedeutet, wieder unter Beachtung der Reihenfolge, r =: k "A kleiner als B", kk "viel kleiner als", g "größer als", gg "viel größer als", ke "kleiner oder gleich", ge "größer oder gleich", ue "ungefähr gleich" und ne "ungleich". Gleichheit wird durch =, Identität durch = oder =:, Addition durch +, Subtraktion durch -, Multiplikation durch ×, Division durch einen Schrägstrich / bezeichnet, der je nach Zusammenhang auch die genannten Textproben T oder bedingten Wahrscheinlichkeiten p anzeigt.
Unter Wahrscheinlichkeit p(A) wird sowohl die relative Häufigkeit verstanden, mit der ein Gegenstand A in einem Bruchteil von betrachteten Fällen anzutreffen war oder ist, als auch der relative Erwartungswert für das Auftreten von A in einem Einzelfall / /17/ /. Hierbei werden unter einer Notation p(A) nicht nur Daten 1. Ordnung O(1), sondern gegebenenfalls auch bedingte, vom Vorliegen weiterer Ereignisse oder Gegenstände B, C usw. abhängige Wahrscheinlichkeiten p(A/B) der Ordnung O(2), p(A/B; C) der Ordnung O(3) usw. verstanden, wobei B gegebenenfalls auch das Nicht-Vorliegen B = nD eines weiteren Ereignisses D symbolisiert. Abhängigkeiten von weiteren Gegebenheiten wie Anordnungen Pr werden entsprechend als p(A/B; Pr) notiert. Gemäß p(B) × p(A/B) = p(A) × p(B/A) ist durch eine bedingte Wahrscheinlichkeit p(A/B) implizit auch die inverse Wahrscheinlichkeit p(B/A) gegeben. Erfindungsgemäß werden die Anordnungen Pr von Symbolen Gs in grammatischen Nachrichten TN durch diesen zugeordnete Valenzen Um unterschiedlichen Typs, durch einen Rang Ra, Positionen P wie allgemein auch durch Verknüpfungsknoten Uk näher definiert und geregelt. Wie ersichtlich, dient die Klammer (A) neben der genannten Anzeige von Klassenbildungen Kl auch konventionellen Symbolisierungen.
Einer, gegebenenfalls auch bedingten, Wahrscheinlichkeit p(A) wird eine Information j(A) = log(1/p(A)) zugeordnet, worin log den Logarithmus zur Basis 2 bezeichnet und j(A) als Informationsbetrag, in bit, definiert wird, der zum sicheren Wissen, daß A vorliegt, noch fehlt / /13/ /, S. 87 f. Danach hängt der Informationsbeitrag j(A), den ein Nachrichtensignal D über A liefert, vom Vorwissen ab. Folgt beispielsweise aus einem Signal D eine Wahrscheinlichkeit p(A/D) = 1, so liefert D eine Information von j = 1 bit, wenn a priori p(A) = 0,5 galt, dagegen 2 bit, wenn a priori p(A) = 0,25 anzunehmen war. Dabei wird, wie beim geschilderten gegenwärtigen Stand nicht immer beachtet, die Nachricht D wie auch der Sachverhalt A unterschieden von der als quantitative Eigenschaft hiervon gebildeten Information j.
Neben der Wahrscheinlichkeit p(A) und Information j(A) von Begriffen A wird eine Größe h(A) = p(A) × j(A) verwendet, welche in / /13/ /, S. 119 Unsicherheit genannt wird, hier im folgenden als Informationswert oder kurz Wert h(A) bezeichnet wird, worunter gegebenenfalls auch bedingte Werte h(A/B) der Ordnung O(2) usw. verstanden werden. Geringe Informationswerte h(A) k hs unterhalb eines Schwellwertes hs sind dadurch gekennzeichnet, daß, mit j k js, eine Größe A so häufig oder, mit p k ps so selten zu erwarten ist, daß sie im Mittel nur wenig Information j liefert, wobei durch die Bezeichnungen ps kk 1 und js kk 1 hier wie im folgenden ebenfalls Schwellwerte angezeigt werden.
Das erfindungsgemäße Verfahren M sieht vor, die Kommunikation sowohl in der Funktion des Autors At als auch des Hörers Hr mit Texten T durchzuführen, die entsprechend zu bildenden grammatischen Nachrichten TN mit Inhalten N zugeordnet sind. Bei deren Bildung ist allgemein durch den Autor At, wo möglich auch durch den Hörer Hr eine Bedingung Bs =: p(Em) ge ps einzuhalten, wonach die Zuordnung jeder Komponente Em zur betreffenden Nachricht TN mit einer einen Schwellwert ps nicht unterschreitenden, gegebenenfalls durch eine oder mehrere bereits verwendete Komponenten Em a TN bedingten, Wahrscheinlichkeit erfolgt. Eine Bedingung Bs erfüllende Nachricht TN wird auch als grammatisch korrekte Nachricht TNg, ihr Inhalt als grammatisch korrekter Inhalt Ng bezeichnet. Weiterhin werden, neben der oben eingeführten Bezeichnung T = Tf für einen bezüglich seines semantischen Inhalts F korrekten Text, die Bezeichnungen grammatisch korrekter Text Tg a TNg, grammatisch korrekter Hintergrund Eg a TNg und grammatisch korrekter Satz Sg a TNg verwendet.
Verfahren M sieht ferner allgemein vor, daß die bei der Kommunikation einzusetzenden Nachrichten TN aus Komponenten Em und Komplexen Kp wie gegebenenfalls auch Klassen Kl hiervon gebildet werden, deren quantitativ zu berücksichtigende Eigenschaften H(Em) beziehungsweise H(Kp) und H(Kl) einschließlich Wahrscheinlichkeiten p, Informationen j, Informationswerten h, Texteigenschaften H(T) wie auch Abstände a bei Positionen P durch entsprechend festzulegende Toleranzen dH, Schwellwerte ps, js oder hs wie auch Referenzwerte wie pr so den Gegebenheiten der betreffenden Sprachen L, der durchzuführenden Kommunikationsakte, der daran teilnehmenden Kommunikationspartnern Pa sowie der verfügbaren Vorrichtungen angepaßt werden, daß die Kommunikationsakte mit vertretbarem Aufwand, mit akzeptablen Fehlerraten und in zulässigen Bearbeitungszeiten durchführbar werden. So werden, auch unter Beachtung vorliegender Vorgaben Vr, die Schwellwerte ps und hs um so niedriger gewählt, je mehr Rechenkapazität und -zeit verfügbar sind und je höher die erwartete Rate der Normabweichungen und Fehler bei einlaufenden Texten T oder auch bei zu berücksichtigenden Vorgaben Vr anzusetzen ist.
Verfahren M wird aufgabengemäß in Verfahrensteile aufgegliedert, welche jeweils unter Beachtung vorliegender Vorgaben Vr durchzuführen sind. Hiervon betrifft Teil M1 die Erzeugung von grammatischen Nachrichten TN mit diesen zugeordneten ausgehenden Texten T, Teil M2 die Erzeugung von grammatischen Nachrichten TN durch Zuordnung entsprechend zu bildender grammatischer Inhalte N zu einlaufenden Texten T und Teil M3 die Übertragung einlaufender Texte T einer Ausgangssprache L in bezüglich semantischer Inhalte F ausreichend gleichbedeutende ausgehende Texte T' einer Zielsprache L', wobei die Texte T und T' entsprechend zu bildenden grammatischen Nachrichten TN beziehungsweise T'N' zugeordnet werden. Als Spezialfall umfaßt Teil M2 auch die Korrektur fehlerhafter einlaufender Texte T zu ausreichend normgerechten Texten T. Verfahren M sieht vor, auch abhängig von den zu leistenden Kommunikationsakten wie auch Vorgaben Vr, die Verfahrensteile M1, M2 und M3 jeweils auch unter Einsatz von durch die jeweils weiteren Teile M1, M2 und M3 gegebenen Maßnahmen durchzuführen, wobei M2 in M1, M1 in M2 und M1 und M2 in M3 Anwendung finden. Maßnahmen zur aufgabengemäß gegebenenfalls unter Mitwirkung von Experten vorzunehmenden Erzeugung der für die Durchführung der Teile M1, M2 und M3 benötigten Begriffe, welche durch die, im folgenden auch als Grammatiken bezeichneten, Daten Ws beschrieben werden, werden in einem weiteren Verfahrensteil M4 zusammengefaßt, bei welchem in verschiedenen Ausgestaltungen auch gemäß einem oder mehreren der Verfahrensteile M1, M2 und M3 ausgeführte Kommunikationsakte Anwendung finden.
Die genannten Vorgaben Vr umfassen allgemein durch Nutzer, gegebenenfalls auch Kommunikationspartner Pa in eindeutig kodierter oder auch natürlichsprachlicher Form einzubringende Hinweise und Forderungen zur Durchführung der jeweils anstehenden Kommunikationsakte. Entsprechend gehören hierzu eine oder mehrere Forderungen wie beispielsweise die Sprache L einlaufender Texte T zu bestimmen, solchen Texten T Nachrichten TN zuzuordnen, Texte T zu korrigieren, vom Mündlichen ins Schriftliche oder umgekehrt oder auch in bestimmte Fremdsprachen L zu übertragen, Repertoires R beispielsweise in Form lexikalischer Wörter vorgegebener Begriffe zu auszugebenden Texten T zu verarbeiten, Texte T zu markieren, auszugeben, Partner Pa auszuwählen, Lösungsprobleme bekanntzugeben und zu hinterfragen, Schwellwerte zu verwenden oder abzuändern usw. Weitere Vorgaben Vr folgen auch aus den für die Verfahrensteile M1 bis M3 vorgesehenen Ablauforganisationen wie gegebenenfalls auch aus Eigenschaften einlaufender Texte T wie Sprechgeschwindigkeiten, Fehlerraten usw.
Die Erfindungsbeschreibung wird am Beispiel der genannten bevorzugten Ausgestaltung fortgeführt, in der als Textsymbole Gt objektive Wörter Vt = (Ts) und als grammatische Symbole Gr hieraus als disjunkte Klassen gebildete Einheiten G = (Vt) verwendet werden. In einer weiteren Ausgestaltung werden, auch in Anpassung an die betreffenden Sprachen L, Wörter Vt als Textsymbole Gt1 eingesetzt, die als Komplexe Vt = ZZ der oben eingeführten Zeichen Z gebildet werden, welche als weitere, als disjunkte Klassen Z = (Tr) von Textabschnitten Tr definierte Textsymbole Gt2 = Z eingesetzt werden. Hierbei wird also für eine Sprache L neben einem Repertoire R1(Gt1) von Symbolen Gt1 = Vt ein für diese wie gegebenenfalls auch weitere Sprachen L einzusetzendes Repertoire R2(Gt2) verwendet. In weiteren Ausbildungen werden gegebenenfalls solche Textsymbole Gt2 auch in einer oder mehreren Superierungshierarchien als Komplexe Kp weiterer Textsymbole Gt3 usw. weiterer Repertoires R3(Gt3) usw. gebildet, beispielsweise objektive Wörter Vt als Komplexe Vt = ZaZa von Zeichen Z = Za, diese wiederum als Komplexe Za = ZbZb von Zeichen Zb usw. Die die Texte Tr a Z bestimmenden Texteigenschaften H(T) mit Toleranzen dH werden vorzugsweise so festgelegt, daß die Repertoires R2(Gt2) usw. wie R(Za) durch den verfügbaren Vorrichtungen angepaßte Datenmengen beschreibbar werden. Hierbei werden die Wörter Vt = (Ts) auch als disjunkte Klassen Vt = (ZZs) von diesen jeweils in begrenzter Anzahl zugeordneten Komplexen ZZ = ZZs solcher Zeichen Z formuliert mit der Folge, daß die gemäß Verfahren M zu berücksichtigenden Daten Ws der betreffenden Sprachen L nur eine begrenzte, der Kapazität verfügbarer Vorrichtungen anpaßbare Datenmenge erfordern. Entsprechend ihren allgemein als Komplexbildungen Kp der genannten Texteigenschaften H(T) zu beschreibender Eigenschaften, welche gegebenenfalls jeweils auch als Repertoires R(H(T)) mehrerer solcher Eigenschaften H(T) zu verstehen sind, werden die Zeichen Z kurz auch als Merkmale Z bezeichnet. Der oben eingeführten Terminologie folgend werden die Toleranzen dH der den Texten Tr a Z wie auch Ts a Vt zugeordneten Eigenschaften H(T) kurz auch als Toleranzen dT wie auch dTr beziehungsweise dTs bezeichnet.
In einer bevorzugten Ausgestaltung der Erfindung werden Repertoires R2(Gt2) = R2(Z) von Zeichen Z eingesetzt, deren Merkmale H(T) mit Toleranzen dH so festgelegt werden, daß sie in Textabschnitten Tn, welche auf eine Länge zwischen den durchschnittlichen Längen der Textteile Ts a Gt1 des Repertoires R1(G1) und Tr a Z des Repertoires R2(Z) einer Sprache L normiert werden, mit ausreichend hohen Informationswerten h(Z/Tn) g hs oberhalb eines festzulegenden Schwellwertes hs vorkommen, was kurz auch als h(Z/Vt) g hs notiert wird. Entsprechend wird gegebenenfalls für weitere Zeichenhierarchien auch h(Zb/Za) g hs usw. gefordert. Hierdurch wird vorteilhaft erreicht, daß die vorgesehene Bildung grammatischer Nachrichten TN mit Repertoires R(Gs) von Symbolen Gs möglich wird, welche jeweils beschränkte, Redundanzen weitgehend vermeidende Repertoires R(Gt) von Textsymbolen Gt umfassen, welche durch ein entsprechend beschränktes Datenvolumen beschreibbar werden, wobei zugleich unnötige Vieldeutigkeiten, die zu kombinatorischen Explosionen der in Betracht zu ziehenden Entscheidungsbäume und somit zu einem hohen Verarbeitungsaufwand führen könnten, vermieden werden. Repertoires R(Za) von in mehreren Superierungshierarchien einander zugeordneten Zeichen Za = ZbZb usw. werden vorteilhaft insbesondere bei Sprachen L eingesetzt, deren Texte T, beispielsweise mündlich oder handschriftlich, in Analogform geäußert werden, bei denen also ein Textsymbol Gt = (T) durch eine disjunkte Klasse Kl von mit hoher Varianz voneinander unterschiedlichen Textabschnitten T a Gt repräsentiert wird. Die Verwendung von in mehreren Superierungshierarchien einander zugeordneten Zeichen Za = ZbZb usw. ist dabei vorteilhaft insbesondere auch für solche Sprachen L vorgesehen, deren den Wörtern Vt zugeordnete Textabschnitte Ts a Vt durch einen vergleichsweise hohen Komplexitätsgrad gekennzeichnet sind. Die Beschreibung der Texte Ts a Vt wird so aufwandsparend durch vergleichsweise kleine Repertoires R(Za) und R(Zb) usw. von Textsymbolen Gt des Typs Za und Zb usw. möglich, während eine Beschreibung dieser Texte Ts durch Merkmale Za einer einzigen Hierarchie den Einsatz wesentlich umfangreicherer, rechnerisch schwerer zu beherrschenden Repertoires R(Za) von Textsymbolen Za erfordern würde.
Die Erfindung sieht vor, die Repertoires R(Gs) der Symbole Gs der Sprachen L jeweils alphabetisch zu ordnen. In einer Ausbildung hiervon erfolgt die Ordnung in Richtung fallender Informationswerte h(Gs). Entsprechend erfolgt die Ordnung der Zeichen Z nach fallenden Werten h(Z/Vt) wie auch h(Zb/Za) usw. Bei der vorgesehenen Verwendung von Zeichen Z mit ausreichend hohen Informationswerten h(Z) ge hs entspricht dies einer Ordnung nach abnehmenden Wahrscheinlichkeiten p(Z). Definitionsgemäß werden Textsymbole Gt wie Wörter Vt und Zeichen wie auch Superzeichen Z auch als Supertexte bezeichnet.
In einer vorteilhaften Ausgestaltung werden den Textsymbolen Gt auch jeweils ein oder mehrere Normtexte Ta a Gt, entsprechend also Tsa a Vt beziehungsweise Tra a Z, zugeordnet. In einer Ausbildung werden den Texten T a Gt zugeordnete Toleranzen dT auf solche Normtexte Ta bezogen. Entsprechend ist in einer weiteren Ausgestaltung vorgesehen, Textsymbolen Gt1 = ZZ, die als Komplexe ZZ einer untergeordneten Hierarchie von Textsymbolen Gt2 = Z gebildet werden, jeweils einen oder mehrere Normkomplexe ZZa a Gt1 zuzuordnen, wobei also Wörter Vt durch entsprechende Normkomplexe ZZsa a Vt und Superzeichen Z = Z1 durch Normkomplexe Z2Z2ra a Z1 von diese als Komplexe Kp bildenden Zeichen Z = Z2 gekennzeichnet werden.
Entsprechend der vorgesehenen Definition von Texten T als Merkmalskomplexe Kp = H(T)H(T) von Merkmalen H(T) mit Toleranzen dH, welche mit ausreichend hohen Wahrscheinlichkeiten p(Z/H(T)) k 1 Zeichen Z zugeordnet werden, werden in Kommunikationsakten anfallende Texte T auch als jeweils disjunkte Klasse Kl = T = ZZ1 o ZZ2 o . . . = (ZZx) mehrerer solcher Merkmalskomplexe ZZx behandelt. In einer vorteilhaft vereinfachten Ausbildung wird hierbei unter Anwendung des Prinzips maximaler Entropie für die Wahrscheinlichkeiten p(T/ZZx) Gleichverteilung festgelegt. Entsprechend werden als Komplexe Kp solcher Merkmale Z gebildete Textsymbole Gt wie Wörter Vt oder Superzeichen Z1 ebenfalls als Komplexe Vt = ZZ beziehungsweise Z1 = Z2Z2 solcher Zeichen Z beziehungsweise Z2 geschrieben, wobei erfindungsgemäß Texte T = ZZ nicht ausgeschlossen werden, in welchen Textsymbole Gt auch durch von Normen ZZa abweichende, gegebenenfalls auch als fehlerhaft zu bezeichnende Komplexe ZZ repräsentiert werden, wobei durch einen Textabschnitt T gegebenenfalls mehrdeutig disjunkt zugleich auch unterschiedliche Zeichen wie auch Superzeichen Z mit Wahrscheinlichkeiten p(Z/T) k 1 und entsprechend p(T/Z) k 1 angezeigt werden.
Als Merkmale H(T) von Zeichen Z werden durch Toleranzen dH definierte Teile von Textsignalen T wie auch hieraus durch mathematische Operationen ableitbare Merkmale eingesetzt, wobei als Operationen beispielsweise Differationen oder Spektralanalysen berücksichtigt werden. Entsprechend umfassen die Merkmale mündlicher Texte T auch Elemente der Prosodie / /24/ /, bei Schrifttexten T auch Hinweise auf Textabwandlungen, Abgrenzungen, Abstände, Zusammenziehungen, Interpunktionen wie auch der Groß- und Kleinschreibung. Weiterhin werden als Zeichen Z auch eingeführte natürliche Zeichen wie Buchstaben, Silben- und Wortzeichen wie auch Ideogramme verwendet. Bei digital kodierten Daten Ws werden zur Kodierung der Zeichen Z wie weiterer Symbole Gs vorzugsweise monoton mit der von ihnen erbrachten Information j(Gs) ansteigende Datenmengen verwendet. Entsprechend den Gegebenheiten der Sprachen L werden neben gegebenenfalls verwendeten Alphabeten von Superzeichen Za = ZbZb wie beispielsweise natürlichen Zeichen wie Buchstaben oder Phonemen auch ein oder mehrere hierarchisch untergeordnete Alphabete R(Z) von Merkmalen Zb = (Tr) eingesetzt, deren Zahl die der Superzeichen Za, gegebenenfalls auch wesentlich, übersteigt.
Den Texten T von Sprachen L mit mündlich oder auch handschriftlich geäußerten Texten T werden Merkmale Z = (Ts) vorzugsweise so zugeordnet, daß bestimmte Eigenschaften H(Tr) eines zugeordneten Textsignals Tr über die Länge seines Verlaufs in Textrichtung innerhalb bestimmter Toleranzen dH als Merkmale annähernd konstant bleiben. Zu diesen Eigenschaften gehören oben genannte Parameter wie beispielsweise die spektrale Verteilung der akustischen Leistung wie auch zeitliche Ableitungen hiervon, bei handschriftlichen Texten T entsprechend Parameter wie Strichrichtung, wie sie bei Auf- oder Abstrichen oder auch Strichkrümmung, wie sie bei Bögen und Schlaufen anzutreffen sind. Entsprechend werden ausreichend hohe zeitliche Ableitungen höherer Ordnung beispielsweise bei Lautstärke, Frequenz oder Frequenzspektrum beziehungsweise Änderungen der Strichrichtung als Teilungshinweise für die Zeichen Z benutzt, während in einer weiteren Ausbildung solche Teiler als weitere Merkmale Z eingesetzt werden. In einer oder mehreren der nachfolgend genannten Ausgestaltungen werden Repertoires R(Zx) von Merkmalen Zx = (Tryx) = R(H(Tryx)) mit Toleranzen dTr so festgelegt, daß für einen Text Try1 a Z1, der einem Zeichen Z1 mit ausreichend hoher Wahrscheinlichkeit p(R(H(Try1))/Z1) bezüglich seiner Eigenschaften H(Try1) zugeordnet ist, überwiegend geringe Wahrscheinlichkeiten p(R(H(Try1))/Z2) k ps für die Zuordnung zu den weiteren Zeichen Z2 a R(Zx) gelten. Für serielle Sprachen L werden die Merkmale Zx so festgelegt, daß sich die Texte Ts a Vt der Wörter Vt = (Ts) in den Texten T = ZxZx = TsTs als Folgen aneinandergrenzender, im Regelfall nicht überlappend angeordneter Zeichenfolgen ZZ ergeben. Es wird berücksichtigt, daß insbesondere bei mündlichen Sprachen L bestimmte Laute Z = Z1 gelegentlich zugleich als Endlaut Z1 a Vt11 eines vorangestellten Wortes Vt11 und als Anfangslaut Z1 a Vt21 des darauffolgenden Wortes Vt21 fungieren, so daß solche Zeichen Z1 in Texten T in solchen Fällen jeweils, nicht disjunkt, zugleich zwei Wörter Vt11 und Vt21 an den entsprechenden Positionen P anzeigen, wie es beispielsweise bei der Zusammenziehung zweier durch /hast/ und /du/ angezeigter Wörter Vt zu einem durch T = /hasdu/ angenäherten Text zu beobachten ist. Entsprechend den Gegebenheiten der Sprachen L wird so allgemein berücksichtigt, daß Zeichen Z an bestimmten Positionen P eines Textes T a TN disjunkt nur ein Wort Vt, weitere Zeichen Z dagegen auch zugleich 2 Wörter Vt eines Inhalts N anzeigen, im Regelfall aber kein Zeichen Z zugleich mehr als 2 Wörter Vt a N anzeigt. Wo nicht anders angegeben, erfolgt die Erfindungsbeschreibung ohne Einschränkung an Allgemeingültigkeit am Beispiel von Sprachen L, deren Texte T seriell durch eindimensional aneinandergereihte Komplexe T = ZZ von Zeichen Z dargestellt werden. Die in einer weiteren Ausführungsform hierbei ebenfalls als Zeichen Z verwendeten Operatoren Z =: o werden unter erläutert. Erfindungsgemäß werden Texte T mit Textabschnitten T1 a T zugelassen, die zugleich disjunkt auch unterschiedlichen Zeichen Z zugeordnet werden oder auch keinem Zeichen Z zuordenbar sind und entsprechend als Rauschen oder Störungen in den Nachrichten N auszusondern und zu vernachlässigen sind.
Entsprechend der in Sprachen L anzutreffenden Möglichkeit, daß ein als Superzeichen Vt = (ZZsx) einer disjunkten Klasse Kl einer beschränkten Anzahl von Zeichenkomplexen ZZsx definiertes objektives Wort Vt in Texten T durch eine disjunkte Klasse Vt = (Tsy) einer theoretisch unbegrenzten Anzahl von Textabschnitten Tsy repräsentiert werden kann, sind anstelle der entsprechend geringen Zuordnungswahrscheinlichkeiten p(Tsy/Vt) g ps2 wesentlich höhere Wahrscheinlichkeiten p(ZZsx/Vt) g ps1 zu berücksichtigen, wodurch der für die Komplexbildung von grammatischen Nachrichten TN erforderliche Aufwand, insbesondere auch bei Anwendung der unten ausgeführten nichtlinearen Informationsverarbeitung Bb, wesentlich verringert wird. Im einzelnen ergeben sich aus dem in den genannten bevorzugten Ausgestaltungen der Erfindung vorgesehenen Aufbau der zugleich als grammatische Symbole Gr und Textsymbole Gt fungierenden objektiven Wörter Vt aus weiteren, in den Texten T mit ausreichend hohen Informationswerten h(Z) zu detektierenden Textsymbolen Gt = Z beschränkter Alphabete R(Z) auch die folgenden Vorteile: Zum einen ist zur Beschreibung der den Wörtern Vt zugeordneten Merkmalskomplexe ZZs a Vt jeweils durchschnittlich ein wesentlich geringeres Datenvolumen bereitzustellen, als es zur Beschreibung der Koordinaten Tx a Ts der Signale der ihnen disjunkt zugeordneten Texte Ts a Vt anzusetzen wäre. Des weiteren wächst insbesondere bei Analogtexten, auch bedingt durch wachsende Autorenzahlen, die Anzahl der pro Wort Vt anfallenden voneinander unterschiedlichen Textabschnitte Ts a Vt und somit das bereitzustellende Volumen der zur Beschreibung der Textsignalkoordinaten Tx a Ts benötigten Daten monoton mit der Länge der anfallenden Texte T an, während die Zahl der pro Wort Vt, auch unter Berücksichtigung möglicher Fehler, anfallenden Zeichenkomplexe ZZs a Vt mit wachsender Textlänge frühzeitig eine Sättigung entsprechend einem rechnerisch wesentlich leichter beherrschbaren Datenvolumen erreicht. Der Vorteil dieser Datenreduzierung wird durch einen zusätzlichen Verarbeitungsaufwand, wie er aufgrund der Zuordnungsmöglichkeiten mehrerer unterschiedlicher Zeichenkomplexe ZZ zu einem Text T mit der hieraus folgenden Notwendigkeit der Bestimmung eines jeweils zu bevorzugenden Komplexes ZZ durch Zuordnung zu einem entsprechend zu bildenden grammatischen Inhalt N erwächst, nur vergleichsweise geringfügig abgeschwächt.
Die als grammatische Symbole Gr verwendeten Einheiten G werden in einer vorteilhaft datensparenden Ausbildung auch als in einer oder mehreren Hierarchien gebildete Superierungen G = CC wie auch G = (C) von Klassen C = (B) von Begriffen B gebildet, wobei als Begriffe B Wörter Vt wie auch als Teilwörter vt bezeichnete Teile hiervon wie auch als Teileinheiten g = (vt) bezeichnete Teilwortklassen (vt) mit vt a g verwendet werden. Insbesondere werden als Klassen C auch Teileinheiten g = g1 eingesetzt, die in anderen Nachrichten TN auch als eigene Einheiten g1 = G1 Verwendung finden. In vereinfachten Darstellungen werden so als Komplexe Kp solcher Teileinheiten g1 aufgebaute Einheiten G2 = g1g1 auch G2 = G1G1 geschrieben. Vorteilhaft werden hierbei den Teileinheiten g1 = G1 gegebenenfalls zugeordnete und durch die Komplexbildung zu G2 nicht gesättigte Valenzen Um für die Zuordnungen Pr weiterer Einheiten G zu G2 in Hintergründen E berücksichtigt, wie es unten an Beispielen erläutert wird. Definitionsgemäß ergib sich ein Wort Vt2y a G2 einer als Komplex, in seriellen Sprachen L also als Folge, weiterer Teileinheiten g1 gebildeten Einheit G2 = g1g1 als Permutation Vt2y = vt1y,vt1y der Teilwörter vt1y a g1 unter Beachtung ihrer Zuordnungen Pr. Die den Teilwörtern vt = (T) zugeordneten Textteile T a Ts von Worttexten Ts a Vt werden auch als ts a vt bezeichnet, wobei ein Worttext Ts a Vt entsprechend als Permutation Ts = tsts von Teilworttexten ts a vt a gt erzeugt wird. Einzelheiten dieser Formulierungsweise werden im unten angeführten Sprachbeispiel 1) erläutert, wo Einheit G131 als aus 3 Teileinheiten g21, g31 und g22 gebildeter Komplex Kp formuliert wird, während Einheit G11 = g9g8 einen Komplex Kp darstellt, in dem 2 weitere Einheiten G9 und G8 hier als Teileinheiten g9 und g8 fungieren. Entsprechend ergibt sich ein Wort Vt11.y a G11 als Permutation Vt11.y = vt9.y,vt8.y zweier den Komponenten Em a G11 zugeordneter Teilwörter vt = Vt. Hierbei wird in einer vorteilhaft datensparenden Ausbildung bei Komplexen wie G11 = g9g8 durch eine Positionsangabe P(a) = g9:g8 der unter definierten Art angezeigt, daß Komponente g8 sowohl Komponente g9 wie gegebenenfalls auch sämtlichen weiteren, g9 als Anhänger An(g9) usw. rangniedriger zugeordneten Einheiten G nachzustellen ist, was durch entsprechende Toleranzangaben da für den Abstand a berücksichtigt wird.
Der gemäß Verfahren M vorgesehene Aufbau grammatischer Nachrichten TN aus disjunkten Symbolen Gs wird auch als Bedingung Cs bezeichnet. Danach wird beispielsweise bei einer Einheit Gx = (Vt) mit Vt = (ZZs) und (Z a Vt) = (Tr) in einer Nachricht TN diese Einheit Gx durch ein Wort Vt a Gx, dieses Wort Vt durch einen Zeichenkomplex ZZ a Vt und ein Zeichen Z a ZZ durch einen Textabschnitt Tr a Z, und zwar in der jeweils durch die Anordnung Pr gegebenen Zuordnung Pr beziehungsweise Position P vertreten. Hierbei schließt das Vorkommen einer disjunkten Einheit G1 in einer Nachricht TN nicht aus, daß G1 wie gegebenenfalls auch ein Symbol Gs a G1 in dieser Nachricht in anderen Zuordnungen Pr, wieder jeweils unter Einhaltung von Bedingung Cs, auch noch weitere Male anzutreffen ist.
Wie auch dem unten diskutierten Beispiel 1) anhand der Formulierungen der Einheiten G131, G6, G11 und G16 zu entnehmen ist, werden die erfindungsgemäß als Symbole Gr und Gt einzusetzenden objektiven Wörter Vt in Texten T durch Textabschnitte Ts repräsentiert, welche sowohl natürliche Wörter wie auch Teile hiervon wie auch aus mehreren natürlichen Wörtern wie auch Teilen hiervon gebildete Komplexe Kp umfassen, welche gegebenenfalls auch Textteile T wie Interpunktionen, Abstände oder auch Absätze mit einschließen.
Während die bei den geschilderten herkömmlichen Sprachverfahren übliche Verwendung lexikalischer Wörter und gegebenenfalls auch diesen zugeordneter grammatischer Kategorien entsprechend der in der betreffenden natürlichen Sprache L anzutreffenden Vielfalt möglicher Kombinationen solcher Wörter wie auch Kategorien die Berücksichtigung von in der gerätetechnischen Praxis nicht mehr bewältigbaren Mengen von Bezugsdaten vielfach auch hoher Ordnung O(n) zwischen diesen Wörter oder auch Kategorien erfordert, macht der erfindungsgemäße Einsatz von den genannten Transformationen Q genügenden objektiven Wörtern Vt deren Zusammenfassung zu einer vergleichsweise sehr geringen Anzahl von Oberbegriffen G möglich, in welchen die grammatischen Bezugsmöglichkeiten der Wörter Vt in grammatischen Nachrichten TN entsprechend den Möglichkeiten der Anordnungen Pr dieser Oberbegriffe G zusammengefaßt und durch praktisch handhabbare Daten von überwiegend niedriger Ordnung O(n) beschreibbar werden.
Die Erfindung sieht vor, die bei mehrsprachigen Kommunikationsaufgaben anfallenden Übertragungen von Texten T einer Ausgangssprache L in Texte T' einer Zielsprache L' unter Verwendung der genannten Vokabeln Vqq durchzuführen, worin entsprechend der angeführten bevorzugten Ausgestaltung als Symbole Gt objektive Wörter Vt berücksichtigt werden. Diese Vokabeln Vqq geben, auch als Vqq =: Vq = R(Vq') notierte, Bezüge jeweils eines Komplexes Kp = Vq = VtVt von Wörtern Gt = Vt der Sprache L zu einem disjunkten Repertoire R(Vq') von Komplexen Vq' = Vt'Vt' von Wörtern Gt' = Vt' von L' an, welche durch bedingte Wahrscheinlichkeiten p(Vq'/Vq) g ps oberhalb von Schwellwerten ps näher bestimmt sind, wobei in den Komplexen Vq und Vq' die Anordnungen Pr der als grammatische Symbole Gr beziehungsweise Gr' eingesetzten Einheiten G und G' berücksichtigt werden, denen die Wörter Vt beziehungsweise Vt' angehören. Definitionsgemäß stellen die, ebenfalls kurz als Vokabeln bezeichneten, Komplexe Vq und Vq' Komplexe von Symbolen Gs dar, die sowohl den Textsymbolen Gt, grammatischen Symbolen Gr wie auch semantischen Symbolen Gp zuzurechnen sind. Entsprechend den unterschiedlichen Gegebenheiten von Sprachen L und L' wird hierbei nicht ausgeschlossen, daß die Wörter Vt beziehungsweise Vt' einer Vokabel Vq oder Vq' auch unterschiedlichen Nachrichten TN beziehungsweise T'N' von, einer Äußerung Tp oder Tp' zugeordneten, Komplexen TN,TN beziehungsweise T'N',T'N' angehören. Die Vokabeln Vq und Vq' werden ebenfalls als Komponenten Em der betreffenden Nachrichten TN beziehungsweise T'N' behandelt.
Aus der oben gegebenen Definition der mündlichen und schriftlichen Versionen der in einer Sprachgemeinschaft X gebrauchten Sprache als unterschiedliche Sprachen L und L' folgt, daß für Übertragungen vom Mündlichen ins Schriftliche und umgekehrt Vokabeln Vqq zu verwenden sind, welche entsprechend den Transformationen Q auch jeweils aus einem objektiven Wort gebildete Vokabeln Vq = Vt und Vq' = Vt' einander zuordnen, welche gemäß obiger Definition ebenfalls als Komplexe Kp = Vq beziehungsweise Vq' bezeichnet werden. Die gemäß Verfahrensteil M3 von M unter Verwendung der Vokabeln Vqq vorzunehmenden Übertragungen zwischen Sprachen L und L' werden unten behandelt.
Verfahren M sieht allgemein vor, die grammatischen Nachrichten TN, in der unten beschriebenen bevorzugten Ausbildung auch unter Berücksichtigung des Bayesschen Ansatzes Ba, aus disjunkten Repertoires R(Em) von Komponenten Em zu erstellen, welche gemäß den anzuwendenden Daten Ws mit Wahrscheinlichkeiten p(Em/Ad) g ps oberhalb festzulegender Schwellwerte ps durch Adressen Ad angezeigt werden, wobei als Adressen Ad Symbole Gs wie auch hieraus aufgebaute Komplexe Kp eingesetzt werden, welche in vorliegenden, als Evidenz behandelten Daten D einschließlich Vorgaben Vr anzutreffen sind wie auch durch diese mit ausreichend hohen Wahrscheinlichkeiten p(Ad/D) g ps angezeigt werden. Hierbei werden gemäß den anzuwendenden Daten Ws zur Anzeige von als Komponenten Em einzusetzenden Symbolen Gs = Gs1, welche klassen- oder komplexbildende Superierungen Gs1 = (Gs2) beziehungsweise Gs1 = Gs2Gs2 von Symbolen Gs2 einer niedrigeren Superierungshierarchie darstellen, Elemente (El a Gs1) = Gs2 beziehungsweise Komponenten (Em a Gs1) = Gs2 wie auch aus solchen Komponenten Em gebildete Komplexe Kp = Gs2Gs2 als Adressen Ad verwendet, wobei entsprechend ein Symbol Gs1 auch durch mehrere in einer Evidenz D zugleich vorliegende Adressen Ad angezeigt werden kann. Hierzu werden grammatische Daten Ws verwendet, in denen die Symbole Gs1 einer Superierungshierachie jeweils in einer Liste Wsi geordnet nach einem als Alphabet geordneten Repertoire R(Ad) der ihnen zuordenbaren Adressen Ad aufgeführt sind. In einer bevorzugten Ausbildung erfolgt die alphabetische Ordnung in Richtung fallender Wahrscheinlichkeiten p(Ad). Definitionsgemäß werden als Adressen Ad auch in Evidenzen D anzutreffende, als Zeichen Z eingesetzte Textmerkmale Z = H(T) sowie Komplexe ZZ hiervon eingesetzt. In einer weiteren Ausbildung werden allgemein Symbole Gs = Gs3, welche mit ausreichend hohen Wahrscheinlichkeiten p(Gs1/Gs3) mit Symbolen Gs1 verknüpft sind, als Adressen Ad für diese Symbole Gs1 eingesetzt. In den Wahrscheinlichkeiten p(Em/Ad) werden entsprechend einer Notierung p(Em/Ad; Pr) g ps gegebenenfalls auch Anordnungen Pr der Komponenten Em und Adressen Ad berücksichtigt, wie sie durch ihre Positionen P sowie die unten beschriebenen Valenzen Um der Einheiten G bestimmt sind. Erfindungsgemäß wird nicht ausgeschlossen, daß eine an einer Position P angetroffene Adresse Ad auch mehrere Komponenten Em a R(Em) eines im Regelfall disjunkten Repertoires R(Em) in gegebenenfalls auch unterschiedlichen Anordnungen Pr, also auch Positionen P, anzeigt.
In einer weiteren Ausgestaltung werden die Symbole Gs1 einer Superierungshierarchie geordnet nach Adressen Ad und in mehreren Listen Wsi aufgeführt, welche sich durch die Bereiche der hiervon abgedeckten Wahrscheinlichkeiten p(Gs1/Ad) voneinander unterscheiden, wobei die Listen Wsi für die Auswahl der aufgrund angetroffener Adressen Ad in den gemäß dem Bayesschen Ansatz Ba zu berücksichtigenden Konkurrenzhypothesen Ks zu berücksichtigenden Symbole Gs1 in einer Reihenfolge nach fallenden Wahrscheinlichkeiten p(Gs1/Ad) herangezogen werden.
Allgemein sieht die Erfindung die Möglichkeit vor, alle Arten von vorliegenden Hinweisen und Daten D einschließlich Vorgaben Vr, welche Information j über die einzusetzenden Komponenten Em liefern und gegebenenfalls auch zu Einschränkungen und Präzisierungen der zu berücksichtigenden Repertoires R(Em) führen, als Adressen Ad einzusetzen. Um ihr Repertoire R(Ad) in einem bearbeitbaren Rahmen zu halten, werden entsprechend der bevorzugten Festlegung von Zeichen Z bevorzugt Adressen Ad eingesetzt, welche ausreichend hohe Informationswerte h(Em/Ad) g hs liefern. In Anpassung an die Kommunikationsakte werden hierbei für Textsymbole Gt als Komponenten Em um so niedrigere Schwellwerte hs gewählt, je höher die zu erwartende Varianz der ein Symbol Gt anzeigenden Daten D wie Textabschnitte T oder Merkmalskomplexe ZZ einschließlich der Möglichkeiten ihrer Anordnungen Pr wie auch die für das betreffende Symbol Gt zu erwartende Fehlerrate anzusetzen ist. Die entsprechend vorgesehene Berücksichtigung einer jeweils geringen Anzahl von Adressen Ad wie auch nur einer einzigen Adresse Ad bei weitgehend normgerecht formulierten einlaufenden Texten T führt andererseits in Anpassung an die jeweilige Aufgabe zu einem niedrigen Speicherbedarf und zu vorteilhaft kurzen Adressierzeiten für die betreffenden Symbole Gt.
Entsprechend der angeführten, im Regelfall disjunkten Zuordnung von Textabschnitten T zu den verwendeten Textsymbolen Gt werden auch die Adressen Ad als im Regelfall disjunkt definiert. Hierdurch wird ausgedrückt, daß eine Adresse Ad wie beispielsweise in Zeichen Z1 an einer Position P1 entweder ein Symbol Gs1 o Gs2 o Gs3 o . . . an der betreffenden Position P1 anzeigen kann, also beispielsweise in Wort Vt11 mit Z1 a Vt11 oder Vt21 mit Z1 a Vt21 usw., wobei aber die oben am Beispiel des mündlichen Textes /hasdu/ erläuterte Möglichkeit der Zugehörigkeit eines Zeichens Z zu 2 aneinandergrenzenden Symbolen Gs berücksichtigt wird. Wird entsprechend obiger Definition eine Komponente Em = B zugleich durch mehrere angetroffene Adressen Ad1, Ad2 usw. angezeigt, so gilt für ihr Vorliegen eine Wahrscheinlichkeit p(B) ke p(B/Ad1) + p(B/Ad2) + . . . usw., wobei bei statistischer Unabhängigkeit der Adressen Ad voneinander anstelle von ke das Gleichheitszeichen gilt. Die Erfindung sieht vor, beim Vorliegen von als disjunkt bekannten Adressen Ad, welche alternativ verschiedene Begriffe B anzeigen können, für vorzunehmende Komplexbildungen vorrangig solche Begriffe B zu verwenden, welche mit insgesamt ausreichend hohen Wahrscheinlichkeiten p(B/Ad) g ps adressiert werden.
Die vorgesehene Verwendung geordneter Wörterlisten Wsi hat zur Folge, daß das, auch als Adressieren bezeichnete, Auffinden möglicherweise in den grammatischen Nachrichten TN einzusetzender Komponenten Em aufgrund vorliegender Daten D mit einem vertretbaren, an verfügbare Vorrichtungen wie auch an die zu leistenden Kommunikationsakte anpaßbaren Aufwand möglich wird.
Die Verwendung von aus Textsymbolen Gt = Z gebildeten Adressen Ad = ZZ für Wörter Vt = (ZZs) mit zugeordneten Zeichenkomplexen ZZs a Vt wird anhand des unten ausgeführten Beispiels 1) aus der deutschen Schriftsprache erläutert, bei dem als Zeichen Z normgerecht formulierte Druckbuchstaben Z = Tra verwendet und Texte T entsprechend als Komplexe T = ZZ = TraTra solcher Buchstaben behandelt werden. Hierzu wird der dort als Teilwort eingesetzte Komplex vt31.1 behandelt, der in fehlerfreien Texten T als Zeichenfolge ZZs = vt31.1 = Z1Z2Z3 = /_er/ geschrieben wird, in dem Z1 = /_/, wie unten definiert, als Operator o das Einhalten eines Abstands zu einem im Text T vorangestellten Textabschnitt T symbolisiert. In einer datensparenden, für fehlerfreie Texte T geeigneten Ausbildung wird als einzige Adresse Ad = ZZ die Zeichenfolge Ad1 = /_er/ verwendet. In einer Ausbildung, die für aus Normzeichen Z gegebenenfalls auch fehlerhaft zusammengesetzte Texte T = ZZ geeignet ist, werden als weitere Adressen Ad2 = /_e/ = Z1Z2, Ad3 = /er/ = Z2Z3 und Ad4 = /_r/ = Z1Z3 eingeführt, in einer noch robuster gegen Fehler gehaltenen Ausbildung weiterhin Ad5 = /e/ = Z2 und Ad6 = /r/ = Z3, wobei bei den als Adressen benutzten Komplexen Ad = ZZ auch entsprechende Toleranzen dP bei den Positionsangaben P für die Zeichen Z a vt berücksichtigt werden. Beispielsweise wird so bei Ad4 ein Abstand a zwischen Z1 und Z3 von mindestens einem bis zu maximal 2 Zeichen Z festgelegt, wobei entsprechend durch den Text T entweder die Position P von Z1 oder von Z3 oder auch von beiden Zeichen Z bestimmt wird. So wird etwa unter Verwendung von Ad4 das Teilwort vt31.1 auch in Texten T an der entsprechenden Position P adressiert, denen Zeichenfolgen wie ZZ1 = /kommt r heute?/ oder ZZ2 = /kommt dr heute?/ zuordenbar sind. In einer Zeichenfolge ZZ3 = /kommter heute?/ wird Vt31.1 an der entsprechenden Position P durch Ad3 = Z2Z3 adressiert. In Anpassung an die Gegebenheiten einlaufender Texte T werden bei der Festlegung von Adressen Ad auch vergleichsweise häufige Fehlerquellen berücksichtigt wie beispielsweise das Vertauschen aufeinanderfolgender Buchstaben bei Schreibmaschinentexten, wobei als weitere Adresse beispielsweise Ad7 = /_re/­ eingesetzt wird oder generell ein fehlerhaftes Ersetzen eines Buchstabens durch einen anderen als Möglichkeit berücksichtigt wird. Entsprechend der in einer Ausbildung vorgesehenen Verwendung mehrerer, nach Wahrscheinlichkeiten p(Gs/Ad) geordneten Listen Wsi werden für das Teilwort vt31.1 = /_er/­ beispielsweise die Adressen Ad1 bis Ad4 einer bevorzugt zu verwendenden Liste Wsi1 a Ws und Ad5 bis Ad7 einer gegebenenfalls ersatzweise heranzuziehenden Liste Wsi2 a Wsi zugeordnet, woraus zugleich vorteilhaft kurze Adressierzeiten für weitgehend normgerechte Texte T und eine ausreichende Robustheit gegen stärker hiervon abweichende Texte T resultieren. Entsprechend der vorgesehenen Berücksichtigung von Adressen Ad, welche ein Symbol Gs mit ausreichend hohen Wahrscheinlichkeiten p(Gs/Ad) g ps anzeigen, wird der angeführte Zeichenkomplex Ad3 = /er/ zwar als Adresse Ad für das genannte Teilwort vt31.1 = /_er/ eingesetzt, nicht aber auch als Adresse für das weitere Wort Vt9.2 = /_Helfer/ aus Beispiel 1), welches beispielsweise durch Adressen Ad wie Ad9.2.1 = /_Hlfr/ oder Ad9.2.2 = /Helf/, abhängig vom weiteren zu berücksichtigenden Wortschatz, mit ausreichenden Wahrscheinlichkeiten p adressiert wird, wobei wieder die entsprechenden Toleranzen da für die Zeichenabstände a zu berücksichtigen sind.
In einer Ausgestaltung, die besonders für die Behandlung von fehlerhaft abgefaßten einlaufenden Texten T einschließlich deren Korrektur geeignet ist, werden als Evidenzen D vorliegende Komplexe ZZ1 von Textmerkmalen wie gegebenenfalls auch Zeichen Z, welche eine Flexionsform A11 oder auch einen Wortstamm A12 eines natürlichen Wortes A1 repräsentieren, als Adresse Ad für weitere durch Komplexe ZZ2 repräsentierte Flexionsformen A13, A14 usw. des betreffenden Wortes A1 eingesetzt. Entsprechend gilt ein solcher Komplex ZZ1 auch als Adresse Ad für unterschiedliche objektive Wörter Vtxy a Gx, denen die Wortformen A1y, beispielsweise als Teilwörter At1y a Vtxy oder auch als Wörter At1y = Vtxy zugeordnet sind. Beispielsweise gelten so in der deutschen Schriftsprache die Zeichenfolgen /gehen/ oder auch der Stamm /geh/ als Adressen Ad für die objektiven Wörter Vt21 = /_gehe/, Vt31 = /_gehst/, Vt41 = /_geht/, Vt51 = /-gehen/ usw., so daß mit dem entsprechenden Symbol Vt11 eine durch die Buchstabenfolge /dugehen/­ angenäherte mündliche Äußerung mit ausreichender Wahrscheinlichkeit in einen Schrifttext Vt11Vt31 = /Du gehst./ korrigierbar wird. Diese Ausgestaltung ist auch auf die aufgabengemäß eingeschlossene Bildung von grammatikbezogenen Texten T a TN anwendbar, welche gemäß Vorgaben Vr aus Symbolen Vt a G aufzubauen sind, die durch Repertoires R(A) von natürlichen Wörtern A in beliebigen Flexionsformen beispielsweise auch Verben im Infinitiv, vorgegeben sind. Weitere Maßnahmen zur Zuordnung von Textsymbolen Gt = ZZ zu Adressen Ad = ZZ unter expliziter Berücksichtigung von Fehlerquellen Gf und Wahrscheinlichkeiten p werden unten behandelt.
Die gemäß den genannten Ausbildungen vorgesehene Verwendung von in mehreren Superierungshierarchien gebildeten Textsymbolen Gt, bei denen also Superzeichen Zb = ZaZa als Komplexe Kp von durch Texteigenschaften H(T) definierten Zeichen Za gebildet werden, wird am Beispiel handschriftlicher Texte T für den Buchstaben Zb1 = /n/ erläutert. Dieser wird beispielsweise als Komplex Zb11 = Za1Za2Za3Za4Za1Za2Za3 von Merkmalen Za1, Za2, Za3 und Za4 formuliert, bei denen aus den Schriftzugkoordinaten x in Schriftrichtung und y orthogonal hierzu gebildete Texteigenschaften H(T) berücksichtigt werden. Hierbei symbolisiert Za1 einen Bogen mit negativer Krümmung c = d2y/dx2 oberhalb einer durch y = 0 definierten Grundlinie, Za3 eine Schriftzugumkehr mit positiver Krümmung c = d2y/dx2 nahe y = 0 und Za2 und Za4 einen Ab- beziehungsweise Aufstrich mit entsprechend hohen Steigungen b = dy/dx überwiegend im positiven y-Bereich. Im einzelnen wird beispielsweise Za1 ein Repertoire R(H(T)) der folgenden Texteigenschaften H(T) zugeordnet: H11 = (b1 k y k b2) mit positiven Werten für b1 und b2; H12 = (a1 k (x12 - x11) k a2), worin x11 die Anfangs- und x12 die Endkoordinate in Schriftrichtung und die a positive Werte darstellen; H13 = (c2 k d2y/dx2 k c1) mit negativem c1 und c2. Entsprechend gelten für Za2 die Eigenschaften: H21 = (b3 k y k b2), mit negativem b3; H22 = (a3 k (x22 - x21) k a2); H23 = (b1 k dy/dx k b2), worin b1 einen hohen negativen und b2 einen hohen positiven Wert symbolisiert. Als weitere Eigenschaft H24 gilt x21 = x12 und y21 = y12, wonach die Anfangskoordinaten von Za2 mit den Endkoordinaten von Za1 zusammenfallen; entsprechendes gilt für Za1 bei Zusammenschreibung mit einem gegebenenfalls vorangestellten Zeichen Za. Entsprechende Eigenschaften H(T) sind für Za3 und Za4 zu formulieren. Als Adressen Ad für die Superzeichen Zb werden in Anpassung an die Schreibgewohnheiten der Autoren At auch Komplexe ZaZa mit entsprechend geringeren Mengen von Merkmalen Za eingesetzt. Beispielsweise wird für fadenförmig ausgezogene Schrifttypen zweckmäßig auch eine Adresse Ad = Za1Za2Za3 verwendet. Wie das Beispiel zeigt, werden erfindungsgemäß so auch unbeschränkte Klassen (T) von Textsymbolen Gt zugeordneten Textabschnitten T, deren Textkoordinaten x und y und Kombinationen hiervon prinzipiell mit unbeschränkten Mengen von den Textkoordinaten Tx zugeordneten Daten zu beschreiben wären, durch eine vergleichsweise geringe Anzahl von den Eigenschaften H(T) zugeordneten Parametern beschrieben, deren Daten maschinell vorgegebene Rahmenbedingungen nicht überschreiten. Für mündliche Texte T werden entsprechend über den Koordinaten x für die Zeit und y für die Schallamplitude wie auch hieraus abgeleiteten Größen wie Intensität, Frequenz und Spektrum gebildete Texteigenschaften H(T) benutzt. In weiteren Ausbildungen werden hierfür auch Abweichungen bestimmter Parameter wie auch Toleranzen von durch vorangehende Merkmale Z vorgegebenen Werten eingesetzt. Im einzelnen werden entsprechend obigen Ausführungen als Adressen Ad beispielsweise Textmerkmale H(T) für Zeichen Z, diese für Superzeichen Z, objektive Wörter Vt und Teilwörter vt, diese für Vokabeln Vqq, Einheiten G und Teileinheiten g, und Einheiten G mit Valenzen Um für weitere Einheiten G eingesetzt. Gegebenenfalls werden auch die entsprechenden inversen Bezüge für Adressierungen benutzt.
Die eingeführten Positionen P bei der wechselseitigen Zuordnung Pr von Komponenten Em = Ax in den als Komplexe EmEm gebildeten Nachrichten TN werden bei seriellen Sprachen L allgemein durch ihre Reihenfolge, welche beispielsweise durch A1A2A3 . . . oder auch durch A1:A2, A1:A3, A1:A3 und A1:A2:A3 . . . bezeichnet wird, wie auch durch die betreffenden Abstände a = axy, also a12 zwischen A1 und A2, a13 zwischen A1 und A3 usw. definiert, wobei die Abstände a auch durch positive und negative Toleranzwerte da näher bestimmt werden. Positionsangaben P für Elemente Axy a (By = (Axy)) werden in Anpassung an die betreffenden Sprachen L im Regelfall auch als für ihre Klassen Kl = By gültig definiert. So impliziert für 2 Textabschnitte Ts111 a Vt11 a G1 und Ts211 a Vt21 a G2 eine Positionsangabe P = Ts111:Ts211 auch die Positionen P = Vt11:Vt21 und P = G1:G2 der Wörter Vtxy und Einheiten Gx und umgekehrt. Für die Positionen P zwischen zwei Komponenten A1 und A2 werden auch Bezeichnungen P(A1; a12; A2) oder P12(a12) verwendet. Die Abstände a werden in den Gegebenheiten der Sprachen L angepaßten Ausbildungen durch gegebene Textmerkmale wie Zeitablauf, Textlänge, Zahl der Textabschnitte Tr beziehungsweise Ts sowie Abstände zwischen Zeichen Z oder Wörtern Vt usw. ausgedrückt, in aufwandsparenden Varianten auch durch Maximalwerte eingegrenzt oder vernachlässigt. Gegebenenfalls anzutreffende Abhängigkeiten bedingter Wahrscheinlichkeiten p von gemäß der vorliegenden Evidenz D anzutreffenden Positionen P der Komponenten Em werden auch in analytischer Form ausgedrückt; beispielsweise werden Wahrscheinlichkeiten p (G2/G1; Pr) bei festgelegter Reihenfolge G1:G2 für Werte a ge a1 als monoton mit a abnehmend bestimmt. Nicht-serielle Komplexe EmEm werden durch entsprechend höherdimensionale, beispielsweise vektoriell formulierte Positionen P beschrieben.
Bei der Festlegung von Normtexten Ta wie auch Adressen Ad werden gegebenenfalls auch die Sprech- beziehungsweise Schreibgewohnheiten der Autoren At, beispielsweise auch unter Berücksichtigung von Dialekten, Stimmlage, Sprechgeschwindigkeit, Schriftgröße und der anzutreffenden Mittelwerte, Varianzen usw. berücksichtigt, wobei eingeführte Normtexte Ta beziehungsweise Adressen Ad gegebenenfalls auch eine entsprechend weitergehende Normierung erfahren. In einer Ausbildung erfolgt diese Berücksichtigung der Gewohnheiten der Autoren dadurch, daß diese vorgegebene Textsymbole Gt wie Wörter Vt und gegebenenfalls auch Komplexe und Teile hiervon in Maschinen einlesen beziehungsweise einschreiben, mit welchen durch Anwendung bekannter Korrelationsprozesse geeignete Normtexte Tsa wie gegebenenfalls auch Tra und Tda für die betreffenden Wörter Vt beziehungsweise Zeichen Z und Adressen Ad wie auch entsprechende Toleranzen dTs, dTd beziehungsweise dTr für die solchen Symbolen Gt zuzuordnenden Textabschnitte T bestimmt werden. Generell erfolgt die Zuordnung von Textklassen (Txy) zu Textsymbolen Gtx gemäß Toleranzen dTy wie gegebenenfalls auch Normtexten Tay aufgrund des Maßes an Übereinstimmung bezüglich jeweils einer beschränkten Anzahl von Texteigenschaften H(T), wie sie mit Hilfe bekannter Begriffe der Statistik wie Korrelation, Abstandsquadraten, Ähnlichkeit wie auch Wahrscheinlichkeiten p und Informationswerten h bestimmt werden, wodurch auch eine gegebenenfalls durch eine theoretisch unbegrenzte Menge physikalisch meßbarer Daten D zu beschreibende Menge von Textsymbolen Gt und Komplexen GtGt hiervon durch eine praktisch handhabbare Datenmenge beschreibbar wird.
Die in der genannten Ausgestaltung vorgesehene Ordnung der Alphabete R(Z) nach fallenden Werten von h(Z) oder auch p(Z) der Zeichen Z führt in der als Beispiel gewählten deutschen Schriftsprache, bei der Buchstaben als Zeichen oder auch Superzeichen Z eingesetzt werden, zu einer Reihenfolge, wie sie durch die in / /13/ /, S. 182 aufgeführten Wahrscheinlichkeiten p(Z) ue h(Z) gegeben ist und gemäß /e/, /_/, /n/, /i/, /s/, /r/, /t/, /h/, /d/, /a/, /c/, /u/, /l/, /g/ usw. verläuft, worin Zeichen /_/ wieder den unten definierten Abstand natürlicher Wörter zum jeweils vorangestellten Text T symbolisiert. Entsprechend den angeführten Toleranzen dTr der Texte Tr a Z wird berücksichtigt, daß durch einen Textabschnitt T mit Eigenschaften H(T) disjunkt auch mehrere Zeichen Z adressiert werden können.
In einer weiteren Ausgestaltung der Erfindung werden bei der Ergänzung von einlaufenden Texten T zu grammatischen Nachrichten TN, welche unter Beachtung der gemäß dem unten ausgeführten Bayesschen Ansatz Ba zu bestimmenden Wahrscheinlichkeiten p(N/T) vorzunehmen ist, Normabweichungen wie auch Fehler in den Texten T auf folgende Weise berücksichtigt: Für ein Textsymbol Gt wie beispielsweise ein objektives Wort Vt oder ein Superzeichen Z, das durch einen Norm-Zeichenkomplex Gt = ZZa näher definiert wird, in Texten T aber durch darin identifizierte, von ZZa abweichende Komplexe ZZb von Zeichen Z repräsentiert wird, werden die in Ansatz Ba einzusetzenden Wahrscheinlichkeiten p(ZZ/Gt) in funktionaler Form vorgegeben. Hierdurch wird vorteilhaft erreicht, daß die Zuordnung gegebenenfalls auch größerer Mengen voneinander verschiedener Zeichenkomplexe ZZb zu jeweils einem Symbol Gt unter Einsatz beschränkter, den verfügbaren Vorrichtungen anpaßbarer Datenmengen möglich wird. In einer bevorzugten Ausbildung werden für die Textsymbole Gt Erzeugungsregeln Gte für die Erzeugung von jeweils disjunkt einem oder gegebenenfalls auch nicht-disjunkt mehreren Symbolen Gt mit Wahrscheinlichkeiten p(Z/Gt) an Positionen P mit Toleranzen dP zuzuordnenden Zeichen Z festgelegt, denen Fehlergeneratoren Gf beigeordnet werden, welche mit an die betreffenden Kommunikationsakte angepaßten Wahrscheinlichkeiten p(Z/Gf) stochastisch an Positionen P gemäß den Erzeugungsregeln Gte erwartete Zeichen Z entfernen oder diese durch andere Zeichen Z ersetzen oder auch weitere Zeichen Z einfügen. Hierdurch werden die den Regeln Gte entsprechenden Wahrscheinlichkeiten p(ZZa/Gt) auf realistische, den einlaufenden Texten T entsprechende Werte p(ZZb/Gt) abgewandelt, welche im Ansatz Ba verwendet werden.
Im einzelnen werden den Textsymbolen Gt entsprechend den diesen zuzuordnenden Norm-Zeichenkomplexen ZZa = Gt jeweils eine oder mehrere disjunkte Permutationen Gte von Erzeugungsregeln für diese Komplexe zugeordnet, in denen die Wahrscheinlichkeiten p(Z/Gt) für die Zeichen Z unter Beachtung ihrer Positionen P berücksichtigt werden. Beispielsweise wird für die Erzeugung eines Normkomplexes ZZa1 = Gt1 mit Za1 = Z1Z2Z3 eine Permutation Gte11 gemäß einer die Positionen P implizierenden Reihenfolge Z1, Z2 und Z3 zugrunde gelegt, welcher eine Wahrscheinlichkeit
p(Z1Z2Z3/Gt1; Px) = p(Z1/Gt1; P1) × p(Z2/Gt1; P2) × p(Z3/Gt1; P3)
zukommt. Für eine weitere, beispielsweise in einer Reihenfolge Z2, Z1 und Z3 vorzunehmende Permutation Gte12 wird entsprechend eine Wahrscheinlichkeit
p(Z2Z1Z3/Gt1; Pa) = p(Z2/Gt1; P11) × p(Z1/Z2; P12) × p(Z3/Z2; P32)
angesetzt, wobei Daten bis zur Ordnung O(2) einzusetzen sind; für weitere Permutationen gelten entsprechende Wahrscheinlichkeitsprodukte. In einer datensparenden Ausbildung werden die Wahrscheinlichkeiten p auch als Produkte jeweils der Wahrscheinlichkeit p(Ad/Gt) der jeweils angetroffenen Adresse Ad a Gt und der Wahrscheinlichkeiten p(Z/Gt) für die in Ad nicht enthaltenen Zeichen Za Gt gebildet. Ein Fehlergenerator Gf wird durch Erzeugungsregeln für den Textsymbolen Gt nicht mit ausreichenden Wahrscheinlichkeiten p(Z/Gt) zuordenbare Zeichen Z a ZZb, die einem Text T zugeordnet werden, näher bestimmt. Diese sehen allgemein die stochastische Erzeugung von Zeichen Z an beliebigen Positionen P mit an die betreffenden Kommunikationsakte angepaßten Wahrscheinlichkeiten p(Z/Gf; P) vor, wobei ein Repertoire R(Z) berücksichtigt wird, dem neben den den Textsymbolen Gt zugeordneten Zeichen Z auch ein Operator o = /"/ der unten beschriebenen Art angehört, der in einem Zeichenkomplex ZZ durch die Entfernung eines ihm entsprechend seiner Position P zugeordneten Zeichens Z a ZZ und des diesem im Text T zugeordneten Textabschnittes Tr a Z in Erscheinung tritt. In weiteren Ausbildungen werden dem Repertoire R(Z) von Gf weitere Operatoren o zugeordnet, die durch das Vertauschen zweier aneinandergrenzender Zeichen Z als Folge von Gf an den ihnen zugeordneten Positionen P wie auch das Auswechseln eines korrekten Zeichens Z a ZZa durch ein beliebiges Zeichen Z in Erscheinung treten. Die Erfindung sieht vor, die bei der Bildung der Nachrichten TN gemäß Ansatz Ba zu berücksichtigenden Wahrscheinlichkeiten p(ZZb/Gt) unter Verwendung von Erzeugungsregeln Gte und unter Berücksichtigung eines beigeordneten, den Gegebenheiten der betreffenden Kommunikationsakte angepaßten Fehlergenerators Gf gemäß p(ZZb/(Gt d Gf)) zu bestimmen. Eine Erläuterung wird unten am Beispiel des Teilwortes vt31.1 = /_er/ aus Beispiel 1) gegeben.
In einer weiteren vorteilhaft vereinfachten Ausbildung wird die in Ansatz Ba zu berücksichtigende Wahrscheinlichkeit p(ZZb/Gt) für das Vorliegen eines in einem Text T identifizierten Zeichenkomplexes ZZb als Folge des Vorliegens eines durch eine oder mehrere Adressen Ad an einer Position P angezeigten Textsymbols Gt funktional durch p(ZZb/Gt; P) = 1 - pa festgelegt, worin Gt implizit neben den Erzeugungsregeln Gte einen nicht eigens notierten Fehlergenerator Gf einschließt, und worin Wahrscheinlichkeit pa als Produkt der Wahrscheinlichkeiten p(Z) dafür gebildet wird, daß aufgrund dieser Fehlerquelle Gf an Positionen P anzutreffende Zeichen Za ZZb zufällig vorliegen könnten. Hierbei schließt das zugrunde gelegte Zeichenrepertoire R(Z) den genannten Zeichen Za a (ZZa = Gt) eliminierenden Operator o = /"/ ein. Die Fehlerwahrscheinlichkeiten p(Z) werden den betreffenden Kommunikationsakten angepaßt, wobei diesen entsprechende Längen von Texten T zugrunde gelegt werden. In einer vorteilhaft einfach zu erstellenden Ausbildung wird für die Gf zuzuordnenden Fehlerraten Gleichverteilung angenommen. In weiteren Ausbildungen werden auch die oben eingeführten Operatoren o für die Vertauschung aufeinanderfolgender Zeichen Z und für weitere, entsprechend häufig anzutreffende Fehlertypen eingesetzt. Die genannte Wahrscheinlichkeit pa wird in bekannter Weise ermittelt, beispielsweise unter Zugrundelegung einer Binomialverteilung für die unter Beachtung der Positionen P(Z) jeweils anzutreffenden Möglichkeiten, daß entweder ein Zeichen Z = Zu mit Zu a ZZa eines Normkomplexes ZZa a Gt oder Z ne Zu beziehungsweise, bei fehlendem Zeichen, nZ a ZZa vorliegt, wie in / /18/ /, S. 109 angegeben. In einer datensparenden Ausführungsform hiervon wird dabei für eine Komponente Em1, welche durch eine Adresse Ad1 = ZZc angezeigt wird, das Wahrscheinlichkeitsprodukt für die in ZZc enthaltenen Zeichen Z a ZZb unter Verwendung der in der betreffenden Liste Wsi a Ws angeführten Wahrscheinlichkeit p(Em1/Ad1) berechnet. In einer weiter vereinfachten Ausgestaltung wird in Ba eine Wahrscheinlichkeit p(ZZb/Em1) = p(Ad1/Em1) verwendet, wobei Ad1 diejenige von gegebenenfalls auch mehreren Adressen Ad der Komponente Em1 darstellt, durch welche diese mit der höchsten Wahrscheinlichkeit p(Em1/Ad1) angezeigt wird.
Ein Beispiel für einen der angeführten Algorithmen zur Berechnung von für die Anwendung des Bayesschen Ansatzes Ba benötigten Wahrscheinlichkeiten p(ZZb/Em1) = p(ZZb/ZZa1) × p(ZZa1/Em1) wird anhand des oben betrachteten Teilwortes Em1 = vt31.1 = /_er/ aus dem unten ausgeführten Beispiel 1) erläutert, das hier durch einen einzigen Normkomplex ZZa1 = ZZsa1 = Z1Z2Z3 repräsentiert wird. Unter Annahme einer verhältnismäßig hohen Fehlerrate Gf = 0,1 gelte p(Z1/ZZsa; P1) = p(Z2/ZZsa; P2) = p(Z3/ZZsa; P3) = 0,9. Gemäß dieser Fehlerrate werden die Positionen P zu P1 = Z1:(Z2 o nZ2):(Z3 o nZ3), entsprechend P2 = (Z1 o nZ1):Z2:(Z3 o nZ3) usw. angesetzt, wonach beispielsweise gemäß P2 Zeichen Z2 auch ohne Z1 oder auch ohne Z3 vorkommen kann, wobei für die Abstände a geeignete, hier nicht ausgeführte Toleranzen da festgelegt werden. Bei einem undeutlich gedruckten einlaufenden Text T1 = ZZu, dem disjunkt 2 mögliche Buchstabenfolgen ZZb gemäß ZZ1 = /Fandeer?/ und ZZ2 = /Fand er?/ zugeordnet werden können, wird vt31.1, neben gegebenenfalls disjunkt einzusetzenden weiteren Textsymbolen Gt, in ZZ1 durch die oben angeführten Adressen Ad3, Ad5 und Ad6, in ZZ2 mit entsprechend höherer Wahrscheinlichkeit p(ZZsa1/Ad) auch durch Ad1 angezeigt. Wird davon ausgegangen, daß die Zeichenfolgen ZZb1 = /Fand/ und ZZb3 = /?/ mit hoher Wahrscheinlichkeit p bestimmten weiteren Textsymbolen Gt zuordenbar sind, so ergibt sich bei einer hypothetisch anzusetzenden Zuordnung des in ZZ1 verbleibenden Komplexes ZZb2.1 = /eer/ = Z2Z2Z3 zu ZZsa1 = Z1Z2Z3 eine Wahrscheinlichkeit p(ZZb2.1/Zzsa) = p(Z3/Z3; P1) × p(Z2/Z2; P2) × p(nZ1/Z1; P3) = 0,9 × 0,9 × 0,1 = 0,081. Für die Zuordnung der Buchstabenfolge ZZb.2 = /_er/ aus ZZ2 zu ZZsa1 ergibt sich dagegen eine vergleichbar hohe Wahrscheinlichkeit p = 0,729. Für die Bestimmung von Zuordnungswahrscheinlichkeiten p für Zeichenfolgen ZZb zu Wortkomplexen VtVt wie auch zu Superzeichen Z = ZZ gilt eine entsprechende Vorgehensweise, welche allgemein auch auf die Zuordnung beliebiger, durch Merkmale Z gekennzeichneter Texte T zu als Komplexe solcher Merkmale Z gebildeten Symbolen Gs anzuwenden ist.
Bei der oben angeführten alternativen Ausgestaltung, bei der Zuordnungswahrscheinlichkeiten gemäß p(ZZb/ZZsa) = 1 - pa festgelegt werden, worin pa die Wahrscheinlichkeit dafür angibt, daß die gemäß Komplex ZZsa vorgegebenen Zeichen Z a ZZb zufällig vorliegen könnten, werden beispielsweise Zufallswahrscheinlichkeiten p(Z) zugrunde gelegt, welche Häufigkeiten dieser Zeichen Z in Texten T = ZZ wiedergeben. Wird vereinfachend angenommen, daß hierfür p(/e/) = 0,2, p(/_/) = 0,1 und p(/r/) = 0,05 gilt, so folgt für die Zuordnung des oben angeführten Komplexes ZZb = /_er/ aus ZZ2 zu ZZsa eine Zufallswahrscheinlichkeit pa = p(Z1) × p/Z2) × p(Z3) = 0,001, während sich für ZZb = /eer/ aus ZZ1 mit p(nZ1) = 1 - p(Z1) ein entsprechend höherer Wert pa = p(nZ1) × p(Z2) × p(Z3) = 0,09 ergibt, wobei für 1 - pa entsprechend ebenfalls ausreichend unterschiedliche Werte 0,999 oder 0,91 gelten.
Die angegebenen Vorgehensweisen erlauben es, Zuordnungswahrscheinlichkeiten von Texten T zu Textsymbolen Gt der Form p(T/Gt) wie p(Tr/Z) oder p(Ts/Vt), wie sie für die Komplexbildung von Nachrichten N unter Anwendung des Bayesschen Ansatzes Ba benötigt werden, mit einem vergleichsweise beschränkten Aufwand an Datenspeicherung und -verarbeitung zu gewinnen. Allgemein nehmen die genannten Werte p(ZZb/ZZsa) monoton mit wachsender Annäherung an die jeweiligen Toleranzwerte dT ab beziehungsweise an gegebenenfalls eingeführte Normtexte Ta zu. In einer weiteren Ausbildung, bei der die Texte T als Komplexe T = ZZ von innerhalb vorgegebener Toleranzen dH liegenden Textmerkmalen Z = R(H(T)) Berücksichtigung finden, gelten für die betreffenden Eigenschaften H(T) Wahrscheinlichkeiten p(H(T)/Z) ue 1, während gegebenenfalls vorliegende weitere physikalisch nachweisbare Textabschnitte von Texten T, die innerhalb der Toleranzen dH keine Eigenschaften H(T) des für die betreffenden Sprachen L vorgegebenen Repertoires R(Z) aufweisen, vernachlässigt werden.
In einer an die betreffenden Sprachen L angepaßten Ausgestaltung der Erfindung werden grammatische Daten Ws eingesetzt, in denen als Komplexe Gt = ZZ von Zeichen Z gebildete Textsymbole Gt, insbesondere auch Wörter Vt = ZZ wie auch Teilwörter vt = ZZ unter Verwendung eines Repertoires R(Z) von Zeichen Z notiert werden, welches die oben genannten Operatoren Z = o, kurz auch Zeichen Z = o genannt, mit einschließt. Diese Operatoren o treten in Nachrichten TN dadurch in Erscheinung, daß bestimmte Veränderungen an bestimmten, ihnen gemäß ihren Positionen P zugeordneten Zeichen Z = (Tr), insbesondere auch an angrenzenden Zeichen Z und entsprechend deren Textabschnitten Tr a Z vorgenommen werden, wobei bestimmte Operatoren o gemäß den Gegebenheiten der betreffenden Sprachen L in den Nachrichten TN ebenfalls abgeändert werden, gegebenenfalls auch verschwinden. In einer besonders auch für serielle abendländische Schriftsprachen mit als Buchstabenfolgen T = ZZ gebildeten Texten T geeigneten Ausbildung werden neben gegebenenfalls weiteren Operatoren o jeweils in den Texten T a TN verschwindende Operatoren o mit den folgenden Funktionen eingesetzt, wie sie hier am Beispiel von Komplexen ZZs a Vt von Wörtern Vt beschrieben werden: Ein die Komplexe ZZs a Vt bestimmter Wörter Vt einleitender oder auch abschließender Operator o =: /_/, jeweils vereinfacht auch o =: _ usw. notiert, fordert die Einhaltung eines bestimmten, gegebenenfalls auch durch einen Zeilenwechsel oder ein Satzzeichen realisierten, Abstands zum im Text T an diesem Komplex ZZs angrenzenden Komplex ZZ. Durch o =: /__/ wird, nach Textabsätzen oder Überschriften, der Beginn eines neuen Absatzes und durch o =: g neben der Einhaltung, gegebenenfalls auch durch einen neuen Absatz realisierten Abstands zum vorangehenden Zeichenkomplex ZZ die Großschreibung des nachfolgenden Buchstabens Z = Z1 unter Eliminierung eines diesem gegebenenfalls vorangestellten Satzzeichens Z2 gefordert. Durch o =: w wird das Weglassen eines gegebenenfalls vorangestellten Satzzeichens Z2, durch o =: /=/ am Ende oder auch Anfang eines Komplexes ZZ1 dessen Zusammenschreibung mit einem an /=/ angrenzenden Komplex ZZ2, wobei eine Großschreibung eines nachgestellten Komplexes ZZ2 dann auf ZZ1 übergeht. Die einem gegebenenfalls einzusetzenden Fehlergenerator Gf zuzuordnenden Operatoren o =: /"/ zum Entfernen eines Zeichens Z wie auch zum Vertauschen zweier Zeichen Z wurden oben erläutert. Weitere an die betreffenden Sprachen L angepaßte Operatoren o fordern beispielsweise für das Schriftenglische die Abwandlung des lexikalischen Wortes /_a/ zu /_an/ vor mit Vokalen beginnenden Wörtern usw.
Als Beispiel für weitere den Rechtschreibregeln der betreffenden Sprache L angepaßte Eigenschaften von Operatoren o werden für das Schriftdeutsche das Wort Vt11 = /_Schritt=/, das Wort Vt21 = /_Tempo/ und der nach bisheriger Rechtschreibung daraus erzeugbare Wortkomplex Vt11Vt21 = /_Schrittempo/ ist, ein Operator o =: /=/ zu verwenden, der neben der Kleinschreibung eines angrenzenden Buchstabens Z2 a ZZ211 des nachfolgenden Wortes ZZ211 bei einem Nachfolgen eines Vokals Z3 auf Z2 die Reduzierung der Zahl von gegebenenfalls 3 gleichen aufeinanderfolgenden Konsonanten auf 2 bewirkt.
Zur Festlegung der in vielen Sprachen L üblichen Abstände zwischen natürlichen Wörtern wird in einer bevorzugten Ausbildung der Abstandsoperator /_/ den Wörtern Vt am Beginn zugeordnet. In einer alternativen Ausbildung erfolgt die Zuordnung dieser Operatoren redundant sowohl am Beginn wie am Ende der Wörter Vt. In weiteren Ausgestaltungen werden in Schriftsprachen L als Interpunktionen anzutreffenden Zeichen Z ebenfalls Funktionen von Operatoren o zugeordnet, so beispielsweise dem Gedankenstrich /-/ mit entsprechenden Abständen zu den angrenzenden Textteilen T, dem Bindestrich /-/ und den Interpunktionszeichen /./, /!/, /?/, /:/, /,/ und /;/. Beispielsweise fordern die letzten 5 Interpunktionen unter bestimmten Bedingungen ein Verschwinden von an sie im Text T angrenzenden Satzzeichen wie auch eines gegebenenfalls vorausgehenden Abstands. In weiteren Ausbildungen wird für Schriftsprachen L ein Operator o =: == für Worttrennungen vorgesehen, wobei in den Daten Ws ein Wort wie /tatsächlich/ als /_tat==säch==lich/­ notiert wird, bei dem die /==/ im Text verschwinden oder an Zeilenenden in das Trennungszeichen /-/ abgewandelt werden. Für mündliche Sprachen L ist der Einsatz von Operatoren o vorgesehen, deren Funktion vom angrenzenden Text T abhängt, welche unter anderem Betonungen, Pausen, Hebungen und Senkungen der Stimmlage beispielsweise am Ende von Äußerungen wie auch das phonetische Angleichen wie auch Zusammenziehen von Wörtern oder auch das Verschlucken von Lauten bewirken, wie es beispielsweise im Deutschen bei der oben erwähnten Verschmelzung der Wörter /hast/ und /du/ zu einer durch /hasdu/ angenäherten Lautfolge oder einer Aussprache von /sie kommen/ gemäß /sikomm/ vorkommt.
Bei der angeführten Verwendung von Zeichen Z, bei der beispielsweise Druckbuchstaben als Komplexe Zb = ZaZa weiterer Textmerkmale Za gebildet werden, wird in einer Ausbildung Operator o =: /_/ als Merkmal Za verwendet, welches eine entsprechende Trennung der Buchstaben Zb voneinander in Texten T bewirkt.
Da die Operatoren o je nach Kontext in den Texten T unterschiedliche Textabschnitte T beziehungsweise Zeichen Z und Zeichenkomplexe ZZ repräsentieren, bewirkt ihre Einführung eine vorteilhafte Beschränkung der Menge der in einer Grammatik Ws anzuführenden objektiven Wörter Vt und des zu ihrer Beschreibung und Bearbeitung benötigten Datenvolumens.
Für die bei der Bildung grammatischer Nachrichten TN vorgesehene Beachtung ihrer Wahrscheinlichkeiten p(TN) wird in einer bevorzugten Ausgestaltung der Bayessche Ansatz Ba zugrunde gelegt, wie er beispielsweise in / /20/ / erläutert wurde. Hierbei werden die aus den genannten disjunkten Repertoires R(Em) von Komponenten Em stufenweise zusammenzufügenden Komplexe Kp = EmEm entsprechend disjunkter Repertoires R(Kp) als Konkurrenzhypothesen Ks bezeichnet, welche entsprechend disjunkten, auch als Klassen Kl(Ks) bezeichneten, Repertoires R(Ks) angehören. Als Konkurrenzhypothesen Ks gelten hierbei die jeweils aus einer beliebigen Anzahl von Repertoires R(Em) erzielbaren disjunkten Zwischenergebnisse Kp = EmEm wie auch die erreichbaren disjunkten Endergebnisse Kp = EmEm = TN, wobei die Repertoires R(Em) aufgrund vorliegender Evidenzen D einschließlich Vorgaben Vr und Texten T und darin anzutreffenden Adressen Ad einschließlich der gemäß den Daten Ws bekannten Bezüge Em zu weiteren Komponenten Em festgelegt werden, und wobei die Evidenzen D die genannten, innerhalb von Toleranzen dH liegenden Texteigenschaften H(T) vorliegender Texte T mit einschließen. Hierzu ist vorgesehen, grammatische Daten Ws zu verwenden, welche die gemäß Ansatz Ba zu berücksichtigenden a-priori-Wahrscheinlichkeiten p(Em) für die den Komplexen Ks zuzuordnenden Komponenten Em, welche gegebenenfalls auch von weiteren Komponenten Em abhängen, sowie für die Wahrscheinlichkeiten p(D/Em) von Evidenzen D beim zugrunde gelegten Vorliegenden von Komponenten Em als Eigenschaften H(Em) der Komponenten Em mit enthalten. So werden für die gemäß Verfahrensteil M2 a M vorzunehmenden Komplexbildungen von Inhalten N, für welche einlaufende Texte T wie auch gegebenenfalls darin zu identifizierende Komplexe ZZ von gemäß vorliegenden Texteigenschaften H(T) anzutreffenden Merkmalen Z als Evidenzen D gelten, entsprechende Wahrscheinlichkeiten p(T/Gt) beziehungsweise p(ZZ/Gt), wie sie oben diskutiert wurden, für die in den Komplexen Ks zu berücksichtigenden Textsymbole Gt berücksichtigt. Die Wahrscheinlichkeitsbezüge zwischen in den Inhalten N als Komponenten Em einzusetzenden Einheiten G werden entsprechend den unten ausgeführten, durch Formulierungen Wt beschriebenen Valenzen Um der Einheiten G näher bestimmt. Bei gemäß Vorgaben Vr gegebenenfalls zu erzeugenden korrekten grammatischen Nachrichten TN = TNg werden ausschließlich Komponenten Em a R(Em) eingesetzt, denen sämtlich in den betreffenden Nachrichten T/Ng ausreichend hohe, gegebenenfalls auch bedingte Wahrscheinlichkeiten p(Em) ge ps zukommen.
Anwendungen des Bayesschen Ansatzes Ba werden zunächst am Beispiel des Aufbaus eines zu bestimmenden grammatischen Inhalts N zu einem einlaufenden Text T erläutert, dessen als Evidenz D detektierte Merkmale H(T) a priori eine Anzahl m von als Endergebnisse N mit einzusetzenden Konkurrenzhypothesen Ksu = Nu mit u = 1, 2, . . . m mit ausreichend hohen Wahrscheinlichkeiten p g ps für möglich erscheinen lassen, durch welche der Text T zu entsprechenden Nachrichten TNu ergänzbar wird. Hierfür sind gemäß Ansatz Ba entsprechend m Wahrscheinlichkeiten p(Nu/T) zu bestimmen, welche für N1 durch
p(N1/T) = p(N1) × p(T/N1)/Ne
und für die weiteren Inhalte Nu durch entsprechende Permutationen hiervon ausgedrückt werden. Hierin beschreibt der Nenner Ne eine Wahrscheinlichkeitssumme der Form
Ne = p(N1) × p(T/N1) + . . . + p(Nm) × p(T/Nm)).
Gegebenenfalls wird in Ba auch berücksichtigt, daß bei Vorliegen von a priori nicht als disjunkt anzunehmenden Begriffen, hier also Inhalten Nu, ein Nenner Ne' k Ne einzusetzen ist, während in solchen Fällen, wo davon auszugehen ist, daß a priori eine größere Anzahl von Begriffen vorliegen könnte als in Ne berücksichtigt, auch ein Nenner Ne" g Ne eingesetzt wird. Gemäß Ba erfolgt die Berechnung allgemein unter Benutzung von a-priori-Wahrscheinlichkeiten p, hier also Wahrscheinlichkeiten p(Nu), welche auf bekannte Weise unter Verwendung der in den Daten Ws niedergelegten Wahrscheinlichkeiten p(Em) der gemäß den Adressen Ad bestimmten Komponenten Em a N bestimmt werden. Gegebenenfalls werden bei der Anwendung von Ba auch weitere Angaben wie beispielsweise zu verwendende Repertoires R(Em) von Komponenten Em als Evidenz D verwendet, wie sie beispielsweise aus Vorgaben Vr hervorgehen. Entsprechende Ausdrücke gelten für p(N/ZZ) für den Fall, daß die Evidenz als Zeichenkomplex D = ZZ vorliegt und für p(TN/Vr), falls als Konkurrenzhypothesen Ks Nachrichten TN aufgrund von Vorgaben D = Vr zu bilden sind.
In einer vorteilhaft robust gegen Fehler gehaltenen Ausgestaltung der Erfindung, die insbesondere für Sprachen L geeignet ist, in denen den Texten T eine oder mehrere Hierarchien R(Z) von Textsymbolen Gt = Z zugeordnet werden und entsprechend als grammatische und Textsymbole Gr und Gt objektive Wörter Vt a G verwendet werden, denen Komplexe ZZ a Vt solcher Zeichen Z zugeordnet werden, ist vorgesehen, die Komplexbildung von Nachrichten TN, die einlaufenden Texten T zuzuordnen sind, in mehreren Stufen vorzunehmen, die von Komplexen eines niedrigen Superierungsgrades zu Komplexen der jeweils übergeordneten Superierungshierarchie fortschreiten, wobei unter Anwendung von Ba die Wahrscheinlichkeiten p(Ks) der jeweils als Konkurrenzhypothesen gebildeten Komplexe Kp = Ks berücksichtigt werden. So wird beispielsweise in einer ersten Stufe entsprechend den an Textabschnitten Tr a Ta des Textes T zu detektierenden Eigenschaften H(T) eine disjunkte Klasse (Ks1) von Komplexen Ks1 = Em1,Em1 mit Zeichen Za als Komponenten Em1 gebildet, deren zur Bestimmung der zu berücksichtigenden Wahrscheinlichkeiten p(Ks1/T) benötigte Wahrscheinlichkeiten p(T/Ks1) beispielsweise nach dem Prinzip maximaler Entropie festgelegt werden. Hierbei liefern diese Komplexe Ks1 die Adressen Ad für die Komponenten Em2 der in der folgenden Stufe zu bildenden disjunkten Komplexe Ks2 = Em2,Em2, welche beispielsweise als Folgen ZbZb von Buchstaben Zb = ZaZa gebildet werden und entsprechend ihren unter Berücksichtigung der Wahrscheinlichkeiten p(ZaZa/Zb) bestimmten Wahrscheinlichkeiten p(Ks2/Ks1) weiter verwendet werden. Weiterhin liefern die Folgen ZbZb die Adressen Ad für die in der nächsten Stufe als Komplexe Ks3 a (Ks3) zu bildenden Folgen VtVt von als Komponenten Em3 zu berücksichtigenden Wörtern Vt = ZbZb, wobei wieder die Wahrscheinlichkeiten p(Ks3/Ks2) zu beachten sind und die Wörter Vt beziehungsweise Wortfolgen VtVt als Adressen Ad für die in einer oder mehreren weiteren Komplexbildungsstufen als Komponenten Em4 zu verwendenden Einheiten G beziehungsweise Vokabeln Vqq dienen, wobei in einer Ausbildung die Einheiten G als weitere Adressen Ad für die in den als Komplexe E = Em4Em4 zu bildenden Hintergründe E dienen. Beispielsweise wird so durch ein Wort Vt ein disjunktes Repertoire R(G) unterschiedlicher Einheiten G und Vt a G adressiert. Als weitere Konkurrenzhypothesen Ks4, Ks5 usw. werden in einer Ausbildung auch Teile E1 usw. der zu bildenden Hintergründe E, beispielsweise beginnend mit, unten als Kopf Gk definierten, Einheiten G = Gk = E1 erstellt, wobei wieder die Wahrscheinlichkeiten p(Ks4/Ks3) usw. Beachtung finden. Der zu erzeugende Komplex Kp = NN von Inhalten N wird ebenfalls grundsätzlich als Element El einer Klasse (Ks) von Hypothesen Ks behandelt, deren Wahrscheinlichkeiten p(NN/T) unter Verwendung der in den verschiedenen Superierungshierarchien bestimmten Wahrscheinlichkeiten p(Ks) bestimmt werden, wobei entsprechend diesen Wahrscheinlichkeiten ein oder gegebenenfalls auch mehrere, als disjunkt gekennzeichnete oder gegebenenfalls aufgrund nicht ausreichender Wahrscheinlichkeiten p k ps auch kein Komplex Kp = TN,TN als Ergebnis verwendet wird.
In einer weiteren, unter Anwendung der unten näher erläuterten nichtlinearen Wahrscheinlichkeitsverarbeitungsoperationen Bb durchgeführten Ausführungsform erfolgt die Komplexbildung von Konkurrenzhypothesen Ks aus Komponenten Em in mehreren Zyklen. Danach werden in einem ersten Zyklus Schwellwerte ps1 für die Wahrscheinlichkeiten p(Ks) von Hypothesen Ks beziehungsweise gemäß Bs auch für die Wahrscheinlichkeiten p(Em) darin verwendeter Komponenten Em festgelegt, und die Hypothesen Ks mit p k ps1 zunächst verworfen, jedoch so lange gespeichert, bis sichergestellt ist, daß bei der Weiterführung der Komplexbildung hin zu Hypothesen Ks höheren Superierungsgrades ebenfalls jeweils Wahrscheinlichkeiten p ge ps1 erzielbar sind. Andernfalls werden in einem oder mehreren weiteren Zyklen die Schwellwerte ps in Stufen so oft bis hinab zu Werten ps2 abgesenkt, bis, gegebenenfalls auch unter Berücksichtigung von in vorangegangenen Zyklen zunächst vernachlässigten Zwischenergebnissen Ks beziehungsweise darin verwendeten Komponenten Em gegebenenfalls eine oder auch mehrere disjunkte Hypothesen Ks als Endergebnis erzielt werden, denen, beziehungsweise deren Komponenten Em darin, Wahrscheinlichkeiten p oberhalb von Minimalwerte ps2 nicht unterschreitenden Schwellwerten ps zukommen. Der so in Zyklen oder Stufen vorzunehmende Aufbau der Nachrichten TN hin zu Komplexen wachsenden Superierungsgrades hat vorteilhaft zur Folge, daß die Zahl der jeweils aus einer disjunkten Klasse Kl1(Ksx) zu berücksichtigenden Konkurrenzhypothesen Ksx für die nachfolgend, ebenfalls als disjunkte Klassen Kl2(Ksy) anfallenden Hypothesen Ksy usw. der jeweils höheren Superierungsgrade auf eine an die Leistungsfähigkeit verfügbarer Vorrichtungen anpaßbare Zahl begrenzt bleibt, wobei insbesondere auch kombinatorische Explosionen der für die Komplexe Kp a TN in Betracht zu ziehenden Entscheidungsbäume vermieden werden. Vorzugsweise werden hierbei Komponenten Em verwendet, die durch die vorliegenden Adressen Ad mit ausreichend hohen Wahrscheinlichkeiten p(Em/Ad) ge ps angezeigt werden.
Gemäß Ansatz Ba fallen grundsätzlich bei der für die Bildung von Komplexen Kp = AA aus Komponenten Em = A vorzunehmenden Bestimmung von Wahrscheinlichkeiten p(AA/D) bezüglich einer Evidenz D auch vielfach verkettete bedingte Wahrscheinlichkeiten als Verknüpfungsparameter zwischen den Begriffen A gemäß
p(AA) = p(A1) × p(A2/A1) × . . . × p(Am/A1, A2, . . . A(m - 1)),
wie auch die entsprechenden Permutationen hiervon an, wobei gegebenenfalls auch noch Variationen hiervon zu berücksichtigten sind, welche den Möglichkeiten unterschiedlicher Anordnungen Pr entsprechen, wobei beispielsweise unterschiedliche Valenzen Um von Einheiten G gesättigt werden oder auch unterschiedliche Positionen P, etwa durch Voran- oder Nachstellung eingenommen werden usw. Im allgemeinen Fall ist entsprechend der bekannten Anwendung von Ba somit grundsätzlich die Bereitstellung eines Datenmaterials erforderlich, im betrachteten Beispiel also von Zuordnungswahrscheinlichkeiten auch höherer Ordnung O(n) bis hin zu beispielsweise p(Am/A2, A3, . . . A(m - 1)), welches bei einer Anzahl a von insgesamt zu berücksichtigenden Begriffen Ax größenordnungsmäßig mit a!, also näherungsweise exponentiell gemäß aa ansteigen kann, was zu einem ebenso grundsätzlich unlösbaren NP-harten Komplexitätsproblem führen würde wie der oben betrachtete, für den gegenwärtigen Stand charakteristische Einsatz von Konstituentenstruktur- oder Markovketten- Grammatiken. Dieses Problem der kombinatorischen Explosion wird, auch als Folge der Berücksichtigung der genannten Transformationen Q, dadurch gelöst, daß erfindungsgemäß in den grammatischen Daten Ws solche Begriffe Ax a Ws berücksichtigt werden, deren wechselseitige Bezüge vorwiegend durch Wahrscheinlichkeiten niedriger Ordnung O(b), beispielsweise b = 1 und 2 bestimmt sind, so daß in Ba vergleichsweise einfache Ausdrücke der Form p(AA) = p(A1) × p(A2/A1) × . . . × p(Am/A(m - 1)) anfallen, wobei ferner als Folge der Anwendung von Bedingung Bs weitere Permutationen hiervon vielfach vernachlässigbar werden. In einer Ausbildung der Erfindung werden die Schwellwerte ps in den Bedingungen Bs so gewählt, daß die Mengen der in den Daten Ws zu berücksichtigenden Bezüge, welche durch bedingte Wahrscheinlichkeiten der Ordnung O(b) ausgedrückt werden, annähernd exponentiell mit Exponenten - b/c abfallen. In Anpassung an die Sprachen L wie auch die verfügbaren Vorrichtungen werden beispielsweise nahe c = 2 liegende Werte verwendet. Damit wird vorteilhaft erreicht, daß bei einer Anzahl a von berücksichtigten Begriffen A die Anzahl der diese verknüpfenden Parameter größenordnungsmäßig nur proportional zu ac anwächst, wodurch das oben als grundsätzlich NP-hart geschilderte Komplexitätsproblem auf ein lösbares P-hartes Problem / /22/ / zurückgeführt wird und die in den Daten Ws anfallende Datenmenge auch bei einer Anzahl a von Begriffen A wie objektiven Wörtern Vt in einem maschinell bewältigbaren Rahmen bleibt.
Die in der genannten bevorzugten Ausgestaltung vorgesehene Verwendung von Symbolen Gs, welche den Transformationen Q genügen, bietet darüber hinaus den weiteren Vorteil, daß als Begriffe A eine Anzahl a objektiver Wörter Vt eingesetzt wird, deren wechselseitige, durch bedingte Wahrscheinlichkeiten der genannten Art p(A1/A2; . . .) niedriger Ordnung O(n) beschriebene Bezüge durch die Bezüge ebenso niedriger Ordnung O(n) einer wesentlich geringeren Anzahl e kk a von als grammatische Symbole Gr = G eingesetzten Einheiten G beschreibbar werden, zu denen sich die Wörter Vt als disjunkte Klassen G = (Vt) superieren lassen. Wird so in einer vereinfacht schematisch Abschätzung zugrunde gelegt, daß eine Anzahl f der in einer natürlichen Sprache L gebrauchten lexikalischen Wörter gemäß den Transformationen Q einer gegebenenfalls die Anzahl f auch übersteigenden, Anzahl a g f objektiver Wörter Vt entspricht, welche, gegebenenfalls jeweils auch mehrfach, einer wesentlich geringeren Anzahl e kk a wie auch e kk f von Einheiten G zuordenbar sind, so folgt ein im Vergleich zur obigen Abschätzung ac nochmals wesentlich abgeschwächtes Anwachsen der Verknüpfungsparameter für die Wörter Vt mit ec kk ac. Da die Bezüge zwischen den f lexikalischen Wörtern einer solchen Sprache L, wie etwa bei den genannten Markov-Wahrscheinlichkeitsketten, durch bedingte Wahrscheinlichkeiten p vergleichsweise hoher Ordnung O(d) mit d g c zu beschreiben sind, gilt zugleich vorteilhaft ec kk fd. Die den gegenwärtigen Stand kennzeichnenden Kommunikationsverfahren, welche lexikalische Wörter oder bisher vorgeschlagene Zusammenfassungen zu Konstituenten oder Phrasen als Komponenten benutzen, lassen solche umfassenden, ausreichend datensparenden Superierungen nicht zu und sind deshalb wegen der resultierenden kombinatorischen Explosionen der diese Komponenten verknüpfenden grammatischen Bezugsdaten für Verfahren der erfindungsgemäßen Art grundsätzlich ungeeignet, falls die Berücksichtigung von im Sprachgebrauch üblichen Mengen lexikalischer Wörter erwartet wird.
Entsprechend der im Regelfall vorzusehenden Zuordnung von großen Mengen a von Begriffen A, vorzugsweise objektiven Wörtern Vt, zu wesentlich geringeren Mengen e kk a von Superbegriffen G = (Vt) sieht die Erfindung in einer Ausbildung vor, bei einer gegebenenfalls gemäß Verfahrensteil M4 a M vorzunehmenden Erstellung der in Kommunikationsverfahren M zu berücksichtigenden Daten Ws in einer ersten Phase mit der Aufstellung einer möglichst vollständigen Liste von Einheiten G mit jeweil 99999 00070 552 001000280000000200012000285919988800040 0002010015859 00004 99880s einem oder einigen wenigen zugeordneten Wörtern Vt a G zu beginnen, denen in einer 2. Phase die weiteren aus der Sprache L zu berücksichtigenden Wörter Vt a G zugeordnet werden, was in dieser 2. Phase zu einer weiteren Absenkung des Anwachsens der Daten Ws mit der Zahl a der Wörter Vt hin zu einem annähernd linearen Verlauf führt, und zwar auch dann, wenn Wörter Vt jeweils auch mehreren Einheiten G zuzuordnen sind.
Einen weiteren Beitrag zur Lösung des Komplexitätsproblems liefert die genannte nichtlineare Wahrscheinlichkeitsverarbeitung Bb, wonach in den zu berücksichtigenden Entscheidungsbäumen anfallende Konkurrenzhypothesen Ks mit Wahrscheinlichkeiten p(Ks/D) k ps unterhalb festzulegender Schwellwerte ps so weit vernachlässigt werden, daß die Anzahl der abzuarbeitenden Hypothesen Ks in einem der Kapazität verfügbarer Rechner angepaßten Rahmen bleibt. Im Vergleich zu beim gegenwärtigen Stand üblichen, auf logische Operationen abgestützten Verfahren, die bei der erfindungsgemäßen Kommunikation gegebenenfalls in fehlerhafter Form anfallende Texte T und diesen versuchsweise zugeordnete Inhalte als "unwahr" verwerfen müssen, bleibt das erfindungsgemäße Verfahren aufgrund des für die genannte Ausbildung vorgesehenen stufenweisen Absenkens der Schwellwerte ps dabei vorteilhaft robust gegen die Eingabe auch grammatisch unkorrekter Texte T ne Tg und unkorrekter Nachrichten TN ne TNg.
Die Summe der Wahrscheinlichkeiten p(Ax/(Ax)) der einer Klasse Kl = (Ax) zugeordneten Elemente Ax wird als Ca bezeichnet, wobei für eine disjunkte Klasse Ca = 1 gilt. In einer datensparenden Ausbildung wird für die p(Ax)-Werte bestimmter Klassen Kl auch Gleichverteilung angenommen, was auch aus dem erfindungsgemäß anzuwendenden Prinzip maximaler Entropie / /17/ / insbesondere in solchen Fällen folgt, wo nur wenige für die grammatischen Daten Ws statistisch ausgewertete Beispiele vorliegen. Allgemein ist zu beachten, daß unter einer als p(A) bezeichneten, also der Ordnung O(1) zugeordneten, Wahrscheinlichkeit p häufig streng eine hier zur Vereinfachung nicht explizit notierte, auf das Vorkommen von den betreffenden Kommunikationsakt charakterisierenden Daten B zu beziehende bedingte Wahrscheinlichkeit p(A/B) zu verstehen ist, wobei es sich bei B beispielsweise um grammatische Daten Ws wie auch die oben angeführten Vorgaben Vr oder um weitere Daten D wie beispielsweise das Vorliegen eines bestimmten Textumfangs T wie auch bestimmter Textmerkmale T oder Zeichenkomplexe ZZ handelt. In einer vorteilhaft datensparenden Ausbildung werden die Wahrscheinlichkeiten p(Ax/(Ax)) für die Zuordnung von Elementen Ax zu einer Klasse (Ax) auch in analytischer Form angegeben, welche gegebenenfalls auch Näherungen zu empirisch bestimmten Daten darstellen.
Bei Vorliegen eines aus 2 oder mehr aneinandergereihten Textabschnitten T2, T3 usw. zusammengesetzten Textes T1 = T2T3 . . ., dem als Konkurrenzhypothesen Ks sowohl ein einziger korrekter grammatischer Inhalt N1g einer grammatischen Nachricht T1N1g wie auch mehrere korrekte grammatische Inhalte N2g, N3g usw. entsprechend einem aus T2N2g, T3N3g usw. gebildeten Nachrichtenkomplex TN,TN zuordenbar sind, wird in Anpassung an die zu behandelnden Sprachen L dem Text T1 eine einzige Nachricht T1N1 zugeordnet, wenn sich hierfür gemäß Ba eine um einen ausreichenden Faktor höhere Wahrscheinlichkeit p(T1N1) g p(T2N2 d T3N3 d . . .) ergibt, dagegen mehrere Nachrichten, wenn p(T2N2 d T3N3 d . . .) ge p(T1N1) gilt, also auch, wenn beide Wahrscheinlichkeiten p als annähernd gleich anzusehen sind.
Die oben angesprochene, gemäß einer bevorzugten Ausgestaltung der Erfindung anzuwendende nichtlineare Wahrscheinlichkeitsverarbeitung Bb beziehungsweise Informationsverarbeitung Bb sieht allgemein vor, Wahrscheinlichkeiten p(A) von als Konkurrenzhypothesen A = Ks zu behandelnden Gegenständen A, wie sie empirisch oder rechnerisch auch aufgrund vorliegender Evidenzen D ermittelt werden, abhängig von ihrer Höhe, auch in Relation zu festgelegte Schwellwerte ps nicht unterschreitenden Referenzwerten pr ge ps, so abzuändern, daß Wahrscheinlichkeiten p(A) g pr weiter, gegebenenfalls auch bis auf p(A) = 1, erhöht und Werte p(A) k ps weiter, gegebenenfalls auch bis auf p(A) k ps, also auch p(A) = 0 erniedrigt werden, wobei gemäß Bedingung Ca die Wahrscheinlichkeitssumme der für eine Klasse Kl = (Ks) von Konkurrenzhypothesen Ks geltenden Wahrscheinlichkeiten p(Ks) zu beachten ist. Entsprechende nichtlineare Verarbeitungsschritte gelten für die mit den Wahrscheinlichkeiten p(A) verknüpften Informationen j(A). Wie angeführt gelten als Konkurrenzhypothesen Ks grundsätzlich sämtliche, in einem ersten aus einer Komponente Em und in weiteren Superierungsschritten aus mehreren Komponenten Em aufgebaute, Komplexe Kp = EmEm, entsprechend auch die durch einen Text T repräsentierten, jeweils einer Superierungshierarchie angehörigen Hintergründe E, grammatischen Inhalte N und Nachrichten TN sowie die in den jeweiligen Stufen erstellten Teile EmEm hiervon. Die nichtlineare Verarbeitung Bb wird auch als nichtlineare Daten- oder auch Wissensverarbeitung bezeichnet.
Die nichtlineare Abwandlung Bb der Größen p(A) und j(A) zu Größen p(A)' beziehungsweise j(A)' erfolgt in Anpassung an die Gegebenheiten der betreffenden Sprachen L und des hierfür vorliegenden Datenmaterials Ws und der verfügbaren Vorrichtungen gemäß einer oder mehrerer der folgenden Ausbildungen: Es werden Schwellwerte ps festgelegt und alle Werte p(A) k ps auf p(A)' = 0 gesetzt. Für eine Klasse (A) = (Ks) wird neben einem Schwellwerte ps ein Referenzwert pr ge ps festgelegt, und es werden die auf pr normierten Werte p(A)/pr g 1 monoton mit p(A)/pr erhöht und die Werte p(A)/pr k 1 monoton mit p(A)/pr erniedrigt, wobei resultierende Werte p(A)' k ps auf p(A)' = 0 gesetzt werden, und für die verbleibenden Werte p(A)' ge ps Bedingung Ca beachtet wird. Die monoton mit p(A)/pr vorzunehmende Abänderung erfolgt durch Potenzierung gemäß (p(A)/pr)b mit b g 1, in einer Ausbildung auch mit b gg 1. Für den Schwellwert ps einer Klasse Kl = (A) wird ein monoton mit der Zahl c der (A) angehörenden Begriffe A abfallender Wert, in einer Ausbildung proportional zu 1/c festgelegt. Die Werte ps wie gegebenenfalls auch pr werden, auch abhängig von geltenden Vorgaben Vr und den erreichten Ergebnissen (Ks), so festgelegt, daß für mindestens eine Konkurrenzhypothese Ks a (Ks) eine Wahrscheinlichkeit p(Ks) ge ps erreicht wird, vorausgesetzt, daß weitere festzulegende Minimalwerte für ps beziehungsweise pr nicht unterschritten werden. Schwellwerte ps und Referenzwerte pr werden auf solche Werte ps k p(Ks1) beziehungsweise pr k p(Ks1) unterhalb der Wahrscheinlichkeit p(Ks1) der wahrscheinlichsten Hypothese Ks1 a (Ks) festgelegt, daß die Zahl der anfallenden Hypothesen Ks mit p(Ks) ge ps die Kapazität der verfügbaren Rechner nicht übersteigt. Es werden Wahrscheinlichkeitsskalen mit einer beschränkten Anzahl entsprechend grob abgestuften Wahrscheinlichkeitswerte px = p1, p2 . . . usw. verwendet, wobei Wahrscheinlichkeiten, die sich um einen entsprechend geringen Faktor b unterscheiden, gleichgesetzt werden. Diese Wahrscheinlichkeitsskala wird nach Potenzen px = (t)a mit t k 1 quantifiziert, wobei p1 = t, p2 = t2, p3 = t3 usw. ist. Die Festlegung der Schwellwerte ps erfolgt nach Kosten-Nutzen-Abwägungen. Sie wird nach den bekannten Regeln der Spieltheorie vorgenommen. Für die Bildung der Konkurrenzhypothesen Ks werden mehrere Zyklen vorgesehen, bei denen die Schwellwerte ps ausgehend von vergleichsweise hohen Werten psx stufenweise so weit auf Werte psx oberhalb festzulegender Minimalwerte ps abgesenkt werden, bis sich für den betreffenden Superierungsschritt wenigstens eine Konkurrenzhypothese Ks mit einer Wahrscheinlichkeit p(Ks) ge px ergibt. Die Funktion des Autors At wird mit vergleichsweise hohen ps-Werten bestritten, welche den Vorstellungen einer großen Zahl von Experten bezüglich der Zulässigkeit der erzeugten Texte T entsprechend T = Tf und Nachrichten TN = TNg genügen. In der Funktion des Hörers Hr werden auch vergleichsweise niedrige Schwellwerte ps zugelassen, so daß die Bildung auch wenig wahrscheinlicher Nachrichten TN zu einlaufenden Texten T möglich wird, die gegebenenfalls von Autoren At geringer Sprachkompetenz abgegeben wurden oder auf der Übertragungsstrecke gestört wurden und von Experten bezüglich ihrer Bedeutung als ungebräuchlich bis hin zu fehlerhaft beurteilt werden. Für die Informationsdaten j(A) gelten jeweils entsprechende Verarbeitungsvorschriften.
Die Erfindung sieht grundsätzlich vor, die Komplexbildungen von grammatischen Nachrichten TN in beliebigen Reihenfolgen vorzunehmen, was eine Anpassung der Vorgehensweise an die Gegebenheiten der jeweils durchzuführenden Kommunikationsakte möglich macht. Beispielsweise werden Komponenten Em in Richtung fallender Wahrscheinlichkeiten p(Em), mit denen sie durch vorliegende Daten D einschließlich Adressen Ad angezeigt werden, berücksichtigt. So werden beispielsweise bei der Zuordnung von Inhalten N zu Texten T Komponenten Em in Richtung wachsender Superierungshierarchien berücksichtigt, wobei in einer Vorgehensweise einem Textabschnitt T, jeweils unter Berücksichtigung disjunkter Repertoires R(Ks) von Hypothesen Ks, ein Komplex ZZ von Zeichen Z, diesem dann ein Komplex VtVt von Wörtern Vt, diesem ein Komplex GG von Einheiten G und diesem ein Hintergrund E und Inhalt N zugeordnet wird. In einer hiervon abweichenden Vorgehensweise wird jeweils einem entsprechend kürzeren Textabschnitt T ein Komplex ZZ a Vt a G mit entsprechend zuzuordnenden Symbolen Vt und G zugeordnet, einem weiteren Textabschnitt T ein weiteres Symbol ZZ a Vt a G usw., die wiederum in grundsätzlich beliebigen Reihenfolgen zu einem Hintergrund E, Inhalt N und einer Nachricht TN kombiniert werden, welche gegebenenfalls zu Folgen TN,TN hiervon, beispielsweise in der Reihenfolge der Textabschnitte T a TN im Text T, zusammengestellt werden. Bei der Erstellung von ausgehenden Texten T zuzuordnenden Nachrichten TN werden entsprechend auch Reihenfolgen in Richtung fallender Superierungshierarchien der Komponenten Em verfolgt.
Die mit der nichtlinearen Datenverarbeitung Bb verbundene Vereinfachung der bei der Komplexbildung von grammatischen Nachrichten TN anfallenden Entscheidungsbäume in Verbindung mit grundsätzlich frei wählbaren Reihenfolgen hat eine, unten auch an Beispielen erläuterte, vorteilhafte Verringerung des für die Kommunikation anzusetzenden Verarbeitungsaufwands zur Folge, welche den aus der Berücksichtigung quantitativ definierter Eigenschaften H(Gs) der Symbole Gs resultierenden vermehrten Datenaufwand mehr als wettmacht.
Die erfindungsgemäß mittels der genannten Ansätze und Maßnahmen Ba, Bs und Bb unter Beachtung von Wahrscheinlichkeiten p oder Informationen j und Evidenzen D vorzunehmende Datenverarbeitung wird nachfolgend auch als intelligente Wahrscheinlichkeits-, Informations-, Wissens- oder Datenverarbeitung bezeichnet. Hierbei wird der Grad der Intelligenz als monoton abnehmend mit der Höhe der Schwellwerte ps wie auch monoton zunehmend mit der Zahl der im Mittel jeweils zunächst nebeneinander berücksichtigbaren Konkurrenzhypothesen Ks angesetzt.
Im Regelfall sind mit einem, wie oben definiert, grammatisch mehrdeutigen Text T = T1, der unter Beachtung von Bedingung Bs zugleich mehreren unterschiedlichen Inhalten N1 und N2 usw. zuordenbar ist, auch mehrere unterschiedliche semantische Inhalte F1 und F2 usw. mit entsprechend unterschiedlichen resultierenden semantischen Nachrichten T1N1F1 und T1N2F2 usw. verknüpft. In einer Ausbildung der Erfindung ist vorgesehen, Texte T, die sich als grammatisch mehrdeutig erweisen oder die Inhalten N nur mit vergleichsweise niedrigen Wahrscheinlichkeiten p(T/N) zuordenbar sind, einer semantischen Analyse bezüglich möglicher semantischer Inhalte F zuzuführen und die daraus beispielsweise gemäß Erfindungsmeldung P . . . abzuleitenden Hinweise auf einen möglich erscheinenden beziehungsweise vorzuziehenden Inhalt N zu nutzen. Man beachte, daß unter einem oben definierten Text T = Tf, welcher durch Expertenaussage in bezug auf einen zugeordneten semantischen Inhalt F für zulässig erklärt wird, erfindungsgemäß ein Text T zu verstehen ist, der zugleich als grammatisch korrekter Text T = Tg a TNg einer grammatisch korrekten Nachricht TNg mit grammatisch korrektem Inhalt Ng a TNg und Hintergrund Eg a TNg zugeordnet ist.
Mit einem in einer Grammatik Ws zusammengefaßten Repertoire R(Gs) von Symbolen Gs mit, unten noch detaillierter beschriebenen, Eigenschaften H(Gs) der erfindungsgemäß vorgesehenen Art wird in Übereinstimmung mit der oben zitierten Definition natürlicher Sprachen L ein für die betreffenden Sprachen L jeweils endliches "Vokabular" von Symbolen bereitgestellt, aus dem, ebenfalls definitionsgerecht, eine theoretisch mit dem Umfang der Texte T unbegrenzt anwachsende Anzahl von Symbolkomplexen GsGs wie Inhalten N, Hintergründen E und Sätzen S und entsprechend Komplexen NN, EE und SS hiervon erzeugbar ist. Entsprechend der erfindungsgemäß vorgesehenen Verwendung von Symbolen Gs = Vt, welche neben ihrer Funktion als Textsymbole Gt und grammatische Symbole Gr zugleich auch als semantische Symbole Gp dienen, ist einer so unbegrenzten Vielfalt von grammatischen Inhalten NN auch eine ebenso unbegrenzte Vielfalt semantischer Inhalte FF zuordenbar. Wie unten ausgeführt, ist zur erfindungsgemäßen Durchführung von Kommunikationsakten die Bearbeitung von Texten T erforderlich, deren Länge jeweils einen bestimmten Minimalumfang nicht zu überschreiten braucht, so daß der jeweilige Bearbeitungsvorgang ein beschränktes Repertoire R2(GsGs) von Symbolkomplexen GsGs aus einem, wie angeführt, für die betreffende Sprache L jeweils als prinzipiell unbeschränkt anzusetzenden Repertoire R1(GsGs) betrifft. Hierbei ist davon auszugehen, daß insbesondere bei in Analogform geäußerten, durch Textsignale Tx definierten Texten T die Zahl der auf ein Textsymbol Gt, beispielsweise ein Wort Vt bezogenen Signalkomplexe TxTx ebenfalls theoretisch unbegrenzt überproportional mit dem Umfang der Texte T ansteigt. Durch die vorgesehene Beschreibung der Texte T mittels einer beschränkten Anzahl von Merkmalen Z, die durch bestimmte Texteigenschaften H(T) mit entsprechend großen Toleranzen dH zu definieren sind, wird auch der mit dem Textumfang zu erwartende Anstieg der pro Wort Vt anzutreffenden Merkmalskomplexe ZZ in apparativ beherrschbaren Grenzen gehalten.
In einer an die zu beherrschenden Sprachen L und Kommunikationsakte angepaßten Ausgestaltung ist vorgesehen, den Grammatiken Ws auch als speziell bezeichnete grammatische Daten Wsp a Ws zuzuordnen, die es ermöglichen, spezielle grammatische Nachrichten TN = TNp mit Inhalten Np a TNp zu erzeugen, wie sie, gegebenenfalls auch gekennzeichnet durch Vorgaben Vr, in speziellen Kommunikationsakten eingesetzt werden. Hierzu gehören beispielsweise Gedichte, bei denen ein Versfuß einzuhalten ist oder auch Reimungen oder Alliterationen zu beachten sind, Überschriften oder Zeitungsschlagzeilen, die sich durch eine besondere, beispielsweise auch durch das Weglassen eines Subjektes oder eines Artikels erreichte Kürze auszeichnen, Formbildungen, wie sie in manchen Sprachen L durch Anpassung von Lauten an den Kontext gefordert werden, Werbetexte usw.
Die Erfindung sieht vor, grammatische Symbole Gr = (Gt) zu verwenden, deren Eigenschaften H(Gr) jeweils ein Repertoire R(Pr) von Möglichkeiten ihrer Verwendung in grammatischen Nachrichten TN in Anordnungen Pr mit einschließen, welche allgemein durch einen Rang Ra und die Positionen P der Texte T a Gt a Gr ihrer Textsymbole Gt a Gr bestimmt sind und durch die oben eingeführten Valenzen Um beschrieben werden. Diese Valenzen werden durch die nachfolgend ausgeführten Beziehungen Wt = Wtu definiert und unterscheiden sich somit von den als nicht zuverlässig eingeschätzten Valenzen / /24/ /, wie sie für dem gegenwärtigen Stand entsprechende Grammatiken vorgeschlagen wurden. Die Beziehungen Wt werden hier beispielhaft für die Komplexbildungsmöglichkeiten einer als grammatisches Symbol Gr eingesetzten Einheit G11 a (G1w) über deren Valenz Um11.1 mit einer Einheit G21 a (G2v) über deren Valenz Um21.1 dargelegt, wobei (G1w) und (G2v) für jeweils eine disjunkte Klasse Kl von Einheiten G stehen. Die Komplexbildung einer Einheit G2v a (G2v) mit G11 über deren Valenz Um11.1 ist durch eine oder auch mehrere mögliche Positionen P2vz.1 der Texte Ts a Vt a G in einer Nachricht TN relativ zueinander bestimmt; entsprechende Positionsbezeichnungen P1wz.1 gelten für die Komplexbildung einer Einheit G21 über deren Valenz Um21.1 mit einer Einheit G1w. Hierbei wird durch eine Beziehung
Wt1 =: p((G2v)/G11; P2vz) ge pr1
angezeigt, daß für G11 eine Komplexbildung mit einer der Einheiten G2v unter Beachtung einer Position P2vz mit einer einen Referenzwert 0 k pr1 k 1 nicht unterschreitenden Wahrscheinlichkeit p ge pr1 zu erwarten ist, wobei hier und im folgenden die weitere Bedingung, daß die Komplexbildung über Valenz Um11.1 erfolgt, nicht eigens notiert wird.
Durch eine weitere Beziehung
Wt2 =: p((Gu)/G11; Pu) k ps2
mit Gu ne G2v wird ausgedrückt, daß für eine Komplexbildung von G11 über Um11 mit einer Einheit Gu aus einer disjunkten Klasse Kl = (Gu), von denen keine der Klasse (G2v) angehört, eine Wahrscheinlichkeit p k ps2 unterhalb eines nahe null liegenden Schwellwertes ps2 gilt.
Die weitere Beziehung
Wt3 =: p((G2v)/G11; P2vz; G2vG11) k ps2
zeigt an, daß für eine Komplexbildung von G11 über Um11.1 mit einer weiteren, beispielsweise an einer weiteren Position P2vz angeordneten Einheit G2v ebenfalls eine nahe null liegende Wahrscheinlichkeit p k ps2 gilt, falls diese Valenz Um11.1 bereits durch eine Komplexbildung G2vG11 mit einer Einheit G2v gesättigt ist.
Schließlich wird anhand von
Wt4 =: p(n(G2v)/G11) = p4
festgelegt, ob es sich bei Um11.1 um eine selbständige Valenz Um = Ums handelt, die mit einer einen nahe null liegenden Schwellwert ps4 nicht unterschreitenden Wahrscheinlichkeit p4 ge ps4 nicht notwendig gesättigt werden muß, oder um eine unselbständige Valenz Um = Umn, bei der in den Nachrichten TN eine Komplexbildung mit keiner der Einheiten, also n(G2v), gemäß p4 k ps4 praktisch nicht vorgesehen ist, diese also mit hoher Wahrscheinlichkeit p g (1 - ps4) gesättigt werden muß.
Für eine Valenz Um21.1, welche entsprechende Komplexbildungsmöglichkeiten einer Einheit G21 a (G2v) mit einer disjunkten Klasse Kl = (G1w) von Einheiten G1w beschreibt, der auch G11 angehört, gelten entsprechende Beziehungen Wt mit
Wt1 =: p((G1w)/G21; P1wz) ge pr1'
Wt2 =: p((Gu')/G21; Pu) k ps2
Wt3 =: p((G1w)/G21; P1wz; G1wG21) k ps2
Wt4 =: p(n(G1w)/G21) = p4'
Hierbei ist entsprechend (G1w) na (Gu') sowie Um21.1 = Ums21.1, falls p4' ge ps4 oder Um21.1 = Umn21.1, falls p4' k ps4.
Eine Einheit G11, die mindestens eine Valenz Um aufweist, die in bezug auf sämtliche Einheiten G2v a (G2v) als Umn definiert ist, wird auch als unselbständig oder abhängig definiert, da sie in einem Hintergrund E mit hoher Wahrscheinlichkeit p = 1 - ps4 nicht allein vorkommen kann. Eine Einheit G11, die dagegen ausschließlich Valenzen vom Typ Ums aufweist, wird als selbständig bezeichnet und kann einen grammatischen Hintergrund E auch allein bilden wie auch die Funktion eines Kopfes G = Gk ausüben, von dem definitionsgemäß mindestens eine weitere Einheit Gx, wie unten erläutert, als Anhänger Gx = An(Gk) abhängt. Auch jede weitere gegebenenfalls vorliegende Valenz Um11.x einer Einheit G11 für die Komplexbildung mit einer weiteren Klasse (G3v) von Einheiten G3v in weiteren Anordnungen Pr wird durch entsprechende Ausdrücke Wtux mit Bedingungen Wtu näher bestimmt.
Bei Komplexbildungen der hier beispielhaft angegebenen Art wird bei einer auch als Verknüpfungsknoten Uk bezeichneten Zusammenfügung einer Einheit G11 über eine ihrer Valenzen vom Typ Ums mit einer Einheit G21 über eine ihrer Valenzen Umn zu einem Komplex E = E1 die Einheit G11 als Träger Ar von G21, geschrieben auch G11 = Ar(G21), bezeichnet, ausführlicher auch durch G11(Ums11.1) = Ar(G21(Umn21.1)). Zugleich gilt G21 als Anhänger An von G11 mit entsprechend G21 = An(G11) usw. Bei einer solchen auch als Ar/An-Bezug bezeichneten Komplexbildung wird dem Träger Ar ein Rang Ra über dem des Anhängers An zugeordnet. Bei einer Komplexbildung von 2 Einheiten G11 und G21 über deren Valenzen Um, die beide vom Typ Ums sind, wird alternativ entweder G11 = Ar(G21) oder G21 = Ar(G11) festgelegt, wobei bevorzugt G11 = Ar(G21) definiert wird, falls sich in Wt4 Wahrscheinlichkeiten p4 g p4' ergeben, und G21 = Ar(G11), falls p4' g p4.
Die entsprechend den Valenzen Um unter Beachtung der Positionen P der Textabschnitt Ts a Vt a Gr gebildeten Ar/An-Bezüge und die damit jeweils verknüpften Rangordnungen Ra der Symbole Vt a G definieren im einzelnen deren oben eingeführte Anordnungen Pr. Ein Ar/An-Bezug wird auch als grammatische Funktion eines Symbols Vt a G in einer Nachricht TN bezeichnet. Die einem Text T zugeordneten Symbole Vt, die Einheiten G, denen sie angehören, sowie deren wechselseitige Ar/An-Bezüge werden als grammatischer Inhalt N des Textes T definiert.
Definitionsgemäß umfassen die eingeführten Anordnungen Pr sowohl die Möglichkeit des, gegebenenfalls auch alleinigen, Vorkommens einer Einheit G und eines ihrer Symbole Vt a G und dessen Textes Ts a Vt in einer Nachricht TN unabhängig von einer weiteren Einheit G als auch ihres durch einen Bezug zu einer weiteren, durch ein Symbol Vt und einen Text Ts a Vt vertretenen, Einheit G bedingten Vorkommens. Vereinfachend werden auch die Anordnungsmöglichkeiten der Symbole Vt a G einschließlich ihrer Textabschnitte Ts a Vt als Pr bezeichnet. Die vorgesehene, durch die zugrunde gelegten Definitionen der Symbole Vt a G möglich gemachte Beschreibung ihrer Anordnungsmöglichkeiten Pr in Nachrichten TN durch Valenzen Um der Einheiten G hat vorteilhaft zur Folge, daß, anders als bei lexikalischen Wörtern, die Vielzahl möglicher Bezüge zwischen objektiven Wörtern Vt datensparend durch eine weitaus geringere Anzahl von Eigenschaften H(G) von Superierungen G = (Vt) dieser Wörter Vt beschreibbar wird, wobei durch eine Valenz Um21.1 einer Einheit G21 = (Vt21y) die Bezüge der Wörter Vt21.y a G21 zu Wörtern Vt1w.y a G1w ausgedrückt werden, die sogar zu einer weiteren Klasse Kl = (Vt1w.y) zusammengefaßt werden, wobei die Bezugsdaten weitgehend auf, kombinatorische Explosionen vermeidende, Daten der Ordnung O(2) beschränkt bleiben.
Den Gegebenheiten der Sprachen L entsprechend werden, auch im Einklang mit den unten beschriebenen Transformationen Q, die Schwellwerte ps in den Beziehungen Wt so festgelegt, daß die Daten Ws einer Sprache L auch selbständige Einheiten G ohne unselbständige Valenzen Umn enthalten.
In einer bevorzugten Ausgestaltung der Erfindung werden in den Daten Ws Valenzen Um mit Wahrscheinlichkeiten pr1 in Wt1 berücksichtigt, deren Werte die aus Texten T der betreffenden Sprachen L zu entnehmenden stochastischen Wahrscheinlichkeitswerte p((G2v)) um ausreichend hohe Faktoren b gg 1, auch unter Berücksichtigung der unten beschriebenen Transformationen Q, übertreffen.
Der genannte bevorzugte Aufbau der grammatischen Nachrichten TN aus Symbolen Gs = G, welche den Transformationen Q genügen, hat zur Folge, daß die Hintergründe E a TN durch Verknüpfungen von Einheiten G über deren Valenzen Um aufgebaut werden, von denen jeweils eine einzige selbständige Einheit G als Kopf G = Gk fungiert, welche gegebenenfalls einen Hintergrund E auch allein bildet. In einer Ausbildung der Erfindung wird dieser implizit zu beachtende Sachverhalt explizit auch dadurch ausgedrückt, daß eine grammatische Nachricht TN mit dem Vorliegen eines Hintergrundes E verknüpft wird, dem eine selbständige Valenz vom Typ Ums mit Wahrscheinlichkeit p((Gsv)/E) = p11 entsprechend den Beziehungen Wt1, Wt2 und Wt3 zugeordnet wird, wobei (Gsv) die disjunkte Klasse Kl sämtlicher in einer Sprache L verfügbaren selbständigen Einheiten G = Gsv repräsentiert.
In einer von der durch Einhaltung der Bedingung Cs gekennzeichneten Ausführungsform abweichenden Ausgestaltung wird anstelle von Cs eine Bedingung Css zugrunde gelegt, wonach eine disjunkte Klasse B = (Ax) a TN auch durch n(Ax), also keines ihrer Elemente Ax a (Ax) vertreten sein kann, wenn B vorliegt, also beispielsweise durch kein Wort Vt a G, wenn als Begriff Gr ein Superwort Gr = G = (Vt) in TN vertreten ist. In einer weiteren Ausformung wird anstelle der disjunkten Klasse B = (Ax) eine abgewandelte disjunkte Klasse C = n(Ax) o (Ax) = n(Ax) o A1 o A2 o . . . eingesetzt, vorausgesetzt, daß entsprechend Bs dann neben p(Ax/B) ge ps auch p(n(Ax)/C) ge ps gilt, wobei wieder Cs zugrunde gelegt wird. Bei einem gemäß / /4/ /, S. 177 f. als elliptisch bezeichneten Text, wie er beispielhaft durch eine mündliche, hier wieder durch eine Buchstabenfolge T1 = /komme/ angenäherte Äußerung repräsentiert wird, folgen bei diesen Ausbildungen unterschiedliche grammatische Nachrichten TN und Inhalte N, wenn als grammatische Daten Ws unter anderem ein durch den Textabschnitt Ts111 = /ich/ = Vt11 gegebenes Wort Vt11 a G1 und durch Ts211 = /komme/ = Vt21 gegebenes Wort Vt21 a G2 vorliegt. In einer Css folgenden Ausbildung wird Text T1 ein Satz (S11 a N1) = Vt21 mit N1 = G1G2 zugeordnet, wobei G1 = Ar(G2) mit G1 als selbständiger und G2 als unselbständiger Einheit vorausgesetzt wird, wobei dann p(n(Vt1y/G1)) ge ps anzunehmen ist. In einer Bedingung Cs folgenden Ausbildung wird T1 ein Inhalt N2 = G2 und ein Satz (S21 a N21) = Vt21 mit (Ts211 a Vt21) = /komme/ zugeordnet, wobei dann G2 ebenfalls als selbständige Einheit eingesetzt wird, auch wenn dem Sprachgebrauch folgend für diese Funktion als Kopf Gk mit p(G2) k p(G1) zu rechnen ist. Für die weitere Erfindungsbeschreibung werden die unter Einhaltung von Bedingung Cs durchzuführenden Ausführungsformen zugrunde gelegt.
Wie aus den Formulierungen Wt folgt, ist es je nach den Gegebenheiten der Sprachen L möglich, daß Wahrscheinlichkeiten p(Gx) der Ordnung O(1) dafür, daß eine Einheit Gx, vertreten durch ein objektives Wort Vtxy o Gx, in einem Text T einer gegebenen Länge vorkommt, wesentlich niedriger anzusetzen sind als bedingte Wahrscheinlichkeiten p(Gx/G1) der Ordnung O(2) dafür, daß Gx vorliegt, wenn eine Einheit G1 in der betreffenden Nachricht TN anzutreffen ist. Je nach Wahrscheinlichkeit p(Gx) wird so beispielsweise bei einer durch die Buchstabenfolge T1 = /erlebt/ angenäherten mündlichen Äußerung Tp einer Nachricht TN, die dem Schrifttext /Er lebt./ entspricht, eine höhere Wahrscheinlichkeit p zugeordnet als beispielsweise Nachrichten TN, die Schrifttexten wie /Er. Lebt!/ oder /Erlebt!/ entsprechen, wobei, wieder angenähert durch Buchstabenfolgen, /er/ a G1, /lebt/ a G2 und /erlebt/ a G3 mit Gx = G2 o G3 und p(G2/G1) g p(G1) g p(G2) ue p(G3) angesetzt wurde.
Erfindungsgemäß sind, im Einklang mit den Transformationen Q, keine Komplexbildungen zwischen 2 Einheiten G1 und G2 über deren Valenzen Um vorgesehen, wenn diese beide unselbständig, also vom Typ Umn sind. Wie oben ausgeführt, werden 2 oder mehr Symbole, die je nach, insbesondere auch durch die Positionen P gegebenem Zusammenhang, auch als eigene Wörter Vt1y a G1 und Vt2y a G2 usw. vorkommen, in solchen Fällen, wo sie nur gemeinsam, also nicht durch die Transformationen Q separierbar vorliegen, als eigenes Wort Vt3 a G3 definiert, welche datensparend auch als Komplexe Vt3z = vt1yvt2y und G3 = g1g2 der oben definierten Teilwörter vtxy und Teileinheiten gx notiert werden. Dieser Fall ist in Beispiel 1) unten sowohl durch Einheit G11 = g9g8 wie auch G12 = g10g8 mit den Positionen P = g9:g8 und g10:g8 gegeben, deren Teileinheiten in anderem Zusammenhang auch als Einheiten g8 = G8, g9 = G9 und g10 = G10 Verwendung finden.
In der genannten datensparenden Ausführungsform ist vorgesehen, als Valenzen Um einer so als Komplex Ga aus weiteren Einheiten Gb = gb gebildeten Einheit Ga = gbgb diejenigen Valenzen Um der Komponenten Gb zuzuordnen, die nach der Komplexbildung gbgb noch frei sind, wobei die Positionsangaben in den Um gegebenenfalls entsprechend abgeändert werden. Weisen also in Beispiel 1) die Verbformen G8 unter anderem eine Valenz Umn8.1 zur Komplexbildung mit einem bestimmten Subjekt G1, eine weitere Valenz Ums8.1 zu Verknüpfung mit einem bestimmten Objekt G9 sowie eine Valenz Ums8.2 zur Komplexbildung mit einem Adverb G10 und weiterhin G9 unter anderem eine Valenz Umn9.1 zur Komplexbildung mit bestimmten Verbformen G8 auf, so gelten in der Komplexbildung Ga = G11 = g9g8 in Beispiel 1) Valenzen Ums8.1 und Umn9.1 als gesättigt, während Umn8.1 und Ums8.2 mit entsprechend angepaßten Positionsangaben P für Komplexbildungen von G11 mit weiteren Einheiten G zur Verfügung stehen.
Der rangniedrigere Anhänger G2 = An(G1) eines ranghöheren Trägers G1 = Ar(G2) wird auch als abhängig von G1 bezeichnet, so wie auch ein Element El a Kl und eine Komponente Em a Kp als zur jeweiligen Superierung rangniedriger und somit davon abhängig definiert sind. Komplexbildungen in Hintergründen E a TN, in denen Einheiten G kettenförmig voneinander abhängen, beispielsweise gemäß G2 = An(G1), G3 = An(G2) usw., werden als Ast As, im einzelnen auch als Ast As(G1, G2, G3 . . .) bezeichnet, die unten näher erläuterten Strukturen J der aus Ästen As zusammengesetzten Komplexe E, N wie auch TN auch als Bäume mit jeweils einem Kopf Gk. Dabei ist zu beachten, daß die hier benutzten Bezeichnungen wie Baum, Ast, Kopf, Valenz, Rang usw. sich im Regelfall auf Begriffe beziehen, deren Definitionen sich von durch gleichlautende Bezeichnungen angezeigten Begriffen, wie sie in den dem gegenwärtigen Stand entsprechenden Grammatiken anzutreffen sind / /24/ /, unterscheiden. Im folgenden werden in der Erfindungsbeschreibung Bezüge zwischen Superierungen wie Einheiten G vereinfachend auch durch Bezüge zwischen deren Elementen El ausgedrückt; ein Bezug wie G1 = Ar(G2) wird also auch durch Vt11 = Ar(Vt21) oder auch Ts111 = Ar(Ts211) usw. mit Ts111 a V11 a G1 usw. angezeigt, Beispielsweise gilt im unten angeführten Beispiel 3) ein Bezug /rufe/ = Ar(/und höre/), womit impliziert ist, daß /rufe/ a Vt11 a G1, daß /und höre/ a Vt21 a G2 und daß G1 = Ar(G2). Gemäß einem weiteren, bereits oben angesprochenen Beispiel gilt unter Beachtung von Bedingung Cs entsprechend den Gegebenheiten der mündlichen deutschen Sprache in einem durch T2 = /ich komme/­ angenäherten Text T mit /ich/ = (Vt11 a G1) und /komme/ = (Vt21 a G2) zwar G1 = Ar(G2), G2 aber nicht als unselbständige Einheit, da auch mündliche Äußerungen Tp wie der oben gebrachte Text T1 = /komme/ als sprachüblich gelten. Entsprechend wird die für die Bildung von T2 a T2N2 zugrunde gelegte Valenz von G2 ebenso wie die beanspruchte Valenz Um von G1 als selbständige Valenz Ums festgelegt.
In einer datensparenden Ausgestaltung der Erfindung werden Angaben über die Positionen P alternativ entweder nur den Valenzen Ums der übergeordneten oder, bevorzugt, nur den Valenzen Ums der untergeordneten Einheiten G zugeordnet. Hierbei schließt in einer weiteren Ausbildung eine solche Positionsbezeichnung P2 bei einer abhängigen Einheit G2 = An(G1) nicht nur deren Positionierung zu ihrem Träger G1 = Ar(G2), sondern gegebenenfalls auch weiterer von G2 abhängiger Einheiten G3 = An(G2) usw. relativ zu G1 mit ein, welche somit in der Positionsangabe der betreffenden Valenz Um von G3 nicht eigens vermerkt werden muß. So wird durch P2 = G1:G2 und P3 = G3:G2 ein Hintergrund E1 mit der Reihenfolge E1 = G1G3G2 mit entsprechenden Anordnungen der Texte Txyz a Vtxy a Gx in der Nachricht T1N1 vorgegeben; dagegen wird ein allein gemäß P3 möglich erscheinender Hintergrund mit der Reihenfolge E3 = G3G1G2 aufgrund der vorgegebenen umfassenden Bedeutung von P2 unterbunden. Damit wird eine Positionsangaben der Ordnung O(3) für die Folge G1G3G2 aufwandsparend auf 2 Positionsangabe der Ordnung O(2) für die beiden Folgen G1G2 und G3G2 zurückgeführt. Entsprechend den Gegebenheiten der Sprachen L werden aber, wo erforderlich, auch Daten einschließlich Positionsangaben P auch höherer Ordnung O(n) benutzt. Die aus der Zusammenfassung der Komplexbildungsmöglichkeiten von Sprachtexten T aus Textabschnitten Ts a Vt a G zu Valenzen Um der aus diesen Textabschnitten Ts superierten Einheiten G vorteilhaft resultierende Dateneinsparung wurde oben diskutiert.
Abhängig von den Gegebenheiten der betreffenden Sprachen L ist in einer Ausgestaltung vorgesehen, die beschriebenen Ausdrücke Wt durch zusätzliche Valenzen-übergreifende Beziehungen Wtux zu ergänzen, welche in einer von verschiedenen Ausbildungen fordern, daß die Komplexbildung einer Einheit G11 mit einer Einheit G2v a (G2v) über eine Valenz Um11.1 von G11 nur mit geringer Wahrscheinlichkeit p k pr möglich ist, wenn G2v bereits über eine der weiteren Valenzen von G11, etwa Um11.2, mit G11 verknüpft ist. Weiterhin wird die Bildung von als zu umfangreich oder zu klein angesehenen Komplexen E mit entsprechenden Wahrscheinlichkeiten p k pr unterbunden. Valenzen-übergreifende Idiome wurden oben behandelt.
Der Einsatz der eingeführten Symbole Gs einschließlich der aus Teilwörtern vt gebildeten Teileinheiten g = (vt) und der Valenzen Um wird zunächst anhand des folgenden Beispiels 1) aus der deutschen Schriftsprache erläutert, das zur Vereinfachung der Beschreibung gegenüber der Realität in einigen Punkten vereinfacht wurde. Als Textsymbole Gt werden Wörter Vtxy a Gx und Teilwörter vtxy a gx verwendet, die als Norm-Zeichenkomplexe ZZsaxyz von Zeichen Z gebildet werden, welche gebräuchliche Buchstaben sowie einige der eingeführten Operatoren o unter Vernachlässigung des Trennungsoperators /==/ mit einschließen. Aufgrund der Beschränkung auf Normkomplexe wird für jedes Wort Vt und Teilwort vt jeweils eine als Vt = ZZs = Ts usw. notierte Identität zwischen Symbol Gt und Text Ts vorausgesetzt. Eine Teileinheit g = gb einer Einheit G = Ga, wie beispielsweise G11, welche auch als Einheit G = Gb wie beispielsweise G8 eingesetzt wird, wird entsprechend als g = g8 numeriert, worin ein Wort Vt8.y a G8 entsprechend als Teilwort vt8.y a g8 geführt wird. Wie oben ausgeführt, werden hierbei Valenzen Um der Einheiten Gb auch als Valenzen Um der hieraus zusammengesetzten Einheiten Ga verwendet, soweit diese nicht aufgrund der Zusammenfügung mit weiteren Teileinheiten g zu Ga gesättigt wurden. Die angeführten Reihenfolgen der Komplexe gg entsprechen den Positionen P der Teilwörter vt a g und Texte (Ts = ts) a vt, wobei bei gegebenenfalls dazwischenschiebbaren Texten T entsprechende Toleranzen da für die Abstände a anzusetzen sind. Als Symbole Gs werden folgende Einheiten Gx mit Wörtern Vtx.y = Tsax.y und Teileinheiten gx.y mit Teilwörtern vtx.y = Tsax.y im Rahmen der zu beachtenden grammatischen Daten Ws verwendet:
G131 = g21g31g22; vt21.1 = /g/;
vt22.1 = /__/, vt22.2 = /./, vt22.3 = /!/,
vt22.4 = /?/; vt31.1 = /_er/; G132 = g21g32g22;
vt32.1 = /_sie/; G133 = g21g33g22;
vt33.1 = /_wer/; G134 = g21g34g22;
vt34.1 = /_Rost/, vt34.2 = /_Hund/,
vt34.3 = /_Freund/; G135 = g21g351g34g22;
vt351.1 = /_der/; G136 = g21g36g22;
vt36.1 = /_nimm/; G4; Vt4.1 = /, tatsächlich,/
G5 = g21g4g22; G6; Vt6.1 = /_m=/; Vt6.2 = /_k=/,
Vt6.3 = /_d=/, Vt6.4 = /_s=/; G7 = g71g71;
vt71.1 = /"/; G8; Vt8.1 = /_frißt/,
Vt8.2 = /_fand/; G9; Vt9.1 = /_Knochen/,
Vt9.2 = /_Helfer/; G10; Vt10.1 = /_wohl/,
Vt10.2 = /_gern/, Vt10.3 = /_tatsächlich/; G11 = g9g8; G12 = g10g8;
G17; Vt17.1 = /_alter/, Vt17.2 = /_2./;
G18; Vt18.1 = /_alte/, Vt18.2 = /_2./;
G19; Vt19.1 = /_ein/; G20; Vt20.1 = /_keine/;
G21; Vt21.1 = /_es/, Vt21.2 = /_das/.
Diese Daten Ws entsprechen den durch die Transformationen Q bestimmten Definitionen der Wörter Vt a G und Valenzen Um. Wie aus Einheit G8 ersichtlich, werden dabei im Deutschen die Unterschiede zwischen den stark gebeugten Verbformen des Präsens und Praeteritums einer bestimmten Person nicht als grammatisch, sondern als semantisch klassifiziert. Die Situation bei schwach gebeugten Verben wird unten behandelt. Das für den geschilderten gegenwärtigen Stand gemäß / /1/ /, S. 100 und / /27/ /, S. 33 f. charakteristische Problem der Wortklassenbildung wird erfindungsgemäß, wie auch anhand einer entsprechenden Erweiterung des Beispiels 1) zu ersehen ist, gemäß den Transformationen Q so gelöst, daß von den oben zitierten Flexionsformen eines stark gebeugten Verbs wie /singen/ beispielsweise die Formen der 3. Person Singular Vt8.3 = /_singt/ und Vt8.4 = /_sang/ beide als unterschiedliche Wörter Vt8.y einer einzigen Einheit G8 aus Beispiel 1) zugeordnet werden, während die Formen der 1. Person /_singe/ und /_sang/ beide als Wörter Vtay a Ga einer weiteren, in 1) nicht berücksichtigten Einheit Ga Verwendung finden. Ein Ideogramm wie /_2./ wird erfindungsgemäß auch unterschiedlichen Einheiten, hier G17 und G18, zugeordnet.
Wie anhand möglicher Erweiterungen des Beispiels 1) durch weitere als Wörter Vt beziehungsweise vt einsetzbare lexikalische Wörter zu zeigen ist, läßt sich, wie oben ausgeführt, für die zur Beschreibung des Vokabulars R(Gs) erforderlichen Daten Ws ein Volumen ansetzen, dessen Zunahme sich asymptotisch einem linear mit der Zahl der objektiven Wörter Vt verlaufenden Anstieg ohne Gefahr einer kombinatorischen Explosion nähert. Beispielsweise läßt sich Einheit G8 eine Vielzahl weiterer Verbformen Vt8.y wie /_holt/, /_nahm/, /_sucht/, /_will/ usw. zuordnen, ohne daß eine Erweiterung der durch die Eigenschaften H(G8) beschriebenen grammatischen Bezüge zu weiteren Wörtern Vt erforderlich wird, wobei die von der Zahl n der einer Einheit Gx zugeordneten Wörter Vtxy abhängigen Wahrscheinlichkeiten beispielsweise einem Verlauf p(Vtxy/Gx) = b/n folgen.
Mit den, unten noch weiter ausgeführten, Daten Ws des Beispiels 1) werden, unter Vernachlässigung von Vorgaben Vr, zunächst beispielhaft die folgenden als Texte T = VtVt = S notierten Äußerungen betrachtet:
T11 = S11 = vt21.1Vt19.1vt34.3vt22.1 = /Ein Freund/, der wegen des fehlenden Punktes als Überschrift geeignet ist;
T21 = vt21.1Vt6.2Vt19.2vt34.2vt22.4 = /Kein Hund?/;
T31 = vt71.1vt21.1vt4.1vt22.3vt71.1 = /"Tatsächlich!"/;
T41 = vt21.1Vt4.1Vt6.1Vt19.1vt34.2Vt8.1vt22.3 = /Tatsächlich, mein Hund frißt!/;
T51 = vt21.1vt34.1Vt8.1Vt4.1vt22.4 = /Rost frißt, tatsächlich?/;
T61 = vt21.1vt351.1Vt18.2vt34.2Vt8.1Vt10.3Vt20.1Vt9.1vt22.2 = /Der 2. Hund hißt tatsächlich keine Knochen./;
T71 = vt21.1vt9.2vt8.2Vt6.1Vt19.1Vt17.1vt34.3Vt10.1vt22.2 = /Helfer fand mein alter Freund wohl./;
T8.1 = vt21.1vt32.1Vt8.2vt22.2 = /Sie fand./;
T9.1 = vt21.1vt36.1vt21.2vt22.3 = /Nimm das!/.
Die für Beispiel 1) berücksichtigten grammatischen Daten Ws umfassen auch einige Daten der oben genannten Art Wsp a Ws, wie sie für spezielle Kommunikationsbereiche, die beispielsweise Überschriften oder Anreden mit einschließen, benötigt werden. So ist neben T11 etwa eine Anrede
T10.1 = vt21.1Vt17.1vt34.3vt22.3 = /Alter Freund!/
oder Überschrift
T11.1 = vt21.1Vt17.1vt34.3Vt8.2Vt9.2vt22.1 = /Alter Freund fand Helfer/
möglich, wobei nach Expertenmeinung letztere Äußerung in einem fortlaufenden Text in eine Äußerung T12.1 = /Ein alter Freund fand Helfer./ = Tf zu korrigieren wäre. Eine gemäß den Transformationen Q hierfür analog zu G135 festzulegende Einheit G137 = g21g371g34g22 mit g371 = G19 wurde in Beispiel 1) zur Vereinfachung zunächst vernachlässigt, wird unten aber zur Nachrichtenbildung TN für Text T71 herangezogen.
Gemäß einer der genannten Ausgestaltungen wird die Reihenfolge der den Sätzen S a N zugeordneten Wörter Vt beziehungsweise vt wie auch der den Inhalten N zugeordneten Einheiten G beziehungsweise g entsprechend den Positionen P der Textabschnitte Ts a T a TN festgelegt. Man beachte, daß die Pluralform /_keine/ in Text T61 nicht durch Komplexbildung zweier objektiver Wörter Vt zustande kommt wie die Singularform /_kein/ in T21.
Die Daten Ws des Beispiels 1) dienen auch der Erläuterung der Valenzen Um. Hierzu werden für die Einheiten G13x, mit x = 1 bis 5, zunächst 3 selbständige Valenzen Ums13x.u, mit u = 1 bis 3, diskutiert. Von diesen ermöglicht Ums13x.1 eine Komplexbildung mit Einheit G7 über eine entsprechend unselbständige Valenz Umn7.1 von G7, die durch eine Positionsangabe P7.1 = g71:G13x:g71 näher bestimmt ist. Hierin zeigt die Unterstreichung, auch gemäß der oben eingeführten Konvention, an, daß die Positionierung :G13x: auch die Positionen sämtlicher gegebenenfalls von Einheit G13x abhängigen Einheiten mit einschließt. Valenz Ums13x.3 regelt eine Verknüpfungsmöglichkeit mit Einheit G4 über deren hier zunächst als unselbständig festgelegte Valenz Umn4.1, der disjunkt die Positionsangaben P4.1.1 = g21:G4:g3x:g22 und P4.1.2 = g21:g3x:G4:g22 zugeordnet werden, worin durch die Unterstreichung entsprechend symbolisiert wird, daß g3x die Positionen sämtlicher weitere von G13x abhängigen, zwischen g21 und g22 angeordneten Einheiten, somit also nicht G7 umfaßt. Die Valenzen Ums13x.2 der Einheiten G13x regeln jeweils die Zuordnung einer disjunkten Klasse (G)1 von Einheiten G8 a (G)1 und der weiteren Klasse (G)2 a (G)1 mit G11 a (G)2 uhd G12 a (G)2 über die entsprechenden Valenzen Umn von G8, G11 und G12. Hierbei werden jeweils Valenz Umn8.1 durch eine Positionsangabe P8.1.1 = g3x:G8, Umn11.1 durch P11.1.1 = G11:g3x und Umn12.1 durch P12.1.1 = G12:g3x näher bestimmt. Neben diesen Valenzen Ums13x.u weist Einheit G134 eine Valenz Ums134.4 zur Anlagerung der Klasse (G)3 = G17 o G19 auf, deren hierfür genutzte Valenzen Umn durch Positionsangaben P = G17:g34 beziehungsweise P = G19:g34 gekennzeichnet sind. Einheit G8 besitzt 2 Valenzen Ums8.1 und Ums8.2 zur Anlagerung von G9 o G21 mit P = G8:G9 usw. beziehungsweise G10 mit P = G8:G10, wobei die Positionsnotierungen der entsprechenden Valenzen Umn von G9 und G10 deren Reihenfolge offenlassen. Einheit G11 besitzt eine Valenz Ums11.1 zur Anlagerung von G10, deren hierfür eingesetzte Valenz Umn10.1 durch P = G11:Ar(G11):G10, Einheit G12 eine Valenz Ums12.1 zur Anlagerung von G9, deren entsprechende Valenz Umn9.1 durch P = G12:Ar(G12)G9 gekennzeichnet ist. Neben den genannten Valenzen Ums13x.u besitzt Einheit G135 eine Valenz Ums135.4 zur Anlagerung von G18 über deren Valenz Umn18.1 mit P = g351:G18:g34. Auf weitere Valenzen Um von Einheiten G aus Beispiel 1) wird anhand der darin betrachteten Texte T eingegangen.
Text T11 = S11 = /Ein Freund/ wird einem grammatischen Hintergrund E1 zugeordnet, in dem G134 = Gk als Kopf fungiert, der als Komplex Kp dreier als rangniedriger definierter Komponenten Em a G134, nämlich g21, 34 und g22 gebildet wird. Über Valenz Ums134.4 ist der Kopf gemäß G134 = Ar(G19) Träger des rangniedrigeren Anhängers G19, von dem hierbei eine entsprechende unselbständige Valenz Umn19.1 gesättigt wird. Gemäß einer oben erwähnten Ausbildung mit Daten Ws, die alternativ zu den Beispiel 1) zugrunde gelegten Daten Ws einsetzbar sind, kann auch Teileinheit g34 mit einer entsprechenden Valenz Ums als Träger g34 = Ar(G19) festgelegt werden. Hintergrund E1 wird dadurch zu einem Inhalt N1 ergänzt, daß den 3 Teileinheiten g a G134 und Einheit G19 jeweils ein als rangniedriger definiertes Teilwort vt beziehungsweise Wort Vt zugeordnet wird, welche als Elemente vt21.1 = El(g21), Vt19.1 = El(G19), vt34.3 = El(g34) und vt22.1 = El(g22) an den durch G134 und Umn19.1 vorgegebenen Positionen P erscheinen. Inhalt N1 wird grundsätzlich dadurch zu einer Nachricht T11N1 ergänzt, daß jedem Wort Vt oder auch Teilwort vt ein wieder als rangniedriger definierter Text Ts a Vt beziehungsweise Ts a vt zugeordnet wird. Entsprechend der für Beispiel 1) gewählten Festlegung Tsxyz = Tsaxyz = ZZsaxyz = Vtxy gilt hier T11 = S11.
Hintergrund E2 mit zugeordnetem Text T21 von Beispiel 1) entsteht durch Erweiterung von E1 um einen Anhänger G6 = An(G19), welche durch Sättigung einer Valenz Ums19.2 von G19 und Umn6.1 mit P = G6:G19 erfolgt, wobei hier und im folgenden auf die oben gebrauchte Indizierung der Positionen P verzichtet wird. In N2 ist G6 durch das objektive Wort Vt6.2 = /_k=/ vertreten. In Hintergrund E3 von T31 gilt G5 = Gk5 mit G7 = An(G5). Hierzu wird bei G5 eine Valenz Ums5.1 mit P = g71:G5:g71 und bei G7 eine entsprechende Valenz Umn gesättigt. E4 von T41 besteht aus Hintergrund E2, dem zusätzlich G4 = An(G134) über die genannte Valenz Ums134.3 und G8 = An(G134) über Valenz Ums134.2 von G134 zugeordnet sind. In E5 von T51 gilt wieder G134 = Gk mit G134 = Ar(G8) über Ums134.2 und G134 = Ar(G4) über Ums134.3, wobei die entsprechenden Valenzen Umn von G4 und G8 gesättigt werden.
Entsprechend der vorgesehenen statistischen Auswertung der Transformationen Q werden, auch abhängig vom hierfür zugrunde gelegten Korpus C von Texten T, auch Daten Ws zugelassen, in denen auch Einheit G5 eine selbständige Valenz Ums5.2 zur Komplexbildung mit einer disjunkten Klasse (G3x) von Einheiten G3x = G31 bis G25 mit G31 = g31 usw. aufweist, wobei dann dem Text T51 ein abgewandelter Hintergrund E51 ne E5 zugeordnet wird, in dem G5 = Gk5 gilt, von dem Einheit G34 = g34 mit (Vt34.1 a G34) = /_Rost/ als Anhänger G34 = An(G5) abhängt.
In Hintergrund E6 von Text T61 ist Kopf G135 über seine Valenz Ums135.4 Träger von G18 = An(G135) und über Ums135.2 Träger von G8 = An(G135). Über eine Valenz Ums8.1, die eine Komplexbildung mit G9 oder G21 ermöglicht, ist G8 = Ar(G9) und über eine Valenz Ums9.1 Einheit G9 = Ar(G20). Für Hintergrund Ee8 von T81 gilt G132 = Ar(G8) über Ums132.2, und in E9 von T91 ist G136 = Gk und, über deren Valenz Ums136.1, Einheit G21 = An(G136).
Tür Text T71 wird alternativ zum oben angeführten Satz S71 = T71 die oben zusätzlich eingeführte Einheit G137 = g21g371g34g22 = Gk137 als Kopf zugrunde gelegt, welche entsprechend in T71 durch einen Textabschnitt Ts = /Ein Freund./ repräsentiert wird. Hinzu kommen G17 = An(G137) mit Vt17.1 = /_alter/, G6 = An(g371) mit Vt6.1 = /_m=/, G11 = An(G137) mit dem Text vt9.2vt8.2 = /_Helfer fand/ und G10 = An(G11) mit Vt10.1 = /_wohl/. Wie aus diesen Angaben folgt, ist die Struktur J des Hintergrunds E von Inhalt N7 durch die Äste As1(G137, G11, G10), As2(G137, G6), welcher auch als As2(G137, g371, G6) notiert werden kann, und As3(G137, G17) gekennzeichnet. Welche Daten Ws im Falle alternativ einsetzbarer Daten zu verwenden sind, wird beispielsweise vorteilhaft in Anpassung an die jeweils vorliegenden Daten D wie auch Vorgaben Vr festgelegt.
Beispiel 1) zeigt, daß zur Beschreibung der hierfür einzusetzenden grammatischen Daten Ws entsprechend den durch die Valenzen Ums und Umn angezeigten Bezügen Daten der Ordnung O(2) im wesentlichen ausreichen, wobei aber für bestimmte Positionsangaben beispielsweise der Valenzen Umn9.1 von G9 und Umn10.1 von G10 auch Daten der Ordnung O(3) benötigt werden. So kommt Umn10.1 neben einer Positionsangabe P = G8:G10 der Ordnung O(2), wie sie etwa für Texte T = /Ein Hund frißt gern./ oder auch T = /Ein Hund frißt Knochen gern./ gilt, für die Wortfolge in T71 disjunkt hierzu auch eine Angabe P = G11:Ar(G11):G10 mit O(3) zu. Die Zuordnungen der Wörter Vt a G wie auch vt a g werden durchgängig durch bedingte Wahrscheinlichkeiten p(Vt/G) und p(vt/g) der Ordnung O(2) beschrieben. Daten der Ordnung O(2) reichen erfindungsgemäß also weitgehend aus, um Texte T mit grammatischen Inhalten N zu formulieren, die, wie hier T61, 7 lexikalische Wörter zuzüglich Satzzeichen umfassen. Wie oben angeführt, wird durch die berücksichtigten Einheiten G die Behandlung einer Vielzahl weiterer diesen zuordenbarer objektiver Wörter Vt und entsprechend lexikalischer Wörter möglich, wobei die Daten Ws näherungsweise linear mit deren Zahl anwachsen und insgesamt, wie diskutiert, Daten der Ordnung O(2) im wesentlichen zur Beschreibung ausreichen.
Bezüglich des beim gegenwärtigen Stand diskutierten Problems der Wortklassenbildung geht aus Beispiel 1) unter anderem hervor, daß das in T71 eingesetzte Wort Vt17.1 = /_alter/ einer anderen Einheit G17 angehört als das Wort Vt18.1 = /_alte/, welches anstelle von Vt18.2 Einheit G18 des Hintergrundes E6 von T61 zuordenbar ist, da gemäß den Daten Ws weder G17 = An(G135) noch G18 = An(G137) möglich ist.
Die Erfindung sieht in einer bevorzugten Ausgestaltung vor, die am Schriftsprachen- Beispiel 1) praktizierte Formulierung von Wörtern Vt als Komplexe Kp von Texten T und Operatoren o auch bei mündlichen Sprachen L anzuwenden. So wird beispielsweise analog zur Schriftsprachen-Einheit G131 = g21g31g22 das mündlich vorgetragene Wort /Er./ als Komplex o1vt31o2 eines Teilwort-Textes vt31 mit Operatoren ox formuliert, von denen o1 einen Abstand zu einem vorangehenden Text T und o2 eine Absenkung der Tonhöhe fordert, wobei wie in Beispiel 1) bei Hinzufügung von Anhängern An(G131) die Operatoren ox ihre Positionen P am Anfang und Schluß der entsprechend entstehenden Texte T a S der Sätze S a N beibehalten.
In einer Ausgestaltung der Erfindung, welche gemäß Vorgaben Vr beispielsweise für didaktische Anwendungen oder gemäß Verfahrensteil M4 für die Erstellung von Daten Ws aus Texten T unter Mitwirkung von Experten eingesetzt wird, werden die Strukturen 3 der zu bildenden grammatischen Nachrichten TN auch in grafischen Darstellungen wiedergegeben, wobei beispielsweise durch entsprechende Zeichen symbolisierte Symbole Gs durch Unterstreichungen markiert werden, deren Länge in Textrichtung die Positionen P der Textabschnitte Ts a Gt a Gs wie auch Ts a vt a Vt a Gs im Text T, im Schriftdeutschen also in horizontaler Richtung, symbolisiert. Rangordnungen Ra werden orthogonal hierzu, hier also vertikal, angezeigt, wobei rangniedrigere Anhänger An wie auch Elemente El wie auch Komponenten Em hiervon jeweils unterhalb ihres Trägers Ar oder ihrer Klasse Kl oder ihres Komplexes Kp notiert werden. Solche Zuordnungen werden auch durch vertikale Verbindungslinien sichtbar gemacht, welche in die entsprechenden Valenzen Um der Symbole Gr a Gs münden beziehungsweise Superierungsbezüge der Art El a Kl und Em a Kp usw. anzeigen. Abhängig vom gewählten Repertoire R(Gt) von Textsymbolen Gt werden solche Abhängigkeiten auch für die Zeichen Z a Vt, Z a Z und Texte Tr a Z usw. notiert. Komponenten Em der gleichen Superierungshierarchie wie Teileinheiten g a G, Teilwörter vt a Vt oder Zeichen Z a Vt werden, durch entsprechende Unterstreichungen gekennzeichnet, auf gleicher Höhe in Textrichtung angeordnet. In einer Ausbildung werden auch ungesättigte Valenzen Um vom Typ Ums durch entsprechende vertikal abwärts gerichtete Linienansätze zusätzlich zu den an vertikalen Verbindungslinien zwischen Symbolen Gr kenntlichen Valenzen Umn und gesättigten Valenzen Ums sichtbar gemacht.
Zur vereinfachten Beschreibung der grammatischen Nachrichten TN werden im folgenden neben den genannten Strukturen J auch vereinfachte Strukturen Jk benutzt, in denen vorliegende, beispielsweise durch Vt a G gegebene El/Kl-Bezüge weitgehend vernachlässigt werden, wobei Einheiten G beispielsweise jeweils durch ein Wort Vt a G oder auch eine Zeichenfolge ZZs a Vt a G wie auch ZZ a vt a Vt vertreten werden und Anordnungen Pr auch durch Bezüge der Art Vt1y = Ar(Vt2y) oder ZZs1yz = Ar(ZZs2yz) usw. symbolisiert werden, wobei in grafischen Darstellungen der genannten Art Vt1y entsprechend höher als Vt2y usw. angeordnet wird. Für erfindungsgemäß abgedeckte Sprachen L mit mehrdimensional zusammengefügten Komplexen Kp werden, beispielsweise durch Risse oder Rechnerdarstellungen mögliche, mehrdimensionale Strukturen J und Jk benutzt. Aus den angegebenen Definitionen und beschriebenen Maßnahmen folgt, daß sich die erfindungsgemäßen Strukturen J wie auch Jk der Hintergründe E, Inhalte N wie auch Nachrichten TN von anderen beim gegenwärtigen Stand gebräuchlichen syntaktischen Strukturen, die gemäß / /4/ /, S. 250 f. auch als Tiefenstrukturen bezeichnet werden, sowohl hinsichtlich der Definition der verknüpften Begriffe wie auch ihrer Verknüpfungen und als Folge hiervon auch hinsichtlich der resultierenden Strukturen und der bei der Kommunikation zu ergreifenden Maßnahmen unterscheiden.
Die Bewältigung der in natürlichen Sprachen L anzutreffenden Vielfalt von Textkombinationen und syntaktischen Bezügen durch das erfindungsgemäße Verfahren M wird an weiteren, dieser Vielfalt angepaßten Textbeispielen erläutert. Die unter Anwendung des Bayesschen Ansatzes Ba und nichtlinearer Datenverarbeitungsoperationen Bb vorzunehmende Behandlung des für Sprachen L charakteristischen Problems grammatischer und dadurch bedingter semantischer Mehrdeutigkeiten, wie sie insbesondere in Verfahrensteil M2 anfällt, wird anhand des folgenden Beispiels 2) aus der mündlichen deutschen Sprache L diskutiert. Hierfür werden aus Platzgründen ebenfalls wieder im Vergleich zur Realität vereinfachte grammatische Daten Ws berücksichtigt. Es werden wieder durch Normtexte Tsaxy1 = Zzsaxy1 = Vtxy repräsentierte Wörter Vtxy a Gx betrachtet, die jeweils durch eine der Schriftsprache entnommene Folge von Kleinbuchstaben angenähert werden, wobei unterschiedliche Aussprachemöglichkeiten Tsxyz a Vtxy zunächst vernachlässigt werden. Zur näheren, aber nicht vollständigen Charakterisierung der Eigenschaften H(Gx) der Einheiten Gx werden auch einige herkömmliche grammatische Begriffe verwendet. Die Daten Ws umfassen: G1 (Substantiv, Nominativ Plural, ohne bestimmten Artikel verwendet) mit zugeordneten Wörtern Vt11 = /fliegen/, Vt12 = /fallen/, Vt13 = /äpfel/; G2 (Pronomina der 3. Person Plural, Nominativ) mit Vt21 = /sie/; G3 (Verb, 3. Person Plural) mit Vt31 = /fliegen/, Vt32 = /fallen/; Vt33 = /gingen/, Vt34 = /gehen/, Vt35 = /flogen/; G4 (agglutinierend vorangestellte Präfixe) mit Vt41 = /fliegen/, Vt42 = /fallen/, Vt43 = /mause/, Vt44 = /frucht/, Vt45 = /eß/. Zu den erwähnten Vereinfachungen zählt, daß in Grammatik Ws unter anderem nicht berücksichtigt wurde, daß ein Textabschnitt wie Ts = /fliegen/ neben G1, G3 und G4 noch einer Vielzahl weiterer, nachfolgend angeführter Einheiten Gx zuzuordnen ist: G5 bis G8 (Substantiv Plural, ohne bestimmten Artikel verwendet) mit G5 (Nominativ, interrogativ verwendet) mit G6 (Dativ), G7 (Akkusativ), G8 (vokativ verwendet), als Teil von G9 bis G13 (Substantiv Plural, mit vorangestelltem Artikel /die/ verwendet), mit G9 (Nominativ, in Aussagen), G10 (Nominativ, interrogativ), G11 (Genitiv), G12 (Dativ), G13 (Akkusativ), G14 bis G16 (Verben), mit G14 (1. Personal Plural), G15 (Infinitivform des Imperativs), G16 (Teil von mit Hilfsverben zusammengefügten Infinitiven), G17 bis G28 (als Substantiv im Singular verwendete Infinitivform) mit (in Analogie zu obigen Substantivklassen) G17 bis G20 (ohne Artikel verwendete Substantivklassen), G21 bis G24 (mit bestimmtem Artikel gebrauchte Substantivierungen), G25 bis G28 (mit unbestimmtem Artikel gebrauchte Substantivierungen). Diese Einheiten Gx sind auch dadurch gekennzeichnet, daß sie den unten ausgeführten Transformationen Q genügen, wenn hierfür ein ausreichend umfangreicher Korpus C von Texten T zugrunde gelegt wird. Eine Unterscheidung in die genannten Einheiten G1 und G3 bis G28 folgt aus den Transformationen Q, welche bei einem entsprechenden Korpus C von Texten T sowohl unterschiedliche Valenzen Um wie auch Superierungen zu unterschiedlichen Wortklassen (Vtxy) = Gx fordern. Als weitere Vereinfachung wurde in Beispiel 2) nicht berücksichtigt, daß beispielsweise G3 erfindungsgemäß, wie anhand der Komplexbildung G12 = G10G8 aus Beispiel 1) gezeigt, als Komponente Kp, also als Teileinheit g weiterer Einheiten Gx fungiert.
Entsprechend den in mündlichen Sprachen L häufig in zusammenhängender Form anfallenden Texten T wurden den angeführten Wörtern Vt keine einleitenden Abstände oder Abstandsoperatoren o =: /_/ wie in Beispiel 1), des weiteren vereinfachend auch keine die Prosodie betreffenden Operatoren o zugeordnet.
Den in Grammatik Ws des Beispiels 2) berücksichtigten Einheiten Gx werden als Daten der Ordnung O(1) die Wahrscheinlichkeiten p(G1) = p(G2) = p2 und p(G3) = p3 mit p3 k p2 zugeordnet. Weiterhin erhalten die Einheiten Gx Valenzen Um, bei denen Beziehung Wt1 jeweils durch die folgende bedingte Wahrscheinlichkeit p der Ordnung O(2) näher bestimmt ist:
p(G3/G1; P(G1:G3)) = p(G3/G2; P(G2:G3)) = p(G4/G1; P(G4:G1)) = p(G4/G4) = p4,
wobei p4 g pr1 und p4 g p2.
Jedes Wort Vtxy a Gx sei seiner Einheit Gx mit p(Vtxy/Gx) = p1 zugeordnet. Quantitativ gelte beispielhaft p4 = t, p1 = p2 = t2 und p3 = t3, wobei t k 1. Die Wahrscheinlichkeiten p für weitere Bezüge werden mit p k pr1 vernachlässigt. Für einen einlaufenden, für sich allein stehenden und als Evidenz D betrachteten Text Tu1 = /fliegen/ mit Tu1 a Nu a Eu sind somit für den Inhalt Nu zunächst als Konkurrenzhypothesen Ksx die Komplexe Ks1 = N1 = G1Vt11 und Ks2 = N2 = G3Vt31 in Betracht zu ziehen. Ks1 liegt gemäß Ba mit einer Wahrscheinlichkeit p(N1/Tu1) = p(N1) × p(Tu1/N1)/Ne vor, worin Ne = p(G1) × p(Vt11/G1) + p(G3) × p(Vt31/G3). Quantitativ ergeben sich p(N1/Tu1) = t4/(t4 + t5) = t4/Ne für Ks1 und p(N2/Tu1) = t5/Ne für Ks2. Entsprechend einer der oben angeführten Ausbildungen, welche vorzugsweise angewendet wird, wird für die Hypothesen Ksx gemäß Bs ein Schwellwert ps2 g ps1 festgelegt, der die höchste für eine Hypothese Ksx erhaltene Wahrscheinlichkeit p(Ksx), hier also p(N1/Tu1), um einen Faktor b k 1 unterschreitet. Bei Wahl von b g t ergibt sich so für N2 eine Wahrscheinlichkeit p = 0. Die hier für das sichere Vorliegen von N2 fehlende Information wird somit nichtlinear von j21 = log(t5/Ne) ue log(t) auf unendlich erhöht. Bei disjunkten Konkurrenzhypothesen Ksx folgt mit Ca = 1 eine nichtlineare Absenkung der für das Vorliegen der Substantivklasse G1 = E1 fehlenden Information von j11 = log(t4/Ne) auf j12 = 0.
Man beachte, daß Verfahren M in der hier durch Beispiel 2) angezeigten Form beispielsweise beim Vorliegen eines Textes Tu2 = /gingen/ mit gleichem Schwellwert p2 = b auch die Bildung einer Nachricht T22N2 mit der Verbklasse G3 = E2 vorsieht, wie sie etwa bei, hier in Schriftdeutsch angegebenen, Äußerungen /"Gingen oder fuhren sie?" "Gingen."/ als Antwort sprachüblich sein kann. Entsprechend der in einer Ausbildung vorgesehenen stufenweisen Erniedrigung eines Schwellwertes ps, hier beispielsweise von ps2 = b auf ps3 = b2 wird auch für den gegebenen Text Tu1 eine Zuordnung zu einer Verbform G3 = E2 zugelassen, falls eine gegebenenfalls vorgesehene semantische Analyse dem durch das Substantiv Vt11 a G1 angezeigten, schriftdeutsch durch "Fliegen." ausgedrückten Sachverhalt keine ausreichend hohe Plausibilität zumißt.
Bei einem gemäß der Grammatik Ws des Beispiels 2) möglichen Text Tu3 = /siefliegen/ bedingt Bs mit einem wieder um den Faktor b g t unterhalb der höchsten Wahrscheinlichkeit p(Ks) angesetzten Schwellwert ps die Zuordnung von Tu3 zu einem Hintergrund E3 = G2G3 mit Tu3 = S33 = Vt21Vt31, schriftdeutsch durch /Sie fliegen./ ausgedrückt. Eine Zuordnung zu einem Komplex EE = E4E1 mit E4 = G2 und, wie oben, E1 = G1 entsprechend der Folge von Wörtern T = Vt21Vt11, schriftdeutsch durch /Sie. Fliegen./ ausgedrückt, wird dagegen wegen p(N4N5/Tu3) k ps2 vernachlässigt, ebenso wie die zu einem noch unwahrscheinlicheren Komplex E4E2 mit E4 = G2 und E2 = G3.
Ein weiterer mündlicher Text Tu4 = /fliegenfallen/ erscheint bei Vernachlässigung der quantitativen Daten in Grammatik Ws des Beispiels 2) den Hintergründen E5 = G1G3, E6 = G4G1 sowie den Hintergrundkomplexen E1E1, E2E2, E1E2 und E2E1 zuordenbar. Quantitativ folgen gemäß Ba Wahrscheinlichkeiten p(N5/Tu4) und p(N6/Tu4) zu jeweils etwas unterhalb 0,5, während sich für E1E1 ein Wahrscheinlichkeitswert unterhalb t, für E2E2 unterhalb t3 und für E1E2 und E2E1 unterhalb t2 errechnet. Bei Vernachlässigung der mit p k ps unwahrscheinlichen letzten 4 Möglichkeiten, welche unterschiedliche Aneinanderreihungen unzusammenhängender Substantiv- und Verbformen darstellen, verbleibt ein grammatisch und somit auch pragmatisch doppeldeutiger Text T, der erstens einer grammatischen Nachricht T11N1 entsprechend der schriftsprachlichen Äußerung /Fliegen fallen./ zuzuordnen ist, die sich semantisch beispielsweise auf ein realitätsfernes Herunterfallen von Insekten, alternativ aber auch auf einen Preisverfall für den Anglerköder "Fliegen" oder auf das Ablegen bestimmter Krawatten in einer Männergesellschaft beziehen könnte, während die weitere Nachricht T21N2 gemäß dem schriftdeutschen /Fliegenfallen./ beispielsweise Fanggeräte für Insekten anzeigt. Weitere Texte wie Tu5 = /fruchtfliegenfallen/ sind gemäß Grammatik Ws des Beispiels 2) mit ausreichend hohen Wahrscheinlichkeiten Sätzen S55 = Vt44Vt41Vt12 mit Vt44 = An(Vt41) und Vt41 = An(Vt12) entsprechend der schriftdeutschen Äußerung /Fruchtfliegenfallen./ oder auch S65 = /Vt44Vt11Vt32/ mit Vt44 = An/Vt11) und Vt32 = An(Vt11) entsprechend /Fruchtfliegen fallen./ zuordenbar, wobei sich das Verb /fallen/ in S65 semantisch auch wieder auf einen Kaufpreis beziehen könnte. Im Einklang mit den für Beispiel 2) vorgesehenen Vereinfachungen wurden anstelle der erfindungsgemäß in der deutschen Sprache anzutreffenden Strukturen J der Inhalte N lediglich vereinfachte Strukturen Jk berücksichtigt.
Wie oben ausgeführt, werden in einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens M als Symbole Gs objektive Wörter Vt und hieraus zu Klassen Kl superierte Einheiten G = (Vt) verwendet, die dadurch an die betreffenden Sprachen L angepaßt sind, daß sie den genannten auf beliebige Sprachen L anwendbaren Transformationen Q genügen. Diese nachfolgend ausgeführten Transformationen Q sehen die, unter Mitwirkung von Experten der betreffenden Sprachen L an Texten T dieser Sprachen durchzuführenden, statistisch zu bewertenden Beobachtungen bestimmter Invarianzen I vor, welche die Texte T bestimmter Repertoires R(T) bezüglich ihnen gemäß einer Notation F a T zugeordneter semantischer Inhalte F aufweisen. Von diesen fordert eine Invarianz I = I1, daß diese Texte T bezüglich ihrer, gegebenenfalls auch unterschiedlichen, Inhalte F a T, auch wenn sie als Äußerungen T = Tp für sich allein stehen, als ausreichend zulässig gemäß T = Tf eingestuft werden. Eine weitere Invarianz I2 fordert, daß die Texte T Invarianz I1 erfüllen und als ausreichend gleich eingestufte Inhalte F a T anzeigen. Eine weitere Invarianz I3 fordert, daß die Texte T Invarianz I1 erfüllen und daß bestimmte darin vorkommende gleichlautende Textabschnitte T1 a T jeweils als ausreichend gleich eingestufte Inhalte F a T1 anzeigen. Diese Invarianzen I sind bei einer bestimmten Gruppe von Transformationen Q an Texten T von Textrepertoires R(T) zu beobachten, wonach jeweils ein Text T = Tb aus einem Text Ta durch Entfernen oder Hinzufügen eines, gemäß einer Bedingung Ib kürzestmöglichen, gegebenenfalls auch diskontinuierlich durch weitere Textabschnitte T getrennten, an einer oder entsprechend mehreren Positionen P angeordneten Textabschnitts T = Tt erzeugt wird und dessen Zuordnung als Element El = Tt = Ts eines als disjunkte Klasse Kl = (Ts) gebildeten objektiven Wortes Vt = (Ts), dessen Zuordnung als Element El a G zu einer als disjunkte Klasse Kl = (Vt) solcher Wörter Vt gebildeten Einheit G sowie die Festlegung des einer Einheit G jeweils zugeordneten Repertoires R(Pr) von Möglichkeiten ihrer, die Anordnungen der jeweils zugeordneten Wörter Vt a G und Textabschnitte Ts a Vt einschließenden, Anordnungen Pr in Nachrichten TN aufgrund von gemäß den Transformationen Q an bestimmten Texten T a R(T) durch die Experten zu beobachtenden Einhaltungen oder Verletzungen einer oder mehrerer der Invarianzen I erfolgt. Hierbei ist eine Vollständigkeitsbedingung Ia einzuhalten, wonach die Ergebnisse der Transformationen Q für eine Einheit G bei sämtlichen grammatischen Nachrichten TN gelten, in denen diese Einheit G entsprechend den Möglichkeiten ihrer Anordnungen Pr vorkommt und aufgrund von, durch Toleranzen dH näher bestimmten, Texteigenschaften H(T) eines Textabschnitts Ts a Vt a G in einem Text T a TN nachweisbar ist.
In einer weiteren Ausbildung der Erfindung werden die Transformationen Q auch zur gegebenenfalls vorzunehmenden Erzeugung der in den Grammatiken Ws zusammenzufassenden Symbole Gs eingesetzt.
Beim Vorliegen von Repertoires R(T) von Texten T, die von Sprachnormen vergleichsweise weit abweichen, werden ausreichend eindeutige Beobachtungsergebnisse gegebenenfalls auch dadurch erzielt, daß eine Anzahl von Sprachexperten eingesetzt wird, deren Aussagen bezüglich der Invarianzen I durch Beobachter der Expertenaussagen festgehalten und statistisch ausgewertet werden, wobei zur Erzielung ausreichend hoher statistischer Signifikanzen und entsprechend allgemein zu akzeptierender Toleranzen jeweils eine ausreichen große Zahl von Experten eingesetzt wird.
Invarianz I1 wird mit Ta = Tfa und Tb = Tfb auch notiert als I1((Ta = Tfa) d (Tb = Tfb)), kurz auch als I1(Ta, Tb) oder einfach I1. Invarianz I2, bei der 2 Inhalte Fa von Ta und Fb von Tb gemäß Fa = Fb als ausreichend gleich eingestuft werden, wird auch als I2((Fa a Ta) = (Fb a Tb)), kurz auch als I2(Ta, Tb) oder I2 notiert. Invarianz I3, bei der ein in beiden Texten Ta und Tb innerhalb festzulegender Toleranzen dT gleicher, auch als ihr Durchschnitt bezeichneter Textteil Tc = Ta d Tb) die gleichen Inhalte Fca a Tc a Ta und Fcb a Tc a Tb anzeigt, wird notiert als I3((Fca a Tc a Ta) = (Fcb a Tc a Tb)), kurz auch I3(Ta d Tb), I3(Ta, Tb) oder I3.
In Fällen, wo aufgrund der anzuwendenden Transformationen Q bei einer vorzunehmenden Verkürzung eines Textes Ta um einen Textteil Tt kein Text T mehr übrig bleibt, so daß also Tb = nT, gelten gemäß nnI = I die zu beobachtenden Invarianzen als nicht verletzt und werden als eingehalten definiert. Die Texte T werden definitionsgemäß als Komplexe T = ZZ von Merkmalen Z = H(T) behandelt. In Anpassung an die Gegebenheiten der Sprachen L werden für die Textabänderungen Tt Mindestlängen von einem oder mehreren Merkmalen Z gefordert, was auch durch Tt g nT, vereinfacht Tt g O bezeichnet wird.
Die als Beobachtungsvorschrift dienenden Transformationen Q sehen allgemein vor, daß ein Text T = Ta durch Abänderung, also Verkürzung, Erweiterung oder auch Austausch um einen, gemäß Bedingung Ib kürzestmöglichen, nicht notwendigerweise zusammenhängenden Textteil T = Tt mit Tt g O in einen Text Tb abgewandelt wird, wobei durch Experten der betreffenden Sprachen L beobachtet und angezeigt wird, ob dabei erstens Invarianz I1(Ta, T) und zweitens entweder Invarianz I2(Ta, Tb) oder I3(Ta d Tb) eingehalten wird oder nicht, was jeweils kurz auch als Ix oder nIx notiert wird. Beispielsweise läßt sich in bezug auf ihre semantischen Inhalte F sowohl Text Tb = /Die Mann arbeitet./ = Tfb wie auch für Ta = /Die Frieda Mann arbeitet./ = Tfa setzen und sowohl I1(Ta, Tb) wie auch I3(Ta d Tb) für eingehalten erklären, wenn Tb durch Verkürzung um den kürzestmöglichen Textabschnitt Tt = /_Frieda/ erzeugt wird und dem Ta und Tb gemeinsamen Text (Ta d Tb) = Tb zugeordneten Sachverhalt F in Ta und Tb die gleiche pragmatische Bedeutung zugemessen wird, nämlich eine Aussage über die Tätigkeit einer durch ihren Familiennamen "Mann" identifizierten Frau. Dagegen wird die Abwandlung eines Textes Ta' = /Die Maschine neben dem Mann arbeitet./ in den obigen Text Tb durch Kürzung um Tt' = /_Maschine neben dem/ Bedingung I3(Ta' d Tb) nicht eingehalten, da Inhalt F des Textes Ta' d Tb sich in Ta' auf eine männliche Person bezieht und nicht auf eine weibliche wie in Tb. Sehen Experten alternativ I3(Ta' d Tb) als erfüllt an, so folgt hier nI1(Ta', Tb), da die Texte dann entweder mit Bezug auf ein "weibliches Wesen" durch Ta' = nTfa' oder mit Bezug auf ein "männliches Wesen" durch Tb ne Tfb zu beurteilen sind. Wie diesem Beispiel zu entnehmen ist, ist unter der hier als I3(Fca a Tc a Ta) = (Fcb a (Tc = Tb)) zu notierenden Bedingung I3 im einzelnen zu verstehen, daß Inhalt Fa a Ta durch Kombination des Inhalts Fca = Fcb mit einem Tt zuzuordnenden Inhalt Ft a Tt zu erzeugen ist, was bei Fca a Ta, nicht jedoch bei Fca' a Ta' gelingt.
Für die abzuändernden Textabschnitte Tt wird neben Tt g 0 im Regelfall die Einhaltung einer Mindestlänge verlangt, so daß Inhalt Fb des resultierenden Textes Tb sich von Inhalt Fa a Ta unterscheidet, wobei also nI2(Ta, Tb) gilt. Beispielsweise wird bei einem durch Ta = /ich komme/ angenäherten mündlichen Text bei Kürzung um Tt = /e/ und Erzeugung von Tb1 = /ich komm/ nach dem Urteil vieler Experten T1(Ta, Tb1) und I2(Ta, Tb1) eingehalten. Erst bei einem Mindestumfang von Tt = /komme/ und so der Erzeugung von Tb2 = /ich/ folgt I1(Ta, Tb2) und, wie erforderlich, nI2(Ta, Tb2).
Wie die Beispiele zeigen, sehen die zur Festlegung der grammatischen Begriffe Gr definierten Beobachtungsvorschriften somit eine Beobachtung von Texten T durch Experten vor, die sowohl sprachspezifische Kenntnisse wie auch Sachkenntnisse einsetzen. Als rein formal angesehene Sprachkenntnisse, wie sie für beim gegenwärtigen Stand gebräuchliche Beurteilungen von Texten eingesetzt werden, etwa um zu prüfen, ob der angeführte Text /Die Mann arbeitet./ an sich und ohne Bezug auf einen zugeordneten Inhalt F beispielsweise als "wohlgeformt" oder "wahr" einzustufen ist, reichen für die erfindungsgemäßen Beobachtungen der Invarianzen I also nicht aus. Allerdings wird von den Experten kein pragmatisches Urteil darüber verlangt, ob ein einem Text T vom Autor möglicherweise zugeordneter Sachverhalt F in bezug auf eine übergeordnete, beispielsweise als objektiv angesehene Realität als "wahr" oder "falsch" einzustufen ist; vielmehr werden auch Inhalte F zugelassen, denen in bezug auf eine objektiv nachweisbare Realität auch sehr geringe Wahrscheinlichkeiten p(F) kk 1 zuzuordnen sind. Erfindungsgemäß wird von den Experten somit erwartet anzuzeigen, daß beispielsweise bei einem Text Ta = /Eins und eins ist nicht drei./ wie dem um einen Textabschnitt Tt = /nicht/ verkürzten Text Tb = /Eins und eins ist drei./ sowohl Ta = Tfa wie auch Tb = Tfb gelten. Hierbei stellt der Experte also fest, daß auch Tb in bezug auf Inhalt Fb a Tb, wonach "eins plus eins nach Aussage des Autors At drei ergibt", ausreichend zulässig ist, wobei Fb definitionsgemäß die Situation des Autors berücksichtigt, der beispielsweise des Rechnens unkundig ist, lügt, sich irrt, eine Metapher gebraucht, Ironie zeigt usw. Es gilt dementsprechend I1(Ta, Tb) und zugleich nI2(Ta, Tb).
Wie aus den angeführten Definitionen wie auch Beispielen folgt, werden somit von den Experten der betreffenden Sprachen L weder Aussagen über eine grammatische Wohlgeformtheit oder Akzeptierbarkeit von Texten T an sich ohne Bezug auf deren semantische Inhalte F noch über das sprachliche oder im einzelnen auch grammatische oder syntaktische Regelwerk, das sie bei ihren Beobachtungen im Regelfall intuitiv einsetzen, verlangt. Ferner umfassen die geforderten inhaltsbezogenen Aussagen weder eine Beurteilung der Zulässigkeit oder objektiven Korrektheit eines Inhalts F eines Textes T noch eine Beschreibung des Inhalts F selbst. Sie beschränken sich statt dessen auf Angaben darüber, ob Texte T bezüglich intuitiv zugeordneter Inhalte F intuitiv für korrekt gemäß T = Tf gehalten werden, wie auch, ob solche Inhalte F von Texten T als ausreichend gleich anzusehen sind. Durch Beobachtung der durch Aussagen Ix oder nIx zu vorgelegten Texten T definierten Reaktionen einer ausreichenden Zahl von Sprachexperten erfolgt dabei eine Beobachtung der Symbole Vt a G mit der gleichen, durch statistische Signifikanzen gesicherten Objektivität wie auch quantitativ formulierbaren Genauigkeit, wie sie beispielsweise auch durch die Beobachtung einer entsprechenden Anzahl von Labortechnikern möglich wird, die aufgrund ihres Expertenwissens anzeigen sollen, wann in einer Substanz ein Farbumschlag etwa von blau auf rot erfolgt. Im oben angeführten Beispiel entspricht dies auch der Beobachtung des Befindens von durch bestimmte Arzneimittel behandelten Patienten, welche ihr Expertenwissen beispielsweise durch intuitiv gefaßte Aussagen der Art "ich fühle mich krank" oder "ich fühle mich gesund" zu Protokoll geben.
Aus den genannten Beobachtungsvorschriften folgt weiterhin, daß die erfindungsgemäß zu verwendenden Daten Ws nicht allein auf sprachspezifischen, für die betreffenden Sprachen L charakteristischen Eigenheiten und Regeln, sondern zusätzlich auch auf einer Beurteilung ihrer semantischen Bedeutungen beruhen. Dies hat vorteilhaft zur Folge, daß die aus Beobachtungen der Invarianzen I resultierenden, beim erfindungsgemäßen grammatischen Kommunikationsverfahren M einzusetzenden grammatischen Symbole Gr zugleich auch als Träger bestimmter, im vorliegenden grammatischen Verfahren M im einzelnen nicht berücksichtigter semantischer Inhalte F fungieren können und so als semantische Symbole Gp eine wichtige Voraussetzung für die Realisierung semantischer Kommunikationsverfahren liefern, wie sie in Erfindungsmeldung P . . . beschrieben vorliegen.
Einzelheiten der bei den Transformationen Q zu beobachtenden Invarianzen I, insbesondere von I3, werden anhand des folgenden Beispiels 3) aus der deutschen Schriftsprache mit den folgenden, unter Benutzung von Operatoren o gebildeten Texten Ta = Tax erläutert: Ta1 = /Ein warmer, sonniger Mai./, Ta2 = /Ein zweiter schöner Mai./, Ta3 = /Ein schöner zweiter Mai./ und Ta4 = /Ich rufe, warte und höre./. Eine Einschränkung pragmatischer Mehrdeutigkeiten, wie sie beim Sprechen dieser Texte durch unterschiedliches Betonen möglich ist, wurde bei diesen Schrifttexten nicht vorgenommen. Bei Erzeugung eines Textes Tb11 = /Ein warmer Mai./ durch Kürzung von Ta1 um Tt11 = /, sonniger/ sind sowohl I1(Ta1, Tb11) als auch I3(Ta1 d Tb11) als erfüllt anzusehen. Dagegen gilt bei Erzeugung eines Textes Tb12 = /Ein sonniger Mai./ durch die grundsätzlich ebenfalls mögliche, der Intuition aber widersprechende Kürzung von Ta1 um Tt12 = /warmer,/ zwar I1(Ta1, Tb12), dagegen aber nI3(Ta1 d Tb12), da in Ta1, anders als in Tb12, semantisch ein Inhalt etwa im Sinne von "und zusätzlich auch noch sonniger Monat Mai" angesprochen wird. Bei Kürzung von Ta2 um Tt21 = /_schöner/ und Erzeugung von Tb21 = /Ein zweiter Mai./ kann I3 dann als erfüllt gelten, wenn Inhalt F auch in Tb21 auf den "Monat" bezogen wird, etwa im Sinne von "ein zweiter Monat Mai, der Frühlingsgefühle weckt". Gleichfalls gilt bei Kürzung von Ta2 um Tt22 = /_zweiter/­ und Erzeugung von Tb22 = /Ein schöner Mai./ I3 als erfüllt. Schließlich gilt bei Kürzung von Ta3 um Tt31 = /_schöner/ zur Erzeugung von Tb31 = /Ein zweiter Mai./ I3 als erfüllt, nicht jedoch bei einer Kürzung um Tt32 = /_zweiter/, wenn Experten beim entstehenden Tb32 = /Ein schöner Mai./ mehrheitlich den Monat und nicht wie in Ta3 den Tag verstehen. Bezüglich Invarianzbedingung I1(Ta, Tb) läßt sich aus Beispiel 3) ersehen, daß bei den gemäß den Transformationen Q ebenfalls möglichen Kürzungen von Ta1 beispielsweise um Tt13 = /, warm/, Tt14 = /, warmer so/ wie auch Tt15 = /sonniger/ Invarianz I1 nicht eingehalten wird, da hierbei offensichtlich Texte Tb1x ne Tfb1x entstehen, so bei Kürzung um Tt15 wegen eines resultierenden Kommafehlers. Konsequenzen für die Bestimmung der durch Beispiel 3) angezeigten Wörter Vt und deren wechselseitige syntaktische Zuordnung, auch für Ta4, werden unten behandelt. Die Erfindung sieht in einer Ausbildung vor, die Transformationen Q auch als Spezialfall des erfindungsgemäßen, in diesem Fall mit Experten der betreffenden Sprachen L durchzuführenden Kommunikationsverfahrens M, beispielsweise bei der Erstellung der grammatischen Daten Ws gemäß Verfahrensteil M4, anzuwenden.
Die Gruppe der in der genannten bevorzugten Ausgestaltung der Erfindung den Symbolen Gs zugrunde gelegten, an einem Repertoire R(T) von bezüglich ihrer semantischen Inhalte F a T korrekten Texten T = Tf durchzuführenden Transformationen Q = Qy wird nachfolgend im Detail formuliert. Sie stellen notwendige Bedingungen für das Vorliegen der folgenden diese Symbole Gs = Vt und G bestimmenden Sachverhalte Ax dar:
Sachverhalt A1
Es existiert eine Einheit G1 = (Vt1y) mit einer Anzahl n g 1 zugeordneter Wörter Vt1y a G1. Für jede Einheit G1 gilt die folgende Klasse von Transformationen Q1.1: Bei jedem Text Tu1 a Eu jedes Hintergrundes Eu mit G1 a Eu wird durch Entfernung eines an einer Position P1 befindlichen, ein beliebiges Wort Vt11 a G1 repräsentierenden Textabschnitts Tt1(P1) = (Ts11z a Vt11 a G1) und Einfügung eines ein anderes Wort Vt12 ne Vt11 repräsentierenden Textes Tt2(P1) = (Ts12z a Vt12 a G1) an P1 ein Text Tu2 ne Tu1 mit Tu2 a Eu erzeugt, wobei I1(Tu1, Tu2) und entweder nI2(Tu1, Tu2) oder, im Falle daß Vt11 und Vt12 als Synonyme gelten, I2(Tu1, Tu2) zu beobachten ist. Hier und bei den folgenden Sachverhalten Ax wird durch einen Indexbuchstaben, wie hier bei Eu, innerhalb einer Klasse Kl = (Qx.y) von Transformationen Q jeweils ein identischer Begriff angezeigt, beispielsweise Eu = E1.
Sachverhalt A2
Es existiert ein Wort Vt11 = (Ts11z) mit Vt11 a G1, dem, wie es beispielsweise bei gesprochenen oder handschriftlichen Texten T anzutreffen ist, eine Anzahl n g 1 von Texten Ts11z a Vt11 zugeordnet ist. Für jedes Wort Vt11 gilt eine Klasse von Transformationen Q1.2: Bei jedem Text Tu11 a Nu a Eu jedes Hintergrundes Eu mit Vt11 a G1 a Eu wird durch Entfernung eines an P1 positionierten Textteils Tt1(P1) = (Ts111 a Vt11) und Einfügung eines anderen dieses Wort Vt11 repräsentierenden Textes Tt2(P1) = (Ts112 a Vt11) an P1 ein Text Tu12 ne Tu11 mit Tu12 a Nu erzeugt, wobei I1(Tu11, Tu12) und I2(Tu11, Tu12) gilt.
Sachverhalt A3
Es existiert ein aus 2 Einheiten G1 und G2 als Ast As1 zusammengefügter Komplex As1 = G1G2, in dem G1 = An(G2; P1) und G1 ne Ar(Gx), G1 also nicht als Träger Ar einer weiteren Einheit Gx fungiert. Für jeden solchen Ast As1 gilt eine Klasse von Transformationen Q2.1: Bei jedem Text Tu1 a Eu jedes Hintergrundes Eu mit As1 a Eu wird durch Entfernung eines an P1 positionierten Textteils Tt1(P1) = (Ts1 a Vt1y a G1) ein Text Tv1 mit Tv1 a Ev eines Hintergrundes Ev ne Eu erzeugt, wobei I1(Tu1, Tv1), nI2(Tu1, Tv1) und I3(Tu1 d Tv1) gilt.
Sachverhalt A4 = A3 d A41
Für A41 gilt: Es existiert eine Einheit G1, die als Anhänger G1 = An(G2; (P1w)) mit einer Einheit G2 eine Klasse (As1) von Ästen As1 bildet, wobei, wie insbesondere in flektierenden Sprachen L anzutreffen, die Texte Ts1yz a G1 relativ zu den Texten Ts2yz a G2 entsprechend einer disjunkten Klasse (P1w) von Positionen P1w anordenbar sind. Für jede Klasse (As1) gilt eine Klasse von Transformationen Q2.2: Bei jedem Text Tu1 a Eu jedes Hintergrundes Eu mit As1 a Eu wird durch Entfernung eines an einer Position P11 a (P1w) befindlichen Textteils Tt1 = (Ts1yz a Vt1y a G1) und Einfügung dieses Textes Tt1 an einer anderen Position P12 a (P1w) mit P12 ne P11 ein Text Tv1 ne Tu1 mit Tv1 a Ev und Ev ne Eu erzeugt, wobei I1(Tu1, Tv1) und I2(Tu1, Tv1) gilt. Zu beachten ist, daß in vielen, auch flektierenden Sprachen L mit dem genannten Positionswechsel häufig auch ein so starker Wechsel der Betonung verbunden ist, daß Experten dies als Bedeutungsänderung interpretieren, also nI2(Tu1, Tv1) beobachten, womit Tt1(P12) nicht mehr G1, sondern einer anderen Einheit Gx ne G1 zuzuordnen ist.
Sachverhalt A5
Es existiert ein Hintergrund Eu, der aus einer einzigen Einheit G3 = Eu gebildet wird. Für jeden Hintergrund Eu gilt eine Klasse von Transformationen Q2.3: Bei jedem für sich allein stehenden Text Tu1 a Eu entsteht durch Entfernung eines Textes Tt1 = (Ts3y1 a Vt3y a G3) kein Text, also nT, wobei entsprechend obigen Definitionen I1(Tu1, nT) und nI2(Tu1, nT) gilt.
Sachverhalt A6 = A3 d A61
Für A61 gilt: Gemäß G2 ne Ar(Gx; Px)mit Px ne P1 ist Einheit G2 = Ar(G1; P1), mit G2 a As1, gemäß G2 ne Ar(Gx; Px) nicht zugleich Träger Ar einer weiteren Einheit Gx an einer Position Px ne P1. Für jeden Ast As1 gilt eine Klasse von Transformationen Q3 = (Q3.1 d Q3.2 d Q3.3).
Es gilt Q3.1 = Q2.1.
Ferner gilt eine Klasse von Transformationen Q3.2: Aus jedem gemäß Q3.1 erzeugten Text Tv1 a Ev entsteht durch Entfernung eines an P2 positionierten Textteils Tt2 = (Ts2yz a Vt2y a G2) ein Text Tw1 ne Tv1 mit Tw1 a Ew und Ew ne Ev, wobei I1(Tv1, Tw1), nI2(Tv1, Tw1) und I3(Tv1 d Tw1) gilt. Definitionsgemäß gelten diese Invarianzangaben auch im trivialen, durch A5 und Q2.3 beschriebenen Fall G2 = Ev und Tw1 = nT.
Weiterhin gilt eine Klasse von Transformationen Q3.3: Bei jedem gemäß Q3.2 erzeugten Text Tw1, gegebenenfalls auch nT, wird durch Hinzufügung des gemäß Q3.1 entfernten Textteils Tt1 an Position P1 ein Text T4 erzeugt, wobei gemäß n(I1(Tw1, T4) d I3(Tu1, T4)) die Invarianzen I1 (bezüglich Tw1) und I3 (bezüglich Tu1) nicht zugleich eingehalten werden.
Die Transformationen Q3.w zeigen auch an, daß bei Entfernung eines Trägers G2 = Ar(G1) eines Anhängers G1 aus einem korrekten Hintergrund Eu = Egu ein unkorrekter Hintergrund nEg entsteht und somit auch nur ein unkorrekter Text nTf4 entstehen kann, es sei denn, G1 wird eine abgewandelte grammatische Funktion, etwa als selbständige Einheit G1 mit ausreichend hoher Wahrscheinlichkeit p(G1) ge ps der Ordnung O(1) oder als Teileinheit G1 = g1, welche mit einer weiteren, nun ebenfalls als Teileinheit Gx = gx fungierenden in E verbleibenden Einheit Gx eine neue Einheit Gy = gxg1 bildet, zugeordnet, oder der gemäß Q3.1 entfernte Text Tt1 = Ts ist als Text Ts = Tsxyz a Vtxy a Gx auch einer anderen Einheit Gx oder Teileinheit gx zugeordnet, welche eine solche Funktion erhält, so daß bei Q3.3 ein Inhalt N4 = Ng4 mit T4 = (T41 a N4) und T41 = Tf41 entsteht. Da eine solche grammatische Funktions- und Bedeutungsänderung aber mit einer für Experten erkennbaren Abänderung des durch den wiedereingesetzten Textabschnitt Tt1 mitbestimmten semantischen Inhalts F von T4 gegenüber dessen Bedeutung in Tu1 verbunden ist, folgt in diesem Fall nI3(Tu1 d T4). Letztere Situation läßt sich anhand des Textes T55 = /fruchtfliegenfallen/ aus dem oben diskutierten Beispiel 2) erläutern, in dem entsprechend den dort eingeführten vereinfachten Strukturen Jk /frucht/ = An/Fliegen/) und /fliegen/ = An(/fallen/) gilt und ein Inhalt F1 der Art "Geräte für das Fangen von Fliegen einer bestimmten Art" angesprochen ist, nicht aber ein Inhalt F2 "für das Fangen einer Frucht". Bei Entfernung des Trägers Ar = /fliegen/ aus T55 entsteht ein Text T76 = /fruchtfallen/, für den bezüglich F2 Bedingung T76 = Tf76 und somit auch I1(T55, T76) erfüllt ist, wobei aber nun /frucht/ = An(/fallen/). Die resultierende Bedeutungsänderung hin zu F2 bedingt nI3(T55 d T76), so daß die Q3.w in bezug auf eine Komplexbildung GG mit /fliegen/ = An(/frucht/) für T55 nicht erfüllbar sind.
Wie aus der angeführten Forderung nach Gültigkeit jeder Transformation Qy auf jeden Text T = Tf folgt, in welchem der durch Qy definierte grammatische Sachverhalt Ax anzutreffen ist, haben die Transformationen Qy der als Ia bezeichneten Vollständigkeitsbedingung zu genügen. Liegt beispielsweise als Grundlage für die Festlegung der Symbole Gs a Ws einer Sprache L ein Korpus C1 von Texten T vor, von denen die Texte T = (Tf a C1) den Qy genügen, so fordert Ia die Gültigkeit der Q auch für sämtliche Texte T = (Tf a C2) eines gegenüber C1 a C2 erweiterten Korpus C2, welche durch Anwendung der Transformationen Qy den Texten Tf a C1 erzeugt wurden.
Weitere unter Beobachtung von Invarianzen I an Texten T durchzuführende Transformationen Q = Q4 zur Festlegung von grammatischen Vokabeln Vqq werden unten behandelt.
In einer besonders auch für eine rechnergestützte Erstellung grammatischer Daten Ws im Rahmen von Verfahrensteil M4 vorgesehenen Ausbildung werden die Transformationen Q entsprechend obiger Beschreibung auch in algorithmischer Form eingesetzt, wobei unter Beachtung der oben definierten Bedeutungen der jeweils verwendeten Größen die folgenden Formulierungen gelten, in welchen - Tt(P) die Verkürzung und +Tt(P) die Erweiterung des vorangestellten Textes T um einen Textabschnitt Tt an Position P anzeigt und der resultierende Text T jeweils hinter dem Gleichheitszeichen steht. Für sämtliche Transformationen Q = Qy.w wird die Einhaltung von Vollständigkeitsbedingung Ia und Bedingung Ib gefordert. Es gelten:
Q1.1 =: Tu1 - Tt1(P1) + Tt2(P1) = Tu2; mit
Tt1 ne Tt2, Tu1 ne Tu2, I1(Tu1, Tu2), nI2(Tu1, Tu2) oder I2(Tu1, Tu2).
Q1.2 =: Tu11 - Tt1(P1) + Tt2(P1) = Tu12; mit
Tt1 ne Tt2, Tu11 ne Tu12, I1(Tu11, Tu12), I2(Tu11, Tu12).
Q2.1 =: Tu1 - Tt1(P1) = Tv1; mit
Tu1 ne Tv1, I1(Tu1, Tv1), nI2(Tu1, Tv1), I3(Tu1 d Tv1).
Q2.2 =: Tu1 - Tt1(P11) + Tt1(P12) = Tv1; mit P11 ne P12, I1(Tu1, Tv1), I2(Tu1, Tv1).
Q2.3 =: Tu1 - Tt1 = nT, mit I1(Tu1, nT), I3(Tu1 d nT).
Q3.1 =: Tu1 - Tt1(P1) = Tv1; mit I1(Tu1, Tv1), nI2(Tu1, Tv1), I3(Tu1 d Tv1).
Q3.2 =: Tv1 - Tt2(P2) = Tw1; mit I1(Tv1, Tw1),
gegebenenfalls auch Tw1 = nT, nI2(Tv1, Tw1), I3(Tv1 d Tw1).
Q3.3 =: Tw1 + Tt1(P1) = T4; mit n(I1(Tw1, T4) d I3(Tu1 d T4)).
Q3 =: Q3.1 d Q3.2 d Q3.3.
Formulierungen der Transformationen Q4 werden unten angegeben.
Die angegebenen Formulierungen Qy mit den resultierenden Symbolen Vt und G unterscheiden sich von bisher vorgeschlagenen Transformationen einschließlich hierfür vorgesehener Ersatzproben / /24/ /, wie sie den für den gegenwärtigen Stand charakteristischen, für Verfahren der erfindungsgemäßen Art jedoch als ungeeignet verworfenen / /24/ / Transformationsgrammatiken und hierfür vorgeschlagenen Konstituenten zugrunde gelegt wurden.
Aus der für die Transformationen Q eingeführten Forderung nach Abwandlung der gegebenen Texte T um jeweils kürzestmögliche Textabschnitte Tt g o entsprechend Bedingung Ib folgt im Regelfall eine vorteilhafte Beschränkung der einzusetzenden Grammatiken Ws auf ein möglichst geringes Datenvolumen. Beispielsweise wird durch Ib verhindert, daß neben 2 Einheiten G1 und G2, die in einem Bezug G1 = Ar(G2) vorkommen, zusätzlich auch noch ein Komplex G3 = G1G2 als eigene Einheit G3 verwendet wird, welche demgemäß zusätzlich mit ihren Daten H(G3) zu speichern wäre.
In einer weiteren datensparenden Ausgestaltung werden die Toleranzen für die Invarianzen I, beispielsweise auch bezüglich der Gleichheit von zwei Inhalten F, so hoch angesetzt, daß sich eine vergleichsweise geringe Anzahl von Symbolen Gr mit einer entsprechend geringen Anzahl von Verknüpfungsmöglichkeiten ergibt. In einer Ausbildung hiervon wird die oben eingeführte Idiombildung auch danach ausgerichtet, ob aufgrund der verfügbaren Geräte wie auch Verarbeitungszeiten entweder der Speicheraufwand beispielsweise auch auf Kosten des Verarbeitungsaufwandes, oder der Verarbeitungsaufwand, beispielsweise auch auf Kosten des Speicheraufwandes, vergleichsweise kleinzuhalten ist.
Die Erfindung sieht in eine bevorzugten Ausbildung vor, die durch statistische Auswertung an einer ausreichenden Zahl von Texten T gewonnenen Ergebnisse der Transformationen Q in einer durch die Beziehungen Wt für die Valenzen Um der Einheiten G gegebenen Form zu notieren, so daß das Vorkommen der objektiven Wörter Vt und die Bezüge zwischen ihnen in den Eigenschaften H(G) ihrer Superierungen G = (Vt) festgelegt sind. Ferner werden, wie auch aus den angeführten Beispielen hervorgeht, durch die Transformationen Q, insbesondere auch Q3, vorteilhaft Symbole G definiert, deren Bezüge zu weiteren Einheiten G in der überwiegenden Mehrzahl der Fälle Daten der Ordnung O(2) nicht überschreiten. Als Folge hiervon wird die in Verfahren M vorgesehene Kombination von objektiven Wörtern Vt a G zu grammatischen Inhalten N mit Strukturen J aufgrund grammatischer Daten Ws möglich, deren Datenmenge weitaus schwächer als exponentiell mit der Zahl der berücksichtigten objektiven Wörter Vt und somit implizit auch der eingeführten lexikalischen Wörter ansteigt, wodurch die für den gegenwärtigen Stand charakteristischen kombinatorischen Explosionen bei der Datenspeicherung und -verarbeitung vermieden werden. Die so erreichbare Beschreibung der wechselseitigen Zuordnungen der den Texten T zugeordneten Symbole Vt durch die Anordnungen Pr der Symbole G entlang Ästen As dient außerdem als wichtige Voraussetzung für die Realisierbarkeit eines semantischen Kommunikationsverfahrens, wie es in Erfindungsmeldung P . . . beschrieben wird, bei welchem die Wörter Vt auch als semantische Symbole Vt = Gp eingesetzt werden, deren semantische Inhalte F unter Beachtung der durch die Anordnungen Pr gegebenen Zuordnungen miteinander zu kombinieren sind.
In weiteren Ausgestaltungen sieht die Erfindung vor, anstelle der angeführten Formulierungen Qy der Transformationen Q bezüglich der dadurch definierten Symbole Vt a G gleichbedeutende Transformationen gemäß Formulierungen Qy' einzusetzen, welche im Regelfall anstelle von Textverkürzungen um Abschnitte Tt wie in Q2.1, Q2.3, Q3.1 und Q3.2 entsprechende Erweiterungen und umgekehrt anstelle von Erweiterungen wie in Q3.3 entsprechende Verkürzungen um Textabschnitt Tt' g O minimaler Länge vorsehen. Für eine oder mehrere der folgenden Ausbildungen sind auch Transformationen Q vorgesehen, welche die ein- oder gegebenenfalls mehrfache Anwendung von Transformationen Q2.1 auf Texte Tuv a Eu von aus mehreren Asten As zusammengefügten Hintergründen Eu zur Erzeugung einastiger Hintergründe Ev bewirken, für welche nachfolgend durch Anwendung der Transformationen Q3.w die den jeweiligen Ast As bestimmenden Ar/An-Bezüge ermittelt werden. In einer zur angeführten, die Einhaltung von Bedingung Ib fordernden alternativen Ausbildung werden auch Textabwandlungen um Textteile Tt zugelassen, die größer sind als die gemäß Ib geforderten kürzestmöglichen Abschnitte Tt g O, wobei die den Nachrichten Tn zugeordneten Hintergründe E a TN jeweils um mehr als eine Einheit G abgewandelt werden. Diese Ausbildung wird insbesondere in solchen Fällen zugelassen, wo die dem semantischen Kommunikationsverfahren Mp von Erfindungsmeldung P . . . zugrunde gelegten Transformationen Qs ebenfalls Mindeständerungen um Textteile Tt fordern, die jeweils als Idiom einem Komplex VtVt a GG von mehr als einem Symbol Vt zuzuordnen sind. In einer Verarbeitungsaufwand sparenden Ausbildung hiervon werden solche in einem Ar/An-Bezug stehenden Idiome mit G1 = Ar(G2) auch als eigene Einheit G3 eingesetzt, der die Valenzen Um von G1 und G2 zugeordnet werden, die durch die Komplexbildung G1G2 nicht gesättigt wurden. So wird beispielsweise in Beispiel 1) oben anstelle der Einheiten G6 mit /_m=/ a G6 und G19 mit /_ein/ a G19 eine Einheit G22 mit den Idiomen /_mein/ a G22 und /_ein/ a G22 usw. eingesetzt.
In einer weiteren Ausgestaltung wird in solchen Fällen, wo die Transformationen Q in den betreffenden Sprachen L zugleich unterschiedliche grammatische Interpretationen gegebener Texte T zulassen, eine diesen Möglichkeiten weitgehend entsprechende Vielfalt von Symbolen Gr eingeführt. In alternativen, datensparenden Ausbildungen werden aus jeder Alternative eine oder einige wenige Symbole Gr für die Daten Ws ausgewählt, welche zur Bildung der anfallenden grammatischen Nachrichten TN ausreichen.
Die gemäß Vollständigkeitsbedingung Ia geforderte Gültigkeit der unter Beachtung der Invarianzen I durchzuführenden, ein Symbol Vt a G definierenden Transformationen Q für sämtliche Texte T = Tf eines Korpus C einer Sprache L, die grammatischen Nachrichten TN zugeordnet sind, welche dieses Symbol Vt a G a N und einen Textabschnitt Ts a Vt im Text T a TN enthalten, hat vorteilhaft zur Folge, daß der Bestimmung dieses Symbols Vt a G anhand eines der Beobachtung zugänglichen Materials von Texten T a C eines Korpus C die gleiche Sicherheit und Objektivität zuzumessen ist, wie sie für andere empirische Fachgebiete, gleichfalls unter Verwendung von Erhaltungssätzen, üblich ist. So wird vergleichsweise in der Physik für eine als Impuls definierte Größe die Erhaltung dieser Größe für sämtliche beobachtbaren Prozesse gefordert, in denen den Impuls bestimmende Größen wie Masse, Flugrichtung und Geschwindigkeit beliebiger Teilchen prinzipiell nachweisbar sind.
Aus der vorgesehenen Verwendung grammatischer Symbole Gr, welche den angeführten, universell auf beliebige natürliche Sprachen L und vergleichbar strukturierte Kommunikationsmedien anzuwendenden Transformationen Q genügen, folgt vorteilhaft weiterhin, daß ein für beliebige Sprachen L definiertes und anwendbares System von grammatischen Daten Ws verfügbar gemacht wird, unabhängig davon, ob und welche grammatischen Symbole und Daten hierfür bereits vorliegen, und auch unabhängig davon, ob es sich dabei um gemäß / /21/ /, S. 331 f. als flektierend, agglutinierend, isolierend oder polysynthetisch klassifizierte Sprachen L handelt, wobei diese Daten Ws universell für beliebige natürliche Sprachen L mit einem an verfügbare Vorrichtungen anpaßbaren Datenvolumen beschreibbar werden. Dabei erlaubt es die den Sprachen L angepaßte Verwendung eines Vokabulars grammatisch und, dadurch bedingt, auch semantisch mehrdeutiger objektiver Wörter Vt a G, in Verbindung mit den angeführten quantitativen Verarbeitungsmethoden, eine theoretisch unbegrenzte Vielfalt grammatischer und somit auch semantischer Inhalte N beziehungsweise F durch ein begrenztes und durch maschinell beherrschbare Daten beschreibbares Vokabular von Symbolen Vt a G darzustellen.
Weitere Einzelheiten der bei Anwendung der Transformationen Q zu beachtenden Invarianzbedingungen I werden anhand der oben angeführten und weiterer Beispiele erläutert. So ergeben sich in Beispiel 3) bei Text Ta4 die Beziehungen /gich./ = Ar(_rufe), /_rufe/ = Ar(_und höre/ sowie /_und höre/ = Ar(, warte) mit /gich./ a Gk.
Die Rolle der Vollständigkeitsbedingung Ia läßt sich aus einigen gemäß Grammatik Ws des obigen Beispiels 1) gebildeten Texten Tuv = Suv ersehen. Betrachtet werden die Sätze T11.1 = S11.1 = Vt131.1Vt8.1 = /Er frißt./, T12.1 = Vt135.2Vt8.1 = /Der Hund frißt./ und T13.1 = Vt135.2Vt18.1Vt8.1 = /Der alte Hund frißt./. Anwendung von Q1.1 auf T12.1 durch Austausch von Tt1 = /gder Hund./ durch Tt2 = /ger./ mit dem Ergebnis T11.1 zeigt die Einhaltung von I1 und nI2, was einer Interpretation von Tt1 und Tt2 als Textabschnitte Tsayz a Vtay zweier Wörter Vtay a Ga, die beide der gleichen Einheit Ga zugeordnet sind, nicht entgegensteht. Bedingung Ia fordert jedoch, daß Q1.1 dann auch bei Anwendung auf T13.1 mit Tt1 = /gder Hund./ und Tt2 = /ger./ unter Einhaltung von I1 und nI2 möglich sein sollte. Es ergeben sich jedoch nur Texte wie T14 = /Er alte frißt./ ne Tf, so daß also nI1 gilt, woraus folgt, daß entsprechend den Angaben Ws für Beispiel 1) Vt131.1 = /ger./ und Vt135.2 = /gder Hund./ den angegebenen unterschiedlichen Einheiten G131 beziehungsweise G135 zuzuordnen sind.
Als Beispiel für die Anwendung von Q1.2 wird der durch Tu4 = /fliegenfallen/­ angenäherte Text aus Beispiel 2) aus der mündlichen deutschen Sprache L betrachtet, welcher gemäß dem Sprachgebrauch auch anders ausgesprochen werden kann, etwa wie es hier durch die Buchstabenfolgen Tu41 = /fliegnfallen/ und Tu42 = /fliengfalln/ angenähert wird. Sehen bei Austausch von Tt11 = /fliegen/ durch Tt12 = /fliegn/ sowie weiterhin durch Tt13 = /flieng/ Experten jeweils die Invarianzen I1(Tu4, Tu41) und I2(Tu4, Tu41) beziehungsweise I1(Tu4, Tu42) und I2(Tu4, Tu42) als erfüllt an, so gelten mit Tsx1z = Tt1u und Tt1u = (Tt11 o Tt12 o Tt13) die Bedingungen für das Vorliegen von Tt1u = (Tsx1z a Vtx1) als erfüllt, wobei gemäß Beispiel 2) zunächst x = (1 o 3 o 4) anzusetzen ist. Durch den erfindungsgemäß vorgesehenen Einsatz von Toleranzen dTs in Verbindung mit zwei Normtexten Tsa entsprechend den Lautfolgen /flign/ und /fling/ wird erreicht, daß die genannten Texte Tsx1z, gegebenenfalls auch als Adressen Ad, die Wörter Vtx1 anzeigen. Sind die Q1.2 genügenden Texte Tt durch im Vergleich zu zugelassenen Toleranzen dTs große Unterschiede gekennzeichnet, werden sie auch, als Synonymen bezeichneten, unterschiedlichen Wörtern Vt mit entsprechend verschiedenen Normtexten Tsa a Vt zugeordnet.
Weitere Einzelheiten der Eigenschaften der aus den Transformationen Qy und insbesondere Q3.w resultierenden Symbole Gr und ihrer wechselseitigen Zuordnungsmöglichkeiten Pr gehen auch aus den folgenden, unter Beispiel 4) zusammengefaßten Texten T hervor, für welche, wo nicht anders angegeben, jeweils eigene Grammatiken Ws mit jeweils wieder neu durchnumerierten Symbolen Grx = Gx, Vtxy usw. verwendet werden:
Text T11 = /Zweihunderteinundzwanzig./ stellt ein Beispiel für eine agglutinierende Textbildung aus der deutschen Schriftsprache dar, bei dem, wieder unter Verwendung oben definierter Operatoren o und Strukturen Jk, die Bezüge /gzwanzig./ = Ar(/_einund=/), /gzwanzig./ = Ar(/_hundert=/) und /_hundert=/ = Ar(/_zwei=/) unter Beachtung der jeweiligen Positionen P festgelegt werden. Wie oben angesprochen, erlauben die Transformationen Q hier auch eine alternati 68170 00070 552 001000280000000200012000285916805900040 0002010015859 00004 68051ve Symbolzuordnung und -festlegung, die sich durch /ghundert./ = Ar(/=zwanzig/) vom erstgenannten Bezug unterscheidet, wobei, wie oben definiert, sowohl /gzwanzig./ wie auch /ghundert./ jeweils einer selbständigen Einheit G zugeordnet werden.
Als Beispiel flektierender Textbildungen werden in Beispiel 4) schwach konjugierte Verben aus der deutschen Schriftsprache betrachtet, welche hier zur vereinfachten Erläuterung an Textbeispielen diskutiert werden, die unter Vernachlässigung von Satzzeichen und der Großschreibung am Satzanfang notiert werden. T21 = /du holtest/, T22 = /du lebtest/, T23 = /du redetest/, usw. Gemäß Q ergeben sich die aus einem Wort Vt konstituierten Einheiten G1 = Vt11 mit Vt11 = /_du/ und G3 = Vt31 mit Vt31 = /=te=/ sowie eine Einheit G2 = (Vt2x) mit Vt21 = /_holst/, Vt22 = /_lebst/ und Vt23 = /_redest/ usw., wobei G1 = Ar(G2; P1) und G2 = Ar(G3; P2), mit P1 = G1:G2 und P2 = g21:G3:g22, wobei die Flexionsform (vt221 = g21) = /=st/­ semantisch für die 2. Person Singular, die verbleibenden Textteile (vt211 a g21) = /_hol=/, vt212 = /_leb=/ und vt213 = /_rede=/ den jeweiligen Wortstamm dieser Verben mit entsprechenden semantischen Bedeutungen stehen und Vt31 semantisch das Praeteritum anzeigt. Die Verwendung der durch die Transformationen Q angezeigten Einheit G3 hat den Vorteil, daß bei einer gegebenenfalls auch sehr hohen Anzahl n von schwach konjugierten Verben anstelle einer Anzahl 2n von Praesens und Praeteritum anzeigenden Verben der 2. Person Singular nur eine Anzahl n + 1 in den Daten Ws zu speichern ist. Entsprechende Vorteile ergeben sich für die Verbformen der 1. und 3. Person Singular und der 1. bis 3. Person Plural.
In der genannten alternativ hierzu anzuwendenden Ausgestaltung werden die Praeteritum-Formen der schwach konjugierten Verben als Idiome eingesetzt und zusammen mit denen der stark konjugierten Verben sowie der jeweiligen Praesens- Formen der jeweiligen Personen Singular oder Plural jeweils einer einzigen Einheit G zugeordnet, was den Speicheraufwand zwar erhöht, den mit der Verknüpfung jeweils zweier Einheiten verbundenen Verarbeitungsaufwand jedoch entsprechend reduziert. Eine ähnliche Alternative der Idiombildung gilt für die in Beispiel 1) diskutierten Erweiterungen der Nominativform Singular und entsprechend der weiteren Kasus des unbestimmten Artikels Vt19.1 = /_ein/ zu Possessivpronomina und Numeralia. Wie angeführt, richtet sich die Wahl der Alternativen zweckmäßig auch nach den verfügbaren Vorrichtungen. Auch an diesem Beispiel wird jedoch die aus der Verwendung objektiver Wörter Vt im Vergleich zu den Idiombildungen /_kein/ usw. resultierende Reduzierung des Speicheraufwands deutlich. So lassen sich nach Beispiel 1) durch die 4 Wörter Vt6y a G6 und die jeweils 4 Kasusformen der Maskulinform Vt19.1 = /_ein/ sowie der Femininum- und Neutrumformen /_eine/ und /_ein/, also insgesamt 16 objektive Wörter Vt, insgesamt 60 zum Teil gleichlautende, im einzelnen aber unterschiedlich zu verknüpfende natürliche Wörter /_ein/, /_mein/ usw., /_eines/, /_meines/ usw., /_einem/ usw. und /_einen/ usw. bilden.
Im angeführten Beispiel 4) werden ferner 2, wieder unter Vernachlässigung von Großschreibung am Satzanfang und Interpunktionen vereinfachte, Texte aus der türkischen Schriftsprache T31 = S31 = /otobüs istasyonu nerede/, zu übersetzen in /Wo ist die Autobus-Station?/ und T32 = S32 = /taksi duragi nerede/, deutsch: /Wo ist der Taxi-Stand?/ behandelt. Mit /_istasyonu/ a G1, /_duragi/ a G1, /_otobüs/ a G2, /_taksi/ a G2 und /_nerede/ a G3 ergeben die Transformationen Q für beide Texte einen Hintergrund E, in dem G1 = Gk1, G1 = Ar(G2) und G1 = Ar(G3), wobei die durch die Texte T angezeigten Positionen P gelten.
Ein weiterer in Beispiel 4) betrachteter, wie bei den vorangehenden Texten T21 bis T23 vereinfacht dargestellter Text T41 aus der deutschen Schriftsprache L zeigt eine grammatisch mehrdeutige Hilfsverb-Konstruktion mit T41 = /diese Lehrer wollen diese Schüler diese Wochen diese Bücher lesen lassen/. Aus einer Anwendung der Transformationen Q folgt, daß hier die folgenden, unter Vernachlässigung des Abstandsoperators o = /_/ notierten Symbole Ts = Vt anzutreffen sind: /diese Lehrer/ = Vt11 a G1, /diese Schüler/ = Vt21 a G2, /diese Bücher/ = Vt22 a G2, /diese Wochen/ = Vt31 a G3 und /wollen lesen lassen/ = vt411vt412vt413 = Vt41 a G4. Somit gilt T41 = Vt11vt411Vt21Vt31Vt22vt421vt431. Die grammatische Mehrdeutigkeit wird an einem permutierten Text wie T42 = /diese Schüler wollen diese Lehrer diese Wochen diese Bücher lesen lassen/ deutlich, für welchen aufgrund einer durch Experten oder auch ein semantisches Verfahren der Art Mp von Erfindungsmeldung P . . . vorzunehmenden semantischen Analyse ein Inhalt N4 mit einer Symbolfolge G1g41G2G3G2g42g43 wie in T41 als unwahrscheinlich beurteilt wird. Statt dessen gilt ein Inhalt N5 mit der Symbolfolge g2g41G1G3G2g42g43 mit einer weiteren Einheit G5 = g2g41g42g43, bei welcher G2 als zusätzliche Teileinheit G2 = g2 fungiert, wobei, wie in N4, Einheit G1 = Gk1 den Kopf bildet. Ferner gelten in N5 die Bezüge G5 = An(G1) sowie G3 = An(G5) und G2 = An(G5). Dem vorangehenden Text T41 ist gemäß den Transformationen Q ein Hintergrund E4 zuordenbar, in dem Gk1 = Ar(G4), wobei G4 über zwei Valenzen Ums mit 2 Anhängern G2 = An(G4) und über eine weitere Valenz Ums mit dem weiteren Anhänger G3 = An(G4) verknüpft ist. Für alle 3 Valenzen fordern, mit Daten der Ordnung O(2), die Positionsangaben P lediglich, daß der Anhänger gemäß P = g41G2g42g43 usw. anzuordnen ist mit beliebigen Positionierungsmöglichkeiten der beiden Einheiten G2 und zusätzlich Einheit G3 relativ zueinander.
In weiteren in Beispiel 4) betrachteten Hilfsverbkonstruktionen T51 = S51 = /Diesen Sommer hatte er bauen lassen wollen./ und T61 = S61 = /Bauen lassen hatte er diesen Sommer wollen./ bildet das Subjekt /ger./ jeweils den Kopf ähnlich wie in Beispiel 1) das Wort Vt131.1 a G131. Wie sich aus den Transformationen Q ableiten läßt, bildet in T51 der aus 6 natürlichen Wörtern aufgebaute Text Ts111 = Vt11 = /_diesen Sommer hatte bauen lassen wollen/ ein einziges objektives Wort Vt11 a G1 einer Einheit G1 = An(G131). In T61 läßt sich Ts211 = Vt21 = /_bauen lassen hatte wollen/ als Wort Vt21 a G2 einer anderen Einheit G2 = An(G131) bestimmen. Entsprechend der oben angeführten bevorzugten Ausbildung wird G1 auch als Komplex G1 = g3g4g5g6g7g8 von 6 Teileinheiten gx notiert, von denen einige in anderem Kontext auch als eigene Einheiten g = G fungieren können. Entsprechend gilt G2 = g6g7g5g8, wobei in E6 weiterhin G9 = An(G2), hier mit G9 = g3g4. Entsprechend dem für die Sprache L zu berücksichtigenden Korpus C = R(T) von Texten T wird G9 auch als disjunkte Klasse Kl von Teileinheiten g oder Komplexen hiervon dargestellt entsprechend G9 = g3g4 o g10 o . . ., wobei beispielsweise (vt10.1 a g10) = /_gestern/ usw. berücksichtigt wird. Ähnlich ist g11 = (g6g7 o g13 o . . .) möglich mit (vt13.1 a g13) = /_bauen/ usw.
Gegenüber dem vorliegenden Verfahren M haben andere bekanntgewordene Grammatiken, die nicht die gemäß den Transformationen Q erzeugbaren Begriffe und Superbegriffe vt, vtvt, g, gg, Vt und G, sondern lexikalische Wörter oder hieraus gebildete Klassen Kl, im voranstehenden Beispiel also Klassen Kl2 bis Kl8 verwenden, den Nachteil, daß sie zur Beschreibung der wechselseitigen Zuordnungsmöglichkeiten dieser Konstituenten Bezugsdaten bis hin zu verhältnismäßig hohen Ordnungen O(n) vorzusehen haben, welche einen entsprechend hohen Aufwand bei der Abarbeitung der aus diesen vielfältigen Möglichkeiten resultierenden Entscheidungsbäume mit der Gefahr kombinatorischer Explosionen sowohl bei der Speicherung wie auch Verarbeitung dieser Daten bedingt. Dagegen hält sich der Aufwand für die Erstellung und Notierung auch vergleichsweise komplex aus einer Vielzahl von Teileinheiten g aufgebauter Einheiten G wie G1 des Textes T51 und G2 von T61 oben in Beispiel 4) in beherrschbaren Grenzen, da eine Reihe von Texteinheiten g = ga für andere Kontexte auch als Einheiten Ga vorliegt und bei der Erstellung eines Wortes Vt = vtvt als Komplex Kp von Teilwörtern vt a ga häufig bereits die entsprechenden Teileinheiten ga = Ga als bekannt vorauszusetzen sind.
Bei den beiden weiteren in Beispiel 4) betrachteten Texten T7.1 = S7.1 = /Wir sehen./ und T8.2 = S8.2 = /Sie sehen./ scheinen die Transformationen Q intuitiv eine Zuordnung der beiden Wörter Vt = /gwir./ und /gsie./ zu einem einzigen Superwort G1 und der Wörter Vt = /_sehen/ aus T7.1 und aus T8.2 zu einem weiteren Superwort G3 zuzulassen. Wie jedoch aus einer gemäß Vollständigkeitsbedingung Ia zu fordernden Anwendung der Transformationen Q auf einen erweiterten Korpus R(T) von Texten T wie Tu.1 = /Wir sehen uns./, T10.1 = /Sie sehen uns./, T11.1 = /Sie sehen sich./, T12.1 = /Wir sehen euch./ und T13.1 = /Sie sehen euch./ folgt, gelten, auch wegen T = /Wir waschen sich./ ne Tf, die Zuordnungen /gwir./ = (Vt11 a aG1), /gsie./ = (Vt21 a G2), /_sehen/ (Vt31 a G3), aber auch /_sehen/ = (Vt41 a G4). Hierbei werden auch die Reflexivpronomina /_uns/ = (Vt51 a G5) und /_sich/ = (Vt61 a G6) unterschiedlichen Einheiten G zugeordnet, während die Personalpronomina /_uns/ = (Vt71 a G7) und /_euch/ = (Vt72 a G7) der gleichen Einheit 67 angehören. Entsprechend ist T10.1 einem Hintergrund E10 mit G1 = Ar(G4) und G4 = Ar(G7) zugeordnet; bei T11.1 gilt G2 = Ar(G4) und G4 = Ar(G6), bei T12.1 ist wieder G(1) = Ar(G3), ferner G3 = Ar(G7) und bei T13.1 gilt G4 = Ar(G7). Text Tu.1 = /Wir sehen uns./ wird als grammatisch doppeldeutig 2 Hintergründen Eu = E91 und E92 zugeordnet, bei denen G1 = Ar(G3), wobei in E91 Einheit G5 = An(G3), während in E92 Einheit G7 = An(G3).
Daß die Komplexität der erfindungsgemäß einzusetzenden Daten Ws durch inkonsequent festgelegte schriftsprachliche Konventionen vergrößert werden kann, ist den weiteren Texten T14 und T15 des Beispiels 4) zu entnehmen, die nach geltender Rechtschreibung gemäß T14 = /Er hofft, heute zu antworten./ und T15 = /Er hofft, ihm zu antworten./ formuliert werden. Wegen der Schreibkonvention T16 = /Er hofft zu antworten./ lassen sich gemäß Q die Strukturen Jk zu /ger./ = Gk, /_hofft/ = An/ger./, /_zu antworten/ = An(/_hofft/), weiter aber /, heute/ = An(/_zu antworten/) in T14 und /, ihm/ = An(/_zu antworten/) in T15 bestimmen. Durch die inkonsequente Vorschrift zur Zeichensetzung ist eine Zuordnung des Kommas zu /zu arbeiten/ nicht möglich, verbunden mit einer entsprechenden Komplizierung des Aufwands zur Beschreibung der bei den Anhängern /, heute/ und /, ihm/ zu berücksichtigenden Positionsangaben P.
In einer Ausgestaltung der Erfindung ist vorgesehen, das grammatische Kommunikationsverfahren M mit seinen, auf der Grundlage der Transformationen Q festgelegten, objektiven Wörtern Vt für die Durchführung von Rechtschreibreformen von Schriftsprachen L einzusetzen, die eine Verringerung des einzusetzenden Regelwerks und insbesondere auch eine Beseitigung von Ausnahmeregeln zum Ziel haben, wobei gegebenenfalls auch die oben eingeführten, als Komplexe Kp = VtVt von Wörtern Vt gebildeten, Idiome berücksichtigt werden.
Auch an mündlichen Sprachen L sind mittels der Transformationen Q konventionell berücksichtigte grammatische Komplexitäten nachweisbar, welche den Spracherwerb und die Sprachbeherrschung durch Menschen wie auch deren Formulierung für Vorrichtungen der erfindungsgemäßen Art erschweren. So ergeben sich für die, wieder durch Kleinbuchstaben angenäherten, Texte T17 = /kinder lesen/ und T18 = kinder und eltern lesen/ Strukturen Jk mit /kinder/ = Gk, /lesen/ = An(/kinder/) und in T18 zusätzlich /und eltern/ = An(/kinder/). Bei den Texten T19 = /hans liest/ und T20 = /hans und paul lesen/ gilt für T19 analog /liest/ = An(/hans/), in T20 dagegen gehört /und paul/ keiner eigenen Einheit G an, sondern es gilt /lesen/ = An(/hans und paul/). Dagegen wären bei Textkonventionen wie T21 = /Hans und Paul liest/­ datensparend Verknüpfungen gemäß /hans/ = Gk, /liest/ = An(Gk) und /und paul/ = An(Gk) einsetzbar.
Daß nicht jede schriftsprachliche Äußerung Tp, die konventionsgemäß durch anfängliche Großschreibung und eine abschließende Interpunktion gekennzeichnet ist, einer eigenen grammatischen Nachricht TN zugeordnet werden muß, läßt sich aus Beispiel 5) mit dem schriftdeutschen Dialog T1 = T2T3T4 = /"Hast du gespielt?" "Gespielt? Gearbeitet!"/ ableiten, der einen aus 3 solchen Äußerungen gebildeten Komplex darstellt. Wird hier beispielsweise im Einklang mit den Transformationen Q /Gearbeitet!/ = An(/Gespielt?/ und /Gespielt?/ = An(/_gespielt/) festgelegt, so findet sich je nach dem zugrunde gelegten Korpus C für eine Nachricht T1N1 eine höhere Wahrscheinlichkeit p(T1N1) als das für einen alternativen Komplex Kp = T2N2,T3N3,T4N4 resultierende Wahrscheinlichkeitsprodukt p(T2N2) × p(T3N3) × p(T4N4). Gemäß einer der angeführten alternativ einzusetzenden Ausbildungen wird die Antwort T3T4 auch als elliptische Form zweier Nachrichten T2N2' und T3N3' klassifiziert, wobei N2' beispielsweise auch ein Text T2'1 = /Habe ich gespielt?/ und N3' ein Text T3'1 = /Ich habe gearbeitet!/ angehört.
In Beispiel 6) mit dem vereinfacht notierten Schrifttext T1 = /er kommt dann diese Woche zuerst schnell im Auto vom Büro hierher nach Hause/, in welchem jedes einer Einheit Gx zugeordnete Wort (Vtxy = ZZsa) a Gx unterstrichen wurden, bildet /er/ a G1 den Kopf Gk1 und /kommt/ a G2 den Anhänger G2 = An(G1). In einer Ausbildung der Erfindung werden im Einklang mit den Transformationen Q entsprechend einer Anzahl von m ge 8 Valenzen Um vom Typ Ums2y dem Verb G2 sämtliche 8 weiteren Einheiten Gx = G3 bis G10 als Anhänger An(G2) zugeordnet. Die Erfindung schließt jedoch nicht aus, gegebenenfalls aufwandsparend alternativ bestimmte Umstandsbestimmungen auch als wechselseitig voneinander abhängig zu klassifizieren, beispielsweise jeweils die temporalen, lokalen und modalen, wobei etwa /dann/, /diese Woche/, /zuerst/ und /schnell/ sämtlich einer Einheit G3 zugeordnet werden, die sowohl eine Valenz Umn3 zur Komplexbildung mit G2 und eine weitere Valenz Ums3 zur Komplexbildung mit jeweils einer weiteren Einheit G3 aufweist, wobei dann G2 eine entsprechend geringere Zahl von Valenzen Ums2y zugeordnet wird.
Die bisher unter den Bezeichnungen G, g, Vt, vt, Z usw. geführten grammatischen Symbole Gr und Textsymbole Gt, welche die Symbole Gs mit ihren Eigenschaften H(Gs) einer Sprache L beschreiben, werden in einem Teil der Daten Ws zusammengefaßt, der im folgenden als Daten Wsr a Ws, auch Wsr(L) a Ws(L), bezeichnet wird. Weitere Daten Ws, die bei der erfindungsgemäßen mehrsprachigen Kommunikation, etwa bei Übersetzungen aus einer Ausgangssprache L in eine Zielsprache L' wie auch weitere Zielsprachen L" usw. gemäß Verfahrensteil M3 benutzt werden und hierzu die oben beschriebenen Vokabeln Vqq =: Vq = R(Vq') enthalten, welche bestimmte Bezüge zwischen Daten Wsr a Ws(L) von L und Wsr(L'), kurz auch Wsr' von L', gegebenenfalls auch Wsr" von L" angeben, werden unter der Bezeichnung Wst(L/L') a Ws(L) beziehungsweise Wst(L/L'/L") usw. zusammengefaßt Man beachte, daß sich Daten Wst(L/L') im Regelfall von den Daten Wst(L'/L) für Übersetzungen in umgekehrter Richtung unterscheiden. Die Texte, Symbole und Symbolkomplexe T, N, E, Gs, G, Vt, Z usw. einer Zielsprache L' werden kurz auch als T', N', . . . Vt', Z' usw. notiert, wobei, wie oben ausgeführt, auch Z' = Z möglich ist. In einer Ausgestaltung der Erfindung werden Daten des Inhalts Wst(L/L') gemäß dem genannten Verfahrensteil M4 a M auch erzeugt; in einer Ausbildung hiervon auch unter Anwendung von Verfahrensteil M2 a M auf Texte T und T' von L und L' unter Benutzung der Daten Wsr und Wsr'. Wie nachfolgend ohne Einschränkung der Allgemeingültigkeit am Beispiel einer Sprache L als Ausgangs- und einer Sprache L' als Zielsprache dargestellt wird, wird Verfahrensteil M3 bevorzugt unter Verwendung von den Daten Wst(L/L') zugeordneten Vokabeln Vqq durchgeführt, wie sie in Nachrichten TN zugeordneten Texten T und T'N' zugeordneten Texten T' unter Mitwirkung von Experten bestimmbar sind, welche beide Sprachen einschließlich der angesprochenen semantischen Inhalte F und F' ausreichend beherrschen, wobei diese Experten beobachten und anzeigen, ob bezüglich jeweils eines Paares von Texten T a TN und T' a T'N' die oben eingeführten Invarianzen I1(T, T') und I2(T, T') eingehalten werden, ein Text T' = Tf' also als ausreichend bedeutungsgleiche Übersetzung von T = Tf beurteilt wird, oder ob alternativ nI1 oder nI2 gilt. In einer bevorzugten Ausgestaltung werden hierfür den oben beschriebenen Transformationen Q zugeordnete Transformationen Q4 a Q zugrunde gelegt, die an Texten T eines ausreichend umfangreichen Korpus C = R(T) und Texten T' eines Korpus C' = R(T') durchgeführt werden, welche jeweils eine wie gegebenenfalls disjunkt mehrere alternativ geltende Übersetzungen der Texte T a C darstellen. Aus der Anwendung von Verfahrensteil M2 folgt, daß die Korpusse C und C' auch als Komplexe SS und S'S' von Sätzen S a N a E beziehungsweise S' a N' a E' mit entsprechenden Inhalten und Hintergründen verfügbar sind.
Die Transformationen Q4 sehen vor, jeweils zwei Sätze S1 und S'11, bei denen Text T11' = S11' als Übersetzung von T1 = S1 gilt, so um jeweils kleinstmögliche Komplexe Vq1 = VtVt und Vq11' = Vt'Vt' zu kürzen, daß der resultierende Satz S21' = T21' von L' als Übersetzung des resultierenden Satzes S2 = T2 von L gilt. Hierbei hat Vq11' ebenfalls als Übersetzung von Vq1 zu gelten, und es werden in Vqq die Wahrscheinlichkeiten p(Vq11'/Vq1) unter Beachtung gegebenenfalls weiterer gemäß Q4 an weiteren Sätzen S12', S13' usw. feststellbarer Bezüge p(Vq12'/Vq1) usw. berücksichtigt. Entsprechend ihrer Verwendung als Komponenten Em in Nachrichten TN werden die Komplexe Vq = VtVt auch als Idiome wie auch Textsymbole Gt, grammatische Symbole Gr wie auch semantische Symbole Gp bezeichnet; entsprechendes gilt für die Komplexe Vq' = Vt'Vt'. Die Komplexe Vq und Vq' werden vereinfachend ebenfalls Vokabeln genannt und in Texten T und T' durch entsprechende Textpermutationen TsTs a Vq beziehungsweise Ts'Ts' a Vq' repräsentiert.
Im einzelnen werden den Vokabeln Vqq Transformationen Q4a Q zugrunde gelegt, bei denen für eine Vokabel Vqq die genannte Zuordnung Vqq =: Vq1 = R(Vq1x') gilt mit Vq11' a R(Vq1x'), Vq1 a S1 a C', S1 a N1, Vq1 a GG1 a N1, wobei GG1 ne Ar, sowie entsprechend Vq11' a S11' a C', S11' a N11', Vq11' a G'G'11 a N11' und G'G'11 ne Ar. Unter Verwendung der oben für die Transformationen Q1 bis Q3 eingeführten formalen Notation gilt für die Transformationen Q4:
S1 - Vq1 = S2; S11' - Vq11' = S21';
mit I1(S1, S11'), I1(S2, S21'), I2(S1, S11'), I2(S2, S21'), I3(S1, S2), I3(S11', S21'), I4(S1, S11'), I4(S2, S21'), Ia und Ib.
Hierin fordert Ib entsprechend der oben bei den für Q1 bis Q3 für die Kürzungen um Textteile Tt angegebenen Formulierungen die Entfernung eines kürzestmöglichen, aus einem oder mehreren, nicht notwendigerweise aneinandergrenzenden Wörtern Vt gebildeten Komplexes Vq1 = VtVt aus S1 mit Vq1 g O und des zugehörigen Komplexes GG1 aus N1 sowie entsprechend eines kürzestmöglichen Komplexes Vq11' = Vt'Vt' aus S11' und G'G'11 aus N11'. Hierbei darf, wie durch die Transformationen Q1 bis Q3 nachweisbar, weder eine Einheit G a GG1 in N1 noch eine Einheit G' a G'G'11 in N' als Träger Ar einer weiteren in GG1 beziehungsweise G'G'11 nicht enthaltenen Einheit G a N beziehungsweise G' a N' fungieren. Die gemäß obiger Beschreibung zu beachtenden Invarianzen I1, I2 und I3 werden hierbei explizit auch als einzuhaltende Invarianzen der Form I4(T, T') notiert, welche jeweils allgemein ausdrücken, daß ein Text T' von L' als Übersetzung eines Textes T von L gilt, wie es bei obiger Formulierung durch I4(T1, T11') und I4(T2, T21') gefordert wird. Vollständigkeitsbedingung Ia fordert die Gültigkeit der Transformationen Q4 für sämtliche Satzpaare S und S', in denen Vq a Vqq und Vq' a Vqq in entsprechenden, Anordnungen als Träger Ar ausschließenden, grammatischen Funktionen vorkommen. Die Transformationen Q4 schließen nicht aus, daß Vq1 = S1, so daß S2 = nS, und entsprechend Vq11' = S11' mit S21' = nS. Erfindungsgemäß werden anstelle der oben formulierten Transformationen Q4 auch bedeutungsgleiche, zu gleichen Ergebnissen führende Transformationen Q41 verwendet, welche, wie bei den Transformationen Q3, anstelle einer Kürzung von Sätzen S und S' entsprechend beobachtbare Erweiterungen um Vokabeln Vq beziehungsweise Vq' vorsehen.
Zur effektiven Bestimmung einer möglichst großen Anzahl von Vokabeln Vqq aus einem gegebenen Korpus C mit zugehörigem Korpus C' von Texten T und T' werden die Transformationen Q4 vorzugsweise auch mehrfach auf ein Satzpaar S1 und S11' angewandt, also auch auf die resultierenden Paare gekürzter Sätze S2 und S21' usw. bis hin zu resultierenden Sätzen nS und nS'. Bei gegebenenfalls weiteren, alternativ zu S11' vorliegenden Übersetzungen S12', S13' usw. zu S1 werden entsprechende weitere, dann einem Repertoire Vq1' = R(Vq1x') zuzuordnende Vokabeln Vq1x' durch Anwendung von Q4 auf die entsprechenden Satzpaare S1 und S12', S1 und S13' usw. bestimmt. Man beachte, daß die Komponenten G der Komplexe GG, denen die Vokabeln Vq a GG zugeordnet sind, diejenigen Valenzen Um als freie Valenzen für Komplexbildungen mit weiteren Einheiten G aufweisen, die nicht aufgrund der in Vq vorliegenden Komplexbildung GG gesättigt sind; entsprechendes gilt für die Komplexe G'G'.
Die gemäß einem, unten weiter ausgeführten, Verfahrensteil M4 von M vorzunehmende Erstellung von Daten Wst(L/L') erfolgt nach einer oder mehreren der folgenden Ausführungsformen: Es werden Texte T a C wie auch Übersetzungen T' a C' verwendet, die durch Experten der betreffenden Sprachen L und L' erzeugt werden. Die Zuordnung der Texte T zu Nachrichten TN wie auch T' zu Nachrichten T'N' erfolgt durch Experten. Die Zuordnung der Texte T wie auch T' zu Nachrichten TN beziehungsweise T'N' erfolgt unter Anwendung des erfindungsgemäßen Verfahrensteils M2 unter Einsatz der grammatischen Daten Wsr(L) beziehungsweise Wsr(L') maschinell. Den Vokabeln Vqq werden die oben eingeführten Adressen Ad zugeordnet. Die Vqq werden in den Grammatiken Wst a Ws in weiteren Listen Wsi so geordnet nach Adressen Ad aufgeführt, daß sie aufgrund der in einlaufenden Texten T anzutreffenden Merkmale H(T) beziehungsweise Zeichen Z mit vertretbarem Aufwand zu adressieren sind. Die Vokabeln Vqq werden in den Grammatiken Wst in Listen Wsi geordnet nach Wörtern Vt a Vq aufgeführt, wobei diese Wörter Vt in den angeführten Listen Wsi a Wsr geordnet nach ihren Adressen Ad niedergelegt werden, in einer weiteren Ausbildung auch als Adressen Ad für die Vqq dienen.
In einer Ausgestaltung, die besonders für die erfindungsgemäße Kommunikation unter Berücksichtigung eines umfangreichen Repertoires R(L) natürlicher Sprachen L geeignet ist, wird eine Sprache L" a R(L) als Zentralsprache L" festgelegt, und es werden die Übersetzungen von einer beliebigen Ausgangssprache L a R(L) zu einer beliebigen Zielsprache L' a R(L) über die Zentralsprache L", also von L nach L" und weiter nach L' vorgenommen, vorausgesetzt, daß L ne L" und L' ne L". Dies hat zur Folge, daß vorteilhaft Daten Wst benötigt werden, deren Volumen nicht größenordnungsmäßig exponentiell gemäß a!, sondern nur annähernd linear mit der Zahl a der zu berücksichtigenden Sprachen L a R(L) anwächst, wodurch also eine kombinatorische Explosion des Datenvolumens Wst vermieden wird, wie sie sich bei einer Forderung ergäbe, die Übersetzungen zwischen beliebigen Sprachen L a R(L) jeweils direkt durchzuführen.
Die angeführten Transformationen Q4 mit daraus resultierenden Vokabeln Vqq werden anhand des folgenden Beispiels 7) mit Schriftenglisch als Ausgangssprache L und Schriftdeutsch als Zielsprache L' anhand eines, im Interesse einer möglichst einfachen und kurzen Erläuterung wieder sehr beschränkten, Korpus C von Texten T = S näher beschrieben, deren Worttexte Ts a Vt wieder als Norm-Zeichenkomplexe Vt = Tsa = ZZsa notiert werden. Betrachtet werden die Sätze Sx mit Übersetzungen Sx': S1 = /He does not leave Bavaria./, S2 = /He does leave Bavaria./ mit S11' = Er verläßt Bayern nicht./, S21' = /Er verläßt Bayern wirklich./, S3 = /He does not leave./ mit S31' /Er reist nicht ab./, S4 = /He does leave./ mit S41' = /Er geht tatsächlich./, S5 = /He leaves Bavaria./ mit S51' = /Er verläßt Bayern./, S6 = /He loves Bavaria./ mit S61' = /Er liebt Bayern./ und S7 = /He is not here./ mit S71' = /Er ist nicht hier./. Gemäß den Transformationen Q gelten im Englischen die hier als Vtx = Gx behandelten Wörter Vt1 = /ghe./, Vt2 = /_leaves/, Vt3 = /_loves/, Vt4 = /_is here/, Vt5 = /_does not leave/, Vt6 = /_does leave/, Vt7 = /_not/ und Vt8 = /_Bavaria/. Man beachte, daß der Textabschnitt /_does not leave/ in S1 nicht aus Vt6 und Vt7 zusammengesetzt ist, sondern ein eigenes Wort Vt5 bildet, da bei Kürzung von S1 um Vt7 mit resultierendem Satz S2 Invarianz I3(S1 d S2) von Transformation Q2.1 nicht erfüllt wäre, da, wie auch den deutschen Sätzen S11' und S21' oder auch S51' zu entnehmen ist, der S1 und S2 gemeinsame Satzteil S2 unterschiedliche Inhalte F anzeigt, in S1 etwa gemäß S21' und in S2 gemäß S51'. Als Strukturen Jk der Inhalte N gelten in S1 für den Kopf Vtk1 = Ar(Vt5) sowie Vt5 = Ar(Vt8); für S2: Vtk1 = Ar(Vt6), Vt6 = Ar(Vt8); für S3: Vtk1 = Ar(Vt5); für S4: Vtk1 = Ar(Vt6); für S5: Vtk1 = Ar(Vt2); Vt2 = Ar(Vt8); für S6: Vtk1 = Ar(Vt3), Vt3 = Ar(Vt8); für S7: Vtk1 = Ar(Vt4), Vt4 = Ar(Vt7).
Den deutschen Übersetzungen S' sind, wieder gemäß Q, die folgenden Wörter Vt' zuzuordnen: Vt1' = /ger./, Vt2' = /_geht/, Vt3' = /_reist ab/, Vt4' = /_liebt/ Vt5' = /_ist hier/, Vt6' = /_wirklich/, Vt7' = /_tatsächlich/, Vt8' = /_nicht/, Vt9' = /_ist hier/, Vt10' = /_verläßt Bayern/.
Durch Anwendung der Transformationen Q4 ergeben sich als Vokabeln Vqqx =: Vqx = R(Vqxy'): Vqq1: Vt1 = Vt1'; Vqq2: Vt2 = Vt2' o Vt3'; Vqq3: Vt2Vt8 = Vt10'; Vqq4: Vt3 = Vt4'; Vqq5: Vt4 = Vt9'; Vqq6: Vt5Vt8 = Vt10'Vt8'; Vqq7: Vt6Vt8 = Vt10'Vt6' o Vt10'Vt7'. Hierbei weisen Komplexe Kp wie Vq6' und Vq7' die Valenzen Um der Komponenten Em a Kp auf, welche durch die jeweiligen Komplexbildungen nicht gesättigt sind. So enthält Vq6' eine Valenz Umn von Vt10' a G10' zur Verknüpfung mit einer Kopfeinheit wie Vt1' a G1' über deren Valenz Ums. Die aufgeführten Vokabeln Vq' a Vqq ermöglichen so die Bildung sämtlicher Texte T' a S' des Korpus C' unter Anwendung von Verfahrensteil M1 a M.
Die für Verfahrensteil M3 vorgesehene Verwendung von Vokabeln Vq, welche gemäß den zugrunde gelegten Transformationen Q sowohl grammatische wie auch semantische Bezüge berücksichtigen und dementsprechend die Verwendung von, gegebenenfalls auch hoch, superierten Komplexen Kp von objektiven Wörtern Vt und entsprechend auch natürlichen Wörtern vorsehen, hat vorteilhaft zur Folge, daß die in den zu bildenden Nachrichten TN und T'N' als Komponenten Em einzusetzenden Komplexe Vq und Vq' sowohl als Textsymbole Gt, grammatische Symbole Gr wie auch semantische Symbole Gp dienen, wobei die für das Übersetzen und Dolmetschen allgemein zu fordernde Berücksichtigung des durch weitere Textteile T mitbestimmten Kontextes bereits weitgehend gewährleistet ist, ohne daß eine Speicherung einer gemäß Verfahrensteil M3 nicht benötigten Vielzahl von noch umfangreicheren Texten T und Übersetzungen T' hiervon erforderlich wird, welche die Speicherkapazität verfügbarer Vorrichtungen überlasten könnte. Hierbei resultieren aus den den Komplexen Kp = G'G' der Vokabeln Vq' a G'G' verbleibenden freien Valenzen Um der Einheiten G' a G'G', auch als Adressen Ad nutzbare, Einschränkungen für deren Zusammenfügungen, mit weiteren Vokabeln Vq' zu Inhalten N', woraus eine vorteilhafte Einschränkung der Auswahlmöglichkeiten aus den einer Vokabel Vqq zugeordneten Vokabeln Vq' a R(Vq') folgt. Die Erfindung sieht in einer Ausbildung vor, gegebenenfalls als Konkurrenzhypothesen Ks resultierende disjunkte Übersetzungsmöglichkeiten Ks = T' von Texten T einer zusätzlichen semantischen Analyse zuzuführen, wie sie durch Sprachexperten oder das in Erfindungsmeldung P . . . angegebene semantische Kommunikationsverfahren möglich ist. Hierbei wird allgemein eine Konkurrenzhypothese Ks für die Kommunikation ausgewählt und weiter verwendet, deren grammatischer Nachricht TN ein mit den Vorgaben Vr vereinbarer semantischer Inhalt F mit ausreichend hoher Wahrscheinlichkeit p(F/TN) zugeordnet wird, hier gemäß den für Übersetzungen anzusetzenden Vorgaben Vr einer gemäß M3 resultierenden Nachricht T'N' ein Inhalt F', der mit dem Inhalt F der zu übersetzenden Nachricht TN der Ausgangssprache L, gegebenenfalls auch unter Beachtung der jeweiligen Situation, ausreichend übereinstimmt.
Die angeführten, im erfindungsgemäßen Verfahren M einzusetzenden Daten Ws einschließlich Wsr und Wst sind allgemein auch dadurch gekennzeichnet, daß sie einer Erzeugung gemäß einer oder mehrerer der oben beschriebenen wie auch nachfolgend weiter ausgeführten, unter Verfahrensteil M4 a M zusammengefaßten, Maßnahmen entsprechen sowie in einer Ausbildung der Erfindung auch durch solche Maßnahmen M4 erzeugt werden: Der der Erzeugung der Daten Ws zugrunde zu legende Korpus C von Texten T einer Sprache L wie gegebenenfalls auch die Korpusse C' weiterer Sprachen L' werden durch einen oder vorzugsweise auch mehrere Experten dieser Sprachen ausgewählt oder auch erstellt. Ein Korpus C, C' usw. wird so festgelegt, daß entsprechend dem Umfang der zu lösenden Kommunikationsaufgabe die hierbei einzusetzenden Symbole Gs in den zu beherrschen Komplexbildungen GsGs in den Nachrichten TN, die den Texten T a C zuzuordnen sind, in einer ausreichenden Zahl von entsprechend statistisch signifikanten Fällen vorkommen. Die Symbole Gs werden durch Anwendung der Transformationen Q auf die Texte T a C1 eines vorgegebenen Korpus C = C1 bestimmt. Die Symbole Gs werden durch Anwendung der Transformationen Q auf einen Korpus C2 von Texten T bestimmt, welcher die Texte T a C1 eines vorgegebenen Korpus C1 sowie weitere durch Anwendung der Transformationen Q hieraus erzeugte Texte T umfaßt. Die Ergebnisse der Transformationen Q werden durch einen Experten, in einer bevorzugten Ausbildung auch mehrere, angezeigt. Es werden Symbole Gs durch entsprechend geübte Experten intuitiv so festgelegt, daß sie möglichst weitgehend den Transformationen Q genügen, wobei die Anwendung der Transformationen Q auf zweifelhafte Festlegungen beschränkt bleibt. Das Vorkommen der Symbole Gs wird unter Berücksichtigung ihrer, gegebenenfalls Zuordnungen zu weiteren Symbolen Gs berücksichtigenden, Anordnungen Pr statistisch ausgewertet. Die statistischen Eigenschaften H(Gs) der Symbole Gs werden entsprechend den Formulierungen Wt ausgedrückt. Die Symbole Gs mit ihren Eigenschaften H(Gs) werden anhand weiterer bei der erfindungsgemäßen maschinellen Kommunikation an weiteren Texten T anfallender Ergebnisse, gegebenenfalls auch unter Mitwirkung von Experten, ergänzt wie auch, insbesondere auch quantitativ hinsichtlich ihrer Wahrscheinlichkeiten p, präzisiert. Textsymbolen Gt zugeordnete Zeichen Z werden als Komplexe Kp = R(H(T)), R(H(T)) von Repertoires R(H(T)) jeweils einer oder mehrerer Texteigenschaften H(T) mit Toleranzen dH festgelegt. Die Zeichen Z werden nach einem Alphabet R(Z) geordnet. Die Ordnung erfolgt in einer Reihenfolge nach fallenden Informationswerten h(Z). Die als Komponenten Em einzusetzenden Symbole Gs, in entsprechenden Ausbildungen einschließlich der Vokabeln Vqq und Zeichen Z, werden geordneten Adressen Ad zugeordnet. Sie werden in Listen Wsi geordnet aufgeführt. Die Listen Wsi werden nach unterschiedlichen Bereichen von Informationswerten h(Em/Ad) unterteilt. Als Adressen Ad der Textsymbole Gt werden bestimmte Merkmale oder Zeichen Z wie auch Komplexe 22 hiervon festgelegt. Die Schwellwerte und Toleranzen für quantitativ festzulegende Daten wie Wahrscheinlichkeiten p, Informationswerte h, Eigenschaften H beziehungsweise Positionen P mit Reihenfolgen der Form A1:A2 und Abständen a werden so den Gegebenheiten der betreffenden Kommunikationsakte und Kommunikationspartner wie auch der verfügbaren Vorrichtungen angepaßt, daß die zu leistenden Kommunikationsakte mit den Anforderungen entsprechenden Zeiten und Fehlerraten und den verfügbaren Vorrichtungen angepaßtem Aufwand durchführbar werden. Hierbei werden die zu erwartenden Varianzen gleichbedeutender Texte T durch entsprechende Festlegung von Toleranzen dH der ihnen zuzuordnenden Merkmale H(T) berücksichtigt.
Es werden Daten Ws verwendet, die einer Erzeugung durch einen Verfahrensteil M41 von M4 entsprechen, wonach Texten T a C3 eines Korpus C3 unter Anwendung von Verfahrensteil M2 unter Beachtung bereits vorliegender Daten Ws = Ws1 gemäß Verfahrensteil M2 maschinell grammatische Nachrichten TN zugeordnet werden, wobei gemäß den Daten Ws1 nicht ausreichend sicher zuordenbare Textabschnitte T für Experten markiert werden, welche die Daten Ws1 dadurch zu Daten Ws2 erweitern, daß sie unter Beachtung der Transformationen Q diese Textabschnitte T Einheiten G zuordenbaren objektiven Wörtern Vt mit entsprechend zuordenbaren Eigenschaften H(Vt) und H(G) zuordnen. Verfahrensteil M41 wird auch in mehreren Stufen unter Verwendung der jeweils in der vorangegangenen Stufe erzeugten Daten Ws durchgeführt. Aus Verfahrensteil M41 folgt vorteilhaft eine Reduzierung des bei der Bestimmung der Daten Ws durch Experten zu leistenden Arbeitsanteils.
Zur Erzeugung von Daten Wst a Ws werden zu Korpussen C von Texten T von Ausgangssprachen L Korpusse C' von Texten T' von Zielsprachen L', welche Übersetzungen der Texte T darstellen, durch einen oder mehrere Experten ausgewählt oder auch erstellt, wobei gegebenenfalls auch eine oder mehrere als Zentralsprachen L" zu verwendende Sprachen L berücksichtigt werden. Die Vokabeln Vqq werden gemäß den obigen Definitionen erstellt und zu Listen Wsi, geordnet nach geordneten Adressen Ad, zusammengestellt. Hierbei werden die Transformationen Q4 berücksichtigt. Es werden den Texten T und T' unter Anwendung von Verfahrensteil M2 zugeordnete grammatische Inhalte N und N' und Sätze S und S' berücksichtigt. Die Zuordnungen von Vokabeln Vq' zu Vokabeln Vq werden statistisch erfaßt. Den Vokabeln Vq und Vq' werden Valenzen Um zugeordnet.
Weitere Einzelheiten des erfindungsgemäßen Kommunikationsverfahrens M sind auch den nachfolgenden Zusammenstellungen der oben angeführten Verfahrensteile M1, M2 und M3 von M zu entnehmen, welche jeweils entsprechend der hier niedergelegten Reihenfolge unter Anwendung mehrerer der aufgeführten, gegebenenfalls auch alternativ anzuwendender, Maßnahmen, auch unter Einsatz der oben beschriebenen und an Textbeispielen erläuterten Begriffe, Datenzusammenstellungen und Vorgehensweisen, durchzuführen sind. Für die folgende Beschreibung wird entsprechend der genannten bevorzugten Ausgestaltung die Verwendung der Symbole Vt a G zugrunde gelegt, was nicht ausschließt, daß in weiteren Ausbildungen auch hiervon abweichende Symbole Gt a Gr der angeführten Art zum Einsatz kommen.
Der in der Funktion des Autors At zu leistende Verfahrensteil M1 a M zur Erzeugung von auszugebenden, grammatischen Inhalten N wie auch Komplexen NN hiervon zugeordneten, Texten T, welche unter Beachtung der für den betreffenden Kommunikationsakt vorliegenden Daten D, Vorgaben Vr sowie der Daten Ws vorzunehmen ist, umfaßt einen Teil M11 a M1 zur Festlegung dieser Daten D und Vorgaben Vr in einer hierfür geeigneten Form und einen Teil M12 a M1 zur Erzeugung grammatischer Nachrichten TN und zur Ausgabe der deren Inhalten N a TN zugeordneten Texte T a TN. In verschiedenen, den jeweiligen Kommunikationsakten angepaßten Ausgestaltungen schließt Teil M11 auch eine Anwendung des Teils M2 oder auch M3 mit ein, während M12 auch unter Anwendung von M2 durchgeführt wird mit dem Ziel, gegebenenfalls erzeugte grammatisch mehrdeutige Texte T zu identifizieren und, soweit im Rahmen der Vorgaben Vr möglich, durch grammatisch eindeutige Texte T zu ersetzen oder unter Beachtung der Vorgaben Vr Nutzer wie auch Kommunikationspartner entsprechend zu informieren.
Verfahrensteil M11 a M1 sieht vor, beim betreffenden Kommunikationsakt gegebenenfalls anfallende Daten D einschließlich der von den Nutzern, Partnern Pa oder von weiteren Verfahrensteilen M2 oder M3 wie gegebenenfalls auch semantischen Kommunikationsverfahren kommenden Vorgaben Vr = Vr1 aufzunehmen und zu speichern und hierdurch, gegebenenfalls auch mittels Adressen Ad angezeigte, Komponenten Em zu identifizieren und entsprechend zu berücksichtigende Repertoires R(Em) hiervon mit Entnahmebedingungen Ve hierfür zusammenzustellen und zu speichern, welche als weitere Vorgaben Vr = Vr2 für die Durchführung von Verfahrensteil M12 dienen. Identifizierte Komponenten Em wie Merkmale H(T) oder Symbole Gs werden als Adressen Ad für Komponenten Em einer jeweils angrenzenden Superierungshierarchie und entsprechende Repertoires R(Em) hiervon verwendet. Es werden Komponenten Em berücksichtigt, die durch Adressen Ad mit ausreichend hohen Wahrscheinlichkeiten p(Em/Ad) ge ps angezeigt werden. Schwellwerte ps werden in Anpassung an die Kommunikationsakte und die verfügbaren Vorrichtungen so festgelegt, daß die Vorgaben Vr1 unter Vermeidung zu hoher Bearbeitungszeiten und Fehlerraten erfüllbar werden. Entnahmebedingungen Ve für die Repertoires R(Em) werden entsprechend den Vorgaben Vr, Daten D und Daten Ws allgemein so festgelegt, daß hieraus jeweils eine, sämtliche, eine bestimmte oder beliebige Anzahl von Komponenten Em einfach oder auch mehrfach oder disjunkt wie auch unter Beachtung der Reihenfolge wie auch der Positionen P wie auch der Möglichkeiten ihrer Anordnungen Pr zum Aufbau der gemäß M1 zu erstellenden Komplexe TN = EmEm zu verwenden sind. Bei disjunkt zu verwendenden Komponenten Em erfolgt eine Entnahme in einer Reihenfolge nach fallenden Wahrscheinlichkeiten P(Em/Ad), mit denen sie durch identifizierte Adressen Ad angezeigt werden.
Verfahrensteil M12 von M1 sieht vor, aus gemäß Verfahrensteil M11 zu berücksichtigenden Komponenten Em unter Beachtung der Daten Ws eine disjunkte Klasse Kl = (Ks) von als Konkurrenzhypothesen Ks behandelten Komplexen Kp = TN,TN von, Komplexen EE von Hintergründen E mit zugeordneten Inhalten N zugeordneten, Nachrichten TN zu bilden und unter Beachtung der Wahrscheinlichkeiten p(Ks) einen, einem ausreichend wahrscheinlichen Nachrichtenkomplex TN,TN zugeordneten, Text T a TN,TN, wie entsprechend den Vorgaben Vr auch mehrere, entsprechend als disjunkt gekennzeichnete Texte T, als Äußerung Tp in dem hierfür vorgesehenen Medium an die Kommunikationspartner Pa herauszugeben. Hierbei wird nach mehreren der folgenden Ausführungsformen vorgegangen: Soweit es die Vorgaben Vr zulassen, werden als korrekt definierte Nachrichten TNg erzeugt. Die Bildung von Nachrichtenkomplexen Kp = TN,TN erfolgt seriell in Richtung steigender oder fallender Superierungshierarchien wie auch in Vortragsrichtung der Texte T. Es werden Zwischenergebnisse Ks1 a (Ks) berücksichtigt, denen die Komponenten Em aus vorliegenden disjunkten Repertoires R(Em) jeweils mit ausreichend hohen Wahrscheinlichkeiten p(Em) ge ps1 zugeordnet sind. Zwischenergebnisse Ks2 a (Ks) mit Zuordnungswahrscheinlichkeiten ps2 k p(Em) k ps1 oberhalb eines weiteren Schwellwertes ps2 k ps1 werden gespeichert und gegebenenfalls zur Komplexbildung herangezogen, falls sich mit den Hypothesen Ks1 bei weiterführenden Komplexbildungsstufen mit den Komponenten Em weiterer Repertoires R(Em) keine ausreichenden Wahrscheinlichkeiten p(Em) ge ps zur Bildung grammatisch korrekter Nachrichten TNg ergeben. Die Hypothesen Ks werden entsprechend ihren, gemäß Ansatz Ba ermittelten, Wahrscheinlichkeiten p(Ks) berücksichtigt. Unter Anwendung nichtlinearer Verfahrensschritte Bb werden Komponenten Em und Hypothesen Ks mit Wahrscheinlichkeiten p k ps vernachlässigt. Schwellwerte ps werden so den betreffenden Kommunikationsakten angepaßt, daß kombinatorische Explosionen bei den Hypothesen Ks unterbunden werden. Es werden in einer ersten Superierungsserie aus disjunkten Repertoires R(Em) solche Komponenten Em berücksichtigt, die von in vorliegenden Daten D identifizierten Adressen Ad mit ausreichend hohen Wahrscheinlichkeiten p(Em/Ad) g ps angezeigt werden. Die Schwellwerte ps werden in Stufen so weit erniedrigt, bis sich grammatisch korrekte Nachrichten TNg ergeben. Texte T a TN werden als Komplexe T = TaTa von Normtexten Ta a Gt der eingesetzten Textsymbole Gt gebildet. Die Hintergründe E a TN werden aus durch Adressen Ad angezeigten Einheiten Em G unter Berücksichtigung der gemäß Vr2 vorliegenden Repertoires R(Em) gebildet. Der Aufbau wird mit jeweils als Kopf Gk einsetzbaren selbständigen Einheiten G begonnen und mit solchen rangniedriger anzuordnenden Einheiten Gb a R(Em) fortgeführt, die durch als zusätzliche Adressen Ad eingesetzte ungesättigte Valenzen Ums der bereits verwendeten Einheiten Ga als mögliche Anhänger Gb = An(Ga) angezeigt werden. Alternativ hierzu erfolgt der Aufbau der Hintergründe E in Richtung steigenden Ranges Ra unter Einsatz der ungesättigten Valenzen Umn der verwendeten Einheiten G als Adressen Ad oder auch in wechselnden Rangrichtungen, insbesondere auch in solchen Fällen, wo selbständige Einheiten G durch vorliegende Adressen Ad nur mit geringen Wahrscheinlichkeiten p(G/Ad) angezeigt werden. Es werden gegebenenfalls gemäß Vorgaben Vr wie auch den Daten Ws vorliegende Valenzen-übergreifende Bedingungen Wt wie auch Daten Wsp beachtet. Die Bildung der Nachrichtenkomplexe TN,TN erfolgt alternativ zur seriellen Verarbeitung durch Parallelverarbeitung unter Verwendung von Parallelrechnern, in denen die gemäß den Daten Ws zu verwendenden Symbole Gs jeweils durch parallel vernetzbare Rechenmodule repräsentiert werden. Textsymbole Gt werden unter Beachtung der Funktionen von in den Daten Ws als Operatoren Z = o aufgeführten Zeichen Z gebildet. Resultierende Texte T a TN,TN werden unter Anwendung von Verfahrensteil M2 einer grammatischen Analyse auf grammatische Mehrdeutigkeit unterzogen. Als Konkurrenzhypothesen Ks erzeugte grammatische Nachrichten TN werden einer semantischen Analyse zugeführt, und es wird eine Hypothese Ks für die Kommunikation verwendet, deren grammatischer Nachricht TN hierbei ein mit den Vorgaben Vr vereinbarer semantischer Inhalt F mit ausreichend hoher Wahrscheinlichkeit p(F/TN) g ps zuordenbar ist. Grammatisch mehrdeutige wie gegebenenfalls auch semantisch als nicht ausreichend akzeptabel identifizierte Texte Ta a TaNa werden durch hiervon abweichende Texte Tb a TbNb anderer grammatischer Inhalte Nb ne Na ersetzt unter der Voraussetzung, daß die Nachrichten TbNb gemäß den Vorgaben Vr ebenfalls noch mit ausreichenden Wahrscheinlichkeiten p(TbNb) erzeugbar sind. Nicht so ersetzbare Nachrichten TaNa werden den Kommunikationspartnern Pa, wie entsprechend gegebenen Vorgaben Vr auch den Nutzern, durch entsprechend vorzunehmende Markierungen angezeigt. Falls vorliegende Daten D und diesen zugeordnete Vorgaben Vr keine korrekten Nachrichten TNg zulassen, wird angezeigt, welche von diesen Daten D hierfür verantwortlich sind. Bei entsprechenden Vorgaben Vr werden hierbei entsprechend markierte korrekte Nachrichten TNg erzeugt, wie sie durch Abänderung eines gemäß Vorgaben Vr ausreichend geringen Anteils der Daten D möglich sind. Disjunkte Nachrichten TN a (TN) mit annähernd gleichen, ausreichend hohen Wahrscheinlichkeiten p(TN) g ps werden gemäß Vorgaben Vr den Kommunikationspartnern Pa wie auch den Nutzern entsprechend markiert zur Auswahl angeboten. Die resultierenden Texte T a TN,TN werden entsprechend den Gegebenheiten des betreffenden Kommunikationsaktes in den hierfür vorgesehenen Medien an die Kommunikationspartner Pa ausgegeben.
Der in der Funktion des Hörers Hr zu leistende Verfahrensteil M2 a M zur Zuordnung von zu erstellenden grammatischen Inhalten N zu einlaufenden Texten T und somit zur Erstellung von diesen zugeordneten grammatischen Nachrichten TN wie auch Komplexen Kp = TN,TN hiervon aus Komponenten Em entsprechend den Daten Ws umfaßt einen unter Anwendung von Verfahrensteil M11 a M1 durchzuführenden Verfahrensteil M21 a M2 zur Aufnahme und Speicherung der Texte T und zur Festlegung von Vorgaben Vr2 unter Beachtung vorliegender Vorgaben Vr1 aus den beim Kommunikationsakt anfallenden Daten D, sowie einen unter Anwendung von Verfahrensteil M12 a M1 durchzuführenden Verfahrensteil M22 a M2 zur, unter Beachtung von Konkurrenzhypothesen Ks vorzunehmenden, Erzeugung dieser Nachrichten TN, welche einer durch die Vorgaben Vr1 festgelegten weiteren Verwendung zuzuführen sind. Ja nach den Gegebenheiten der betreffenden Kommunikationsakte wie auch Vorgaben Vr1 umfaßt Verfahrensteil M2 auch einen Teil M23 zur Verbesserung einlaufender Texte T gemäß den Daten Ws und den hierdurch festgelegten Normen und, gegebenenfalls auch durch Vorgaben Vr1 mitbestimmten, Toleranzen.
Verfahrensteil M21 sieht vor, die anfallenden Daten D aufzunehmen und zu speichern und hieraus in Teil M22 zu berücksichtigende Repertoires R(Em) von Komponenten Em mit Entnahmebedingungen Ve a R(Em) zu erstellen, wobei mehrere der folgenden, den Gegebenheiten der betreffenden Kommunikationsakte angepaßten Maßnahmen anzuwenden sind: Es werden die Daten Ws einer gemäß Vr1 vorgegebenen Sprache L berücksichtigt. Bei nicht vorgegebener Sprache L wird aus den einlaufenden Texten T ein Repertoires R(L) möglicher Sprachen L mit zugehörigem Repertoire R(Ws(L)) von Daten Ws(L) festgelegt. Als Komponenten Em werden durch die Daten Ws festgelegte Symbole Gs wie auch Komplexe GsGs und Klassen (Gs) hiervon wie auch Texte T a Gs berücksichtigt. Einem einlaufenden Text T wird eine disjunkte Klasse Kl = (AdAd) von Komplexen AdAd von, unter Beachtung ihrer Positionen P im Text T angeordneten, Adressen Ad mit gemäß den Daten Ws zugeordneten Textsymbolen Gt zugeordnet, welche der, gegebenenfalls durch Vorgaben Vr1 festgelegten, niedrigsten gemäß Ws zu beachtenden Superierungshierarchie angehören. Das Repertoire R(L) der Sprachen L wird aufgrund der Adressen Ad, gegebenenfalls auch aufgrund der bereits als mögliche Komponenten Em zugeordneten Symbole Gt, näher bestimmt. Textmerkmale H(T) wie hieraus in steigenden Superierungshierarchien aufgebaute Komplexe Gt = H(T)H(T) werden als Adressen Ad für die Symbole Gs der jeweils nächsthöheren Hierarchie eingesetzt. Die adressierten Symbole Gs werden unter Beachtung der Wahrscheinlichkeiten p(Em/Ad) Repertoires R(Em) mit Entnahmebedingungen Ve, beispielsweise auch zu ihrer disjunkten Verwendung, zugeordnet. Die Zuordnung von Adressenkomplexen AdAd erfolgt jeweils für den nächsten gemäß Verfahrensteil M22 zu bearbeitenden Textabschnitt T. Es werden jeweils Textlängen T berücksichtigt, welche dem zu erwartenden Umfang der in der jeweiligen Superierungshierarchie möglichen Symbole Gt und Komplexe GtGt wie Zeichen Z und Komplexe ZZ = Vt, VtVt = Vqq und VtVt = S angepaßt sind.
Verfahrensteil M22 a M2 zur Erstellung grammatischer Nachrichten TN aus gemäß M21 a M2 erstellten Repertoires R(Em) von Komponenten Em umfaßt mehrere der folgenden Maßnahmen: Die Bildung von Symbolkomplexen erfolgt in den in M21 angegebenen Superierungshierarchie-Richtungen, in einer bevorzugten Ausbildung in Richtung steigender Hierarchien wie auch steigenden Ranges Ra. Bei in Analogform einlaufenden Texten T werden als Textsymbole Gt der niedrigsten Hierarchie Merkmale Z berücksichtigt, welche durch Repertoires R(H(T)) von innerhalb Toleranzen dH(T) liegenden Texteigenschaften H(T) wie auch hieraus gebildeten Komplexen Kp unter Beachtung ihrer Positionen P als Adressen Ad angezeigt werden. Komplexbildungen GtGt aus Textsymbolen Gt erfolgen in der durch ihrer Positionen P, wie sie auch durch die Adressen Ad angezeigt werden, gegebenen Reihenfolge. Die Textsymbole Gt der jeweils gebildeten Hierarchie werden zur Bestimmung des für die nächsthöhere Hierarchie von Symbolen Gt zu berücksichtigenden Repertoires R(L) von Sprachen L eingesetzt, bis sich mit ausreichender Wahrscheinlichkeit p die dem Text T zugrunde liegende Sprache L, gegebenenfalls auch mehrere solche Sprachen L, ergeben. Der Text T wird in die den Textsymbolen Gt der höchsten Superierungshierarchie zugeordneten Textabschnitte Ts a Vt wie auch Ts a vt geteilt. Für die Bestimmung einer als Komplexe Gt2 = Gt1Gt1 einer niedrigeren Hierarchie von Textsymbolen Gt1 gebildeten Hierarchie von, Teilwörter vt und Wörter Vt einschließenden, Textsymbolen Gt2 wird eine gemäß den Daten Ws maximal mögliche Anzahl aufeinander folgender, durch Adressen Ad eines entsprechenden Textabschnitts T angezeigter Symbole Gt1 berücksichtigt, wobei jeweils in Anpassung an die betreffende Sprache L auch nicht- diskontinuierliche Symbole Gt2 vorausgesetzt werden. Die Zuordnungen von Textsymbolen Gt zu Texten T erfolgen unter Beachtung von in den Texten T gegebenenfalls anzutreffenden Textmerkmalen H(T), welche Abgrenzungen zwischen Textabschnitten Tr a Z, Ts a vt oder Ts a Vt anzeigen. Bei Texten T, die in Form von in Äußerungen T = Tp voneinander abgegrenzten Textabschnitten T anfallen, erfolgt die Bildung von Nachrichten TN für jeweils einen dieser Abschnitte T. Bei nicht so abgeteilten Texten T wird für den Aufbau einer Nachricht TN eine Textlänge T berücksichtigt, der mehrere Wörter Vt a G von selbständigen, als Kopf Gk verwendbare Einheiten G zuordenbar sind. Der Aufbau wird mit Textlängen T1 mit mindestens 2 zugeordneten selbständigen Einheiten G begonnen. Die Textabschnitte T werden auf Textlängen T2 erweitert, falls sich den Texten T1 keine grammatisch korrekten Nachrichten TN zuordnen lassen. Verfahrensteil M2 bietet so vorteilhaft die Möglichkeit, auch kontinuierlich in fortlaufender Form geäußerte Texte T entsprechend den ihnen zuordenbaren grammatischen Inhalten N zu unterteilen, ohne daß jeweils die apparativen Voraussetzungen überfordernde Textlängen T in das Verfahren M einbezogen werden müssen.
Der Aufbau eines Hintergrundes E aus den durch Adressen Ad angezeigten Einheiten G erfolgt in unterschiedlichen Rangrichtungen in Reihenfolgen nach fallenden Wahrscheinlichkeiten p(G/Ad), mit denen sie angezeigt werden. Bei ausreichend gleichen Wahrscheinlichkeiten p(G/Ad) erfolgt die Komplexbildung in Richtung fallenden Ranges Ra, beginnend jeweils mit einer als Kopf Gk eingesetzten selbständigen Einheit G. Die ungesättigten Valenzen Um der zur Komplexbildung E eingesetzten Einheiten G a E werden als zusätzliche Adressen Ad für weitere Einheiten G verwendet. Von den als Konkurrenzhypothesen Ks gebildeten grammatischen Nachrichten TN werden bevorzugt grammatisch korrekte Nachrichten TNg verwendet. Aus gegebenenfalls mehreren als Konkurrenzhypothesen Ks anfallenden Nachrichten TN beziehungsweise Komplexen TN,TN hiervon wird die Konkurrenzhypothese Ks mit der höchsten Wahrscheinlichkeit p(Ks) verwendet. Bei grammatisch mehrdeutigen Texten T, denen mehrere Hypothesen Ks mit annähernd gleichen, ausreichend hohen Wahrscheinlichkeiten p(Ks) zugeordnet werden, werden diese entsprechend als disjunkt markiert der vorgegebenen weiteren Verwendung zugeführt. Die erstellten Komplexe TN mit ihren Strukturen J oder Jk werden gemäß den Vorgaben Vr den Nutzern, gegebenenfalls auch den Partnern Pa, in grafischer Form präsentiert.
Verfahrensteil M23 a M2 zur Verbesserung einlaufender Texte T entsprechend den zu berücksichtigenden grammatischen Daten Ws sieht allgemein vor, Texte T = T1, denen gemäß Verfahrensteil M2 nur als grammatisch nicht ausreichend korrekt definierte Nachrichten T1N ne T1Ng zuordenbar sind, in grammatisch korrekte Texte T2 = Tg2 mit zugeordneten grammatisch korrekten Nachrichten T2Ng anzuwandeln. Hierzu werden die Schwellwerte ps für die durch Textabschnitte Ts als Adressen Ad mit Wahrscheinlichkeiten p(Gs/T) ge ps angezeigten Symbole Gs so weit herabgesetzt, bis sich gemäß Verfahrensteil M21 a M2 Repertoires R(Gs) von Symbolen Gs ergeben, die sich gemäß Verfahrensteil M22 a M2 mit ausreichend hohen Wahrscheinlichkeiten p(Gs) zu entsprechend grammatisch korrekten Inhalten Ng zusammenfügen lassen. Es werden zu erwartende Fehlerraten wie auch Abweichungen von Textabschnitten T von ihren Normtexten Ta a Gt berücksichtigt. Aufgrund von Autorenfehlern wie Aussprache-, Rechtschreib- oder Positionsfehlern oder auch Fehlern der Zeichensetzung, Groß- und Kleinschreibung oder der Flexion fehlerhaft eingesetzte Symbole Gs werden als Adressen Ad für weitere, gemäß den Daten Ws verwendbare Symbole Gs eingesetzt. Gemäß Verfahrensteil M22 aus den so erweiterten Repertoires R(Gs) von Symbolen Gs erzeugte korrekte grammatische Inhalte Ng werden durch Normtexte Tsa a Vt der darin verwendeten Symbole Vt a G zu grammatisch korrekten Nachrichten T2Ng ergänzt, deren Texte T2 a T2Ng als Verbesserungen der eingegangenen Texte T1 ausgegeben werden. Bei entsprechenden Vorgaben Vr1 werden in Analogform beispielsweise handschriftlich oder mündlich abgefaßte Texte T1 in Texte T2 verbessert, die als Komplexe T2 = ZZ von normgerechten Druckbuchstaben Z beziehungsweise Lautkombinationen ausgegeben werden. Entsprechend den Vorgaben Vr werden vorgenommene Verbesserungen den Partnern Pa oder auch Nutzern angezeigt.
Der sowohl die Funktion des Hörers Hr als auch Autors At umfassende Verfahrensteil M3 von M zur Übertragung von in einer Ausgangssprache L abgefaßten einlaufenden Texten T in bezüglich zugeordneter pragmatischer Inhalte F ausreichend gleichbedeutende, Komplexen N'N' von zu bildenden Inhalten N' zugeordnete Texte T' einer gemäß Vorgaben Vr1 festgelegten Zielsprache L' gliedert sich in Verfahrensteile M31, M32 und M33, welche entsprechend den zu leistenden Kommunikationsakten gemäß mehreren der nachfolgend angeführten Ausbildungen durchgeführt werden:
Teil M31 a M3 sieht vor, unter Anwendung von Verfahrensteil M2 einen einlaufenden Text T aufzunehmen, zu speichern und diesem unter Beachtung der Wahrscheinlichkeiten p(N/T) ein disjunktes Repertoire R(TN,TN) eines oder mehrerer Komplexe Kp von grammatischen Nachrichten TN mit zugehörigen Sätzen S a TN der Ausgangssprache L zuzuordnen.
Teil M32 a M3 liefert, unter Beachtung der Ergebnisse von Teil M31, der Daten Wst von Ws und vorliegender Vorgaben Vr1, sowie unter Anwendung der Verfahrensteile M1 und M2 die für die Durchführung von Teil M33 a M3 zugrunde zu legenden Vorgaben Vr2. Den gemäß M31 a M3 gebildeten Sätzen S wie gegebenenfalls auch Satzkomplexen SS wird jeweils ein Repertoire R(Vqq) von Vokabeln Vqq, gegebenenfalls auch ein disjunktes Repertoire R(R(Vqq)) solcher Repertoires R(Vqq) zugeordnet. Als Textsymbole Gt eingesetzte objektive Wörter Vt a S der Sätze S werden als Adressen Ad für Vokabeln Vqq verwendet. Die Wörter Vt a S eines einem Satz S zugeordneten Repertoires R(Vqq) werden unter Beachtung der Anordnungen Pr ihrer Einheiten G a N eines Inhalts N vollständig einem Komplex Kp = VqVq von Vokabeln Vq a Vqq der Ausgangssprache L wie gegebenenfalls auch einer disjunkten Klasse Kl = (VqVq) hiervon, zugeordnet. Den Vokabeln Vq eines Komplexes VqVq wird entsprechend den Vokabeln Vqq unter Beachtung der Wahrscheinlichkeiten p(Vq'/Vq) jeweils ein Repertoire R(Vq'), gegebenenfalls auch ein disjunktes Repertoire R(R(Vq')) hiervon, zugeordnet.
Verfahrensteil M33 von M3 sieht vor, aus den gemäß Verfahrensteil M32 als Komponenten Em zu berücksichtigenden, den Repertoires R(Vq') zugeordneten Symbolen Gt' a Vq' unter Anwendung der Verfahrensteile M21 und M22 und unter Beachtung der Daten Ws' der Zielsprache L' eine disjunkte Klasse Kl = (Ks) von, als Konkurrenzhypothesen Ks behandelten, jeweils aus einer oder mehreren Nachrichten T'N' gebildeten Komplexen Kp = N'N',T'N' zu bilden und unter Beachtung der Wahrscheinlichkeiten p(Ks) einen, einer ausreichend wahrscheinlichen Hypothese Ks zugeordneten Text T' a T'N',T'N' wie entsprechend den Vorgaben Vr1 auch mehrere, entsprechend als disjunkt gekennzeichnete Texte T' jeweils als Übertragung des einlaufenden Textes T in die Zielsprache L' in den hierfür vorgesehenen Medien an die Kommunikationspartner Pa herauszugeben. Teil M33 umfaßt mehrere der folgenden Maßnahmen: Den dem einlaufenden Text T zugeordneten disjunkten Repertoires R(Vq') von Vokabeln Vq' wird jeweils ein Komplex N'N', definitionsgemäß eines oder mehrerer, grammatischer Inhalte N' der Sprache L' zugeordnet, wobei sämtliche Textsymbole Gt' a Vq' a R(Vq') in einem Komplex S'S' der den Inhalten N' a N'N' zugeordneten Sätze S' a N' a N'N' einfach Verwendung finden. Eine Übertragung T' wird als Permutation von diesen Textsymbolen Gt' a S'S' zugeordneten Textabschnitten T' a Gt' erzeugt. Ein Textabschnitt T' a Gt', also auch Ts' a Vt', wird als Permutation der Textabschnitte Tr' a Z' der ein Symbol Gt', also auch Wort Vt' bildenden Zeichen S' a Gt' beziehungsweise Z' a Vt' erzeugt. Als Textabschnitte T' a Gt' werden Normtexte Ta' a Gt' verwendet. Jeder Nachricht TN der Ausgangssprache L wird eine Nachricht T'N' der Zielsprache L' zugeordnet. Bei Beachtung Valenzen­ übergreifender Bedingungen Wt werden einer Nachricht der einen Sprache auch mehrere Nachrichten der anderen Sprache zugeordnet. Es werden korrekten Nachrichten T'N'g zugeordnete Texte T' mit ausreichend hohen Wahrscheinlichkeiten p(T'/N') verwendet. Gegebenenfalls anfallende nicht ausreichend korrekte Nachrichten n(T'N'g) wie auch n(TNg) der Zielsprache L' beziehungsweise Ausgangssprache L werden den Kommunikationspartnern Pa, entsprechend den Vorgaben Vr1 auch den Nutzern, entsprechend gekennzeichnet bekanntgegeben. Nicht ausreichend korrekte Nachrichten n(TNg) der Ausgangssprache L werden unter Anwendung von Verfahrensteil M23 a M2 zu korrekten Nachrichten TNg verbessert, falls entsprechende Vorgaben Vr1 vorliegen.
In einer Ausgestaltung der Erfindung wird Verfahrensteil M23 zur Verbesserung einlaufender Texte T auch als Spezialfall des Verfahrensteils M3 betrachtet und durchgeführt, wobei formal die Übertragung aus einer fehlerhaft gebrauchten Ausgangssprache L in eine Zielsprache L' erfolgt, welche der normgerechten Form dieser Sprache entspricht.
Entsprechend den vorzunehmenden Kommunikationsakten sieht Verfahrensteil M3 gegebenenfalls eine oder mehrere der folgenden Maßnahmen vor: Bei Übertragungen vom Mündlichen ins Schriftliche wird definitionsgemäß die mündliche Version einer von einer Sprachgemeinschaft X1 benutzten Sprache als Ausgangssprache L und deren schriftliche Version als Zielsprache L' behandelt, bei Übertragungen vom Schriftlichen ins Mündliche entsprechend umgekehrt. Bei den genannten Übertragungen aus einer Sprache L in eine Zielsprache L', die über eine Zentralsprache L" abgewickelt werden, wird Teil M3 zweimal für die Übertragungen von L zu L' zu L" angewandt, wobei beim 2. Mal die Anwendung des Teils M31 und eines Teils von M32 entfällt. Bei Übertragungen aus der mündlichen Version L einer durch eine Sprachgemeinschaft X1 benutzten Sprache die mündliche oder schriftliche Version L' einer anderen Sprachgemeinschaft X2 wird die schriftliche Version von X1 als Zentralsprache L" eingesetzt.
In einer aufwandsparenden Ausgestaltung von Verfahrensteil M3 erfolgt die Übertragung von normgerecht als Komplexe Kp = GtGt von Textsymbolen Gt wie Zeichen Z oder natürlichen Wörtern oder auch objektiven Wörtern Vt abgefaßten Texten T der schriftlichen Version L einer einer Sprachgemeinschaft X1 zugeordneten Sprache in die mündliche Version L' dieser Sprache dadurch, daß jedem Textsymbol Gt der Schriftsprache L jeweils ein Textsymbol Gt' der mündlichen Sprache L' zugeordnet wird und der als Übertragung einzusetzende Text T' als Komplex Kp = Ta'Ta' einer Permutation von Normtexten Ta' a Gt' dieser Symbole Gt' gebildet wird.
Die Erfindung sieht in einer weiteren Ausgestaltung vor, das erfindungsgemäße Verfahren M zur Kommunikation in natürlichen Sprachen L mit einer rechnergestützten Einrichtung durchzuführen, welche eine oder mehrere der folgenden, durch eine oder mehrere Stromversorgungsanlagen versorgten, jeweils aus einer oder mehreren Untereinheiten aufgebauten Einheiten umfaßt: Eine gemäß Verfahren M programmierte zentrale Rechnereinheit zur Abwicklung der für die Erstellung von Nachrichten TN, Texten T a TN wie auch weiterer Daten sowie für die Ablauforganisation vorgesehenen Operationen. Eine gemäß den grammatischen Daten Ws programmierte Speichereinheit zur Speicherung der hierfür zu verwendenden Daten Ws der betreffenden Sprachen L, der erzielten Zwischen- und Endergebnisse sowie der einlaufenden, als Evidenz behandelten Daten D einschließlich Texten T und Vorgaben Vr. Eine Einheit zum Empfang einlaufender und zur Ausgabe ausgehender Texte T einschließlich diesen gegebenenfalls zugeordneter Nachrichten TN sowie Textmarkierungen wie gegebenenfalls weiterer Daten D in den hierfür vorgesehenen Kodierungen und Medien, wobei der Datenaustausch auch maschinelle Kommunikationspartner Pa wie gegebenenfalls auch Nutzer mit einschließt. Eine Bedieneinheit zur Festlegung und Überwachung von Betriebszuständen, zur Überwachung von Zwischen- und Endergebnissen, zur Eingabe von Vorgaben Vr, gegebenenfalls auch zur Eingabe wie auch Abänderung von Daten Ws und Verfahrensoperationen M. Diese Einheiten werden durch Datenbusse verbunden, welche den Aufgaben angepaßte Bandbreiten aufweisen. In unterschiedlichen Ausbildungen werden im Speicher auch RAM-Speicher (mit "read only memory" verwendet. Es werden zur Speicherung der grammatischen Daten Ws Speicher mit Einlesevorrichtungen verwendet, welche ein Einlesen wie auch eine Ergänzung wie auch Korrektur der zu verwendenden Daten Ws ermöglicht. Es wird eine Vorrichtung eingesetzt, deren Zentralrechner unter Verwendung von den Daten Ws und Vorgehensweisen des Verfahrens M angepaßten kundenspezifischen integrierten Schaltkreisen aufgebaut sind. Es wird in der Vorrichtung ein entsprechend aus kundenspezifischen Schaltkreisen aufgebauter Speicher verwendet. Es wird eine Vorrichtung eingesetzt, die aus einer, in einer Ausbildung auch stationär aufgebauten, Zentraleinheit, welche den Zentralrechner und den Speicher umfaßt, sowie aus mehreren, auch räumlich getrennt hiervon, in einer weiteren Ausbildung auch mobil angeordneten, jeweils für einen oder mehrere Nutzer verfügbaren Nutzereinheiten besteht, welche jeweils Bedieneinheiten sowie Empfangs- und Ausgabeeinheiten umfassen, wobei die Nutzereinheiten mit der Zentraleinheit durch, gegebenenfalls auch drahtlos auszuführende, Datenbusse verknüpft sind, deren Bandbreiten den bei der Eingabe und Ausgabe von Texten T sowie bei der Bedienung und weiteren Nutzung einschließlich der Übermittlung von Vorgaben Vr anfallenden, vergleichsweise niedrigen Datenraten angepaßt sind. Diese Ausbildung hat den Vorteil, daß eine vergleichsweise aufwendige Zentraleinheit einer größeren Anzahl von Partnern Pa wie auch Nutzern zur Verfügung steht, die jeweils nur eine aufwandsparend zu erstellende Nutzereinheit benötigen.
In einer weiteren Ausbildung werden zum Aufbau der Vorrichtung zur Durchführung des Verfahrens M Parallelrechner verwendet, in welchen für die Erstellung der grammatischen Nachrichten TN zu verwendende Symbole Gs durch entsprechend den in den grammatischen Daten Ws hierfür angegebenen Bezügen parallel miteinander zu vernetzende Rechenmodule repräsentiert werden.
Literaturverzeichnis Patent-/Offenlegungsschriften
DE 31 42 540 C2, DE 35 03 233 C2, DE 36 15 972 A1, DE 36 16 011 A1, DE 30 32 664 C2, DE 31 51 106 A1, DE 32 11 313 C2, DE 37 33 391 C2, DE 35 14 286 A1, DE 37 10 507 A1, DE 37 11 348 A1, DE 41 35 261 C1, DE 42 32 482 A1, DE 43 11 211 A1.
Literatur
/ /1/ / Hermann Helbig, Künstliche Intelligenz und automatische Wissensverarbeitung, Technik, Berlin (1991)
/ /2/ / John Lyons, Die Sprache, Beck, München (1992)
/ /3/ / Peter Hadfield, How to make a robot smile, New Scientist, S. 21 (16. Juli 1994)
/ /4/ / John Lyons, Einführung in die moderne Linguistik, Beck, München (1971)
/ /5/ / An instinct for language, New Scientist, S. 28, (25. Juni 1994)
/ /6/ / Steven Pinker, The Language Instinct, Morrow, New York (1994)
/ /7/ / John McCrone, Computers that listen, New Scientist, S. 30 (4. Dez. 1993)
/ /8/ / Klaus Dieter Linsmeier, Eine elektronische Schreibkraft, Frankfurter Allgemeine Zeitung (16. Dez. 1992)
/ /9/ / Jeanne Rubner, Dolmetscher im Taschenformat, Süddeutsche Zeitung, S. IX (3. Dez. 1992)
/ /10/ / Der Spiegel Nr. 49/1993, S. 240
/ /11/ / Michael Cross, World says 'no thanks' to Japanese Computer, New Scientist, S. 7 (6. Juni 1992)
/ /12/ / Edward O. Wilson, Sociobiology, Cambridge, Mass. und London (1975)
/ /13/ / Helmar Frank, Kybernetische Grundlagen der Pädagogik, Agis, Baden-Baden (1969)
/ /14/ / Terry Winograd, Fernando Flores, On "Understanding Computers and Cognition": A New Foundation for Design, Artificial Intelligence, Vol. 31, S. 250 (1987)
/ /15/ / John Haugeland, Artificial Intelligence: The Very Idea, MIT Press (1987)
/ /16/ / Stuart Katz, R. L. Gregory and others, The Wrong Picture of the Picture Theory of Perception, Vol. 12, S. 269 (1983)
/ /17/ / Peter Cheeseman, In Defence of Probability, Proc. of the 9th Internat. Joint Conf. on Artificial Intelligence, Los Angeles, Calif., S. 18 (Aug. 1985)
/ /18/ / Erwin Kreyszig, Statistische Methoden und ihre Anwendung, Vandenhoek und Ruprecht, Göttingen (1979)
/ /19/ / Dieter Zimmer, Payment may be made - Bezahlung kann sein gemacht, Die Zeit, Nr. 15 (5. April 1996)
/ /20/ / New Scientist, S. 53 (22. Okt. 1987)
/ /21/ / Hans Joachim Störig, Abenteuer Sprache, Humboldt (1992)
/ /22/ / Robert Matthews, Hard Maths? No Problem, New Scientist, S. 40 (28. Okt. 1995)
/ /23/ / G. Edward Barton, Robert C. Berwick, Eric Sven Ristad, Computational Complexity and Natural Language, MIT Press, Cambridge, Mass. (1987)
/ /24/ / Hadumod Bußmann, Lexikon der Sprachwissenschaft, Kröner, Stuttgart (1990)
/ /25/ / Wolfgang Wahlster, Verbmobil: Erkennung, Analyse, Transfer, Generierung und Synthese von Spontansprache, Spektrum der Wissenschaft, Dossier 4/97, S. 52 (1997)
/ /26/ / Frederic Bodmer, Die Sprachen der Welt, Parkland (1997)
/ /27/ / Peter Eisenmann, Grundriß der deutschen Grammatik, Band 1: Das Wort, Metzler, Stuttgart, Weimar (1998)

Claims (41)

1. Verfahren zu einer auf grammatische Inhalte bezogenen, rechnergestützten Kommunikation in einer oder mehreren natürlichen Sprachen, bei dem
  • 1. 1.1 die Kommunikation zwischen Kommunikationspartnern (Pa) unter Beachtung von von Nutzern eingebrachten Vorgaben (Vr) nach dem Verfahren zu einer auf grammatische Inhalte bezogenen Kommunikation (M) mittels Äußerungen durchgeführt wird, die von Autoren (At) aus Sprachsignalen der für die betreffenden natürlichen Sprachen (L) vorgesehenen Medien als Texte (T) mit Texteigenschaften (H(T)) gebildet werden, welche von den Empfängern (Hr) dieser Texte (T) ausgewertet werden, wobei die Texte (T) durch Zuordnung grammatischer Inhalte (N), denen semantische Inhalte (F) zugeordnet werden können, unter Berücksichtigung der Wahrscheinlichkeiten (p(TN)) ihres Auftretens, die auf als Evidenz vorliegende Daten (D) bezogen werden, zu grammatischen Nachrichten (TN) ergänzt werden, wobei diese Nachrichten (TN) als Komplexe (Kp(EmEm)) unter Berücksichtigung der Wahrscheinlichkeiten (p(EmEm)) ihres Auftretens aus Komponenten (Em) zusammengefügt werden, die
  • 2. 1.2 Symbole (Gs) umfassen, die an die Sprachen (L) angepaßt sind und unter Einbeziehung der Wahrscheinlichkeiten (p(Gs)) ihres Auftretens durch grammatische Daten (Ws) beschrieben sind, wobei die Symbole (Gs) jeweils aus zu einer disjunkten Klasse (Kl = Gt) von Textabschnitten (T = Ts) mit innerhalb von Toleranzen (dH) liegenden Texteigenschaften (H(T)) superierten Textsymbolen (Gt = (Ts)) und zu jeweils einer disjunkten Klasse (Kl = Gr) solcher Textsymbole (Gt) superierten grammatischen Symbolen (Gr = (Gt)) gebildet werden, wobei die Symbole (Gr) jeweils ein Repertoire (R(Pr)) von durch Wahrscheinlichkeiten (p) näher bestimmten Möglichkeiten ihrer Anordnungen (Pr) in den grammatischen Nachrichten (TN) vorgeben, die durch Rangordnungen (Ra) und Positionen (P) der Textabschnitte (Ts) der den Symbolen (Gr) zugeordneten Textsymbole (Gt) in Texten (T) festgelegt werden, wobei
  • 3. 1.3 die grammatischen Nachrichten (TN) unter Berücksichtigung von Vorgaben (Vr) und als Evidenz vorliegenden Daten (D) jeweils dadurch erzeugt werden, daß grammatische Symbole (Gr) nach den Möglichkeiten ihrer Anordnungen (Pr) zu einem Hintergrund (E) zusammengefügt werden, der durch eine Permutation von den Symbolen (Gr) zugeordneten Symbolen (Gt) zu einem grammatischen Inhalt (N) ergänzt wird, wobei die Textsymbole (Gt) nach den Anordnungen (Pr) zu einem Satz (S) zusammengefügt werden, und der grammatische Inhalt (N) durch einen in der Kommunikation eingesetzten Text (T), der aus einer Permutation von den Symbolen (Gt) zugeordneten und an durch die Anordnungen (Pr) bestimmten Positionen (P) angeordneten Textabschnitten (Ts) zusammengefügt wird, zur Nachricht (TN) ergänzt wird, wobei
  • 4. 1.4 die Kommunikation mittels Einrichtungen durchgeführt wird, die aus einer oder mehreren, durch Datenbusse verbundenen Einheiten zusammengesetzt sind, welche eine programmierte zentrale Recheneinheit, eine Speichereinheit, eine Schnittstelleneinheit und eine Bedieneinheit umfassen, wobei die für die betreffenden Sprachen (L) verwendeten grammatischen Daten (Ws), die zu berücksichtigenden Vorgaben (Vr) sowie als Evidenz festgestellte Daten (D) und errechnete Zwischen- und Endergebnisse einschließlich Texte (T) und Nachrichten (TN) in der Speichereinheit gespeichert werden und die Übertragung der den Texten (T), Vorgaben (Vr) und Daten (D) entsprechenden Signale sowie für die Texte (T) benutzten Markierungen und weiterer bei der Kommunikation ausgetauschter Signale über die Schnittstelle und einen an die bei der Kommunikation (M) anfallenden Datenraten angepaßten Datenbus erfolgt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Bildung der grammatischen Nachrichten (TN) als Textsymbole (Gt) objektive Wörter (Vt) und als grammatische Symbole (Gr) zu bestimmten disjunkten Klassen (Kl) solcher Wörter (Vt) superierte Einheiten (G) verwendet werden, die dadurch an die betreffenden Sprachen (L) angepaßt sind, daß sie den statistisch bewerteten Ergebnissen von an Texten (T) dieser Sprachen (L) durchzuführenden Beobachtungen bestimmter Invarianzen (I) entsprechen, welche Texte (T) vorgegebener Repertoires (R(T)) bezüglich ihnen zugeordneter semantischer Inhalte (F) aufweisen, von denen eine Invarianz (I1) fordert, daß Texte (T) bezüglich ihnen zugeordneter Inhalte (F) als ausreichend zulässig eingestuft werden, eine weitere Invarianz (I2) fordert, daß Texte (T) Invarianz (I1) genügen und als ausreichend gleich eingestufte Inhalte (F) anzeigen und eine dritte Invarianz (I3) fordert, daß Texte (T) Invarianz (I1) genügen und bestimmte darin vorkommende gleichlautende Texte (T) jeweils als ausreichend gleich eingestufte Inhalte (F) anzeigen.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die grammatischen Nachrichten (TN) unter Verwendung objektiver Wörter (Vt) und Einheiten (G) gebildet werden, die den Ergebnissen von Beobachtungen der Invarianzen (I) bei einer bestimmten Gruppe von Transformationen (Q) an Texten (T) von Repertoires (R(T)) genügen, wonach jeweils ein Text (T = Tb) aus einem Text (Ta) durch Entfernen oder Hinzufügen eines, gemäß einer Bedingung (Ib) kürzestmöglichen, gegebenenfalls auch disjunkt durch weitere Textabschnitte (T) getrennten, an Positionen (P) angeordneten Textabschnitts (Tt) erzeugt wird und dessen Zuordnung als Element (El = Ts) eines objektiven Wortes (Vt = (Ts)), dessen Zuordnung als Element (El) zu einer Einheit (G = (Vt)) sowie die Festlegung des einer Einheit (G) jeweils zugeordneten Repertoires (R(Pr)) von Möglichkeiten ihrer Anordnungen (Pr) aufgrund von gemäß den Transformationen (Q) an bestimmten Paaren von Texten (T) zu beobachtenden Einhaltungen oder Verletzungen einer oder mehrerer der Invarianzen (I) erfolgt, wobei eine Vollständigkeitsbedingung (Ia) nicht verletzt wird, wonach die Ergebnisse der Transformationen (Q) für eine Einheit (G) bei sämtlichen grammatischen Nachrichten (TN) gelten, in denen diese Einheit (G) entsprechend den Möglichkeiten ihrer Anordnung (Pr) vorkommt und aufgrund von Texteigenschaften (H(Ts)) mit Toleranzen (dH) eines Textabschnitts (Ts a Vt a G) im Text (T a TN) nachweisbar ist.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für die bei einer mehrsprachigen Kommunikation vorzunehmende Übertragung von Texten (T) einer Ausgangssprache (L) in, bezüglich diesen zuzuordnender semantischer Inhalte (F) und (F') ausreichend gleichbedeutende, Texte (T') einer durch Vorgaben (Vr) festgelegten Zielsprache (L') als weitere Komponenten (Em), in Datensammlungen (Wst) der Daten (Ws) der Sprache (L) geordnet aufgeführte, Vokabeln (Vqq) verwendet werden, durch welche jeweils einem Symbolkomplex (Vq = GtGt) von Textsymbolen (Gt) der Sprache (L) ein disjunktes Repertoire (R(Vq')) von Symbolkomplexen (Vq' = Gt'Gt') der Sprache (L') mit, unter Beachtung der Anordnungen (Pr) der den Symbolen (Gt) und (Gt') zugeordneten Symbole (Gr) und (Gr') gebildeten, Wahrscheinlichkeiten (p(Vq'/Vq)) zugeordnet wird.
5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß Übertragungen von Texten (T) einer Ausgangssprache (L) in Texte T' einer Zielsprache (L') unter Verwendung von Vokabeln (Vqq) durchgeführt werden, durch welche jeweils einem, in Nachrichten (TN) als Komponente (Em) eingesetzten Komplex (Vq = VtVt) von unter Beachtung ihrer Anordnungen (Pr) zusammengefügten objektiven Wörtern (Vt) der Sprache (L) unter Beachtung der Wahrscheinlichkeiten (p(Vq'/Vq) eine disjunkte Klasse (KL = (Vq')) solcher als Komponenten (Em) in Nachrichten (T'N') eingesetzter Komplexe (Vq') von Wörtern (Vt') der Sprache (L') zugeordnet wird, wobei die Vokabeln (Vqq) den Ergebnissen von, unter Beachtung der Vollständigkeitsbedingung (Ia) und Bedingung (Ib) vorzunehmenden, Beobachtungen der Invarianzen (I) bei einer bestimmten Gruppe von Transformationen (Q) genügen, welche an einem Korpus (C) von Texten (T) und einem Korpus (C') von Texten (T') durchgeführt werden, die jeweils eine oder auch mehrere alternativ zulässige Übersetzungen der Texte (T a C) darstellen, wobei Invarianzen (I) zu beobachten sind, wonach sowohl einem Text (Ta) und seiner Übersetzung (Ta') wie auch dem durch Kürzung um einen einer Vokabel (Vq a Vqq) zuzuordnenden Textteil (Tt a Vq) erzeugten Text (Tb) und durch entsprechende Kürzung von Text (Ta') um einen dieser Vokabel (Vqq) zuzuordnenden Textteil (Tt' a Vq') erzeugten Text (Tb') jeweils als ausreichend gleich beurteilte semantische Inhalte (F = Fa = Fa') und (F = Fb = Fb') zuzuordnen sind.
6. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß als Komponenten (Em) der grammatischen Nachrichten (TN) zu disjunkten Klassen (Kl = Vt)) von objektiven Wörtern (Vt) superierte Einheiten (G) verwendet werden, deren Möglichkeiten der Anordnungen (Pr) in den Nachrichten (TN) durch Valenzen (Um) geregelt werden, welche Beziehungen (Wtu) genügen, wonach für eine Valenz Um11.1 einer Einheit (G11) gemäß einer Beziehung (Wt1) eine einen Referenzwert (pr1) nicht unterschreitende Wahrscheinlichkeit (p((G2v)/G11; P2vz) für eine Komplexbildung von (G11) mit einer Einheit (G2v) aus einer disjunkten Klasse ((G2v)) unter Beachtung der Position (P2vz) gilt, wonach gemäß einer weiteren Beziehung (Wt2) eine Wahrscheinlichkeit (p((Gw)/G11; Pw) unterhalb eines nahe null liegenden Schwellwertes (ps2) für eine Komplexbildung von (G11) mit einer nicht der Klasse ((G2v) angehörigen Einheit (Gw) aus einer disjunkten Klasse ((Gw)) gilt, und wonach gemäß einer weiteren Bedingung (Wt3) eine Wahrscheinlichkeit (p((G2v)/G11; P2vz; G2vG11)) ebenfalls unterhalb des Schwellwertes (ps2) für eine Komplexbildung von (G11) mit einer weiteren Einheit (G2v) über Valenz (Um11.1) gilt, wenn diese bereits durch eine Komplexbildung (G2vG11) mit einer Einheit (G2v) gesättigt ist, wobei gemäß einer zusätzlichen Beziehung (Wt4) eine solche Valenz (Um11.1) als selbständige Valenz (Ums) gilt, falls eine, einen nahe null liegenden Schwellwert (ps4) nicht unterschreitende, Wahrscheinlichkeit (p(n(G2v)/G11)) dafür gilt, daß in einer Nachricht (TN) keine Komplexbildung von (G11) über Valenz (Um11.1) mit einer Einheit (G2v) vorliegt, dagegen als unselbständige Valenz Umn, wenn die Wahrscheinlichkeit hierfür den Schwellwert (ps4) unterschreitet, und wobei Schwellwerte (ps4) so festgelegt werden, daß die in einer Sprache (L) verwendeten grammatischen Symbole (Gr) selbständige Einheiten (G) mit einschließen, welche keine unselbständigen Valenzen (Umn) aufweisen.
7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die grammatischen Nachrichten (TN) unter Verwendung eines an die betreffenden natürlichen Sprachen (L) und die hierfür vorgesehenen Medien angepaßten Repertoires (R1(Gt1)) von jeweils eine disjunkte Klasse (Kl) von Textabschnitten (Ts) umfassenden Textsymbolen (Gt1 = (Ts)) aufgebaut werden, welche als Komplexe (Gt11 = ZZ) von, als weitere Textsymbole (Gt2 = Z) eingesetzten, Zeichen (Z) eines Repertoires (R2(Z)) zusammengefügt werden, die jeweils so als disjunkte Klassen (Z == (Tr)) von, einem Zeichen (Z) mit ausreichend hohen Wahrscheinlichkeiten (p(Tr/Z)) zugeordneten, einem Komplex (Kp) von innerhalb Toleranzen (dH) liegenden Textmerkmalen (H(T)) genügenden Textteilen (Tr) festgelegt werden, daß sie in, auf eine Länge zwischen den durchschnittlichen Längen der Textteile (Ts) und (Tr) normierten, Textabschnitten (Tn) mit ausreichend hohen Informationswerten (h(Z/Tn) g hs) oberhalb eines festzulegenden Schwellwertes (hs) vorkommen, wobei der Text (Ts a Gt1) eines Textsymbols (Gt1) als Komplex (Kp) einer Permutation von den Zeichen (Z a Gt1) dieses Symbols (Gt1) unter Beachtung ihrer Positionen (P) zugeordneten Textabschnitten (Tr a Z) gebildet und ein Repertoire (R2(Z)) von Zeichen (Z) für eine oder mehrere Sprachen (L) eingesetzt wird, und wobei als Merkmale H(T) Teile von Textsignalen (T) wie auch hieraus ableitbare Merkmale unter Beachtung von Elementen der Prosodie wie auch von Hinweisen auf Schrifttextabwandlungen, Abgrenzungen, Abstände, Zusammenziehungen, Interpunktionen wie auch der Groß- und Kleinschreibung berücksichtigt werden.
8. Verfahren nach einem oder mehreren der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Kommunikation mittels ausgehender Texte (T) durchgeführt wird, welche zu grammatisch korrekten Nachrichten (TN = TNg) ergänzt werden, die einer Bedingung (Bs) genügen, wonach jeder der zu einer korrekten Nachricht (TNg) zusammengefügten Komponenten (Em) eine ausreichend hohe, gegebenenfalls auch durch weitere Komponenten (Em) dieser Nachricht (TNg) bedingte Wahrscheinlichkeit (p(Em)) oberhalb eines bestimmten, den Gegebenheiten des betreffenden Kommunikationsaktes angepaßten Schwellwertes (ps) zukommt.
9. Verfahren nach einem oder mehreren der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die unter Beachtung der Wahrscheinlichkeit (p(TN)) vorzunehmende Komplexbildung von grammatischen Nachrichten (TN) aus Komponenten (Em), welche gemäß, als Evidenz vorliegenden, Daten (D) durch Adressen (Ad) wie auch Vorgaben (Vr) mit ausreichend hohen Wahrscheinlichkeiten (p(Em)) oberhalb Schwellwerten (ps) in Form disjunkter Repertoires (R(Em)) angezeigt werden, unter Berücksichtigung hierfür in den Daten (Ws) vorliegender Wahrscheinlichkeiten t(Em)) gemäß dem Bayesschen Ansatz (Ba) durchgeführt wird, wonach die in den zu durchlaufenden Superierungsstufen anfallenden disjunkten Komplexe (Kp = EmEm) als jeweils einer disjunkten Klasse (Kl = (Ks)) zugeordnete Konkurrenzhypothesen (Ks) entsprechend ihren, auf die Daten (D) bezogenen, Wahrscheinlichkeiten (p(Ks)) berücksichtigt werden, wobei in den Hypothesen (Ks) berücksichtigte Komponenten (Em) ebenfalls als Adressen (Ad) für weitere, gegebenenfalls auch disjunkt zu verwendende Komponenten (Em) eingesetzt werden.
10. Verfahren nach einem oder mehreren der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß die bei der als Komplexe (Kp) aus Komponenten (Em) zu bildenden Nachrichten (TN), auch als Zwischenergebnisse anfallenden, Konkurrenzhypothesen (Ks a (Ks)) entsprechend Wahrscheinlichkeiten (p(Ks)) berücksichtigt werden, welche unter Anwendung nichtlinearer Verarbeitungsprozesse (Bb) ermittelt werden, wonach Komponenten (Em) mit Wahrscheinlichkeiten (p(Em)) unterhalb festzulegender Schwellwerte (ps) sowie aus weiteren Komponenten (Em) gebildete Komplexe (Kp) mit Wahrscheinlichkeiten (p(Kp)) unterhalb weiterer Schwellwerte (ps) vernachlässigt werden und die Wahrscheinlichkeitssummen (Ca) für die nicht vernachlässigten Konkurrenzhypothesen (Ks) ihrer disjunkten Klasse ((Ks)) berücksichtigt werden.
11. Verfahren nach einem oder mehreren der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß für jeweils eine disjunkte Klasse ((Ks)) von Konkurrenzhypothesen (Ks) ein Schwellwert (ps1) auf einen bestimmten, der Leistungsfähigkeit der verfügbaren Vorrichtungen angepaßten Bruchteil unterhalb der höchsten in der betreffenden Klasse ((Ks)) anfallenden Wahrscheinlichkeit (p(Ks)) festgelegt wird, wobei ein bestimmter, an die Gegebenheiten der betreffenden Sprachen (L) angepaßter Mindestwert (ps2) nicht unterschritten wird.
12. Verfahren nach einem oder mehreren der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß die Komplexbildung von Konkurrenzhypothesen (Ks) aus Komponenten (Em) in mehreren Zyklen erfolgt, wonach für einen ersten Zyklus festgelegte Schwellwerte (ps1) für die Wahrscheinlichkeiten (p(Ks)) wie gemäß Bedingung (Bs) festgelegte Schwellwerte (ps = ps1) für die Wahrscheinlichkeiten (p(Em) in Stufen so oft bis hinab zu Minimalwerten (ps2) abgesenkt werden, bis, gegebenenfalls auch unter Berücksichtigung von in vorangegangenen Zyklen zunächst vernachlässigten Zwischenergebnissen (Ks) beziehungsweise Komponenten (Em), gegebenenfalls eine Hypothese (Ks) als Endergebnis erzielt wird, deren Komponenten (Em) Wahrscheinlichkeiten (p(Em)) oberhalb der Minimalwerte (ps2) zukommen.
13. Verfahren nach einem oder mehreren der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß die grammatischen Nachrichten (TN) aus disjunkten Repertoires (R(Em)) zugeordneten Komponenten (Em) gebildet werden, welche gemäß Daten (Ws) mit, die Anordnungen (Pr) berücksichtigenden, Wahrscheinlichkeiten (p(Em/Ad; Pr)) oberhalb festzulegender Schwellwerte (ps) durch jeweils eine oder mehrere Adressen (Ad) angezeigt werden, die in vorliegenden Daten (D) einschließlich Vorgaben (Vr) anzutreffen sind oder mit ausreichend hohen Wahrscheinlichkeiten (p(Ad/D)) oberhalb von Schwellwerten (ps) angezeigt werden, wobei zur Anzeige von als Komponenten (Em) einzusetzenden Symbolen (Gs1), welche klassenbildende Superierungen (Gs1 = (Gs2)) oder komplexbildende Superierungen (Gs1 = Gs2Gs2) von Symbolen (Gs2) einer niedrigeren Superierungshierarchie darstellen, Elemente (El = Gs2) beziehungsweise Komponenten (Em = Gs2) wie auch aus solchen Komponenten (Em) gebildete Komplexe (Kp = Gs2Gs2) als Adressen (Ad) verwendet werden, und wobei Daten (Ws) eingesetzt werden, in denen die Symbole (Gs1) einer Superierungshierarchie jeweils in einer Liste (Wsi) geordnet nach einem alphabetisch geordneten Repertoire (R(Ad)) der ihnen zugeordneten Adressen (Ad) aufgeführt sind.
14. Verfahren nach einem oder mehreren der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß die Nachrichten (TN) unter Beachtung von Daten (Ws) gebildet werden, in denen die Symbole (Gs1) jeweils einer Superierungshierarchie geordnet nach Adressen (Ad) in mehreren Listen (Wsi) aufgeführt sind, welche sich durch die Bereiche der von ihnen abgedeckten Wahrscheinlichkeiten (p(Gs1/Ad)) voneinander unterscheiden, wobei die Listen (Wsi) für die Auswahl der aufgrund vorliegender Adressen (Ad) in den Konkurrenzhypothesen (Ks) zu berücksichtigenden Symbole (Gs1) in einer Reihenfolge nach fallenden Wahrscheinlichkeiten (p(Gs1/Ad)) herangezogen werden.
15. Verfahren nach einem oder mehreren der Ansprüche 1 bis 14, dadurch gekennzeichnet, daß als Komponenten (Em = Gt) grammatischer Nachrichten (TN) als Komplexe (Kp) von Zeichen (Z) eines Repertoires (R1(Z)) gebildete Textsymbole (Gt = ZZa) verwendet werden, die jeweils durch eine oder mehrere als Komplexe (Kp = ZZ1) von Zeichen (Z a ZZa) gebildete Adressen (Ad) angezeigt werden, wobei Möglichkeiten dafür, daß solche Symbole (Gt) in einlaufenden Texten (T) durch von ihren Norm- Zeichenkomplexen (ZZa) abweichende Komplexe (ZZb) repräsentiert werden, dadurch berücksichtigt werden, daß den Erzeugungsregeln (Gte) für die jeweils disjunkt einem oder gegebenenfalls nicht disjunkt auch mehreren Symbolen (Gt) mit Wahrscheinlichkeiten (p/(Z/Gt; P)) an Positionen (P) mit Toleranzen (dP) zuzuordnenden Zeichen (Z) Fehlergeneratoren (Gf) beigeordnet werden, welche mit an die betreffenden Kommunikationsakte angepaßten Wahrscheinlichkeiten (p(Z/Gf; P)) stochastisch an Positionen (P) gemäß den Regeln (Gte) erwartete Zeichen (Z) entfernen oder diese durch andere Zeichen (Z) ersetzen oder auch weitere Zeichen (Z) einfügen, wodurch die im Bayesschen Ansatz (Ba) zu berücksichtigenden Wahrscheinlichkeiten (p(ZZ/Gt; P)) von den Erzeugungsregeln (Gte) entsprechenden Werten (p(ZZa/Gt; P)) auf realistische, den Zeichenkomplexen (ZZ) der einlaufenden Texte (T) entsprechende, im Ansatz (Ba) zu verwendende Werte (p(ZZb/Gt; P)) abgewandelt werden.
16. Verfahren nach einem oder mehreren der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß in Ansatz (Ba) Wahrscheinlichkeiten (p(ZZb/Gt; P) = 1 - pa) für die Zuordnung von vorliegenden, gegebenenfalls auch von Normkomplexen (Gt = ZZa) abweichenden Zeichenkomplexen (ZZb) eingesetzt werden, worin (pa) als Produkt der Wahrscheinlichkeiten (p(Z)) dafür gebildet wird, daß an Positionen (P) anzutreffende Zeichen (Z a ZZb) zufällig vorliegen.
17. Verfahren nach einem oder mehreren der Ansprüche 1 bis 16, dadurch gekennzeichnet, daß die bei der Kommunikation einzusetzenden grammatischen Nachrichten (TN) aus Komponenten (Em) und Komplexen (Kp) hiervon gebildet werden, deren quantitativ zu berücksichtigende Eigenschaften (H(Em)) einschließlich Wahrscheinlichkeiten (p), Informationen (j), Informationswerten (h), Texteigenschaften (H(T)) und Abständen (a) der Positionsangaben (P = P(a)) sowie die hierfür festzulegenden Toleranzen, Schwellwerte und Referenzwerte so den Gegebenheiten der betreffenden Sprachen (L), der durchzuführenden Kommunikationsakte und daran beteiligten Kommunikationspartner (Pa) sowie der verfügbaren Vorrichtungen angepaßt werden, daß die Kommunikationsakte mit vertretbarem Aufwand, akzeptablen Fehlerraten und in vertretbaren Bearbeitungszeiten durchführbar werden.
18. Verfahren nach einem oder mehreren der Ansprüche 1 bis 17, dadurch gekennzeichnet, daß die Erzeugung der den grammatischen Nachrichten (TN) zugeordneten Inhalte (N) aus durch die Daten (Ws) beschriebenen Symbolen (Gs) unter Verwendung eines Repertoires R(Z) von Zeichen (Z) durchgeführt wird, welches Operatoren (o) umfaßt, welche in den Nachrichten (TN) bestimmte Abänderungen an bestimmten, ihnen gemäß ihren Positionen (P) zugeordneten Zeichen (Z) und deren Textabschnitten (Tr a Z) bewirken, wobei bestimmte Operatoren (o) entsprechend den Gegebenheiten der betreffenden Sprachen (L) in den Nachrichten (TN) ebenfalls abgeändert werden und gegebenenfalls auch verschwinden.
19. Verfahren nach einem oder mehreren der Ansprüche 1 bis 18, dadurch gekennzeichnet, daß die grammatischen Nachrichten (TN) unter Verwendung von Textsymbolen (Gt) erzeugt werden, die als Klassen (Kl = Gt = ZZa) von Norm-Zeichenkomplexen (ZZa) von Zeichen (Z) gebildet werden, deren Merkmale H(T) mit Toleranzen (dT) den Schreib- beziehungsweise Sprachgewohnheiten der als Nutzer des Verfahrens (M) auftretenden Autoren (At) unter Berücksichtigung von, von diesen Autoren (At) zu gegebenen Sätzen (S) grammatischer Nachrichten (TN) verfaßten, Texten (T) angepaßt werden.
20. Verfahren nach einem oder mehreren der Ansprüche 1 bis 19, dadurch gekennzeichnet, daß die durch das Vorliegen eines durch Superierung von Symbolen Gs2 gebildeten Symbols Gs1 bedingten Wahrscheinlichkeiten (p(Gs2/Gs1)) für das Vorliegen dieser Symbole (Gs2) nach dem Prinzip maximaler Entropie festgelegt werden.
21. Verfahren nach einem oder mehreren der Ansprüche 1 bis 20, dadurch gekennzeichnet, daß in Anpassung an die betreffenden Sprachen (L) die grammatischen Inhalte (N) unter Verwendung von den Daten (Ws) zugeordneten Einheiten (G = G2 = (Vt2)) zusammengefügt werden, welche als komplexbildende Superierungen (G2 = g1g1) von Teileinheiten (g1 = (vt1)) formuliert und deren objektive Wörter (Vt2 a G2) als Permutationen Vt2 = vt1vt1 von den Teileinheiten g1 zugeordneten, gegebenenfalls in den Nachrichten (TN) auch diskontinuierlich angeordneten Teilwörtern (vt1 a g1) gebildet werden, wobei als Teileinheiten (g1) entsprechend den Gegebenheiten der Sprachen (L) auch in den Daten (Ws) angeführte Einheiten (G1) Verwendung finden, und bei deren Komplexbildungen zu Einheiten (G2) die Valenzen (Um) dieser Einheiten (G1) einschließlich deren durch die Komplexbildung zu (G2) bedingter Sättigung berücksichtigt werden.
22. Verfahren nach einem oder mehreren der Ansprüche 1 bis 21, dadurch gekennzeichnet, daß als Komponenten (Em) der grammatischen Nachrichten (TN) Idiome verwendet werden, bei denen die Gegebenheiten der Sprachen (L) dadurch berücksichtigt werden, daß häufig mit Wahrscheinlichkeiten (p) oberhalb von Schwellwerten (ps) in grammatischen Inhalten (N) auftretende Komplexe (Vt1Vt1) von objektiven Wörtern (Vt1 a Gt1) unter Berücksichtigung der Valenzen (Um) der zugehörigen Einheiten (G1) als eigene Textsymbole (Vt1Vt1 = (Vt2 a G2)) jeweils einer eigenen Einheit (G2) eingesetzt werden.
23. Verfahren nach einem oder mehreren der Ansprüche 1 bis 22, dadurch gekennzeichnet, daß die Kommunikation in Schriftsprachen (L) mit Texten (T) durchgeführt wird, deren Rechtschreibregeln unter Beachtung ihrer den Transformationen (Q) entsprechenden Aufteilung in, Einheiten (G) zuordenbaren, objektiven Wörtern (Vt) unter Berücksichtigung von Idiomen reformiert werden.
24. Verfahren nach einem oder mehreren der Ansprüche 1 bis 23, dadurch gekennzeichnet, daß in vorliegenden Daten (D) anzutreffende Zeichenkomplexe ZZ1, welche eine Flexionsform oder auch einen Wortstamm eines einem objektiven Wort (Vtxy = Vt11) zugeordneten natürlichen Wortes (A1) repräsentieren, als Adresse (Ad) für weitere objektive Wörter (Vtxy) eingesetzt werden, welche weitere Flexionsformen dieses natürlichen Wortes (A1) umfassen.
25. Verfahren nach einem oder mehreren der Ansprüche 1 bis 24, dadurch gekennzeichnet, daß die in der Rolle eines Autors (At) vorzunehmende Übermittlung eines einer grammatischen Nachricht (TN) zuordenbaren Textes (T) an Kommunikationspartner (Pa) gemäß einem Verfahrensteil (M1) des Verfahrens (M) durchgeführt wird, wonach in einem Verfahrensteil (M11) von (M1) beim betreffenden Kommunikationsakt anfallende Daten (D) einschließlich Vorgaben (Vr) aufgenommen und gespeichert und hierdurch, gegebenenfalls auch über Adressen (Ad) angezeigte Komponenten (Em) zu entsprechend zu berücksichtigenden Repertoires R(Em) von Komponenten (Em) mit Entnahmebedingungen (Ve) zusammengestellt und gespeichert werden, welche in einem Verfahrensteil (M12) von (M1) unter Beachtung der Daten (Ws) zu einem disjunkten Repertoire (R(Kpx)) von Komplexen (Kpx = TN,TN) von jeweils einer oder mehreren, als Konkurrenzhypothesen (Ks) behandelten grammatischen Nachrichten (TN) zusammengefügt werden, von denen ein einem mit ausreichender Wahrscheinlichkeit (p(Kp1)) gebildeten Komplex (Kp1 a R(Kpx)) zugeordneter Text (T a Kp1), bei entsprechenden Vorgaben (Vr) auch mehrere, entsprechend als disjunkt markierte Texte (T a Kpx), in dem hierfür vorgesehenen Medium an die Kommunikationspartner (Pa) ausgegeben werden.
26. Verfahren nach einem oder mehreren der Ansprüche 1 bis 25, dadurch gekennzeichnet, daß gemäß Verfahrensteil (M1) von (M) als Konkurrenzhypothesen (Ks) erzeugte grammatische Nachrichten (TN) mit ihren Wahrscheinlichkeiten (p(Ks)) entsprechend vorliegenden Vorgaben (Vr) den Nutzern des Verfahrens (M) angezeigt werden.
27. Verfahren nach einem oder mehreren der Ansprüche 1 bis 26, dadurch gekennzeichnet, daß die in der Rolle des Empfängers (Hr) vorzunehmende Ergänzung eines einlaufenden Textes (T) zu einem Komplex (Kp1 = TN,TN) einer oder mehrerer grammatischer Nachrichten (TN) gemäß einem Verfahrensteil (M2) des Verfahrens (M) durchgeführt wird, wonach in einem unter Anwendung des Verfahrensteils (M11) von (M1) durchzuführenden Verfahrensteil (M21) von (M2) die beim Kommunikationsakt anfallenden Daten (D) einschließlich des einlaufenden Textes (T) sowie der Vorgaben (Vr) aufgenommen und gespeichert und durch die zu identifizierenden Adressen (Ad) angezeigte Repertoires (R(Em)) von zu berücksichtigenden Komponenten (Em) mit Entnahmebedingungen (Ve) festgelegt werden, und wonach in einem unter Anwendung des Verfahrensteils (M12) von (M1) durchzuführenden Verfahrensteil (M22) von (M2) aus diesen Komponenten (Em) unter Beachtung der Wahrscheinlichkeiten (p(Ks)) ein disjunktes Repertoires (R(Kpx)) von, als Konkurrenzhypothesen (Ks) zu behandelnden, Komplexen (Kpx = TN,TN) jeweils einer oder mehrerer grammatischer Nachrichten (TN) mit grammatischen Inhalten (N) gebildet wird, wobei Textmerkmale (H(T)) und Symbole (Gs) einer niedrigeren Superierungshierarchie wie auch hieraus gebildete Komplexe (Kp) als Adressen (Ad) für, als weitere Komponenten (Em) zu berücksichtigende, Symbole (Gs) der jeweils nächsthöheren Superierungshierarchie eingesetzt werden, denen sie angehören können, und wobei eine oder bei entsprechenden Vorgaben (Vr) auch mehrere, entsprechend als disjunkt markierte, mit ausreichender Wahrscheinlichkeit (p(Ks)) gebildete Konkurrenzhypothesen (Ks) einer durch die Vorgaben (Vr) festgelegten weiteren Verwendung zugeführt werden.
28. Verfahren nach einem oder mehreren der Ansprüche 1 bis 27, dadurch gekennzeichnet, daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung von als Komplexe (Kp = ZZ1) von Zeichen (Z) gebildeten Textsymbolen (Gt = Gt1) einschließlich objektiver Wörter (Vt) und Teilwörter (vt) zu gegebenenfalls auch fortlaufend geäußerten einlaufenden Texten (T) unter Berücksichtigung von Textabschnitten (T1 a T) erfolgt, deren Mindestumfang dadurch festgelegt wird, daß die Menge der durch (T1) jeweils angezeigten Zeichen (Z) einschließlich der die betreffenden Textsymbole (Gt1) anzeigenden Adressen (Ad) den Umfang der gemäß den Daten (Ws) solchen Symbolen (Gt1) zuzuordnenden Komplexe (ZZ1) übertrifft.
29. Verfahren nach einem oder mehreren der Ansprüche 1 bis 28, dadurch gekennzeichnet, daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung grammatischer Nachrichten (TN) zu gegebenenfalls auch fortlaufend geäußerten einlaufenden Texten (T) unter Berücksichtigung von Textabschnitten (T3 a T) erfolgt, deren Mindestumfang dadurch festgelegt wird, daß sich in den Texten (T3) mindestens 2 Adressen (Ad) identifizieren lassen, durch welche nicht disjunkt 2 objektive Wörter (Vt a G) mit zugehörigen Einheiten (G) angezeigt werden, welche als selbständige Einheiten (G) einsetzbar sind.
30. Verfahren nach einem oder mehreren der Ansprüche 1 bis 29, dadurch gekennzeichnet, daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung grammatischer Nachrichten (TN) zu gegebenenfalls fehlerhaft, nicht ausreichend normgerecht oder auch unter Verwendung von gemäß Vorgaben (Vr) nicht akzeptablen Repertoires (R(Z)) von Zeichen (Z) abgefaßten einlaufenden Texten (T) gemäß Vorgaben (Vr) unter zusätzlicher Anwendung eines Verfahrensteils (M23) von (M2) durchgeführt wird, wonach ein solcher Text (T) dadurch in einen akzeptablen Text (T2) verbessert wird, daß im Text (T) Adressen (Ad) identifiziert werden, welche, gegebenenfalls auch mit geringen Wahrscheinlichkeiten (p(Em/Ad)), Repertoires (R(Em)) von Komponenten (Em) anzeigen, aus welchen gemäß Verfahrensteil (M22) ein Komplex (Kpx = TN,TN) von einer oder mehreren grammatisch korrekten Nachrichten (TNg) mit zugeordneten korrekten Inhalten (N = Ng) gebildet wird, welche durch Permutationen von den Einheiten (G a N) zugeordneten objektiven Wörtern (Vt a G) und diesen zugeordneten normgerechten Textabschnitten (Ts a Vt) zu normgerechten Nachrichten (T2Ng) ergänzt werden, durch deren Texte (T2) die gegebenen Texte (T) ersetzt werden.
31. Verfahren nach einem oder mehreren der Ansprüche 1 bis 30, dadurch gekennzeichnet, daß die gemäß Verfahrensteil (M23) vorzunehmende Verbesserung einlaufender Texte (T) dadurch erfolgt, daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung grammatischer Nachrichten (TN) zu einlaufenden Texten (T), welche Textabschnitte (Ts1) aufweisen, die jeweils als Abschnitte (Ts1 a Gt1 a Gr1) einem Textsymbol (Gt1 a Gr1) eines grammatischen Symbols (Gr1) zuordenbar sind, welche eine, bezüglich eines dem Text (T) zuzuordnenden grammatischen Inhalts (N), fehlerhafte Flexionsform eines natürlichen Wortes repräsentieren und die Bildung einer grammatisch korrekten Nachricht (TNg) nicht zulassen, dadurch durchgeführt wird, daß solche Symbole (Gt1) unter Beachtung entsprechend formulierter, den Daten (Ws) zugeordneter Listen (Wsi) als Adressen (Ad) für jeweils eine disjunkte Klasse (Kl1 = (Gt2 a Gr2)) von Symbolen (Gt2 a Gr2) eingesetzt werden, welche die weiteren Flexionsformen des jeweils durch (Gt1 a Gr1) vertretenen natürlichen Wortes entsprechend dessen Wortstamm repräsentieren, und unter Verwendung eines Symbols (Gt2 a Gr2 a Kl1) eine einer weiteren Verwendung zuzuführende grammatisch korrekte Nachricht (TNg) mit einem Text (T2 a TNg) gebildet wird, der sich dadurch von Text (T) unterscheidet, daß Textabschnitt (Ts1 a Gt1) durch einen Textabschnitt (Ts2 a Gt2) ersetzt wird.
32. Verfahren nach einem oder mehreren der Ansprüche 1 bis 31, dadurch gekennzeichnet, daß die Übertragung einlaufender Texte (T) einer Ausgangssprache (L) in bezüglich zugeordneter semantischer Inhalte (F) beziehungsweise (F') ausreichend gleichbedeutende Texte (T') einer durch Vorgaben (Vr) festgelegten Zielsprache (L') gemäß einem Verfahrensteil (M3) des Verfahrens (M) durchgeführt wird, wonach in einem unter Anwendung des Verfahrensteils (M2) durchzuführenden Verfahrensteil (M31) von (M3) der einlaufende Text (T) aufgenommen, gespeichert und diesem unter Beachtung der Wahrscheinlichkeiten (p(N/T)) ein disjunktes Repertoire (R(TN,TN)) eines oder mehrerer Komplexe (Kp) von grammatischen Nachrichten (TN) mit Sätzen (S a TN) der Ausgangssprache (L) zugeordnet wird, welche gemäß einem Verfahrensteil (M32) von (M3), unter Beachtung der Daten (Wst) von (Ws) und unter Verwendung von Textsymbolen (Gt a S) dieser Sätze (S) als Adressen (Ad), vollständig als Komplexe (S = VqVq) von Vokabeln (Vqq) zugeordneten Symbolkomplexen (Vq = GtGt) mit entsprechend zugeordneten disjunkten Repertoires (R(Vq')) von Komplexen (Vq' = Gt'Gt') von, grammatischen Symbolen (Gr') zugeordneten, Textsymbolen (Gt' a Gr') der Zielsprache (L') dargestellt werden, welche gemäß einem Verfahrensteil (M33) von (M3) unter Anwendung des Verfahrensteils (M1) unter Beachtung der Anordnungen (Pr) und Wahrscheinlichkeiten (p(Vq'/Vq)) und (p(N'/N)) jeweils vollständig zu einem entsprechend disjunkten Repertoire (R(T'N',T'N')) von Nachrichtenkomplexen (T'N',T'N') mit jeweils einem zugeordneten Text (T') der Zielsprache (L') zusammengefügt werden, von denen einer oder je nach Vorgaben (Vr) auch mehrere, entsprechend als disjunkt markierte Texte (T') als Übertragungen des Textes (T) einer durch Vorgaben (Vr) festgelegten weiteren Verwendung zugeführt werden.
33. Verfahren nach einem oder mehreren der Ansprüche 1 bis 32, dadurch gekennzeichnet, daß Übersetzungen zwischen beliebigen natürlichen Sprachen (L a R(L)) und (L' a R(L)) eines Repertoires (R(L)) unter Verwendung einer als Zentralsprache (L") festgelegten Sprache (L" a R(L)) dieses Repertoires durch zweimalige Anwendung des Verfahrensteils (M3) durchgeführt wird, wobei Sprache (L") zunächst als Zielsprache für die Übersetzung aus Sprache (L) und anschließend als Ausgangssprache für die Übersetzung in die Zielsprache (L') benutzt wird.
34. Verfahren nach einem oder mehreren der Ansprüche 1 bis 33, dadurch gekennzeichnet, daß Übertragungen zwischen der mündlichen und schriftlichen Version einer von einer Sprachgemeinschaft (X1) benutzten Sprache gemäß Verfahrensteil (M3) durchgeführt werden, wobei diese Sprachversionen als unterschiedliche natürliche Sprachen (L) und (L') behandelt werden.
35. Verfahren nach einem oder mehreren der Ansprüche 1 bis 34, dadurch gekennzeichnet, daß Übertragungen von Texten (T) der mündlichen Version (L) einer von einer Sprachgemeinschaft (X1) benutzten Sprache in eine von einer anderen Sprachgemeinschaft (X2) benutzte Sprache (L') gemäß Verfahrensteil (M3) unter Zwischenschaltung der von Sprachgemeinschaft (X1) benutzten Schriftsprache als Zentralsprache (L") durchgeführt wird.
36. Verfahren nach einem oder mehreren der Ansprüche 1 bis 35, dadurch gekennzeichnet, daß die gemäß Verfahrensteil (M12) vorzunehmende Komplexbildung von grammatischen Nachrichten (TN) aus Komponenten (Em a R(Em)) von Repertoires (R(Em)) in einer Reihenfolge durchgeführt wird, wonach für eine Konkurrenzhypothese (Ks) zunächst Einheiten (G a R(Em)) zu einem Hintergrund (E) zusammengefügt werden, dessen Aufbau mit einer als Kopf (Gk) verwendbaren selbständigen Einheit (G) begonnen und jeweils mit solchen Einheiten (Gb a R(Em)) fortgeführt wird, die durch die ungesättigten selbständigen Valenzen (Ums) der diesem Hintergrund (E) bereits zugeordneten Einheiten (Ga a R(Em)) adressiert werden, und wonach dieser Hintergrund nachfolgend durch jeweils eine Permutation von objektiven Wörtern (Vt a G a R(Em)) und Textabschnitten (Ts a Vt a R(Em)) zu einem grammatischen Inhalt (N) und zu einer grammatischen Nachricht (TN) ergänzt wird, wobei aus vorliegenden disjunkten Repertoires (R(Em)) jeweils zunächst eine Komponente (Em) eingesetzt wird, für deren Verwendung in der betreffenden Konkurrenzhypothese (Ks) die höchste, gegebenenfalls durch bereits darin eingesetzte Komponenten Em bedingte, Wahrscheinlichkeit (p(Em)) gilt.
37. Verfahren nach einem oder mehreren der Ansprüche 1 bis 36, dadurch gekennzeichnet, daß die gemäß Verfahrensteil (M1) vorzunehmende Erzeugung von Nachrichten (TN) zugeordneten ausgehenden Texten (T) dadurch erfolgt, daß gemäß Verfahrensteil (M12) von Verfahrensteil (M1) erzeugte Texte (T a R(Ks)) eines disjunkten Repertoires (R(Ks)) von Konkurrenzhypothesen (Ks) einer gemäß Verfahrensteil (M2) durchzuführenden grammatischen Analyse unterzogen werden und für die Kommunikation bevorzugt solche Texte (T a R(Ks)) verwendet werden, die sich entsprechend der Zahl der diesen gemäß (M2) mit ausreichend hohen Wahrscheinlichkeiten (p(N/T) g ps) zuordenbaren grammatischen Inhalte (N) als grammatisch ausreichend eindeutig erweisen.
38. Verfahren nach einem oder mehreren der Ansprüche 1 bis 37, dadurch gekennzeichnet, daß in der Kommunikation verwendete Texte (T), denen gemäß vorliegenden Daten (D) und Vorgaben (Vr) durch Verfahren (M) nur grammatische Inhalte (N) mit Wahrscheinlichkeiten p(N/T) zuordenbar sind, welche keine grammatisch korrekten Nachrichten (TNg) ergeben, für die Kommunikationspartner (Pa) wie, bei entsprechenden Vorgaben Vr, auch die Nutzer, als unkorrekte Texte (T) markiert werden.
39. Verfahren nach einem oder mehreren der Ansprüche 1 bis 38, dadurch gekennzeichnet, daß die gemäß vorliegenden Daten (D) und Vorgaben (Vr) als Konkurrenzhypothesen (Ks) erzeugten grammatischen Nachrichten (TN) einer semantischen Analyse zugeführt werden und eine Konkurrenzhypothese (Ks) für die Kommunikation verwendet wird, deren grammatischer Nachricht (TN) hierbei ein mit den Vorgaben (Vr) vereinbarer semantischer Inhalt (F) mit ausreichend hoher Wahrscheinlichkeit (p(F/TN)) zugeordnet wird.
40. Verfahren nach einem oder mehreren der Ansprüche 1 bis 39, dadurch gekennzeichnet, daß die Kommunikation unter Verwendung von, durch Daten (Ws) beschriebenen und miteinander in Bezug gesetzten, Symbolen (Gs) geführt wird, die gemäß einem Verfahrensteil (M4) des Verfahrens (M) erzeugt werden, wonach die Symbole (Gs) durch Anwendung der Transformationen (Q) auf einen Korpus (C2) von Texten (T) der betreffenden Sprachen (L) bestimmt werden, wobei dieser Korpus (C2) die Texte (T) eines vorzugebenden Korpus (C1) sowie weitere hieraus durch Anwendung der Transformationen (Q) auf diese Texte (T a C1) erzeugte Texte (T) umfaßt.
41. Verfahren nach einem oder mehreren der Ansprüche 1 bis 40, dadurch gekennzeichnet, daß die Kommunikation unter Beachtung von Daten (Ws) durchgeführt wird, die einer Erzeugung gemäß einem Verfahrensteil (M41) von (M4) entsprechen, wonach Texten (T) eines den Korpus (C2) einschließenden Korpus (C3) unter Anwendung von Verfahrensteil (M2) unter Beachtung von bereits vorliegenden Daten (Ws1) gemäß Verfahren (M) rechnergestützt grammatische Nachrichten (TN) zugeordnet werden, wobei mittels den Daten (Ws1) nicht zuordenbare Textabschnitte (T) Experten angezeigt werden, welche die Daten (Ws1) dadurch zu Daten (Ws2) erweitern, daß sie unter Beachtung der Transformationen (Q) diese Textabschnitte (T) Einheiten (G) zugeordneten objektiven Wörter (Vt) zuordnen.
DE10015859A 2000-03-30 2000-03-30 Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen Expired - Lifetime DE10015859C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10015859A DE10015859C2 (de) 2000-03-30 2000-03-30 Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10015859A DE10015859C2 (de) 2000-03-30 2000-03-30 Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen

Publications (2)

Publication Number Publication Date
DE10015859A1 DE10015859A1 (de) 2001-10-11
DE10015859C2 true DE10015859C2 (de) 2002-04-04

Family

ID=7636997

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10015859A Expired - Lifetime DE10015859C2 (de) 2000-03-30 2000-03-30 Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen

Country Status (1)

Country Link
DE (1) DE10015859C2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008003572A1 (de) 2008-01-09 2009-10-01 Grunert, Florian Silver Verfahren zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache basierend auf dem Prinzip der von mir entwickelten Farbontologie
DE102008003886A1 (de) 2008-01-10 2009-07-16 Grunert, Florian Silver Verfahren zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache basierend auf dem Prinzip der von mir entwickelten Farbontologie
CN114979794B (zh) * 2022-05-13 2023-11-14 深圳智慧林网络科技有限公司 一种数据发送方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3151106A1 (de) * 1980-12-25 1982-07-08 Casio Computer Co., Ltd., Tokyo Elektronisches lexikon
DE3032664C2 (de) * 1979-08-30 1982-09-09 Sharp K.K., Osaka Elektronisches Sprachübersetzungsgerät.
DE3514286A1 (de) * 1985-04-19 1986-10-23 Siemens AG, 1000 Berlin und 8000 München System zur erkennung einzeln gesprochener woerter
DE3615972A1 (de) * 1985-05-14 1986-11-20 Sharp K.K., Osaka Zweisprachiges uebersetzungssystem mit eigen-intelligenz
DE3616011A1 (de) * 1985-05-14 1986-11-20 Sharp K.K., Osaka Uebersetzungsgeraet
DE3142540C2 (de) * 1980-10-28 1988-02-11 Sharp K.K., Osaka, Jp
DE3211313C2 (de) * 1981-03-27 1988-06-16 At & T Technologies, Inc., New York, N.Y., Us
DE3710507A1 (de) * 1987-03-30 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE3503233C2 (de) * 1985-07-26 1989-09-28 Wladislaus 4000 Duesseldorf De Quasebarth
DE3733391C2 (de) * 1986-10-03 1990-03-29 Ricoh Co., Ltd., Tokio/Tokyo, Jp
DE4135261C1 (de) * 1991-10-25 1993-03-18 International Business Machines Corp., Armonk, N.Y., Us
DE4232482A1 (de) * 1992-09-28 1994-06-01 Siemens Ag Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz
DE4311211A1 (de) * 1993-04-05 1994-10-06 Ibm Computersystem und Verfahren zur automatisierten Analyse eines Textes

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3032664C2 (de) * 1979-08-30 1982-09-09 Sharp K.K., Osaka Elektronisches Sprachübersetzungsgerät.
DE3142540C2 (de) * 1980-10-28 1988-02-11 Sharp K.K., Osaka, Jp
DE3151106A1 (de) * 1980-12-25 1982-07-08 Casio Computer Co., Ltd., Tokyo Elektronisches lexikon
DE3211313C2 (de) * 1981-03-27 1988-06-16 At & T Technologies, Inc., New York, N.Y., Us
DE3514286A1 (de) * 1985-04-19 1986-10-23 Siemens AG, 1000 Berlin und 8000 München System zur erkennung einzeln gesprochener woerter
DE3615972A1 (de) * 1985-05-14 1986-11-20 Sharp K.K., Osaka Zweisprachiges uebersetzungssystem mit eigen-intelligenz
DE3616011A1 (de) * 1985-05-14 1986-11-20 Sharp K.K., Osaka Uebersetzungsgeraet
DE3503233C2 (de) * 1985-07-26 1989-09-28 Wladislaus 4000 Duesseldorf De Quasebarth
DE3733391C2 (de) * 1986-10-03 1990-03-29 Ricoh Co., Ltd., Tokio/Tokyo, Jp
DE3710507A1 (de) * 1987-03-30 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE4135261C1 (de) * 1991-10-25 1993-03-18 International Business Machines Corp., Armonk, N.Y., Us
DE4232482A1 (de) * 1992-09-28 1994-06-01 Siemens Ag Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz
DE4311211A1 (de) * 1993-04-05 1994-10-06 Ibm Computersystem und Verfahren zur automatisierten Analyse eines Textes

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
An instinct for language, New Scientist, S. 28 (25. Juni 1994) *
Der Spiegel Nr. 49/1993, S. 240 *
Hermann Helbig, Künstliche Intelligenz und automatische Wissensverarbeitung, Technik, Berlin (1991) *
Jeanne Rubner, Dolmetscher im Taschenformat, Süddeutsche Zeitung, S. IX (3. Dez. 1992) *
John Lyons, Die Sprache, Beck, München (1992) *
John Lyons, Einführung in die moderne Linguistik, Beck, München (1971) *
John McCrone, Computers that listen, New Scientist, S. 30 (4. Dez. 1993) *
Klaus Dieter Linsmeier, Eine elektronische Schreibkraft, Frankfurter Allgemeine Zeitung (16. Dez. 1992) *
Peter Hadfield, How to make a robot smile, New Scientist, S. 21 (16. Juli 1994) *
Steven Pinker, The Language Instinct, Morrow, New York (1994) *

Also Published As

Publication number Publication date
DE10015859A1 (de) 2001-10-11

Similar Documents

Publication Publication Date Title
Ellis Constructions, chunking, and connectionism: The emergence of second language structure
Frank et al. How hierarchical is language use?
Fischer Conversation, construction grammar, and cognition
Bock Language production: Methods and methodologies
Sampson et al. Corpus linguistics: Readings in a widening discipline
Daiute Psycholinguistic foundations of the writing process
De Bot Simultaneous interpreting as language production
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
Clark Grammar in the curriculum for English: What next?
Sukying Word knowledge through morphological awareness in EFL learners.
Das et al. A novel system for generating simple sentences from complex and compound sentences
Diebold A survey of psycholinguistic research: 1954–1964
Kerr Dynamic equivalence and its daughters: placing bible translation theories in their historical context
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora
Qu et al. Orthographic effects in Mandarin spoken language production
van Heuven et al. Analysis and synthesis of speech: strategic research towards high-quality text-to-speech generation
Foster et al. A ‘new normal’of code-switching: Covid-19, the Indonesian media and language change
Saunders et al. Towards using prosody to scaffold lexical meaning in robots
DE10015859C2 (de) Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
Waryas Psycholinguistic research in language intervention programming: The pronoun system
Veenstra et al. Keeping it simple: Studying grammatical encoding with lexically reduced item sets
Gregg Written expression disorders
Odeyemi Context and Discourse Intonation in English-Medium Product Advertisements in Nigeria's Broadcast Media.
Ismailia The Analysis of Machine Translation Performance on Translating Informative Text from English into Indonesian

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8330 Complete disclaimer