DE10015859C2 - Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen - Google Patents
Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen SprachenInfo
- Publication number
- DE10015859C2 DE10015859C2 DE10015859A DE10015859A DE10015859C2 DE 10015859 C2 DE10015859 C2 DE 10015859C2 DE 10015859 A DE10015859 A DE 10015859A DE 10015859 A DE10015859 A DE 10015859A DE 10015859 C2 DE10015859 C2 DE 10015859C2
- Authority
- DE
- Germany
- Prior art keywords
- text
- texts
- grammatical
- symbols
- assigned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 248
- 230000006854 communication Effects 0.000 title claims description 145
- 238000004891 communication Methods 0.000 title claims description 142
- 230000008569 process Effects 0.000 title claims description 95
- 230000009466 transformation Effects 0.000 claims description 119
- 238000000844 transformation Methods 0.000 claims description 112
- 230000009918 complex formation Effects 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 36
- 238000013519 translation Methods 0.000 claims description 33
- 230000014616 translation Effects 0.000 claims description 33
- 230000001419 dependent effect Effects 0.000 claims description 25
- 230000002860 competitive effect Effects 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 22
- 230000036961 partial effect Effects 0.000 claims description 20
- 238000012546 transfer Methods 0.000 claims description 15
- 238000013459 approach Methods 0.000 claims description 13
- 230000006978 adaptation Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013476 bayesian approach Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 230000002829 reductive effect Effects 0.000 claims description 7
- 238000004904 shortening Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 4
- 230000008602 contraction Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 113
- 238000012549 training Methods 0.000 description 44
- 230000006870 function Effects 0.000 description 38
- 230000015572 biosynthetic process Effects 0.000 description 25
- 239000000470 constituent Substances 0.000 description 25
- 238000005755 formation reaction Methods 0.000 description 24
- 238000004880 explosion Methods 0.000 description 14
- 230000009467 reduction Effects 0.000 description 14
- 229920006395 saturated elastomer Polymers 0.000 description 14
- 241000282414 Homo sapiens Species 0.000 description 13
- 238000009472 formulation Methods 0.000 description 13
- 239000000203 mixture Substances 0.000 description 13
- 229910052771 Terbium Inorganic materials 0.000 description 12
- 230000008901 benefit Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 241000255588 Tephritidae Species 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 241000255925 Diptera Species 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 4
- 230000001427 coherent effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010972 statistical evaluation Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 241000190070 Sarracenia purpurea Species 0.000 description 3
- 230000004523 agglutinating effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006735 deficit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 229910052757 nitrogen Inorganic materials 0.000 description 3
- 229910052698 phosphorus Inorganic materials 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 241000238631 Hexapoda Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241000375392 Tana Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 229940052810 complex b Drugs 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 201000003471 ovarian fetiform teratoma Diseases 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 206010012335 Dependence Diseases 0.000 description 1
- 241001523162 Helle Species 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 229910052777 Praseodymium Inorganic materials 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010668 complexation reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 235000015244 frankfurter Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010297 mechanical methods and process Methods 0.000 description 1
- 230000005226 mechanical processes and functions Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000009738 saturating Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Verfahren zu einer auf grammatische Inhalte bezogenen,
ein- wie auch mehrsprachig zu führenden Kommunikation in natürlichen Sprachen
gemäß Anspruch 1. In Unteransprüchen sind Einzelheiten und Ausgestaltungen
angegeben, welche die Vielfalt der Erscheinungsformen, Kombinations- und dadurch
mitbestimmten Bedeutungsmöglichkeiten der in solchen Sprachen eingeführten
Symbole und hieraus auf unterschiedliche Arten kombinierbaren Äußerungen sowie
der damit zu verbindenden grammatischen und semantischen Inhalte berücksichtigen
und den Einsatz eines daran angepaßten Repertoires von, an einer entsprechenden
Zahl von Sprachbeispielen erläuterten, Maßnahmen vorsehen, die mit neuartigen,
hierfür geeigneten Sprachbegriffen durchzuführen sind, welche einheitlichen, auf
angegebene Art universell auf beliebige Sprachen anzuwendenden Definitionen und
Erzeugungsvorschriften genügen, so daß die mit der Übermittlung grammatischer
Inhalte befaßte Kommunikationsaufgabe mit einem an die Kapazitäten verfügbarer
Rechner anpaßbaren Speicher- und Verarbeitungsaufwand lösbar wird.
Für Verfahren der erfindungsgemäßen Art konnten bisher keine befriedigend
funktionsfähigen Lösungen vorgelegt werden. Wie unten weiter ausgeführt, stehen
einer Realisierung vielfältige, zum Teil bisher auch noch gar nicht ausreichend
erkannte und definierte Probleme entgegen, die vor allem auch der komplexen
Organisation und Funktion der einzusetzenden natürlichen Sprachen zuzuschreiben
sind.
Dem gegenwärtigen Stand entsprechend existieren für die zur Beschreibung solcher
Verfahren benötigten Begriffe, wie auch den Literaturstellen / /1/ /, S. 218 und / /24/ / zu
entnehmen ist, zur Zeit noch keine einheitlichen terminologischen Konventionen, so
daß hier zunächst einige wesentliche der für die nachfolgende Beschreibung des
erfindungsgemäßen Verfahrens benützten, zum Teil auch für eine präzise,
sachgerechte Beurteilung des gegenwärtigen Standes sowie die Beschreibung der zu
lösenden Aufgabe benötigten Begriffe näher zu definieren sind: Unter natürlichen
Sprachen L, kurz auch Sprachen L, werden, Literaturstelle / /2/ /, S. 14 folgend,
Institutionen verstanden, mit deren Hilfe, dem gegenwärtigen Stand entsprechend
natürliche, Personen miteinander kommunizieren und unter Verwendung
gewohnheitsmäßig benutzter Symbole in Interaktion treten, wofür gemäß / /1/ /, S. 235
endliche oder gegebenenfalls auch unbegrenzte Mengen von Symbolkomplexen
eingesetzt werden, die über einem endlichen Vokabular von Symbolen gebildet
werden.
Im Einklang mit dieser Definition umfassen solche Interaktionen gegebenenfalls
auch mehrsprachig zu führende Kommunikationsaktivitäten, wie sie von Menschen
allgemein beim Austausch von Informationen über bestimmte Inhalte ausgeübt
werden und beispielsweise beim Gespräch oder Schriftwechsel etwa bei der
Erteilung und Entgegennahme von Aufträgen, beim Vorbringen und Beantworten
von Fragen, beim Übersetzen, Dolmetschen, Stenotypieren oder auch Korrigieren
von Äußerungen anfallen. Diesen Aktivitäten ist als einheitliches Merkmal
gemeinsam, daß sie sowohl eine Beherrschung des Verstehens gegebenenfalls auch
in zusammenhängender oder auch nicht normgerechter oder fehlerhafter Form
vorgebrachter Äußerungen wie auch des Erzeugens verständlicher, ausreichend
korrekt und eindeutig formulierter Sprachtexte umfaßt, ohne welche gemäß / /4/ /, S.
156 das genannte Verstehen nicht möglich ist. Dem gegenwärtigen Stand
entsprechend legen die zitierten Sprachdefinitionen jedoch nicht im einzelnen fest,
welche Art von Symbolen einzusetzen ist, welche Regeln bei deren
gewohnheitsmäßiger Benutzung und Zusammenfügung zu Komplexen insgesamt
einzuhalten sind und welcher Zusammenhang zwischen solchen Komplexen und den
Interaktionen der Kommunikationspartner besteht.
Es wird zugrunde gelegt, daß in Verfahren zur Kommunikation in natürlichen
Sprachen durch zu verwendende Symbole und Symbolkomplexe bestimmte
Bedeutungen, auch Inhalte genannt, angezeigt, also symbolisiert werden, welche mit
den genannten Interaktionen in Bezug stehen. Wie beispielsweise auch in / /4/ /, S.
410 f. und S. 445 gemäß historischer Tradition, jedoch ohne weiterführende
Definitionen vorgeschlagen wird, werden solche Inhalte unterschieden in
grammatische und semantische, wobei letztere hier auch als pragmatisch oder auch
als Sachverhalte bezeichnet werden. Entsprechend beziehen sich Verfahren der
erfindungsgemäßen Art zu einer auf grammatische Inhalte bezogenen
Kommunikation, kurz auch als grammatische Kommunikation bezeichnet, auf
Kommunikationsaktivitäten der oben genannten Art, die sich auf den Austausch von
grammatischen Inhalten beschränken und sich vorteilhaft den beträchtlichen
Zusatzaufwand für die Übermittlung auch semantischer Inhalte ersparen. Von
solchen grammatischen Verfahren mit entsprechenden Fähigkeiten zum Erzeugen
grammatisch korrekter und eindeutiger Äußerungen und zum Verstehen der
grammatischen Inhalte von, auch fehlerhaft abgefaßten, Texten wird erwartet, daß
mit ihnen eine Anzahl der genannten Kommunikationsaktivitäten durchführbar wird,
welche beispielsweise das Stenotypieren, Korrigieren, Dolmetschen und Übersetzen
gegebener Äußerungen wie auch das Erzeugen von Texten aus vorgegebenen
Wortsammlungen umfassen. Des weiteren werden grammatische Verfahren als
wesentliche Voraussetzung für die Realisierung natürlichsprachiger
Kommunikationsverfahren betrachtet, welche den Austausch semantischer und
pragmatischer Inhalte mit einschließen.
Für Verfahren der erfindungsgemäßen Art einzusetzende Symbole werden allgemein
als Gs bezeichnet, ihre Eigenschaften als H(Gs), wobei zugrunde gelegt wird, daß
sie, häufig auch mit Wahrscheinlichkeiten p unterhalb eins, weitere Begriffe A wie
auch Symbole Gs anzeigen und somit symbolisieren. Die für die Anzeige von
Symbolen und Symbolkomplexen in Anpassung an die betreffenden Sprachen L und
die benützten Übertragungsmedien beispielsweise in akustischer, optischer,
geometrischer oder elektronischer Form erzeugten Sprachsignale werden unabhängig
von ihrer Länge, und somit abweichend von der Definition in / /24/ /, als Texte T
bezeichnet. In der Beschreibung angeführte Beispiele von Texten T werden durch
zwischen einfache Schrägstriche gesetzte Folgen von Buchstaben wie auch weiterer
Zeichen repräsentiert beziehungsweise angenähert; auf Lautschrift-Alphabete und
weitere Notationen wird zur Vereinfachung verzichtet. Wie in / /4/ /, S. 243
vorgeschlagen, werden die schriftliche und mündliche Version der jeweils in einer
Sprachgemeinschaft X benutzten Sprache als unterschiedliche Sprachen L behandelt.
Die als, auch Autoren At genannten, Erzeuger At auszugebenden Texte T und, auch
Hörer Hr genannten, Empfänger und Verarbeiter Hr einlaufender Texte T
miteinander kommunizierenden Personen wie auch erfindungsgemäßen
Einrichtungen werden auch unter der Bezeichnung Partner Pa zusammengefaßt. Wie
oben begründet, wird von Verfahren und Vorrichtungen der erfindungsgemäßen Art
sowohl die Beherrschung der Funktion des Autors At wie auch des Hörers Hr
gefordert. Für schriftliche wie auch mündliche Sprachen L eingeführte Begriffe wie
Wörter, Sätze, Fragen, Befehle, Äußerungen usw. werden zur Unterscheidung von
erfindungsgemäß zu verwendenden Begriffen streng auch als gebräuchliche oder
auch natürliche Wörter, natürliche Sätze usw. bezeichnet. Entsprechend ihrer für die
Texte von Schriftsprachen L wie auch Lautschrift-Notierungen von mündlichen
Sprachen L üblichen Abhebung durch Abstände von weiteren solchen Wörtern
werden die natürlichen Wörter auch als Schriftwörter, gemäß der Auflistung einiger
ihrer Flexionsformen in Lexika auch als lexikalische Wörter bezeichnet. Weitere zur
Darstellung natürlicher Äußerungen eingeführte Begriffe oder Symbole wie Laute,
Buchstaben, Lautschrift-, Silben- oder Wortzeichen gelten entsprechend als
gebräuchliche oder auch natürliche Zeichen usw. Zur Bedeutung weiterer in der
Literatur eingeführter Begriffe wie Phonemen oder Morphemen wird auf / /4/ / und
/ /24/ / verwiesen. Ein in sich abgeschlossener, im Regelfall einen oder mehrere
natürliche Sätze umfassender Text T eines Autors At wird als dessen Äußerung Tp
bezeichnet, ein aus einer oder mehreren Äußerungen Tp eines oder mehrerer Partner
Pa zusammengesetzter Kommunikationsvorgang, wie er beispielsweise im
Gesprächs, bei der Beantwortung von Fragen, im Diktat oder bei Übersetzungen
anfällt, wird Kommunikationsakt genannt. Eindeutige Übertragungen von Texten T
mit Merkmalen H(T) in andere Medien, beispielsweise eines akustisch formulierten
Textes T1 in einen elektronisch kodierten Text T2 mit entsprechend eindeutigen
Zuordnungen ihrer Merkmale H(T1) und H(T2), werden im Regelfall als identische
Texte T1 = T2 behandelt.
In Anlehnung an / /1/ /, S. 219 werden, im einzelnen zu definierende, Bezüge
zwischen Teilen T von Äußerungen Tp auch als syntaktisch oder auch grammatisch
und solche zwischen Textteilen T und zu definierenden grammatischen Inhalten als
grammatisch bezeichnet. Ferner werden bestimmte, gegebenenfalls auch von ihren
grammatischen Inhalten abhängige, Bezüge zwischen Texten oder Textteilen T, oder
auch von grammatischen Inhalten solcher Texte T, zu, ebenfalls zu definierenden,
gegebenenfalls auch durch die Partner Pa bedingten, pragmatischen Inhalten als
semantisch und Bezüge zwischen pragmatischen Inhalten als pragmatisch
bezeichnet, wobei neben der entsprechenden Sprach- und Sachkenntnis der
Kommunikationspartner Pa gegebenenfalls auch ihre Situationen, Meinungen,
Absichten usw. grundsätzlich zu berücksichtigen sind. Daß mit Verfahren der
erfindungsgemäßen Art trotz der vorgesehenen weitgehenden Vernachlässigung
semantischer und pragmatischer Bezüge Kommunikationsaufgaben, wie sie oben
angeführt werden, beherrschbar sein sollten, folgt bereits aus einem einfachen, etwa
mündlich in gebrochenem Deutsch geäußerten Textbeispiel /Ein helles Ton./, das ein
Stenotypist allein aufgrund seiner grammatischen Fähigkeiten, welche ein
Adressieren möglicherweise angesprochener Symbole aus den als Evidenz
vorliegenden Textdaten mit einschließen, in den korrigierten Schrifttext /Ein heller
Ton./ übertragen würde, ohne berücksichtigen zu müssen, ob semantisch ein Element
der Musik oder ein Töpferwerkstoff gemeint ist.
Daß ein Verfahren der erfindungsgemäßen Art entsprechend den hiervon erwarteten
eingangs genannten Fähigkeiten sowohl die Beherrschung des Erzeugens von Texten
T als auch der Bestimmung und des Verstehens ihrer grammatischen Bedeutungen zu
leisten hat, folgt auch aus der oben zitierten Erkenntnis, daß Hörer Hr ihrer Aufgabe
des Verstehens von grammatischen Inhalten von Texten T ihrer
Kommunikationspartner Pa nur nachzukommen vermögen, wenn sie dabei auf das
für die Erzeugung dieser Texte verwendete Regelwerk zurückgreifen können,
während umgekehrt Autoren At die Verständlichkeit ihrer Texte, auch unter
Vermeidung irreführender Mehrdeutigkeiten, nur sichern können, wenn sie die
Vorgehensweise der Hörer Hr beim Verstehen kennen und berücksichtigen.
Selbstverständlich werden beide Fähigkeiten auch für die bei den erfindungsgemäß
eingeschlossenen mehrsprachigen Kommunikationsakten anfallenden Übersetzungs-,
Dolmetsch- und Stenotypieraufgaben benötigt. Abhängig von den gegebenen
Unterschieden und Vorgaben werden unterschiedliche Dialekte hierbei einer oder
mehreren Sprachen L zugeordnet. Die Erfindung bezieht sich insbesondere auf
solche natürliche Sprachen L, für welche Personen existieren, die darin zu
kommunizieren vermögen. Zu diesen, vereinfachend auch als lebende Sprachen L
bezeichneten Kommunikationsmitteln gehören also beispielsweise neben
Schriftsprachen wie Deutsch auch Altgriechisch; entsprechendes gilt für mündliche
Sprachen L.
Personen, welche die Kommunikation in den hierfür eingesetzten Sprachen L unter
Beachtung grammatischer und semantischer Inhalte ausreichend beherrschen,
werden Experten genannt. Ein Text T, der hinsichtlich eines ihm zugesprochenen
semantischen Inhalts, auch wenn er als Äußerung Tp für sich allein steht, von
Experten für ausreichend zulässig erklärt wird, wird auch als korrekter Text T = Tf
bezeichnet.
Sprachen L, deren Texten T, gemäß / /2/ /, S. 96 und S. 124 und / /24/ /, S. 765 als
Syntagmen bezeichnete, Komplexe bestimmter, jeweils zu definierender Symbole
zuordenbar sind, welche entlang einer Dimension angeordnet sind, bei mündlichen
Texten T also entlang der Zeitachse und bei schriftlichen der Schreibrichtung,
werden im folgenden als seriell oder auch linear bezeichnet, wobei erfindungsgemäß
auch eine diskontinuierliche / /24/ /, durch weitere Symbole oder Teile hiervon
unterbrochene lineare Anordnung nicht ausgeschlossen wird. Beispielsweise
genügen die lexikalischen Wörter und Interpunktionen deutscher Schrifttexte einer
seriellen Anordnung. Neben solchen seriellen Sprachen L werden zu natürlichen
Sprachen L entsprechend der in der Semiotik eingeführten Terminologie gemäß / /1/ /,
S. 219 auch anders strukturierte Kommunikationsformen gerechnet, wie sie
beispielsweise von der menschlichen wie auch tierischen Kommunikation mittels
Gebärden / /12/ /, S. 556, dem menschlichen Mienenspiel / /3/ / und allgemein von der
Kommunikation mittels sinnlich wahrnehmbarer Signalkomplexe wie beispielsweise
Bildern her bekannt sind. Erfindungsgemäß werden neben den genannten seriellen
Sprachen L auch mehrdimensional zusammengesetzte, ebenfalls Syntagmen
genannte, Symbolkomplexe als Inhalte, oder auch Teile hiervon, von Äußerungen Tp
entsprechender Sprachen L zugelassen. Die Erfindungsbeschreibung erfolgt ohne
Einschränkung der Allgemeingültigkeit am Beispiel serieller Sprachen L, welche
sinngemäß auch auf nicht-serielle Sprachen L anzuwenden ist.
Die Zusammenfassung von Begriffen A zu einer Menge B wird / /13/ /, S. 61 f.
folgend als Superierung bezeichnet. Die Zugehörigkeit von A zu B wird A a B
notiert, wobei A beispielsweise eine Komponente A = Em eines Komplexes B = Kp
= AA, auch Kp = A,A notiert, oder ein Element A = El einer Klasse B = Kl = (A)
oder eines Repertoires B = R(A) darstellt. Klassen Kl und Repertoires R, deren
Elemente El jeweils nur alternativ verwendet werden dürfen, werden als disjunkt
bezeichnet, eine Menge von jeweils einem Element El mehrerer disjunkter Klassen
Kl oder Repertoires R wird Permutation genannt, ebenfalls ein aus solchen
Elementen El = Em gebildeter Komplex Kp. Bei Komplexen Kp sind grundsätzlich
auch die Bezüge zwischen mehreren oder auch sämtlichen darin enthaltenen
Komponenten Em zu beachten. Ein Begriff A kann auch als Menge weiterer Begriffe
C usw. gebildet werden.
Verfahren der erfindungsgemäßen Art sind auch dadurch näher bestimmt, daß sie
nach / /1/ /, S. 217 als Voraussetzung und Grundlage für eine Realisierung von
technischen Vorrichtungen für eine Mensch-Maschine-Kommunikation in
natürlichen Sprachen L anzusehen sind, bei welchen gewisse, von Menschen nach
dem Erwerb beliebiger solcher Sprachen L gemäß / /2/ /, S. 47 intuitiv eingesetzte
Kommunikationsfähigkeiten so weit maschinell beherrscht werden, daß Menschen in
diesen Rollen durch entsprechende Maschinen ersetzt werden können. Gemäß / /1/ /,
S. 217 und 218 wird hieraus ein Abbau der Kommunikationsschranken bei der
Mensch-Maschine-Kommunikation für "naive" Nutzer, welche speziell für die
Bedienung von Rechnern entwickelte Programmiersprachen nicht beherrschen,
sowie auch, durch die Zwischenschaltung entsprechender technischer Vorrichtungen,
der Kommunikationsbarrieren zwischen Menschen erwartet, die unterschiedlichen
Sprachgemeinschaften X angehören oder sich auch ein unterschiedliches Maß an
Sprachkompetenz beispielsweise in der Rechtschreibung oder einer
Fremdsprachenbeherrschung angeeignet haben. Im einzelnen werden solche auf
einem Verfahren der erfindungsgemäßen Art basierenden, gegebenenfalls auch in
Verbindung mit semantischen Kommunikationsverfahren arbeitenden
Vorrichtungen, wie ebenfalls in / /1/ /, S. 218 erwähnt, beispielsweise unter
Bezeichnungen wie "hörende . . ." oder "handschriftenlesende Schreibmaschinen"
diskutiert, welche entsprechend einlaufende Texte T verzugsarm in gedruckte, auch
maschinenverarbeitbare Texte T von korrekter, Interpunktionen berücksichtigender
Rechtschreibung übertragen. Ferner diskutiert werden Übersetzungsautomaten,
welche Aufgaben von Übersetzern oder Dolmetschern wahrnehmen, wobei letztere
analog zu Interpunktionsregeln auch, als Prosodie bezeichnete, Ausspracheregeln
einschließlich Pausen und Betonungen berücksichtigen sollten, und "intelligente
Roboter", welche für vorgegebene Sachgebiete Fragen akzeptieren, auch durch
Rückfragen klären, sie beantworten, Aufträge entgegennehmen, bestätigen, zur
Ausführung bringen und allgemein interaktiv mit natürlichsprachig
kommunizierenden Menschen wie gegebenenfalls solche Sprachen L beherrschenden
Maschinen tätig werden, wie es beispielsweise bei der Abwicklung von
Dienstleistungs-, Verkehrs- und Produktionsaufgaben, insbesondere auch in einem
internationalen, mehrsprachigen "globalen" Umfeld verlangt wird.
Wie oben erwähnt oder auch aus Schilderungen des gegenwärtigen Standes, wie sie
in / /1/ / oder / /19/ / gegeben wurden, hervorgeht, liegen ausreichend funktionstüchtige
Verfahren der erfindungsgemäßen Art, welche es erlauben, wesentliche der
genannten, von Menschen bei der Kommunikation wahrgenommenen Funktionen
ausreichend fehlerfrei wie auch robust gegen Fehler der Partner Pa maschinell, also
rechnergestützt, durchführen zu lassen, bisher nicht vor. Ungelöste Fragen werden
insbesondere einigen unter Begriffen wie Mehrdeutigkeit, Vagheit und
Kontextabhängigkeit zusammenfaßbaren Problemkreisen / /24/ / zugeordnet, wie sie
sich bei den in natürlichen Sprachen L gebräuchlichen Symbolen manifestieren, so
etwa bei einem lexikalischen Wort in der Vielfalt seiner in unterschiedlichen Texten
T oft unterschiedlichen Erscheinungsformen, seiner Kombinationsmöglichkeiten mit
weiteren Wörtern und seiner hiervon wie auch der jeweiligen Situation abhängigen
grammatischen und semantischen Bedeutungsmöglichkeiten. Verbunden hiermit
erwächst die weitere Frage, welche Erscheinungsformen und Eigenschaften von
Sprachtexten T überhaupt als Symbole ausreichend geeignet sein könnten und so
zweckmäßig als Bausteine von Kommunikationsverfahren einzusetzen wären.
Zur Problematik der Erscheinungsformen gehört, daß Texte T auch in
zusammenhängender, also nicht in gemäß natürlichen Wörtern oder Buchstaben
unterteilter Form anfallen. So sind, ähnlich wie bei den Äußerungen mündlicher
Sprachen L, auch die Schrifttexte von Thai-Sprachen L nicht durch Abstände in
natürliche Wörter getrennt. Bei mündlichen Sprachen L verzichten Autoren At in
vielen Fällen darauf, Texte T durch eine entsprechende Prosodie, also durch Signale
wie Pausen und Betonungen beispielsweise durch Lautstärke- oder
Schallfrequenzänderungen regelmäßig entsprechend den eingeführten Symbolen und
hieraus gebildeten Komplexen wie lexikalischen Wörtern, Phrasen, Teilsätzen,
Sätzen und Äußerungen zu untergliedern. Problematisch ist ferner die hohe
Variationsbreite der Signalformen, mit der ein Symbol wie beispielsweise ein
lexikalisches Wort insbesondere bei mündlich oder handschriftlich geäußerten
Texten T, auch aufgrund von Einflüssen der Übertragungsstrecken, in Erscheinung
treten kann, wobei gleichbedeutende Texte nicht nur weit voneinander, sondern
gegebenenfalls auch von eingeführten Normen bis hin zur Fehlerhaftigkeit
abweichen können. Die hohe Varianz der für ein Wort verwendeten Sprachsignale
bedingt umgekehrt eine entsprechende Vielfalt von Deutungsmöglichkeiten für die
Zuordnung von, vom Autor At möglicherweise gemeinten, lexikalischen Wörtern zu
jeweils vorliegenden Sprachsignalkomplexen. Hier wie auch bei fehlerbehafteten
maschinengeschriebenen Texten hat ein erfindungsgemäßes Verfahren in der Rolle
des Hörers Hr das Problem des Erkennens der vom Autor At gemeinten sprachlichen
Begriffe wie beispielsweise natürlicher Wörter oder auch natürlicher Buchstaben der
betreffenden Sprache L zu meistern. Hinzu kommt das Problem des Auffindens und
Identifizierens gemeinter Wörter, gegebenenfalls auch mit ihren Bezügen zu
weiteren Wörtern, in alphabetisch geordneten Wörterbüchern oder Datenbänken,
wenn beispielsweise der Abstand zu einem vorausgehenden Textabschnitt fehlt oder
ein Anfangsbuchstabe beziehungsweise -laut fehlerhaft oder nicht entzifferbar
vorliegt oder fehlt. Eine Realisierung der Funktion des Hörers Hr wird also bei
zusammenhängend einlaufenden Texten T durch das Problem ihrer Unterteilung in
Textabschnitte T entsprechend gegebenenfalls zuzuordnenden Bedeutungen, auch
unter Beachtung von bei Schriftsprachen L eingeführten Interpunktionsregeln
erschwert. Einer Realisierung der Funktion des Autors At stehen die Probleme einer
ausreichend unmißverständlichen, häufig vom Zusammenhang abhängigen
Formulierung insbesondere der Textsignale mündlicher Sprachen L wie auch einer
Beherrschung der für Schriftsprachen L geltenden, ebenfalls durch den
Zusammenhang mitbestimmten Rechtschreibregeln, beispielsweise auch bezüglich
der Interpunktion oder bei Sprachen wie dem Deutschen auch der Groß- und
Kleinschreibung entgegen.
Neben dieser Varianz der textlichen Erscheinungsformen gebräuchlicher
Sprachsymbole und der resultierenden Vieldeutigkeit gegebener Texte T bezüglich
solcher Symbole steht der Realisierung eines Verfahrens der erfindungsgemäßen Art
das genannte Problem einer - im Vergleich beispielsweise zu für den Umgang mit
Rechnern entwickelten eindeutigen Programmiersprachen - außerordentlichen
Vieldeutigkeit der Symbole selbst entgegen, wie sie etwa bei lexikalischen Wörtern
sowohl hinsichtlich ihrer semantischen wie auch grammatischen Bedeutungen
auffällt. Neben den im allgemeinen als Symbole verstandenen Begriffen wie solchen
Wörtern und diese sowie hieraus gebildete Syntagmen symbolisierenden Schrift-
beziehungsweise Lautzeichen finden als weitere sprachübliche Begriffe auch gewisse
Kategorien Verwendung / /4/ /, S. 274, wie sie bei abendländischen Sprachen
beispielsweise unter Bezeichnungen wie Prädikat, Verb, Tempus, Modus, Person,
Infinitiv, Imperativ, Aorist, Partikel, Adverb, Adjektiv, Pronomen, Verbalphrase,
Subjekt, Substantiv, Kasus, Numerus, Nominalphrase usw. / /24/ /, auch zur
Charakterisierung bestimmter grammatischer wie auch semantischer Symbolinhalte,
eingeführt wurden. Dabei hängt die Zuordnung solcher und weiterer Inhalte zu einem
von einem Textabschnitt T möglicherweise angezeigten Begriff in der Regel vom,
auch als Kontext bezeichneten / /24/ /, Zusammenhang ab, wie er sowohl durch
weitere hierzu in unterschiedlichen Entfernungen angeordnete Textabschnitte T und
diesen möglicherweise zuordenbare Symbole als auch gegebenenfalls durch eine
Situation bestimmt wird. Vom entsprechend sprach- wie sachkundigen Partner Pa
wird somit verlangt, solche Inhalte aus einer, definitionsgemäß prinzipiell und
unbegrenzten, Anzahl möglicher Symbolkomplexe zu erschließen. So werden bei
Schrifttexten T auch den für die Zeichensetzung / /24/ / benutzten nichtalphabetischen
Interpunktionszeichen sowohl grammatische als auch semantische Funktionen
zugeordnet, ohne daß klargestellt wurde, ob sie als den natürlichen Wörtern
gleichgestellte Symbole oder als, diesen zuzuordnende, Teile hiervon zu behandeln
seien, welche Inhalte ihnen zukommen und wie diese mit weiteren Inhalten zu
kombinieren seien.
Angesichts der angetroffenen Vielfalt und Vieldeutigkeit der in bisherigen
Sprachbeschreibungen verwendeten Begriffe blieb unklar, durch welche Art von
Symbolen und Begriffen die Bedeutungen / /24/ / von Texten T zweckmäßig
auszudrücken seien und welche Eigenschaften diese aufweisen müßten, damit
vorliegende Texte und Textabschnitte T mit ihnen in Bezug zu setzen und auf sie
aufzuteilen sind, damit entsprechende Bedeutungen solcher Einzelsymbole zu
Bedeutungen von Symbolkomplexen kombinierbar werden. So ist es beim
gegenwärtigen Stand, wie in / /26/ /, S. 37 ausgeführt, nicht in allen Umständen leicht,
zu definieren, was wir unter einem einzelnen - nach obiger Definition natürlichen -
Wort verstehen, oder zu erklären, warum Wörterbücher nicht alle Vokabeln
aufführen, die wir brauchen, sondern gewisse Klassen von "Ableitungswörtern"
weglassen / /26/ /, S. 82. Es gilt so auch als klar, daß es keine allgemeingültige Syntax
gibt, d. h. grammatische Regeln, die etwas über die Wortwahl oder die Anordnung
der Wörter zu einer Aussage mit klarer Bedeutung besagen und die für alle Sprachen
gültig wären / /26/ /, S. 122, zumal etwa für Inhalte, die im Englischen mit 20 Wörtern
auszudrücken sind, im Sanskrit vierzigmal mehr Vokabeln gebraucht werden / /26/ /,
S. 212. Entsprechend blieb unklar, aus welchen Bausteinen mit welchen
Eigenschaften und Wechselbezügen und welchen dementsprechend daran
anzupassenden Operationen Verfahren der erfindungsgemäßen Art aufgebaut werden
könnten.
Menschen sind nach ihrem gemäß / /2/ /, S. 227 f. intuitiv ablaufenden
Erstsprachenerwerb zwar in der Regel auch zu einer, ebenfalls intuitiven,
Beherrschung der geschilderten und weiterer bei der Sprachkommunikation
anzutreffender Einzelprobleme fähig, können aber gemäß / /2/ /, S. 16 u. 47 f. weder
explizit angeben, wie dieser Spracherwerb stattfindet, noch welche Begriffe, Daten
und Regeln sie dabei bilden und sich aneignen, um sie bei der Kommunikation
einzusetzen. Da diese Fragen bisher nicht geklärt sind, ist auch eine Realisierung
eines Verfahrens der erfindungsgemäßen Art durch eine naheliegende Übertragung
der Kommunikationsfähigkeit des Menschen auf die Arbeitsprinzipien von
Maschinen nicht möglich, zumal keine bestätigten Vorstellungen darüber bestehen,
welche Begriffe, Daten und Regeln zur Festlegung der angeführten
Textzusammenhänge benötigt werden und wie solche Daten, beispielsweise durch
die Analyse von Texten T oder auch Befragung von Experten, gegebenenfalls zu
erzeugen und zu beschreiben wären. Angesichts der im Vergleich zu dieser
Problematik bisher unzureichenden Lösungsansätze herrscht gemäß / /5/ /, S. 31 die
Einschätzung vor, daß eine Nachbildung der bei der Sprachkommunikation im
menschlichen Gehirn ablaufenden Prozesse durch die Formulierung von
Algorithmen, welche auf einer so weit wie möglich alle natürlichen Sprachen L
umfassenden "universellen Grammatik" aufbauen, noch für lange Zeit "science
fiction" bleiben müsse.
Wie bei den geschilderten, für den gegenwärtigen Stand charakteristischen
Problemen nicht anders zu erwarten ist, werden in vorliegenden mit natürlichen
Sprachen L befaßten Erfindungen nur einige untergeordnete Teilaspekte einer im
Grundsatz auch weiterhin durch den Menschen abzuwickelnden
Sprachkommunikation behandelt. So beziehen sich die unter
DE 31 42 540 C2, DE 35 03 233 C2, DE 36 15 972 A1, DE 36 16 011 A1, DE 30 32 664 C2 und
DE 31 51 106 A1 angegebenen Verfahren beziehungsweise Vorrichtungen auf
Fragestellungen elektronisch bedienbarer Lexika, die einem als Übersetzer tätigen
Menschen zu gegebenen, von ihm bereits vom restlichen Text abgeteilten und
korrekt auch bezüglich zuzuordnender grammatischer Kategorien identifizierten
natürlichen Wörtern beziehungsweise Phonemen einer Ausgangssprache L einige
Wörter beziehungsweise Phoneme einer Zielsprache L' anbieten, jedoch weiter die
Intelligenz und das Sprachwissen des Menschen voraussetzen, um aus einem
fortlaufenden Fluß akustischer beziehungsweise schriftlicher Textsignale überhaupt
die Wörter oder auch nur Phoneme beziehungsweise Morpheme der
Ausgangssprache zu identifizieren und deren Vieldeutigkeit in unterschiedlichen
Texten zu berücksichtigen. Dementsprechend soll der Mensch bei den
Übersetzungshilfen DE 36 15 972 A1 und DE 30 32 664 C2 neben den Wörtern auch
gewisse grammatische Funktionen bestimmen, woraus bei DE 30 32 664 C2 die
gebeugte Form eines Wortes der Zielsprache, nicht jedoch beispielsweise auch
dessen Stellung im Text resultiert; bei DE 36 16 011 A1 soll er das erkannte Wort mit
angebotenen Synonymen näher charakterisieren und bei DE 31 42 540 C2 zusätzlich
ein Austauschwort eingeben, um das für Übersetzungen charakteristische Problem
der Vieldeutigkeit zu reduzieren. Das in DE 41 35 261 C1 beschriebene
"Übersetzungssystem" dient der Reduzierung der Datenmenge, die für die
lexikalische Zuordnung von fremdsprachlichen Wörtern zu identifizierten
zusammengesetzten natürlichen Wörtern (Komposita) der Ausgangssprache benötigt
wird. In dem in DE 43 11 211 A1 für Übersetzungen vorgeschlagenen
Textanalysesystem soll berücksichtigt werden, daß deutschen Verben verschiedene,
entsprechend unterschiedlich zu übersetzende Formen von Dativobjekten zuordenbar
sind. DE 42 32 482 A1 schlägt vor, Übersetzungen unter Zwischenschaltung einer
künstlichen Standardsprache durchzuführen, ohne anzugeben, wie die Vielfalt der
Bedeutungsmöglichkeiten von Texten der Ausgangs- und Zielsprachen dabei zu
berücksichtigen sind.
Verfahren zur Lösung der dort als "Spracherkennung" bezeichneten Aufgabe, wie sie
in DE 32 11 313 C2, DE 37 33 391 C2 und DE 35 14 286 A1 beschrieben werden, bieten
ebenfalls keine ausreichende Antwort auf die Frage, welche der gegebenenfalls
alternativ möglichen Zuordnungen von natürlichen Wörtern sowie Bedeutungen
grammatischer wie auch semantischer Art zu einem vorliegenden Text T jeweils zu
bevorzugen sind.
Die Beschränkungen und Mängel bekanntgewordener Erfindungen lassen sich auch
auf das folgende allgemeine, bei der Diskussion grammatischer Kategorien oben
bereits angesprochene Defizit zurückführen: Einerseits befassen sie sich mit der
Aufgabe, oder Teilen hiervon, Äußerungen zu verarbeiten oder auch zu erstellen, wie
sie bei der menschlichen Kommunikation zur definitionsgemäßen Interaktion
ausgetauscht werden, wobei solche Äußerungen als Nachrichten dienen sollen, in
welchen mittels physikalisch nachweisbarer Sprachsignale gebildete Texte T auch
bestimmte Inhalte übermitteln. Andererseits fehlen aber ausreichende Angaben dazu,
worin die Natur solcher Inhalte bestehen könnte, die in Verbindung mit den Texten T
die genannten Interaktionen bewirken, also auch, aus welchen Komponenten mit
welchen Eigenschaften sie zu bilden sind, welche Verknüpfungen und
Verknüpfungsstrukturen zwischen solchen Komponenten wie auch zu Texten und
Textabschnitten T dabei zu beachten sind und wie dementsprechend Operationen
auszulegen sind, die es möglich machen, solche Inhalte in einlaufenden Texten zu
identifizieren oder ausgehende Texte damit auszustatten. Insofern erscheint der
gegenwärtige Stand der maschinellen Sprachkommunikation mit einem offenkundig
aussichtslosen Versuch vergleichbar, ein maschinelles Verfahren zur Erzeugung von
chemischen Substanzen mit bestimmten physiologischen Wirkungen anzugeben,
ohne darauf einzugehen, aus welchen Komponenten in welcher Form diese sich
zusammensetzen und welche Stoffe auf welche Weise dementsprechend zu ihrer
Herstellung zu kombinieren seien. So fehlen in mit natürlichen Sprachen L befaßten
Erfindungsmeldungen Angaben zu brauchbaren Operationen und Vorrichtungen,
welche es erlauben, mit ausreichender Zuverlässigkeit wie auch Robustheit gegen
Normabweichungen der Autoren At und Einflüsse der Übertragungsstrecken,
beispielsweise auch unter Berücksichtigung angemessener Toleranzen,
gegebenenfalls angesprochene Inhalte und Symbolkomplexe, auch unter
Berücksichtigung der Situationen einschließlich der Intentionen der Autoren At, zu
bestimmen, wobei auch unklar bleibt, ob und auf welche Weise durch solche
Symbole angezeigte Inhalte in semantische und grammatische Inhalte unterschieden
werden sollten.
Die Beschreibung von als grammatisch bezeichneten Inhalten erfolgte bisher
überwiegend im Rahmenwerk sogenannter Konstituentenstrukturgrammatiken / /24/ /,
welchen gemäß / /1/ /, S. 235 f., / /2/ /, S. 116 f. und / /4/ /, S. 212 f. je nach
Ausführungsform auch als generativ, kontextabhängig oder kontextfrei sowie als
Dependenz-, Transformations-, Phrasenstrukturgrammatiken / /24/ / wie auch
Unifikationsgrammatiken / /24/ /, / /25/ / bezeichnete grammatische Systeme
zugeordnet wurden. Alternativ hierzu wurden zur Beschreibung von ebenfalls als
grammatisch oder auch syntaktisch verstandenen Zusammenhängen auch sogenannte
Markov-Wahrscheinlichkeitsketten, auch "Hidden-Markov"-Modelle genannt,
vorgeschlagen, welche Wahrscheinlichkeitsbezüge zwischen 2 oder auch mehr
jeweils aufeinandertreffenden Ereignissen, insbesondere auch zwischen
aufeinanderfolgenden lexikalischen Wörtern, berücksichtigen, und die nach / /7/ /
eingeführt wurden, um die den Konstituentenstukturgrammatiken angelasteten, auch
in / /1/ /, S. 234 und / /2/ /, S. 127 und S. 233 kritisierten und bisher nicht behebbaren
Mängel zu umgehen. So sieht DE 37 10 507 A1 entsprechend einer jeweils 2 Ereignisse
berücksichtigenden Markov-Kette die Verwertung eines gegebenenfalls vorliegenden
syntaktischen Zusammenhangs zwischen einem gerade zu analysierenden Textteil
und jeweils einem der natürlichen Wörter vor, die dem vorausgehenden Textteil
bereits versuchsweise zugeordnet wurden. Wird aber beispielsweise ein Text T1
mündlich geäußert, dessen Bedeutung dem Schrifttext B1 = /Der, sagt er, fehlt./
entsprechen soll, so ist, auch abhängig von der Aussprache, wohl eine Deutung
gemäß B2 = /Der sagt, er fehlt./ oder auch B3 = /Der Sack Teer fehlt./ möglich, da
bei B2 ein verwertbarer, den Zufall des Aufeinandertreffens beliebiger Wörter
übersteigender Markov-Zusammenhang jeweils zwischen dem ersten und letzten
Wortpaar, bei B3 bei allen 3 aufeinanderfolgenden Wortpaaren vorliegt. Eine
Deutung als B1 würde dagegen ausscheiden, da hierzu ein vom 4. bis einschließlich
1. Wort zurückreichender Markov-Zusammenhang zu berücksichtigen wäre,
welchem ein brauchbarer Wert zukommt, der die Zufallswerte für das Vorkommen
beliebiger Wörter unabhängig vom jeweils vorangestellten Wort übersteigt, was
jedoch in dieser Erfindung, auch wegen des genannten, unten weiter ausgeführten
Problems kombinatorischer Datenexplosionen, nicht vorgesehen ist. Unter Bezug auf
weitere in Texten T anzutreffende Wortfolgen wurde gemäß / /6/ /, S. 91 f. der
Nachweis geführt, daß solche Markov-Ketten-Grammatiken den bei natürlichen
Sprachen anfallenden Problemen grundsätzlich nicht gerecht werden können, so daß
auch die in / /8/ / vorgeschlagene Ausdehnung des Markov-Prinzips auf jeweils 3
aufeinanderfolgende natürliche Wörter trotz der damit verbundenen beträchtlichen
Aufwandssteigerung weder beim hier angeführten noch bei vielen anderen Texten
ausreichen kann. Beispielsweise wäre für einen mündlich geäußerten Text wie T4 =
/Der, sagen die in diesem Büro Dienst leistenden Beamten, fehlt./ ein über 10
natürliche Wörter reichender Zusammenhang zu beachten. Für erfindungsgemäß
ebenfalls zu berücksichtigende nicht-serielle Sprachen L sind solche eindimensional
angelegten Markov-Ketten definitionsgemäß ungeeignet.
Das in DE 37 11 348 A1 beschriebene Verfahren zum Erkennen kontinuierlich
gesprochener Wörter ist zur Lösung der darin gestellten Aufgabe ebenfalls nicht
geeignet, wenn entgegen dem dort gemachten Vorbehalt der Praxis entsprechend die
zu erkennenden Texte nicht durch längere Sprechpausen in Sätze getrennt einlaufen.
Außerdem fehlt auch in dieser Erfindung, abgesehen von einem Hinweis auf die
Verwendungsmöglichkeit von bereits als unzureichend erkannten kontextfreien
Konstituentenstrukturgrammatiken, eine Angabe, wie die dort vorgeschlagene
Zuordnung natürlicher Wörter zu Kategorien sowie gegebenenfalls deren Zuordnung
zu weiteren Kategorien vorzunehmen sei, damit ein funktionsfähiges Verfahren
resultiert. Wie nach dem geschilderten gegenwärtigen Stand zu erwarten, wurden
auch über die in / /8/ /, / /9/ /, / /10/ / und / /19/ / beschriebenen, auf natürliche Sprachen L
bezogenen technischen Entwicklungen gravierende Mängel berichtet, die sich auch
auf eine Zugrundelegung der erwähnten unzureichenden, aus mangelhaft definierten
Komponenten aufgebauten grammatischen Modelle in den hierfür eingesetzten
Verfahren zurückführen lassen. Charakteristisch für diesen Stand ist auch der in
/ /11/ / berichtete Mißerfolg des 1981 in Japan begonnenen Programms zur
Entwicklung von Rechnern der sogenannten 5. Generation, bei dem auch die
Aufgabe gestellt war, Menschen die Kommunikation mit Rechnern in einer
natürlichen Sprache L, wenn möglich in mündlicher Form, zumindest aber schriftlich
mittels normgerecht gedruckter Texte T zu ermöglichen. Dieses Ziel konnte im
geplanten Zehnjahreszeitraum nicht erreicht werden, obwohl Mittel in Höhe von 54
Milliarden yen dafür bereitgestellt wurden.
Gründe dafür, daß die Realisierung eines Verfahrens der erfindungsgemäßen Art
bisher nicht gelingen konnte, sind auch darauf zurückzuführen, daß zur Nutzung
vorgeschlagene Konzepte in grundlegende Probleme auch quantitativer Art
hineinführen, deren Schwierigkeitsgrad entweder unterschätzt oder nicht erkannt
wurde, und die keine technisch praktikablen Lösungen zuließen. Als ein wesentliches
Hindernis gegen die Verwendung hierfür vorgeschlagener grammatischer Begriffe,
Daten und Regeln in Algorithmen für eine rechnergestützte Kommunikation der
erfindungsgemäßen Art wurden deren häufig unpräzisen und somit für eine
technische Anwendung unbrauchbaren Definitionen kritisiert / /1/ /, S. 231; / /2/ /, S.
43, 47, 99 f.; / /4/ /, S. 157, wie sie besonders auch für die genannten
Konstituentenstrukturgrammatiken, vielfach auch auf der Grundlage intuitiver
menschlicher und dabei häufig widersprüchlicher Urteile, vorgeschlagen werden.
Beispielsweise wurden sprachliche Äußerungen jeweils als eine Kombination einer
"Oberflächenstruktur" mit einer dieser hinterlegten "Tiefenstruktur" angesehen.
Hierbei werden unter einer "Oberfläche" jedoch nicht die physikalisch eindeutig
erfaßbaren Textsignale von sprachlichen Äußerungen, sondern Folgen von bereits
festgelegten natürlichen Wörtern verstanden, ohne daß Gesetzmäßigkeiten für deren
Zuordnungen zu den - sich häufig als mehrdeutig erweisenden - Textsignalen
angegeben wurden. Weiterhin fehlen ausreichend streng definierte Beschreibungen
für die vorgeschlagenen "Konstituenten", aus denen deren
Verknüpfungsmöglichkeiten zu den genannten "Tiefenstrukturen" ableitbar wären
/ /4/ /, S. 250 f., wie auch für die hierfür benutzte Symbolik, zu welcher beispielsweise
Verbindungslinien zwischen Begriffen oder auch für von einem Begriff ausgehende
frei endende, als "Spuren" / /6/ /, S. 122 bezeichnete Linien gehören. Unklar bleibt
darin auch, wie die gewissen "Konstituenten" zugeordneten "Valenzen" einerseits als
zu schließende "slots" verstanden werden sollen / /1/ /, S. 253, andererseits aber in den
genannten "Spuren" oft nicht geschlossen zu werden brauchen. Weiter wurde
vorgeschlagen, grammatische Konstituenten wie auch die zwischen ihnen
bestehenden Bezüge mit Hilfe von als "Transformationen" bezeichneten, vielfach
jedoch willkürlich festgelegten Abwandlungsmöglichkeiten von "Oberflächen"-
Wortfolgen in andere Wortfolgen, gegebenenfalls auch mit abgewandelten
zugeordneten Strukturen, zu beschreiben / /4/ /, S. 250 f., wonach beispielsweise auch
eine im Aktiv formulierte Äußerung in eine, häufig aber keineswegs völlig
bedeutungsgleiche, Passiv-Form verwandelbar sein sollte / /6/ /, S. 122, ohne daß
jedoch solche Manipulationen beispielsweise durch, gegebenenfalls auch quantitativ
einzuhaltende, beobachtbare Randbedingungen so weit präzisiert wurden, wie es für
technische Anwendungen, beispielsweise bei Koordinatentransformationen, üblich
und notwendig ist.
Unbefriedigend blieb hierbei auch, daß es nicht gelang, Inhalte von Texten, wie sie
für eine Identifizierung von möglicherweise darin angesprochenen Symbolen und
deren Kombination zu möglichen "Tiefenstrukturen" aus dem Zusammenhang
heraus benötigt werden, ausreichend streng festzulegen, also beispielsweise auch in
grammatische und pragmatische Inhalte zu trennen und somit etwa auch
grammatische von semantischen Fragestellungen abzugrenzen / /4/ /, S. 138. So wurde
davon ausgegangen, daß es genüge, wenn Experten einer Sprache L die darin
abgefaßten Äußerungen intuitiv nach rein formalen Kriterien ohne Beachtung
semantischer oder pragmatischer Fragestellungen bewerten. Hierfür vorgeschlagene
Prädikate / /4/ /, S. 157 und 159 wie "Wohlgeformtheit", "Akzeptierbarkeit",
"Formalität" oder für die Beurteilung logischer Operationen eingeführte Kriterien
wie "wahr", "unwahr" oder auch "falsch" halten jedoch gemäß / /2/ /, S. 47 der Kritik
nicht stand. Beispielsweise ist so nach / /2/ /, S. 100 auch nicht klar, ob die natürlichen
deutschen Wörter /singen/, /singe/, /singst/, /singt/, /sang/, /sangen/, /gesungen/ usw.
zweckmäßiger als unterschiedliche grammatische Begriffe oder als unterschiedliche
Formbildungen eines einzigen solchen Begriffes zu behandeln seien. Ein Kriterium,
das eine befriedigende Klassifizierung von lexikalischen Wörtern einer Sprache L
erlaubt, ist gemäß / /1/ /, S. 227 und / /2/ /, S. 100 nicht bekannt, so daß auch keine
Lösung für das unten betrachtete Problem der kombinatorischen Explosion der zu
beachtenden Daten für die Bezüge zwischen diesen Wörtern, beispielsweise durch
deren Zusammenfassung zu einer wünschenswert geringen Anzahl von Kategorien,
angegeben werden konnte. Entsprechende Unsicherheiten bestehen über die
Festlegung solcher Bezüge. So wurden als möglich angesehene
Unterordnungsbeziehungen zwischen den Wörtern eines natürlichen Satzes in
sogenannten Dependenzgrammatiken / /24/ / dahingehend definiert, daß das Verb an
die Spitze der Hierarchie eines natürlichen Satzes zu stellen sei / /1/ /, S. 233, während
in kontextfreien Grammatiken / /24/ / als Nominalphrase und Verbalphrase
bezeichnete, jeweils aus einem oder auch mehreren natürlichen Wörtern
unterschiedlich zusammengesetzte Kategorien als gleichrangig nebeneinandergestellt
wurden / /1/ /, S. 238, ohne daß die Vorschläge für solche Rangordnungen ausreichend
begründet und, erforderlichenfalls auch quantitativ, präzisiert werden konnten.
Uneinsichtig blieb auch, wie eine Auflösung der den Konstituenten anhaftenden
Mehrdeutigkeiten aus dem Kontext, wie es für ein Verstehen syntaktischer
Textzusammenhänge für notwendig erachtet wurde / /1/ /, S. 262, mit Hilfe der dafür
vorgeschlagenen logischen Operationen / /1/ /, S. 239 f. möglich sein könnte, wenn
man dabei von, wie erwähnt, unpräzise definierten Begriffen ausgehen mußte, wobei
auch eine Verwendung diskontinuierlicher, also durch andere Elemente getrennter
Elemente wie beispielsweise Wörter für problematisch gehalten wurde / /24/ /.
Eine zur Umgehung des Problems fehlender Kategorisierungsmöglichkeiten
beziehungsweise dabei resultierender Mehrdeutigkeiten vorgeschlagene Alternative,
den bisher eingeschlagenen Weg in Richtung einer viel stärker als bisher getriebenen
Differenzierung der Konstituenten weiterzugehen, verbunden mit einer
entsprechenden Ausweitung des deren wechselseitige Bezüge regelnden
Datenvolumens, hätte nach / /1/ /, S. 239 allerdings zur Folge, daß die so erweiterten
Grammatiken wie auch die hieraus resultierenden Struktur- und Entscheidungsbäume
unüberschaubar vielfältig und so praktisch nicht mehr bearbeitbar würden. Wie
bekannt, wächst nämlich grundsätzlich bei einer mit a ansteigenden Zahl von
sprachlichen Begriffen A die Zahl der ihre wechselseitigen Bezüge beschreibenden
Parameter größenordnungsmäßig mit a! (a-Fakultät). Es ergibt sich somit das
Problem einer annähernd exponentiell gemäß aa verlaufenden kombinatorischen
Explosion der benötigten Daten / /18/ /, S. 100, das vergleichbar ist mit der
Datenexplosion für die genannten Markov-Ketten, wenn dort, den sprachlichen
Gegebenheiten entsprechend, auch Zusammenhänge zwischen den Texten T
hinterlegten, weit voneinander getrennt angeordneten lexikalischen Wörtern
berücksichtigt werden. Versuche, natürlichsprachige Kommunikationsverfahren
unter Verwendung der hierfür bisher eingeführten Begriffe und Parameter zu lösen,
führen somit in grundsätzliche kombinatorische Probleme, die in der Terminologie
der Komplexitätstheorie als NP-hart und damit als in der Praxis unlösbar klassifiziert
wurden /22/, / /23/ /, S. 254.
Für bisher vorgeschlagene, auf der Grundlage von bekannten
Konstituentenstrukturgrammatiken konzipierte Verfahren konnte, auch aufgrund der
angeführten Defizite, des weiteren auch kein ausreichender Zusammenhang
angegeben werden zwischen der Frage, welche Information Texte T bezüglich der
durch sie gegebenenfalls angezeigten Inhalte pragmatischer wie auch grammatischer,
beispielsweise Konstituentenstrukturen betreffender Natur liefern, und der
Informationstheorie selbst, wie sie beispielsweise in / /13/ /, S. 87 f. versuchsweise
erläutert wurde. So wird nach heutigem Sprachgebrauch unter Information häufig der
übermittelte Sachverhalt selbst und nicht eine bestimmte quantitative Eigenschaft
einer solchen Übermittlung verstanden. Beispielsweise wurde etwa in / /14/ /
bestritten, daß eine natürliche Sprache überhaupt Information übermittle; sie rufe
vielmehr nur eine - nicht näher erläuterte - Interaktion zwischen dem Gesagten und
dem Hörer hervor. Aus dem unlösbar scheinenden Widerspruch zwischen der
Erfahrung einerseits, daß Texte häufig keine ausreichenden Hinweise zur Auflösung
von Mehrdeutigkeiten liefern, und der Vorstellung andererseits, daß eine solche
unvollständige Informationslage durch eine Maschine auch wieder nur linear,
beispielsweise mittels der hierfür vorgesehenen logischen Operationen, zu einem
notwendig wieder unvollständigen Informationsbild abgebildet werden könne, wurde
wiederholt die Forderung gefolgert, daß in jeder derartigen sprachverarbeitenden
Maschine letztlich eine Art "homunculus" mit der Sprachkompetenz eines Menschen
stecken müsse. Wollte man diesen durch eine Maschine ersetzen, so müsse eben
darin wieder ein "homunculus" enthalten sein und so fort / /15/ /, S. 41, / /16/ /. Bisher
vorgeschlagene Verfahren, welche keine Anleitung zu einer problemgerechten
Bewältigung des Informationsproblems geben, sind auch aus diesem Grund zu einer
Lösung der erfindungsgemäßen Aufgabe nicht geeignet.
An den vorgeschlagenen Konstituentenstrukturgrammatiken wurde schließlich auch
kritisiert, daß sich die Eigenschaften der für ihren Aufbau vorgeschlagenen
Gegenstände, beispielsweise ihre Bezugsmöglichkeiten zu weiteren Gegenständen,
für welche vielfach auch eine universell auf alle natürlichen Sprachen L übertragbare
Gültigkeit in Anspruch genommen wurde / /2/ /, S. 210 und S. 211, gar nicht auf
empirisch erfaßbare Merkmale zurückführen lassen / /12/ /, S. 559. Vielmehr wurde
von Vertretern solcher Grammatiken die Notwendigkeit einer solchen
Beobachtbarkeit sogar bestritten / /6/ /, S. 124, / /2/ /, S. 16, so beispielsweise der darin
postulierten syntaktischen Bezüge zwischen gewissen Konstituenten oder zwischen
den genannten "Oberflächen" mit zugeordneten "Tiefenstrukturen" und den
zugehörigen Texten. Verfahren der erfindungsgemäßen Art, zu deren Aufgabe die
Erzeugung physikalisch nachweisbarer Gegenstände gehört, wie sie durch Texte T
und dadurch gegebenenfalls ausgelöste, ebenfalls nachweisbare Aktionen
repräsentiert werden, lassen sich nach den etablierten Regeln der Technik jedoch
prinzipiell nur unter Einsatz von geeignet und nachweisbar miteinander in
Interaktion zu bringenden Gegenständen realisieren, deren Eigenschaften
grundsätzlich ebenfalls mit einer in der Technik üblichen Objektivität,
Widerspruchsfreiheit und Präzision beobachtbar sind. Geht man also davon aus, daß
eine Kommunikation in natürlichen Sprachen L neben dem Austausch von Texten T
auch einem Austausch von diesen zuzuordnenden Gegenständen wie grammatischen
Konstituentenstrukturen und pragmatischen Inhalten zu dienen hat, so weisen die
beim gegenwärtigen Stand anzutreffenden, auf der Grundlage bekannter
Grammatiken konzipierten Verfahren den grundsätzlichen Mangel auf, daß sie keine
Anleitung dafür liefern, wie eine durch Beobachtungen zu definierende und zu
verifizierende Festlegung der den Texten T zuzuordnenden Gegenstände und der
diese näher bestimmenden Eigenschaften und Daten, beispielsweise durch
Beobachtung von Texten T der betreffenden Sprachen L, der damit
kommunizierenden Partner Pa wie gegebenenfalls auch der durch diese im
Zusammenhang mit ausgetauschten Texten T ausgelösten Aktionen erfolgen könnte.
Voraussetzung hierfür wäre im einzelnen eine Klärung der Frage, welche
Beobachtungsverfahren anzuwenden sind, welches Beobachtungsmaterial geeignet
ist, wie dieses zu manipulieren und auf welche Ergebnisse, gegebenenfalls auch
quantitativ und mit welchen Toleranzen, dabei zu achten ist und welche Fähigkeiten
einzusetzende Beobachter und zur Beobachtung benutzte Einrichtungen wie
gegebenenfalls auch Personen mitzubringen haben. Als Folge dieses Defizits muß
etwa auch der oben zitierte Anspruch, daß bestimmte Grammatiken "universell" für
alle natürlichen Sprachen L gültig seien, als lediglich intuitiv gewonnene
Wunschvorstellung beurteilt werden. Folgt man weiter der ebenfalls intuitiv
vorgebrachten Vorstellung, daß lexikalische Wörter der Sprachen L auch als
grammatische Symbole fungieren / /2/ /, S. 170 f., so bleibt insbesondere unklar, worin
bei den in jeder Sprache L unterschiedlich formulierten wie häufig auch
unterschiedlich miteinander zu verknüpfenden Wörtern solche "universell" für alle
Sprachen L gleichen grammatischen Funktionen bestehen und woran sie erkennbar
sein könnten.
Angesichts der Vielzahl der beim gegenwärtigen Stand anzutreffenden, häufig auf
die Verwendung intuitiv bevorzugter Konstituenten zurückzuführenden Probleme
wurde in einer neueren "Grammatik der deutschen Sprache" postuliert, daß
Linguistik doch als empirische Wissenschaft zu gelten habe / /27/ /, S. 8 f., welche
aufzeige, durch welches System von "Konstituenten" / /27/ /, S. 15 und diesen
zuzusprechenden "Funktionen" / /27/ /, S. 21 eine Sprache zu beschreiben sei. Ein
solches System könne aber nicht universell für alle, sondern jeweils nur für eine
bestimmte Sprache gelten. Dies hätte allerdings einen entsprechend hohen Aufwand
für die Erstellung und Beschreibung solcher Systeme für mehrere Sprachen sowie für
die wechselseitigen Zuordnungen ihrer Konstituenten zur Folge, wie sie
beispielsweise für die erfindungsgemäß zu leistenden Übersetzungen benötigt
werden. Hierbei wurde, allerdings auch wieder intuitiv und ohne Angabe geeigneter
empirischer Nachweisverfahren, davon ausgegangen, daß die in Schrifttexten durch
Abstände voneinander getrennten Textabschnitte als solche Konstituenten
einzusetzen seien. Die so in einer schriftdeutschen, in / /27/ /, S. 20 allerdings ohne
abschließenden Punkt notierten, Äußerung wie /Jeder Student liest eine
Tageszeitung./ anzutreffenden Konstituenten seien aber nicht als Wörter, sondern als
jeweils eine Flexions- oder Wortform eines jeweils alle solche Formen umfassenden
"Wortparadigmas" zu betrachten, das durch eine dieser Formen wie beispielsweise
/Student/ oder /lesen/ in den für diese Sprache erstellten Lexika vertreten sei. Hierbei
wurde allen Formen eines solchen Wortparadigmas, auch aufgrund des ihnen
gemeinsamen gleichen Wortstamms, "dieselbe lexikalische Bedeutung"
zugesprochen / /27/ /, S. 18 ungeachtet der Tatsache, daß Sprachkenner Wortformen
wie /Haus/, /Hauses/ und /Häuser/ usw. neben unterschiedlichen syntaktischen
Funktionen durchaus auch unterschiedliche semantische, etwa durch Singular und
Plural unterschiedene, Bedeutungen zuordnen. Die Problematik einer datensparenden
Zusammenfassung der Funktionen solcher Flexionsformen zu "syntaktischen
Kategorien" wird auch nicht durch eine in / /27/ /, S. 17 für ausreichend angesehene
Kategorisierung beispielsweise substantivischer deutscher Wortformen gemäß den
Begriffen "Kasus" mit den Fällen Nominativ, Genitiv, Dativ und Akkusativ sowie
"Numerus" mit Singular und Plural gelöst, da ihre Kombinierbarkeit etwa mit
Artikel-Formen wie /der/, /die/, /das/ usw. oder /ein/, /eine/ usw. wie auch, davon
wieder abhängig, mit Adjektiv-Formen wie /gute/, /guter/, /gutes/ /guten/ usw. auch
noch vom, im Sachregister von / /27/ / nicht erwähnten Sexus dieser Wort-Paradigmen
abhängt. Ausgehend von den als Konstituenten vorgeschlagenen Flexionsformen
wird gemäß / /27/ /, S. 33 f. deren ein-eindeutige Zusammenfassung zu "Wortarten",
welche als "in sich homogene Grundeinheiten" deren syntaktische Funktionen
beschreiben, aufgrund der Vielzahl der im Deutschen anzutreffenden Wortformen
und der darauf anzuwendenden grammatischen Kombinatorik für praktisch
unmöglich gehalten; die Frage, wie viele Wortarten das Deutsche wirklich habe, sei
eine sinnlose Scheinfrage. Auf die Tatsache, daß die semantische Bedeutung wie
auch syntaktische Funktion einer Wortform in Schrifttexten auch durch darin
aufgeführte Interpunktionszeichen wie etwas Punkt, Komma, Bindestrich,
Anführungszeichen usw. mitbestimmt sein kann, wird in / /27/ / nicht eingegangen; sie
werden im Sachwortregister nicht erwähnt. Die Begriffe "Kommunikation" und
"Information" fehlen ebenfalls darin, da auch die erfindungsgemäß zu lösende
Aufgabe, durch die bei der Sprachkommunikation verwendeten Wortformen
Information zu übermitteln, in / /27/ / nicht diskutiert wird.
Als nachteilig erweist sich der gegenwärtig unbefriedigende Entwicklungsstand
grammatischer Verfahren der erfindungsgemäßen Art außerdem für die Realisierung
weiterer, hierdurch nicht abgedeckter Sprachverfahren, welche die Übermittlung
semantischer Inhalte zum Ziel haben, da semantische Bedeutungen von
Textabschnitten T häufig entscheidend von ihren durch weitere Textabschnitte T
mitbestimmten grammatischen Bedeutungen abhängen. So werden beispielsweise in
dem auch in / /6/ / zitierten englischen Satz /Time flies like an arrow./ den Wörtern
/flies/ und /like/ ganz andere grammatische und daraus folgend auch semantische
Inhalte zugeordnet als einem äußerlich ähnlich zusammengesetzten Satz /Fruit flies
like an orchard./ mit /fruit flies/ als Subjekt und /like/ als Prädikat.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren der eingangs genannten Art
für eine gemäß vorliegenden Vorgaben in einer oder mehreren natürlichen Sprachen,
also auch mehrsprachig, zu führende Kommunikation anzugeben, welche mit, in den
vorgesehenen Medien abzufassenden beziehungsweise aufzunehmenden, Texten
durchgeführt wird, die so mit grammatischen, für die Zuordnung auch semantischer
Inhalte geeigneten, Inhalten in Bezug gesetzt werden, daß damit eine Übermittlung
solcher Inhalte einschließlich einer inhaltsbezogenen Übertragung in Texte weiterer
natürlicher Sprachen, auch vom Mündlichen ins Schriftliche und umgekehrt, mittels
rechnergestützt durchzuführender Verfahren möglich wird, wobei bei ungenau,
mehrdeutig oder fehlerhaft abgefaßten Texten entsprechende Kennzeichnungen,
gegebenenfalls auch Korrekturen, vornehmbar werden, so daß beim gegenwärtigen
Stand angetroffene Probleme lösbar und maschinelle Einrichtungen möglich werden,
welche bisher bei der natürlichsprachigen Kommunikation von Menschen
wahrgenommene Funktionen der angeführten Art übernehmen und somit eine solche
Kommunikation zwischen Mensch und Maschine sowie zwischen Maschinen möglich
machen.
Diese Aufgabe wird durch die in Anspruch 1 aufgezeigten, in Unteransprüchen weiter
ausgeführten Maßnahmen im Rahmen eines als M bezeichneten, mittels
rechnergestützter Einrichtungen durchführbaren Verfahrens gelöst. Verfahren M sieht
vor, die Kommunikation zwischen Kommunikationspartnern Pa entsprechend den
von, gegebenenfalls auch als Partner Pa fungierenden, Nutzern des Verfahrens oder
auch Partnern Pa eingebrachten Vorgaben Vr mittels von Autoren At aus
Sprachsignalen der für die betreffenden natürlichen Sprachen L vorgesehenen Medien
zu bildenden und von deren Empfängern Hr auszuwertenden, durch Eigenschaften
H(T) gekennzeichneten Texten T durchzuführen, welche durch Zuordnung
grammatischer Inhalte N, denen semantische Inhalte zugeordnet werden können, zu
grammatischen Nachrichten TN ergänzt werden, wobei diese Zuordnungen unter
Beachtung der Wahrscheinlichkeiten p(TN) ihres Auftretens vorgenommen werden,
welche allgemein auf die unten näher beschriebenen Daten D bezogen werden. Diese
Nachrichten TN werden als Komplexe Kp = EmEm aus bestimmten Komponenten Em
unter Beachtung ihrer durch Daten D wie gegebenenfalls auch durch weitere
Komponenten Em bedingten Wahrscheinlichkeiten p(Em) zusammengefügt. Diese
Komponenten Em umfassen den Sprachen L angepaßte, unter Einbeziehung der
Wahrscheinlichkeiten p(Gs) ihres Auftretens durch grammatische Daten Ws
beschriebene Symbole Gs, die jeweils als zu einer disjunkten Klasse Kl = Gr = (Gt) von
Textsymbolen Gt superierte grammatische Symbole Gr gebildet werden. Deren
Textsymbole Gt werden jeweils durch, zu einer disjunkten Klasse Kl = Gt = (Ts)
superierte, Textabschnitte T = Ts repräsentiert, die sämtlich ein Repertoire R(H(T))
von, durch Toleranzen dH näher bestimmten, also innerhalb dieser Toleranzen
liegenden Texteigenschaften H(T) aufweisen. Hierbei gibt jedes grammatische
Symbol Gr ein Repertoire R(Pr) von durch, gegebenenfalls durch weitere Symbole Gr
bedingten, Wahrscheinlichkeiten p(Gr) näher bestimmten, Möglichkeiten seiner,
durch Rangordnungen Ra und die Positionen P der über dessen Textsymbole Gt a Gr
zugeordneten Textabschnitte Ts a Gt in Texten T festgelegten, Anordnungen Pr. in
den grammatischen Nachrichten TN vor. Als Daten D werden allgemein mit
Sicherheit, also mit Wahrscheinlichkeit p = 1 vorliegende, auch als Evidenz D
bezeichnete Begriffe und Daten eingesetzt, wie sie beispielsweise auch gemäß der
entsprechend Vorgaben Vr jeweils zu leistenden Kommunikationsaufgabe durch die
Sprachsignale einlaufender Texte T wie auch durch definierte Merkmale H(T) solcher
Texte T wie gegebenenfalls auch Vorgaben Vr repräsentiert werden, wobei, wie
unten weiter ausgeführt, Wahrscheinlichkeiten p(TN) durch entsprechende, durch D
beziehungsweise T bedingte, Vr implizierende Wahrscheinlichkeiten
p(TN) = p(N/D) = p(N/T) gegeben sind. Für die aufgabengemäß eingeschlossene
mehrsprachige Kommunikation werden weiterhin grammatische Vokabeln Vqq, kurz
auch Vokabeln Vqq, eingesetzt, welche bestimmte Bezüge zwischen, als weitere
Komponenten Em verwendeten, bestimmten Komplexen Vq = GtGt von Textsymbolen
Gt unterschiedlicher Sprachen L angeben und durch Daten Wst der grammatischen
Daten Ws beschrieben werden. Gemäß Verfahren M werden grammatische
Nachrichten TN jeweils dadurch gebildet, daß ein oder mehrere grammatische
Symbole Gr entsprechend den Möglichkeiten ihrer Anordnungen Pr zu eine 99999 00070 552 001000280000000200012000285919988800040 0002010015859 00004 99880m
Hintergrund E zusammengefügt werden, der durch einen, aus einer Permutation von
diesen Symbolen Gr zugeordneten und gemäß deren Anordnungen Pr
zusammengefügten Textsymbolen Gt gebildeten Satz S zu einem grammatischen
Inhalt N ergänzt wird, der durch einen, aus einer Permutation von den Symbolen Gt
dieses Satzes S zugeordneten und an, durch diese Anordnungen Pr bestimmten,
Positionen P angeordneten Textabschnitten Ts gebildeten, als Äußerung Tp oder auch
als Teil hiervon einzusetzenden Text T zu dieser Nachricht TN ergänzt wird, wobei
Textabschnitte Ts gegebenenfalls auch diskontinuierlich oder auch als Affixe
weiterer Textabschnitte Ts angeordnet werden. Bei den bei mehrsprachigen
Kommunikationsaufgaben gemäß Vorgaben Vr zu leistenden Übersetzungen werden
hierzu die den Vokabeln Vqq zugeordneten, unter Beachtung ihrer Anordnungen Pr
gebildeten Komplexe Vq = GtGt von Symbolen Gt a Gr der unterschiedlichen
Sprachen L als Komponenten Em verwendet.
Verfahren M sieht in einer bevorzugten Ausgestaltung vor, für die Komplexbildung
von grammatischen Nachrichten TN aus Komponenten Em als Textsymbole Gt, auch
als objektive Wörter bezeichnete, Symbole Vt und als grammatische Symbole Gr
hieraus zu disjunkten Klassen Kl = (Vt) superierte Einheiten Gr = G zu verwenden, die
dadurch an die betreffenden natürlichen Sprachen L angepaßt sind, daß sie den
Ergebnissen bestimmter, quantitativ auszuwertender Nachweisverfahren entsprechen,
welche an Sprachtexten T unter Mitwirkung von Experten dieser Sprachen L unter
Beachtung grammatischer und semantischer Bedeutungen dieser Texte durchgeführt
werden und Beobachtungen bestimmter, unten beschriebener Invarianzen I bei
ebenfalls unten beschriebenen Transformationen Q solcher Texte T vorsehen, woraus
eine universelle Nutzbarkeit des Verfahrens M für beliebige natürliche Sprachen L
mit Vorteilen besonders bei mehrsprachigen Anwendungen resultiert. Hierfür werden
Transformationen Q zugrunde gelegt, die sich von den für bisher diskutierte
Transformationsgrammatiken / /24/ / vorgeschlagenen Textmanipulationen und hierbei
zu beachtenden Textmanipulationen unterscheiden, wie sie beispielsweise in
"operationalen Verfahren" / /24/ / unter Bezeichnungen / /24/ / wie Verschiebeprobe,
Ersatzprobe, Weglaß-, Erweiterungs- oder Kontaktprobe mit entsprechend
resultierenden Satzgliedern / /24/ / bekannt wurden. Abweichend vom hierdurch
charakterisierten und auch oben geschilderten gegenwärtigen Stand sieht das
erfindungsgemäße Verfahren M den Einsatz empirisch ausreichend streng definierter
Symbole Gs vor, deren Eigenschaften H(Gs) entsprechend den vorgesehenen
Maßnahmen, welche statistische Auswertungen mit einschließen, auch quantitativ
mit einer für technische Verfahren üblichen, auch quantitativ anzugebenden
Genauigkeit festlegbar werden. Wie unter näher ausgeführt, schließen die
erfindungsgemäßen Transformationen Q neben einer Beobachtung von Texten T
auch Beobachtungen bestimmter Reaktionen der hinzugezogenen Experten mit ein,
so wie analog beispielsweise medizinische Verfahren zur Behandlung bestimmter
Krankheiten aufgrund der prinzipiell beobachtbaren Verwendung beobachtbarer
Substanzen und Gegenstände wie auch Beobachtungen von Reaktionen der damit
behandelten Personen festgelegt werden, wobei die erwünschte Objektivität
grundsätzlich durch statistische Bewertungen der Aussagen einer ausreichenden Zahl
von, als Sprachexperten beziehungsweise Patienten, gewissermaßen in der Rolle
komplexer Meßgeräte eingesetzten Personen gewährleistet werden kann.
Abweichend von bekannten Transformationsgrammatiken / /24/ /, generativen
Grammatiken und Semantiken / /24/ / sowie Konstituentenstukturgrammatiken / /24/ /
wie auch Unifikationsgrammatiken / /24/ / einschließlich der darin verwendeten, auch
als "Generalized Phrase Structure Grammar" / /24/ / oder auch "Lexical Functional
Grammar" / /24/ / bezeichneten, Vorschlägen zur Darstellung der in natürlichen
Sprachen L anzutreffenden Gesetzmäßigkeiten werden im erfindungsgemäßen
Verfahren M entsprechend den Transformationen Q durch Texte wie auch
Textkomplexe T repräsentierte Symbole Vt verwendet, die gegebenenfalls auch nur
Teile lexikalischer Wörter oder, gegebenenfalls auch diskontinuierlich angeordnete,
Komplexe Kp mehrerer lexikalischer Wörter umfassen, welche bei Schriftsprachen
auch Satzzeichen, Abstände wie auch unten definierte Operatoren o zur
Modifizierung zugeordneter Textabschnitte T mit einschließen und sich von den in
den zitierten Grammatiken / /24/ / verwendeten Phrasen / /24/ / unterscheiden, wie sie
beispielsweise auch in / /2/ /, S. 116 f. diskutiert wurden. Dies hat vorteilhaft zur Folge,
daß die Symbole Vt zu einer vergleichsweise geringen Anzahl von, als disjunkte
Klassen Kl = G = (Vt) gebildeten, grammatischen Symbolen Gr = G superierbar
werden, wodurch es möglich wird, die Zuordenbarkeit der Symbole Vt zu
grammatischen Nachrichten TN mit einer entsprechend geringen Menge von den
Symbolen G zugeordneten Daten zu beschreiben. Aus der Zugrundelegung der
Transformationen Q folgt weiterhin, daß diese Zuordenbarkeiten von Einheiten G
und somit Symbolen Vt ganz überwiegend durch Daten 2. Ordnung, notiert als O(2),
teilweise auch 1. Ordnung O(1) beschrieben werden, welche Abhängigkeiten von
einer oder keiner weiteren Einheit G ausdrücken, während Daten höherer Ordnung,
welche mehrfach verkettete, rechnerisch schwer zu bewältigende Abhängigkeiten
anzeigen, weitgehend vermeidbar bleiben. Dabei unterscheiden sich die genannten,
unter näher definierten Rangordnungen Ra von den für bekannte
Dependenzgrammatiken / /24/ / eingeführten, beispielsweise durch Ersatzproben / /24/ /
näher bestimmten Abhängigkeitsrelationen zwischen den hierfür wie auch für die
oben zitierten Grammatiken / /24/ / als Konstituenten von natürlichen Sätzen
angenommenen Begriffen.
Die in dieser bevorzugten Ausgestaltung des Verfahrens M vorgesehene
Verwendung von Textsymbolen Gt = Vt, welche den genannten, sowohl syntaktisch-
grammatische als auch semantische Bedeutungen berücksichtigenden
Transformationen Q von Texten T genügen, hat weiterhin vorteilhaft zur Folge, daß
die so definierten objektiven Wörter Vt nicht nur als Träger grammatischer, sondern
auch semantischer Inhalte einsetzbar werden; entsprechend werden sie nachfolgend
auch als grammatische Symbole Vt = Gr wie auch als semantische Symbole Vt = Gp
bezeichnet.
Erfindungsgemäß werden Texte T zum einen als Zusammenfügungen, also
Komplexe Kp = TxTx von, physikalisch grundsätzlich mit niedrigen
Fehlertoleranzen dTx meßbaren, im gegebenen Kommunikationsmedium anfallenden
Textsignalen Tx, beispielsweise des zeitabhängigen Schalldrucks oder der
Schriftkoordinaten, definiert. Des weiteren werden sie auch als Komplexe Kp = GtGt
von festzulegenden, auch Zeichen Gt = Z genannten, weiteren Textsymbolen Gt
behandelt, welche jeweils durch ein innerhalb einer Toleranz dH liegendes
Textmerkmal H(T), oder auch ein Repertoire R(H(T)) solcher Merkmale oder auch
einen Komplex Kp solcher Merkmale H oder Repertoires R gegeben sind, wobei für
die Toleranzen dH auch wesentlich über den physikalisch meßbaren Werten dTx
liegende Werte gewählt werden. In Anpassung an die Sprachen L werden als
Merkmale H(T) neben bestimmten Komplexen Kp von Meßwerten Tx des
Schalldrucks oder der Schriftkoordinaten als Funktion der Zeit beziehungsweise der
Schriftrichtung a auch hieraus abgeleitete Größen wie Tonfrequenz, spektrale
Verteilung der akustischen Leistung, erste und zweite Ableitungen wie auch
Integrale der Meßwerte Tx nach t beziehungsweise a, also auch Strichrichtung, -
krümmung und -schlaufen, Minima und Maxima usw. verwendet, wobei Textsignale
Tx auch relativ zu durch angrenzende Signale Tx bestimmten Durchschnittswerten
und Varianzen beispielsweise von Lautstärke, Grundlinie und Höhe eines
Schriftzuges usw. festgelegt werden. Aufgrund der prinzipiellen empirischen
Nachweisbarkeit der Texteigenschaften H(T) mit Toleranzen dH stellen auch die
Textsymbole Gt einschließlich der Zeichen Z mit ihren Eigenschaften H(Gt)
ausreichend streng definierte, für die rechnerische Behandlung geeignete Größen dar,
deren Zahl durch entsprechende Wahl der Toleranzen dH sowie der unter definierten
Informationswerte h(Z) wie auch durch Komplexbildungen zu weiteren Symbolen Gt
= ZZ wie beispielsweise auch objektive Wörter Gt = Vt in einem für verfügbare
Rechner beherrschbaren Rahmen gehalten wird. Gemäß ihrer sicheren
Nachweisbarkeit in gegebenen Texten T werden solche Merkmale H(T) und
Komplexe Kp hiervon auch als vorliegende Evidenz D, kurz auch Daten D,
bezeichnet. Entsprechend dieser Definition von Texten T sind unter den
erfindungsgemäß bei der Zuordnung grammatischer Inhalte N zu Texten T zu
beachtenden Wahrscheinlichkeiten p(N/T) allgemein bedingte Wahrscheinlichkeiten
p(N/D) bezüglich vorliegender, die Texte T betreffender Evidenzen D zu verstehen.
In Anpassung an die betreffenden Sprachen L werden bevorzugt Texteigenschaften
H(T) wie auch Repertoires R und Komplexe Kp hiervon verwendet, welche
entsprechend ihren unten definierten, quantitativ anzugebenden Informationswerten
h(Z) in Sprachen L gewohnheitsmäßig als Merkmale oder auch Zeichen Z eingesetzt
werden.
Eine bevorzugte Ausgestaltung der Erfindung sieht die Verwendung von
Textsymbolen Gt vor, welche Zeichen Z sowie hieraus in einer oder mehreren
Hierarchien durch komplex- wie gegebenenfalls auch klassenbildende Superierung
gebildete objektive Wörter Vt umfassen, wobei die Zeichen Z als disjunkte Klassen
Kl = (Tr) von diesen mit ausreichend hohen Wahrscheinlichkeiten p(Tr/Z)
zugeordneten Textabschnitten T = Tr mit entsprechenden Merkmalen H(T) und die
objektiven Wörter Vt auch als disjunkte Klassen Kl = (Ts) von entsprechend
zugeordneten Textabschnitten Ts definiert werden. Entsprechend wird bei der
Bildung grammatischer Nachrichten TN ein Textsymbol Gt einer übergeordneten
Hierarchie wie beispielsweise ein Wort Vt als Komplex Kp = ZZ der diesem
zugeordneten Zeichen Z dargestellt, wobei entsprechend ein Text Ts eines solchen
Wortes Vt als Komplex Kp = TrTr = Ts einer Permutation von diesen Zeichen Z
zugeordneten Textabschnitten Tr zusammengefügt wird. Wie unten weiter
ausgeführt, werden als Evidenz D nachweisbare Merkmale H(T) wie auch bestimmte
Komplexe Kp hiervon sowie Merkmale und Merkmalskomplexe H weiterer Begriffe
A, welchen ein Symbol Gs mit ausreichend hoher Wahrscheinlichkeit p(Gs/A)
zuordenbar ist, auch als Adressen A = Ad für dessen in Betracht zu ziehende
Verwendung als Komponente Em in einer Nachricht TN verwendet.
Zur wechselseitigen Unterscheidung der hier eingeführten, in mehreren
Superierungshierarchien aufgebauten Textsymbole Gt werden die objektiven Wörter
Vt auch als Symbole Vt = Gt1 notiert, die einem Repertoire R1(Gt1) angehören und
als Komplexe Gt1 = ZZ von Zeichen Z = Gt2 eines Repertoires R2(Gt2) = R2(Z)
aufgebaut werden, welche auch als Zeichen Z = Z1 notiert werden, falls
gegebenenfalls diese Zeichen Z1 = Gt2 als Komplexe Z1 = Z2Z2 weiterer Zeichen
Z2 = Gt3 eines weiteren Repertoires R3(Z2) von Textsymbolen Gt3 aufgebaut
werden usw.
Zur Beschreibung der erfindungsgmäß einzusetzenden Gegenstände und Maßnahmen
werden neben den oben gegebenen Definitionen die folgenden weiteren Begriffe und
Definitionen verwendet: Als grammatische Bedeutungen von Texten T natürlicher
Sprachen L gelten neben den genannten grammatischen Inhalten N, kurz auch
Inhalte N genannt, auch bestimmte Teile wie auch Komplexe Kp = NN hiervon.
Semantische Inhalte werden auch als Inhalte F notiert. Eine aus einem Text T mit
grammatischem Inhalt N gebildete grammatische Nachricht TN mit dieser
zugeordnetem semantischem Inhalt F wird als semantische Nachricht TNF
bezeichnet, beide kurz auch als Nachrichten TN beziehungsweise TNF, wobei
vereinfachend auch die Notierungen T a TN, N a TN, F a TNF gebraucht werden.
Die Bildung von semantischen Nachrichten TNF durch Zuordnung semantischer
Inhalte F zu grammatischen Nachrichten TN und somit eine allgemeine
pragmatikbezogene Kommunikation ist nicht Aufgabe der vorliegenden Erfindung,
sie wird in Erfindungsmeldung P . . . behandelt. Da die hierfür zu fordernde Zuordnung
von Sachverhalten F zu Textteilen T und deren Kombination zu weiteren Inhalten F
jedoch im Regelfall von den grammatischen Bedeutungen der Texte T abhängt,
liefert das vorliegende grammatische Verfahren M eine wesentliche Voraussetzung
für die Realisierung solcher semantischen Verfahren. Die Erfindung schließt jedoch
eine Berücksichtigung semantischer Inhalte F von Texten T, insbesondere bei der
Festlegung von Symbolen Gs einschließlich der Vokabeln Vqq mittels Anwendung
der Transformationen Q unter Mitwirkung von Experten sowie bei der maschinellen
Abwicklung von Übersetzungen mit ein, wo sowohl die Korrektheit von Texten T =
Tf bezüglich Inhalten F wie auch die Gleichheit der Inhalte F verschiedener Texte T
zu beachten ist. Wie bereits oben am Textbeispiel /Ein heller Ton./ gezeigt, bietet das
erfindungsgemäße grammatische Verfahren M die Möglichkeit, eine Vielzahl der bei
der Sprachkommunikation anfallenden Aufgaben beispielsweise durch die genannten
hörenden Schreibmaschinen und Einrichtungen zur Korrektur oder Übersetzung von
Texten T zu lösen, ohne daß hierbei auf aufwendig zu erstellende, zu speichernde
und anzuwendende Datensammlungen von Eigenschaften der angesprochenen
pragmatischen Sachgebiete F zurückgegriffen werden muß, wie sie für semantische
Verfahren allgemein zu fordern sind.
Entsprechend den Gegebenheiten der einzusetzenden Sprachen L läßt die Erfindung
auch das Auftreten grammatisch und somit auch semantisch mehrdeutiger Texte T
zu, die jeweils alternativ zugleich mehreren grammatischen Inhalten N mit
entsprechend unterschiedlichen Hintergründen E und entsprechend unterschiedlichen
semantischen Inhalten F zuzuordnen sind. Weiterhin wird das vorkommen
semantisch mehrdeutiger grammatischer Nachrichten TN zugelassen, bei denen
einem Text T mit einem eindeutig zugeordneten Inhalt N und Hintergrund E mehrere
unterschiedliche Sachverhalte F zuordenbar sind. Die in der erfindungsgemäßen
grammatikbezogenen Kommunikation dabei vorgeschlagene, unten näher erläuterte
quantitative Beurteilung der Zuordnung mehrerer möglich erscheinender
grammatischer Inhalte N zu einem Text T bietet dabei den Vorteil, daß so auch
aufwandsparend Hinweise dafür geliefert werden, in welchem, in der Regel großen,
Anteil der Kommunikationsakte, die Bedeutungen der Texte T bereits ausreichend
berücksichtigt wurden und welcher, entsprechend geringe, Anteil gegebenenfalls
weiteren semantischen Bedeutungsanalysen zugeführt oder auch für einen Nutzer
oder Partner Pa entsprechend markiert werden sollte.
Folgende weitere Bezeichnungen werden benutzt: Eine aus Elementen A = El oder
Komponenten Em gebildete Superierung B wird auch Superbegriff genannt.
Beispielsweise gilt ein als Komplex Vt1 = Vt2,Vt3 aus zwei weiteren objektiven
Wörtern Vt2 und Vt3 gebildetes Wort Vt1 als Superwort Vt1. Zugehörigkeiten A a B
von Begriffen A zu Mengen B werden mit den entsprechenden Mengenbegriffen
auch durch Kp(A), Kl(A) oder R(A) ausgedrückt. Durch nA wird angezeigt, daß ein
Begriff A nicht verwendet wird oder nicht vorliegt. Durch A = El(B) und A = Em(B)
wird A als Element El oder Komponente Em einer Klasse Kl = B beziehungsweise
eines Komplexes Kp = B identifiziert. Die entsprechenden Bezüge werden auch als
Kl/El- und Kp/Em-Bezüge notiert. Eine Superierung Kp beziehungsweise Kl gilt als
seinen Komponenten Em beziehungsweise Elementen El hierarchisch übergeordnet;
in einer Ausbildung wird ihnen auch ein höherer Rang Ra zugemessen.
Gleichrangige Superierungsstufen werden jeweils einer gleichen
Superierungshierarchie der betreffenden Menge B, beispielsweise eines Komplexes
B = Kp, zugeordnet. Eigenschaften, durch die ein Begriff A näher gekennzeichnet ist
wie Bezüge zu weiteren Begriffen, Wahrscheinlichkeiten usw. werden allgemein als
Eigenschaften H(A) notiert. Es wird definiert, daß eine Superierung B durch ein oder
mehrere Elemente El oder Komponenten Em gebildet wird. Die bei sequentieller
Superierung nacheinander entstehenden Komplexe Kp werden auch
Superierungsstufen genannt.
Die mengenbildende Superierung zweier Mengen oder Ensembles A und B wird
unter Beachtung der Reihenfolge allgemein als A q B notiert. Unter Verwendung des
Symbols =: für die explizite Bezeichnung von Identitäten zeigt q =: d den
Durchschnitt zweier Ensembles an, q =: s ihre Vereinigung, q =: m den Ausschluß
des nachgestellten Ensembles und q =: o disjunkt das voran- oder nachgestellte
Ensemble an. Ein Repertoire R(A) von geordneten Begriffen A wird auch Alphabet
genannt. Durch nachgestellte Ziffern oder Kleinbuchstaben entsprechend A1 oder Aa
wird auch auf einen bestimmten Begriff A hingewiesen. Die nachgestellten
Kleinbuchstaben u, v, w, x, y und z werden für laufende Indizes reserviert, wobei
mehrstellige Indizes auch durch Punkte getrennt werden und Axy oder Ax.y
beispielsweise für A11 entsprechend x = 1 und y = 1 oder für A12.4 mit x = 12 usw.
oder für Aab steht. Es wird definiert, daß der gleiche Indexbuchstabe, beispielsweise
x, an unterschiedlichen Positionen oder nach unterschiedlichen Größen nicht
notwendig den gleichen Zahlenwert anzeigt.
Ein quantitativer Bezug zwischen 2 skalaren Größen A und B wird allgemein durch
A r B ausgedrückt. Hierbei bedeutet, wieder unter Beachtung der Reihenfolge, r =: k
"A kleiner als B", kk "viel kleiner als", g "größer als", gg "viel größer als", ke
"kleiner oder gleich", ge "größer oder gleich", ue "ungefähr gleich" und ne
"ungleich". Gleichheit wird durch =, Identität durch = oder =:, Addition durch +,
Subtraktion durch -, Multiplikation durch ×, Division durch einen Schrägstrich /
bezeichnet, der je nach Zusammenhang auch die genannten Textproben T oder
bedingten Wahrscheinlichkeiten p anzeigt.
Unter Wahrscheinlichkeit p(A) wird sowohl die relative Häufigkeit verstanden, mit
der ein Gegenstand A in einem Bruchteil von betrachteten Fällen anzutreffen war
oder ist, als auch der relative Erwartungswert für das Auftreten von A in einem
Einzelfall / /17/ /. Hierbei werden unter einer Notation p(A) nicht nur Daten 1.
Ordnung O(1), sondern gegebenenfalls auch bedingte, vom Vorliegen weiterer
Ereignisse oder Gegenstände B, C usw. abhängige Wahrscheinlichkeiten p(A/B) der
Ordnung O(2), p(A/B; C) der Ordnung O(3) usw. verstanden, wobei B
gegebenenfalls auch das Nicht-Vorliegen B = nD eines weiteren Ereignisses D
symbolisiert. Abhängigkeiten von weiteren Gegebenheiten wie Anordnungen Pr
werden entsprechend als p(A/B; Pr) notiert. Gemäß p(B) × p(A/B) = p(A) × p(B/A)
ist durch eine bedingte Wahrscheinlichkeit p(A/B) implizit auch die inverse
Wahrscheinlichkeit p(B/A) gegeben. Erfindungsgemäß werden die Anordnungen Pr
von Symbolen Gs in grammatischen Nachrichten TN durch diesen zugeordnete
Valenzen Um unterschiedlichen Typs, durch einen Rang Ra, Positionen P wie
allgemein auch durch Verknüpfungsknoten Uk näher definiert und geregelt. Wie
ersichtlich, dient die Klammer (A) neben der genannten Anzeige von
Klassenbildungen Kl auch konventionellen Symbolisierungen.
Einer, gegebenenfalls auch bedingten, Wahrscheinlichkeit p(A) wird eine
Information j(A) = log(1/p(A)) zugeordnet, worin log den Logarithmus zur Basis 2
bezeichnet und j(A) als Informationsbetrag, in bit, definiert wird, der zum sicheren
Wissen, daß A vorliegt, noch fehlt / /13/ /, S. 87 f. Danach hängt der
Informationsbeitrag j(A), den ein Nachrichtensignal D über A liefert, vom Vorwissen
ab. Folgt beispielsweise aus einem Signal D eine Wahrscheinlichkeit p(A/D) = 1, so
liefert D eine Information von j = 1 bit, wenn a priori p(A) = 0,5 galt, dagegen 2 bit,
wenn a priori p(A) = 0,25 anzunehmen war. Dabei wird, wie beim geschilderten
gegenwärtigen Stand nicht immer beachtet, die Nachricht D wie auch der
Sachverhalt A unterschieden von der als quantitative Eigenschaft hiervon gebildeten
Information j.
Neben der Wahrscheinlichkeit p(A) und Information j(A) von Begriffen A wird eine
Größe h(A) = p(A) × j(A) verwendet, welche in / /13/ /, S. 119 Unsicherheit genannt
wird, hier im folgenden als Informationswert oder kurz Wert h(A) bezeichnet wird,
worunter gegebenenfalls auch bedingte Werte h(A/B) der Ordnung O(2) usw.
verstanden werden. Geringe Informationswerte h(A) k hs unterhalb eines
Schwellwertes hs sind dadurch gekennzeichnet, daß, mit j k js, eine Größe A so
häufig oder, mit p k ps so selten zu erwarten ist, daß sie im Mittel nur wenig
Information j liefert, wobei durch die Bezeichnungen ps kk 1 und js kk 1 hier wie im
folgenden ebenfalls Schwellwerte angezeigt werden.
Das erfindungsgemäße Verfahren M sieht vor, die Kommunikation sowohl in der
Funktion des Autors At als auch des Hörers Hr mit Texten T durchzuführen, die
entsprechend zu bildenden grammatischen Nachrichten TN mit Inhalten N
zugeordnet sind. Bei deren Bildung ist allgemein durch den Autor At, wo möglich
auch durch den Hörer Hr eine Bedingung Bs =: p(Em) ge ps einzuhalten, wonach die
Zuordnung jeder Komponente Em zur betreffenden Nachricht TN mit einer einen
Schwellwert ps nicht unterschreitenden, gegebenenfalls durch eine oder mehrere
bereits verwendete Komponenten Em a TN bedingten, Wahrscheinlichkeit erfolgt.
Eine Bedingung Bs erfüllende Nachricht TN wird auch als grammatisch korrekte
Nachricht TNg, ihr Inhalt als grammatisch korrekter Inhalt Ng bezeichnet. Weiterhin
werden, neben der oben eingeführten Bezeichnung T = Tf für einen bezüglich seines
semantischen Inhalts F korrekten Text, die Bezeichnungen grammatisch korrekter
Text Tg a TNg, grammatisch korrekter Hintergrund Eg a TNg und grammatisch
korrekter Satz Sg a TNg verwendet.
Verfahren M sieht ferner allgemein vor, daß die bei der Kommunikation
einzusetzenden Nachrichten TN aus Komponenten Em und Komplexen Kp wie
gegebenenfalls auch Klassen Kl hiervon gebildet werden, deren quantitativ zu
berücksichtigende Eigenschaften H(Em) beziehungsweise H(Kp) und H(Kl)
einschließlich Wahrscheinlichkeiten p, Informationen j, Informationswerten h,
Texteigenschaften H(T) wie auch Abstände a bei Positionen P durch entsprechend
festzulegende Toleranzen dH, Schwellwerte ps, js oder hs wie auch Referenzwerte
wie pr so den Gegebenheiten der betreffenden Sprachen L, der durchzuführenden
Kommunikationsakte, der daran teilnehmenden Kommunikationspartnern Pa sowie
der verfügbaren Vorrichtungen angepaßt werden, daß die Kommunikationsakte mit
vertretbarem Aufwand, mit akzeptablen Fehlerraten und in zulässigen
Bearbeitungszeiten durchführbar werden. So werden, auch unter Beachtung
vorliegender Vorgaben Vr, die Schwellwerte ps und hs um so niedriger gewählt, je
mehr Rechenkapazität und -zeit verfügbar sind und je höher die erwartete Rate der
Normabweichungen und Fehler bei einlaufenden Texten T oder auch bei zu
berücksichtigenden Vorgaben Vr anzusetzen ist.
Verfahren M wird aufgabengemäß in Verfahrensteile aufgegliedert, welche jeweils
unter Beachtung vorliegender Vorgaben Vr durchzuführen sind. Hiervon betrifft Teil
M1 die Erzeugung von grammatischen Nachrichten TN mit diesen zugeordneten
ausgehenden Texten T, Teil M2 die Erzeugung von grammatischen Nachrichten TN
durch Zuordnung entsprechend zu bildender grammatischer Inhalte N zu
einlaufenden Texten T und Teil M3 die Übertragung einlaufender Texte T einer
Ausgangssprache L in bezüglich semantischer Inhalte F ausreichend
gleichbedeutende ausgehende Texte T' einer Zielsprache L', wobei die Texte T und
T' entsprechend zu bildenden grammatischen Nachrichten TN beziehungsweise T'N'
zugeordnet werden. Als Spezialfall umfaßt Teil M2 auch die Korrektur fehlerhafter
einlaufender Texte T zu ausreichend normgerechten Texten T. Verfahren M sieht
vor, auch abhängig von den zu leistenden Kommunikationsakten wie auch Vorgaben
Vr, die Verfahrensteile M1, M2 und M3 jeweils auch unter Einsatz von durch die
jeweils weiteren Teile M1, M2 und M3 gegebenen Maßnahmen durchzuführen,
wobei M2 in M1, M1 in M2 und M1 und M2 in M3 Anwendung finden. Maßnahmen
zur aufgabengemäß gegebenenfalls unter Mitwirkung von Experten vorzunehmenden
Erzeugung der für die Durchführung der Teile M1, M2 und M3 benötigten Begriffe,
welche durch die, im folgenden auch als Grammatiken bezeichneten, Daten Ws
beschrieben werden, werden in einem weiteren Verfahrensteil M4 zusammengefaßt,
bei welchem in verschiedenen Ausgestaltungen auch gemäß einem oder mehreren der
Verfahrensteile M1, M2 und M3 ausgeführte Kommunikationsakte Anwendung
finden.
Die genannten Vorgaben Vr umfassen allgemein durch Nutzer, gegebenenfalls auch
Kommunikationspartner Pa in eindeutig kodierter oder auch natürlichsprachlicher
Form einzubringende Hinweise und Forderungen zur Durchführung der jeweils
anstehenden Kommunikationsakte. Entsprechend gehören hierzu eine oder mehrere
Forderungen wie beispielsweise die Sprache L einlaufender Texte T zu bestimmen,
solchen Texten T Nachrichten TN zuzuordnen, Texte T zu korrigieren, vom
Mündlichen ins Schriftliche oder umgekehrt oder auch in bestimmte Fremdsprachen
L zu übertragen, Repertoires R beispielsweise in Form lexikalischer Wörter
vorgegebener Begriffe zu auszugebenden Texten T zu verarbeiten, Texte T zu
markieren, auszugeben, Partner Pa auszuwählen, Lösungsprobleme bekanntzugeben
und zu hinterfragen, Schwellwerte zu verwenden oder abzuändern usw. Weitere
Vorgaben Vr folgen auch aus den für die Verfahrensteile M1 bis M3 vorgesehenen
Ablauforganisationen wie gegebenenfalls auch aus Eigenschaften einlaufender Texte
T wie Sprechgeschwindigkeiten, Fehlerraten usw.
Die Erfindungsbeschreibung wird am Beispiel der genannten bevorzugten
Ausgestaltung fortgeführt, in der als Textsymbole Gt objektive Wörter Vt = (Ts) und
als grammatische Symbole Gr hieraus als disjunkte Klassen gebildete Einheiten
G = (Vt) verwendet werden. In einer weiteren Ausgestaltung werden, auch in
Anpassung an die betreffenden Sprachen L, Wörter Vt als Textsymbole Gt1
eingesetzt, die als Komplexe Vt = ZZ der oben eingeführten Zeichen Z gebildet
werden, welche als weitere, als disjunkte Klassen Z = (Tr) von Textabschnitten Tr
definierte Textsymbole Gt2 = Z eingesetzt werden. Hierbei wird also für eine Sprache
L neben einem Repertoire R1(Gt1) von Symbolen Gt1 = Vt ein für diese wie
gegebenenfalls auch weitere Sprachen L einzusetzendes Repertoire R2(Gt2)
verwendet. In weiteren Ausbildungen werden gegebenenfalls solche Textsymbole Gt2
auch in einer oder mehreren Superierungshierarchien als Komplexe Kp weiterer
Textsymbole Gt3 usw. weiterer Repertoires R3(Gt3) usw. gebildet, beispielsweise
objektive Wörter Vt als Komplexe Vt = ZaZa von Zeichen Z = Za, diese wiederum als
Komplexe Za = ZbZb von Zeichen Zb usw. Die die Texte Tr a Z bestimmenden
Texteigenschaften H(T) mit Toleranzen dH werden vorzugsweise so festgelegt, daß
die Repertoires R2(Gt2) usw. wie R(Za) durch den verfügbaren Vorrichtungen
angepaßte Datenmengen beschreibbar werden. Hierbei werden die Wörter Vt = (Ts)
auch als disjunkte Klassen Vt = (ZZs) von diesen jeweils in begrenzter Anzahl
zugeordneten Komplexen ZZ = ZZs solcher Zeichen Z formuliert mit der Folge, daß
die gemäß Verfahren M zu berücksichtigenden Daten Ws der betreffenden Sprachen
L nur eine begrenzte, der Kapazität verfügbarer Vorrichtungen anpaßbare
Datenmenge erfordern. Entsprechend ihren allgemein als Komplexbildungen Kp der
genannten Texteigenschaften H(T) zu beschreibender Eigenschaften, welche
gegebenenfalls jeweils auch als Repertoires R(H(T)) mehrerer solcher Eigenschaften
H(T) zu verstehen sind, werden die Zeichen Z kurz auch als Merkmale Z bezeichnet.
Der oben eingeführten Terminologie folgend werden die Toleranzen dH der den
Texten Tr a Z wie auch Ts a Vt zugeordneten Eigenschaften H(T) kurz auch als
Toleranzen dT wie auch dTr beziehungsweise dTs bezeichnet.
In einer bevorzugten Ausgestaltung der Erfindung werden Repertoires R2(Gt2) =
R2(Z) von Zeichen Z eingesetzt, deren Merkmale H(T) mit Toleranzen dH so
festgelegt werden, daß sie in Textabschnitten Tn, welche auf eine Länge zwischen
den durchschnittlichen Längen der Textteile Ts a Gt1 des Repertoires R1(G1) und Tr
a Z des Repertoires R2(Z) einer Sprache L normiert werden, mit ausreichend hohen
Informationswerten h(Z/Tn) g hs oberhalb eines festzulegenden Schwellwertes hs
vorkommen, was kurz auch als h(Z/Vt) g hs notiert wird. Entsprechend wird
gegebenenfalls für weitere Zeichenhierarchien auch h(Zb/Za) g hs usw. gefordert.
Hierdurch wird vorteilhaft erreicht, daß die vorgesehene Bildung grammatischer
Nachrichten TN mit Repertoires R(Gs) von Symbolen Gs möglich wird, welche
jeweils beschränkte, Redundanzen weitgehend vermeidende Repertoires R(Gt) von
Textsymbolen Gt umfassen, welche durch ein entsprechend beschränktes
Datenvolumen beschreibbar werden, wobei zugleich unnötige Vieldeutigkeiten, die
zu kombinatorischen Explosionen der in Betracht zu ziehenden Entscheidungsbäume
und somit zu einem hohen Verarbeitungsaufwand führen könnten, vermieden
werden. Repertoires R(Za) von in mehreren Superierungshierarchien einander
zugeordneten Zeichen Za = ZbZb usw. werden vorteilhaft insbesondere bei Sprachen
L eingesetzt, deren Texte T, beispielsweise mündlich oder handschriftlich, in
Analogform geäußert werden, bei denen also ein Textsymbol Gt = (T) durch eine
disjunkte Klasse Kl von mit hoher Varianz voneinander unterschiedlichen
Textabschnitten T a Gt repräsentiert wird. Die Verwendung von in mehreren
Superierungshierarchien einander zugeordneten Zeichen Za = ZbZb usw. ist dabei
vorteilhaft insbesondere auch für solche Sprachen L vorgesehen, deren den Wörtern
Vt zugeordnete Textabschnitte Ts a Vt durch einen vergleichsweise hohen
Komplexitätsgrad gekennzeichnet sind. Die Beschreibung der Texte Ts a Vt wird so
aufwandsparend durch vergleichsweise kleine Repertoires R(Za) und R(Zb) usw. von
Textsymbolen Gt des Typs Za und Zb usw. möglich, während eine Beschreibung
dieser Texte Ts durch Merkmale Za einer einzigen Hierarchie den Einsatz wesentlich
umfangreicherer, rechnerisch schwerer zu beherrschenden Repertoires R(Za) von
Textsymbolen Za erfordern würde.
Die Erfindung sieht vor, die Repertoires R(Gs) der Symbole Gs der Sprachen L
jeweils alphabetisch zu ordnen. In einer Ausbildung hiervon erfolgt die Ordnung in
Richtung fallender Informationswerte h(Gs). Entsprechend erfolgt die Ordnung der
Zeichen Z nach fallenden Werten h(Z/Vt) wie auch h(Zb/Za) usw. Bei der
vorgesehenen Verwendung von Zeichen Z mit ausreichend hohen
Informationswerten h(Z) ge hs entspricht dies einer Ordnung nach abnehmenden
Wahrscheinlichkeiten p(Z). Definitionsgemäß werden Textsymbole Gt wie Wörter
Vt und Zeichen wie auch Superzeichen Z auch als Supertexte bezeichnet.
In einer vorteilhaften Ausgestaltung werden den Textsymbolen Gt auch jeweils ein
oder mehrere Normtexte Ta a Gt, entsprechend also Tsa a Vt beziehungsweise Tra a
Z, zugeordnet. In einer Ausbildung werden den Texten T a Gt zugeordnete
Toleranzen dT auf solche Normtexte Ta bezogen. Entsprechend ist in einer weiteren
Ausgestaltung vorgesehen, Textsymbolen Gt1 = ZZ, die als Komplexe ZZ einer
untergeordneten Hierarchie von Textsymbolen Gt2 = Z gebildet werden, jeweils
einen oder mehrere Normkomplexe ZZa a Gt1 zuzuordnen, wobei also Wörter Vt
durch entsprechende Normkomplexe ZZsa a Vt und Superzeichen Z = Z1 durch
Normkomplexe Z2Z2ra a Z1 von diese als Komplexe Kp bildenden Zeichen Z = Z2
gekennzeichnet werden.
Entsprechend der vorgesehenen Definition von Texten T als Merkmalskomplexe Kp
= H(T)H(T) von Merkmalen H(T) mit Toleranzen dH, welche mit ausreichend hohen
Wahrscheinlichkeiten p(Z/H(T)) k 1 Zeichen Z zugeordnet werden, werden in
Kommunikationsakten anfallende Texte T auch als jeweils disjunkte Klasse Kl = T =
ZZ1 o ZZ2 o . . . = (ZZx) mehrerer solcher Merkmalskomplexe ZZx behandelt. In
einer vorteilhaft vereinfachten Ausbildung wird hierbei unter Anwendung des
Prinzips maximaler Entropie für die Wahrscheinlichkeiten p(T/ZZx)
Gleichverteilung festgelegt. Entsprechend werden als Komplexe Kp solcher
Merkmale Z gebildete Textsymbole Gt wie Wörter Vt oder Superzeichen Z1
ebenfalls als Komplexe Vt = ZZ beziehungsweise Z1 = Z2Z2 solcher Zeichen Z
beziehungsweise Z2 geschrieben, wobei erfindungsgemäß Texte T = ZZ nicht
ausgeschlossen werden, in welchen Textsymbole Gt auch durch von Normen ZZa
abweichende, gegebenenfalls auch als fehlerhaft zu bezeichnende Komplexe ZZ
repräsentiert werden, wobei durch einen Textabschnitt T gegebenenfalls mehrdeutig
disjunkt zugleich auch unterschiedliche Zeichen wie auch Superzeichen Z mit
Wahrscheinlichkeiten p(Z/T) k 1 und entsprechend p(T/Z) k 1 angezeigt werden.
Als Merkmale H(T) von Zeichen Z werden durch Toleranzen dH definierte Teile von
Textsignalen T wie auch hieraus durch mathematische Operationen ableitbare
Merkmale eingesetzt, wobei als Operationen beispielsweise Differationen oder
Spektralanalysen berücksichtigt werden. Entsprechend umfassen die Merkmale
mündlicher Texte T auch Elemente der Prosodie / /24/ /, bei Schrifttexten T auch
Hinweise auf Textabwandlungen, Abgrenzungen, Abstände, Zusammenziehungen,
Interpunktionen wie auch der Groß- und Kleinschreibung. Weiterhin werden als
Zeichen Z auch eingeführte natürliche Zeichen wie Buchstaben, Silben- und
Wortzeichen wie auch Ideogramme verwendet. Bei digital kodierten Daten Ws
werden zur Kodierung der Zeichen Z wie weiterer Symbole Gs vorzugsweise
monoton mit der von ihnen erbrachten Information j(Gs) ansteigende Datenmengen
verwendet. Entsprechend den Gegebenheiten der Sprachen L werden neben
gegebenenfalls verwendeten Alphabeten von Superzeichen Za = ZbZb wie
beispielsweise natürlichen Zeichen wie Buchstaben oder Phonemen auch ein oder
mehrere hierarchisch untergeordnete Alphabete R(Z) von Merkmalen Zb = (Tr)
eingesetzt, deren Zahl die der Superzeichen Za, gegebenenfalls auch wesentlich,
übersteigt.
Den Texten T von Sprachen L mit mündlich oder auch handschriftlich geäußerten
Texten T werden Merkmale Z = (Ts) vorzugsweise so zugeordnet, daß bestimmte
Eigenschaften H(Tr) eines zugeordneten Textsignals Tr über die Länge seines
Verlaufs in Textrichtung innerhalb bestimmter Toleranzen dH als Merkmale
annähernd konstant bleiben. Zu diesen Eigenschaften gehören oben genannte
Parameter wie beispielsweise die spektrale Verteilung der akustischen Leistung wie
auch zeitliche Ableitungen hiervon, bei handschriftlichen Texten T entsprechend
Parameter wie Strichrichtung, wie sie bei Auf- oder Abstrichen oder auch
Strichkrümmung, wie sie bei Bögen und Schlaufen anzutreffen sind. Entsprechend
werden ausreichend hohe zeitliche Ableitungen höherer Ordnung beispielsweise bei
Lautstärke, Frequenz oder Frequenzspektrum beziehungsweise Änderungen der
Strichrichtung als Teilungshinweise für die Zeichen Z benutzt, während in einer
weiteren Ausbildung solche Teiler als weitere Merkmale Z eingesetzt werden. In
einer oder mehreren der nachfolgend genannten Ausgestaltungen werden Repertoires
R(Zx) von Merkmalen Zx = (Tryx) = R(H(Tryx)) mit Toleranzen dTr so festgelegt,
daß für einen Text Try1 a Z1, der einem Zeichen Z1 mit ausreichend hoher
Wahrscheinlichkeit p(R(H(Try1))/Z1) bezüglich seiner Eigenschaften H(Try1)
zugeordnet ist, überwiegend geringe Wahrscheinlichkeiten p(R(H(Try1))/Z2) k ps
für die Zuordnung zu den weiteren Zeichen Z2 a R(Zx) gelten. Für serielle Sprachen
L werden die Merkmale Zx so festgelegt, daß sich die Texte Ts a Vt der Wörter Vt =
(Ts) in den Texten T = ZxZx = TsTs als Folgen aneinandergrenzender, im Regelfall
nicht überlappend angeordneter Zeichenfolgen ZZ ergeben. Es wird berücksichtigt,
daß insbesondere bei mündlichen Sprachen L bestimmte Laute Z = Z1 gelegentlich
zugleich als Endlaut Z1 a Vt11 eines vorangestellten Wortes Vt11 und als
Anfangslaut Z1 a Vt21 des darauffolgenden Wortes Vt21 fungieren, so daß solche
Zeichen Z1 in Texten T in solchen Fällen jeweils, nicht disjunkt, zugleich zwei
Wörter Vt11 und Vt21 an den entsprechenden Positionen P anzeigen, wie es
beispielsweise bei der Zusammenziehung zweier durch /hast/ und /du/ angezeigter
Wörter Vt zu einem durch T = /hasdu/ angenäherten Text zu beobachten ist.
Entsprechend den Gegebenheiten der Sprachen L wird so allgemein berücksichtigt,
daß Zeichen Z an bestimmten Positionen P eines Textes T a TN disjunkt nur ein
Wort Vt, weitere Zeichen Z dagegen auch zugleich 2 Wörter Vt eines Inhalts N
anzeigen, im Regelfall aber kein Zeichen Z zugleich mehr als 2 Wörter Vt a N
anzeigt. Wo nicht anders angegeben, erfolgt die Erfindungsbeschreibung ohne
Einschränkung an Allgemeingültigkeit am Beispiel von Sprachen L, deren Texte T
seriell durch eindimensional aneinandergereihte Komplexe T = ZZ von Zeichen Z
dargestellt werden. Die in einer weiteren Ausführungsform hierbei ebenfalls als
Zeichen Z verwendeten Operatoren Z =: o werden unter erläutert. Erfindungsgemäß
werden Texte T mit Textabschnitten T1 a T zugelassen, die zugleich disjunkt auch
unterschiedlichen Zeichen Z zugeordnet werden oder auch keinem Zeichen Z
zuordenbar sind und entsprechend als Rauschen oder Störungen in den Nachrichten
N auszusondern und zu vernachlässigen sind.
Entsprechend der in Sprachen L anzutreffenden Möglichkeit, daß ein als
Superzeichen Vt = (ZZsx) einer disjunkten Klasse Kl einer beschränkten Anzahl von
Zeichenkomplexen ZZsx definiertes objektives Wort Vt in Texten T durch eine
disjunkte Klasse Vt = (Tsy) einer theoretisch unbegrenzten Anzahl von
Textabschnitten Tsy repräsentiert werden kann, sind anstelle der entsprechend
geringen Zuordnungswahrscheinlichkeiten p(Tsy/Vt) g ps2 wesentlich höhere
Wahrscheinlichkeiten p(ZZsx/Vt) g ps1 zu berücksichtigen, wodurch der für die
Komplexbildung von grammatischen Nachrichten TN erforderliche Aufwand,
insbesondere auch bei Anwendung der unten ausgeführten nichtlinearen
Informationsverarbeitung Bb, wesentlich verringert wird. Im einzelnen ergeben sich
aus dem in den genannten bevorzugten Ausgestaltungen der Erfindung vorgesehenen
Aufbau der zugleich als grammatische Symbole Gr und Textsymbole Gt
fungierenden objektiven Wörter Vt aus weiteren, in den Texten T mit ausreichend
hohen Informationswerten h(Z) zu detektierenden Textsymbolen Gt = Z beschränkter
Alphabete R(Z) auch die folgenden Vorteile: Zum einen ist zur Beschreibung der den
Wörtern Vt zugeordneten Merkmalskomplexe ZZs a Vt jeweils durchschnittlich ein
wesentlich geringeres Datenvolumen bereitzustellen, als es zur Beschreibung der
Koordinaten Tx a Ts der Signale der ihnen disjunkt zugeordneten Texte Ts a Vt
anzusetzen wäre. Des weiteren wächst insbesondere bei Analogtexten, auch bedingt
durch wachsende Autorenzahlen, die Anzahl der pro Wort Vt anfallenden
voneinander unterschiedlichen Textabschnitte Ts a Vt und somit das
bereitzustellende Volumen der zur Beschreibung der Textsignalkoordinaten Tx a Ts
benötigten Daten monoton mit der Länge der anfallenden Texte T an, während die
Zahl der pro Wort Vt, auch unter Berücksichtigung möglicher Fehler, anfallenden
Zeichenkomplexe ZZs a Vt mit wachsender Textlänge frühzeitig eine Sättigung
entsprechend einem rechnerisch wesentlich leichter beherrschbaren Datenvolumen
erreicht. Der Vorteil dieser Datenreduzierung wird durch einen zusätzlichen
Verarbeitungsaufwand, wie er aufgrund der Zuordnungsmöglichkeiten mehrerer
unterschiedlicher Zeichenkomplexe ZZ zu einem Text T mit der hieraus folgenden
Notwendigkeit der Bestimmung eines jeweils zu bevorzugenden Komplexes ZZ
durch Zuordnung zu einem entsprechend zu bildenden grammatischen Inhalt N
erwächst, nur vergleichsweise geringfügig abgeschwächt.
Die als grammatische Symbole Gr verwendeten Einheiten G werden in einer
vorteilhaft datensparenden Ausbildung auch als in einer oder mehreren Hierarchien
gebildete Superierungen G = CC wie auch G = (C) von Klassen C = (B) von
Begriffen B gebildet, wobei als Begriffe B Wörter Vt wie auch als Teilwörter vt
bezeichnete Teile hiervon wie auch als Teileinheiten g = (vt) bezeichnete
Teilwortklassen (vt) mit vt a g verwendet werden. Insbesondere werden als Klassen
C auch Teileinheiten g = g1 eingesetzt, die in anderen Nachrichten TN auch als
eigene Einheiten g1 = G1 Verwendung finden. In vereinfachten Darstellungen
werden so als Komplexe Kp solcher Teileinheiten g1 aufgebaute Einheiten G2 =
g1g1 auch G2 = G1G1 geschrieben. Vorteilhaft werden hierbei den Teileinheiten g1
= G1 gegebenenfalls zugeordnete und durch die Komplexbildung zu G2 nicht
gesättigte Valenzen Um für die Zuordnungen Pr weiterer Einheiten G zu G2 in
Hintergründen E berücksichtigt, wie es unten an Beispielen erläutert wird.
Definitionsgemäß ergib sich ein Wort Vt2y a G2 einer als Komplex, in seriellen
Sprachen L also als Folge, weiterer Teileinheiten g1 gebildeten Einheit G2 = g1g1
als Permutation Vt2y = vt1y,vt1y der Teilwörter vt1y a g1 unter Beachtung ihrer
Zuordnungen Pr. Die den Teilwörtern vt = (T) zugeordneten Textteile T a Ts von
Worttexten Ts a Vt werden auch als ts a vt bezeichnet, wobei ein Worttext Ts a Vt
entsprechend als Permutation Ts = tsts von Teilworttexten ts a vt a gt erzeugt wird.
Einzelheiten dieser Formulierungsweise werden im unten angeführten Sprachbeispiel
1) erläutert, wo Einheit G131 als aus 3 Teileinheiten g21, g31 und g22 gebildeter
Komplex Kp formuliert wird, während Einheit G11 = g9g8 einen Komplex Kp
darstellt, in dem 2 weitere Einheiten G9 und G8 hier als Teileinheiten g9 und g8
fungieren. Entsprechend ergibt sich ein Wort Vt11.y a G11 als Permutation Vt11.y =
vt9.y,vt8.y zweier den Komponenten Em a G11 zugeordneter Teilwörter vt = Vt.
Hierbei wird in einer vorteilhaft datensparenden Ausbildung bei Komplexen wie G11
= g9g8 durch eine Positionsangabe P(a) = g9:g8 der unter definierten Art angezeigt,
daß Komponente g8 sowohl Komponente g9 wie gegebenenfalls auch sämtlichen
weiteren, g9 als Anhänger An(g9) usw. rangniedriger zugeordneten Einheiten G
nachzustellen ist, was durch entsprechende Toleranzangaben da für den Abstand a
berücksichtigt wird.
Der gemäß Verfahren M vorgesehene Aufbau grammatischer Nachrichten TN aus
disjunkten Symbolen Gs wird auch als Bedingung Cs bezeichnet. Danach wird
beispielsweise bei einer Einheit Gx = (Vt) mit Vt = (ZZs) und (Z a Vt) = (Tr) in einer
Nachricht TN diese Einheit Gx durch ein Wort Vt a Gx, dieses Wort Vt durch einen
Zeichenkomplex ZZ a Vt und ein Zeichen Z a ZZ durch einen Textabschnitt Tr a Z,
und zwar in der jeweils durch die Anordnung Pr gegebenen Zuordnung Pr
beziehungsweise Position P vertreten. Hierbei schließt das Vorkommen einer
disjunkten Einheit G1 in einer Nachricht TN nicht aus, daß G1 wie gegebenenfalls
auch ein Symbol Gs a G1 in dieser Nachricht in anderen Zuordnungen Pr, wieder
jeweils unter Einhaltung von Bedingung Cs, auch noch weitere Male anzutreffen ist.
Wie auch dem unten diskutierten Beispiel 1) anhand der Formulierungen der
Einheiten G131, G6, G11 und G16 zu entnehmen ist, werden die erfindungsgemäß
als Symbole Gr und Gt einzusetzenden objektiven Wörter Vt in Texten T durch
Textabschnitte Ts repräsentiert, welche sowohl natürliche Wörter wie auch Teile
hiervon wie auch aus mehreren natürlichen Wörtern wie auch Teilen hiervon
gebildete Komplexe Kp umfassen, welche gegebenenfalls auch Textteile T wie
Interpunktionen, Abstände oder auch Absätze mit einschließen.
Während die bei den geschilderten herkömmlichen Sprachverfahren übliche
Verwendung lexikalischer Wörter und gegebenenfalls auch diesen zugeordneter
grammatischer Kategorien entsprechend der in der betreffenden natürlichen Sprache
L anzutreffenden Vielfalt möglicher Kombinationen solcher Wörter wie auch
Kategorien die Berücksichtigung von in der gerätetechnischen Praxis nicht mehr
bewältigbaren Mengen von Bezugsdaten vielfach auch hoher Ordnung O(n)
zwischen diesen Wörter oder auch Kategorien erfordert, macht der
erfindungsgemäße Einsatz von den genannten Transformationen Q genügenden
objektiven Wörtern Vt deren Zusammenfassung zu einer vergleichsweise sehr
geringen Anzahl von Oberbegriffen G möglich, in welchen die grammatischen
Bezugsmöglichkeiten der Wörter Vt in grammatischen Nachrichten TN entsprechend
den Möglichkeiten der Anordnungen Pr dieser Oberbegriffe G zusammengefaßt und
durch praktisch handhabbare Daten von überwiegend niedriger Ordnung O(n)
beschreibbar werden.
Die Erfindung sieht vor, die bei mehrsprachigen Kommunikationsaufgaben
anfallenden Übertragungen von Texten T einer Ausgangssprache L in Texte T' einer
Zielsprache L' unter Verwendung der genannten Vokabeln Vqq durchzuführen,
worin entsprechend der angeführten bevorzugten Ausgestaltung als Symbole Gt
objektive Wörter Vt berücksichtigt werden. Diese Vokabeln Vqq geben, auch als
Vqq =: Vq = R(Vq') notierte, Bezüge jeweils eines Komplexes Kp = Vq = VtVt von
Wörtern Gt = Vt der Sprache L zu einem disjunkten Repertoire R(Vq') von
Komplexen Vq' = Vt'Vt' von Wörtern Gt' = Vt' von L' an, welche durch bedingte
Wahrscheinlichkeiten p(Vq'/Vq) g ps oberhalb von Schwellwerten ps näher
bestimmt sind, wobei in den Komplexen Vq und Vq' die Anordnungen Pr der als
grammatische Symbole Gr beziehungsweise Gr' eingesetzten Einheiten G und G'
berücksichtigt werden, denen die Wörter Vt beziehungsweise Vt' angehören.
Definitionsgemäß stellen die, ebenfalls kurz als Vokabeln bezeichneten, Komplexe
Vq und Vq' Komplexe von Symbolen Gs dar, die sowohl den Textsymbolen Gt,
grammatischen Symbolen Gr wie auch semantischen Symbolen Gp zuzurechnen
sind. Entsprechend den unterschiedlichen Gegebenheiten von Sprachen L und L'
wird hierbei nicht ausgeschlossen, daß die Wörter Vt beziehungsweise Vt' einer
Vokabel Vq oder Vq' auch unterschiedlichen Nachrichten TN beziehungsweise T'N'
von, einer Äußerung Tp oder Tp' zugeordneten, Komplexen TN,TN
beziehungsweise T'N',T'N' angehören. Die Vokabeln Vq und Vq' werden ebenfalls
als Komponenten Em der betreffenden Nachrichten TN beziehungsweise T'N'
behandelt.
Aus der oben gegebenen Definition der mündlichen und schriftlichen Versionen der
in einer Sprachgemeinschaft X gebrauchten Sprache als unterschiedliche Sprachen L
und L' folgt, daß für Übertragungen vom Mündlichen ins Schriftliche und umgekehrt
Vokabeln Vqq zu verwenden sind, welche entsprechend den Transformationen Q
auch jeweils aus einem objektiven Wort gebildete Vokabeln Vq = Vt und Vq' = Vt'
einander zuordnen, welche gemäß obiger Definition ebenfalls als Komplexe Kp = Vq
beziehungsweise Vq' bezeichnet werden. Die gemäß Verfahrensteil M3 von M unter
Verwendung der Vokabeln Vqq vorzunehmenden Übertragungen zwischen Sprachen
L und L' werden unten behandelt.
Verfahren M sieht allgemein vor, die grammatischen Nachrichten TN, in der unten
beschriebenen bevorzugten Ausbildung auch unter Berücksichtigung des Bayesschen
Ansatzes Ba, aus disjunkten Repertoires R(Em) von Komponenten Em zu erstellen,
welche gemäß den anzuwendenden Daten Ws mit Wahrscheinlichkeiten p(Em/Ad) g
ps oberhalb festzulegender Schwellwerte ps durch Adressen Ad angezeigt werden,
wobei als Adressen Ad Symbole Gs wie auch hieraus aufgebaute Komplexe Kp
eingesetzt werden, welche in vorliegenden, als Evidenz behandelten Daten D
einschließlich Vorgaben Vr anzutreffen sind wie auch durch diese mit ausreichend
hohen Wahrscheinlichkeiten p(Ad/D) g ps angezeigt werden. Hierbei werden gemäß
den anzuwendenden Daten Ws zur Anzeige von als Komponenten Em
einzusetzenden Symbolen Gs = Gs1, welche klassen- oder komplexbildende
Superierungen Gs1 = (Gs2) beziehungsweise Gs1 = Gs2Gs2 von Symbolen Gs2
einer niedrigeren Superierungshierarchie darstellen, Elemente (El a Gs1) = Gs2
beziehungsweise Komponenten (Em a Gs1) = Gs2 wie auch aus solchen
Komponenten Em gebildete Komplexe Kp = Gs2Gs2 als Adressen Ad verwendet,
wobei entsprechend ein Symbol Gs1 auch durch mehrere in einer Evidenz D
zugleich vorliegende Adressen Ad angezeigt werden kann. Hierzu werden
grammatische Daten Ws verwendet, in denen die Symbole Gs1 einer
Superierungshierachie jeweils in einer Liste Wsi geordnet nach einem als Alphabet
geordneten Repertoire R(Ad) der ihnen zuordenbaren Adressen Ad aufgeführt sind.
In einer bevorzugten Ausbildung erfolgt die alphabetische Ordnung in Richtung
fallender Wahrscheinlichkeiten p(Ad). Definitionsgemäß werden als Adressen Ad
auch in Evidenzen D anzutreffende, als Zeichen Z eingesetzte Textmerkmale Z =
H(T) sowie Komplexe ZZ hiervon eingesetzt. In einer weiteren Ausbildung werden
allgemein Symbole Gs = Gs3, welche mit ausreichend hohen Wahrscheinlichkeiten
p(Gs1/Gs3) mit Symbolen Gs1 verknüpft sind, als Adressen Ad für diese Symbole
Gs1 eingesetzt. In den Wahrscheinlichkeiten p(Em/Ad) werden entsprechend einer
Notierung p(Em/Ad; Pr) g ps gegebenenfalls auch Anordnungen Pr der
Komponenten Em und Adressen Ad berücksichtigt, wie sie durch ihre Positionen P
sowie die unten beschriebenen Valenzen Um der Einheiten G bestimmt sind.
Erfindungsgemäß wird nicht ausgeschlossen, daß eine an einer Position P
angetroffene Adresse Ad auch mehrere Komponenten Em a R(Em) eines im
Regelfall disjunkten Repertoires R(Em) in gegebenenfalls auch unterschiedlichen
Anordnungen Pr, also auch Positionen P, anzeigt.
In einer weiteren Ausgestaltung werden die Symbole Gs1 einer
Superierungshierarchie geordnet nach Adressen Ad und in mehreren Listen Wsi
aufgeführt, welche sich durch die Bereiche der hiervon abgedeckten
Wahrscheinlichkeiten p(Gs1/Ad) voneinander unterscheiden, wobei die Listen Wsi
für die Auswahl der aufgrund angetroffener Adressen Ad in den gemäß dem
Bayesschen Ansatz Ba zu berücksichtigenden Konkurrenzhypothesen Ks zu
berücksichtigenden Symbole Gs1 in einer Reihenfolge nach fallenden
Wahrscheinlichkeiten p(Gs1/Ad) herangezogen werden.
Allgemein sieht die Erfindung die Möglichkeit vor, alle Arten von vorliegenden
Hinweisen und Daten D einschließlich Vorgaben Vr, welche Information j über die
einzusetzenden Komponenten Em liefern und gegebenenfalls auch zu
Einschränkungen und Präzisierungen der zu berücksichtigenden Repertoires R(Em)
führen, als Adressen Ad einzusetzen. Um ihr Repertoire R(Ad) in einem
bearbeitbaren Rahmen zu halten, werden entsprechend der bevorzugten Festlegung
von Zeichen Z bevorzugt Adressen Ad eingesetzt, welche ausreichend hohe
Informationswerte h(Em/Ad) g hs liefern. In Anpassung an die Kommunikationsakte
werden hierbei für Textsymbole Gt als Komponenten Em um so niedrigere
Schwellwerte hs gewählt, je höher die zu erwartende Varianz der ein Symbol Gt
anzeigenden Daten D wie Textabschnitte T oder Merkmalskomplexe ZZ
einschließlich der Möglichkeiten ihrer Anordnungen Pr wie auch die für das
betreffende Symbol Gt zu erwartende Fehlerrate anzusetzen ist. Die entsprechend
vorgesehene Berücksichtigung einer jeweils geringen Anzahl von Adressen Ad wie
auch nur einer einzigen Adresse Ad bei weitgehend normgerecht formulierten
einlaufenden Texten T führt andererseits in Anpassung an die jeweilige Aufgabe zu
einem niedrigen Speicherbedarf und zu vorteilhaft kurzen Adressierzeiten für die
betreffenden Symbole Gt.
Entsprechend der angeführten, im Regelfall disjunkten Zuordnung von
Textabschnitten T zu den verwendeten Textsymbolen Gt werden auch die Adressen
Ad als im Regelfall disjunkt definiert. Hierdurch wird ausgedrückt, daß eine Adresse
Ad wie beispielsweise in Zeichen Z1 an einer Position P1 entweder ein Symbol Gs1
o Gs2 o Gs3 o . . . an der betreffenden Position P1 anzeigen kann, also beispielsweise
in Wort Vt11 mit Z1 a Vt11 oder Vt21 mit Z1 a Vt21 usw., wobei aber die oben am
Beispiel des mündlichen Textes /hasdu/ erläuterte Möglichkeit der Zugehörigkeit
eines Zeichens Z zu 2 aneinandergrenzenden Symbolen Gs berücksichtigt wird. Wird
entsprechend obiger Definition eine Komponente Em = B zugleich durch mehrere
angetroffene Adressen Ad1, Ad2 usw. angezeigt, so gilt für ihr Vorliegen eine
Wahrscheinlichkeit p(B) ke p(B/Ad1) + p(B/Ad2) + . . . usw., wobei bei statistischer
Unabhängigkeit der Adressen Ad voneinander anstelle von ke das Gleichheitszeichen
gilt. Die Erfindung sieht vor, beim Vorliegen von als disjunkt bekannten Adressen
Ad, welche alternativ verschiedene Begriffe B anzeigen können, für vorzunehmende
Komplexbildungen vorrangig solche Begriffe B zu verwenden, welche mit insgesamt
ausreichend hohen Wahrscheinlichkeiten p(B/Ad) g ps adressiert werden.
Die vorgesehene Verwendung geordneter Wörterlisten Wsi hat zur Folge, daß das,
auch als Adressieren bezeichnete, Auffinden möglicherweise in den grammatischen
Nachrichten TN einzusetzender Komponenten Em aufgrund vorliegender Daten D
mit einem vertretbaren, an verfügbare Vorrichtungen wie auch an die zu leistenden
Kommunikationsakte anpaßbaren Aufwand möglich wird.
Die Verwendung von aus Textsymbolen Gt = Z gebildeten Adressen Ad = ZZ für
Wörter Vt = (ZZs) mit zugeordneten Zeichenkomplexen ZZs a Vt wird anhand des
unten ausgeführten Beispiels 1) aus der deutschen Schriftsprache erläutert, bei dem
als Zeichen Z normgerecht formulierte Druckbuchstaben Z = Tra verwendet und
Texte T entsprechend als Komplexe T = ZZ = TraTra solcher Buchstaben behandelt
werden. Hierzu wird der dort als Teilwort eingesetzte Komplex vt31.1 behandelt, der
in fehlerfreien Texten T als Zeichenfolge ZZs = vt31.1 = Z1Z2Z3 = /_er/ geschrieben
wird, in dem Z1 = /_/, wie unten definiert, als Operator o das Einhalten eines
Abstands zu einem im Text T vorangestellten Textabschnitt T symbolisiert. In einer
datensparenden, für fehlerfreie Texte T geeigneten Ausbildung wird als einzige
Adresse Ad = ZZ die Zeichenfolge Ad1 = /_er/ verwendet. In einer Ausbildung, die
für aus Normzeichen Z gegebenenfalls auch fehlerhaft zusammengesetzte Texte T =
ZZ geeignet ist, werden als weitere Adressen Ad2 = /_e/ = Z1Z2, Ad3 = /er/ = Z2Z3
und Ad4 = /_r/ = Z1Z3 eingeführt, in einer noch robuster gegen Fehler gehaltenen
Ausbildung weiterhin Ad5 = /e/ = Z2 und Ad6 = /r/ = Z3, wobei bei den als Adressen
benutzten Komplexen Ad = ZZ auch entsprechende Toleranzen dP bei den
Positionsangaben P für die Zeichen Z a vt berücksichtigt werden. Beispielsweise
wird so bei Ad4 ein Abstand a zwischen Z1 und Z3 von mindestens einem bis zu
maximal 2 Zeichen Z festgelegt, wobei entsprechend durch den Text T entweder die
Position P von Z1 oder von Z3 oder auch von beiden Zeichen Z bestimmt wird. So
wird etwa unter Verwendung von Ad4 das Teilwort vt31.1 auch in Texten T an der
entsprechenden Position P adressiert, denen Zeichenfolgen wie ZZ1 = /kommt r
heute?/ oder ZZ2 = /kommt dr heute?/ zuordenbar sind. In einer Zeichenfolge ZZ3 =
/kommter heute?/ wird Vt31.1 an der entsprechenden Position P durch Ad3 = Z2Z3
adressiert. In Anpassung an die Gegebenheiten einlaufender Texte T werden bei der
Festlegung von Adressen Ad auch vergleichsweise häufige Fehlerquellen
berücksichtigt wie beispielsweise das Vertauschen aufeinanderfolgender Buchstaben
bei Schreibmaschinentexten, wobei als weitere Adresse beispielsweise Ad7 = /_re/
eingesetzt wird oder generell ein fehlerhaftes Ersetzen eines Buchstabens durch
einen anderen als Möglichkeit berücksichtigt wird. Entsprechend der in einer
Ausbildung vorgesehenen Verwendung mehrerer, nach Wahrscheinlichkeiten
p(Gs/Ad) geordneten Listen Wsi werden für das Teilwort vt31.1 = /_er/
beispielsweise die Adressen Ad1 bis Ad4 einer bevorzugt zu verwendenden Liste
Wsi1 a Ws und Ad5 bis Ad7 einer gegebenenfalls ersatzweise heranzuziehenden
Liste Wsi2 a Wsi zugeordnet, woraus zugleich vorteilhaft kurze Adressierzeiten für
weitgehend normgerechte Texte T und eine ausreichende Robustheit gegen stärker
hiervon abweichende Texte T resultieren. Entsprechend der vorgesehenen
Berücksichtigung von Adressen Ad, welche ein Symbol Gs mit ausreichend hohen
Wahrscheinlichkeiten p(Gs/Ad) g ps anzeigen, wird der angeführte Zeichenkomplex
Ad3 = /er/ zwar als Adresse Ad für das genannte Teilwort vt31.1 = /_er/ eingesetzt,
nicht aber auch als Adresse für das weitere Wort Vt9.2 = /_Helfer/ aus Beispiel 1),
welches beispielsweise durch Adressen Ad wie Ad9.2.1 = /_Hlfr/ oder Ad9.2.2 =
/Helf/, abhängig vom weiteren zu berücksichtigenden Wortschatz, mit ausreichenden
Wahrscheinlichkeiten p adressiert wird, wobei wieder die entsprechenden Toleranzen
da für die Zeichenabstände a zu berücksichtigen sind.
In einer Ausgestaltung, die besonders für die Behandlung von fehlerhaft abgefaßten
einlaufenden Texten T einschließlich deren Korrektur geeignet ist, werden als
Evidenzen D vorliegende Komplexe ZZ1 von Textmerkmalen wie gegebenenfalls
auch Zeichen Z, welche eine Flexionsform A11 oder auch einen Wortstamm A12
eines natürlichen Wortes A1 repräsentieren, als Adresse Ad für weitere durch
Komplexe ZZ2 repräsentierte Flexionsformen A13, A14 usw. des betreffenden
Wortes A1 eingesetzt. Entsprechend gilt ein solcher Komplex ZZ1 auch als Adresse
Ad für unterschiedliche objektive Wörter Vtxy a Gx, denen die Wortformen A1y,
beispielsweise als Teilwörter At1y a Vtxy oder auch als Wörter At1y = Vtxy
zugeordnet sind. Beispielsweise gelten so in der deutschen Schriftsprache die
Zeichenfolgen /gehen/ oder auch der Stamm /geh/ als Adressen Ad für die objektiven
Wörter Vt21 = /_gehe/, Vt31 = /_gehst/, Vt41 = /_geht/, Vt51 = /-gehen/ usw., so daß
mit dem entsprechenden Symbol Vt11 eine durch die Buchstabenfolge /dugehen/
angenäherte mündliche Äußerung mit ausreichender Wahrscheinlichkeit in einen
Schrifttext Vt11Vt31 = /Du gehst./ korrigierbar wird. Diese Ausgestaltung ist auch
auf die aufgabengemäß eingeschlossene Bildung von grammatikbezogenen Texten T
a TN anwendbar, welche gemäß Vorgaben Vr aus Symbolen Vt a G aufzubauen sind,
die durch Repertoires R(A) von natürlichen Wörtern A in beliebigen Flexionsformen
beispielsweise auch Verben im Infinitiv, vorgegeben sind. Weitere Maßnahmen zur
Zuordnung von Textsymbolen Gt = ZZ zu Adressen Ad = ZZ unter expliziter
Berücksichtigung von Fehlerquellen Gf und Wahrscheinlichkeiten p werden unten
behandelt.
Die gemäß den genannten Ausbildungen vorgesehene Verwendung von in mehreren
Superierungshierarchien gebildeten Textsymbolen Gt, bei denen also Superzeichen
Zb = ZaZa als Komplexe Kp von durch Texteigenschaften H(T) definierten Zeichen
Za gebildet werden, wird am Beispiel handschriftlicher Texte T für den Buchstaben
Zb1 = /n/ erläutert. Dieser wird beispielsweise als Komplex Zb11 =
Za1Za2Za3Za4Za1Za2Za3 von Merkmalen Za1, Za2, Za3 und Za4 formuliert, bei
denen aus den Schriftzugkoordinaten x in Schriftrichtung und y orthogonal hierzu
gebildete Texteigenschaften H(T) berücksichtigt werden. Hierbei symbolisiert Za1
einen Bogen mit negativer Krümmung c = d2y/dx2 oberhalb einer durch y = 0
definierten Grundlinie, Za3 eine Schriftzugumkehr mit positiver Krümmung c =
d2y/dx2 nahe y = 0 und Za2 und Za4 einen Ab- beziehungsweise Aufstrich mit
entsprechend hohen Steigungen b = dy/dx überwiegend im positiven y-Bereich. Im
einzelnen wird beispielsweise Za1 ein Repertoire R(H(T)) der folgenden
Texteigenschaften H(T) zugeordnet: H11 = (b1 k y k b2) mit positiven Werten für b1
und b2; H12 = (a1 k (x12 - x11) k a2), worin x11 die Anfangs- und x12 die
Endkoordinate in Schriftrichtung und die a positive Werte darstellen; H13 = (c2 k
d2y/dx2 k c1) mit negativem c1 und c2. Entsprechend gelten für Za2 die
Eigenschaften: H21 = (b3 k y k b2), mit negativem b3; H22 = (a3 k (x22 - x21) k
a2); H23 = (b1 k dy/dx k b2), worin b1 einen hohen negativen und b2 einen hohen
positiven Wert symbolisiert. Als weitere Eigenschaft H24 gilt x21 = x12 und y21 =
y12, wonach die Anfangskoordinaten von Za2 mit den Endkoordinaten von Za1
zusammenfallen; entsprechendes gilt für Za1 bei Zusammenschreibung mit einem
gegebenenfalls vorangestellten Zeichen Za. Entsprechende Eigenschaften H(T) sind
für Za3 und Za4 zu formulieren. Als Adressen Ad für die Superzeichen Zb werden in
Anpassung an die Schreibgewohnheiten der Autoren At auch Komplexe ZaZa mit
entsprechend geringeren Mengen von Merkmalen Za eingesetzt. Beispielsweise wird
für fadenförmig ausgezogene Schrifttypen zweckmäßig auch eine Adresse Ad =
Za1Za2Za3 verwendet. Wie das Beispiel zeigt, werden erfindungsgemäß so auch
unbeschränkte Klassen (T) von Textsymbolen Gt zugeordneten Textabschnitten T,
deren Textkoordinaten x und y und Kombinationen hiervon prinzipiell mit
unbeschränkten Mengen von den Textkoordinaten Tx zugeordneten Daten zu
beschreiben wären, durch eine vergleichsweise geringe Anzahl von den
Eigenschaften H(T) zugeordneten Parametern beschrieben, deren Daten maschinell
vorgegebene Rahmenbedingungen nicht überschreiten. Für mündliche Texte T
werden entsprechend über den Koordinaten x für die Zeit und y für die
Schallamplitude wie auch hieraus abgeleiteten Größen wie Intensität, Frequenz und
Spektrum gebildete Texteigenschaften H(T) benutzt. In weiteren Ausbildungen
werden hierfür auch Abweichungen bestimmter Parameter wie auch Toleranzen von
durch vorangehende Merkmale Z vorgegebenen Werten eingesetzt. Im einzelnen
werden entsprechend obigen Ausführungen als Adressen Ad beispielsweise
Textmerkmale H(T) für Zeichen Z, diese für Superzeichen Z, objektive Wörter Vt
und Teilwörter vt, diese für Vokabeln Vqq, Einheiten G und Teileinheiten g, und
Einheiten G mit Valenzen Um für weitere Einheiten G eingesetzt. Gegebenenfalls
werden auch die entsprechenden inversen Bezüge für Adressierungen benutzt.
Die eingeführten Positionen P bei der wechselseitigen Zuordnung Pr von
Komponenten Em = Ax in den als Komplexe EmEm gebildeten Nachrichten TN
werden bei seriellen Sprachen L allgemein durch ihre Reihenfolge, welche
beispielsweise durch A1A2A3 . . . oder auch durch A1:A2, A1:A3, A1:A3 und
A1:A2:A3 . . . bezeichnet wird, wie auch durch die betreffenden Abstände a = axy,
also a12 zwischen A1 und A2, a13 zwischen A1 und A3 usw. definiert, wobei die
Abstände a auch durch positive und negative Toleranzwerte da näher bestimmt
werden. Positionsangaben P für Elemente Axy a (By = (Axy)) werden in Anpassung
an die betreffenden Sprachen L im Regelfall auch als für ihre Klassen Kl = By gültig
definiert. So impliziert für 2 Textabschnitte Ts111 a Vt11 a G1 und Ts211 a Vt21 a
G2 eine Positionsangabe P = Ts111:Ts211 auch die Positionen P = Vt11:Vt21 und P
= G1:G2 der Wörter Vtxy und Einheiten Gx und umgekehrt. Für die Positionen P
zwischen zwei Komponenten A1 und A2 werden auch Bezeichnungen P(A1; a12; A2)
oder P12(a12) verwendet. Die Abstände a werden in den Gegebenheiten der Sprachen
L angepaßten Ausbildungen durch gegebene Textmerkmale wie Zeitablauf,
Textlänge, Zahl der Textabschnitte Tr beziehungsweise Ts sowie Abstände zwischen
Zeichen Z oder Wörtern Vt usw. ausgedrückt, in aufwandsparenden Varianten auch
durch Maximalwerte eingegrenzt oder vernachlässigt. Gegebenenfalls anzutreffende
Abhängigkeiten bedingter Wahrscheinlichkeiten p von gemäß der vorliegenden
Evidenz D anzutreffenden Positionen P der Komponenten Em werden auch in
analytischer Form ausgedrückt; beispielsweise werden Wahrscheinlichkeiten p
(G2/G1; Pr) bei festgelegter Reihenfolge G1:G2 für Werte a ge a1 als monoton mit a
abnehmend bestimmt. Nicht-serielle Komplexe EmEm werden durch entsprechend
höherdimensionale, beispielsweise vektoriell formulierte Positionen P beschrieben.
Bei der Festlegung von Normtexten Ta wie auch Adressen Ad werden gegebenenfalls
auch die Sprech- beziehungsweise Schreibgewohnheiten der Autoren At,
beispielsweise auch unter Berücksichtigung von Dialekten, Stimmlage,
Sprechgeschwindigkeit, Schriftgröße und der anzutreffenden Mittelwerte, Varianzen
usw. berücksichtigt, wobei eingeführte Normtexte Ta beziehungsweise Adressen Ad
gegebenenfalls auch eine entsprechend weitergehende Normierung erfahren. In einer
Ausbildung erfolgt diese Berücksichtigung der Gewohnheiten der Autoren dadurch,
daß diese vorgegebene Textsymbole Gt wie Wörter Vt und gegebenenfalls auch
Komplexe und Teile hiervon in Maschinen einlesen beziehungsweise einschreiben,
mit welchen durch Anwendung bekannter Korrelationsprozesse geeignete Normtexte
Tsa wie gegebenenfalls auch Tra und Tda für die betreffenden Wörter Vt
beziehungsweise Zeichen Z und Adressen Ad wie auch entsprechende Toleranzen
dTs, dTd beziehungsweise dTr für die solchen Symbolen Gt zuzuordnenden
Textabschnitte T bestimmt werden. Generell erfolgt die Zuordnung von Textklassen
(Txy) zu Textsymbolen Gtx gemäß Toleranzen dTy wie gegebenenfalls auch
Normtexten Tay aufgrund des Maßes an Übereinstimmung bezüglich jeweils einer
beschränkten Anzahl von Texteigenschaften H(T), wie sie mit Hilfe bekannter
Begriffe der Statistik wie Korrelation, Abstandsquadraten, Ähnlichkeit wie auch
Wahrscheinlichkeiten p und Informationswerten h bestimmt werden, wodurch auch
eine gegebenenfalls durch eine theoretisch unbegrenzte Menge physikalisch meßbarer
Daten D zu beschreibende Menge von Textsymbolen Gt und Komplexen GtGt
hiervon durch eine praktisch handhabbare Datenmenge beschreibbar wird.
Die in der genannten Ausgestaltung vorgesehene Ordnung der Alphabete R(Z) nach
fallenden Werten von h(Z) oder auch p(Z) der Zeichen Z führt in der als Beispiel
gewählten deutschen Schriftsprache, bei der Buchstaben als Zeichen oder auch
Superzeichen Z eingesetzt werden, zu einer Reihenfolge, wie sie durch die in
/ /13/ /, S. 182 aufgeführten Wahrscheinlichkeiten p(Z) ue h(Z) gegeben ist und gemäß
/e/, /_/, /n/, /i/, /s/, /r/, /t/, /h/, /d/, /a/, /c/, /u/, /l/, /g/ usw. verläuft, worin Zeichen /_/
wieder den unten definierten Abstand natürlicher Wörter zum jeweils vorangestellten
Text T symbolisiert. Entsprechend den angeführten Toleranzen dTr der Texte Tr a Z
wird berücksichtigt, daß durch einen Textabschnitt T mit Eigenschaften H(T)
disjunkt auch mehrere Zeichen Z adressiert werden können.
In einer weiteren Ausgestaltung der Erfindung werden bei der Ergänzung von
einlaufenden Texten T zu grammatischen Nachrichten TN, welche unter Beachtung
der gemäß dem unten ausgeführten Bayesschen Ansatz Ba zu bestimmenden
Wahrscheinlichkeiten p(N/T) vorzunehmen ist, Normabweichungen wie auch Fehler
in den Texten T auf folgende Weise berücksichtigt: Für ein Textsymbol Gt wie
beispielsweise ein objektives Wort Vt oder ein Superzeichen Z, das durch einen
Norm-Zeichenkomplex Gt = ZZa näher definiert wird, in Texten T aber durch darin
identifizierte, von ZZa abweichende Komplexe ZZb von Zeichen Z repräsentiert
wird, werden die in Ansatz Ba einzusetzenden Wahrscheinlichkeiten p(ZZ/Gt) in
funktionaler Form vorgegeben. Hierdurch wird vorteilhaft erreicht, daß die
Zuordnung gegebenenfalls auch größerer Mengen voneinander verschiedener
Zeichenkomplexe ZZb zu jeweils einem Symbol Gt unter Einsatz beschränkter, den
verfügbaren Vorrichtungen anpaßbarer Datenmengen möglich wird. In einer
bevorzugten Ausbildung werden für die Textsymbole Gt Erzeugungsregeln Gte für
die Erzeugung von jeweils disjunkt einem oder gegebenenfalls auch nicht-disjunkt
mehreren Symbolen Gt mit Wahrscheinlichkeiten p(Z/Gt) an Positionen P mit
Toleranzen dP zuzuordnenden Zeichen Z festgelegt, denen Fehlergeneratoren Gf
beigeordnet werden, welche mit an die betreffenden Kommunikationsakte
angepaßten Wahrscheinlichkeiten p(Z/Gf) stochastisch an Positionen P gemäß den
Erzeugungsregeln Gte erwartete Zeichen Z entfernen oder diese durch andere
Zeichen Z ersetzen oder auch weitere Zeichen Z einfügen. Hierdurch werden die den
Regeln Gte entsprechenden Wahrscheinlichkeiten p(ZZa/Gt) auf realistische, den
einlaufenden Texten T entsprechende Werte p(ZZb/Gt) abgewandelt, welche im
Ansatz Ba verwendet werden.
Im einzelnen werden den Textsymbolen Gt entsprechend den diesen zuzuordnenden
Norm-Zeichenkomplexen ZZa = Gt jeweils eine oder mehrere disjunkte
Permutationen Gte von Erzeugungsregeln für diese Komplexe zugeordnet, in denen
die Wahrscheinlichkeiten p(Z/Gt) für die Zeichen Z unter Beachtung ihrer Positionen
P berücksichtigt werden. Beispielsweise wird für die Erzeugung eines
Normkomplexes ZZa1 = Gt1 mit Za1 = Z1Z2Z3 eine Permutation Gte11 gemäß
einer die Positionen P implizierenden Reihenfolge Z1, Z2 und Z3 zugrunde gelegt,
welcher eine Wahrscheinlichkeit
p(Z1Z2Z3/Gt1; Px) = p(Z1/Gt1; P1) × p(Z2/Gt1; P2) × p(Z3/Gt1; P3)
zukommt. Für eine weitere, beispielsweise in einer Reihenfolge Z2, Z1 und Z3
vorzunehmende Permutation Gte12 wird entsprechend eine Wahrscheinlichkeit
p(Z2Z1Z3/Gt1; Pa) = p(Z2/Gt1; P11) × p(Z1/Z2; P12) × p(Z3/Z2; P32)
angesetzt, wobei Daten bis zur Ordnung O(2) einzusetzen sind; für weitere
Permutationen gelten entsprechende Wahrscheinlichkeitsprodukte. In einer
datensparenden Ausbildung werden die Wahrscheinlichkeiten p auch als Produkte
jeweils der Wahrscheinlichkeit p(Ad/Gt) der jeweils angetroffenen Adresse Ad a Gt
und der Wahrscheinlichkeiten p(Z/Gt) für die in Ad nicht enthaltenen Zeichen Za Gt
gebildet. Ein Fehlergenerator Gf wird durch Erzeugungsregeln für den Textsymbolen
Gt nicht mit ausreichenden Wahrscheinlichkeiten p(Z/Gt) zuordenbare Zeichen Z a
ZZb, die einem Text T zugeordnet werden, näher bestimmt. Diese sehen allgemein
die stochastische Erzeugung von Zeichen Z an beliebigen Positionen P mit an die
betreffenden Kommunikationsakte angepaßten Wahrscheinlichkeiten p(Z/Gf; P) vor,
wobei ein Repertoire R(Z) berücksichtigt wird, dem neben den den Textsymbolen Gt
zugeordneten Zeichen Z auch ein Operator o = /"/ der unten beschriebenen Art
angehört, der in einem Zeichenkomplex ZZ durch die Entfernung eines ihm
entsprechend seiner Position P zugeordneten Zeichens Z a ZZ und des diesem im
Text T zugeordneten Textabschnittes Tr a Z in Erscheinung tritt. In weiteren
Ausbildungen werden dem Repertoire R(Z) von Gf weitere Operatoren o zugeordnet,
die durch das Vertauschen zweier aneinandergrenzender Zeichen Z als Folge von Gf
an den ihnen zugeordneten Positionen P wie auch das Auswechseln eines korrekten
Zeichens Z a ZZa durch ein beliebiges Zeichen Z in Erscheinung treten. Die
Erfindung sieht vor, die bei der Bildung der Nachrichten TN gemäß Ansatz Ba zu
berücksichtigenden Wahrscheinlichkeiten p(ZZb/Gt) unter Verwendung von
Erzeugungsregeln Gte und unter Berücksichtigung eines beigeordneten, den
Gegebenheiten der betreffenden Kommunikationsakte angepaßten Fehlergenerators
Gf gemäß p(ZZb/(Gt d Gf)) zu bestimmen. Eine Erläuterung wird unten am Beispiel
des Teilwortes vt31.1 = /_er/ aus Beispiel 1) gegeben.
In einer weiteren vorteilhaft vereinfachten Ausbildung wird die in Ansatz Ba zu
berücksichtigende Wahrscheinlichkeit p(ZZb/Gt) für das Vorliegen eines in einem
Text T identifizierten Zeichenkomplexes ZZb als Folge des Vorliegens eines durch
eine oder mehrere Adressen Ad an einer Position P angezeigten Textsymbols Gt
funktional durch p(ZZb/Gt; P) = 1 - pa festgelegt, worin Gt implizit neben den
Erzeugungsregeln Gte einen nicht eigens notierten Fehlergenerator Gf einschließt,
und worin Wahrscheinlichkeit pa als Produkt der Wahrscheinlichkeiten p(Z) dafür
gebildet wird, daß aufgrund dieser Fehlerquelle Gf an Positionen P anzutreffende
Zeichen Za ZZb zufällig vorliegen könnten. Hierbei schließt das zugrunde gelegte
Zeichenrepertoire R(Z) den genannten Zeichen Za a (ZZa = Gt) eliminierenden
Operator o = /"/ ein. Die Fehlerwahrscheinlichkeiten p(Z) werden den betreffenden
Kommunikationsakten angepaßt, wobei diesen entsprechende Längen von Texten T
zugrunde gelegt werden. In einer vorteilhaft einfach zu erstellenden Ausbildung wird
für die Gf zuzuordnenden Fehlerraten Gleichverteilung angenommen. In weiteren
Ausbildungen werden auch die oben eingeführten Operatoren o für die Vertauschung
aufeinanderfolgender Zeichen Z und für weitere, entsprechend häufig anzutreffende
Fehlertypen eingesetzt. Die genannte Wahrscheinlichkeit pa wird in bekannter Weise
ermittelt, beispielsweise unter Zugrundelegung einer Binomialverteilung für die
unter Beachtung der Positionen P(Z) jeweils anzutreffenden Möglichkeiten, daß
entweder ein Zeichen Z = Zu mit Zu a ZZa eines Normkomplexes ZZa a Gt oder Z
ne Zu beziehungsweise, bei fehlendem Zeichen, nZ a ZZa vorliegt, wie in / /18/ /, S.
109 angegeben. In einer datensparenden Ausführungsform hiervon wird dabei für
eine Komponente Em1, welche durch eine Adresse Ad1 = ZZc angezeigt wird, das
Wahrscheinlichkeitsprodukt für die in ZZc enthaltenen Zeichen Z a ZZb unter
Verwendung der in der betreffenden Liste Wsi a Ws angeführten Wahrscheinlichkeit
p(Em1/Ad1) berechnet. In einer weiter vereinfachten Ausgestaltung wird in Ba eine
Wahrscheinlichkeit p(ZZb/Em1) = p(Ad1/Em1) verwendet, wobei Ad1 diejenige von
gegebenenfalls auch mehreren Adressen Ad der Komponente Em1 darstellt, durch
welche diese mit der höchsten Wahrscheinlichkeit p(Em1/Ad1) angezeigt wird.
Ein Beispiel für einen der angeführten Algorithmen zur Berechnung von für die
Anwendung des Bayesschen Ansatzes Ba benötigten Wahrscheinlichkeiten
p(ZZb/Em1) = p(ZZb/ZZa1) × p(ZZa1/Em1) wird anhand des oben betrachteten
Teilwortes Em1 = vt31.1 = /_er/ aus dem unten ausgeführten Beispiel 1) erläutert,
das hier durch einen einzigen Normkomplex ZZa1 = ZZsa1 = Z1Z2Z3 repräsentiert
wird. Unter Annahme einer verhältnismäßig hohen Fehlerrate Gf = 0,1 gelte
p(Z1/ZZsa; P1) = p(Z2/ZZsa; P2) = p(Z3/ZZsa; P3) = 0,9. Gemäß dieser Fehlerrate
werden die Positionen P zu P1 = Z1:(Z2 o nZ2):(Z3 o nZ3), entsprechend P2 = (Z1 o
nZ1):Z2:(Z3 o nZ3) usw. angesetzt, wonach beispielsweise gemäß P2 Zeichen Z2
auch ohne Z1 oder auch ohne Z3 vorkommen kann, wobei für die Abstände a
geeignete, hier nicht ausgeführte Toleranzen da festgelegt werden. Bei einem
undeutlich gedruckten einlaufenden Text T1 = ZZu, dem disjunkt 2 mögliche
Buchstabenfolgen ZZb gemäß ZZ1 = /Fandeer?/ und ZZ2 = /Fand er?/ zugeordnet
werden können, wird vt31.1, neben gegebenenfalls disjunkt einzusetzenden weiteren
Textsymbolen Gt, in ZZ1 durch die oben angeführten Adressen Ad3, Ad5 und Ad6,
in ZZ2 mit entsprechend höherer Wahrscheinlichkeit p(ZZsa1/Ad) auch durch Ad1
angezeigt. Wird davon ausgegangen, daß die Zeichenfolgen ZZb1 = /Fand/ und ZZb3
= /?/ mit hoher Wahrscheinlichkeit p bestimmten weiteren Textsymbolen Gt
zuordenbar sind, so ergibt sich bei einer hypothetisch anzusetzenden Zuordnung des
in ZZ1 verbleibenden Komplexes ZZb2.1 = /eer/ = Z2Z2Z3 zu ZZsa1 = Z1Z2Z3 eine
Wahrscheinlichkeit p(ZZb2.1/Zzsa) = p(Z3/Z3; P1) × p(Z2/Z2; P2) × p(nZ1/Z1; P3)
= 0,9 × 0,9 × 0,1 = 0,081. Für die Zuordnung der Buchstabenfolge ZZb.2 = /_er/ aus
ZZ2 zu ZZsa1 ergibt sich dagegen eine vergleichbar hohe Wahrscheinlichkeit p =
0,729. Für die Bestimmung von Zuordnungswahrscheinlichkeiten p für
Zeichenfolgen ZZb zu Wortkomplexen VtVt wie auch zu Superzeichen Z = ZZ gilt
eine entsprechende Vorgehensweise, welche allgemein auch auf die Zuordnung
beliebiger, durch Merkmale Z gekennzeichneter Texte T zu als Komplexe solcher
Merkmale Z gebildeten Symbolen Gs anzuwenden ist.
Bei der oben angeführten alternativen Ausgestaltung, bei der
Zuordnungswahrscheinlichkeiten gemäß p(ZZb/ZZsa) = 1 - pa festgelegt werden,
worin pa die Wahrscheinlichkeit dafür angibt, daß die gemäß Komplex ZZsa
vorgegebenen Zeichen Z a ZZb zufällig vorliegen könnten, werden beispielsweise
Zufallswahrscheinlichkeiten p(Z) zugrunde gelegt, welche Häufigkeiten dieser
Zeichen Z in Texten T = ZZ wiedergeben. Wird vereinfachend angenommen, daß
hierfür p(/e/) = 0,2, p(/_/) = 0,1 und p(/r/) = 0,05 gilt, so folgt für die Zuordnung des
oben angeführten Komplexes ZZb = /_er/ aus ZZ2 zu ZZsa eine
Zufallswahrscheinlichkeit pa = p(Z1) × p/Z2) × p(Z3) = 0,001, während sich für ZZb
= /eer/ aus ZZ1 mit p(nZ1) = 1 - p(Z1) ein entsprechend höherer Wert pa = p(nZ1) ×
p(Z2) × p(Z3) = 0,09 ergibt, wobei für 1 - pa entsprechend ebenfalls ausreichend
unterschiedliche Werte 0,999 oder 0,91 gelten.
Die angegebenen Vorgehensweisen erlauben es, Zuordnungswahrscheinlichkeiten
von Texten T zu Textsymbolen Gt der Form p(T/Gt) wie p(Tr/Z) oder p(Ts/Vt), wie
sie für die Komplexbildung von Nachrichten N unter Anwendung des Bayesschen
Ansatzes Ba benötigt werden, mit einem vergleichsweise beschränkten Aufwand an
Datenspeicherung und -verarbeitung zu gewinnen. Allgemein nehmen die genannten
Werte p(ZZb/ZZsa) monoton mit wachsender Annäherung an die jeweiligen
Toleranzwerte dT ab beziehungsweise an gegebenenfalls eingeführte Normtexte Ta
zu. In einer weiteren Ausbildung, bei der die Texte T als Komplexe T = ZZ von
innerhalb vorgegebener Toleranzen dH liegenden Textmerkmalen Z = R(H(T))
Berücksichtigung finden, gelten für die betreffenden Eigenschaften H(T)
Wahrscheinlichkeiten p(H(T)/Z) ue 1, während gegebenenfalls vorliegende weitere
physikalisch nachweisbare Textabschnitte von Texten T, die innerhalb der
Toleranzen dH keine Eigenschaften H(T) des für die betreffenden Sprachen L
vorgegebenen Repertoires R(Z) aufweisen, vernachlässigt werden.
In einer an die betreffenden Sprachen L angepaßten Ausgestaltung der Erfindung
werden grammatische Daten Ws eingesetzt, in denen als Komplexe Gt = ZZ von
Zeichen Z gebildete Textsymbole Gt, insbesondere auch Wörter Vt = ZZ wie auch
Teilwörter vt = ZZ unter Verwendung eines Repertoires R(Z) von Zeichen Z notiert
werden, welches die oben genannten Operatoren Z = o, kurz auch Zeichen Z = o
genannt, mit einschließt. Diese Operatoren o treten in Nachrichten TN dadurch in
Erscheinung, daß bestimmte Veränderungen an bestimmten, ihnen gemäß ihren
Positionen P zugeordneten Zeichen Z = (Tr), insbesondere auch an angrenzenden
Zeichen Z und entsprechend deren Textabschnitten Tr a Z vorgenommen werden,
wobei bestimmte Operatoren o gemäß den Gegebenheiten der betreffenden Sprachen
L in den Nachrichten TN ebenfalls abgeändert werden, gegebenenfalls auch
verschwinden. In einer besonders auch für serielle abendländische Schriftsprachen
mit als Buchstabenfolgen T = ZZ gebildeten Texten T geeigneten Ausbildung
werden neben gegebenenfalls weiteren Operatoren o jeweils in den Texten T a TN
verschwindende Operatoren o mit den folgenden Funktionen eingesetzt, wie sie hier
am Beispiel von Komplexen ZZs a Vt von Wörtern Vt beschrieben werden: Ein die
Komplexe ZZs a Vt bestimmter Wörter Vt einleitender oder auch abschließender
Operator o =: /_/, jeweils vereinfacht auch o =: _ usw. notiert, fordert die Einhaltung
eines bestimmten, gegebenenfalls auch durch einen Zeilenwechsel oder ein
Satzzeichen realisierten, Abstands zum im Text T an diesem Komplex ZZs
angrenzenden Komplex ZZ. Durch o =: /__/ wird, nach Textabsätzen oder
Überschriften, der Beginn eines neuen Absatzes und durch o =: g neben der
Einhaltung, gegebenenfalls auch durch einen neuen Absatz realisierten Abstands
zum vorangehenden Zeichenkomplex ZZ die Großschreibung des nachfolgenden
Buchstabens Z = Z1 unter Eliminierung eines diesem gegebenenfalls vorangestellten
Satzzeichens Z2 gefordert. Durch o =: w wird das Weglassen eines gegebenenfalls
vorangestellten Satzzeichens Z2, durch o =: /=/ am Ende oder auch Anfang eines
Komplexes ZZ1 dessen Zusammenschreibung mit einem an /=/ angrenzenden
Komplex ZZ2, wobei eine Großschreibung eines nachgestellten Komplexes ZZ2
dann auf ZZ1 übergeht. Die einem gegebenenfalls einzusetzenden Fehlergenerator
Gf zuzuordnenden Operatoren o =: /"/ zum Entfernen eines Zeichens Z wie auch zum
Vertauschen zweier Zeichen Z wurden oben erläutert. Weitere an die betreffenden
Sprachen L angepaßte Operatoren o fordern beispielsweise für das Schriftenglische
die Abwandlung des lexikalischen Wortes /_a/ zu /_an/ vor mit Vokalen beginnenden
Wörtern usw.
Als Beispiel für weitere den Rechtschreibregeln der betreffenden Sprache L
angepaßte Eigenschaften von Operatoren o werden für das Schriftdeutsche das Wort
Vt11 = /_Schritt=/, das Wort Vt21 = /_Tempo/ und der nach bisheriger
Rechtschreibung daraus erzeugbare Wortkomplex Vt11Vt21 = /_Schrittempo/ ist, ein
Operator o =: /=/ zu verwenden, der neben der Kleinschreibung eines angrenzenden
Buchstabens Z2 a ZZ211 des nachfolgenden Wortes ZZ211 bei einem Nachfolgen
eines Vokals Z3 auf Z2 die Reduzierung der Zahl von gegebenenfalls 3 gleichen
aufeinanderfolgenden Konsonanten auf 2 bewirkt.
Zur Festlegung der in vielen Sprachen L üblichen Abstände zwischen natürlichen
Wörtern wird in einer bevorzugten Ausbildung der Abstandsoperator /_/ den Wörtern
Vt am Beginn zugeordnet. In einer alternativen Ausbildung erfolgt die Zuordnung
dieser Operatoren redundant sowohl am Beginn wie am Ende der Wörter Vt. In
weiteren Ausgestaltungen werden in Schriftsprachen L als Interpunktionen
anzutreffenden Zeichen Z ebenfalls Funktionen von Operatoren o zugeordnet, so
beispielsweise dem Gedankenstrich /-/ mit entsprechenden Abständen zu den
angrenzenden Textteilen T, dem Bindestrich /-/ und den Interpunktionszeichen /./, /!/,
/?/, /:/, /,/ und /;/. Beispielsweise fordern die letzten 5 Interpunktionen unter
bestimmten Bedingungen ein Verschwinden von an sie im Text T angrenzenden
Satzzeichen wie auch eines gegebenenfalls vorausgehenden Abstands. In weiteren
Ausbildungen wird für Schriftsprachen L ein Operator o =: == für Worttrennungen
vorgesehen, wobei in den Daten Ws ein Wort wie /tatsächlich/ als /_tat==säch==lich/
notiert wird, bei dem die /==/ im Text verschwinden oder an Zeilenenden in das
Trennungszeichen /-/ abgewandelt werden. Für mündliche Sprachen L ist der Einsatz
von Operatoren o vorgesehen, deren Funktion vom angrenzenden Text T abhängt,
welche unter anderem Betonungen, Pausen, Hebungen und Senkungen der
Stimmlage beispielsweise am Ende von Äußerungen wie auch das phonetische
Angleichen wie auch Zusammenziehen von Wörtern oder auch das Verschlucken
von Lauten bewirken, wie es beispielsweise im Deutschen bei der oben erwähnten
Verschmelzung der Wörter /hast/ und /du/ zu einer durch /hasdu/ angenäherten
Lautfolge oder einer Aussprache von /sie kommen/ gemäß /sikomm/ vorkommt.
Bei der angeführten Verwendung von Zeichen Z, bei der beispielsweise
Druckbuchstaben als Komplexe Zb = ZaZa weiterer Textmerkmale Za gebildet
werden, wird in einer Ausbildung Operator o =: /_/ als Merkmal Za verwendet,
welches eine entsprechende Trennung der Buchstaben Zb voneinander in Texten T
bewirkt.
Da die Operatoren o je nach Kontext in den Texten T unterschiedliche
Textabschnitte T beziehungsweise Zeichen Z und Zeichenkomplexe ZZ
repräsentieren, bewirkt ihre Einführung eine vorteilhafte Beschränkung der Menge
der in einer Grammatik Ws anzuführenden objektiven Wörter Vt und des zu ihrer
Beschreibung und Bearbeitung benötigten Datenvolumens.
Für die bei der Bildung grammatischer Nachrichten TN vorgesehene Beachtung ihrer
Wahrscheinlichkeiten p(TN) wird in einer bevorzugten Ausgestaltung der Bayessche
Ansatz Ba zugrunde gelegt, wie er beispielsweise in / /20/ / erläutert wurde. Hierbei
werden die aus den genannten disjunkten Repertoires R(Em) von Komponenten Em
stufenweise zusammenzufügenden Komplexe Kp = EmEm entsprechend disjunkter
Repertoires R(Kp) als Konkurrenzhypothesen Ks bezeichnet, welche entsprechend
disjunkten, auch als Klassen Kl(Ks) bezeichneten, Repertoires R(Ks) angehören. Als
Konkurrenzhypothesen Ks gelten hierbei die jeweils aus einer beliebigen Anzahl von
Repertoires R(Em) erzielbaren disjunkten Zwischenergebnisse Kp = EmEm wie auch
die erreichbaren disjunkten Endergebnisse Kp = EmEm = TN, wobei die Repertoires
R(Em) aufgrund vorliegender Evidenzen D einschließlich Vorgaben Vr und Texten
T und darin anzutreffenden Adressen Ad einschließlich der gemäß den Daten Ws
bekannten Bezüge Em zu weiteren Komponenten Em festgelegt werden, und wobei
die Evidenzen D die genannten, innerhalb von Toleranzen dH liegenden
Texteigenschaften H(T) vorliegender Texte T mit einschließen. Hierzu ist
vorgesehen, grammatische Daten Ws zu verwenden, welche die gemäß Ansatz Ba zu
berücksichtigenden a-priori-Wahrscheinlichkeiten p(Em) für die den Komplexen Ks
zuzuordnenden Komponenten Em, welche gegebenenfalls auch von weiteren
Komponenten Em abhängen, sowie für die Wahrscheinlichkeiten p(D/Em) von
Evidenzen D beim zugrunde gelegten Vorliegenden von Komponenten Em als
Eigenschaften H(Em) der Komponenten Em mit enthalten. So werden für die gemäß
Verfahrensteil M2 a M vorzunehmenden Komplexbildungen von Inhalten N, für
welche einlaufende Texte T wie auch gegebenenfalls darin zu identifizierende
Komplexe ZZ von gemäß vorliegenden Texteigenschaften H(T) anzutreffenden
Merkmalen Z als Evidenzen D gelten, entsprechende Wahrscheinlichkeiten p(T/Gt)
beziehungsweise p(ZZ/Gt), wie sie oben diskutiert wurden, für die in den Komplexen
Ks zu berücksichtigenden Textsymbole Gt berücksichtigt. Die
Wahrscheinlichkeitsbezüge zwischen in den Inhalten N als Komponenten Em
einzusetzenden Einheiten G werden entsprechend den unten ausgeführten, durch
Formulierungen Wt beschriebenen Valenzen Um der Einheiten G näher bestimmt.
Bei gemäß Vorgaben Vr gegebenenfalls zu erzeugenden korrekten grammatischen
Nachrichten TN = TNg werden ausschließlich Komponenten Em a R(Em) eingesetzt,
denen sämtlich in den betreffenden Nachrichten T/Ng ausreichend hohe,
gegebenenfalls auch bedingte Wahrscheinlichkeiten p(Em) ge ps zukommen.
Anwendungen des Bayesschen Ansatzes Ba werden zunächst am Beispiel des
Aufbaus eines zu bestimmenden grammatischen Inhalts N zu einem einlaufenden
Text T erläutert, dessen als Evidenz D detektierte Merkmale H(T) a priori eine
Anzahl m von als Endergebnisse N mit einzusetzenden Konkurrenzhypothesen Ksu
= Nu mit u = 1, 2, . . . m mit ausreichend hohen Wahrscheinlichkeiten p g ps für
möglich erscheinen lassen, durch welche der Text T zu entsprechenden Nachrichten
TNu ergänzbar wird. Hierfür sind gemäß Ansatz Ba entsprechend m
Wahrscheinlichkeiten p(Nu/T) zu bestimmen, welche für N1 durch
p(N1/T) = p(N1) × p(T/N1)/Ne
und für die weiteren Inhalte Nu durch entsprechende Permutationen hiervon
ausgedrückt werden. Hierin beschreibt der Nenner Ne eine
Wahrscheinlichkeitssumme der Form
Ne = p(N1) × p(T/N1) + . . . + p(Nm) × p(T/Nm)).
Gegebenenfalls wird in Ba auch berücksichtigt, daß bei Vorliegen von a priori nicht
als disjunkt anzunehmenden Begriffen, hier also Inhalten Nu, ein Nenner Ne' k Ne
einzusetzen ist, während in solchen Fällen, wo davon auszugehen ist, daß a priori
eine größere Anzahl von Begriffen vorliegen könnte als in Ne berücksichtigt, auch
ein Nenner Ne" g Ne eingesetzt wird. Gemäß Ba erfolgt die Berechnung allgemein
unter Benutzung von a-priori-Wahrscheinlichkeiten p, hier also
Wahrscheinlichkeiten p(Nu), welche auf bekannte Weise unter Verwendung der in
den Daten Ws niedergelegten Wahrscheinlichkeiten p(Em) der gemäß den Adressen
Ad bestimmten Komponenten Em a N bestimmt werden. Gegebenenfalls werden bei
der Anwendung von Ba auch weitere Angaben wie beispielsweise zu verwendende
Repertoires R(Em) von Komponenten Em als Evidenz D verwendet, wie sie
beispielsweise aus Vorgaben Vr hervorgehen. Entsprechende Ausdrücke gelten für
p(N/ZZ) für den Fall, daß die Evidenz als Zeichenkomplex D = ZZ vorliegt und für
p(TN/Vr), falls als Konkurrenzhypothesen Ks Nachrichten TN aufgrund von
Vorgaben D = Vr zu bilden sind.
In einer vorteilhaft robust gegen Fehler gehaltenen Ausgestaltung der Erfindung, die
insbesondere für Sprachen L geeignet ist, in denen den Texten T eine oder mehrere
Hierarchien R(Z) von Textsymbolen Gt = Z zugeordnet werden und entsprechend als
grammatische und Textsymbole Gr und Gt objektive Wörter Vt a G verwendet
werden, denen Komplexe ZZ a Vt solcher Zeichen Z zugeordnet werden, ist
vorgesehen, die Komplexbildung von Nachrichten TN, die einlaufenden Texten T
zuzuordnen sind, in mehreren Stufen vorzunehmen, die von Komplexen eines
niedrigen Superierungsgrades zu Komplexen der jeweils übergeordneten
Superierungshierarchie fortschreiten, wobei unter Anwendung von Ba die
Wahrscheinlichkeiten p(Ks) der jeweils als Konkurrenzhypothesen gebildeten
Komplexe Kp = Ks berücksichtigt werden. So wird beispielsweise in einer ersten
Stufe entsprechend den an Textabschnitten Tr a Ta des Textes T zu detektierenden
Eigenschaften H(T) eine disjunkte Klasse (Ks1) von Komplexen Ks1 = Em1,Em1
mit Zeichen Za als Komponenten Em1 gebildet, deren zur Bestimmung der zu
berücksichtigenden Wahrscheinlichkeiten p(Ks1/T) benötigte Wahrscheinlichkeiten
p(T/Ks1) beispielsweise nach dem Prinzip maximaler Entropie festgelegt werden.
Hierbei liefern diese Komplexe Ks1 die Adressen Ad für die Komponenten Em2 der
in der folgenden Stufe zu bildenden disjunkten Komplexe Ks2 = Em2,Em2, welche
beispielsweise als Folgen ZbZb von Buchstaben Zb = ZaZa gebildet werden und
entsprechend ihren unter Berücksichtigung der Wahrscheinlichkeiten p(ZaZa/Zb)
bestimmten Wahrscheinlichkeiten p(Ks2/Ks1) weiter verwendet werden. Weiterhin
liefern die Folgen ZbZb die Adressen Ad für die in der nächsten Stufe als Komplexe
Ks3 a (Ks3) zu bildenden Folgen VtVt von als Komponenten Em3 zu
berücksichtigenden Wörtern Vt = ZbZb, wobei wieder die Wahrscheinlichkeiten
p(Ks3/Ks2) zu beachten sind und die Wörter Vt beziehungsweise Wortfolgen VtVt
als Adressen Ad für die in einer oder mehreren weiteren Komplexbildungsstufen als
Komponenten Em4 zu verwendenden Einheiten G beziehungsweise Vokabeln Vqq
dienen, wobei in einer Ausbildung die Einheiten G als weitere Adressen Ad für die in
den als Komplexe E = Em4Em4 zu bildenden Hintergründe E dienen. Beispielsweise
wird so durch ein Wort Vt ein disjunktes Repertoire R(G) unterschiedlicher
Einheiten G und Vt a G adressiert. Als weitere Konkurrenzhypothesen Ks4, Ks5
usw. werden in einer Ausbildung auch Teile E1 usw. der zu bildenden Hintergründe
E, beispielsweise beginnend mit, unten als Kopf Gk definierten, Einheiten G = Gk =
E1 erstellt, wobei wieder die Wahrscheinlichkeiten p(Ks4/Ks3) usw. Beachtung
finden. Der zu erzeugende Komplex Kp = NN von Inhalten N wird ebenfalls
grundsätzlich als Element El einer Klasse (Ks) von Hypothesen Ks behandelt, deren
Wahrscheinlichkeiten p(NN/T) unter Verwendung der in den verschiedenen
Superierungshierarchien bestimmten Wahrscheinlichkeiten p(Ks) bestimmt werden,
wobei entsprechend diesen Wahrscheinlichkeiten ein oder gegebenenfalls auch
mehrere, als disjunkt gekennzeichnete oder gegebenenfalls aufgrund nicht
ausreichender Wahrscheinlichkeiten p k ps auch kein Komplex Kp = TN,TN als
Ergebnis verwendet wird.
In einer weiteren, unter Anwendung der unten näher erläuterten nichtlinearen
Wahrscheinlichkeitsverarbeitungsoperationen Bb durchgeführten Ausführungsform
erfolgt die Komplexbildung von Konkurrenzhypothesen Ks aus Komponenten Em in
mehreren Zyklen. Danach werden in einem ersten Zyklus Schwellwerte ps1 für die
Wahrscheinlichkeiten p(Ks) von Hypothesen Ks beziehungsweise gemäß Bs auch für
die Wahrscheinlichkeiten p(Em) darin verwendeter Komponenten Em festgelegt, und
die Hypothesen Ks mit p k ps1 zunächst verworfen, jedoch so lange gespeichert, bis
sichergestellt ist, daß bei der Weiterführung der Komplexbildung hin zu Hypothesen
Ks höheren Superierungsgrades ebenfalls jeweils Wahrscheinlichkeiten p ge ps1
erzielbar sind. Andernfalls werden in einem oder mehreren weiteren Zyklen die
Schwellwerte ps in Stufen so oft bis hinab zu Werten ps2 abgesenkt, bis,
gegebenenfalls auch unter Berücksichtigung von in vorangegangenen Zyklen
zunächst vernachlässigten Zwischenergebnissen Ks beziehungsweise darin
verwendeten Komponenten Em gegebenenfalls eine oder auch mehrere disjunkte
Hypothesen Ks als Endergebnis erzielt werden, denen, beziehungsweise deren
Komponenten Em darin, Wahrscheinlichkeiten p oberhalb von Minimalwerte ps2
nicht unterschreitenden Schwellwerten ps zukommen. Der so in Zyklen oder Stufen
vorzunehmende Aufbau der Nachrichten TN hin zu Komplexen wachsenden
Superierungsgrades hat vorteilhaft zur Folge, daß die Zahl der jeweils aus einer
disjunkten Klasse Kl1(Ksx) zu berücksichtigenden Konkurrenzhypothesen Ksx für
die nachfolgend, ebenfalls als disjunkte Klassen Kl2(Ksy) anfallenden Hypothesen
Ksy usw. der jeweils höheren Superierungsgrade auf eine an die Leistungsfähigkeit
verfügbarer Vorrichtungen anpaßbare Zahl begrenzt bleibt, wobei insbesondere auch
kombinatorische Explosionen der für die Komplexe Kp a TN in Betracht zu
ziehenden Entscheidungsbäume vermieden werden. Vorzugsweise werden hierbei
Komponenten Em verwendet, die durch die vorliegenden Adressen Ad mit
ausreichend hohen Wahrscheinlichkeiten p(Em/Ad) ge ps angezeigt werden.
Gemäß Ansatz Ba fallen grundsätzlich bei der für die Bildung von Komplexen Kp =
AA aus Komponenten Em = A vorzunehmenden Bestimmung von
Wahrscheinlichkeiten p(AA/D) bezüglich einer Evidenz D auch vielfach verkettete
bedingte Wahrscheinlichkeiten als Verknüpfungsparameter zwischen den Begriffen
A gemäß
p(AA) = p(A1) × p(A2/A1) × . . . × p(Am/A1, A2, . . . A(m - 1)),
wie auch die entsprechenden Permutationen hiervon an, wobei gegebenenfalls auch
noch Variationen hiervon zu berücksichtigten sind, welche den Möglichkeiten
unterschiedlicher Anordnungen Pr entsprechen, wobei beispielsweise
unterschiedliche Valenzen Um von Einheiten G gesättigt werden oder auch
unterschiedliche Positionen P, etwa durch Voran- oder Nachstellung eingenommen
werden usw. Im allgemeinen Fall ist entsprechend der bekannten Anwendung von Ba
somit grundsätzlich die Bereitstellung eines Datenmaterials erforderlich, im
betrachteten Beispiel also von Zuordnungswahrscheinlichkeiten auch höherer
Ordnung O(n) bis hin zu beispielsweise p(Am/A2, A3, . . . A(m - 1)), welches bei
einer Anzahl a von insgesamt zu berücksichtigenden Begriffen Ax
größenordnungsmäßig mit a!, also näherungsweise exponentiell gemäß aa ansteigen
kann, was zu einem ebenso grundsätzlich unlösbaren NP-harten
Komplexitätsproblem führen würde wie der oben betrachtete, für den gegenwärtigen
Stand charakteristische Einsatz von Konstituentenstruktur- oder Markovketten-
Grammatiken. Dieses Problem der kombinatorischen Explosion wird, auch als Folge
der Berücksichtigung der genannten Transformationen Q, dadurch gelöst, daß
erfindungsgemäß in den grammatischen Daten Ws solche Begriffe Ax a Ws
berücksichtigt werden, deren wechselseitige Bezüge vorwiegend durch
Wahrscheinlichkeiten niedriger Ordnung O(b), beispielsweise b = 1 und 2 bestimmt
sind, so daß in Ba vergleichsweise einfache Ausdrücke der Form p(AA) = p(A1) ×
p(A2/A1) × . . . × p(Am/A(m - 1)) anfallen, wobei ferner als Folge der Anwendung
von Bedingung Bs weitere Permutationen hiervon vielfach vernachlässigbar werden.
In einer Ausbildung der Erfindung werden die Schwellwerte ps in den Bedingungen
Bs so gewählt, daß die Mengen der in den Daten Ws zu berücksichtigenden Bezüge,
welche durch bedingte Wahrscheinlichkeiten der Ordnung O(b) ausgedrückt werden,
annähernd exponentiell mit Exponenten - b/c abfallen. In Anpassung an die
Sprachen L wie auch die verfügbaren Vorrichtungen werden beispielsweise nahe c =
2 liegende Werte verwendet. Damit wird vorteilhaft erreicht, daß bei einer Anzahl a
von berücksichtigten Begriffen A die Anzahl der diese verknüpfenden Parameter
größenordnungsmäßig nur proportional zu ac anwächst, wodurch das oben als
grundsätzlich NP-hart geschilderte Komplexitätsproblem auf ein lösbares P-hartes
Problem / /22/ / zurückgeführt wird und die in den Daten Ws anfallende Datenmenge
auch bei einer Anzahl a von Begriffen A wie objektiven Wörtern Vt in einem
maschinell bewältigbaren Rahmen bleibt.
Die in der genannten bevorzugten Ausgestaltung vorgesehene Verwendung von
Symbolen Gs, welche den Transformationen Q genügen, bietet darüber hinaus den
weiteren Vorteil, daß als Begriffe A eine Anzahl a objektiver Wörter Vt eingesetzt
wird, deren wechselseitige, durch bedingte Wahrscheinlichkeiten der genannten Art
p(A1/A2; . . .) niedriger Ordnung O(n) beschriebene Bezüge durch die Bezüge ebenso
niedriger Ordnung O(n) einer wesentlich geringeren Anzahl e kk a von als
grammatische Symbole Gr = G eingesetzten Einheiten G beschreibbar werden, zu
denen sich die Wörter Vt als disjunkte Klassen G = (Vt) superieren lassen. Wird so
in einer vereinfacht schematisch Abschätzung zugrunde gelegt, daß eine Anzahl f der
in einer natürlichen Sprache L gebrauchten lexikalischen Wörter gemäß den
Transformationen Q einer gegebenenfalls die Anzahl f auch übersteigenden, Anzahl
a g f objektiver Wörter Vt entspricht, welche, gegebenenfalls jeweils auch mehrfach,
einer wesentlich geringeren Anzahl e kk a wie auch e kk f von Einheiten G
zuordenbar sind, so folgt ein im Vergleich zur obigen Abschätzung ac nochmals
wesentlich abgeschwächtes Anwachsen der Verknüpfungsparameter für die Wörter
Vt mit ec kk ac. Da die Bezüge zwischen den f lexikalischen Wörtern einer solchen
Sprache L, wie etwa bei den genannten Markov-Wahrscheinlichkeitsketten, durch
bedingte Wahrscheinlichkeiten p vergleichsweise hoher Ordnung O(d) mit d g c zu
beschreiben sind, gilt zugleich vorteilhaft ec kk fd. Die den gegenwärtigen Stand
kennzeichnenden Kommunikationsverfahren, welche lexikalische Wörter oder bisher
vorgeschlagene Zusammenfassungen zu Konstituenten oder Phrasen als
Komponenten benutzen, lassen solche umfassenden, ausreichend datensparenden
Superierungen nicht zu und sind deshalb wegen der resultierenden kombinatorischen
Explosionen der diese Komponenten verknüpfenden grammatischen Bezugsdaten für
Verfahren der erfindungsgemäßen Art grundsätzlich ungeeignet, falls die
Berücksichtigung von im Sprachgebrauch üblichen Mengen lexikalischer Wörter
erwartet wird.
Entsprechend der im Regelfall vorzusehenden Zuordnung von großen Mengen a von
Begriffen A, vorzugsweise objektiven Wörtern Vt, zu wesentlich geringeren Mengen
e kk a von Superbegriffen G = (Vt) sieht die Erfindung in einer Ausbildung vor, bei
einer gegebenenfalls gemäß Verfahrensteil M4 a M vorzunehmenden Erstellung der
in Kommunikationsverfahren M zu berücksichtigenden Daten Ws in einer ersten
Phase mit der Aufstellung einer möglichst vollständigen Liste von Einheiten G mit
jeweil 99999 00070 552 001000280000000200012000285919988800040 0002010015859 00004 99880s einem oder einigen wenigen zugeordneten Wörtern Vt a G zu beginnen,
denen in einer 2. Phase die weiteren aus der Sprache L zu berücksichtigenden Wörter
Vt a G zugeordnet werden, was in dieser 2. Phase zu einer weiteren Absenkung des
Anwachsens der Daten Ws mit der Zahl a der Wörter Vt hin zu einem annähernd
linearen Verlauf führt, und zwar auch dann, wenn Wörter Vt jeweils auch mehreren
Einheiten G zuzuordnen sind.
Einen weiteren Beitrag zur Lösung des Komplexitätsproblems liefert die genannte
nichtlineare Wahrscheinlichkeitsverarbeitung Bb, wonach in den zu
berücksichtigenden Entscheidungsbäumen anfallende Konkurrenzhypothesen Ks mit
Wahrscheinlichkeiten p(Ks/D) k ps unterhalb festzulegender Schwellwerte ps so weit
vernachlässigt werden, daß die Anzahl der abzuarbeitenden Hypothesen Ks in einem
der Kapazität verfügbarer Rechner angepaßten Rahmen bleibt. Im Vergleich zu beim
gegenwärtigen Stand üblichen, auf logische Operationen abgestützten Verfahren, die
bei der erfindungsgemäßen Kommunikation gegebenenfalls in fehlerhafter Form
anfallende Texte T und diesen versuchsweise zugeordnete Inhalte als "unwahr"
verwerfen müssen, bleibt das erfindungsgemäße Verfahren aufgrund des für die
genannte Ausbildung vorgesehenen stufenweisen Absenkens der Schwellwerte ps
dabei vorteilhaft robust gegen die Eingabe auch grammatisch unkorrekter Texte T ne
Tg und unkorrekter Nachrichten TN ne TNg.
Die Summe der Wahrscheinlichkeiten p(Ax/(Ax)) der einer Klasse Kl = (Ax)
zugeordneten Elemente Ax wird als Ca bezeichnet, wobei für eine disjunkte Klasse
Ca = 1 gilt. In einer datensparenden Ausbildung wird für die p(Ax)-Werte
bestimmter Klassen Kl auch Gleichverteilung angenommen, was auch aus dem
erfindungsgemäß anzuwendenden Prinzip maximaler Entropie / /17/ / insbesondere in
solchen Fällen folgt, wo nur wenige für die grammatischen Daten Ws statistisch
ausgewertete Beispiele vorliegen. Allgemein ist zu beachten, daß unter einer als p(A)
bezeichneten, also der Ordnung O(1) zugeordneten, Wahrscheinlichkeit p häufig
streng eine hier zur Vereinfachung nicht explizit notierte, auf das Vorkommen von
den betreffenden Kommunikationsakt charakterisierenden Daten B zu beziehende
bedingte Wahrscheinlichkeit p(A/B) zu verstehen ist, wobei es sich bei B
beispielsweise um grammatische Daten Ws wie auch die oben angeführten Vorgaben
Vr oder um weitere Daten D wie beispielsweise das Vorliegen eines bestimmten
Textumfangs T wie auch bestimmter Textmerkmale T oder Zeichenkomplexe ZZ
handelt. In einer vorteilhaft datensparenden Ausbildung werden die
Wahrscheinlichkeiten p(Ax/(Ax)) für die Zuordnung von Elementen Ax zu einer
Klasse (Ax) auch in analytischer Form angegeben, welche gegebenenfalls auch
Näherungen zu empirisch bestimmten Daten darstellen.
Bei Vorliegen eines aus 2 oder mehr aneinandergereihten Textabschnitten T2, T3
usw. zusammengesetzten Textes T1 = T2T3 . . ., dem als Konkurrenzhypothesen Ks
sowohl ein einziger korrekter grammatischer Inhalt N1g einer grammatischen
Nachricht T1N1g wie auch mehrere korrekte grammatische Inhalte N2g, N3g usw.
entsprechend einem aus T2N2g, T3N3g usw. gebildeten Nachrichtenkomplex
TN,TN zuordenbar sind, wird in Anpassung an die zu behandelnden Sprachen L dem
Text T1 eine einzige Nachricht T1N1 zugeordnet, wenn sich hierfür gemäß Ba eine
um einen ausreichenden Faktor höhere Wahrscheinlichkeit p(T1N1) g p(T2N2 d
T3N3 d . . .) ergibt, dagegen mehrere Nachrichten, wenn p(T2N2 d T3N3 d . . .) ge
p(T1N1) gilt, also auch, wenn beide Wahrscheinlichkeiten p als annähernd gleich
anzusehen sind.
Die oben angesprochene, gemäß einer bevorzugten Ausgestaltung der Erfindung
anzuwendende nichtlineare Wahrscheinlichkeitsverarbeitung Bb beziehungsweise
Informationsverarbeitung Bb sieht allgemein vor, Wahrscheinlichkeiten p(A) von als
Konkurrenzhypothesen A = Ks zu behandelnden Gegenständen A, wie sie empirisch
oder rechnerisch auch aufgrund vorliegender Evidenzen D ermittelt werden,
abhängig von ihrer Höhe, auch in Relation zu festgelegte Schwellwerte ps nicht
unterschreitenden Referenzwerten pr ge ps, so abzuändern, daß
Wahrscheinlichkeiten p(A) g pr weiter, gegebenenfalls auch bis auf p(A) = 1, erhöht
und Werte p(A) k ps weiter, gegebenenfalls auch bis auf p(A) k ps, also auch p(A) =
0 erniedrigt werden, wobei gemäß Bedingung Ca die Wahrscheinlichkeitssumme der
für eine Klasse Kl = (Ks) von Konkurrenzhypothesen Ks geltenden
Wahrscheinlichkeiten p(Ks) zu beachten ist. Entsprechende nichtlineare
Verarbeitungsschritte gelten für die mit den Wahrscheinlichkeiten p(A) verknüpften
Informationen j(A). Wie angeführt gelten als Konkurrenzhypothesen Ks
grundsätzlich sämtliche, in einem ersten aus einer Komponente Em und in weiteren
Superierungsschritten aus mehreren Komponenten Em aufgebaute, Komplexe Kp =
EmEm, entsprechend auch die durch einen Text T repräsentierten, jeweils einer
Superierungshierarchie angehörigen Hintergründe E, grammatischen Inhalte N und
Nachrichten TN sowie die in den jeweiligen Stufen erstellten Teile EmEm hiervon.
Die nichtlineare Verarbeitung Bb wird auch als nichtlineare Daten- oder auch
Wissensverarbeitung bezeichnet.
Die nichtlineare Abwandlung Bb der Größen p(A) und j(A) zu Größen p(A)'
beziehungsweise j(A)' erfolgt in Anpassung an die Gegebenheiten der betreffenden
Sprachen L und des hierfür vorliegenden Datenmaterials Ws und der verfügbaren
Vorrichtungen gemäß einer oder mehrerer der folgenden Ausbildungen: Es werden
Schwellwerte ps festgelegt und alle Werte p(A) k ps auf p(A)' = 0 gesetzt. Für eine
Klasse (A) = (Ks) wird neben einem Schwellwerte ps ein Referenzwert pr ge ps
festgelegt, und es werden die auf pr normierten Werte p(A)/pr g 1 monoton mit
p(A)/pr erhöht und die Werte p(A)/pr k 1 monoton mit p(A)/pr erniedrigt, wobei
resultierende Werte p(A)' k ps auf p(A)' = 0 gesetzt werden, und für die
verbleibenden Werte p(A)' ge ps Bedingung Ca beachtet wird. Die monoton mit
p(A)/pr vorzunehmende Abänderung erfolgt durch Potenzierung gemäß (p(A)/pr)b
mit b g 1, in einer Ausbildung auch mit b gg 1. Für den Schwellwert ps einer Klasse
Kl = (A) wird ein monoton mit der Zahl c der (A) angehörenden Begriffe A
abfallender Wert, in einer Ausbildung proportional zu 1/c festgelegt. Die Werte ps
wie gegebenenfalls auch pr werden, auch abhängig von geltenden Vorgaben Vr und
den erreichten Ergebnissen (Ks), so festgelegt, daß für mindestens eine
Konkurrenzhypothese Ks a (Ks) eine Wahrscheinlichkeit p(Ks) ge ps erreicht wird,
vorausgesetzt, daß weitere festzulegende Minimalwerte für ps beziehungsweise pr
nicht unterschritten werden. Schwellwerte ps und Referenzwerte pr werden auf
solche Werte ps k p(Ks1) beziehungsweise pr k p(Ks1) unterhalb der
Wahrscheinlichkeit p(Ks1) der wahrscheinlichsten Hypothese Ks1 a (Ks) festgelegt,
daß die Zahl der anfallenden Hypothesen Ks mit p(Ks) ge ps die Kapazität der
verfügbaren Rechner nicht übersteigt. Es werden Wahrscheinlichkeitsskalen mit
einer beschränkten Anzahl entsprechend grob abgestuften Wahrscheinlichkeitswerte
px = p1, p2 . . . usw. verwendet, wobei Wahrscheinlichkeiten, die sich um einen
entsprechend geringen Faktor b unterscheiden, gleichgesetzt werden. Diese
Wahrscheinlichkeitsskala wird nach Potenzen px = (t)a mit t k 1 quantifiziert, wobei
p1 = t, p2 = t2, p3 = t3 usw. ist. Die Festlegung der Schwellwerte ps erfolgt nach
Kosten-Nutzen-Abwägungen. Sie wird nach den bekannten Regeln der Spieltheorie
vorgenommen. Für die Bildung der Konkurrenzhypothesen Ks werden mehrere
Zyklen vorgesehen, bei denen die Schwellwerte ps ausgehend von vergleichsweise
hohen Werten psx stufenweise so weit auf Werte psx oberhalb festzulegender
Minimalwerte ps abgesenkt werden, bis sich für den betreffenden Superierungsschritt
wenigstens eine Konkurrenzhypothese Ks mit einer Wahrscheinlichkeit p(Ks) ge px
ergibt. Die Funktion des Autors At wird mit vergleichsweise hohen ps-Werten
bestritten, welche den Vorstellungen einer großen Zahl von Experten bezüglich der
Zulässigkeit der erzeugten Texte T entsprechend T = Tf und Nachrichten TN = TNg
genügen. In der Funktion des Hörers Hr werden auch vergleichsweise niedrige
Schwellwerte ps zugelassen, so daß die Bildung auch wenig wahrscheinlicher
Nachrichten TN zu einlaufenden Texten T möglich wird, die gegebenenfalls von
Autoren At geringer Sprachkompetenz abgegeben wurden oder auf der
Übertragungsstrecke gestört wurden und von Experten bezüglich ihrer Bedeutung als
ungebräuchlich bis hin zu fehlerhaft beurteilt werden. Für die Informationsdaten j(A)
gelten jeweils entsprechende Verarbeitungsvorschriften.
Die Erfindung sieht grundsätzlich vor, die Komplexbildungen von grammatischen
Nachrichten TN in beliebigen Reihenfolgen vorzunehmen, was eine Anpassung der
Vorgehensweise an die Gegebenheiten der jeweils durchzuführenden
Kommunikationsakte möglich macht. Beispielsweise werden Komponenten Em in
Richtung fallender Wahrscheinlichkeiten p(Em), mit denen sie durch vorliegende
Daten D einschließlich Adressen Ad angezeigt werden, berücksichtigt. So werden
beispielsweise bei der Zuordnung von Inhalten N zu Texten T Komponenten Em in
Richtung wachsender Superierungshierarchien berücksichtigt, wobei in einer
Vorgehensweise einem Textabschnitt T, jeweils unter Berücksichtigung disjunkter
Repertoires R(Ks) von Hypothesen Ks, ein Komplex ZZ von Zeichen Z, diesem dann
ein Komplex VtVt von Wörtern Vt, diesem ein Komplex GG von Einheiten G und
diesem ein Hintergrund E und Inhalt N zugeordnet wird. In einer hiervon
abweichenden Vorgehensweise wird jeweils einem entsprechend kürzeren
Textabschnitt T ein Komplex ZZ a Vt a G mit entsprechend zuzuordnenden
Symbolen Vt und G zugeordnet, einem weiteren Textabschnitt T ein weiteres
Symbol ZZ a Vt a G usw., die wiederum in grundsätzlich beliebigen Reihenfolgen zu
einem Hintergrund E, Inhalt N und einer Nachricht TN kombiniert werden, welche
gegebenenfalls zu Folgen TN,TN hiervon, beispielsweise in der Reihenfolge der
Textabschnitte T a TN im Text T, zusammengestellt werden. Bei der Erstellung von
ausgehenden Texten T zuzuordnenden Nachrichten TN werden entsprechend auch
Reihenfolgen in Richtung fallender Superierungshierarchien der Komponenten Em
verfolgt.
Die mit der nichtlinearen Datenverarbeitung Bb verbundene Vereinfachung der bei
der Komplexbildung von grammatischen Nachrichten TN anfallenden
Entscheidungsbäume in Verbindung mit grundsätzlich frei wählbaren Reihenfolgen
hat eine, unten auch an Beispielen erläuterte, vorteilhafte Verringerung des für die
Kommunikation anzusetzenden Verarbeitungsaufwands zur Folge, welche den aus
der Berücksichtigung quantitativ definierter Eigenschaften H(Gs) der Symbole Gs
resultierenden vermehrten Datenaufwand mehr als wettmacht.
Die erfindungsgemäß mittels der genannten Ansätze und Maßnahmen Ba, Bs und Bb
unter Beachtung von Wahrscheinlichkeiten p oder Informationen j und Evidenzen D
vorzunehmende Datenverarbeitung wird nachfolgend auch als intelligente
Wahrscheinlichkeits-, Informations-, Wissens- oder Datenverarbeitung bezeichnet.
Hierbei wird der Grad der Intelligenz als monoton abnehmend mit der Höhe der
Schwellwerte ps wie auch monoton zunehmend mit der Zahl der im Mittel jeweils
zunächst nebeneinander berücksichtigbaren Konkurrenzhypothesen Ks angesetzt.
Im Regelfall sind mit einem, wie oben definiert, grammatisch mehrdeutigen Text T =
T1, der unter Beachtung von Bedingung Bs zugleich mehreren unterschiedlichen
Inhalten N1 und N2 usw. zuordenbar ist, auch mehrere unterschiedliche semantische
Inhalte F1 und F2 usw. mit entsprechend unterschiedlichen resultierenden
semantischen Nachrichten T1N1F1 und T1N2F2 usw. verknüpft. In einer
Ausbildung der Erfindung ist vorgesehen, Texte T, die sich als grammatisch
mehrdeutig erweisen oder die Inhalten N nur mit vergleichsweise niedrigen
Wahrscheinlichkeiten p(T/N) zuordenbar sind, einer semantischen Analyse bezüglich
möglicher semantischer Inhalte F zuzuführen und die daraus beispielsweise gemäß
Erfindungsmeldung P . . . abzuleitenden Hinweise auf einen möglich erscheinenden
beziehungsweise vorzuziehenden Inhalt N zu nutzen. Man beachte, daß unter einem
oben definierten Text T = Tf, welcher durch Expertenaussage in bezug auf einen
zugeordneten semantischen Inhalt F für zulässig erklärt wird, erfindungsgemäß ein
Text T zu verstehen ist, der zugleich als grammatisch korrekter Text T = Tg a TNg
einer grammatisch korrekten Nachricht TNg mit grammatisch korrektem Inhalt Ng a
TNg und Hintergrund Eg a TNg zugeordnet ist.
Mit einem in einer Grammatik Ws zusammengefaßten Repertoire R(Gs) von
Symbolen Gs mit, unten noch detaillierter beschriebenen, Eigenschaften H(Gs) der
erfindungsgemäß vorgesehenen Art wird in Übereinstimmung mit der oben zitierten
Definition natürlicher Sprachen L ein für die betreffenden Sprachen L jeweils
endliches "Vokabular" von Symbolen bereitgestellt, aus dem, ebenfalls
definitionsgerecht, eine theoretisch mit dem Umfang der Texte T unbegrenzt
anwachsende Anzahl von Symbolkomplexen GsGs wie Inhalten N, Hintergründen E
und Sätzen S und entsprechend Komplexen NN, EE und SS hiervon erzeugbar ist.
Entsprechend der erfindungsgemäß vorgesehenen Verwendung von Symbolen Gs =
Vt, welche neben ihrer Funktion als Textsymbole Gt und grammatische Symbole Gr
zugleich auch als semantische Symbole Gp dienen, ist einer so unbegrenzten Vielfalt
von grammatischen Inhalten NN auch eine ebenso unbegrenzte Vielfalt semantischer
Inhalte FF zuordenbar. Wie unten ausgeführt, ist zur erfindungsgemäßen
Durchführung von Kommunikationsakten die Bearbeitung von Texten T erforderlich,
deren Länge jeweils einen bestimmten Minimalumfang nicht zu überschreiten
braucht, so daß der jeweilige Bearbeitungsvorgang ein beschränktes Repertoire
R2(GsGs) von Symbolkomplexen GsGs aus einem, wie angeführt, für die
betreffende Sprache L jeweils als prinzipiell unbeschränkt anzusetzenden Repertoire
R1(GsGs) betrifft. Hierbei ist davon auszugehen, daß insbesondere bei in
Analogform geäußerten, durch Textsignale Tx definierten Texten T die Zahl der auf
ein Textsymbol Gt, beispielsweise ein Wort Vt bezogenen Signalkomplexe TxTx
ebenfalls theoretisch unbegrenzt überproportional mit dem Umfang der Texte T
ansteigt. Durch die vorgesehene Beschreibung der Texte T mittels einer beschränkten
Anzahl von Merkmalen Z, die durch bestimmte Texteigenschaften H(T) mit
entsprechend großen Toleranzen dH zu definieren sind, wird auch der mit dem
Textumfang zu erwartende Anstieg der pro Wort Vt anzutreffenden
Merkmalskomplexe ZZ in apparativ beherrschbaren Grenzen gehalten.
In einer an die zu beherrschenden Sprachen L und Kommunikationsakte angepaßten
Ausgestaltung ist vorgesehen, den Grammatiken Ws auch als speziell bezeichnete
grammatische Daten Wsp a Ws zuzuordnen, die es ermöglichen, spezielle
grammatische Nachrichten TN = TNp mit Inhalten Np a TNp zu erzeugen, wie sie,
gegebenenfalls auch gekennzeichnet durch Vorgaben Vr, in speziellen
Kommunikationsakten eingesetzt werden. Hierzu gehören beispielsweise Gedichte,
bei denen ein Versfuß einzuhalten ist oder auch Reimungen oder Alliterationen zu
beachten sind, Überschriften oder Zeitungsschlagzeilen, die sich durch eine
besondere, beispielsweise auch durch das Weglassen eines Subjektes oder eines
Artikels erreichte Kürze auszeichnen, Formbildungen, wie sie in manchen Sprachen
L durch Anpassung von Lauten an den Kontext gefordert werden, Werbetexte usw.
Die Erfindung sieht vor, grammatische Symbole Gr = (Gt) zu verwenden, deren
Eigenschaften H(Gr) jeweils ein Repertoire R(Pr) von Möglichkeiten ihrer
Verwendung in grammatischen Nachrichten TN in Anordnungen Pr mit
einschließen, welche allgemein durch einen Rang Ra und die Positionen P der Texte
T a Gt a Gr ihrer Textsymbole Gt a Gr bestimmt sind und durch die oben
eingeführten Valenzen Um beschrieben werden. Diese Valenzen werden durch die
nachfolgend ausgeführten Beziehungen Wt = Wtu definiert und unterscheiden sich
somit von den als nicht zuverlässig eingeschätzten Valenzen / /24/ /, wie sie für dem
gegenwärtigen Stand entsprechende Grammatiken vorgeschlagen wurden. Die
Beziehungen Wt werden hier beispielhaft für die Komplexbildungsmöglichkeiten
einer als grammatisches Symbol Gr eingesetzten Einheit G11 a (G1w) über deren
Valenz Um11.1 mit einer Einheit G21 a (G2v) über deren Valenz Um21.1 dargelegt,
wobei (G1w) und (G2v) für jeweils eine disjunkte Klasse Kl von Einheiten G stehen.
Die Komplexbildung einer Einheit G2v a (G2v) mit G11 über deren Valenz Um11.1
ist durch eine oder auch mehrere mögliche Positionen P2vz.1 der Texte Ts a Vt a G
in einer Nachricht TN relativ zueinander bestimmt; entsprechende
Positionsbezeichnungen P1wz.1 gelten für die Komplexbildung einer Einheit G21
über deren Valenz Um21.1 mit einer Einheit G1w. Hierbei wird durch eine
Beziehung
Wt1 =: p((G2v)/G11; P2vz) ge pr1
angezeigt, daß für G11 eine Komplexbildung mit einer der Einheiten G2v unter
Beachtung einer Position P2vz mit einer einen Referenzwert 0 k pr1 k 1 nicht
unterschreitenden Wahrscheinlichkeit p ge pr1 zu erwarten ist, wobei hier und im
folgenden die weitere Bedingung, daß die Komplexbildung über Valenz Um11.1
erfolgt, nicht eigens notiert wird.
Durch eine weitere Beziehung
Wt2 =: p((Gu)/G11; Pu) k ps2
mit Gu ne G2v wird ausgedrückt, daß für eine Komplexbildung von G11 über Um11
mit einer Einheit Gu aus einer disjunkten Klasse Kl = (Gu), von denen keine der
Klasse (G2v) angehört, eine Wahrscheinlichkeit p k ps2 unterhalb eines nahe null
liegenden Schwellwertes ps2 gilt.
Die weitere Beziehung
Wt3 =: p((G2v)/G11; P2vz; G2vG11) k ps2
zeigt an, daß für eine Komplexbildung von G11 über Um11.1 mit einer weiteren,
beispielsweise an einer weiteren Position P2vz angeordneten Einheit G2v ebenfalls
eine nahe null liegende Wahrscheinlichkeit p k ps2 gilt, falls diese Valenz Um11.1
bereits durch eine Komplexbildung G2vG11 mit einer Einheit G2v gesättigt ist.
Schließlich wird anhand von
Wt4 =: p(n(G2v)/G11) = p4
festgelegt, ob es sich bei Um11.1 um eine selbständige Valenz Um = Ums handelt,
die mit einer einen nahe null liegenden Schwellwert ps4 nicht unterschreitenden
Wahrscheinlichkeit p4 ge ps4 nicht notwendig gesättigt werden muß, oder um eine
unselbständige Valenz Um = Umn, bei der in den Nachrichten TN eine
Komplexbildung mit keiner der Einheiten, also n(G2v), gemäß p4 k ps4 praktisch
nicht vorgesehen ist, diese also mit hoher Wahrscheinlichkeit p g (1 - ps4) gesättigt
werden muß.
Für eine Valenz Um21.1, welche entsprechende Komplexbildungsmöglichkeiten
einer Einheit G21 a (G2v) mit einer disjunkten Klasse Kl = (G1w) von Einheiten
G1w beschreibt, der auch G11 angehört, gelten entsprechende Beziehungen Wt mit
Wt1 =: p((G1w)/G21; P1wz) ge pr1'
Wt2 =: p((Gu')/G21; Pu) k ps2
Wt3 =: p((G1w)/G21; P1wz; G1wG21) k ps2
Wt4 =: p(n(G1w)/G21) = p4'
Hierbei ist entsprechend (G1w) na (Gu') sowie Um21.1 = Ums21.1, falls p4' ge ps4
oder Um21.1 = Umn21.1, falls p4' k ps4.
Eine Einheit G11, die mindestens eine Valenz Um aufweist, die in bezug auf
sämtliche Einheiten G2v a (G2v) als Umn definiert ist, wird auch als unselbständig
oder abhängig definiert, da sie in einem Hintergrund E mit hoher Wahrscheinlichkeit
p = 1 - ps4 nicht allein vorkommen kann. Eine Einheit G11, die dagegen
ausschließlich Valenzen vom Typ Ums aufweist, wird als selbständig bezeichnet und
kann einen grammatischen Hintergrund E auch allein bilden wie auch die Funktion
eines Kopfes G = Gk ausüben, von dem definitionsgemäß mindestens eine weitere
Einheit Gx, wie unten erläutert, als Anhänger Gx = An(Gk) abhängt. Auch jede
weitere gegebenenfalls vorliegende Valenz Um11.x einer Einheit G11 für die
Komplexbildung mit einer weiteren Klasse (G3v) von Einheiten G3v in weiteren
Anordnungen Pr wird durch entsprechende Ausdrücke Wtux mit Bedingungen Wtu
näher bestimmt.
Bei Komplexbildungen der hier beispielhaft angegebenen Art wird bei einer auch als
Verknüpfungsknoten Uk bezeichneten Zusammenfügung einer Einheit G11 über eine
ihrer Valenzen vom Typ Ums mit einer Einheit G21 über eine ihrer Valenzen Umn
zu einem Komplex E = E1 die Einheit G11 als Träger Ar von G21, geschrieben auch
G11 = Ar(G21), bezeichnet, ausführlicher auch durch G11(Ums11.1) =
Ar(G21(Umn21.1)). Zugleich gilt G21 als Anhänger An von G11 mit entsprechend
G21 = An(G11) usw. Bei einer solchen auch als Ar/An-Bezug bezeichneten
Komplexbildung wird dem Träger Ar ein Rang Ra über dem des Anhängers An
zugeordnet. Bei einer Komplexbildung von 2 Einheiten G11 und G21 über deren
Valenzen Um, die beide vom Typ Ums sind, wird alternativ entweder G11 =
Ar(G21) oder G21 = Ar(G11) festgelegt, wobei bevorzugt G11 = Ar(G21) definiert
wird, falls sich in Wt4 Wahrscheinlichkeiten p4 g p4' ergeben, und G21 = Ar(G11),
falls p4' g p4.
Die entsprechend den Valenzen Um unter Beachtung der Positionen P der
Textabschnitt Ts a Vt a Gr gebildeten Ar/An-Bezüge und die damit jeweils
verknüpften Rangordnungen Ra der Symbole Vt a G definieren im einzelnen deren
oben eingeführte Anordnungen Pr. Ein Ar/An-Bezug wird auch als grammatische
Funktion eines Symbols Vt a G in einer Nachricht TN bezeichnet. Die einem Text T
zugeordneten Symbole Vt, die Einheiten G, denen sie angehören, sowie deren
wechselseitige Ar/An-Bezüge werden als grammatischer Inhalt N des Textes T
definiert.
Definitionsgemäß umfassen die eingeführten Anordnungen Pr sowohl die
Möglichkeit des, gegebenenfalls auch alleinigen, Vorkommens einer Einheit G und
eines ihrer Symbole Vt a G und dessen Textes Ts a Vt in einer Nachricht TN
unabhängig von einer weiteren Einheit G als auch ihres durch einen Bezug zu einer
weiteren, durch ein Symbol Vt und einen Text Ts a Vt vertretenen, Einheit G
bedingten Vorkommens. Vereinfachend werden auch die Anordnungsmöglichkeiten
der Symbole Vt a G einschließlich ihrer Textabschnitte Ts a Vt als Pr bezeichnet. Die
vorgesehene, durch die zugrunde gelegten Definitionen der Symbole Vt a G möglich
gemachte Beschreibung ihrer Anordnungsmöglichkeiten Pr in Nachrichten TN durch
Valenzen Um der Einheiten G hat vorteilhaft zur Folge, daß, anders als bei
lexikalischen Wörtern, die Vielzahl möglicher Bezüge zwischen objektiven Wörtern
Vt datensparend durch eine weitaus geringere Anzahl von Eigenschaften H(G) von
Superierungen G = (Vt) dieser Wörter Vt beschreibbar wird, wobei durch eine
Valenz Um21.1 einer Einheit G21 = (Vt21y) die Bezüge der Wörter Vt21.y a G21 zu
Wörtern Vt1w.y a G1w ausgedrückt werden, die sogar zu einer weiteren Klasse Kl =
(Vt1w.y) zusammengefaßt werden, wobei die Bezugsdaten weitgehend auf,
kombinatorische Explosionen vermeidende, Daten der Ordnung O(2) beschränkt
bleiben.
Den Gegebenheiten der Sprachen L entsprechend werden, auch im Einklang mit den
unten beschriebenen Transformationen Q, die Schwellwerte ps in den Beziehungen
Wt so festgelegt, daß die Daten Ws einer Sprache L auch selbständige Einheiten G
ohne unselbständige Valenzen Umn enthalten.
In einer bevorzugten Ausgestaltung der Erfindung werden in den Daten Ws Valenzen
Um mit Wahrscheinlichkeiten pr1 in Wt1 berücksichtigt, deren Werte die aus Texten
T der betreffenden Sprachen L zu entnehmenden stochastischen
Wahrscheinlichkeitswerte p((G2v)) um ausreichend hohe Faktoren b gg 1, auch unter
Berücksichtigung der unten beschriebenen Transformationen Q, übertreffen.
Der genannte bevorzugte Aufbau der grammatischen Nachrichten TN aus Symbolen
Gs = G, welche den Transformationen Q genügen, hat zur Folge, daß die
Hintergründe E a TN durch Verknüpfungen von Einheiten G über deren Valenzen
Um aufgebaut werden, von denen jeweils eine einzige selbständige Einheit G als
Kopf G = Gk fungiert, welche gegebenenfalls einen Hintergrund E auch allein bildet.
In einer Ausbildung der Erfindung wird dieser implizit zu beachtende Sachverhalt
explizit auch dadurch ausgedrückt, daß eine grammatische Nachricht TN mit dem
Vorliegen eines Hintergrundes E verknüpft wird, dem eine selbständige Valenz vom
Typ Ums mit Wahrscheinlichkeit p((Gsv)/E) = p11 entsprechend den Beziehungen
Wt1, Wt2 und Wt3 zugeordnet wird, wobei (Gsv) die disjunkte Klasse Kl sämtlicher
in einer Sprache L verfügbaren selbständigen Einheiten G = Gsv repräsentiert.
In einer von der durch Einhaltung der Bedingung Cs gekennzeichneten
Ausführungsform abweichenden Ausgestaltung wird anstelle von Cs eine Bedingung
Css zugrunde gelegt, wonach eine disjunkte Klasse B = (Ax) a TN auch durch n(Ax),
also keines ihrer Elemente Ax a (Ax) vertreten sein kann, wenn B vorliegt, also
beispielsweise durch kein Wort Vt a G, wenn als Begriff Gr ein Superwort Gr = G =
(Vt) in TN vertreten ist. In einer weiteren Ausformung wird anstelle der disjunkten
Klasse B = (Ax) eine abgewandelte disjunkte Klasse C = n(Ax) o (Ax) = n(Ax) o A1
o A2 o . . . eingesetzt, vorausgesetzt, daß entsprechend Bs dann neben p(Ax/B) ge ps
auch p(n(Ax)/C) ge ps gilt, wobei wieder Cs zugrunde gelegt wird. Bei einem gemäß
/ /4/ /, S. 177 f. als elliptisch bezeichneten Text, wie er beispielhaft durch eine
mündliche, hier wieder durch eine Buchstabenfolge T1 = /komme/ angenäherte
Äußerung repräsentiert wird, folgen bei diesen Ausbildungen unterschiedliche
grammatische Nachrichten TN und Inhalte N, wenn als grammatische Daten Ws
unter anderem ein durch den Textabschnitt Ts111 = /ich/ = Vt11 gegebenes Wort
Vt11 a G1 und durch Ts211 = /komme/ = Vt21 gegebenes Wort Vt21 a G2 vorliegt.
In einer Css folgenden Ausbildung wird Text T1 ein Satz (S11 a N1) = Vt21 mit N1
= G1G2 zugeordnet, wobei G1 = Ar(G2) mit G1 als selbständiger und G2 als
unselbständiger Einheit vorausgesetzt wird, wobei dann p(n(Vt1y/G1)) ge ps
anzunehmen ist. In einer Bedingung Cs folgenden Ausbildung wird T1 ein Inhalt N2
= G2 und ein Satz (S21 a N21) = Vt21 mit (Ts211 a Vt21) = /komme/ zugeordnet,
wobei dann G2 ebenfalls als selbständige Einheit eingesetzt wird, auch wenn dem
Sprachgebrauch folgend für diese Funktion als Kopf Gk mit p(G2) k p(G1) zu
rechnen ist. Für die weitere Erfindungsbeschreibung werden die unter Einhaltung
von Bedingung Cs durchzuführenden Ausführungsformen zugrunde gelegt.
Wie aus den Formulierungen Wt folgt, ist es je nach den Gegebenheiten der
Sprachen L möglich, daß Wahrscheinlichkeiten p(Gx) der Ordnung O(1) dafür, daß
eine Einheit Gx, vertreten durch ein objektives Wort Vtxy o Gx, in einem Text T
einer gegebenen Länge vorkommt, wesentlich niedriger anzusetzen sind als bedingte
Wahrscheinlichkeiten p(Gx/G1) der Ordnung O(2) dafür, daß Gx vorliegt, wenn eine
Einheit G1 in der betreffenden Nachricht TN anzutreffen ist. Je nach
Wahrscheinlichkeit p(Gx) wird so beispielsweise bei einer durch die
Buchstabenfolge T1 = /erlebt/ angenäherten mündlichen Äußerung Tp einer
Nachricht TN, die dem Schrifttext /Er lebt./ entspricht, eine höhere
Wahrscheinlichkeit p zugeordnet als beispielsweise Nachrichten TN, die
Schrifttexten wie /Er. Lebt!/ oder /Erlebt!/ entsprechen, wobei, wieder angenähert
durch Buchstabenfolgen, /er/ a G1, /lebt/ a G2 und /erlebt/ a G3 mit Gx = G2 o G3
und p(G2/G1) g p(G1) g p(G2) ue p(G3) angesetzt wurde.
Erfindungsgemäß sind, im Einklang mit den Transformationen Q, keine
Komplexbildungen zwischen 2 Einheiten G1 und G2 über deren Valenzen Um
vorgesehen, wenn diese beide unselbständig, also vom Typ Umn sind. Wie oben
ausgeführt, werden 2 oder mehr Symbole, die je nach, insbesondere auch durch die
Positionen P gegebenem Zusammenhang, auch als eigene Wörter Vt1y a G1 und
Vt2y a G2 usw. vorkommen, in solchen Fällen, wo sie nur gemeinsam, also nicht
durch die Transformationen Q separierbar vorliegen, als eigenes Wort Vt3 a G3
definiert, welche datensparend auch als Komplexe Vt3z = vt1yvt2y und G3 = g1g2
der oben definierten Teilwörter vtxy und Teileinheiten gx notiert werden. Dieser Fall
ist in Beispiel 1) unten sowohl durch Einheit G11 = g9g8 wie auch G12 = g10g8 mit
den Positionen P = g9:g8 und g10:g8 gegeben, deren Teileinheiten in anderem
Zusammenhang auch als Einheiten g8 = G8, g9 = G9 und g10 = G10 Verwendung
finden.
In der genannten datensparenden Ausführungsform ist vorgesehen, als Valenzen Um
einer so als Komplex Ga aus weiteren Einheiten Gb = gb gebildeten Einheit Ga =
gbgb diejenigen Valenzen Um der Komponenten Gb zuzuordnen, die nach der
Komplexbildung gbgb noch frei sind, wobei die Positionsangaben in den Um
gegebenenfalls entsprechend abgeändert werden. Weisen also in Beispiel 1) die
Verbformen G8 unter anderem eine Valenz Umn8.1 zur Komplexbildung mit einem
bestimmten Subjekt G1, eine weitere Valenz Ums8.1 zu Verknüpfung mit einem
bestimmten Objekt G9 sowie eine Valenz Ums8.2 zur Komplexbildung mit einem
Adverb G10 und weiterhin G9 unter anderem eine Valenz Umn9.1 zur
Komplexbildung mit bestimmten Verbformen G8 auf, so gelten in der
Komplexbildung Ga = G11 = g9g8 in Beispiel 1) Valenzen Ums8.1 und Umn9.1 als
gesättigt, während Umn8.1 und Ums8.2 mit entsprechend angepaßten
Positionsangaben P für Komplexbildungen von G11 mit weiteren Einheiten G zur
Verfügung stehen.
Der rangniedrigere Anhänger G2 = An(G1) eines ranghöheren Trägers G1 = Ar(G2)
wird auch als abhängig von G1 bezeichnet, so wie auch ein Element El a Kl und eine
Komponente Em a Kp als zur jeweiligen Superierung rangniedriger und somit davon
abhängig definiert sind. Komplexbildungen in Hintergründen E a TN, in denen
Einheiten G kettenförmig voneinander abhängen, beispielsweise gemäß G2 =
An(G1), G3 = An(G2) usw., werden als Ast As, im einzelnen auch als Ast As(G1,
G2, G3 . . .) bezeichnet, die unten näher erläuterten Strukturen J der aus Ästen As
zusammengesetzten Komplexe E, N wie auch TN auch als Bäume mit jeweils einem
Kopf Gk. Dabei ist zu beachten, daß die hier benutzten Bezeichnungen wie Baum,
Ast, Kopf, Valenz, Rang usw. sich im Regelfall auf Begriffe beziehen, deren
Definitionen sich von durch gleichlautende Bezeichnungen angezeigten Begriffen,
wie sie in den dem gegenwärtigen Stand entsprechenden Grammatiken anzutreffen
sind / /24/ /, unterscheiden. Im folgenden werden in der Erfindungsbeschreibung
Bezüge zwischen Superierungen wie Einheiten G vereinfachend auch durch Bezüge
zwischen deren Elementen El ausgedrückt; ein Bezug wie G1 = Ar(G2) wird also
auch durch Vt11 = Ar(Vt21) oder auch Ts111 = Ar(Ts211) usw. mit Ts111 a V11 a
G1 usw. angezeigt, Beispielsweise gilt im unten angeführten Beispiel 3) ein Bezug
/rufe/ = Ar(/und höre/), womit impliziert ist, daß /rufe/ a Vt11 a G1, daß /und höre/ a
Vt21 a G2 und daß G1 = Ar(G2). Gemäß einem weiteren, bereits oben
angesprochenen Beispiel gilt unter Beachtung von Bedingung Cs entsprechend den
Gegebenheiten der mündlichen deutschen Sprache in einem durch T2 = /ich komme/
angenäherten Text T mit /ich/ = (Vt11 a G1) und /komme/ = (Vt21 a G2) zwar G1 =
Ar(G2), G2 aber nicht als unselbständige Einheit, da auch mündliche Äußerungen Tp
wie der oben gebrachte Text T1 = /komme/ als sprachüblich gelten. Entsprechend
wird die für die Bildung von T2 a T2N2 zugrunde gelegte Valenz von G2 ebenso wie
die beanspruchte Valenz Um von G1 als selbständige Valenz Ums festgelegt.
In einer datensparenden Ausgestaltung der Erfindung werden Angaben über die
Positionen P alternativ entweder nur den Valenzen Ums der übergeordneten oder,
bevorzugt, nur den Valenzen Ums der untergeordneten Einheiten G zugeordnet.
Hierbei schließt in einer weiteren Ausbildung eine solche Positionsbezeichnung P2
bei einer abhängigen Einheit G2 = An(G1) nicht nur deren Positionierung zu ihrem
Träger G1 = Ar(G2), sondern gegebenenfalls auch weiterer von G2 abhängiger
Einheiten G3 = An(G2) usw. relativ zu G1 mit ein, welche somit in der
Positionsangabe der betreffenden Valenz Um von G3 nicht eigens vermerkt werden
muß. So wird durch P2 = G1:G2 und P3 = G3:G2 ein Hintergrund E1 mit der
Reihenfolge E1 = G1G3G2 mit entsprechenden Anordnungen der Texte Txyz a Vtxy
a Gx in der Nachricht T1N1 vorgegeben; dagegen wird ein allein gemäß P3 möglich
erscheinender Hintergrund mit der Reihenfolge E3 = G3G1G2 aufgrund der
vorgegebenen umfassenden Bedeutung von P2 unterbunden. Damit wird eine
Positionsangaben der Ordnung O(3) für die Folge G1G3G2 aufwandsparend auf 2
Positionsangabe der Ordnung O(2) für die beiden Folgen G1G2 und G3G2
zurückgeführt. Entsprechend den Gegebenheiten der Sprachen L werden aber, wo
erforderlich, auch Daten einschließlich Positionsangaben P auch höherer Ordnung
O(n) benutzt. Die aus der Zusammenfassung der Komplexbildungsmöglichkeiten
von Sprachtexten T aus Textabschnitten Ts a Vt a G zu Valenzen Um der aus diesen
Textabschnitten Ts superierten Einheiten G vorteilhaft resultierende Dateneinsparung
wurde oben diskutiert.
Abhängig von den Gegebenheiten der betreffenden Sprachen L ist in einer
Ausgestaltung vorgesehen, die beschriebenen Ausdrücke Wt durch zusätzliche
Valenzen-übergreifende Beziehungen Wtux zu ergänzen, welche in einer von
verschiedenen Ausbildungen fordern, daß die Komplexbildung einer Einheit G11 mit
einer Einheit G2v a (G2v) über eine Valenz Um11.1 von G11 nur mit geringer
Wahrscheinlichkeit p k pr möglich ist, wenn G2v bereits über eine der weiteren
Valenzen von G11, etwa Um11.2, mit G11 verknüpft ist. Weiterhin wird die Bildung
von als zu umfangreich oder zu klein angesehenen Komplexen E mit entsprechenden
Wahrscheinlichkeiten p k pr unterbunden. Valenzen-übergreifende Idiome wurden
oben behandelt.
Der Einsatz der eingeführten Symbole Gs einschließlich der aus Teilwörtern vt
gebildeten Teileinheiten g = (vt) und der Valenzen Um wird zunächst anhand des
folgenden Beispiels 1) aus der deutschen Schriftsprache erläutert, das zur
Vereinfachung der Beschreibung gegenüber der Realität in einigen Punkten
vereinfacht wurde. Als Textsymbole Gt werden Wörter Vtxy a Gx und Teilwörter
vtxy a gx verwendet, die als Norm-Zeichenkomplexe ZZsaxyz von Zeichen Z
gebildet werden, welche gebräuchliche Buchstaben sowie einige der eingeführten
Operatoren o unter Vernachlässigung des Trennungsoperators /==/ mit einschließen.
Aufgrund der Beschränkung auf Normkomplexe wird für jedes Wort Vt und Teilwort
vt jeweils eine als Vt = ZZs = Ts usw. notierte Identität zwischen Symbol Gt und
Text Ts vorausgesetzt. Eine Teileinheit g = gb einer Einheit G = Ga, wie
beispielsweise G11, welche auch als Einheit G = Gb wie beispielsweise G8
eingesetzt wird, wird entsprechend als g = g8 numeriert, worin ein Wort Vt8.y a G8
entsprechend als Teilwort vt8.y a g8 geführt wird. Wie oben ausgeführt, werden
hierbei Valenzen Um der Einheiten Gb auch als Valenzen Um der hieraus
zusammengesetzten Einheiten Ga verwendet, soweit diese nicht aufgrund der
Zusammenfügung mit weiteren Teileinheiten g zu Ga gesättigt wurden. Die
angeführten Reihenfolgen der Komplexe gg entsprechen den Positionen P der
Teilwörter vt a g und Texte (Ts = ts) a vt, wobei bei gegebenenfalls
dazwischenschiebbaren Texten T entsprechende Toleranzen da für die Abstände a
anzusetzen sind. Als Symbole Gs werden folgende Einheiten Gx mit Wörtern Vtx.y
= Tsax.y und Teileinheiten gx.y mit Teilwörtern vtx.y = Tsax.y im Rahmen der zu
beachtenden grammatischen Daten Ws verwendet:
G131 = g21g31g22; vt21.1 = /g/;
vt22.1 = /__/, vt22.2 = /./, vt22.3 = /!/,
vt22.4 = /?/; vt31.1 = /_er/; G132 = g21g32g22;
vt32.1 = /_sie/; G133 = g21g33g22;
vt33.1 = /_wer/; G134 = g21g34g22;
vt34.1 = /_Rost/, vt34.2 = /_Hund/,
vt34.3 = /_Freund/; G135 = g21g351g34g22;
vt351.1 = /_der/; G136 = g21g36g22;
vt36.1 = /_nimm/; G4; Vt4.1 = /, tatsächlich,/
G5 = g21g4g22; G6; Vt6.1 = /_m=/; Vt6.2 = /_k=/,
Vt6.3 = /_d=/, Vt6.4 = /_s=/; G7 = g71g71;
vt71.1 = /"/; G8; Vt8.1 = /_frißt/,
Vt8.2 = /_fand/; G9; Vt9.1 = /_Knochen/,
Vt9.2 = /_Helfer/; G10; Vt10.1 = /_wohl/,
Vt10.2 = /_gern/, Vt10.3 = /_tatsächlich/; G11 = g9g8; G12 = g10g8;
G17; Vt17.1 = /_alter/, Vt17.2 = /_2./;
G18; Vt18.1 = /_alte/, Vt18.2 = /_2./;
G19; Vt19.1 = /_ein/; G20; Vt20.1 = /_keine/;
G21; Vt21.1 = /_es/, Vt21.2 = /_das/.
G131 = g21g31g22; vt21.1 = /g/;
vt22.1 = /__/, vt22.2 = /./, vt22.3 = /!/,
vt22.4 = /?/; vt31.1 = /_er/; G132 = g21g32g22;
vt32.1 = /_sie/; G133 = g21g33g22;
vt33.1 = /_wer/; G134 = g21g34g22;
vt34.1 = /_Rost/, vt34.2 = /_Hund/,
vt34.3 = /_Freund/; G135 = g21g351g34g22;
vt351.1 = /_der/; G136 = g21g36g22;
vt36.1 = /_nimm/; G4; Vt4.1 = /, tatsächlich,/
G5 = g21g4g22; G6; Vt6.1 = /_m=/; Vt6.2 = /_k=/,
Vt6.3 = /_d=/, Vt6.4 = /_s=/; G7 = g71g71;
vt71.1 = /"/; G8; Vt8.1 = /_frißt/,
Vt8.2 = /_fand/; G9; Vt9.1 = /_Knochen/,
Vt9.2 = /_Helfer/; G10; Vt10.1 = /_wohl/,
Vt10.2 = /_gern/, Vt10.3 = /_tatsächlich/; G11 = g9g8; G12 = g10g8;
G17; Vt17.1 = /_alter/, Vt17.2 = /_2./;
G18; Vt18.1 = /_alte/, Vt18.2 = /_2./;
G19; Vt19.1 = /_ein/; G20; Vt20.1 = /_keine/;
G21; Vt21.1 = /_es/, Vt21.2 = /_das/.
Diese Daten Ws entsprechen den durch die Transformationen Q bestimmten
Definitionen der Wörter Vt a G und Valenzen Um. Wie aus Einheit G8 ersichtlich,
werden dabei im Deutschen die Unterschiede zwischen den stark gebeugten
Verbformen des Präsens und Praeteritums einer bestimmten Person nicht als
grammatisch, sondern als semantisch klassifiziert. Die Situation bei schwach
gebeugten Verben wird unten behandelt. Das für den geschilderten gegenwärtigen
Stand gemäß / /1/ /, S. 100 und / /27/ /, S. 33 f. charakteristische Problem der
Wortklassenbildung wird erfindungsgemäß, wie auch anhand einer entsprechenden
Erweiterung des Beispiels 1) zu ersehen ist, gemäß den Transformationen Q so
gelöst, daß von den oben zitierten Flexionsformen eines stark gebeugten Verbs wie
/singen/ beispielsweise die Formen der 3. Person Singular Vt8.3 = /_singt/ und Vt8.4
= /_sang/ beide als unterschiedliche Wörter Vt8.y einer einzigen Einheit G8 aus
Beispiel 1) zugeordnet werden, während die Formen der 1. Person /_singe/ und
/_sang/ beide als Wörter Vtay a Ga einer weiteren, in 1) nicht berücksichtigten
Einheit Ga Verwendung finden. Ein Ideogramm wie /_2./ wird erfindungsgemäß
auch unterschiedlichen Einheiten, hier G17 und G18, zugeordnet.
Wie anhand möglicher Erweiterungen des Beispiels 1) durch weitere als Wörter Vt
beziehungsweise vt einsetzbare lexikalische Wörter zu zeigen ist, läßt sich, wie oben
ausgeführt, für die zur Beschreibung des Vokabulars R(Gs) erforderlichen Daten Ws
ein Volumen ansetzen, dessen Zunahme sich asymptotisch einem linear mit der Zahl
der objektiven Wörter Vt verlaufenden Anstieg ohne Gefahr einer kombinatorischen
Explosion nähert. Beispielsweise läßt sich Einheit G8 eine Vielzahl weiterer
Verbformen Vt8.y wie /_holt/, /_nahm/, /_sucht/, /_will/ usw. zuordnen, ohne daß
eine Erweiterung der durch die Eigenschaften H(G8) beschriebenen grammatischen
Bezüge zu weiteren Wörtern Vt erforderlich wird, wobei die von der Zahl n der einer
Einheit Gx zugeordneten Wörter Vtxy abhängigen Wahrscheinlichkeiten
beispielsweise einem Verlauf p(Vtxy/Gx) = b/n folgen.
Mit den, unten noch weiter ausgeführten, Daten Ws des Beispiels 1) werden, unter
Vernachlässigung von Vorgaben Vr, zunächst beispielhaft die folgenden als Texte T
= VtVt = S notierten Äußerungen betrachtet:
T11 = S11 = vt21.1Vt19.1vt34.3vt22.1 = /Ein Freund/, der wegen des fehlenden Punktes als Überschrift geeignet ist;
T21 = vt21.1Vt6.2Vt19.2vt34.2vt22.4 = /Kein Hund?/;
T31 = vt71.1vt21.1vt4.1vt22.3vt71.1 = /"Tatsächlich!"/;
T41 = vt21.1Vt4.1Vt6.1Vt19.1vt34.2Vt8.1vt22.3 = /Tatsächlich, mein Hund frißt!/;
T51 = vt21.1vt34.1Vt8.1Vt4.1vt22.4 = /Rost frißt, tatsächlich?/;
T61 = vt21.1vt351.1Vt18.2vt34.2Vt8.1Vt10.3Vt20.1Vt9.1vt22.2 = /Der 2. Hund hißt tatsächlich keine Knochen./;
T71 = vt21.1vt9.2vt8.2Vt6.1Vt19.1Vt17.1vt34.3Vt10.1vt22.2 = /Helfer fand mein alter Freund wohl./;
T8.1 = vt21.1vt32.1Vt8.2vt22.2 = /Sie fand./;
T9.1 = vt21.1vt36.1vt21.2vt22.3 = /Nimm das!/.
T11 = S11 = vt21.1Vt19.1vt34.3vt22.1 = /Ein Freund/, der wegen des fehlenden Punktes als Überschrift geeignet ist;
T21 = vt21.1Vt6.2Vt19.2vt34.2vt22.4 = /Kein Hund?/;
T31 = vt71.1vt21.1vt4.1vt22.3vt71.1 = /"Tatsächlich!"/;
T41 = vt21.1Vt4.1Vt6.1Vt19.1vt34.2Vt8.1vt22.3 = /Tatsächlich, mein Hund frißt!/;
T51 = vt21.1vt34.1Vt8.1Vt4.1vt22.4 = /Rost frißt, tatsächlich?/;
T61 = vt21.1vt351.1Vt18.2vt34.2Vt8.1Vt10.3Vt20.1Vt9.1vt22.2 = /Der 2. Hund hißt tatsächlich keine Knochen./;
T71 = vt21.1vt9.2vt8.2Vt6.1Vt19.1Vt17.1vt34.3Vt10.1vt22.2 = /Helfer fand mein alter Freund wohl./;
T8.1 = vt21.1vt32.1Vt8.2vt22.2 = /Sie fand./;
T9.1 = vt21.1vt36.1vt21.2vt22.3 = /Nimm das!/.
Die für Beispiel 1) berücksichtigten grammatischen Daten Ws umfassen auch einige
Daten der oben genannten Art Wsp a Ws, wie sie für spezielle
Kommunikationsbereiche, die beispielsweise Überschriften oder Anreden mit
einschließen, benötigt werden. So ist neben T11 etwa eine Anrede
T10.1 = vt21.1Vt17.1vt34.3vt22.3 = /Alter Freund!/
oder Überschrift
T11.1 = vt21.1Vt17.1vt34.3Vt8.2Vt9.2vt22.1 = /Alter Freund fand Helfer/
möglich, wobei nach Expertenmeinung letztere Äußerung in einem fortlaufenden Text in eine Äußerung T12.1 = /Ein alter Freund fand Helfer./ = Tf zu korrigieren wäre. Eine gemäß den Transformationen Q hierfür analog zu G135 festzulegende Einheit G137 = g21g371g34g22 mit g371 = G19 wurde in Beispiel 1) zur Vereinfachung zunächst vernachlässigt, wird unten aber zur Nachrichtenbildung TN für Text T71 herangezogen.
T10.1 = vt21.1Vt17.1vt34.3vt22.3 = /Alter Freund!/
oder Überschrift
T11.1 = vt21.1Vt17.1vt34.3Vt8.2Vt9.2vt22.1 = /Alter Freund fand Helfer/
möglich, wobei nach Expertenmeinung letztere Äußerung in einem fortlaufenden Text in eine Äußerung T12.1 = /Ein alter Freund fand Helfer./ = Tf zu korrigieren wäre. Eine gemäß den Transformationen Q hierfür analog zu G135 festzulegende Einheit G137 = g21g371g34g22 mit g371 = G19 wurde in Beispiel 1) zur Vereinfachung zunächst vernachlässigt, wird unten aber zur Nachrichtenbildung TN für Text T71 herangezogen.
Gemäß einer der genannten Ausgestaltungen wird die Reihenfolge der den Sätzen S
a N zugeordneten Wörter Vt beziehungsweise vt wie auch der den Inhalten N
zugeordneten Einheiten G beziehungsweise g entsprechend den Positionen P der
Textabschnitte Ts a T a TN festgelegt. Man beachte, daß die Pluralform /_keine/ in
Text T61 nicht durch Komplexbildung zweier objektiver Wörter Vt zustande kommt
wie die Singularform /_kein/ in T21.
Die Daten Ws des Beispiels 1) dienen auch der Erläuterung der Valenzen Um.
Hierzu werden für die Einheiten G13x, mit x = 1 bis 5, zunächst 3 selbständige
Valenzen Ums13x.u, mit u = 1 bis 3, diskutiert. Von diesen ermöglicht Ums13x.1
eine Komplexbildung mit Einheit G7 über eine entsprechend unselbständige Valenz
Umn7.1 von G7, die durch eine Positionsangabe P7.1 = g71:G13x:g71 näher
bestimmt ist. Hierin zeigt die Unterstreichung, auch gemäß der oben eingeführten
Konvention, an, daß die Positionierung :G13x: auch die Positionen sämtlicher
gegebenenfalls von Einheit G13x abhängigen Einheiten mit einschließt. Valenz
Ums13x.3 regelt eine Verknüpfungsmöglichkeit mit Einheit G4 über deren hier
zunächst als unselbständig festgelegte Valenz Umn4.1, der disjunkt die
Positionsangaben P4.1.1 = g21:G4:g3x:g22 und P4.1.2 = g21:g3x:G4:g22
zugeordnet werden, worin durch die Unterstreichung entsprechend symbolisiert wird,
daß g3x die Positionen sämtlicher weitere von G13x abhängigen, zwischen g21 und
g22 angeordneten Einheiten, somit also nicht G7 umfaßt. Die Valenzen Ums13x.2
der Einheiten G13x regeln jeweils die Zuordnung einer disjunkten Klasse (G)1 von
Einheiten G8 a (G)1 und der weiteren Klasse (G)2 a (G)1 mit G11 a (G)2 uhd G12 a
(G)2 über die entsprechenden Valenzen Umn von G8, G11 und G12. Hierbei werden
jeweils Valenz Umn8.1 durch eine Positionsangabe P8.1.1 = g3x:G8, Umn11.1
durch P11.1.1 = G11:g3x und Umn12.1 durch P12.1.1 = G12:g3x näher bestimmt.
Neben diesen Valenzen Ums13x.u weist Einheit G134 eine Valenz Ums134.4 zur
Anlagerung der Klasse (G)3 = G17 o G19 auf, deren hierfür genutzte Valenzen Umn
durch Positionsangaben P = G17:g34 beziehungsweise P = G19:g34 gekennzeichnet
sind. Einheit G8 besitzt 2 Valenzen Ums8.1 und Ums8.2 zur Anlagerung von G9 o
G21 mit P = G8:G9 usw. beziehungsweise G10 mit P = G8:G10, wobei die
Positionsnotierungen der entsprechenden Valenzen Umn von G9 und G10 deren
Reihenfolge offenlassen. Einheit G11 besitzt eine Valenz Ums11.1 zur Anlagerung
von G10, deren hierfür eingesetzte Valenz Umn10.1 durch P = G11:Ar(G11):G10,
Einheit G12 eine Valenz Ums12.1 zur Anlagerung von G9, deren entsprechende
Valenz Umn9.1 durch P = G12:Ar(G12)G9 gekennzeichnet ist. Neben den genannten
Valenzen Ums13x.u besitzt Einheit G135 eine Valenz Ums135.4 zur Anlagerung
von G18 über deren Valenz Umn18.1 mit P = g351:G18:g34. Auf weitere Valenzen
Um von Einheiten G aus Beispiel 1) wird anhand der darin betrachteten Texte T
eingegangen.
Text T11 = S11 = /Ein Freund/ wird einem grammatischen Hintergrund E1
zugeordnet, in dem G134 = Gk als Kopf fungiert, der als Komplex Kp dreier als
rangniedriger definierter Komponenten Em a G134, nämlich g21, 34 und g22
gebildet wird. Über Valenz Ums134.4 ist der Kopf gemäß G134 = Ar(G19) Träger
des rangniedrigeren Anhängers G19, von dem hierbei eine entsprechende
unselbständige Valenz Umn19.1 gesättigt wird. Gemäß einer oben erwähnten
Ausbildung mit Daten Ws, die alternativ zu den Beispiel 1) zugrunde gelegten Daten
Ws einsetzbar sind, kann auch Teileinheit g34 mit einer entsprechenden Valenz Ums
als Träger g34 = Ar(G19) festgelegt werden. Hintergrund E1 wird dadurch zu einem
Inhalt N1 ergänzt, daß den 3 Teileinheiten g a G134 und Einheit G19 jeweils ein als
rangniedriger definiertes Teilwort vt beziehungsweise Wort Vt zugeordnet wird,
welche als Elemente vt21.1 = El(g21), Vt19.1 = El(G19), vt34.3 = El(g34) und
vt22.1 = El(g22) an den durch G134 und Umn19.1 vorgegebenen Positionen P
erscheinen. Inhalt N1 wird grundsätzlich dadurch zu einer Nachricht T11N1 ergänzt,
daß jedem Wort Vt oder auch Teilwort vt ein wieder als rangniedriger definierter
Text Ts a Vt beziehungsweise Ts a vt zugeordnet wird. Entsprechend der für Beispiel
1) gewählten Festlegung Tsxyz = Tsaxyz = ZZsaxyz = Vtxy gilt hier T11 = S11.
Hintergrund E2 mit zugeordnetem Text T21 von Beispiel 1) entsteht durch
Erweiterung von E1 um einen Anhänger G6 = An(G19), welche durch Sättigung
einer Valenz Ums19.2 von G19 und Umn6.1 mit P = G6:G19 erfolgt, wobei hier und
im folgenden auf die oben gebrauchte Indizierung der Positionen P verzichtet wird.
In N2 ist G6 durch das objektive Wort Vt6.2 = /_k=/ vertreten. In Hintergrund E3
von T31 gilt G5 = Gk5 mit G7 = An(G5). Hierzu wird bei G5 eine Valenz Ums5.1
mit P = g71:G5:g71 und bei G7 eine entsprechende Valenz Umn gesättigt. E4 von
T41 besteht aus Hintergrund E2, dem zusätzlich G4 = An(G134) über die genannte
Valenz Ums134.3 und G8 = An(G134) über Valenz Ums134.2 von G134 zugeordnet
sind. In E5 von T51 gilt wieder G134 = Gk mit G134 = Ar(G8) über Ums134.2 und
G134 = Ar(G4) über Ums134.3, wobei die entsprechenden Valenzen Umn von G4
und G8 gesättigt werden.
Entsprechend der vorgesehenen statistischen Auswertung der Transformationen Q
werden, auch abhängig vom hierfür zugrunde gelegten Korpus C von Texten T, auch
Daten Ws zugelassen, in denen auch Einheit G5 eine selbständige Valenz Ums5.2
zur Komplexbildung mit einer disjunkten Klasse (G3x) von Einheiten G3x = G31 bis
G25 mit G31 = g31 usw. aufweist, wobei dann dem Text T51 ein abgewandelter
Hintergrund E51 ne E5 zugeordnet wird, in dem G5 = Gk5 gilt, von dem Einheit
G34 = g34 mit (Vt34.1 a G34) = /_Rost/ als Anhänger G34 = An(G5) abhängt.
In Hintergrund E6 von Text T61 ist Kopf G135 über seine Valenz Ums135.4 Träger
von G18 = An(G135) und über Ums135.2 Träger von G8 = An(G135). Über eine
Valenz Ums8.1, die eine Komplexbildung mit G9 oder G21 ermöglicht, ist G8 =
Ar(G9) und über eine Valenz Ums9.1 Einheit G9 = Ar(G20). Für Hintergrund Ee8
von T81 gilt G132 = Ar(G8) über Ums132.2, und in E9 von T91 ist G136 = Gk und,
über deren Valenz Ums136.1, Einheit G21 = An(G136).
Tür Text T71 wird alternativ zum oben angeführten Satz S71 = T71 die oben
zusätzlich eingeführte Einheit G137 = g21g371g34g22 = Gk137 als Kopf zugrunde
gelegt, welche entsprechend in T71 durch einen Textabschnitt Ts = /Ein Freund./
repräsentiert wird. Hinzu kommen G17 = An(G137) mit Vt17.1 = /_alter/, G6 =
An(g371) mit Vt6.1 = /_m=/, G11 = An(G137) mit dem Text vt9.2vt8.2 = /_Helfer
fand/ und G10 = An(G11) mit Vt10.1 = /_wohl/. Wie aus diesen Angaben folgt, ist
die Struktur J des Hintergrunds E von Inhalt N7 durch die Äste As1(G137, G11,
G10), As2(G137, G6), welcher auch als As2(G137, g371, G6) notiert werden kann,
und As3(G137, G17) gekennzeichnet. Welche Daten Ws im Falle alternativ
einsetzbarer Daten zu verwenden sind, wird beispielsweise vorteilhaft in Anpassung
an die jeweils vorliegenden Daten D wie auch Vorgaben Vr festgelegt.
Beispiel 1) zeigt, daß zur Beschreibung der hierfür einzusetzenden grammatischen
Daten Ws entsprechend den durch die Valenzen Ums und Umn angezeigten Bezügen
Daten der Ordnung O(2) im wesentlichen ausreichen, wobei aber für bestimmte
Positionsangaben beispielsweise der Valenzen Umn9.1 von G9 und Umn10.1 von
G10 auch Daten der Ordnung O(3) benötigt werden. So kommt Umn10.1 neben einer
Positionsangabe P = G8:G10 der Ordnung O(2), wie sie etwa für Texte T = /Ein
Hund frißt gern./ oder auch T = /Ein Hund frißt Knochen gern./ gilt, für die
Wortfolge in T71 disjunkt hierzu auch eine Angabe P = G11:Ar(G11):G10 mit O(3)
zu. Die Zuordnungen der Wörter Vt a G wie auch vt a g werden durchgängig durch
bedingte Wahrscheinlichkeiten p(Vt/G) und p(vt/g) der Ordnung O(2) beschrieben.
Daten der Ordnung O(2) reichen erfindungsgemäß also weitgehend aus, um Texte T
mit grammatischen Inhalten N zu formulieren, die, wie hier T61, 7 lexikalische
Wörter zuzüglich Satzzeichen umfassen. Wie oben angeführt, wird durch die
berücksichtigten Einheiten G die Behandlung einer Vielzahl weiterer diesen
zuordenbarer objektiver Wörter Vt und entsprechend lexikalischer Wörter möglich,
wobei die Daten Ws näherungsweise linear mit deren Zahl anwachsen und
insgesamt, wie diskutiert, Daten der Ordnung O(2) im wesentlichen zur
Beschreibung ausreichen.
Bezüglich des beim gegenwärtigen Stand diskutierten Problems der
Wortklassenbildung geht aus Beispiel 1) unter anderem hervor, daß das in T71
eingesetzte Wort Vt17.1 = /_alter/ einer anderen Einheit G17 angehört als das Wort
Vt18.1 = /_alte/, welches anstelle von Vt18.2 Einheit G18 des Hintergrundes E6 von
T61 zuordenbar ist, da gemäß den Daten Ws weder G17 = An(G135) noch G18 =
An(G137) möglich ist.
Die Erfindung sieht in einer bevorzugten Ausgestaltung vor, die am Schriftsprachen-
Beispiel 1) praktizierte Formulierung von Wörtern Vt als Komplexe Kp von Texten
T und Operatoren o auch bei mündlichen Sprachen L anzuwenden. So wird
beispielsweise analog zur Schriftsprachen-Einheit G131 = g21g31g22 das mündlich
vorgetragene Wort /Er./ als Komplex o1vt31o2 eines Teilwort-Textes vt31 mit
Operatoren ox formuliert, von denen o1 einen Abstand zu einem vorangehenden
Text T und o2 eine Absenkung der Tonhöhe fordert, wobei wie in Beispiel 1) bei
Hinzufügung von Anhängern An(G131) die Operatoren ox ihre Positionen P am
Anfang und Schluß der entsprechend entstehenden Texte T a S der Sätze S a N
beibehalten.
In einer Ausgestaltung der Erfindung, welche gemäß Vorgaben Vr beispielsweise für
didaktische Anwendungen oder gemäß Verfahrensteil M4 für die Erstellung von
Daten Ws aus Texten T unter Mitwirkung von Experten eingesetzt wird, werden die
Strukturen 3 der zu bildenden grammatischen Nachrichten TN auch in grafischen
Darstellungen wiedergegeben, wobei beispielsweise durch entsprechende Zeichen
symbolisierte Symbole Gs durch Unterstreichungen markiert werden, deren Länge in
Textrichtung die Positionen P der Textabschnitte Ts a Gt a Gs wie auch Ts a vt a Vt
a Gs im Text T, im Schriftdeutschen also in horizontaler Richtung, symbolisiert.
Rangordnungen Ra werden orthogonal hierzu, hier also vertikal, angezeigt, wobei
rangniedrigere Anhänger An wie auch Elemente El wie auch Komponenten Em
hiervon jeweils unterhalb ihres Trägers Ar oder ihrer Klasse Kl oder ihres
Komplexes Kp notiert werden. Solche Zuordnungen werden auch durch vertikale
Verbindungslinien sichtbar gemacht, welche in die entsprechenden Valenzen Um der
Symbole Gr a Gs münden beziehungsweise Superierungsbezüge der Art El a Kl und
Em a Kp usw. anzeigen. Abhängig vom gewählten Repertoire R(Gt) von
Textsymbolen Gt werden solche Abhängigkeiten auch für die Zeichen Z a Vt, Z a Z
und Texte Tr a Z usw. notiert. Komponenten Em der gleichen Superierungshierarchie
wie Teileinheiten g a G, Teilwörter vt a Vt oder Zeichen Z a Vt werden, durch
entsprechende Unterstreichungen gekennzeichnet, auf gleicher Höhe in Textrichtung
angeordnet. In einer Ausbildung werden auch ungesättigte Valenzen Um vom Typ
Ums durch entsprechende vertikal abwärts gerichtete Linienansätze zusätzlich zu den
an vertikalen Verbindungslinien zwischen Symbolen Gr kenntlichen Valenzen Umn
und gesättigten Valenzen Ums sichtbar gemacht.
Zur vereinfachten Beschreibung der grammatischen Nachrichten TN werden im
folgenden neben den genannten Strukturen J auch vereinfachte Strukturen Jk benutzt,
in denen vorliegende, beispielsweise durch Vt a G gegebene El/Kl-Bezüge
weitgehend vernachlässigt werden, wobei Einheiten G beispielsweise jeweils durch
ein Wort Vt a G oder auch eine Zeichenfolge ZZs a Vt a G wie auch ZZ a vt a Vt
vertreten werden und Anordnungen Pr auch durch Bezüge der Art Vt1y = Ar(Vt2y)
oder ZZs1yz = Ar(ZZs2yz) usw. symbolisiert werden, wobei in grafischen
Darstellungen der genannten Art Vt1y entsprechend höher als Vt2y usw. angeordnet
wird. Für erfindungsgemäß abgedeckte Sprachen L mit mehrdimensional
zusammengefügten Komplexen Kp werden, beispielsweise durch Risse oder
Rechnerdarstellungen mögliche, mehrdimensionale Strukturen J und Jk benutzt. Aus
den angegebenen Definitionen und beschriebenen Maßnahmen folgt, daß sich die
erfindungsgemäßen Strukturen J wie auch Jk der Hintergründe E, Inhalte N wie auch
Nachrichten TN von anderen beim gegenwärtigen Stand gebräuchlichen
syntaktischen Strukturen, die gemäß / /4/ /, S. 250 f. auch als Tiefenstrukturen
bezeichnet werden, sowohl hinsichtlich der Definition der verknüpften Begriffe wie
auch ihrer Verknüpfungen und als Folge hiervon auch hinsichtlich der resultierenden
Strukturen und der bei der Kommunikation zu ergreifenden Maßnahmen
unterscheiden.
Die Bewältigung der in natürlichen Sprachen L anzutreffenden Vielfalt von
Textkombinationen und syntaktischen Bezügen durch das erfindungsgemäße
Verfahren M wird an weiteren, dieser Vielfalt angepaßten Textbeispielen erläutert.
Die unter Anwendung des Bayesschen Ansatzes Ba und nichtlinearer
Datenverarbeitungsoperationen Bb vorzunehmende Behandlung des für Sprachen L
charakteristischen Problems grammatischer und dadurch bedingter semantischer
Mehrdeutigkeiten, wie sie insbesondere in Verfahrensteil M2 anfällt, wird anhand
des folgenden Beispiels 2) aus der mündlichen deutschen Sprache L diskutiert.
Hierfür werden aus Platzgründen ebenfalls wieder im Vergleich zur Realität
vereinfachte grammatische Daten Ws berücksichtigt. Es werden wieder durch
Normtexte Tsaxy1 = Zzsaxy1 = Vtxy repräsentierte Wörter Vtxy a Gx betrachtet, die
jeweils durch eine der Schriftsprache entnommene Folge von Kleinbuchstaben
angenähert werden, wobei unterschiedliche Aussprachemöglichkeiten Tsxyz a Vtxy
zunächst vernachlässigt werden. Zur näheren, aber nicht vollständigen
Charakterisierung der Eigenschaften H(Gx) der Einheiten Gx werden auch einige
herkömmliche grammatische Begriffe verwendet. Die Daten Ws umfassen: G1
(Substantiv, Nominativ Plural, ohne bestimmten Artikel verwendet) mit
zugeordneten Wörtern Vt11 = /fliegen/, Vt12 = /fallen/, Vt13 = /äpfel/; G2
(Pronomina der 3. Person Plural, Nominativ) mit Vt21 = /sie/; G3 (Verb, 3. Person
Plural) mit Vt31 = /fliegen/, Vt32 = /fallen/; Vt33 = /gingen/, Vt34 = /gehen/, Vt35 =
/flogen/; G4 (agglutinierend vorangestellte Präfixe) mit Vt41 = /fliegen/, Vt42 =
/fallen/, Vt43 = /mause/, Vt44 = /frucht/, Vt45 = /eß/. Zu den erwähnten
Vereinfachungen zählt, daß in Grammatik Ws unter anderem nicht berücksichtigt
wurde, daß ein Textabschnitt wie Ts = /fliegen/ neben G1, G3 und G4 noch einer
Vielzahl weiterer, nachfolgend angeführter Einheiten Gx zuzuordnen ist: G5 bis G8
(Substantiv Plural, ohne bestimmten Artikel verwendet) mit G5 (Nominativ,
interrogativ verwendet) mit G6 (Dativ), G7 (Akkusativ), G8 (vokativ verwendet), als
Teil von G9 bis G13 (Substantiv Plural, mit vorangestelltem Artikel /die/ verwendet),
mit G9 (Nominativ, in Aussagen), G10 (Nominativ, interrogativ), G11 (Genitiv),
G12 (Dativ), G13 (Akkusativ), G14 bis G16 (Verben), mit G14 (1. Personal Plural),
G15 (Infinitivform des Imperativs), G16 (Teil von mit Hilfsverben
zusammengefügten Infinitiven), G17 bis G28 (als Substantiv im Singular verwendete
Infinitivform) mit (in Analogie zu obigen Substantivklassen) G17 bis G20 (ohne
Artikel verwendete Substantivklassen), G21 bis G24 (mit bestimmtem Artikel
gebrauchte Substantivierungen), G25 bis G28 (mit unbestimmtem Artikel gebrauchte
Substantivierungen). Diese Einheiten Gx sind auch dadurch gekennzeichnet, daß sie
den unten ausgeführten Transformationen Q genügen, wenn hierfür ein ausreichend
umfangreicher Korpus C von Texten T zugrunde gelegt wird. Eine Unterscheidung
in die genannten Einheiten G1 und G3 bis G28 folgt aus den Transformationen Q,
welche bei einem entsprechenden Korpus C von Texten T sowohl unterschiedliche
Valenzen Um wie auch Superierungen zu unterschiedlichen Wortklassen (Vtxy) =
Gx fordern. Als weitere Vereinfachung wurde in Beispiel 2) nicht berücksichtigt, daß
beispielsweise G3 erfindungsgemäß, wie anhand der Komplexbildung G12 = G10G8
aus Beispiel 1) gezeigt, als Komponente Kp, also als Teileinheit g weiterer Einheiten
Gx fungiert.
Entsprechend den in mündlichen Sprachen L häufig in zusammenhängender Form
anfallenden Texten T wurden den angeführten Wörtern Vt keine einleitenden
Abstände oder Abstandsoperatoren o =: /_/ wie in Beispiel 1), des weiteren
vereinfachend auch keine die Prosodie betreffenden Operatoren o zugeordnet.
Den in Grammatik Ws des Beispiels 2) berücksichtigten Einheiten Gx werden als
Daten der Ordnung O(1) die Wahrscheinlichkeiten p(G1) = p(G2) = p2 und p(G3) =
p3 mit p3 k p2 zugeordnet. Weiterhin erhalten die Einheiten Gx Valenzen Um, bei
denen Beziehung Wt1 jeweils durch die folgende bedingte Wahrscheinlichkeit p der
Ordnung O(2) näher bestimmt ist:
p(G3/G1; P(G1:G3)) = p(G3/G2; P(G2:G3)) = p(G4/G1; P(G4:G1)) =
p(G4/G4) = p4,
wobei p4 g pr1 und p4 g p2.
Jedes Wort Vtxy a Gx sei seiner Einheit Gx mit p(Vtxy/Gx) = p1 zugeordnet.
Quantitativ gelte beispielhaft p4 = t, p1 = p2 = t2 und p3 = t3, wobei t k 1. Die
Wahrscheinlichkeiten p für weitere Bezüge werden mit p k pr1 vernachlässigt. Für
einen einlaufenden, für sich allein stehenden und als Evidenz D betrachteten Text
Tu1 = /fliegen/ mit Tu1 a Nu a Eu sind somit für den Inhalt Nu zunächst als
Konkurrenzhypothesen Ksx die Komplexe Ks1 = N1 = G1Vt11 und Ks2 = N2 =
G3Vt31 in Betracht zu ziehen. Ks1 liegt gemäß Ba mit einer Wahrscheinlichkeit
p(N1/Tu1) = p(N1) × p(Tu1/N1)/Ne vor, worin Ne = p(G1) × p(Vt11/G1) + p(G3) ×
p(Vt31/G3). Quantitativ ergeben sich p(N1/Tu1) = t4/(t4 + t5) = t4/Ne für Ks1 und
p(N2/Tu1) = t5/Ne für Ks2. Entsprechend einer der oben angeführten Ausbildungen,
welche vorzugsweise angewendet wird, wird für die Hypothesen Ksx gemäß Bs ein
Schwellwert ps2 g ps1 festgelegt, der die höchste für eine Hypothese Ksx erhaltene
Wahrscheinlichkeit p(Ksx), hier also p(N1/Tu1), um einen Faktor b k 1
unterschreitet. Bei Wahl von b g t ergibt sich so für N2 eine Wahrscheinlichkeit p =
0. Die hier für das sichere Vorliegen von N2 fehlende Information wird somit
nichtlinear von j21 = log(t5/Ne) ue log(t) auf unendlich erhöht. Bei disjunkten
Konkurrenzhypothesen Ksx folgt mit Ca = 1 eine nichtlineare Absenkung der für das
Vorliegen der Substantivklasse G1 = E1 fehlenden Information von j11 = log(t4/Ne)
auf j12 = 0.
Man beachte, daß Verfahren M in der hier durch Beispiel 2) angezeigten Form
beispielsweise beim Vorliegen eines Textes Tu2 = /gingen/ mit gleichem
Schwellwert p2 = b auch die Bildung einer Nachricht T22N2 mit der Verbklasse G3
= E2 vorsieht, wie sie etwa bei, hier in Schriftdeutsch angegebenen, Äußerungen
/"Gingen oder fuhren sie?" "Gingen."/ als Antwort sprachüblich sein kann.
Entsprechend der in einer Ausbildung vorgesehenen stufenweisen Erniedrigung eines
Schwellwertes ps, hier beispielsweise von ps2 = b auf ps3 = b2 wird auch für den
gegebenen Text Tu1 eine Zuordnung zu einer Verbform G3 = E2 zugelassen, falls
eine gegebenenfalls vorgesehene semantische Analyse dem durch das Substantiv
Vt11 a G1 angezeigten, schriftdeutsch durch "Fliegen." ausgedrückten Sachverhalt
keine ausreichend hohe Plausibilität zumißt.
Bei einem gemäß der Grammatik Ws des Beispiels 2) möglichen Text Tu3 =
/siefliegen/ bedingt Bs mit einem wieder um den Faktor b g t unterhalb der höchsten
Wahrscheinlichkeit p(Ks) angesetzten Schwellwert ps die Zuordnung von Tu3 zu
einem Hintergrund E3 = G2G3 mit Tu3 = S33 = Vt21Vt31, schriftdeutsch durch /Sie
fliegen./ ausgedrückt. Eine Zuordnung zu einem Komplex EE = E4E1 mit E4 = G2
und, wie oben, E1 = G1 entsprechend der Folge von Wörtern T = Vt21Vt11,
schriftdeutsch durch /Sie. Fliegen./ ausgedrückt, wird dagegen wegen p(N4N5/Tu3)
k ps2 vernachlässigt, ebenso wie die zu einem noch unwahrscheinlicheren Komplex
E4E2 mit E4 = G2 und E2 = G3.
Ein weiterer mündlicher Text Tu4 = /fliegenfallen/ erscheint bei Vernachlässigung
der quantitativen Daten in Grammatik Ws des Beispiels 2) den Hintergründen E5 =
G1G3, E6 = G4G1 sowie den Hintergrundkomplexen E1E1, E2E2, E1E2 und E2E1
zuordenbar. Quantitativ folgen gemäß Ba Wahrscheinlichkeiten p(N5/Tu4) und
p(N6/Tu4) zu jeweils etwas unterhalb 0,5, während sich für E1E1 ein
Wahrscheinlichkeitswert unterhalb t, für E2E2 unterhalb t3 und für E1E2 und E2E1
unterhalb t2 errechnet. Bei Vernachlässigung der mit p k ps unwahrscheinlichen
letzten 4 Möglichkeiten, welche unterschiedliche Aneinanderreihungen
unzusammenhängender Substantiv- und Verbformen darstellen, verbleibt ein
grammatisch und somit auch pragmatisch doppeldeutiger Text T, der erstens einer
grammatischen Nachricht T11N1 entsprechend der schriftsprachlichen Äußerung
/Fliegen fallen./ zuzuordnen ist, die sich semantisch beispielsweise auf ein
realitätsfernes Herunterfallen von Insekten, alternativ aber auch auf einen
Preisverfall für den Anglerköder "Fliegen" oder auf das Ablegen bestimmter
Krawatten in einer Männergesellschaft beziehen könnte, während die weitere
Nachricht T21N2 gemäß dem schriftdeutschen /Fliegenfallen./ beispielsweise
Fanggeräte für Insekten anzeigt. Weitere Texte wie Tu5 = /fruchtfliegenfallen/ sind
gemäß Grammatik Ws des Beispiels 2) mit ausreichend hohen Wahrscheinlichkeiten
Sätzen S55 = Vt44Vt41Vt12 mit Vt44 = An(Vt41) und Vt41 = An(Vt12)
entsprechend der schriftdeutschen Äußerung /Fruchtfliegenfallen./ oder auch S65 =
/Vt44Vt11Vt32/ mit Vt44 = An/Vt11) und Vt32 = An(Vt11) entsprechend
/Fruchtfliegen fallen./ zuordenbar, wobei sich das Verb /fallen/ in S65 semantisch
auch wieder auf einen Kaufpreis beziehen könnte. Im Einklang mit den für Beispiel
2) vorgesehenen Vereinfachungen wurden anstelle der erfindungsgemäß in der
deutschen Sprache anzutreffenden Strukturen J der Inhalte N lediglich vereinfachte
Strukturen Jk berücksichtigt.
Wie oben ausgeführt, werden in einer bevorzugten Ausgestaltung des
erfindungsgemäßen Verfahrens M als Symbole Gs objektive Wörter Vt und hieraus
zu Klassen Kl superierte Einheiten G = (Vt) verwendet, die dadurch an die
betreffenden Sprachen L angepaßt sind, daß sie den genannten auf beliebige
Sprachen L anwendbaren Transformationen Q genügen. Diese nachfolgend
ausgeführten Transformationen Q sehen die, unter Mitwirkung von Experten der
betreffenden Sprachen L an Texten T dieser Sprachen durchzuführenden, statistisch
zu bewertenden Beobachtungen bestimmter Invarianzen I vor, welche die Texte T
bestimmter Repertoires R(T) bezüglich ihnen gemäß einer Notation F a T
zugeordneter semantischer Inhalte F aufweisen. Von diesen fordert eine Invarianz
I = I1, daß diese Texte T bezüglich ihrer, gegebenenfalls auch unterschiedlichen,
Inhalte F a T, auch wenn sie als Äußerungen T = Tp für sich allein stehen, als
ausreichend zulässig gemäß T = Tf eingestuft werden. Eine weitere Invarianz I2
fordert, daß die Texte T Invarianz I1 erfüllen und als ausreichend gleich eingestufte
Inhalte F a T anzeigen. Eine weitere Invarianz I3 fordert, daß die Texte T Invarianz I1
erfüllen und daß bestimmte darin vorkommende gleichlautende Textabschnitte
T1 a T jeweils als ausreichend gleich eingestufte Inhalte F a T1 anzeigen. Diese
Invarianzen I sind bei einer bestimmten Gruppe von Transformationen Q an Texten T
von Textrepertoires R(T) zu beobachten, wonach jeweils ein Text T = Tb aus einem
Text Ta durch Entfernen oder Hinzufügen eines, gemäß einer Bedingung Ib
kürzestmöglichen, gegebenenfalls auch diskontinuierlich durch weitere
Textabschnitte T getrennten, an einer oder entsprechend mehreren Positionen P
angeordneten Textabschnitts T = Tt erzeugt wird und dessen Zuordnung als Element
El = Tt = Ts eines als disjunkte Klasse Kl = (Ts) gebildeten objektiven Wortes Vt = (Ts),
dessen Zuordnung als Element El a G zu einer als disjunkte Klasse Kl = (Vt) solcher
Wörter Vt gebildeten Einheit G sowie die Festlegung des einer Einheit G jeweils
zugeordneten Repertoires R(Pr) von Möglichkeiten ihrer, die Anordnungen der
jeweils zugeordneten Wörter Vt a G und Textabschnitte Ts a Vt einschließenden,
Anordnungen Pr in Nachrichten TN aufgrund von gemäß den Transformationen Q an
bestimmten Texten T a R(T) durch die Experten zu beobachtenden Einhaltungen oder
Verletzungen einer oder mehrerer der Invarianzen I erfolgt. Hierbei ist eine
Vollständigkeitsbedingung Ia einzuhalten, wonach die Ergebnisse der
Transformationen Q für eine Einheit G bei sämtlichen grammatischen Nachrichten
TN gelten, in denen diese Einheit G entsprechend den Möglichkeiten ihrer
Anordnungen Pr vorkommt und aufgrund von, durch Toleranzen dH näher
bestimmten, Texteigenschaften H(T) eines Textabschnitts Ts a Vt a G in einem Text
T a TN nachweisbar ist.
In einer weiteren Ausbildung der Erfindung werden die Transformationen Q auch zur
gegebenenfalls vorzunehmenden Erzeugung der in den Grammatiken Ws
zusammenzufassenden Symbole Gs eingesetzt.
Beim Vorliegen von Repertoires R(T) von Texten T, die von Sprachnormen
vergleichsweise weit abweichen, werden ausreichend eindeutige
Beobachtungsergebnisse gegebenenfalls auch dadurch erzielt, daß eine Anzahl von
Sprachexperten eingesetzt wird, deren Aussagen bezüglich der Invarianzen I durch
Beobachter der Expertenaussagen festgehalten und statistisch ausgewertet werden,
wobei zur Erzielung ausreichend hoher statistischer Signifikanzen und entsprechend
allgemein zu akzeptierender Toleranzen jeweils eine ausreichen große Zahl von
Experten eingesetzt wird.
Invarianz I1 wird mit Ta = Tfa und Tb = Tfb auch notiert als I1((Ta = Tfa) d (Tb = Tfb)),
kurz auch als I1(Ta, Tb) oder einfach I1. Invarianz I2, bei der 2 Inhalte Fa von Ta und
Fb von Tb gemäß Fa = Fb als ausreichend gleich eingestuft werden, wird auch als
I2((Fa a Ta) = (Fb a Tb)), kurz auch als I2(Ta, Tb) oder I2 notiert. Invarianz I3, bei
der ein in beiden Texten Ta und Tb innerhalb festzulegender Toleranzen dT gleicher,
auch als ihr Durchschnitt bezeichneter Textteil Tc = Ta d Tb) die gleichen Inhalte
Fca a Tc a Ta und Fcb a Tc a Tb anzeigt, wird notiert als I3((Fca a Tc a Ta) = (Fcb a
Tc a Tb)), kurz auch I3(Ta d Tb), I3(Ta, Tb) oder I3.
In Fällen, wo aufgrund der anzuwendenden Transformationen Q bei einer
vorzunehmenden Verkürzung eines Textes Ta um einen Textteil Tt kein Text T mehr
übrig bleibt, so daß also Tb = nT, gelten gemäß nnI = I die zu beobachtenden
Invarianzen als nicht verletzt und werden als eingehalten definiert. Die Texte T
werden definitionsgemäß als Komplexe T = ZZ von Merkmalen Z = H(T) behandelt.
In Anpassung an die Gegebenheiten der Sprachen L werden für die
Textabänderungen Tt Mindestlängen von einem oder mehreren Merkmalen Z
gefordert, was auch durch Tt g nT, vereinfacht Tt g O bezeichnet wird.
Die als Beobachtungsvorschrift dienenden Transformationen Q sehen allgemein vor,
daß ein Text T = Ta durch Abänderung, also Verkürzung, Erweiterung oder auch
Austausch um einen, gemäß Bedingung Ib kürzestmöglichen, nicht
notwendigerweise zusammenhängenden Textteil T = Tt mit Tt g O in einen Text Tb
abgewandelt wird, wobei durch Experten der betreffenden Sprachen L beobachtet
und angezeigt wird, ob dabei erstens Invarianz I1(Ta, T) und zweitens entweder
Invarianz I2(Ta, Tb) oder I3(Ta d Tb) eingehalten wird oder nicht, was jeweils kurz
auch als Ix oder nIx notiert wird. Beispielsweise läßt sich in bezug auf ihre
semantischen Inhalte F sowohl Text Tb = /Die Mann arbeitet./ = Tfb wie auch für Ta
= /Die Frieda Mann arbeitet./ = Tfa setzen und sowohl I1(Ta, Tb) wie auch I3(Ta d
Tb) für eingehalten erklären, wenn Tb durch Verkürzung um den kürzestmöglichen
Textabschnitt Tt = /_Frieda/ erzeugt wird und dem Ta und Tb gemeinsamen Text (Ta
d Tb) = Tb zugeordneten Sachverhalt F in Ta und Tb die gleiche pragmatische
Bedeutung zugemessen wird, nämlich eine Aussage über die Tätigkeit einer durch
ihren Familiennamen "Mann" identifizierten Frau. Dagegen wird die Abwandlung
eines Textes Ta' = /Die Maschine neben dem Mann arbeitet./ in den obigen Text Tb
durch Kürzung um Tt' = /_Maschine neben dem/ Bedingung I3(Ta' d Tb) nicht
eingehalten, da Inhalt F des Textes Ta' d Tb sich in Ta' auf eine männliche Person
bezieht und nicht auf eine weibliche wie in Tb. Sehen Experten alternativ I3(Ta' d
Tb) als erfüllt an, so folgt hier nI1(Ta', Tb), da die Texte dann entweder mit Bezug
auf ein "weibliches Wesen" durch Ta' = nTfa' oder mit Bezug auf ein "männliches
Wesen" durch Tb ne Tfb zu beurteilen sind. Wie diesem Beispiel zu entnehmen ist,
ist unter der hier als I3(Fca a Tc a Ta) = (Fcb a (Tc = Tb)) zu notierenden Bedingung
I3 im einzelnen zu verstehen, daß Inhalt Fa a Ta durch Kombination des Inhalts Fca
= Fcb mit einem Tt zuzuordnenden Inhalt Ft a Tt zu erzeugen ist, was bei Fca a Ta,
nicht jedoch bei Fca' a Ta' gelingt.
Für die abzuändernden Textabschnitte Tt wird neben Tt g 0 im Regelfall die
Einhaltung einer Mindestlänge verlangt, so daß Inhalt Fb des resultierenden Textes
Tb sich von Inhalt Fa a Ta unterscheidet, wobei also nI2(Ta, Tb) gilt. Beispielsweise
wird bei einem durch Ta = /ich komme/ angenäherten mündlichen Text bei Kürzung
um Tt = /e/ und Erzeugung von Tb1 = /ich komm/ nach dem Urteil vieler Experten
T1(Ta, Tb1) und I2(Ta, Tb1) eingehalten. Erst bei einem Mindestumfang von Tt =
/komme/ und so der Erzeugung von Tb2 = /ich/ folgt I1(Ta, Tb2) und, wie
erforderlich, nI2(Ta, Tb2).
Wie die Beispiele zeigen, sehen die zur Festlegung der grammatischen Begriffe Gr
definierten Beobachtungsvorschriften somit eine Beobachtung von Texten T durch
Experten vor, die sowohl sprachspezifische Kenntnisse wie auch Sachkenntnisse
einsetzen. Als rein formal angesehene Sprachkenntnisse, wie sie für beim
gegenwärtigen Stand gebräuchliche Beurteilungen von Texten eingesetzt werden,
etwa um zu prüfen, ob der angeführte Text /Die Mann arbeitet./ an sich und ohne
Bezug auf einen zugeordneten Inhalt F beispielsweise als "wohlgeformt" oder
"wahr" einzustufen ist, reichen für die erfindungsgemäßen Beobachtungen der
Invarianzen I also nicht aus. Allerdings wird von den Experten kein pragmatisches
Urteil darüber verlangt, ob ein einem Text T vom Autor möglicherweise
zugeordneter Sachverhalt F in bezug auf eine übergeordnete, beispielsweise als
objektiv angesehene Realität als "wahr" oder "falsch" einzustufen ist; vielmehr
werden auch Inhalte F zugelassen, denen in bezug auf eine objektiv nachweisbare
Realität auch sehr geringe Wahrscheinlichkeiten p(F) kk 1 zuzuordnen sind.
Erfindungsgemäß wird von den Experten somit erwartet anzuzeigen, daß
beispielsweise bei einem Text Ta = /Eins und eins ist nicht drei./ wie dem um einen
Textabschnitt Tt = /nicht/ verkürzten Text Tb = /Eins und eins ist drei./ sowohl Ta =
Tfa wie auch Tb = Tfb gelten. Hierbei stellt der Experte also fest, daß auch Tb in
bezug auf Inhalt Fb a Tb, wonach "eins plus eins nach Aussage des Autors At drei
ergibt", ausreichend zulässig ist, wobei Fb definitionsgemäß die Situation des Autors
berücksichtigt, der beispielsweise des Rechnens unkundig ist, lügt, sich irrt, eine
Metapher gebraucht, Ironie zeigt usw. Es gilt dementsprechend I1(Ta, Tb) und
zugleich nI2(Ta, Tb).
Wie aus den angeführten Definitionen wie auch Beispielen folgt, werden somit von
den Experten der betreffenden Sprachen L weder Aussagen über eine grammatische
Wohlgeformtheit oder Akzeptierbarkeit von Texten T an sich ohne Bezug auf deren
semantische Inhalte F noch über das sprachliche oder im einzelnen auch
grammatische oder syntaktische Regelwerk, das sie bei ihren Beobachtungen im
Regelfall intuitiv einsetzen, verlangt. Ferner umfassen die geforderten
inhaltsbezogenen Aussagen weder eine Beurteilung der Zulässigkeit oder objektiven
Korrektheit eines Inhalts F eines Textes T noch eine Beschreibung des Inhalts F
selbst. Sie beschränken sich statt dessen auf Angaben darüber, ob Texte T bezüglich
intuitiv zugeordneter Inhalte F intuitiv für korrekt gemäß T = Tf gehalten werden,
wie auch, ob solche Inhalte F von Texten T als ausreichend gleich anzusehen sind.
Durch Beobachtung der durch Aussagen Ix oder nIx zu vorgelegten Texten T
definierten Reaktionen einer ausreichenden Zahl von Sprachexperten erfolgt dabei
eine Beobachtung der Symbole Vt a G mit der gleichen, durch statistische
Signifikanzen gesicherten Objektivität wie auch quantitativ formulierbaren
Genauigkeit, wie sie beispielsweise auch durch die Beobachtung einer
entsprechenden Anzahl von Labortechnikern möglich wird, die aufgrund ihres
Expertenwissens anzeigen sollen, wann in einer Substanz ein Farbumschlag etwa von
blau auf rot erfolgt. Im oben angeführten Beispiel entspricht dies auch der
Beobachtung des Befindens von durch bestimmte Arzneimittel behandelten
Patienten, welche ihr Expertenwissen beispielsweise durch intuitiv gefaßte Aussagen
der Art "ich fühle mich krank" oder "ich fühle mich gesund" zu Protokoll geben.
Aus den genannten Beobachtungsvorschriften folgt weiterhin, daß die
erfindungsgemäß zu verwendenden Daten Ws nicht allein auf sprachspezifischen, für
die betreffenden Sprachen L charakteristischen Eigenheiten und Regeln, sondern
zusätzlich auch auf einer Beurteilung ihrer semantischen Bedeutungen beruhen. Dies
hat vorteilhaft zur Folge, daß die aus Beobachtungen der Invarianzen I
resultierenden, beim erfindungsgemäßen grammatischen Kommunikationsverfahren
M einzusetzenden grammatischen Symbole Gr zugleich auch als Träger bestimmter,
im vorliegenden grammatischen Verfahren M im einzelnen nicht berücksichtigter
semantischer Inhalte F fungieren können und so als semantische Symbole Gp eine
wichtige Voraussetzung für die Realisierung semantischer
Kommunikationsverfahren liefern, wie sie in Erfindungsmeldung P . . . beschrieben
vorliegen.
Einzelheiten der bei den Transformationen Q zu beobachtenden Invarianzen I,
insbesondere von I3, werden anhand des folgenden Beispiels 3) aus der deutschen
Schriftsprache mit den folgenden, unter Benutzung von Operatoren o gebildeten
Texten Ta = Tax erläutert: Ta1 = /Ein warmer, sonniger Mai./, Ta2 = /Ein zweiter
schöner Mai./, Ta3 = /Ein schöner zweiter Mai./ und Ta4 = /Ich rufe, warte und
höre./. Eine Einschränkung pragmatischer Mehrdeutigkeiten, wie sie beim Sprechen
dieser Texte durch unterschiedliches Betonen möglich ist, wurde bei diesen
Schrifttexten nicht vorgenommen. Bei Erzeugung eines Textes Tb11 = /Ein warmer
Mai./ durch Kürzung von Ta1 um Tt11 = /, sonniger/ sind sowohl I1(Ta1, Tb11) als
auch I3(Ta1 d Tb11) als erfüllt anzusehen. Dagegen gilt bei Erzeugung eines Textes
Tb12 = /Ein sonniger Mai./ durch die grundsätzlich ebenfalls mögliche, der Intuition
aber widersprechende Kürzung von Ta1 um Tt12 = /warmer,/ zwar I1(Ta1, Tb12),
dagegen aber nI3(Ta1 d Tb12), da in Ta1, anders als in Tb12, semantisch ein Inhalt
etwa im Sinne von "und zusätzlich auch noch sonniger Monat Mai" angesprochen
wird. Bei Kürzung von Ta2 um Tt21 = /_schöner/ und Erzeugung von Tb21 = /Ein
zweiter Mai./ kann I3 dann als erfüllt gelten, wenn Inhalt F auch in Tb21 auf den
"Monat" bezogen wird, etwa im Sinne von "ein zweiter Monat Mai, der
Frühlingsgefühle weckt". Gleichfalls gilt bei Kürzung von Ta2 um Tt22 = /_zweiter/
und Erzeugung von Tb22 = /Ein schöner Mai./ I3 als erfüllt. Schließlich gilt bei
Kürzung von Ta3 um Tt31 = /_schöner/ zur Erzeugung von Tb31 = /Ein zweiter
Mai./ I3 als erfüllt, nicht jedoch bei einer Kürzung um Tt32 = /_zweiter/, wenn
Experten beim entstehenden Tb32 = /Ein schöner Mai./ mehrheitlich den Monat und
nicht wie in Ta3 den Tag verstehen. Bezüglich Invarianzbedingung I1(Ta, Tb) läßt
sich aus Beispiel 3) ersehen, daß bei den gemäß den Transformationen Q ebenfalls
möglichen Kürzungen von Ta1 beispielsweise um Tt13 = /, warm/, Tt14 = /, warmer
so/ wie auch Tt15 = /sonniger/ Invarianz I1 nicht eingehalten wird, da hierbei
offensichtlich Texte Tb1x ne Tfb1x entstehen, so bei Kürzung um Tt15 wegen eines
resultierenden Kommafehlers. Konsequenzen für die Bestimmung der durch Beispiel
3) angezeigten Wörter Vt und deren wechselseitige syntaktische Zuordnung, auch für
Ta4, werden unten behandelt. Die Erfindung sieht in einer Ausbildung vor, die
Transformationen Q auch als Spezialfall des erfindungsgemäßen, in diesem Fall mit
Experten der betreffenden Sprachen L durchzuführenden Kommunikationsverfahrens
M, beispielsweise bei der Erstellung der grammatischen Daten Ws gemäß
Verfahrensteil M4, anzuwenden.
Die Gruppe der in der genannten bevorzugten Ausgestaltung der Erfindung den
Symbolen Gs zugrunde gelegten, an einem Repertoire R(T) von bezüglich ihrer
semantischen Inhalte F a T korrekten Texten T = Tf durchzuführenden
Transformationen Q = Qy wird nachfolgend im Detail formuliert. Sie stellen
notwendige Bedingungen für das Vorliegen der folgenden diese Symbole Gs = Vt
und G bestimmenden Sachverhalte Ax dar:
Es existiert eine Einheit G1 = (Vt1y) mit einer Anzahl n g 1
zugeordneter Wörter Vt1y a G1. Für jede Einheit G1 gilt die folgende Klasse von
Transformationen Q1.1: Bei jedem Text Tu1 a Eu jedes Hintergrundes Eu mit G1 a
Eu wird durch Entfernung eines an einer Position P1 befindlichen, ein beliebiges
Wort Vt11 a G1 repräsentierenden Textabschnitts Tt1(P1) = (Ts11z a Vt11 a G1)
und Einfügung eines ein anderes Wort Vt12 ne Vt11 repräsentierenden Textes
Tt2(P1) = (Ts12z a Vt12 a G1) an P1 ein Text Tu2 ne Tu1 mit Tu2 a Eu erzeugt,
wobei I1(Tu1, Tu2) und entweder nI2(Tu1, Tu2) oder, im Falle daß Vt11 und Vt12
als Synonyme gelten, I2(Tu1, Tu2) zu beobachten ist. Hier und bei den folgenden
Sachverhalten Ax wird durch einen Indexbuchstaben, wie hier bei Eu, innerhalb
einer Klasse Kl = (Qx.y) von Transformationen Q jeweils ein identischer Begriff
angezeigt, beispielsweise Eu = E1.
Es existiert ein Wort Vt11 = (Ts11z) mit Vt11 a G1, dem, wie es
beispielsweise bei gesprochenen oder handschriftlichen Texten T anzutreffen ist,
eine Anzahl n g 1 von Texten Ts11z a Vt11 zugeordnet ist. Für jedes Wort Vt11 gilt
eine Klasse von Transformationen Q1.2: Bei jedem Text Tu11 a Nu a Eu jedes
Hintergrundes Eu mit Vt11 a G1 a Eu wird durch Entfernung eines an P1
positionierten Textteils Tt1(P1) = (Ts111 a Vt11) und Einfügung eines anderen
dieses Wort Vt11 repräsentierenden Textes Tt2(P1) = (Ts112 a Vt11) an P1 ein Text
Tu12 ne Tu11 mit Tu12 a Nu erzeugt, wobei I1(Tu11, Tu12) und I2(Tu11, Tu12)
gilt.
Es existiert ein aus 2 Einheiten G1 und G2 als Ast As1
zusammengefügter Komplex As1 = G1G2, in dem G1 = An(G2; P1) und G1 ne
Ar(Gx), G1 also nicht als Träger Ar einer weiteren Einheit Gx fungiert. Für jeden
solchen Ast As1 gilt eine Klasse von Transformationen Q2.1: Bei jedem Text Tu1 a
Eu jedes Hintergrundes Eu mit As1 a Eu wird durch Entfernung eines an P1
positionierten Textteils Tt1(P1) = (Ts1 a Vt1y a G1) ein Text Tv1 mit Tv1 a Ev eines
Hintergrundes Ev ne Eu erzeugt, wobei I1(Tu1, Tv1), nI2(Tu1, Tv1) und I3(Tu1 d
Tv1) gilt.
Für A41 gilt: Es existiert eine Einheit G1, die als
Anhänger G1 = An(G2; (P1w)) mit einer Einheit G2 eine Klasse (As1) von Ästen
As1 bildet, wobei, wie insbesondere in flektierenden Sprachen L anzutreffen, die
Texte Ts1yz a G1 relativ zu den Texten Ts2yz a G2 entsprechend einer disjunkten
Klasse (P1w) von Positionen P1w anordenbar sind. Für jede Klasse (As1) gilt eine
Klasse von Transformationen Q2.2: Bei jedem Text Tu1 a Eu jedes Hintergrundes
Eu mit As1 a Eu wird durch Entfernung eines an einer Position P11 a (P1w)
befindlichen Textteils Tt1 = (Ts1yz a Vt1y a G1) und Einfügung dieses Textes Tt1
an einer anderen Position P12 a (P1w) mit P12 ne P11 ein Text Tv1 ne Tu1 mit Tv1
a Ev und Ev ne Eu erzeugt, wobei I1(Tu1, Tv1) und I2(Tu1, Tv1) gilt. Zu beachten
ist, daß in vielen, auch flektierenden Sprachen L mit dem genannten
Positionswechsel häufig auch ein so starker Wechsel der Betonung verbunden ist,
daß Experten dies als Bedeutungsänderung interpretieren, also nI2(Tu1, Tv1)
beobachten, womit Tt1(P12) nicht mehr G1, sondern einer anderen Einheit Gx ne G1
zuzuordnen ist.
Es existiert ein Hintergrund Eu, der aus einer einzigen Einheit G3 =
Eu gebildet wird. Für jeden Hintergrund Eu gilt eine Klasse von Transformationen
Q2.3: Bei jedem für sich allein stehenden Text Tu1 a Eu entsteht durch Entfernung
eines Textes Tt1 = (Ts3y1 a Vt3y a G3) kein Text, also nT, wobei entsprechend
obigen Definitionen I1(Tu1, nT) und nI2(Tu1, nT) gilt.
Für A61 gilt: Gemäß G2 ne Ar(Gx; Px)mit Px ne P1 ist
Einheit G2 = Ar(G1; P1), mit G2 a As1, gemäß G2 ne Ar(Gx; Px) nicht zugleich
Träger Ar einer weiteren Einheit Gx an einer Position Px ne P1. Für jeden Ast As1
gilt eine Klasse von Transformationen Q3 = (Q3.1 d Q3.2 d Q3.3).
Es gilt Q3.1 = Q2.1.
Ferner gilt eine Klasse von Transformationen Q3.2: Aus jedem gemäß Q3.1
erzeugten Text Tv1 a Ev entsteht durch Entfernung eines an P2 positionierten
Textteils Tt2 = (Ts2yz a Vt2y a G2) ein Text Tw1 ne Tv1 mit Tw1 a Ew und Ew ne
Ev, wobei I1(Tv1, Tw1), nI2(Tv1, Tw1) und I3(Tv1 d Tw1) gilt. Definitionsgemäß
gelten diese Invarianzangaben auch im trivialen, durch A5 und Q2.3 beschriebenen
Fall G2 = Ev und Tw1 = nT.
Weiterhin gilt eine Klasse von Transformationen Q3.3: Bei jedem gemäß Q3.2
erzeugten Text Tw1, gegebenenfalls auch nT, wird durch Hinzufügung des gemäß
Q3.1 entfernten Textteils Tt1 an Position P1 ein Text T4 erzeugt, wobei gemäß
n(I1(Tw1, T4) d I3(Tu1, T4)) die Invarianzen I1 (bezüglich Tw1) und I3 (bezüglich
Tu1) nicht zugleich eingehalten werden.
Die Transformationen Q3.w zeigen auch an, daß bei Entfernung eines Trägers G2 =
Ar(G1) eines Anhängers G1 aus einem korrekten Hintergrund Eu = Egu ein
unkorrekter Hintergrund nEg entsteht und somit auch nur ein unkorrekter Text nTf4
entstehen kann, es sei denn, G1 wird eine abgewandelte grammatische Funktion,
etwa als selbständige Einheit G1 mit ausreichend hoher Wahrscheinlichkeit p(G1) ge
ps der Ordnung O(1) oder als Teileinheit G1 = g1, welche mit einer weiteren, nun
ebenfalls als Teileinheit Gx = gx fungierenden in E verbleibenden Einheit Gx eine
neue Einheit Gy = gxg1 bildet, zugeordnet, oder der gemäß Q3.1 entfernte Text Tt1
= Ts ist als Text Ts = Tsxyz a Vtxy a Gx auch einer anderen Einheit Gx oder
Teileinheit gx zugeordnet, welche eine solche Funktion erhält, so daß bei Q3.3 ein
Inhalt N4 = Ng4 mit T4 = (T41 a N4) und T41 = Tf41 entsteht. Da eine solche
grammatische Funktions- und Bedeutungsänderung aber mit einer für Experten
erkennbaren Abänderung des durch den wiedereingesetzten Textabschnitt Tt1
mitbestimmten semantischen Inhalts F von T4 gegenüber dessen Bedeutung in Tu1
verbunden ist, folgt in diesem Fall nI3(Tu1 d T4). Letztere Situation läßt sich anhand
des Textes T55 = /fruchtfliegenfallen/ aus dem oben diskutierten Beispiel 2)
erläutern, in dem entsprechend den dort eingeführten vereinfachten Strukturen Jk
/frucht/ = An/Fliegen/) und /fliegen/ = An(/fallen/) gilt und ein Inhalt F1 der Art
"Geräte für das Fangen von Fliegen einer bestimmten Art" angesprochen ist, nicht
aber ein Inhalt F2 "für das Fangen einer Frucht". Bei Entfernung des Trägers Ar =
/fliegen/ aus T55 entsteht ein Text T76 = /fruchtfallen/, für den bezüglich F2
Bedingung T76 = Tf76 und somit auch I1(T55, T76) erfüllt ist, wobei aber nun
/frucht/ = An(/fallen/). Die resultierende Bedeutungsänderung hin zu F2 bedingt
nI3(T55 d T76), so daß die Q3.w in bezug auf eine Komplexbildung GG mit /fliegen/
= An(/frucht/) für T55 nicht erfüllbar sind.
Wie aus der angeführten Forderung nach Gültigkeit jeder Transformation Qy auf
jeden Text T = Tf folgt, in welchem der durch Qy definierte grammatische
Sachverhalt Ax anzutreffen ist, haben die Transformationen Qy der als Ia
bezeichneten Vollständigkeitsbedingung zu genügen. Liegt beispielsweise als
Grundlage für die Festlegung der Symbole Gs a Ws einer Sprache L ein Korpus C1
von Texten T vor, von denen die Texte T = (Tf a C1) den Qy genügen, so fordert Ia
die Gültigkeit der Q auch für sämtliche Texte T = (Tf a C2) eines gegenüber C1 a C2
erweiterten Korpus C2, welche durch Anwendung der Transformationen Qy den
Texten Tf a C1 erzeugt wurden.
Weitere unter Beobachtung von Invarianzen I an Texten T durchzuführende
Transformationen Q = Q4 zur Festlegung von grammatischen Vokabeln Vqq werden
unten behandelt.
In einer besonders auch für eine rechnergestützte Erstellung grammatischer Daten
Ws im Rahmen von Verfahrensteil M4 vorgesehenen Ausbildung werden die
Transformationen Q entsprechend obiger Beschreibung auch in algorithmischer
Form eingesetzt, wobei unter Beachtung der oben definierten Bedeutungen der
jeweils verwendeten Größen die folgenden Formulierungen gelten, in welchen -
Tt(P) die Verkürzung und +Tt(P) die Erweiterung des vorangestellten Textes T um
einen Textabschnitt Tt an Position P anzeigt und der resultierende Text T jeweils
hinter dem Gleichheitszeichen steht. Für sämtliche Transformationen Q = Qy.w wird
die Einhaltung von Vollständigkeitsbedingung Ia und Bedingung Ib gefordert. Es
gelten:
Q1.1 =: Tu1 - Tt1(P1) + Tt2(P1) = Tu2; mit
Tt1 ne Tt2, Tu1 ne Tu2, I1(Tu1, Tu2), nI2(Tu1, Tu2) oder I2(Tu1, Tu2).
Q1.2 =: Tu11 - Tt1(P1) + Tt2(P1) = Tu12; mit
Tt1 ne Tt2, Tu11 ne Tu12, I1(Tu11, Tu12), I2(Tu11, Tu12).
Q2.1 =: Tu1 - Tt1(P1) = Tv1; mit
Tu1 ne Tv1, I1(Tu1, Tv1), nI2(Tu1, Tv1), I3(Tu1 d Tv1).
Q2.2 =: Tu1 - Tt1(P11) + Tt1(P12) = Tv1; mit P11 ne P12, I1(Tu1, Tv1), I2(Tu1,
Tv1).
Q2.3 =: Tu1 - Tt1 = nT, mit I1(Tu1, nT), I3(Tu1 d nT).
Q3.1 =: Tu1 - Tt1(P1) = Tv1; mit I1(Tu1, Tv1), nI2(Tu1, Tv1), I3(Tu1 d Tv1).
Q3.2 =: Tv1 - Tt2(P2) = Tw1; mit I1(Tv1, Tw1),
gegebenenfalls auch Tw1 = nT, nI2(Tv1, Tw1), I3(Tv1 d Tw1).
Q3.3 =: Tw1 + Tt1(P1) = T4; mit n(I1(Tw1, T4) d I3(Tu1 d T4)).
Q3 =: Q3.1 d Q3.2 d Q3.3.
Formulierungen der Transformationen Q4 werden unten angegeben.
Die angegebenen Formulierungen Qy mit den resultierenden Symbolen Vt und G
unterscheiden sich von bisher vorgeschlagenen Transformationen einschließlich
hierfür vorgesehener Ersatzproben / /24/ /, wie sie den für den gegenwärtigen Stand
charakteristischen, für Verfahren der erfindungsgemäßen Art jedoch als ungeeignet
verworfenen / /24/ / Transformationsgrammatiken und hierfür vorgeschlagenen
Konstituenten zugrunde gelegt wurden.
Aus der für die Transformationen Q eingeführten Forderung nach Abwandlung der
gegebenen Texte T um jeweils kürzestmögliche Textabschnitte Tt g o entsprechend
Bedingung Ib folgt im Regelfall eine vorteilhafte Beschränkung der einzusetzenden
Grammatiken Ws auf ein möglichst geringes Datenvolumen. Beispielsweise wird
durch Ib verhindert, daß neben 2 Einheiten G1 und G2, die in einem Bezug G1 =
Ar(G2) vorkommen, zusätzlich auch noch ein Komplex G3 = G1G2 als eigene
Einheit G3 verwendet wird, welche demgemäß zusätzlich mit ihren Daten H(G3) zu
speichern wäre.
In einer weiteren datensparenden Ausgestaltung werden die Toleranzen für die
Invarianzen I, beispielsweise auch bezüglich der Gleichheit von zwei Inhalten F, so
hoch angesetzt, daß sich eine vergleichsweise geringe Anzahl von Symbolen Gr mit
einer entsprechend geringen Anzahl von Verknüpfungsmöglichkeiten ergibt. In einer
Ausbildung hiervon wird die oben eingeführte Idiombildung auch danach
ausgerichtet, ob aufgrund der verfügbaren Geräte wie auch Verarbeitungszeiten
entweder der Speicheraufwand beispielsweise auch auf Kosten des
Verarbeitungsaufwandes, oder der Verarbeitungsaufwand, beispielsweise auch auf
Kosten des Speicheraufwandes, vergleichsweise kleinzuhalten ist.
Die Erfindung sieht in eine bevorzugten Ausbildung vor, die durch statistische
Auswertung an einer ausreichenden Zahl von Texten T gewonnenen Ergebnisse der
Transformationen Q in einer durch die Beziehungen Wt für die Valenzen Um der
Einheiten G gegebenen Form zu notieren, so daß das Vorkommen der objektiven
Wörter Vt und die Bezüge zwischen ihnen in den Eigenschaften H(G) ihrer
Superierungen G = (Vt) festgelegt sind. Ferner werden, wie auch aus den
angeführten Beispielen hervorgeht, durch die Transformationen Q, insbesondere
auch Q3, vorteilhaft Symbole G definiert, deren Bezüge zu weiteren Einheiten G in
der überwiegenden Mehrzahl der Fälle Daten der Ordnung O(2) nicht überschreiten.
Als Folge hiervon wird die in Verfahren M vorgesehene Kombination von objektiven
Wörtern Vt a G zu grammatischen Inhalten N mit Strukturen J aufgrund
grammatischer Daten Ws möglich, deren Datenmenge weitaus schwächer als
exponentiell mit der Zahl der berücksichtigten objektiven Wörter Vt und somit
implizit auch der eingeführten lexikalischen Wörter ansteigt, wodurch die für den
gegenwärtigen Stand charakteristischen kombinatorischen Explosionen bei der
Datenspeicherung und -verarbeitung vermieden werden. Die so erreichbare
Beschreibung der wechselseitigen Zuordnungen der den Texten T zugeordneten
Symbole Vt durch die Anordnungen Pr der Symbole G entlang Ästen As dient
außerdem als wichtige Voraussetzung für die Realisierbarkeit eines semantischen
Kommunikationsverfahrens, wie es in Erfindungsmeldung P . . . beschrieben wird, bei
welchem die Wörter Vt auch als semantische Symbole Vt = Gp eingesetzt werden,
deren semantische Inhalte F unter Beachtung der durch die Anordnungen Pr
gegebenen Zuordnungen miteinander zu kombinieren sind.
In weiteren Ausgestaltungen sieht die Erfindung vor, anstelle der angeführten
Formulierungen Qy der Transformationen Q bezüglich der dadurch definierten
Symbole Vt a G gleichbedeutende Transformationen gemäß Formulierungen Qy'
einzusetzen, welche im Regelfall anstelle von Textverkürzungen um Abschnitte Tt
wie in Q2.1, Q2.3, Q3.1 und Q3.2 entsprechende Erweiterungen und umgekehrt
anstelle von Erweiterungen wie in Q3.3 entsprechende Verkürzungen um
Textabschnitt Tt' g O minimaler Länge vorsehen. Für eine oder mehrere der
folgenden Ausbildungen sind auch Transformationen Q vorgesehen, welche die ein-
oder gegebenenfalls mehrfache Anwendung von Transformationen Q2.1 auf Texte
Tuv a Eu von aus mehreren Asten As zusammengefügten Hintergründen Eu zur
Erzeugung einastiger Hintergründe Ev bewirken, für welche nachfolgend durch
Anwendung der Transformationen Q3.w die den jeweiligen Ast As bestimmenden
Ar/An-Bezüge ermittelt werden. In einer zur angeführten, die Einhaltung von
Bedingung Ib fordernden alternativen Ausbildung werden auch Textabwandlungen
um Textteile Tt zugelassen, die größer sind als die gemäß Ib geforderten
kürzestmöglichen Abschnitte Tt g O, wobei die den Nachrichten Tn zugeordneten
Hintergründe E a TN jeweils um mehr als eine Einheit G abgewandelt werden. Diese
Ausbildung wird insbesondere in solchen Fällen zugelassen, wo die dem
semantischen Kommunikationsverfahren Mp von Erfindungsmeldung P . . . zugrunde
gelegten Transformationen Qs ebenfalls Mindeständerungen um Textteile Tt fordern,
die jeweils als Idiom einem Komplex VtVt a GG von mehr als einem Symbol Vt
zuzuordnen sind. In einer Verarbeitungsaufwand sparenden Ausbildung hiervon
werden solche in einem Ar/An-Bezug stehenden Idiome mit G1 = Ar(G2) auch als
eigene Einheit G3 eingesetzt, der die Valenzen Um von G1 und G2 zugeordnet
werden, die durch die Komplexbildung G1G2 nicht gesättigt wurden. So wird
beispielsweise in Beispiel 1) oben anstelle der Einheiten G6 mit /_m=/ a G6 und G19
mit /_ein/ a G19 eine Einheit G22 mit den Idiomen /_mein/ a G22 und /_ein/ a G22
usw. eingesetzt.
In einer weiteren Ausgestaltung wird in solchen Fällen, wo die Transformationen Q
in den betreffenden Sprachen L zugleich unterschiedliche grammatische
Interpretationen gegebener Texte T zulassen, eine diesen Möglichkeiten weitgehend
entsprechende Vielfalt von Symbolen Gr eingeführt. In alternativen, datensparenden
Ausbildungen werden aus jeder Alternative eine oder einige wenige Symbole Gr für
die Daten Ws ausgewählt, welche zur Bildung der anfallenden grammatischen
Nachrichten TN ausreichen.
Die gemäß Vollständigkeitsbedingung Ia geforderte Gültigkeit der unter Beachtung
der Invarianzen I durchzuführenden, ein Symbol Vt a G definierenden
Transformationen Q für sämtliche Texte T = Tf eines Korpus C einer Sprache L, die
grammatischen Nachrichten TN zugeordnet sind, welche dieses Symbol Vt a G a N
und einen Textabschnitt Ts a Vt im Text T a TN enthalten, hat vorteilhaft zur Folge,
daß der Bestimmung dieses Symbols Vt a G anhand eines der Beobachtung
zugänglichen Materials von Texten T a C eines Korpus C die gleiche Sicherheit und
Objektivität zuzumessen ist, wie sie für andere empirische Fachgebiete, gleichfalls
unter Verwendung von Erhaltungssätzen, üblich ist. So wird vergleichsweise in der
Physik für eine als Impuls definierte Größe die Erhaltung dieser Größe für sämtliche
beobachtbaren Prozesse gefordert, in denen den Impuls bestimmende Größen wie
Masse, Flugrichtung und Geschwindigkeit beliebiger Teilchen prinzipiell
nachweisbar sind.
Aus der vorgesehenen Verwendung grammatischer Symbole Gr, welche den
angeführten, universell auf beliebige natürliche Sprachen L und vergleichbar
strukturierte Kommunikationsmedien anzuwendenden Transformationen Q genügen,
folgt vorteilhaft weiterhin, daß ein für beliebige Sprachen L definiertes und
anwendbares System von grammatischen Daten Ws verfügbar gemacht wird,
unabhängig davon, ob und welche grammatischen Symbole und Daten hierfür bereits
vorliegen, und auch unabhängig davon, ob es sich dabei um gemäß / /21/ /, S. 331 f. als
flektierend, agglutinierend, isolierend oder polysynthetisch klassifizierte Sprachen L
handelt, wobei diese Daten Ws universell für beliebige natürliche Sprachen L mit
einem an verfügbare Vorrichtungen anpaßbaren Datenvolumen beschreibbar werden.
Dabei erlaubt es die den Sprachen L angepaßte Verwendung eines Vokabulars
grammatisch und, dadurch bedingt, auch semantisch mehrdeutiger objektiver Wörter
Vt a G, in Verbindung mit den angeführten quantitativen Verarbeitungsmethoden,
eine theoretisch unbegrenzte Vielfalt grammatischer und somit auch semantischer
Inhalte N beziehungsweise F durch ein begrenztes und durch maschinell
beherrschbare Daten beschreibbares Vokabular von Symbolen Vt a G darzustellen.
Weitere Einzelheiten der bei Anwendung der Transformationen Q zu beachtenden
Invarianzbedingungen I werden anhand der oben angeführten und weiterer Beispiele
erläutert. So ergeben sich in Beispiel 3) bei Text Ta4 die Beziehungen /gich./ =
Ar(_rufe), /_rufe/ = Ar(_und höre/ sowie /_und höre/ = Ar(, warte) mit /gich./ a Gk.
Die Rolle der Vollständigkeitsbedingung Ia läßt sich aus einigen gemäß Grammatik
Ws des obigen Beispiels 1) gebildeten Texten Tuv = Suv ersehen. Betrachtet werden
die Sätze T11.1 = S11.1 = Vt131.1Vt8.1 = /Er frißt./, T12.1 = Vt135.2Vt8.1 = /Der
Hund frißt./ und T13.1 = Vt135.2Vt18.1Vt8.1 = /Der alte Hund frißt./. Anwendung
von Q1.1 auf T12.1 durch Austausch von Tt1 = /gder Hund./ durch Tt2 = /ger./ mit
dem Ergebnis T11.1 zeigt die Einhaltung von I1 und nI2, was einer Interpretation
von Tt1 und Tt2 als Textabschnitte Tsayz a Vtay zweier Wörter Vtay a Ga, die beide
der gleichen Einheit Ga zugeordnet sind, nicht entgegensteht. Bedingung Ia fordert
jedoch, daß Q1.1 dann auch bei Anwendung auf T13.1 mit Tt1 = /gder Hund./ und
Tt2 = /ger./ unter Einhaltung von I1 und nI2 möglich sein sollte. Es ergeben sich
jedoch nur Texte wie T14 = /Er alte frißt./ ne Tf, so daß also nI1 gilt, woraus folgt,
daß entsprechend den Angaben Ws für Beispiel 1) Vt131.1 = /ger./ und Vt135.2 =
/gder Hund./ den angegebenen unterschiedlichen Einheiten G131 beziehungsweise
G135 zuzuordnen sind.
Als Beispiel für die Anwendung von Q1.2 wird der durch Tu4 = /fliegenfallen/
angenäherte Text aus Beispiel 2) aus der mündlichen deutschen Sprache L betrachtet,
welcher gemäß dem Sprachgebrauch auch anders ausgesprochen werden kann, etwa
wie es hier durch die Buchstabenfolgen Tu41 = /fliegnfallen/ und Tu42 =
/fliengfalln/ angenähert wird. Sehen bei Austausch von Tt11 = /fliegen/ durch Tt12 =
/fliegn/ sowie weiterhin durch Tt13 = /flieng/ Experten jeweils die Invarianzen
I1(Tu4, Tu41) und I2(Tu4, Tu41) beziehungsweise I1(Tu4, Tu42) und I2(Tu4, Tu42)
als erfüllt an, so gelten mit Tsx1z = Tt1u und Tt1u = (Tt11 o Tt12 o Tt13) die
Bedingungen für das Vorliegen von Tt1u = (Tsx1z a Vtx1) als erfüllt, wobei gemäß
Beispiel 2) zunächst x = (1 o 3 o 4) anzusetzen ist. Durch den erfindungsgemäß
vorgesehenen Einsatz von Toleranzen dTs in Verbindung mit zwei Normtexten Tsa
entsprechend den Lautfolgen /flign/ und /fling/ wird erreicht, daß die genannten
Texte Tsx1z, gegebenenfalls auch als Adressen Ad, die Wörter Vtx1 anzeigen. Sind
die Q1.2 genügenden Texte Tt durch im Vergleich zu zugelassenen Toleranzen dTs
große Unterschiede gekennzeichnet, werden sie auch, als Synonymen bezeichneten,
unterschiedlichen Wörtern Vt mit entsprechend verschiedenen Normtexten Tsa a Vt
zugeordnet.
Weitere Einzelheiten der Eigenschaften der aus den Transformationen Qy und
insbesondere Q3.w resultierenden Symbole Gr und ihrer wechselseitigen
Zuordnungsmöglichkeiten Pr gehen auch aus den folgenden, unter Beispiel 4)
zusammengefaßten Texten T hervor, für welche, wo nicht anders angegeben, jeweils
eigene Grammatiken Ws mit jeweils wieder neu durchnumerierten Symbolen Grx =
Gx, Vtxy usw. verwendet werden:
Text T11 = /Zweihunderteinundzwanzig./ stellt ein Beispiel für eine agglutinierende Textbildung aus der deutschen Schriftsprache dar, bei dem, wieder unter Verwendung oben definierter Operatoren o und Strukturen Jk, die Bezüge /gzwanzig./ = Ar(/_einund=/), /gzwanzig./ = Ar(/_hundert=/) und /_hundert=/ = Ar(/_zwei=/) unter Beachtung der jeweiligen Positionen P festgelegt werden. Wie oben angesprochen, erlauben die Transformationen Q hier auch eine alternati 68170 00070 552 001000280000000200012000285916805900040 0002010015859 00004 68051ve Symbolzuordnung und -festlegung, die sich durch /ghundert./ = Ar(/=zwanzig/) vom erstgenannten Bezug unterscheidet, wobei, wie oben definiert, sowohl /gzwanzig./ wie auch /ghundert./ jeweils einer selbständigen Einheit G zugeordnet werden.
Text T11 = /Zweihunderteinundzwanzig./ stellt ein Beispiel für eine agglutinierende Textbildung aus der deutschen Schriftsprache dar, bei dem, wieder unter Verwendung oben definierter Operatoren o und Strukturen Jk, die Bezüge /gzwanzig./ = Ar(/_einund=/), /gzwanzig./ = Ar(/_hundert=/) und /_hundert=/ = Ar(/_zwei=/) unter Beachtung der jeweiligen Positionen P festgelegt werden. Wie oben angesprochen, erlauben die Transformationen Q hier auch eine alternati 68170 00070 552 001000280000000200012000285916805900040 0002010015859 00004 68051ve Symbolzuordnung und -festlegung, die sich durch /ghundert./ = Ar(/=zwanzig/) vom erstgenannten Bezug unterscheidet, wobei, wie oben definiert, sowohl /gzwanzig./ wie auch /ghundert./ jeweils einer selbständigen Einheit G zugeordnet werden.
Als Beispiel flektierender Textbildungen werden in Beispiel 4) schwach konjugierte
Verben aus der deutschen Schriftsprache betrachtet, welche hier zur vereinfachten
Erläuterung an Textbeispielen diskutiert werden, die unter Vernachlässigung von
Satzzeichen und der Großschreibung am Satzanfang notiert werden. T21 = /du
holtest/, T22 = /du lebtest/, T23 = /du redetest/, usw. Gemäß Q ergeben sich die aus
einem Wort Vt konstituierten Einheiten G1 = Vt11 mit Vt11 = /_du/ und G3 = Vt31
mit Vt31 = /=te=/ sowie eine Einheit G2 = (Vt2x) mit Vt21 = /_holst/, Vt22 =
/_lebst/ und Vt23 = /_redest/ usw., wobei G1 = Ar(G2; P1) und G2 = Ar(G3; P2), mit
P1 = G1:G2 und P2 = g21:G3:g22, wobei die Flexionsform (vt221 = g21) = /=st/
semantisch für die 2. Person Singular, die verbleibenden Textteile (vt211 a g21) =
/_hol=/, vt212 = /_leb=/ und vt213 = /_rede=/ den jeweiligen Wortstamm dieser
Verben mit entsprechenden semantischen Bedeutungen stehen und Vt31 semantisch
das Praeteritum anzeigt. Die Verwendung der durch die Transformationen Q
angezeigten Einheit G3 hat den Vorteil, daß bei einer gegebenenfalls auch sehr
hohen Anzahl n von schwach konjugierten Verben anstelle einer Anzahl 2n von
Praesens und Praeteritum anzeigenden Verben der 2. Person Singular nur eine
Anzahl n + 1 in den Daten Ws zu speichern ist. Entsprechende Vorteile ergeben sich
für die Verbformen der 1. und 3. Person Singular und der 1. bis 3. Person Plural.
In der genannten alternativ hierzu anzuwendenden Ausgestaltung werden die
Praeteritum-Formen der schwach konjugierten Verben als Idiome eingesetzt und
zusammen mit denen der stark konjugierten Verben sowie der jeweiligen Praesens-
Formen der jeweiligen Personen Singular oder Plural jeweils einer einzigen Einheit
G zugeordnet, was den Speicheraufwand zwar erhöht, den mit der Verknüpfung
jeweils zweier Einheiten verbundenen Verarbeitungsaufwand jedoch entsprechend
reduziert. Eine ähnliche Alternative der Idiombildung gilt für die in Beispiel 1)
diskutierten Erweiterungen der Nominativform Singular und entsprechend der
weiteren Kasus des unbestimmten Artikels Vt19.1 = /_ein/ zu Possessivpronomina
und Numeralia. Wie angeführt, richtet sich die Wahl der Alternativen zweckmäßig
auch nach den verfügbaren Vorrichtungen. Auch an diesem Beispiel wird jedoch die
aus der Verwendung objektiver Wörter Vt im Vergleich zu den Idiombildungen
/_kein/ usw. resultierende Reduzierung des Speicheraufwands deutlich. So lassen
sich nach Beispiel 1) durch die 4 Wörter Vt6y a G6 und die jeweils 4 Kasusformen
der Maskulinform Vt19.1 = /_ein/ sowie der Femininum- und Neutrumformen
/_eine/ und /_ein/, also insgesamt 16 objektive Wörter Vt, insgesamt 60 zum Teil
gleichlautende, im einzelnen aber unterschiedlich zu verknüpfende natürliche Wörter
/_ein/, /_mein/ usw., /_eines/, /_meines/ usw., /_einem/ usw. und /_einen/ usw.
bilden.
Im angeführten Beispiel 4) werden ferner 2, wieder unter Vernachlässigung von
Großschreibung am Satzanfang und Interpunktionen vereinfachte, Texte aus der
türkischen Schriftsprache T31 = S31 = /otobüs istasyonu nerede/, zu übersetzen in
/Wo ist die Autobus-Station?/ und T32 = S32 = /taksi duragi nerede/, deutsch: /Wo
ist der Taxi-Stand?/ behandelt. Mit /_istasyonu/ a G1, /_duragi/ a G1, /_otobüs/ a G2,
/_taksi/ a G2 und /_nerede/ a G3 ergeben die Transformationen Q für beide Texte
einen Hintergrund E, in dem G1 = Gk1, G1 = Ar(G2) und G1 = Ar(G3), wobei die
durch die Texte T angezeigten Positionen P gelten.
Ein weiterer in Beispiel 4) betrachteter, wie bei den vorangehenden Texten T21 bis
T23 vereinfacht dargestellter Text T41 aus der deutschen Schriftsprache L zeigt eine
grammatisch mehrdeutige Hilfsverb-Konstruktion mit T41 = /diese Lehrer wollen
diese Schüler diese Wochen diese Bücher lesen lassen/. Aus einer Anwendung der
Transformationen Q folgt, daß hier die folgenden, unter Vernachlässigung des
Abstandsoperators o = /_/ notierten Symbole Ts = Vt anzutreffen sind: /diese Lehrer/
= Vt11 a G1, /diese Schüler/ = Vt21 a G2, /diese Bücher/ = Vt22 a G2, /diese
Wochen/ = Vt31 a G3 und /wollen lesen lassen/ = vt411vt412vt413 = Vt41 a G4.
Somit gilt T41 = Vt11vt411Vt21Vt31Vt22vt421vt431. Die grammatische
Mehrdeutigkeit wird an einem permutierten Text wie T42 = /diese Schüler wollen
diese Lehrer diese Wochen diese Bücher lesen lassen/ deutlich, für welchen aufgrund
einer durch Experten oder auch ein semantisches Verfahren der Art Mp von
Erfindungsmeldung P . . . vorzunehmenden semantischen Analyse ein Inhalt N4 mit
einer Symbolfolge G1g41G2G3G2g42g43 wie in T41 als unwahrscheinlich beurteilt
wird. Statt dessen gilt ein Inhalt N5 mit der Symbolfolge g2g41G1G3G2g42g43 mit
einer weiteren Einheit G5 = g2g41g42g43, bei welcher G2 als zusätzliche Teileinheit
G2 = g2 fungiert, wobei, wie in N4, Einheit G1 = Gk1 den Kopf bildet. Ferner gelten
in N5 die Bezüge G5 = An(G1) sowie G3 = An(G5) und G2 = An(G5). Dem
vorangehenden Text T41 ist gemäß den Transformationen Q ein Hintergrund E4
zuordenbar, in dem Gk1 = Ar(G4), wobei G4 über zwei Valenzen Ums mit 2
Anhängern G2 = An(G4) und über eine weitere Valenz Ums mit dem weiteren
Anhänger G3 = An(G4) verknüpft ist. Für alle 3 Valenzen fordern, mit Daten der
Ordnung O(2), die Positionsangaben P lediglich, daß der Anhänger gemäß P =
g41G2g42g43 usw. anzuordnen ist mit beliebigen Positionierungsmöglichkeiten der
beiden Einheiten G2 und zusätzlich Einheit G3 relativ zueinander.
In weiteren in Beispiel 4) betrachteten Hilfsverbkonstruktionen T51 = S51 = /Diesen
Sommer hatte er bauen lassen wollen./ und T61 = S61 = /Bauen lassen hatte er
diesen Sommer wollen./ bildet das Subjekt /ger./ jeweils den Kopf ähnlich wie in
Beispiel 1) das Wort Vt131.1 a G131. Wie sich aus den Transformationen Q ableiten
läßt, bildet in T51 der aus 6 natürlichen Wörtern aufgebaute Text Ts111 = Vt11 =
/_diesen Sommer hatte bauen lassen wollen/ ein einziges objektives Wort Vt11 a G1
einer Einheit G1 = An(G131). In T61 läßt sich Ts211 = Vt21 = /_bauen lassen hatte
wollen/ als Wort Vt21 a G2 einer anderen Einheit G2 = An(G131) bestimmen.
Entsprechend der oben angeführten bevorzugten Ausbildung wird G1 auch als
Komplex G1 = g3g4g5g6g7g8 von 6 Teileinheiten gx notiert, von denen einige in
anderem Kontext auch als eigene Einheiten g = G fungieren können. Entsprechend
gilt G2 = g6g7g5g8, wobei in E6 weiterhin G9 = An(G2), hier mit G9 = g3g4.
Entsprechend dem für die Sprache L zu berücksichtigenden Korpus C = R(T) von
Texten T wird G9 auch als disjunkte Klasse Kl von Teileinheiten g oder Komplexen
hiervon dargestellt entsprechend G9 = g3g4 o g10 o . . ., wobei beispielsweise (vt10.1
a g10) = /_gestern/ usw. berücksichtigt wird. Ähnlich ist g11 = (g6g7 o g13 o . . .)
möglich mit (vt13.1 a g13) = /_bauen/ usw.
Gegenüber dem vorliegenden Verfahren M haben andere bekanntgewordene
Grammatiken, die nicht die gemäß den Transformationen Q erzeugbaren Begriffe
und Superbegriffe vt, vtvt, g, gg, Vt und G, sondern lexikalische Wörter oder hieraus
gebildete Klassen Kl, im voranstehenden Beispiel also Klassen Kl2 bis Kl8
verwenden, den Nachteil, daß sie zur Beschreibung der wechselseitigen
Zuordnungsmöglichkeiten dieser Konstituenten Bezugsdaten bis hin zu
verhältnismäßig hohen Ordnungen O(n) vorzusehen haben, welche einen
entsprechend hohen Aufwand bei der Abarbeitung der aus diesen vielfältigen
Möglichkeiten resultierenden Entscheidungsbäume mit der Gefahr kombinatorischer
Explosionen sowohl bei der Speicherung wie auch Verarbeitung dieser Daten
bedingt. Dagegen hält sich der Aufwand für die Erstellung und Notierung auch
vergleichsweise komplex aus einer Vielzahl von Teileinheiten g aufgebauter
Einheiten G wie G1 des Textes T51 und G2 von T61 oben in Beispiel 4) in
beherrschbaren Grenzen, da eine Reihe von Texteinheiten g = ga für andere Kontexte
auch als Einheiten Ga vorliegt und bei der Erstellung eines Wortes Vt = vtvt als
Komplex Kp von Teilwörtern vt a ga häufig bereits die entsprechenden Teileinheiten
ga = Ga als bekannt vorauszusetzen sind.
Bei den beiden weiteren in Beispiel 4) betrachteten Texten T7.1 = S7.1 = /Wir
sehen./ und T8.2 = S8.2 = /Sie sehen./ scheinen die Transformationen Q intuitiv eine
Zuordnung der beiden Wörter Vt = /gwir./ und /gsie./ zu einem einzigen Superwort
G1 und der Wörter Vt = /_sehen/ aus T7.1 und aus T8.2 zu einem weiteren
Superwort G3 zuzulassen. Wie jedoch aus einer gemäß Vollständigkeitsbedingung Ia
zu fordernden Anwendung der Transformationen Q auf einen erweiterten Korpus
R(T) von Texten T wie Tu.1 = /Wir sehen uns./, T10.1 = /Sie sehen uns./, T11.1 =
/Sie sehen sich./, T12.1 = /Wir sehen euch./ und T13.1 = /Sie sehen euch./ folgt,
gelten, auch wegen T = /Wir waschen sich./ ne Tf, die Zuordnungen /gwir./ = (Vt11
a aG1), /gsie./ = (Vt21 a G2), /_sehen/ (Vt31 a G3), aber auch /_sehen/ = (Vt41 a
G4). Hierbei werden auch die Reflexivpronomina /_uns/ = (Vt51 a G5) und /_sich/ =
(Vt61 a G6) unterschiedlichen Einheiten G zugeordnet, während die
Personalpronomina /_uns/ = (Vt71 a G7) und /_euch/ = (Vt72 a G7) der gleichen
Einheit 67 angehören. Entsprechend ist T10.1 einem Hintergrund E10 mit G1 =
Ar(G4) und G4 = Ar(G7) zugeordnet; bei T11.1 gilt G2 = Ar(G4) und G4 = Ar(G6),
bei T12.1 ist wieder G(1) = Ar(G3), ferner G3 = Ar(G7) und bei T13.1 gilt G4 =
Ar(G7). Text Tu.1 = /Wir sehen uns./ wird als grammatisch doppeldeutig 2
Hintergründen Eu = E91 und E92 zugeordnet, bei denen G1 = Ar(G3), wobei in E91
Einheit G5 = An(G3), während in E92 Einheit G7 = An(G3).
Daß die Komplexität der erfindungsgemäß einzusetzenden Daten Ws durch
inkonsequent festgelegte schriftsprachliche Konventionen vergrößert werden kann,
ist den weiteren Texten T14 und T15 des Beispiels 4) zu entnehmen, die nach
geltender Rechtschreibung gemäß T14 = /Er hofft, heute zu antworten./ und T15 =
/Er hofft, ihm zu antworten./ formuliert werden. Wegen der Schreibkonvention T16
= /Er hofft zu antworten./ lassen sich gemäß Q die Strukturen Jk zu /ger./ = Gk,
/_hofft/ = An/ger./, /_zu antworten/ = An(/_hofft/), weiter aber /, heute/ = An(/_zu
antworten/) in T14 und /, ihm/ = An(/_zu antworten/) in T15 bestimmen. Durch die
inkonsequente Vorschrift zur Zeichensetzung ist eine Zuordnung des Kommas zu /zu
arbeiten/ nicht möglich, verbunden mit einer entsprechenden Komplizierung des
Aufwands zur Beschreibung der bei den Anhängern /, heute/ und /, ihm/ zu
berücksichtigenden Positionsangaben P.
In einer Ausgestaltung der Erfindung ist vorgesehen, das grammatische
Kommunikationsverfahren M mit seinen, auf der Grundlage der Transformationen Q
festgelegten, objektiven Wörtern Vt für die Durchführung von Rechtschreibreformen
von Schriftsprachen L einzusetzen, die eine Verringerung des einzusetzenden
Regelwerks und insbesondere auch eine Beseitigung von Ausnahmeregeln zum Ziel
haben, wobei gegebenenfalls auch die oben eingeführten, als Komplexe Kp = VtVt
von Wörtern Vt gebildeten, Idiome berücksichtigt werden.
Auch an mündlichen Sprachen L sind mittels der Transformationen Q konventionell
berücksichtigte grammatische Komplexitäten nachweisbar, welche den Spracherwerb
und die Sprachbeherrschung durch Menschen wie auch deren Formulierung für
Vorrichtungen der erfindungsgemäßen Art erschweren. So ergeben sich für die,
wieder durch Kleinbuchstaben angenäherten, Texte T17 = /kinder lesen/ und T18 =
kinder und eltern lesen/ Strukturen Jk mit /kinder/ = Gk, /lesen/ = An(/kinder/) und in
T18 zusätzlich /und eltern/ = An(/kinder/). Bei den Texten T19 = /hans liest/ und T20
= /hans und paul lesen/ gilt für T19 analog /liest/ = An(/hans/), in T20 dagegen
gehört /und paul/ keiner eigenen Einheit G an, sondern es gilt /lesen/ = An(/hans und
paul/). Dagegen wären bei Textkonventionen wie T21 = /Hans und Paul liest/
datensparend Verknüpfungen gemäß /hans/ = Gk, /liest/ = An(Gk) und /und paul/ =
An(Gk) einsetzbar.
Daß nicht jede schriftsprachliche Äußerung Tp, die konventionsgemäß durch
anfängliche Großschreibung und eine abschließende Interpunktion gekennzeichnet
ist, einer eigenen grammatischen Nachricht TN zugeordnet werden muß, läßt sich
aus Beispiel 5) mit dem schriftdeutschen Dialog T1 = T2T3T4 = /"Hast du gespielt?"
"Gespielt? Gearbeitet!"/ ableiten, der einen aus 3 solchen Äußerungen gebildeten
Komplex darstellt. Wird hier beispielsweise im Einklang mit den Transformationen
Q /Gearbeitet!/ = An(/Gespielt?/ und /Gespielt?/ = An(/_gespielt/) festgelegt, so
findet sich je nach dem zugrunde gelegten Korpus C für eine Nachricht T1N1 eine
höhere Wahrscheinlichkeit p(T1N1) als das für einen alternativen Komplex Kp =
T2N2,T3N3,T4N4 resultierende Wahrscheinlichkeitsprodukt p(T2N2) × p(T3N3) ×
p(T4N4). Gemäß einer der angeführten alternativ einzusetzenden Ausbildungen wird
die Antwort T3T4 auch als elliptische Form zweier Nachrichten T2N2' und T3N3'
klassifiziert, wobei N2' beispielsweise auch ein Text T2'1 = /Habe ich gespielt?/ und
N3' ein Text T3'1 = /Ich habe gearbeitet!/ angehört.
In Beispiel 6) mit dem vereinfacht notierten Schrifttext T1 = /er kommt dann
diese Woche zuerst schnell im Auto vom Büro hierher nach Hause/, in welchem
jedes einer Einheit Gx zugeordnete Wort (Vtxy = ZZsa) a Gx unterstrichen wurden,
bildet /er/ a G1 den Kopf Gk1 und /kommt/ a G2 den Anhänger G2 = An(G1). In
einer Ausbildung der Erfindung werden im Einklang mit den Transformationen Q
entsprechend einer Anzahl von m ge 8 Valenzen Um vom Typ Ums2y dem Verb G2
sämtliche 8 weiteren Einheiten Gx = G3 bis G10 als Anhänger An(G2) zugeordnet.
Die Erfindung schließt jedoch nicht aus, gegebenenfalls aufwandsparend alternativ
bestimmte Umstandsbestimmungen auch als wechselseitig voneinander abhängig zu
klassifizieren, beispielsweise jeweils die temporalen, lokalen und modalen, wobei
etwa /dann/, /diese Woche/, /zuerst/ und /schnell/ sämtlich einer Einheit G3
zugeordnet werden, die sowohl eine Valenz Umn3 zur Komplexbildung mit G2 und
eine weitere Valenz Ums3 zur Komplexbildung mit jeweils einer weiteren Einheit
G3 aufweist, wobei dann G2 eine entsprechend geringere Zahl von Valenzen Ums2y
zugeordnet wird.
Die bisher unter den Bezeichnungen G, g, Vt, vt, Z usw. geführten grammatischen
Symbole Gr und Textsymbole Gt, welche die Symbole Gs mit ihren Eigenschaften
H(Gs) einer Sprache L beschreiben, werden in einem Teil der Daten Ws
zusammengefaßt, der im folgenden als Daten Wsr a Ws, auch Wsr(L) a Ws(L),
bezeichnet wird. Weitere Daten Ws, die bei der erfindungsgemäßen mehrsprachigen
Kommunikation, etwa bei Übersetzungen aus einer Ausgangssprache L in eine
Zielsprache L' wie auch weitere Zielsprachen L" usw. gemäß Verfahrensteil M3
benutzt werden und hierzu die oben beschriebenen Vokabeln Vqq =: Vq = R(Vq')
enthalten, welche bestimmte Bezüge zwischen Daten Wsr a Ws(L) von L und
Wsr(L'), kurz auch Wsr' von L', gegebenenfalls auch Wsr" von L" angeben,
werden unter der Bezeichnung Wst(L/L') a Ws(L) beziehungsweise Wst(L/L'/L")
usw. zusammengefaßt Man beachte, daß sich Daten Wst(L/L') im Regelfall von den
Daten Wst(L'/L) für Übersetzungen in umgekehrter Richtung unterscheiden. Die
Texte, Symbole und Symbolkomplexe T, N, E, Gs, G, Vt, Z usw. einer Zielsprache
L' werden kurz auch als T', N', . . . Vt', Z' usw. notiert, wobei, wie oben ausgeführt,
auch Z' = Z möglich ist. In einer Ausgestaltung der Erfindung werden Daten des
Inhalts Wst(L/L') gemäß dem genannten Verfahrensteil M4 a M auch erzeugt; in
einer Ausbildung hiervon auch unter Anwendung von Verfahrensteil M2 a M auf
Texte T und T' von L und L' unter Benutzung der Daten Wsr und Wsr'. Wie
nachfolgend ohne Einschränkung der Allgemeingültigkeit am Beispiel einer Sprache
L als Ausgangs- und einer Sprache L' als Zielsprache dargestellt wird, wird
Verfahrensteil M3 bevorzugt unter Verwendung von den Daten Wst(L/L')
zugeordneten Vokabeln Vqq durchgeführt, wie sie in Nachrichten TN zugeordneten
Texten T und T'N' zugeordneten Texten T' unter Mitwirkung von Experten
bestimmbar sind, welche beide Sprachen einschließlich der angesprochenen
semantischen Inhalte F und F' ausreichend beherrschen, wobei diese Experten
beobachten und anzeigen, ob bezüglich jeweils eines Paares von Texten T a TN und
T' a T'N' die oben eingeführten Invarianzen I1(T, T') und I2(T, T') eingehalten
werden, ein Text T' = Tf' also als ausreichend bedeutungsgleiche Übersetzung von T
= Tf beurteilt wird, oder ob alternativ nI1 oder nI2 gilt. In einer bevorzugten
Ausgestaltung werden hierfür den oben beschriebenen Transformationen Q
zugeordnete Transformationen Q4 a Q zugrunde gelegt, die an Texten T eines
ausreichend umfangreichen Korpus C = R(T) und Texten T' eines Korpus C' = R(T')
durchgeführt werden, welche jeweils eine wie gegebenenfalls disjunkt mehrere
alternativ geltende Übersetzungen der Texte T a C darstellen. Aus der Anwendung
von Verfahrensteil M2 folgt, daß die Korpusse C und C' auch als Komplexe SS und
S'S' von Sätzen S a N a E beziehungsweise S' a N' a E' mit entsprechenden Inhalten
und Hintergründen verfügbar sind.
Die Transformationen Q4 sehen vor, jeweils zwei Sätze S1 und S'11, bei denen Text
T11' = S11' als Übersetzung von T1 = S1 gilt, so um jeweils kleinstmögliche
Komplexe Vq1 = VtVt und Vq11' = Vt'Vt' zu kürzen, daß der resultierende Satz
S21' = T21' von L' als Übersetzung des resultierenden Satzes S2 = T2 von L gilt.
Hierbei hat Vq11' ebenfalls als Übersetzung von Vq1 zu gelten, und es werden in
Vqq die Wahrscheinlichkeiten p(Vq11'/Vq1) unter Beachtung gegebenenfalls
weiterer gemäß Q4 an weiteren Sätzen S12', S13' usw. feststellbarer Bezüge
p(Vq12'/Vq1) usw. berücksichtigt. Entsprechend ihrer Verwendung als
Komponenten Em in Nachrichten TN werden die Komplexe Vq = VtVt auch als
Idiome wie auch Textsymbole Gt, grammatische Symbole Gr wie auch semantische
Symbole Gp bezeichnet; entsprechendes gilt für die Komplexe Vq' = Vt'Vt'. Die
Komplexe Vq und Vq' werden vereinfachend ebenfalls Vokabeln genannt und in
Texten T und T' durch entsprechende Textpermutationen TsTs a Vq
beziehungsweise Ts'Ts' a Vq' repräsentiert.
Im einzelnen werden den Vokabeln Vqq Transformationen Q4a Q zugrunde gelegt,
bei denen für eine Vokabel Vqq die genannte Zuordnung Vqq =: Vq1 = R(Vq1x')
gilt mit Vq11' a R(Vq1x'), Vq1 a S1 a C', S1 a N1, Vq1 a GG1 a N1, wobei GG1 ne
Ar, sowie entsprechend Vq11' a S11' a C', S11' a N11', Vq11' a G'G'11 a N11' und
G'G'11 ne Ar. Unter Verwendung der oben für die Transformationen Q1 bis Q3
eingeführten formalen Notation gilt für die Transformationen Q4:
S1 - Vq1 = S2; S11' - Vq11' = S21';
mit I1(S1, S11'), I1(S2, S21'), I2(S1, S11'), I2(S2, S21'), I3(S1, S2), I3(S11', S21'),
I4(S1, S11'), I4(S2, S21'), Ia und Ib.
Hierin fordert Ib entsprechend der oben bei den für Q1 bis Q3 für die Kürzungen um
Textteile Tt angegebenen Formulierungen die Entfernung eines kürzestmöglichen,
aus einem oder mehreren, nicht notwendigerweise aneinandergrenzenden Wörtern Vt
gebildeten Komplexes Vq1 = VtVt aus S1 mit Vq1 g O und des zugehörigen
Komplexes GG1 aus N1 sowie entsprechend eines kürzestmöglichen Komplexes
Vq11' = Vt'Vt' aus S11' und G'G'11 aus N11'. Hierbei darf, wie durch die
Transformationen Q1 bis Q3 nachweisbar, weder eine Einheit G a GG1 in N1 noch
eine Einheit G' a G'G'11 in N' als Träger Ar einer weiteren in GG1
beziehungsweise G'G'11 nicht enthaltenen Einheit G a N beziehungsweise G' a N'
fungieren. Die gemäß obiger Beschreibung zu beachtenden Invarianzen I1, I2 und I3
werden hierbei explizit auch als einzuhaltende Invarianzen der Form I4(T, T') notiert,
welche jeweils allgemein ausdrücken, daß ein Text T' von L' als Übersetzung eines
Textes T von L gilt, wie es bei obiger Formulierung durch I4(T1, T11') und
I4(T2, T21') gefordert wird. Vollständigkeitsbedingung Ia fordert die Gültigkeit der
Transformationen Q4 für sämtliche Satzpaare S und S', in denen Vq a Vqq und Vq'
a Vqq in entsprechenden, Anordnungen als Träger Ar ausschließenden,
grammatischen Funktionen vorkommen. Die Transformationen Q4 schließen nicht
aus, daß Vq1 = S1, so daß S2 = nS, und entsprechend Vq11' = S11' mit S21' = nS.
Erfindungsgemäß werden anstelle der oben formulierten Transformationen Q4 auch
bedeutungsgleiche, zu gleichen Ergebnissen führende Transformationen Q41
verwendet, welche, wie bei den Transformationen Q3, anstelle einer Kürzung von
Sätzen S und S' entsprechend beobachtbare Erweiterungen um Vokabeln Vq
beziehungsweise Vq' vorsehen.
Zur effektiven Bestimmung einer möglichst großen Anzahl von Vokabeln Vqq aus
einem gegebenen Korpus C mit zugehörigem Korpus C' von Texten T und T'
werden die Transformationen Q4 vorzugsweise auch mehrfach auf ein Satzpaar S1
und S11' angewandt, also auch auf die resultierenden Paare gekürzter Sätze S2 und
S21' usw. bis hin zu resultierenden Sätzen nS und nS'. Bei gegebenenfalls weiteren,
alternativ zu S11' vorliegenden Übersetzungen S12', S13' usw. zu S1 werden
entsprechende weitere, dann einem Repertoire Vq1' = R(Vq1x') zuzuordnende
Vokabeln Vq1x' durch Anwendung von Q4 auf die entsprechenden Satzpaare S1 und
S12', S1 und S13' usw. bestimmt. Man beachte, daß die Komponenten G der
Komplexe GG, denen die Vokabeln Vq a GG zugeordnet sind, diejenigen Valenzen
Um als freie Valenzen für Komplexbildungen mit weiteren Einheiten G aufweisen,
die nicht aufgrund der in Vq vorliegenden Komplexbildung GG gesättigt sind;
entsprechendes gilt für die Komplexe G'G'.
Die gemäß einem, unten weiter ausgeführten, Verfahrensteil M4 von M
vorzunehmende Erstellung von Daten Wst(L/L') erfolgt nach einer oder mehreren
der folgenden Ausführungsformen: Es werden Texte T a C wie auch Übersetzungen
T' a C' verwendet, die durch Experten der betreffenden Sprachen L und L' erzeugt
werden. Die Zuordnung der Texte T zu Nachrichten TN wie auch T' zu Nachrichten
T'N' erfolgt durch Experten. Die Zuordnung der Texte T wie auch T' zu Nachrichten
TN beziehungsweise T'N' erfolgt unter Anwendung des erfindungsgemäßen
Verfahrensteils M2 unter Einsatz der grammatischen Daten Wsr(L) beziehungsweise
Wsr(L') maschinell. Den Vokabeln Vqq werden die oben eingeführten Adressen Ad
zugeordnet. Die Vqq werden in den Grammatiken Wst a Ws in weiteren Listen Wsi
so geordnet nach Adressen Ad aufgeführt, daß sie aufgrund der in einlaufenden
Texten T anzutreffenden Merkmale H(T) beziehungsweise Zeichen Z mit
vertretbarem Aufwand zu adressieren sind. Die Vokabeln Vqq werden in den
Grammatiken Wst in Listen Wsi geordnet nach Wörtern Vt a Vq aufgeführt, wobei
diese Wörter Vt in den angeführten Listen Wsi a Wsr geordnet nach ihren Adressen
Ad niedergelegt werden, in einer weiteren Ausbildung auch als Adressen Ad für die
Vqq dienen.
In einer Ausgestaltung, die besonders für die erfindungsgemäße Kommunikation
unter Berücksichtigung eines umfangreichen Repertoires R(L) natürlicher Sprachen
L geeignet ist, wird eine Sprache L" a R(L) als Zentralsprache L" festgelegt, und es
werden die Übersetzungen von einer beliebigen Ausgangssprache L a R(L) zu einer
beliebigen Zielsprache L' a R(L) über die Zentralsprache L", also von L nach L" und
weiter nach L' vorgenommen, vorausgesetzt, daß L ne L" und L' ne L". Dies hat zur
Folge, daß vorteilhaft Daten Wst benötigt werden, deren Volumen nicht
größenordnungsmäßig exponentiell gemäß a!, sondern nur annähernd linear mit der
Zahl a der zu berücksichtigenden Sprachen L a R(L) anwächst, wodurch also eine
kombinatorische Explosion des Datenvolumens Wst vermieden wird, wie sie sich bei
einer Forderung ergäbe, die Übersetzungen zwischen beliebigen Sprachen L a R(L)
jeweils direkt durchzuführen.
Die angeführten Transformationen Q4 mit daraus resultierenden Vokabeln Vqq
werden anhand des folgenden Beispiels 7) mit Schriftenglisch als Ausgangssprache
L und Schriftdeutsch als Zielsprache L' anhand eines, im Interesse einer möglichst
einfachen und kurzen Erläuterung wieder sehr beschränkten, Korpus C von Texten T
= S näher beschrieben, deren Worttexte Ts a Vt wieder als Norm-Zeichenkomplexe
Vt = Tsa = ZZsa notiert werden. Betrachtet werden die Sätze Sx mit Übersetzungen
Sx': S1 = /He does not leave Bavaria./, S2 = /He does leave Bavaria./ mit S11' = Er
verläßt Bayern nicht./, S21' = /Er verläßt Bayern wirklich./, S3 = /He does not leave./
mit S31' /Er reist nicht ab./, S4 = /He does leave./ mit S41' = /Er geht tatsächlich./,
S5 = /He leaves Bavaria./ mit S51' = /Er verläßt Bayern./, S6 = /He loves Bavaria./
mit S61' = /Er liebt Bayern./ und S7 = /He is not here./ mit S71' = /Er ist nicht hier./.
Gemäß den Transformationen Q gelten im Englischen die hier als Vtx = Gx
behandelten Wörter Vt1 = /ghe./, Vt2 = /_leaves/, Vt3 = /_loves/, Vt4 = /_is here/,
Vt5 = /_does not leave/, Vt6 = /_does leave/, Vt7 = /_not/ und Vt8 = /_Bavaria/. Man
beachte, daß der Textabschnitt /_does not leave/ in S1 nicht aus Vt6 und Vt7
zusammengesetzt ist, sondern ein eigenes Wort Vt5 bildet, da bei Kürzung von S1
um Vt7 mit resultierendem Satz S2 Invarianz I3(S1 d S2) von Transformation Q2.1
nicht erfüllt wäre, da, wie auch den deutschen Sätzen S11' und S21' oder auch S51'
zu entnehmen ist, der S1 und S2 gemeinsame Satzteil S2 unterschiedliche Inhalte F
anzeigt, in S1 etwa gemäß S21' und in S2 gemäß S51'. Als Strukturen Jk der Inhalte
N gelten in S1 für den Kopf Vtk1 = Ar(Vt5) sowie Vt5 = Ar(Vt8); für S2: Vtk1 =
Ar(Vt6), Vt6 = Ar(Vt8); für S3: Vtk1 = Ar(Vt5); für S4: Vtk1 = Ar(Vt6); für S5:
Vtk1 = Ar(Vt2); Vt2 = Ar(Vt8); für S6: Vtk1 = Ar(Vt3), Vt3 = Ar(Vt8); für S7: Vtk1
= Ar(Vt4), Vt4 = Ar(Vt7).
Den deutschen Übersetzungen S' sind, wieder gemäß Q, die folgenden Wörter Vt'
zuzuordnen: Vt1' = /ger./, Vt2' = /_geht/, Vt3' = /_reist ab/, Vt4' = /_liebt/ Vt5' =
/_ist hier/, Vt6' = /_wirklich/, Vt7' = /_tatsächlich/, Vt8' = /_nicht/, Vt9' = /_ist hier/,
Vt10' = /_verläßt Bayern/.
Durch Anwendung der Transformationen Q4 ergeben sich als Vokabeln Vqqx =:
Vqx = R(Vqxy'): Vqq1: Vt1 = Vt1'; Vqq2: Vt2 = Vt2' o Vt3'; Vqq3: Vt2Vt8 =
Vt10'; Vqq4: Vt3 = Vt4'; Vqq5: Vt4 = Vt9'; Vqq6: Vt5Vt8 = Vt10'Vt8'; Vqq7:
Vt6Vt8 = Vt10'Vt6' o Vt10'Vt7'. Hierbei weisen Komplexe Kp wie Vq6' und Vq7'
die Valenzen Um der Komponenten Em a Kp auf, welche durch die jeweiligen
Komplexbildungen nicht gesättigt sind. So enthält Vq6' eine Valenz Umn von Vt10'
a G10' zur Verknüpfung mit einer Kopfeinheit wie Vt1' a G1' über deren Valenz
Ums. Die aufgeführten Vokabeln Vq' a Vqq ermöglichen so die Bildung sämtlicher
Texte T' a S' des Korpus C' unter Anwendung von Verfahrensteil M1 a M.
Die für Verfahrensteil M3 vorgesehene Verwendung von Vokabeln Vq, welche
gemäß den zugrunde gelegten Transformationen Q sowohl grammatische wie auch
semantische Bezüge berücksichtigen und dementsprechend die Verwendung von,
gegebenenfalls auch hoch, superierten Komplexen Kp von objektiven Wörtern Vt
und entsprechend auch natürlichen Wörtern vorsehen, hat vorteilhaft zur Folge, daß
die in den zu bildenden Nachrichten TN und T'N' als Komponenten Em
einzusetzenden Komplexe Vq und Vq' sowohl als Textsymbole Gt, grammatische
Symbole Gr wie auch semantische Symbole Gp dienen, wobei die für das Übersetzen
und Dolmetschen allgemein zu fordernde Berücksichtigung des durch weitere
Textteile T mitbestimmten Kontextes bereits weitgehend gewährleistet ist, ohne daß
eine Speicherung einer gemäß Verfahrensteil M3 nicht benötigten Vielzahl von noch
umfangreicheren Texten T und Übersetzungen T' hiervon erforderlich wird, welche
die Speicherkapazität verfügbarer Vorrichtungen überlasten könnte. Hierbei
resultieren aus den den Komplexen Kp = G'G' der Vokabeln Vq' a G'G'
verbleibenden freien Valenzen Um der Einheiten G' a G'G', auch als Adressen Ad
nutzbare, Einschränkungen für deren Zusammenfügungen, mit weiteren Vokabeln
Vq' zu Inhalten N', woraus eine vorteilhafte Einschränkung der
Auswahlmöglichkeiten aus den einer Vokabel Vqq zugeordneten Vokabeln Vq' a
R(Vq') folgt. Die Erfindung sieht in einer Ausbildung vor, gegebenenfalls als
Konkurrenzhypothesen Ks resultierende disjunkte Übersetzungsmöglichkeiten Ks =
T' von Texten T einer zusätzlichen semantischen Analyse zuzuführen, wie sie durch
Sprachexperten oder das in Erfindungsmeldung P . . . angegebene semantische
Kommunikationsverfahren möglich ist. Hierbei wird allgemein eine
Konkurrenzhypothese Ks für die Kommunikation ausgewählt und weiter verwendet,
deren grammatischer Nachricht TN ein mit den Vorgaben Vr vereinbarer
semantischer Inhalt F mit ausreichend hoher Wahrscheinlichkeit p(F/TN) zugeordnet
wird, hier gemäß den für Übersetzungen anzusetzenden Vorgaben Vr einer gemäß
M3 resultierenden Nachricht T'N' ein Inhalt F', der mit dem Inhalt F der zu
übersetzenden Nachricht TN der Ausgangssprache L, gegebenenfalls auch unter
Beachtung der jeweiligen Situation, ausreichend übereinstimmt.
Die angeführten, im erfindungsgemäßen Verfahren M einzusetzenden Daten Ws
einschließlich Wsr und Wst sind allgemein auch dadurch gekennzeichnet, daß sie
einer Erzeugung gemäß einer oder mehrerer der oben beschriebenen wie auch
nachfolgend weiter ausgeführten, unter Verfahrensteil M4 a M zusammengefaßten,
Maßnahmen entsprechen sowie in einer Ausbildung der Erfindung auch durch solche
Maßnahmen M4 erzeugt werden: Der der Erzeugung der Daten Ws zugrunde zu
legende Korpus C von Texten T einer Sprache L wie gegebenenfalls auch die
Korpusse C' weiterer Sprachen L' werden durch einen oder vorzugsweise auch
mehrere Experten dieser Sprachen ausgewählt oder auch erstellt. Ein Korpus C, C'
usw. wird so festgelegt, daß entsprechend dem Umfang der zu lösenden
Kommunikationsaufgabe die hierbei einzusetzenden Symbole Gs in den zu
beherrschen Komplexbildungen GsGs in den Nachrichten TN, die den Texten T a C
zuzuordnen sind, in einer ausreichenden Zahl von entsprechend statistisch
signifikanten Fällen vorkommen. Die Symbole Gs werden durch Anwendung der
Transformationen Q auf die Texte T a C1 eines vorgegebenen Korpus C = C1
bestimmt. Die Symbole Gs werden durch Anwendung der Transformationen Q auf
einen Korpus C2 von Texten T bestimmt, welcher die Texte T a C1 eines
vorgegebenen Korpus C1 sowie weitere durch Anwendung der Transformationen Q
hieraus erzeugte Texte T umfaßt. Die Ergebnisse der Transformationen Q werden
durch einen Experten, in einer bevorzugten Ausbildung auch mehrere, angezeigt. Es
werden Symbole Gs durch entsprechend geübte Experten intuitiv so festgelegt, daß
sie möglichst weitgehend den Transformationen Q genügen, wobei die Anwendung
der Transformationen Q auf zweifelhafte Festlegungen beschränkt bleibt. Das
Vorkommen der Symbole Gs wird unter Berücksichtigung ihrer, gegebenenfalls
Zuordnungen zu weiteren Symbolen Gs berücksichtigenden, Anordnungen Pr
statistisch ausgewertet. Die statistischen Eigenschaften H(Gs) der Symbole Gs
werden entsprechend den Formulierungen Wt ausgedrückt. Die Symbole Gs mit
ihren Eigenschaften H(Gs) werden anhand weiterer bei der erfindungsgemäßen
maschinellen Kommunikation an weiteren Texten T anfallender Ergebnisse,
gegebenenfalls auch unter Mitwirkung von Experten, ergänzt wie auch, insbesondere
auch quantitativ hinsichtlich ihrer Wahrscheinlichkeiten p, präzisiert. Textsymbolen
Gt zugeordnete Zeichen Z werden als Komplexe Kp = R(H(T)), R(H(T)) von
Repertoires R(H(T)) jeweils einer oder mehrerer Texteigenschaften H(T) mit
Toleranzen dH festgelegt. Die Zeichen Z werden nach einem Alphabet R(Z)
geordnet. Die Ordnung erfolgt in einer Reihenfolge nach fallenden
Informationswerten h(Z). Die als Komponenten Em einzusetzenden Symbole Gs, in
entsprechenden Ausbildungen einschließlich der Vokabeln Vqq und Zeichen Z,
werden geordneten Adressen Ad zugeordnet. Sie werden in Listen Wsi geordnet
aufgeführt. Die Listen Wsi werden nach unterschiedlichen Bereichen von
Informationswerten h(Em/Ad) unterteilt. Als Adressen Ad der Textsymbole Gt
werden bestimmte Merkmale oder Zeichen Z wie auch Komplexe 22 hiervon
festgelegt. Die Schwellwerte und Toleranzen für quantitativ festzulegende Daten wie
Wahrscheinlichkeiten p, Informationswerte h, Eigenschaften H beziehungsweise
Positionen P mit Reihenfolgen der Form A1:A2 und Abständen a werden so den
Gegebenheiten der betreffenden Kommunikationsakte und Kommunikationspartner
wie auch der verfügbaren Vorrichtungen angepaßt, daß die zu leistenden
Kommunikationsakte mit den Anforderungen entsprechenden Zeiten und Fehlerraten
und den verfügbaren Vorrichtungen angepaßtem Aufwand durchführbar werden.
Hierbei werden die zu erwartenden Varianzen gleichbedeutender Texte T durch
entsprechende Festlegung von Toleranzen dH der ihnen zuzuordnenden Merkmale
H(T) berücksichtigt.
Es werden Daten Ws verwendet, die einer Erzeugung durch einen Verfahrensteil
M41 von M4 entsprechen, wonach Texten T a C3 eines Korpus C3 unter
Anwendung von Verfahrensteil M2 unter Beachtung bereits vorliegender Daten Ws
= Ws1 gemäß Verfahrensteil M2 maschinell grammatische Nachrichten TN
zugeordnet werden, wobei gemäß den Daten Ws1 nicht ausreichend sicher
zuordenbare Textabschnitte T für Experten markiert werden, welche die Daten Ws1
dadurch zu Daten Ws2 erweitern, daß sie unter Beachtung der Transformationen Q
diese Textabschnitte T Einheiten G zuordenbaren objektiven Wörtern Vt mit
entsprechend zuordenbaren Eigenschaften H(Vt) und H(G) zuordnen. Verfahrensteil
M41 wird auch in mehreren Stufen unter Verwendung der jeweils in der
vorangegangenen Stufe erzeugten Daten Ws durchgeführt. Aus Verfahrensteil M41
folgt vorteilhaft eine Reduzierung des bei der Bestimmung der Daten Ws durch
Experten zu leistenden Arbeitsanteils.
Zur Erzeugung von Daten Wst a Ws werden zu Korpussen C von Texten T von
Ausgangssprachen L Korpusse C' von Texten T' von Zielsprachen L', welche
Übersetzungen der Texte T darstellen, durch einen oder mehrere Experten
ausgewählt oder auch erstellt, wobei gegebenenfalls auch eine oder mehrere als
Zentralsprachen L" zu verwendende Sprachen L berücksichtigt werden. Die
Vokabeln Vqq werden gemäß den obigen Definitionen erstellt und zu Listen Wsi,
geordnet nach geordneten Adressen Ad, zusammengestellt. Hierbei werden die
Transformationen Q4 berücksichtigt. Es werden den Texten T und T' unter
Anwendung von Verfahrensteil M2 zugeordnete grammatische Inhalte N und N' und
Sätze S und S' berücksichtigt. Die Zuordnungen von Vokabeln Vq' zu Vokabeln Vq
werden statistisch erfaßt. Den Vokabeln Vq und Vq' werden Valenzen Um
zugeordnet.
Weitere Einzelheiten des erfindungsgemäßen Kommunikationsverfahrens M sind
auch den nachfolgenden Zusammenstellungen der oben angeführten Verfahrensteile
M1, M2 und M3 von M zu entnehmen, welche jeweils entsprechend der hier
niedergelegten Reihenfolge unter Anwendung mehrerer der aufgeführten,
gegebenenfalls auch alternativ anzuwendender, Maßnahmen, auch unter Einsatz der
oben beschriebenen und an Textbeispielen erläuterten Begriffe,
Datenzusammenstellungen und Vorgehensweisen, durchzuführen sind. Für die
folgende Beschreibung wird entsprechend der genannten bevorzugten Ausgestaltung
die Verwendung der Symbole Vt a G zugrunde gelegt, was nicht ausschließt, daß in
weiteren Ausbildungen auch hiervon abweichende Symbole Gt a Gr der angeführten
Art zum Einsatz kommen.
Der in der Funktion des Autors At zu leistende Verfahrensteil M1 a M zur
Erzeugung von auszugebenden, grammatischen Inhalten N wie auch Komplexen NN
hiervon zugeordneten, Texten T, welche unter Beachtung der für den betreffenden
Kommunikationsakt vorliegenden Daten D, Vorgaben Vr sowie der Daten Ws
vorzunehmen ist, umfaßt einen Teil M11 a M1 zur Festlegung dieser Daten D und
Vorgaben Vr in einer hierfür geeigneten Form und einen Teil M12 a M1 zur
Erzeugung grammatischer Nachrichten TN und zur Ausgabe der deren Inhalten N a
TN zugeordneten Texte T a TN. In verschiedenen, den jeweiligen
Kommunikationsakten angepaßten Ausgestaltungen schließt Teil M11 auch eine
Anwendung des Teils M2 oder auch M3 mit ein, während M12 auch unter
Anwendung von M2 durchgeführt wird mit dem Ziel, gegebenenfalls erzeugte
grammatisch mehrdeutige Texte T zu identifizieren und, soweit im Rahmen der
Vorgaben Vr möglich, durch grammatisch eindeutige Texte T zu ersetzen oder unter
Beachtung der Vorgaben Vr Nutzer wie auch Kommunikationspartner entsprechend
zu informieren.
Verfahrensteil M11 a M1 sieht vor, beim betreffenden Kommunikationsakt
gegebenenfalls anfallende Daten D einschließlich der von den Nutzern, Partnern Pa
oder von weiteren Verfahrensteilen M2 oder M3 wie gegebenenfalls auch
semantischen Kommunikationsverfahren kommenden Vorgaben Vr = Vr1
aufzunehmen und zu speichern und hierdurch, gegebenenfalls auch mittels Adressen
Ad angezeigte, Komponenten Em zu identifizieren und entsprechend zu
berücksichtigende Repertoires R(Em) hiervon mit Entnahmebedingungen Ve hierfür
zusammenzustellen und zu speichern, welche als weitere Vorgaben Vr = Vr2 für die
Durchführung von Verfahrensteil M12 dienen. Identifizierte Komponenten Em wie
Merkmale H(T) oder Symbole Gs werden als Adressen Ad für Komponenten Em
einer jeweils angrenzenden Superierungshierarchie und entsprechende Repertoires
R(Em) hiervon verwendet. Es werden Komponenten Em berücksichtigt, die durch
Adressen Ad mit ausreichend hohen Wahrscheinlichkeiten p(Em/Ad) ge ps angezeigt
werden. Schwellwerte ps werden in Anpassung an die Kommunikationsakte und die
verfügbaren Vorrichtungen so festgelegt, daß die Vorgaben Vr1 unter Vermeidung
zu hoher Bearbeitungszeiten und Fehlerraten erfüllbar werden.
Entnahmebedingungen Ve für die Repertoires R(Em) werden entsprechend den
Vorgaben Vr, Daten D und Daten Ws allgemein so festgelegt, daß hieraus jeweils
eine, sämtliche, eine bestimmte oder beliebige Anzahl von Komponenten Em einfach
oder auch mehrfach oder disjunkt wie auch unter Beachtung der Reihenfolge wie
auch der Positionen P wie auch der Möglichkeiten ihrer Anordnungen Pr zum
Aufbau der gemäß M1 zu erstellenden Komplexe TN = EmEm zu verwenden sind.
Bei disjunkt zu verwendenden Komponenten Em erfolgt eine Entnahme in einer
Reihenfolge nach fallenden Wahrscheinlichkeiten P(Em/Ad), mit denen sie durch
identifizierte Adressen Ad angezeigt werden.
Verfahrensteil M12 von M1 sieht vor, aus gemäß Verfahrensteil M11 zu
berücksichtigenden Komponenten Em unter Beachtung der Daten Ws eine disjunkte
Klasse Kl = (Ks) von als Konkurrenzhypothesen Ks behandelten Komplexen Kp =
TN,TN von, Komplexen EE von Hintergründen E mit zugeordneten Inhalten N
zugeordneten, Nachrichten TN zu bilden und unter Beachtung der
Wahrscheinlichkeiten p(Ks) einen, einem ausreichend wahrscheinlichen
Nachrichtenkomplex TN,TN zugeordneten, Text T a TN,TN, wie entsprechend den
Vorgaben Vr auch mehrere, entsprechend als disjunkt gekennzeichnete Texte T, als
Äußerung Tp in dem hierfür vorgesehenen Medium an die Kommunikationspartner
Pa herauszugeben. Hierbei wird nach mehreren der folgenden Ausführungsformen
vorgegangen: Soweit es die Vorgaben Vr zulassen, werden als korrekt definierte
Nachrichten TNg erzeugt. Die Bildung von Nachrichtenkomplexen Kp = TN,TN
erfolgt seriell in Richtung steigender oder fallender Superierungshierarchien wie
auch in Vortragsrichtung der Texte T. Es werden Zwischenergebnisse Ks1 a (Ks)
berücksichtigt, denen die Komponenten Em aus vorliegenden disjunkten Repertoires
R(Em) jeweils mit ausreichend hohen Wahrscheinlichkeiten p(Em) ge ps1
zugeordnet sind. Zwischenergebnisse Ks2 a (Ks) mit
Zuordnungswahrscheinlichkeiten ps2 k p(Em) k ps1 oberhalb eines weiteren
Schwellwertes ps2 k ps1 werden gespeichert und gegebenenfalls zur
Komplexbildung herangezogen, falls sich mit den Hypothesen Ks1 bei
weiterführenden Komplexbildungsstufen mit den Komponenten Em weiterer
Repertoires R(Em) keine ausreichenden Wahrscheinlichkeiten p(Em) ge ps zur
Bildung grammatisch korrekter Nachrichten TNg ergeben. Die Hypothesen Ks
werden entsprechend ihren, gemäß Ansatz Ba ermittelten, Wahrscheinlichkeiten
p(Ks) berücksichtigt. Unter Anwendung nichtlinearer Verfahrensschritte Bb werden
Komponenten Em und Hypothesen Ks mit Wahrscheinlichkeiten p k ps
vernachlässigt. Schwellwerte ps werden so den betreffenden Kommunikationsakten
angepaßt, daß kombinatorische Explosionen bei den Hypothesen Ks unterbunden
werden. Es werden in einer ersten Superierungsserie aus disjunkten Repertoires
R(Em) solche Komponenten Em berücksichtigt, die von in vorliegenden Daten D
identifizierten Adressen Ad mit ausreichend hohen Wahrscheinlichkeiten p(Em/Ad)
g ps angezeigt werden. Die Schwellwerte ps werden in Stufen so weit erniedrigt, bis
sich grammatisch korrekte Nachrichten TNg ergeben. Texte T a TN werden als
Komplexe T = TaTa von Normtexten Ta a Gt der eingesetzten Textsymbole Gt
gebildet. Die Hintergründe E a TN werden aus durch Adressen Ad angezeigten
Einheiten Em G unter Berücksichtigung der gemäß Vr2 vorliegenden Repertoires
R(Em) gebildet. Der Aufbau wird mit jeweils als Kopf Gk einsetzbaren
selbständigen Einheiten G begonnen und mit solchen rangniedriger anzuordnenden
Einheiten Gb a R(Em) fortgeführt, die durch als zusätzliche Adressen Ad eingesetzte
ungesättigte Valenzen Ums der bereits verwendeten Einheiten Ga als mögliche
Anhänger Gb = An(Ga) angezeigt werden. Alternativ hierzu erfolgt der Aufbau der
Hintergründe E in Richtung steigenden Ranges Ra unter Einsatz der ungesättigten
Valenzen Umn der verwendeten Einheiten G als Adressen Ad oder auch in
wechselnden Rangrichtungen, insbesondere auch in solchen Fällen, wo selbständige
Einheiten G durch vorliegende Adressen Ad nur mit geringen Wahrscheinlichkeiten
p(G/Ad) angezeigt werden. Es werden gegebenenfalls gemäß Vorgaben Vr wie auch
den Daten Ws vorliegende Valenzen-übergreifende Bedingungen Wt wie auch Daten
Wsp beachtet. Die Bildung der Nachrichtenkomplexe TN,TN erfolgt alternativ zur
seriellen Verarbeitung durch Parallelverarbeitung unter Verwendung von
Parallelrechnern, in denen die gemäß den Daten Ws zu verwendenden Symbole Gs
jeweils durch parallel vernetzbare Rechenmodule repräsentiert werden. Textsymbole
Gt werden unter Beachtung der Funktionen von in den Daten Ws als Operatoren Z =
o aufgeführten Zeichen Z gebildet. Resultierende Texte T a TN,TN werden unter
Anwendung von Verfahrensteil M2 einer grammatischen Analyse auf grammatische
Mehrdeutigkeit unterzogen. Als Konkurrenzhypothesen Ks erzeugte grammatische
Nachrichten TN werden einer semantischen Analyse zugeführt, und es wird eine
Hypothese Ks für die Kommunikation verwendet, deren grammatischer Nachricht
TN hierbei ein mit den Vorgaben Vr vereinbarer semantischer Inhalt F mit
ausreichend hoher Wahrscheinlichkeit p(F/TN) g ps zuordenbar ist. Grammatisch
mehrdeutige wie gegebenenfalls auch semantisch als nicht ausreichend akzeptabel
identifizierte Texte Ta a TaNa werden durch hiervon abweichende Texte Tb a TbNb
anderer grammatischer Inhalte Nb ne Na ersetzt unter der Voraussetzung, daß die
Nachrichten TbNb gemäß den Vorgaben Vr ebenfalls noch mit ausreichenden
Wahrscheinlichkeiten p(TbNb) erzeugbar sind. Nicht so ersetzbare Nachrichten
TaNa werden den Kommunikationspartnern Pa, wie entsprechend gegebenen
Vorgaben Vr auch den Nutzern, durch entsprechend vorzunehmende Markierungen
angezeigt. Falls vorliegende Daten D und diesen zugeordnete Vorgaben Vr keine
korrekten Nachrichten TNg zulassen, wird angezeigt, welche von diesen Daten D
hierfür verantwortlich sind. Bei entsprechenden Vorgaben Vr werden hierbei
entsprechend markierte korrekte Nachrichten TNg erzeugt, wie sie durch
Abänderung eines gemäß Vorgaben Vr ausreichend geringen Anteils der Daten D
möglich sind. Disjunkte Nachrichten TN a (TN) mit annähernd gleichen, ausreichend
hohen Wahrscheinlichkeiten p(TN) g ps werden gemäß Vorgaben Vr den
Kommunikationspartnern Pa wie auch den Nutzern entsprechend markiert zur
Auswahl angeboten. Die resultierenden Texte T a TN,TN werden entsprechend den
Gegebenheiten des betreffenden Kommunikationsaktes in den hierfür vorgesehenen
Medien an die Kommunikationspartner Pa ausgegeben.
Der in der Funktion des Hörers Hr zu leistende Verfahrensteil M2 a M zur
Zuordnung von zu erstellenden grammatischen Inhalten N zu einlaufenden Texten T
und somit zur Erstellung von diesen zugeordneten grammatischen Nachrichten TN
wie auch Komplexen Kp = TN,TN hiervon aus Komponenten Em entsprechend den
Daten Ws umfaßt einen unter Anwendung von Verfahrensteil M11 a M1
durchzuführenden Verfahrensteil M21 a M2 zur Aufnahme und Speicherung der
Texte T und zur Festlegung von Vorgaben Vr2 unter Beachtung vorliegender
Vorgaben Vr1 aus den beim Kommunikationsakt anfallenden Daten D, sowie einen
unter Anwendung von Verfahrensteil M12 a M1 durchzuführenden Verfahrensteil
M22 a M2 zur, unter Beachtung von Konkurrenzhypothesen Ks vorzunehmenden,
Erzeugung dieser Nachrichten TN, welche einer durch die Vorgaben Vr1
festgelegten weiteren Verwendung zuzuführen sind. Ja nach den Gegebenheiten der
betreffenden Kommunikationsakte wie auch Vorgaben Vr1 umfaßt Verfahrensteil
M2 auch einen Teil M23 zur Verbesserung einlaufender Texte T gemäß den Daten
Ws und den hierdurch festgelegten Normen und, gegebenenfalls auch durch
Vorgaben Vr1 mitbestimmten, Toleranzen.
Verfahrensteil M21 sieht vor, die anfallenden Daten D aufzunehmen und zu
speichern und hieraus in Teil M22 zu berücksichtigende Repertoires R(Em) von
Komponenten Em mit Entnahmebedingungen Ve a R(Em) zu erstellen, wobei
mehrere der folgenden, den Gegebenheiten der betreffenden Kommunikationsakte
angepaßten Maßnahmen anzuwenden sind: Es werden die Daten Ws einer gemäß
Vr1 vorgegebenen Sprache L berücksichtigt. Bei nicht vorgegebener Sprache L wird
aus den einlaufenden Texten T ein Repertoires R(L) möglicher Sprachen L mit
zugehörigem Repertoire R(Ws(L)) von Daten Ws(L) festgelegt. Als Komponenten
Em werden durch die Daten Ws festgelegte Symbole Gs wie auch Komplexe GsGs
und Klassen (Gs) hiervon wie auch Texte T a Gs berücksichtigt. Einem einlaufenden
Text T wird eine disjunkte Klasse Kl = (AdAd) von Komplexen AdAd von, unter
Beachtung ihrer Positionen P im Text T angeordneten, Adressen Ad mit gemäß den
Daten Ws zugeordneten Textsymbolen Gt zugeordnet, welche der, gegebenenfalls
durch Vorgaben Vr1 festgelegten, niedrigsten gemäß Ws zu beachtenden
Superierungshierarchie angehören. Das Repertoire R(L) der Sprachen L wird
aufgrund der Adressen Ad, gegebenenfalls auch aufgrund der bereits als mögliche
Komponenten Em zugeordneten Symbole Gt, näher bestimmt. Textmerkmale H(T)
wie hieraus in steigenden Superierungshierarchien aufgebaute Komplexe Gt =
H(T)H(T) werden als Adressen Ad für die Symbole Gs der jeweils nächsthöheren
Hierarchie eingesetzt. Die adressierten Symbole Gs werden unter Beachtung der
Wahrscheinlichkeiten p(Em/Ad) Repertoires R(Em) mit Entnahmebedingungen Ve,
beispielsweise auch zu ihrer disjunkten Verwendung, zugeordnet. Die Zuordnung
von Adressenkomplexen AdAd erfolgt jeweils für den nächsten gemäß
Verfahrensteil M22 zu bearbeitenden Textabschnitt T. Es werden jeweils Textlängen
T berücksichtigt, welche dem zu erwartenden Umfang der in der jeweiligen
Superierungshierarchie möglichen Symbole Gt und Komplexe GtGt wie Zeichen Z
und Komplexe ZZ = Vt, VtVt = Vqq und VtVt = S angepaßt sind.
Verfahrensteil M22 a M2 zur Erstellung grammatischer Nachrichten TN aus gemäß
M21 a M2 erstellten Repertoires R(Em) von Komponenten Em umfaßt mehrere der
folgenden Maßnahmen: Die Bildung von Symbolkomplexen erfolgt in den in M21
angegebenen Superierungshierarchie-Richtungen, in einer bevorzugten Ausbildung
in Richtung steigender Hierarchien wie auch steigenden Ranges Ra. Bei in
Analogform einlaufenden Texten T werden als Textsymbole Gt der niedrigsten
Hierarchie Merkmale Z berücksichtigt, welche durch Repertoires R(H(T)) von
innerhalb Toleranzen dH(T) liegenden Texteigenschaften H(T) wie auch hieraus
gebildeten Komplexen Kp unter Beachtung ihrer Positionen P als Adressen Ad
angezeigt werden. Komplexbildungen GtGt aus Textsymbolen Gt erfolgen in der
durch ihrer Positionen P, wie sie auch durch die Adressen Ad angezeigt werden,
gegebenen Reihenfolge. Die Textsymbole Gt der jeweils gebildeten Hierarchie
werden zur Bestimmung des für die nächsthöhere Hierarchie von Symbolen Gt zu
berücksichtigenden Repertoires R(L) von Sprachen L eingesetzt, bis sich mit
ausreichender Wahrscheinlichkeit p die dem Text T zugrunde liegende Sprache L,
gegebenenfalls auch mehrere solche Sprachen L, ergeben. Der Text T wird in die den
Textsymbolen Gt der höchsten Superierungshierarchie zugeordneten Textabschnitte
Ts a Vt wie auch Ts a vt geteilt. Für die Bestimmung einer als Komplexe Gt2 =
Gt1Gt1 einer niedrigeren Hierarchie von Textsymbolen Gt1 gebildeten Hierarchie
von, Teilwörter vt und Wörter Vt einschließenden, Textsymbolen Gt2 wird eine
gemäß den Daten Ws maximal mögliche Anzahl aufeinander folgender, durch
Adressen Ad eines entsprechenden Textabschnitts T angezeigter Symbole Gt1
berücksichtigt, wobei jeweils in Anpassung an die betreffende Sprache L auch nicht-
diskontinuierliche Symbole Gt2 vorausgesetzt werden. Die Zuordnungen von
Textsymbolen Gt zu Texten T erfolgen unter Beachtung von in den Texten T
gegebenenfalls anzutreffenden Textmerkmalen H(T), welche Abgrenzungen
zwischen Textabschnitten Tr a Z, Ts a vt oder Ts a Vt anzeigen. Bei Texten T, die in
Form von in Äußerungen T = Tp voneinander abgegrenzten Textabschnitten T
anfallen, erfolgt die Bildung von Nachrichten TN für jeweils einen dieser Abschnitte
T. Bei nicht so abgeteilten Texten T wird für den Aufbau einer Nachricht TN eine
Textlänge T berücksichtigt, der mehrere Wörter Vt a G von selbständigen, als Kopf
Gk verwendbare Einheiten G zuordenbar sind. Der Aufbau wird mit Textlängen T1
mit mindestens 2 zugeordneten selbständigen Einheiten G begonnen. Die
Textabschnitte T werden auf Textlängen T2 erweitert, falls sich den Texten T1 keine
grammatisch korrekten Nachrichten TN zuordnen lassen. Verfahrensteil M2 bietet so
vorteilhaft die Möglichkeit, auch kontinuierlich in fortlaufender Form geäußerte
Texte T entsprechend den ihnen zuordenbaren grammatischen Inhalten N zu
unterteilen, ohne daß jeweils die apparativen Voraussetzungen überfordernde
Textlängen T in das Verfahren M einbezogen werden müssen.
Der Aufbau eines Hintergrundes E aus den durch Adressen Ad angezeigten Einheiten
G erfolgt in unterschiedlichen Rangrichtungen in Reihenfolgen nach fallenden
Wahrscheinlichkeiten p(G/Ad), mit denen sie angezeigt werden. Bei ausreichend
gleichen Wahrscheinlichkeiten p(G/Ad) erfolgt die Komplexbildung in Richtung
fallenden Ranges Ra, beginnend jeweils mit einer als Kopf Gk eingesetzten
selbständigen Einheit G. Die ungesättigten Valenzen Um der zur Komplexbildung E
eingesetzten Einheiten G a E werden als zusätzliche Adressen Ad für weitere
Einheiten G verwendet. Von den als Konkurrenzhypothesen Ks gebildeten
grammatischen Nachrichten TN werden bevorzugt grammatisch korrekte
Nachrichten TNg verwendet. Aus gegebenenfalls mehreren als
Konkurrenzhypothesen Ks anfallenden Nachrichten TN beziehungsweise
Komplexen TN,TN hiervon wird die Konkurrenzhypothese Ks mit der höchsten
Wahrscheinlichkeit p(Ks) verwendet. Bei grammatisch mehrdeutigen Texten T,
denen mehrere Hypothesen Ks mit annähernd gleichen, ausreichend hohen
Wahrscheinlichkeiten p(Ks) zugeordnet werden, werden diese entsprechend als
disjunkt markiert der vorgegebenen weiteren Verwendung zugeführt. Die erstellten
Komplexe TN mit ihren Strukturen J oder Jk werden gemäß den Vorgaben Vr den
Nutzern, gegebenenfalls auch den Partnern Pa, in grafischer Form präsentiert.
Verfahrensteil M23 a M2 zur Verbesserung einlaufender Texte T entsprechend den
zu berücksichtigenden grammatischen Daten Ws sieht allgemein vor, Texte T = T1,
denen gemäß Verfahrensteil M2 nur als grammatisch nicht ausreichend korrekt
definierte Nachrichten T1N ne T1Ng zuordenbar sind, in grammatisch korrekte
Texte T2 = Tg2 mit zugeordneten grammatisch korrekten Nachrichten T2Ng
anzuwandeln. Hierzu werden die Schwellwerte ps für die durch Textabschnitte Ts als
Adressen Ad mit Wahrscheinlichkeiten p(Gs/T) ge ps angezeigten Symbole Gs so
weit herabgesetzt, bis sich gemäß Verfahrensteil M21 a M2 Repertoires R(Gs) von
Symbolen Gs ergeben, die sich gemäß Verfahrensteil M22 a M2 mit ausreichend
hohen Wahrscheinlichkeiten p(Gs) zu entsprechend grammatisch korrekten Inhalten
Ng zusammenfügen lassen. Es werden zu erwartende Fehlerraten wie auch
Abweichungen von Textabschnitten T von ihren Normtexten Ta a Gt berücksichtigt.
Aufgrund von Autorenfehlern wie Aussprache-, Rechtschreib- oder Positionsfehlern
oder auch Fehlern der Zeichensetzung, Groß- und Kleinschreibung oder der Flexion
fehlerhaft eingesetzte Symbole Gs werden als Adressen Ad für weitere, gemäß den
Daten Ws verwendbare Symbole Gs eingesetzt. Gemäß Verfahrensteil M22 aus den
so erweiterten Repertoires R(Gs) von Symbolen Gs erzeugte korrekte grammatische
Inhalte Ng werden durch Normtexte Tsa a Vt der darin verwendeten Symbole Vt a G
zu grammatisch korrekten Nachrichten T2Ng ergänzt, deren Texte T2 a T2Ng als
Verbesserungen der eingegangenen Texte T1 ausgegeben werden. Bei
entsprechenden Vorgaben Vr1 werden in Analogform beispielsweise handschriftlich
oder mündlich abgefaßte Texte T1 in Texte T2 verbessert, die als Komplexe T2 = ZZ
von normgerechten Druckbuchstaben Z beziehungsweise Lautkombinationen
ausgegeben werden. Entsprechend den Vorgaben Vr werden vorgenommene
Verbesserungen den Partnern Pa oder auch Nutzern angezeigt.
Der sowohl die Funktion des Hörers Hr als auch Autors At umfassende
Verfahrensteil M3 von M zur Übertragung von in einer Ausgangssprache L
abgefaßten einlaufenden Texten T in bezüglich zugeordneter pragmatischer Inhalte F
ausreichend gleichbedeutende, Komplexen N'N' von zu bildenden Inhalten N'
zugeordnete Texte T' einer gemäß Vorgaben Vr1 festgelegten Zielsprache L'
gliedert sich in Verfahrensteile M31, M32 und M33, welche entsprechend den zu
leistenden Kommunikationsakten gemäß mehreren der nachfolgend angeführten
Ausbildungen durchgeführt werden:
Teil M31 a M3 sieht vor, unter Anwendung von Verfahrensteil M2 einen einlaufenden Text T aufzunehmen, zu speichern und diesem unter Beachtung der Wahrscheinlichkeiten p(N/T) ein disjunktes Repertoire R(TN,TN) eines oder mehrerer Komplexe Kp von grammatischen Nachrichten TN mit zugehörigen Sätzen S a TN der Ausgangssprache L zuzuordnen.
Teil M31 a M3 sieht vor, unter Anwendung von Verfahrensteil M2 einen einlaufenden Text T aufzunehmen, zu speichern und diesem unter Beachtung der Wahrscheinlichkeiten p(N/T) ein disjunktes Repertoire R(TN,TN) eines oder mehrerer Komplexe Kp von grammatischen Nachrichten TN mit zugehörigen Sätzen S a TN der Ausgangssprache L zuzuordnen.
Teil M32 a M3 liefert, unter Beachtung der Ergebnisse von Teil M31, der Daten Wst
von Ws und vorliegender Vorgaben Vr1, sowie unter Anwendung der
Verfahrensteile M1 und M2 die für die Durchführung von Teil M33 a M3 zugrunde
zu legenden Vorgaben Vr2. Den gemäß M31 a M3 gebildeten Sätzen S wie
gegebenenfalls auch Satzkomplexen SS wird jeweils ein Repertoire R(Vqq) von
Vokabeln Vqq, gegebenenfalls auch ein disjunktes Repertoire R(R(Vqq)) solcher
Repertoires R(Vqq) zugeordnet. Als Textsymbole Gt eingesetzte objektive Wörter Vt
a S der Sätze S werden als Adressen Ad für Vokabeln Vqq verwendet. Die Wörter Vt
a S eines einem Satz S zugeordneten Repertoires R(Vqq) werden unter Beachtung
der Anordnungen Pr ihrer Einheiten G a N eines Inhalts N vollständig einem
Komplex Kp = VqVq von Vokabeln Vq a Vqq der Ausgangssprache L wie
gegebenenfalls auch einer disjunkten Klasse Kl = (VqVq) hiervon, zugeordnet. Den
Vokabeln Vq eines Komplexes VqVq wird entsprechend den Vokabeln Vqq unter
Beachtung der Wahrscheinlichkeiten p(Vq'/Vq) jeweils ein Repertoire R(Vq'),
gegebenenfalls auch ein disjunktes Repertoire R(R(Vq')) hiervon, zugeordnet.
Verfahrensteil M33 von M3 sieht vor, aus den gemäß Verfahrensteil M32 als
Komponenten Em zu berücksichtigenden, den Repertoires R(Vq') zugeordneten
Symbolen Gt' a Vq' unter Anwendung der Verfahrensteile M21 und M22 und unter
Beachtung der Daten Ws' der Zielsprache L' eine disjunkte Klasse Kl = (Ks) von, als
Konkurrenzhypothesen Ks behandelten, jeweils aus einer oder mehreren Nachrichten
T'N' gebildeten Komplexen Kp = N'N',T'N' zu bilden und unter Beachtung der
Wahrscheinlichkeiten p(Ks) einen, einer ausreichend wahrscheinlichen Hypothese
Ks zugeordneten Text T' a T'N',T'N' wie entsprechend den Vorgaben Vr1 auch
mehrere, entsprechend als disjunkt gekennzeichnete Texte T' jeweils als
Übertragung des einlaufenden Textes T in die Zielsprache L' in den hierfür
vorgesehenen Medien an die Kommunikationspartner Pa herauszugeben. Teil M33
umfaßt mehrere der folgenden Maßnahmen: Den dem einlaufenden Text T
zugeordneten disjunkten Repertoires R(Vq') von Vokabeln Vq' wird jeweils ein
Komplex N'N', definitionsgemäß eines oder mehrerer, grammatischer Inhalte N' der
Sprache L' zugeordnet, wobei sämtliche Textsymbole Gt' a Vq' a R(Vq') in einem
Komplex S'S' der den Inhalten N' a N'N' zugeordneten Sätze S' a N' a N'N'
einfach Verwendung finden. Eine Übertragung T' wird als Permutation von diesen
Textsymbolen Gt' a S'S' zugeordneten Textabschnitten T' a Gt' erzeugt. Ein
Textabschnitt T' a Gt', also auch Ts' a Vt', wird als Permutation der Textabschnitte
Tr' a Z' der ein Symbol Gt', also auch Wort Vt' bildenden Zeichen S' a Gt'
beziehungsweise Z' a Vt' erzeugt. Als Textabschnitte T' a Gt' werden Normtexte
Ta' a Gt' verwendet. Jeder Nachricht TN der Ausgangssprache L wird eine
Nachricht T'N' der Zielsprache L' zugeordnet. Bei Beachtung Valenzen
übergreifender Bedingungen Wt werden einer Nachricht der einen Sprache auch
mehrere Nachrichten der anderen Sprache zugeordnet. Es werden korrekten
Nachrichten T'N'g zugeordnete Texte T' mit ausreichend hohen
Wahrscheinlichkeiten p(T'/N') verwendet. Gegebenenfalls anfallende nicht
ausreichend korrekte Nachrichten n(T'N'g) wie auch n(TNg) der Zielsprache L'
beziehungsweise Ausgangssprache L werden den Kommunikationspartnern Pa,
entsprechend den Vorgaben Vr1 auch den Nutzern, entsprechend gekennzeichnet
bekanntgegeben. Nicht ausreichend korrekte Nachrichten n(TNg) der
Ausgangssprache L werden unter Anwendung von Verfahrensteil M23 a M2 zu
korrekten Nachrichten TNg verbessert, falls entsprechende Vorgaben Vr1 vorliegen.
In einer Ausgestaltung der Erfindung wird Verfahrensteil M23 zur Verbesserung
einlaufender Texte T auch als Spezialfall des Verfahrensteils M3 betrachtet und
durchgeführt, wobei formal die Übertragung aus einer fehlerhaft gebrauchten
Ausgangssprache L in eine Zielsprache L' erfolgt, welche der normgerechten Form
dieser Sprache entspricht.
Entsprechend den vorzunehmenden Kommunikationsakten sieht Verfahrensteil M3
gegebenenfalls eine oder mehrere der folgenden Maßnahmen vor: Bei Übertragungen
vom Mündlichen ins Schriftliche wird definitionsgemäß die mündliche Version einer
von einer Sprachgemeinschaft X1 benutzten Sprache als Ausgangssprache L und
deren schriftliche Version als Zielsprache L' behandelt, bei Übertragungen vom
Schriftlichen ins Mündliche entsprechend umgekehrt. Bei den genannten
Übertragungen aus einer Sprache L in eine Zielsprache L', die über eine
Zentralsprache L" abgewickelt werden, wird Teil M3 zweimal für die Übertragungen
von L zu L' zu L" angewandt, wobei beim 2. Mal die Anwendung des Teils M31 und
eines Teils von M32 entfällt. Bei Übertragungen aus der mündlichen Version L einer
durch eine Sprachgemeinschaft X1 benutzten Sprache die mündliche oder schriftliche
Version L' einer anderen Sprachgemeinschaft X2 wird die schriftliche Version von
X1 als Zentralsprache L" eingesetzt.
In einer aufwandsparenden Ausgestaltung von Verfahrensteil M3 erfolgt die
Übertragung von normgerecht als Komplexe Kp = GtGt von Textsymbolen Gt wie
Zeichen Z oder natürlichen Wörtern oder auch objektiven Wörtern Vt abgefaßten
Texten T der schriftlichen Version L einer einer Sprachgemeinschaft X1
zugeordneten Sprache in die mündliche Version L' dieser Sprache dadurch, daß jedem
Textsymbol Gt der Schriftsprache L jeweils ein Textsymbol Gt' der mündlichen
Sprache L' zugeordnet wird und der als Übertragung einzusetzende Text T' als
Komplex Kp = Ta'Ta' einer Permutation von Normtexten Ta' a Gt' dieser Symbole Gt'
gebildet wird.
Die Erfindung sieht in einer weiteren Ausgestaltung vor, das erfindungsgemäße
Verfahren M zur Kommunikation in natürlichen Sprachen L mit einer
rechnergestützten Einrichtung durchzuführen, welche eine oder mehrere der
folgenden, durch eine oder mehrere Stromversorgungsanlagen versorgten, jeweils aus
einer oder mehreren Untereinheiten aufgebauten Einheiten umfaßt: Eine gemäß
Verfahren M programmierte zentrale Rechnereinheit zur Abwicklung der für die
Erstellung von Nachrichten TN, Texten T a TN wie auch weiterer Daten sowie für die
Ablauforganisation vorgesehenen Operationen. Eine gemäß den grammatischen
Daten Ws programmierte Speichereinheit zur Speicherung der hierfür zu
verwendenden Daten Ws der betreffenden Sprachen L, der erzielten Zwischen- und
Endergebnisse sowie der einlaufenden, als Evidenz behandelten Daten D
einschließlich Texten T und Vorgaben Vr. Eine Einheit zum Empfang einlaufender
und zur Ausgabe ausgehender Texte T einschließlich diesen gegebenenfalls
zugeordneter Nachrichten TN sowie Textmarkierungen wie gegebenenfalls weiterer
Daten D in den hierfür vorgesehenen Kodierungen und Medien, wobei der
Datenaustausch auch maschinelle Kommunikationspartner Pa wie gegebenenfalls
auch Nutzer mit einschließt. Eine Bedieneinheit zur Festlegung und Überwachung
von Betriebszuständen, zur Überwachung von Zwischen- und Endergebnissen, zur
Eingabe von Vorgaben Vr, gegebenenfalls auch zur Eingabe wie auch Abänderung
von Daten Ws und Verfahrensoperationen M. Diese Einheiten werden durch
Datenbusse verbunden, welche den Aufgaben angepaßte Bandbreiten aufweisen. In
unterschiedlichen Ausbildungen werden im Speicher auch RAM-Speicher (mit
"read only memory" verwendet. Es werden zur Speicherung der grammatischen Daten
Ws Speicher mit Einlesevorrichtungen verwendet, welche ein Einlesen wie auch eine
Ergänzung wie auch Korrektur der zu verwendenden Daten Ws ermöglicht. Es wird
eine Vorrichtung eingesetzt, deren Zentralrechner unter Verwendung von den Daten
Ws und Vorgehensweisen des Verfahrens M angepaßten kundenspezifischen
integrierten Schaltkreisen aufgebaut sind. Es wird in der Vorrichtung ein
entsprechend aus kundenspezifischen Schaltkreisen aufgebauter Speicher verwendet.
Es wird eine Vorrichtung eingesetzt, die aus einer, in einer Ausbildung auch stationär
aufgebauten, Zentraleinheit, welche den Zentralrechner und den Speicher umfaßt,
sowie aus mehreren, auch räumlich getrennt hiervon, in einer weiteren Ausbildung
auch mobil angeordneten, jeweils für einen oder mehrere Nutzer verfügbaren
Nutzereinheiten besteht, welche jeweils Bedieneinheiten sowie Empfangs- und
Ausgabeeinheiten umfassen, wobei die Nutzereinheiten mit der Zentraleinheit durch,
gegebenenfalls auch drahtlos auszuführende, Datenbusse verknüpft sind, deren
Bandbreiten den bei der Eingabe und Ausgabe von Texten T sowie bei der Bedienung
und weiteren Nutzung einschließlich der Übermittlung von Vorgaben Vr anfallenden,
vergleichsweise niedrigen Datenraten angepaßt sind. Diese Ausbildung hat den
Vorteil, daß eine vergleichsweise aufwendige Zentraleinheit einer größeren Anzahl
von Partnern Pa wie auch Nutzern zur Verfügung steht, die jeweils nur eine
aufwandsparend zu erstellende Nutzereinheit benötigen.
In einer weiteren Ausbildung werden zum Aufbau der Vorrichtung zur Durchführung
des Verfahrens M Parallelrechner verwendet, in welchen für die Erstellung der
grammatischen Nachrichten TN zu verwendende Symbole Gs durch entsprechend den
in den grammatischen Daten Ws hierfür angegebenen Bezügen parallel miteinander
zu vernetzende Rechenmodule repräsentiert werden.
DE 31 42 540 C2, DE 35 03 233 C2, DE 36 15 972 A1,
DE 36 16 011 A1, DE 30 32 664 C2, DE 31 51 106 A1,
DE 32 11 313 C2, DE 37 33 391 C2, DE 35 14 286 A1,
DE 37 10 507 A1, DE 37 11 348 A1, DE 41 35 261 C1,
DE 42 32 482 A1, DE 43 11 211 A1.
/ /1/ / Hermann Helbig, Künstliche Intelligenz und automatische
Wissensverarbeitung, Technik, Berlin (1991)
/ /2/ / John Lyons, Die Sprache, Beck, München (1992)
/ /3/ / Peter Hadfield, How to make a robot smile, New Scientist, S. 21 (16. Juli 1994)
/ /4/ / John Lyons, Einführung in die moderne Linguistik, Beck, München (1971)
/ /5/ / An instinct for language, New Scientist, S. 28, (25. Juni 1994)
/ /6/ / Steven Pinker, The Language Instinct, Morrow, New York (1994)
/ /7/ / John McCrone, Computers that listen, New Scientist, S. 30 (4. Dez. 1993)
/ /8/ / Klaus Dieter Linsmeier, Eine elektronische Schreibkraft, Frankfurter Allgemeine Zeitung (16. Dez. 1992)
/ /9/ / Jeanne Rubner, Dolmetscher im Taschenformat, Süddeutsche Zeitung, S. IX (3. Dez. 1992)
/ /10/ / Der Spiegel Nr. 49/1993, S. 240
/ /11/ / Michael Cross, World says 'no thanks' to Japanese Computer, New Scientist, S. 7 (6. Juni 1992)
/ /12/ / Edward O. Wilson, Sociobiology, Cambridge, Mass. und London (1975)
/ /13/ / Helmar Frank, Kybernetische Grundlagen der Pädagogik, Agis, Baden-Baden (1969)
/ /14/ / Terry Winograd, Fernando Flores, On "Understanding Computers and Cognition": A New Foundation for Design, Artificial Intelligence, Vol. 31, S. 250 (1987)
/ /15/ / John Haugeland, Artificial Intelligence: The Very Idea, MIT Press (1987)
/ /16/ / Stuart Katz, R. L. Gregory and others, The Wrong Picture of the Picture Theory of Perception, Vol. 12, S. 269 (1983)
/ /17/ / Peter Cheeseman, In Defence of Probability, Proc. of the 9th Internat. Joint Conf. on Artificial Intelligence, Los Angeles, Calif., S. 18 (Aug. 1985)
/ /18/ / Erwin Kreyszig, Statistische Methoden und ihre Anwendung, Vandenhoek und Ruprecht, Göttingen (1979)
/ /19/ / Dieter Zimmer, Payment may be made - Bezahlung kann sein gemacht, Die Zeit, Nr. 15 (5. April 1996)
/ /20/ / New Scientist, S. 53 (22. Okt. 1987)
/ /21/ / Hans Joachim Störig, Abenteuer Sprache, Humboldt (1992)
/ /22/ / Robert Matthews, Hard Maths? No Problem, New Scientist, S. 40 (28. Okt. 1995)
/ /23/ / G. Edward Barton, Robert C. Berwick, Eric Sven Ristad, Computational Complexity and Natural Language, MIT Press, Cambridge, Mass. (1987)
/ /24/ / Hadumod Bußmann, Lexikon der Sprachwissenschaft, Kröner, Stuttgart (1990)
/ /25/ / Wolfgang Wahlster, Verbmobil: Erkennung, Analyse, Transfer, Generierung und Synthese von Spontansprache, Spektrum der Wissenschaft, Dossier 4/97, S. 52 (1997)
/ /26/ / Frederic Bodmer, Die Sprachen der Welt, Parkland (1997)
/ /27/ / Peter Eisenmann, Grundriß der deutschen Grammatik, Band 1: Das Wort, Metzler, Stuttgart, Weimar (1998)
/ /2/ / John Lyons, Die Sprache, Beck, München (1992)
/ /3/ / Peter Hadfield, How to make a robot smile, New Scientist, S. 21 (16. Juli 1994)
/ /4/ / John Lyons, Einführung in die moderne Linguistik, Beck, München (1971)
/ /5/ / An instinct for language, New Scientist, S. 28, (25. Juni 1994)
/ /6/ / Steven Pinker, The Language Instinct, Morrow, New York (1994)
/ /7/ / John McCrone, Computers that listen, New Scientist, S. 30 (4. Dez. 1993)
/ /8/ / Klaus Dieter Linsmeier, Eine elektronische Schreibkraft, Frankfurter Allgemeine Zeitung (16. Dez. 1992)
/ /9/ / Jeanne Rubner, Dolmetscher im Taschenformat, Süddeutsche Zeitung, S. IX (3. Dez. 1992)
/ /10/ / Der Spiegel Nr. 49/1993, S. 240
/ /11/ / Michael Cross, World says 'no thanks' to Japanese Computer, New Scientist, S. 7 (6. Juni 1992)
/ /12/ / Edward O. Wilson, Sociobiology, Cambridge, Mass. und London (1975)
/ /13/ / Helmar Frank, Kybernetische Grundlagen der Pädagogik, Agis, Baden-Baden (1969)
/ /14/ / Terry Winograd, Fernando Flores, On "Understanding Computers and Cognition": A New Foundation for Design, Artificial Intelligence, Vol. 31, S. 250 (1987)
/ /15/ / John Haugeland, Artificial Intelligence: The Very Idea, MIT Press (1987)
/ /16/ / Stuart Katz, R. L. Gregory and others, The Wrong Picture of the Picture Theory of Perception, Vol. 12, S. 269 (1983)
/ /17/ / Peter Cheeseman, In Defence of Probability, Proc. of the 9th Internat. Joint Conf. on Artificial Intelligence, Los Angeles, Calif., S. 18 (Aug. 1985)
/ /18/ / Erwin Kreyszig, Statistische Methoden und ihre Anwendung, Vandenhoek und Ruprecht, Göttingen (1979)
/ /19/ / Dieter Zimmer, Payment may be made - Bezahlung kann sein gemacht, Die Zeit, Nr. 15 (5. April 1996)
/ /20/ / New Scientist, S. 53 (22. Okt. 1987)
/ /21/ / Hans Joachim Störig, Abenteuer Sprache, Humboldt (1992)
/ /22/ / Robert Matthews, Hard Maths? No Problem, New Scientist, S. 40 (28. Okt. 1995)
/ /23/ / G. Edward Barton, Robert C. Berwick, Eric Sven Ristad, Computational Complexity and Natural Language, MIT Press, Cambridge, Mass. (1987)
/ /24/ / Hadumod Bußmann, Lexikon der Sprachwissenschaft, Kröner, Stuttgart (1990)
/ /25/ / Wolfgang Wahlster, Verbmobil: Erkennung, Analyse, Transfer, Generierung und Synthese von Spontansprache, Spektrum der Wissenschaft, Dossier 4/97, S. 52 (1997)
/ /26/ / Frederic Bodmer, Die Sprachen der Welt, Parkland (1997)
/ /27/ / Peter Eisenmann, Grundriß der deutschen Grammatik, Band 1: Das Wort, Metzler, Stuttgart, Weimar (1998)
Claims (41)
1. Verfahren zu einer auf grammatische Inhalte bezogenen, rechnergestützten
Kommunikation in einer oder mehreren natürlichen Sprachen, bei dem
- 1. 1.1 die Kommunikation zwischen Kommunikationspartnern (Pa) unter Beachtung von von Nutzern eingebrachten Vorgaben (Vr) nach dem Verfahren zu einer auf grammatische Inhalte bezogenen Kommunikation (M) mittels Äußerungen durchgeführt wird, die von Autoren (At) aus Sprachsignalen der für die betreffenden natürlichen Sprachen (L) vorgesehenen Medien als Texte (T) mit Texteigenschaften (H(T)) gebildet werden, welche von den Empfängern (Hr) dieser Texte (T) ausgewertet werden, wobei die Texte (T) durch Zuordnung grammatischer Inhalte (N), denen semantische Inhalte (F) zugeordnet werden können, unter Berücksichtigung der Wahrscheinlichkeiten (p(TN)) ihres Auftretens, die auf als Evidenz vorliegende Daten (D) bezogen werden, zu grammatischen Nachrichten (TN) ergänzt werden, wobei diese Nachrichten (TN) als Komplexe (Kp(EmEm)) unter Berücksichtigung der Wahrscheinlichkeiten (p(EmEm)) ihres Auftretens aus Komponenten (Em) zusammengefügt werden, die
- 2. 1.2 Symbole (Gs) umfassen, die an die Sprachen (L) angepaßt sind und unter Einbeziehung der Wahrscheinlichkeiten (p(Gs)) ihres Auftretens durch grammatische Daten (Ws) beschrieben sind, wobei die Symbole (Gs) jeweils aus zu einer disjunkten Klasse (Kl = Gt) von Textabschnitten (T = Ts) mit innerhalb von Toleranzen (dH) liegenden Texteigenschaften (H(T)) superierten Textsymbolen (Gt = (Ts)) und zu jeweils einer disjunkten Klasse (Kl = Gr) solcher Textsymbole (Gt) superierten grammatischen Symbolen (Gr = (Gt)) gebildet werden, wobei die Symbole (Gr) jeweils ein Repertoire (R(Pr)) von durch Wahrscheinlichkeiten (p) näher bestimmten Möglichkeiten ihrer Anordnungen (Pr) in den grammatischen Nachrichten (TN) vorgeben, die durch Rangordnungen (Ra) und Positionen (P) der Textabschnitte (Ts) der den Symbolen (Gr) zugeordneten Textsymbole (Gt) in Texten (T) festgelegt werden, wobei
- 3. 1.3 die grammatischen Nachrichten (TN) unter Berücksichtigung von Vorgaben (Vr) und als Evidenz vorliegenden Daten (D) jeweils dadurch erzeugt werden, daß grammatische Symbole (Gr) nach den Möglichkeiten ihrer Anordnungen (Pr) zu einem Hintergrund (E) zusammengefügt werden, der durch eine Permutation von den Symbolen (Gr) zugeordneten Symbolen (Gt) zu einem grammatischen Inhalt (N) ergänzt wird, wobei die Textsymbole (Gt) nach den Anordnungen (Pr) zu einem Satz (S) zusammengefügt werden, und der grammatische Inhalt (N) durch einen in der Kommunikation eingesetzten Text (T), der aus einer Permutation von den Symbolen (Gt) zugeordneten und an durch die Anordnungen (Pr) bestimmten Positionen (P) angeordneten Textabschnitten (Ts) zusammengefügt wird, zur Nachricht (TN) ergänzt wird, wobei
- 4. 1.4 die Kommunikation mittels Einrichtungen durchgeführt wird, die aus einer oder mehreren, durch Datenbusse verbundenen Einheiten zusammengesetzt sind, welche eine programmierte zentrale Recheneinheit, eine Speichereinheit, eine Schnittstelleneinheit und eine Bedieneinheit umfassen, wobei die für die betreffenden Sprachen (L) verwendeten grammatischen Daten (Ws), die zu berücksichtigenden Vorgaben (Vr) sowie als Evidenz festgestellte Daten (D) und errechnete Zwischen- und Endergebnisse einschließlich Texte (T) und Nachrichten (TN) in der Speichereinheit gespeichert werden und die Übertragung der den Texten (T), Vorgaben (Vr) und Daten (D) entsprechenden Signale sowie für die Texte (T) benutzten Markierungen und weiterer bei der Kommunikation ausgetauschter Signale über die Schnittstelle und einen an die bei der Kommunikation (M) anfallenden Datenraten angepaßten Datenbus erfolgt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zur Bildung der
grammatischen Nachrichten (TN) als Textsymbole (Gt) objektive Wörter (Vt)
und als grammatische Symbole (Gr) zu bestimmten disjunkten Klassen (Kl)
solcher Wörter (Vt) superierte Einheiten (G) verwendet werden, die dadurch an
die betreffenden Sprachen (L) angepaßt sind, daß sie den statistisch bewerteten
Ergebnissen von an Texten (T) dieser Sprachen (L) durchzuführenden
Beobachtungen bestimmter Invarianzen (I) entsprechen, welche Texte
(T) vorgegebener Repertoires (R(T)) bezüglich ihnen zugeordneter semantischer Inhalte
(F) aufweisen, von denen eine Invarianz (I1) fordert, daß Texte (T) bezüglich ihnen
zugeordneter Inhalte (F) als ausreichend zulässig eingestuft werden, eine weitere
Invarianz (I2) fordert, daß Texte (T) Invarianz (I1) genügen und als ausreichend gleich
eingestufte Inhalte (F) anzeigen und eine dritte Invarianz (I3) fordert, daß Texte (T)
Invarianz (I1) genügen und bestimmte darin vorkommende gleichlautende Texte (T)
jeweils als ausreichend gleich eingestufte Inhalte (F) anzeigen.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die grammatischen
Nachrichten (TN) unter Verwendung objektiver Wörter (Vt) und Einheiten (G) gebildet
werden, die den Ergebnissen von Beobachtungen der Invarianzen (I) bei einer bestimmten
Gruppe von Transformationen (Q) an Texten (T) von Repertoires (R(T)) genügen, wonach
jeweils ein Text (T = Tb) aus einem Text (Ta) durch Entfernen oder Hinzufügen eines,
gemäß einer Bedingung (Ib) kürzestmöglichen, gegebenenfalls auch disjunkt durch
weitere Textabschnitte (T) getrennten, an Positionen (P) angeordneten Textabschnitts (Tt)
erzeugt wird und dessen Zuordnung als Element (El = Ts) eines objektiven Wortes
(Vt = (Ts)), dessen Zuordnung als Element (El) zu einer Einheit (G = (Vt)) sowie die
Festlegung des einer Einheit (G) jeweils zugeordneten Repertoires (R(Pr)) von
Möglichkeiten ihrer Anordnungen (Pr) aufgrund von gemäß den Transformationen (Q) an
bestimmten Paaren von Texten (T) zu beobachtenden Einhaltungen oder Verletzungen
einer oder mehrerer der Invarianzen (I) erfolgt, wobei eine Vollständigkeitsbedingung (Ia)
nicht verletzt wird, wonach die Ergebnisse der Transformationen (Q) für eine Einheit (G)
bei sämtlichen grammatischen Nachrichten (TN) gelten, in denen diese Einheit (G)
entsprechend den Möglichkeiten ihrer Anordnung (Pr) vorkommt und aufgrund von
Texteigenschaften (H(Ts)) mit Toleranzen (dH) eines Textabschnitts (Ts a Vt a G) im
Text (T a TN) nachweisbar ist.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für die bei einer
mehrsprachigen Kommunikation vorzunehmende Übertragung von Texten (T) einer
Ausgangssprache (L) in, bezüglich diesen zuzuordnender semantischer Inhalte (F) und
(F') ausreichend gleichbedeutende, Texte (T') einer durch Vorgaben (Vr) festgelegten
Zielsprache (L') als weitere Komponenten (Em), in Datensammlungen (Wst) der Daten
(Ws) der Sprache (L) geordnet aufgeführte, Vokabeln (Vqq) verwendet werden, durch
welche jeweils einem Symbolkomplex (Vq = GtGt) von Textsymbolen (Gt) der Sprache
(L) ein disjunktes Repertoire (R(Vq')) von Symbolkomplexen (Vq' = Gt'Gt') der Sprache
(L') mit, unter Beachtung der Anordnungen (Pr) der den Symbolen (Gt) und (Gt')
zugeordneten Symbole (Gr) und (Gr') gebildeten, Wahrscheinlichkeiten (p(Vq'/Vq))
zugeordnet wird.
5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß Übertragungen von
Texten (T) einer Ausgangssprache (L) in Texte T' einer Zielsprache (L') unter
Verwendung von Vokabeln (Vqq) durchgeführt werden, durch welche jeweils einem, in
Nachrichten (TN) als Komponente (Em) eingesetzten Komplex (Vq = VtVt) von unter
Beachtung ihrer Anordnungen (Pr) zusammengefügten objektiven Wörtern (Vt) der
Sprache (L) unter Beachtung der Wahrscheinlichkeiten (p(Vq'/Vq) eine disjunkte Klasse
(KL = (Vq')) solcher als Komponenten (Em) in Nachrichten (T'N') eingesetzter
Komplexe (Vq') von Wörtern (Vt') der Sprache (L') zugeordnet wird, wobei die
Vokabeln (Vqq) den Ergebnissen von, unter Beachtung der Vollständigkeitsbedingung
(Ia) und Bedingung (Ib) vorzunehmenden, Beobachtungen der Invarianzen (I) bei einer
bestimmten Gruppe von Transformationen (Q) genügen, welche an einem Korpus (C) von
Texten (T) und einem Korpus (C') von Texten (T') durchgeführt werden, die jeweils eine
oder auch mehrere alternativ zulässige Übersetzungen der Texte (T a C) darstellen, wobei
Invarianzen (I) zu beobachten sind, wonach sowohl einem Text (Ta) und seiner
Übersetzung (Ta') wie auch dem durch Kürzung um einen einer Vokabel (Vq a Vqq)
zuzuordnenden Textteil (Tt a Vq) erzeugten Text (Tb) und durch entsprechende Kürzung
von Text (Ta') um einen dieser Vokabel (Vqq) zuzuordnenden Textteil (Tt' a Vq')
erzeugten Text (Tb') jeweils als ausreichend gleich beurteilte semantische Inhalte
(F = Fa = Fa') und (F = Fb = Fb') zuzuordnen sind.
6. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß als Komponenten (Em)
der grammatischen Nachrichten (TN) zu disjunkten Klassen (Kl = Vt)) von objektiven
Wörtern (Vt) superierte Einheiten (G) verwendet werden, deren Möglichkeiten der
Anordnungen (Pr) in den Nachrichten (TN) durch Valenzen (Um) geregelt werden,
welche Beziehungen (Wtu) genügen, wonach für eine Valenz Um11.1 einer Einheit (G11)
gemäß einer Beziehung (Wt1) eine einen Referenzwert (pr1) nicht unterschreitende
Wahrscheinlichkeit (p((G2v)/G11; P2vz) für eine Komplexbildung von (G11) mit einer
Einheit (G2v) aus einer disjunkten Klasse ((G2v)) unter Beachtung der Position (P2vz)
gilt, wonach gemäß einer weiteren Beziehung (Wt2) eine Wahrscheinlichkeit
(p((Gw)/G11; Pw) unterhalb eines nahe null liegenden Schwellwertes (ps2) für eine
Komplexbildung von (G11) mit einer nicht der Klasse ((G2v) angehörigen Einheit (Gw)
aus einer disjunkten Klasse ((Gw)) gilt, und wonach gemäß einer weiteren Bedingung
(Wt3) eine Wahrscheinlichkeit (p((G2v)/G11; P2vz; G2vG11)) ebenfalls unterhalb des
Schwellwertes (ps2) für eine Komplexbildung von (G11) mit einer weiteren Einheit (G2v)
über Valenz (Um11.1) gilt, wenn diese bereits durch eine Komplexbildung (G2vG11) mit
einer Einheit (G2v) gesättigt ist, wobei gemäß einer zusätzlichen Beziehung (Wt4) eine
solche Valenz (Um11.1) als selbständige Valenz (Ums) gilt, falls eine, einen nahe null
liegenden Schwellwert (ps4) nicht unterschreitende, Wahrscheinlichkeit (p(n(G2v)/G11))
dafür gilt, daß in einer Nachricht (TN) keine Komplexbildung von (G11) über Valenz
(Um11.1) mit einer Einheit (G2v) vorliegt, dagegen als unselbständige Valenz Umn, wenn
die Wahrscheinlichkeit hierfür den Schwellwert (ps4) unterschreitet, und wobei
Schwellwerte (ps4) so festgelegt werden, daß die in einer Sprache (L) verwendeten
grammatischen Symbole (Gr) selbständige Einheiten (G) mit einschließen, welche keine
unselbständigen Valenzen (Umn) aufweisen.
7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß
die grammatischen Nachrichten (TN) unter Verwendung eines an die betreffenden
natürlichen Sprachen (L) und die hierfür vorgesehenen Medien angepaßten Repertoires
(R1(Gt1)) von jeweils eine disjunkte Klasse (Kl) von Textabschnitten (Ts) umfassenden
Textsymbolen (Gt1 = (Ts)) aufgebaut werden, welche als Komplexe (Gt11 = ZZ) von, als
weitere Textsymbole (Gt2 = Z) eingesetzten, Zeichen (Z) eines Repertoires (R2(Z))
zusammengefügt werden, die jeweils so als disjunkte Klassen (Z == (Tr)) von, einem
Zeichen (Z) mit ausreichend hohen Wahrscheinlichkeiten (p(Tr/Z)) zugeordneten, einem
Komplex (Kp) von innerhalb Toleranzen (dH) liegenden Textmerkmalen (H(T))
genügenden Textteilen (Tr) festgelegt werden, daß sie in, auf eine Länge zwischen den
durchschnittlichen Längen der Textteile (Ts) und (Tr) normierten, Textabschnitten (Tn)
mit ausreichend hohen Informationswerten (h(Z/Tn) g hs) oberhalb eines festzulegenden
Schwellwertes (hs) vorkommen, wobei der Text (Ts a Gt1) eines Textsymbols (Gt1) als
Komplex (Kp) einer Permutation von den Zeichen (Z a Gt1) dieses Symbols (Gt1) unter
Beachtung ihrer Positionen (P) zugeordneten Textabschnitten (Tr a Z) gebildet und ein
Repertoire (R2(Z)) von Zeichen (Z) für eine oder mehrere Sprachen (L) eingesetzt wird,
und wobei als Merkmale H(T) Teile von Textsignalen (T) wie auch hieraus ableitbare
Merkmale unter Beachtung von Elementen der Prosodie wie auch von Hinweisen auf
Schrifttextabwandlungen, Abgrenzungen, Abstände, Zusammenziehungen,
Interpunktionen wie auch der Groß- und Kleinschreibung berücksichtigt werden.
8. Verfahren nach einem oder mehreren der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß
die Kommunikation mittels ausgehender Texte (T) durchgeführt wird, welche zu
grammatisch korrekten Nachrichten (TN = TNg) ergänzt werden, die einer Bedingung
(Bs) genügen, wonach jeder der zu einer korrekten Nachricht (TNg) zusammengefügten
Komponenten (Em) eine ausreichend hohe, gegebenenfalls auch durch weitere
Komponenten (Em) dieser Nachricht (TNg) bedingte Wahrscheinlichkeit (p(Em))
oberhalb eines bestimmten, den Gegebenheiten des betreffenden Kommunikationsaktes
angepaßten Schwellwertes (ps) zukommt.
9. Verfahren nach einem oder mehreren der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß
die unter Beachtung der Wahrscheinlichkeit (p(TN)) vorzunehmende Komplexbildung
von grammatischen Nachrichten (TN) aus Komponenten (Em), welche gemäß, als
Evidenz vorliegenden, Daten (D) durch Adressen (Ad) wie auch Vorgaben (Vr) mit
ausreichend hohen Wahrscheinlichkeiten (p(Em)) oberhalb Schwellwerten (ps) in Form
disjunkter Repertoires (R(Em)) angezeigt werden, unter Berücksichtigung hierfür in den
Daten (Ws) vorliegender Wahrscheinlichkeiten t(Em)) gemäß dem Bayesschen Ansatz
(Ba) durchgeführt wird, wonach die in den zu durchlaufenden Superierungsstufen
anfallenden disjunkten Komplexe (Kp = EmEm) als jeweils einer disjunkten Klasse (Kl =
(Ks)) zugeordnete Konkurrenzhypothesen (Ks) entsprechend ihren, auf die Daten (D)
bezogenen, Wahrscheinlichkeiten (p(Ks)) berücksichtigt werden, wobei in den
Hypothesen (Ks) berücksichtigte Komponenten (Em) ebenfalls als Adressen (Ad) für
weitere, gegebenenfalls auch disjunkt zu verwendende Komponenten (Em) eingesetzt
werden.
10. Verfahren nach einem oder mehreren der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß
die bei der als Komplexe (Kp) aus Komponenten (Em) zu bildenden Nachrichten (TN),
auch als Zwischenergebnisse anfallenden, Konkurrenzhypothesen (Ks a (Ks))
entsprechend Wahrscheinlichkeiten (p(Ks)) berücksichtigt werden, welche unter
Anwendung nichtlinearer Verarbeitungsprozesse (Bb) ermittelt werden, wonach
Komponenten (Em) mit Wahrscheinlichkeiten (p(Em)) unterhalb festzulegender
Schwellwerte (ps) sowie aus weiteren Komponenten (Em) gebildete Komplexe (Kp) mit
Wahrscheinlichkeiten (p(Kp)) unterhalb weiterer Schwellwerte (ps) vernachlässigt werden
und die Wahrscheinlichkeitssummen (Ca) für die nicht vernachlässigten
Konkurrenzhypothesen (Ks) ihrer disjunkten Klasse ((Ks)) berücksichtigt werden.
11. Verfahren nach einem oder mehreren der Ansprüche 1 bis 10, dadurch gekennzeichnet,
daß für jeweils eine disjunkte Klasse ((Ks)) von Konkurrenzhypothesen (Ks) ein
Schwellwert (ps1) auf einen bestimmten, der Leistungsfähigkeit der verfügbaren
Vorrichtungen angepaßten Bruchteil unterhalb der höchsten in der betreffenden Klasse
((Ks)) anfallenden Wahrscheinlichkeit (p(Ks)) festgelegt wird, wobei ein bestimmter, an
die Gegebenheiten der betreffenden Sprachen (L) angepaßter Mindestwert (ps2) nicht
unterschritten wird.
12. Verfahren nach einem oder mehreren der Ansprüche 1 bis 11, dadurch gekennzeichnet,
daß die Komplexbildung von Konkurrenzhypothesen (Ks) aus Komponenten (Em) in
mehreren Zyklen erfolgt, wonach für einen ersten Zyklus festgelegte Schwellwerte (ps1)
für die Wahrscheinlichkeiten (p(Ks)) wie gemäß Bedingung (Bs) festgelegte
Schwellwerte (ps = ps1) für die Wahrscheinlichkeiten (p(Em) in Stufen so oft bis hinab zu
Minimalwerten (ps2) abgesenkt werden, bis, gegebenenfalls auch unter Berücksichtigung
von in vorangegangenen Zyklen zunächst vernachlässigten Zwischenergebnissen (Ks)
beziehungsweise Komponenten (Em), gegebenenfalls eine Hypothese (Ks) als
Endergebnis erzielt wird, deren Komponenten (Em) Wahrscheinlichkeiten (p(Em))
oberhalb der Minimalwerte (ps2) zukommen.
13. Verfahren nach einem oder mehreren der Ansprüche 1 bis 12, dadurch gekennzeichnet,
daß die grammatischen Nachrichten (TN) aus disjunkten Repertoires (R(Em))
zugeordneten Komponenten (Em) gebildet werden, welche gemäß Daten (Ws) mit, die
Anordnungen (Pr) berücksichtigenden, Wahrscheinlichkeiten (p(Em/Ad; Pr)) oberhalb
festzulegender Schwellwerte (ps) durch jeweils eine oder mehrere Adressen (Ad)
angezeigt werden, die in vorliegenden Daten (D) einschließlich Vorgaben (Vr) anzutreffen
sind oder mit ausreichend hohen Wahrscheinlichkeiten (p(Ad/D)) oberhalb von
Schwellwerten (ps) angezeigt werden, wobei zur Anzeige von als Komponenten (Em)
einzusetzenden Symbolen (Gs1), welche klassenbildende Superierungen (Gs1 = (Gs2))
oder komplexbildende Superierungen (Gs1 = Gs2Gs2) von Symbolen (Gs2) einer
niedrigeren Superierungshierarchie darstellen, Elemente (El = Gs2) beziehungsweise
Komponenten (Em = Gs2) wie auch aus solchen Komponenten (Em) gebildete Komplexe
(Kp = Gs2Gs2) als Adressen (Ad) verwendet werden, und wobei Daten (Ws) eingesetzt
werden, in denen die Symbole (Gs1) einer Superierungshierarchie jeweils in einer Liste
(Wsi) geordnet nach einem alphabetisch geordneten Repertoire (R(Ad)) der ihnen
zugeordneten Adressen (Ad) aufgeführt sind.
14. Verfahren nach einem oder mehreren der Ansprüche 1 bis 13, dadurch gekennzeichnet,
daß die Nachrichten (TN) unter Beachtung von Daten (Ws) gebildet werden, in denen die
Symbole (Gs1) jeweils einer Superierungshierarchie geordnet nach Adressen (Ad) in
mehreren Listen (Wsi) aufgeführt sind, welche sich durch die Bereiche der von ihnen
abgedeckten Wahrscheinlichkeiten (p(Gs1/Ad)) voneinander unterscheiden, wobei die
Listen (Wsi) für die Auswahl der aufgrund vorliegender Adressen (Ad) in den
Konkurrenzhypothesen (Ks) zu berücksichtigenden Symbole (Gs1) in einer Reihenfolge
nach fallenden Wahrscheinlichkeiten (p(Gs1/Ad)) herangezogen werden.
15. Verfahren nach einem oder mehreren der Ansprüche 1 bis 14, dadurch gekennzeichnet,
daß als Komponenten (Em = Gt) grammatischer Nachrichten (TN) als Komplexe (Kp)
von Zeichen (Z) eines Repertoires (R1(Z)) gebildete Textsymbole (Gt = ZZa) verwendet
werden, die jeweils durch eine oder mehrere als Komplexe (Kp = ZZ1) von Zeichen
(Z a ZZa) gebildete Adressen (Ad) angezeigt werden, wobei Möglichkeiten dafür, daß
solche Symbole (Gt) in einlaufenden Texten (T) durch von ihren Norm-
Zeichenkomplexen (ZZa) abweichende Komplexe (ZZb) repräsentiert werden, dadurch
berücksichtigt werden, daß den Erzeugungsregeln (Gte) für die jeweils disjunkt einem
oder gegebenenfalls nicht disjunkt auch mehreren Symbolen (Gt) mit
Wahrscheinlichkeiten (p/(Z/Gt; P)) an Positionen (P) mit Toleranzen (dP) zuzuordnenden
Zeichen (Z) Fehlergeneratoren (Gf) beigeordnet werden, welche mit an die betreffenden
Kommunikationsakte angepaßten Wahrscheinlichkeiten (p(Z/Gf; P)) stochastisch an
Positionen (P) gemäß den Regeln (Gte) erwartete Zeichen (Z) entfernen oder diese durch
andere Zeichen (Z) ersetzen oder auch weitere Zeichen (Z) einfügen, wodurch die im
Bayesschen Ansatz (Ba) zu berücksichtigenden Wahrscheinlichkeiten (p(ZZ/Gt; P)) von
den Erzeugungsregeln (Gte) entsprechenden Werten (p(ZZa/Gt; P)) auf realistische, den
Zeichenkomplexen (ZZ) der einlaufenden Texte (T) entsprechende, im Ansatz (Ba) zu
verwendende Werte (p(ZZb/Gt; P)) abgewandelt werden.
16. Verfahren nach einem oder mehreren der Ansprüche 1 bis 15, dadurch gekennzeichnet,
daß in Ansatz (Ba) Wahrscheinlichkeiten (p(ZZb/Gt; P) = 1 - pa) für die Zuordnung von
vorliegenden, gegebenenfalls auch von Normkomplexen (Gt = ZZa) abweichenden
Zeichenkomplexen (ZZb) eingesetzt werden, worin (pa) als Produkt der
Wahrscheinlichkeiten (p(Z)) dafür gebildet wird, daß an Positionen (P) anzutreffende
Zeichen (Z a ZZb) zufällig vorliegen.
17. Verfahren nach einem oder mehreren der Ansprüche 1 bis 16, dadurch gekennzeichnet,
daß die bei der Kommunikation einzusetzenden grammatischen Nachrichten (TN) aus
Komponenten (Em) und Komplexen (Kp) hiervon gebildet werden, deren quantitativ zu
berücksichtigende Eigenschaften (H(Em)) einschließlich Wahrscheinlichkeiten (p),
Informationen (j), Informationswerten (h), Texteigenschaften (H(T)) und Abständen (a)
der Positionsangaben (P = P(a)) sowie die hierfür festzulegenden Toleranzen,
Schwellwerte und Referenzwerte so den Gegebenheiten der betreffenden Sprachen (L),
der durchzuführenden Kommunikationsakte und daran beteiligten
Kommunikationspartner (Pa) sowie der verfügbaren Vorrichtungen angepaßt werden, daß
die Kommunikationsakte mit vertretbarem Aufwand, akzeptablen Fehlerraten und in
vertretbaren Bearbeitungszeiten durchführbar werden.
18. Verfahren nach einem oder mehreren der Ansprüche 1 bis 17, dadurch gekennzeichnet,
daß die Erzeugung der den grammatischen Nachrichten (TN) zugeordneten Inhalte (N)
aus durch die Daten (Ws) beschriebenen Symbolen (Gs) unter Verwendung eines
Repertoires R(Z) von Zeichen (Z) durchgeführt wird, welches Operatoren (o) umfaßt,
welche in den Nachrichten (TN) bestimmte Abänderungen an bestimmten, ihnen gemäß
ihren Positionen (P) zugeordneten Zeichen (Z) und deren Textabschnitten (Tr a Z)
bewirken, wobei bestimmte Operatoren (o) entsprechend den Gegebenheiten der
betreffenden Sprachen (L) in den Nachrichten (TN) ebenfalls abgeändert werden und
gegebenenfalls auch verschwinden.
19. Verfahren nach einem oder mehreren der Ansprüche 1 bis 18, dadurch gekennzeichnet,
daß die grammatischen Nachrichten (TN) unter Verwendung von Textsymbolen (Gt)
erzeugt werden, die als Klassen (Kl = Gt = ZZa) von Norm-Zeichenkomplexen (ZZa) von
Zeichen (Z) gebildet werden, deren Merkmale H(T) mit Toleranzen (dT) den Schreib-
beziehungsweise Sprachgewohnheiten der als Nutzer des Verfahrens (M) auftretenden
Autoren (At) unter Berücksichtigung von, von diesen Autoren (At) zu gegebenen Sätzen
(S) grammatischer Nachrichten (TN) verfaßten, Texten (T) angepaßt werden.
20. Verfahren nach einem oder mehreren der Ansprüche 1 bis 19, dadurch gekennzeichnet,
daß die durch das Vorliegen eines durch Superierung von Symbolen Gs2 gebildeten
Symbols Gs1 bedingten Wahrscheinlichkeiten (p(Gs2/Gs1)) für das Vorliegen dieser
Symbole (Gs2) nach dem Prinzip maximaler Entropie festgelegt werden.
21. Verfahren nach einem oder mehreren der Ansprüche 1 bis 20, dadurch gekennzeichnet,
daß in Anpassung an die betreffenden Sprachen (L) die grammatischen Inhalte (N) unter
Verwendung von den Daten (Ws) zugeordneten Einheiten (G = G2 = (Vt2))
zusammengefügt werden, welche als komplexbildende Superierungen (G2 = g1g1) von
Teileinheiten (g1 = (vt1)) formuliert und deren objektive Wörter (Vt2 a G2) als
Permutationen Vt2 = vt1vt1 von den Teileinheiten g1 zugeordneten, gegebenenfalls in den
Nachrichten (TN) auch diskontinuierlich angeordneten Teilwörtern (vt1 a g1) gebildet
werden, wobei als Teileinheiten (g1) entsprechend den Gegebenheiten der Sprachen (L)
auch in den Daten (Ws) angeführte Einheiten (G1) Verwendung finden, und bei deren
Komplexbildungen zu Einheiten (G2) die Valenzen (Um) dieser Einheiten (G1)
einschließlich deren durch die Komplexbildung zu (G2) bedingter Sättigung
berücksichtigt werden.
22. Verfahren nach einem oder mehreren der Ansprüche 1 bis 21, dadurch gekennzeichnet,
daß als Komponenten (Em) der grammatischen Nachrichten (TN) Idiome verwendet
werden, bei denen die Gegebenheiten der Sprachen (L) dadurch berücksichtigt werden,
daß häufig mit Wahrscheinlichkeiten (p) oberhalb von Schwellwerten (ps) in
grammatischen Inhalten (N) auftretende Komplexe (Vt1Vt1) von objektiven Wörtern
(Vt1 a Gt1) unter Berücksichtigung der Valenzen (Um) der zugehörigen Einheiten (G1)
als eigene Textsymbole (Vt1Vt1 = (Vt2 a G2)) jeweils einer eigenen Einheit (G2)
eingesetzt werden.
23. Verfahren nach einem oder mehreren der Ansprüche 1 bis 22, dadurch gekennzeichnet,
daß die Kommunikation in Schriftsprachen (L) mit Texten (T) durchgeführt wird, deren
Rechtschreibregeln unter Beachtung ihrer den Transformationen (Q) entsprechenden
Aufteilung in, Einheiten (G) zuordenbaren, objektiven Wörtern (Vt) unter
Berücksichtigung von Idiomen reformiert werden.
24. Verfahren nach einem oder mehreren der Ansprüche 1 bis 23, dadurch gekennzeichnet,
daß in vorliegenden Daten (D) anzutreffende Zeichenkomplexe ZZ1, welche eine
Flexionsform oder auch einen Wortstamm eines einem objektiven Wort (Vtxy = Vt11)
zugeordneten natürlichen Wortes (A1) repräsentieren, als Adresse (Ad) für weitere
objektive Wörter (Vtxy) eingesetzt werden, welche weitere Flexionsformen dieses
natürlichen Wortes (A1) umfassen.
25. Verfahren nach einem oder mehreren der Ansprüche 1 bis 24, dadurch gekennzeichnet,
daß die in der Rolle eines Autors (At) vorzunehmende Übermittlung eines einer
grammatischen Nachricht (TN) zuordenbaren Textes (T) an Kommunikationspartner (Pa)
gemäß einem Verfahrensteil (M1) des Verfahrens (M) durchgeführt wird, wonach in
einem Verfahrensteil (M11) von (M1) beim betreffenden Kommunikationsakt anfallende
Daten (D) einschließlich Vorgaben (Vr) aufgenommen und gespeichert und hierdurch,
gegebenenfalls auch über Adressen (Ad) angezeigte Komponenten (Em) zu entsprechend
zu berücksichtigenden Repertoires R(Em) von Komponenten (Em) mit
Entnahmebedingungen (Ve) zusammengestellt und gespeichert werden, welche in einem
Verfahrensteil (M12) von (M1) unter Beachtung der Daten (Ws) zu einem disjunkten
Repertoire (R(Kpx)) von Komplexen (Kpx = TN,TN) von jeweils einer oder mehreren, als
Konkurrenzhypothesen (Ks) behandelten grammatischen Nachrichten (TN)
zusammengefügt werden, von denen ein einem mit ausreichender Wahrscheinlichkeit
(p(Kp1)) gebildeten Komplex (Kp1 a R(Kpx)) zugeordneter Text (T a Kp1), bei
entsprechenden Vorgaben (Vr) auch mehrere, entsprechend als disjunkt markierte Texte
(T a Kpx), in dem hierfür vorgesehenen Medium an die Kommunikationspartner (Pa)
ausgegeben werden.
26. Verfahren nach einem oder mehreren der Ansprüche 1 bis 25, dadurch gekennzeichnet,
daß gemäß Verfahrensteil (M1) von (M) als Konkurrenzhypothesen (Ks) erzeugte
grammatische Nachrichten (TN) mit ihren Wahrscheinlichkeiten (p(Ks)) entsprechend
vorliegenden Vorgaben (Vr) den Nutzern des Verfahrens (M) angezeigt werden.
27. Verfahren nach einem oder mehreren der Ansprüche 1 bis 26, dadurch gekennzeichnet,
daß die in der Rolle des Empfängers (Hr) vorzunehmende Ergänzung eines einlaufenden
Textes (T) zu einem Komplex (Kp1 = TN,TN) einer oder mehrerer grammatischer
Nachrichten (TN) gemäß einem Verfahrensteil (M2) des Verfahrens (M) durchgeführt
wird, wonach in einem unter Anwendung des Verfahrensteils (M11) von (M1)
durchzuführenden Verfahrensteil (M21) von (M2) die beim Kommunikationsakt
anfallenden Daten (D) einschließlich des einlaufenden Textes (T) sowie der Vorgaben
(Vr) aufgenommen und gespeichert und durch die zu identifizierenden Adressen (Ad)
angezeigte Repertoires (R(Em)) von zu berücksichtigenden Komponenten (Em) mit
Entnahmebedingungen (Ve) festgelegt werden, und wonach in einem unter Anwendung
des Verfahrensteils (M12) von (M1) durchzuführenden Verfahrensteil (M22) von (M2)
aus diesen Komponenten (Em) unter Beachtung der Wahrscheinlichkeiten (p(Ks)) ein
disjunktes Repertoires (R(Kpx)) von, als Konkurrenzhypothesen (Ks) zu behandelnden,
Komplexen (Kpx = TN,TN) jeweils einer oder mehrerer grammatischer Nachrichten (TN)
mit grammatischen Inhalten (N) gebildet wird, wobei Textmerkmale (H(T)) und Symbole
(Gs) einer niedrigeren Superierungshierarchie wie auch hieraus gebildete Komplexe (Kp)
als Adressen (Ad) für, als weitere Komponenten (Em) zu berücksichtigende, Symbole
(Gs) der jeweils nächsthöheren Superierungshierarchie eingesetzt werden, denen sie
angehören können, und wobei eine oder bei entsprechenden Vorgaben (Vr) auch mehrere,
entsprechend als disjunkt markierte, mit ausreichender Wahrscheinlichkeit (p(Ks))
gebildete Konkurrenzhypothesen (Ks) einer durch die Vorgaben (Vr) festgelegten
weiteren Verwendung zugeführt werden.
28. Verfahren nach einem oder mehreren der Ansprüche 1 bis 27, dadurch gekennzeichnet,
daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung von als Komplexe (Kp =
ZZ1) von Zeichen (Z) gebildeten Textsymbolen (Gt = Gt1) einschließlich objektiver
Wörter (Vt) und Teilwörter (vt) zu gegebenenfalls auch fortlaufend geäußerten
einlaufenden Texten (T) unter Berücksichtigung von Textabschnitten (T1 a T) erfolgt,
deren Mindestumfang dadurch festgelegt wird, daß die Menge der durch (T1) jeweils
angezeigten Zeichen (Z) einschließlich der die betreffenden Textsymbole (Gt1)
anzeigenden Adressen (Ad) den Umfang der gemäß den Daten (Ws) solchen Symbolen
(Gt1) zuzuordnenden Komplexe (ZZ1) übertrifft.
29. Verfahren nach einem oder mehreren der Ansprüche 1 bis 28, dadurch gekennzeichnet,
daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung grammatischer
Nachrichten (TN) zu gegebenenfalls auch fortlaufend geäußerten einlaufenden Texten (T)
unter Berücksichtigung von Textabschnitten (T3 a T) erfolgt, deren Mindestumfang
dadurch festgelegt wird, daß sich in den Texten (T3) mindestens 2 Adressen (Ad)
identifizieren lassen, durch welche nicht disjunkt 2 objektive Wörter (Vt a G) mit
zugehörigen Einheiten (G) angezeigt werden, welche als selbständige Einheiten (G)
einsetzbar sind.
30. Verfahren nach einem oder mehreren der Ansprüche 1 bis 29, dadurch gekennzeichnet,
daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung grammatischer
Nachrichten (TN) zu gegebenenfalls fehlerhaft, nicht ausreichend normgerecht oder auch
unter Verwendung von gemäß Vorgaben (Vr) nicht akzeptablen Repertoires (R(Z)) von
Zeichen (Z) abgefaßten einlaufenden Texten (T) gemäß Vorgaben (Vr) unter zusätzlicher
Anwendung eines Verfahrensteils (M23) von (M2) durchgeführt wird, wonach ein solcher
Text (T) dadurch in einen akzeptablen Text (T2) verbessert wird, daß im Text (T)
Adressen (Ad) identifiziert werden, welche, gegebenenfalls auch mit geringen
Wahrscheinlichkeiten (p(Em/Ad)), Repertoires (R(Em)) von Komponenten (Em)
anzeigen, aus welchen gemäß Verfahrensteil (M22) ein Komplex (Kpx = TN,TN) von
einer oder mehreren grammatisch korrekten Nachrichten (TNg) mit zugeordneten
korrekten Inhalten (N = Ng) gebildet wird, welche durch Permutationen von den
Einheiten (G a N) zugeordneten objektiven Wörtern (Vt a G) und diesen zugeordneten
normgerechten Textabschnitten (Ts a Vt) zu normgerechten Nachrichten (T2Ng) ergänzt
werden, durch deren Texte (T2) die gegebenen Texte (T) ersetzt werden.
31. Verfahren nach einem oder mehreren der Ansprüche 1 bis 30, dadurch gekennzeichnet,
daß die gemäß Verfahrensteil (M23) vorzunehmende Verbesserung einlaufender Texte (T)
dadurch erfolgt, daß die gemäß Verfahrensteil (M2) vorzunehmende Zuordnung
grammatischer Nachrichten (TN) zu einlaufenden Texten (T), welche Textabschnitte
(Ts1) aufweisen, die jeweils als Abschnitte (Ts1 a Gt1 a Gr1) einem Textsymbol
(Gt1 a Gr1) eines grammatischen Symbols (Gr1) zuordenbar sind, welche eine, bezüglich
eines dem Text (T) zuzuordnenden grammatischen Inhalts (N), fehlerhafte Flexionsform
eines natürlichen Wortes repräsentieren und die Bildung einer grammatisch korrekten
Nachricht (TNg) nicht zulassen, dadurch durchgeführt wird, daß solche Symbole (Gt1)
unter Beachtung entsprechend formulierter, den Daten (Ws) zugeordneter Listen (Wsi) als
Adressen (Ad) für jeweils eine disjunkte Klasse (Kl1 = (Gt2 a Gr2)) von Symbolen
(Gt2 a Gr2) eingesetzt werden, welche die weiteren Flexionsformen des jeweils durch
(Gt1 a Gr1) vertretenen natürlichen Wortes entsprechend dessen Wortstamm
repräsentieren, und unter Verwendung eines Symbols (Gt2 a Gr2 a Kl1) eine einer
weiteren Verwendung zuzuführende grammatisch korrekte Nachricht (TNg) mit einem
Text (T2 a TNg) gebildet wird, der sich dadurch von Text (T) unterscheidet, daß
Textabschnitt (Ts1 a Gt1) durch einen Textabschnitt (Ts2 a Gt2) ersetzt wird.
32. Verfahren nach einem oder mehreren der Ansprüche 1 bis 31, dadurch gekennzeichnet,
daß die Übertragung einlaufender Texte (T) einer Ausgangssprache (L) in bezüglich
zugeordneter semantischer Inhalte (F) beziehungsweise (F') ausreichend gleichbedeutende
Texte (T') einer durch Vorgaben (Vr) festgelegten Zielsprache (L') gemäß einem
Verfahrensteil (M3) des Verfahrens (M) durchgeführt wird, wonach in einem unter
Anwendung des Verfahrensteils (M2) durchzuführenden Verfahrensteil (M31) von (M3)
der einlaufende Text (T) aufgenommen, gespeichert und diesem unter Beachtung der
Wahrscheinlichkeiten (p(N/T)) ein disjunktes Repertoire (R(TN,TN)) eines oder mehrerer
Komplexe (Kp) von grammatischen Nachrichten (TN) mit Sätzen (S a TN) der
Ausgangssprache (L) zugeordnet wird, welche gemäß einem Verfahrensteil (M32) von
(M3), unter Beachtung der Daten (Wst) von (Ws) und unter Verwendung von
Textsymbolen (Gt a S) dieser Sätze (S) als Adressen (Ad), vollständig als Komplexe (S =
VqVq) von Vokabeln (Vqq) zugeordneten Symbolkomplexen (Vq = GtGt) mit
entsprechend zugeordneten disjunkten Repertoires (R(Vq')) von Komplexen
(Vq' = Gt'Gt') von, grammatischen Symbolen (Gr') zugeordneten, Textsymbolen
(Gt' a Gr') der Zielsprache (L') dargestellt werden, welche gemäß einem Verfahrensteil
(M33) von (M3) unter Anwendung des Verfahrensteils (M1) unter Beachtung der
Anordnungen (Pr) und Wahrscheinlichkeiten (p(Vq'/Vq)) und (p(N'/N)) jeweils
vollständig zu einem entsprechend disjunkten Repertoire (R(T'N',T'N')) von
Nachrichtenkomplexen (T'N',T'N') mit jeweils einem zugeordneten Text (T') der
Zielsprache (L') zusammengefügt werden, von denen einer oder je nach Vorgaben (Vr)
auch mehrere, entsprechend als disjunkt markierte Texte (T') als Übertragungen des
Textes (T) einer durch Vorgaben (Vr) festgelegten weiteren Verwendung zugeführt
werden.
33. Verfahren nach einem oder mehreren der Ansprüche 1 bis 32, dadurch gekennzeichnet,
daß Übersetzungen zwischen beliebigen natürlichen Sprachen (L a R(L)) und (L' a R(L))
eines Repertoires (R(L)) unter Verwendung einer als Zentralsprache (L") festgelegten
Sprache (L" a R(L)) dieses Repertoires durch zweimalige Anwendung des
Verfahrensteils (M3) durchgeführt wird, wobei Sprache (L") zunächst als Zielsprache für
die Übersetzung aus Sprache (L) und anschließend als Ausgangssprache für die
Übersetzung in die Zielsprache (L') benutzt wird.
34. Verfahren nach einem oder mehreren der Ansprüche 1 bis 33, dadurch gekennzeichnet,
daß Übertragungen zwischen der mündlichen und schriftlichen Version einer von einer
Sprachgemeinschaft (X1) benutzten Sprache gemäß Verfahrensteil (M3) durchgeführt
werden, wobei diese Sprachversionen als unterschiedliche natürliche Sprachen (L) und
(L') behandelt werden.
35. Verfahren nach einem oder mehreren der Ansprüche 1 bis 34, dadurch gekennzeichnet,
daß Übertragungen von Texten (T) der mündlichen Version (L) einer von einer
Sprachgemeinschaft (X1) benutzten Sprache in eine von einer anderen
Sprachgemeinschaft (X2) benutzte Sprache (L') gemäß Verfahrensteil (M3) unter
Zwischenschaltung der von Sprachgemeinschaft (X1) benutzten Schriftsprache als
Zentralsprache (L") durchgeführt wird.
36. Verfahren nach einem oder mehreren der Ansprüche 1 bis 35, dadurch gekennzeichnet,
daß die gemäß Verfahrensteil (M12) vorzunehmende Komplexbildung von
grammatischen Nachrichten (TN) aus Komponenten (Em a R(Em)) von Repertoires
(R(Em)) in einer Reihenfolge durchgeführt wird, wonach für eine Konkurrenzhypothese
(Ks) zunächst Einheiten (G a R(Em)) zu einem Hintergrund (E) zusammengefügt werden,
dessen Aufbau mit einer als Kopf (Gk) verwendbaren selbständigen Einheit (G) begonnen
und jeweils mit solchen Einheiten (Gb a R(Em)) fortgeführt wird, die durch die
ungesättigten selbständigen Valenzen (Ums) der diesem Hintergrund (E) bereits
zugeordneten Einheiten (Ga a R(Em)) adressiert werden, und wonach dieser Hintergrund
nachfolgend durch jeweils eine Permutation von objektiven Wörtern (Vt a G a R(Em))
und Textabschnitten (Ts a Vt a R(Em)) zu einem grammatischen Inhalt (N) und zu einer
grammatischen Nachricht (TN) ergänzt wird, wobei aus vorliegenden disjunkten
Repertoires (R(Em)) jeweils zunächst eine Komponente (Em) eingesetzt wird, für deren
Verwendung in der betreffenden Konkurrenzhypothese (Ks) die höchste, gegebenenfalls
durch bereits darin eingesetzte Komponenten Em bedingte, Wahrscheinlichkeit (p(Em))
gilt.
37. Verfahren nach einem oder mehreren der Ansprüche 1 bis 36, dadurch gekennzeichnet,
daß die gemäß Verfahrensteil (M1) vorzunehmende Erzeugung von Nachrichten (TN)
zugeordneten ausgehenden Texten (T) dadurch erfolgt, daß gemäß Verfahrensteil (M12)
von Verfahrensteil (M1) erzeugte Texte (T a R(Ks)) eines disjunkten Repertoires (R(Ks))
von Konkurrenzhypothesen (Ks) einer gemäß Verfahrensteil (M2) durchzuführenden
grammatischen Analyse unterzogen werden und für die Kommunikation bevorzugt solche
Texte (T a R(Ks)) verwendet werden, die sich entsprechend der Zahl der diesen gemäß
(M2) mit ausreichend hohen Wahrscheinlichkeiten (p(N/T) g ps) zuordenbaren
grammatischen Inhalte (N) als grammatisch ausreichend eindeutig erweisen.
38. Verfahren nach einem oder mehreren der Ansprüche 1 bis 37, dadurch gekennzeichnet,
daß in der Kommunikation verwendete Texte (T), denen gemäß vorliegenden Daten (D)
und Vorgaben (Vr) durch Verfahren (M) nur grammatische Inhalte (N) mit
Wahrscheinlichkeiten p(N/T) zuordenbar sind, welche keine grammatisch korrekten
Nachrichten (TNg) ergeben, für die Kommunikationspartner (Pa) wie, bei entsprechenden
Vorgaben Vr, auch die Nutzer, als unkorrekte Texte (T) markiert werden.
39. Verfahren nach einem oder mehreren der Ansprüche 1 bis 38, dadurch gekennzeichnet,
daß die gemäß vorliegenden Daten (D) und Vorgaben (Vr) als Konkurrenzhypothesen
(Ks) erzeugten grammatischen Nachrichten (TN) einer semantischen Analyse zugeführt
werden und eine Konkurrenzhypothese (Ks) für die Kommunikation verwendet wird,
deren grammatischer Nachricht (TN) hierbei ein mit den Vorgaben (Vr) vereinbarer
semantischer Inhalt (F) mit ausreichend hoher Wahrscheinlichkeit (p(F/TN)) zugeordnet
wird.
40. Verfahren nach einem oder mehreren der Ansprüche 1 bis 39, dadurch gekennzeichnet,
daß die Kommunikation unter Verwendung von, durch Daten (Ws) beschriebenen und
miteinander in Bezug gesetzten, Symbolen (Gs) geführt wird, die gemäß einem
Verfahrensteil (M4) des Verfahrens (M) erzeugt werden, wonach die Symbole (Gs) durch
Anwendung der Transformationen (Q) auf einen Korpus (C2) von Texten (T) der
betreffenden Sprachen (L) bestimmt werden, wobei dieser Korpus (C2) die Texte (T)
eines vorzugebenden Korpus (C1) sowie weitere hieraus durch Anwendung der
Transformationen (Q) auf diese Texte (T a C1) erzeugte Texte (T) umfaßt.
41. Verfahren nach einem oder mehreren der Ansprüche 1 bis 40, dadurch gekennzeichnet,
daß die Kommunikation unter Beachtung von Daten (Ws) durchgeführt wird, die einer
Erzeugung gemäß einem Verfahrensteil (M41) von (M4) entsprechen, wonach Texten (T)
eines den Korpus (C2) einschließenden Korpus (C3) unter Anwendung von Verfahrensteil
(M2) unter Beachtung von bereits vorliegenden Daten (Ws1) gemäß Verfahren (M)
rechnergestützt grammatische Nachrichten (TN) zugeordnet werden, wobei mittels den
Daten (Ws1) nicht zuordenbare Textabschnitte (T) Experten angezeigt werden, welche die
Daten (Ws1) dadurch zu Daten (Ws2) erweitern, daß sie unter Beachtung der
Transformationen (Q) diese Textabschnitte (T) Einheiten (G) zugeordneten objektiven
Wörter (Vt) zuordnen.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10015859A DE10015859C2 (de) | 2000-03-30 | 2000-03-30 | Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10015859A DE10015859C2 (de) | 2000-03-30 | 2000-03-30 | Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10015859A1 DE10015859A1 (de) | 2001-10-11 |
DE10015859C2 true DE10015859C2 (de) | 2002-04-04 |
Family
ID=7636997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10015859A Expired - Lifetime DE10015859C2 (de) | 2000-03-30 | 2000-03-30 | Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10015859C2 (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008003572A1 (de) | 2008-01-09 | 2009-10-01 | Grunert, Florian Silver | Verfahren zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache basierend auf dem Prinzip der von mir entwickelten Farbontologie |
DE102008003886A1 (de) | 2008-01-10 | 2009-07-16 | Grunert, Florian Silver | Verfahren zur Übertragung eines Textes einer beliebigen Ausgangssprache in einen Text einer beliebigen Zielsprache basierend auf dem Prinzip der von mir entwickelten Farbontologie |
CN114979794B (zh) * | 2022-05-13 | 2023-11-14 | 深圳智慧林网络科技有限公司 | 一种数据发送方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3151106A1 (de) * | 1980-12-25 | 1982-07-08 | Casio Computer Co., Ltd., Tokyo | Elektronisches lexikon |
DE3032664C2 (de) * | 1979-08-30 | 1982-09-09 | Sharp K.K., Osaka | Elektronisches Sprachübersetzungsgerät. |
DE3514286A1 (de) * | 1985-04-19 | 1986-10-23 | Siemens AG, 1000 Berlin und 8000 München | System zur erkennung einzeln gesprochener woerter |
DE3615972A1 (de) * | 1985-05-14 | 1986-11-20 | Sharp K.K., Osaka | Zweisprachiges uebersetzungssystem mit eigen-intelligenz |
DE3616011A1 (de) * | 1985-05-14 | 1986-11-20 | Sharp K.K., Osaka | Uebersetzungsgeraet |
DE3142540C2 (de) * | 1980-10-28 | 1988-02-11 | Sharp K.K., Osaka, Jp | |
DE3211313C2 (de) * | 1981-03-27 | 1988-06-16 | At & T Technologies, Inc., New York, N.Y., Us | |
DE3710507A1 (de) * | 1987-03-30 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE3503233C2 (de) * | 1985-07-26 | 1989-09-28 | Wladislaus 4000 Duesseldorf De Quasebarth | |
DE3733391C2 (de) * | 1986-10-03 | 1990-03-29 | Ricoh Co., Ltd., Tokio/Tokyo, Jp | |
DE4135261C1 (de) * | 1991-10-25 | 1993-03-18 | International Business Machines Corp., Armonk, N.Y., Us | |
DE4232482A1 (de) * | 1992-09-28 | 1994-06-01 | Siemens Ag | Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz |
DE4311211A1 (de) * | 1993-04-05 | 1994-10-06 | Ibm | Computersystem und Verfahren zur automatisierten Analyse eines Textes |
-
2000
- 2000-03-30 DE DE10015859A patent/DE10015859C2/de not_active Expired - Lifetime
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3032664C2 (de) * | 1979-08-30 | 1982-09-09 | Sharp K.K., Osaka | Elektronisches Sprachübersetzungsgerät. |
DE3142540C2 (de) * | 1980-10-28 | 1988-02-11 | Sharp K.K., Osaka, Jp | |
DE3151106A1 (de) * | 1980-12-25 | 1982-07-08 | Casio Computer Co., Ltd., Tokyo | Elektronisches lexikon |
DE3211313C2 (de) * | 1981-03-27 | 1988-06-16 | At & T Technologies, Inc., New York, N.Y., Us | |
DE3514286A1 (de) * | 1985-04-19 | 1986-10-23 | Siemens AG, 1000 Berlin und 8000 München | System zur erkennung einzeln gesprochener woerter |
DE3615972A1 (de) * | 1985-05-14 | 1986-11-20 | Sharp K.K., Osaka | Zweisprachiges uebersetzungssystem mit eigen-intelligenz |
DE3616011A1 (de) * | 1985-05-14 | 1986-11-20 | Sharp K.K., Osaka | Uebersetzungsgeraet |
DE3503233C2 (de) * | 1985-07-26 | 1989-09-28 | Wladislaus 4000 Duesseldorf De Quasebarth | |
DE3733391C2 (de) * | 1986-10-03 | 1990-03-29 | Ricoh Co., Ltd., Tokio/Tokyo, Jp | |
DE3710507A1 (de) * | 1987-03-30 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE4135261C1 (de) * | 1991-10-25 | 1993-03-18 | International Business Machines Corp., Armonk, N.Y., Us | |
DE4232482A1 (de) * | 1992-09-28 | 1994-06-01 | Siemens Ag | Verfahren zur Realisierung eines internationalen Sprachenverbundes in einem internationalen Kommunikationsnetz |
DE4311211A1 (de) * | 1993-04-05 | 1994-10-06 | Ibm | Computersystem und Verfahren zur automatisierten Analyse eines Textes |
Non-Patent Citations (10)
Title |
---|
An instinct for language, New Scientist, S. 28 (25. Juni 1994) * |
Der Spiegel Nr. 49/1993, S. 240 * |
Hermann Helbig, Künstliche Intelligenz und automatische Wissensverarbeitung, Technik, Berlin (1991) * |
Jeanne Rubner, Dolmetscher im Taschenformat, Süddeutsche Zeitung, S. IX (3. Dez. 1992) * |
John Lyons, Die Sprache, Beck, München (1992) * |
John Lyons, Einführung in die moderne Linguistik, Beck, München (1971) * |
John McCrone, Computers that listen, New Scientist, S. 30 (4. Dez. 1993) * |
Klaus Dieter Linsmeier, Eine elektronische Schreibkraft, Frankfurter Allgemeine Zeitung (16. Dez. 1992) * |
Peter Hadfield, How to make a robot smile, New Scientist, S. 21 (16. Juli 1994) * |
Steven Pinker, The Language Instinct, Morrow, New York (1994) * |
Also Published As
Publication number | Publication date |
---|---|
DE10015859A1 (de) | 2001-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ellis | Constructions, chunking, and connectionism: The emergence of second language structure | |
Frank et al. | How hierarchical is language use? | |
Fischer | Conversation, construction grammar, and cognition | |
Bock | Language production: Methods and methodologies | |
Sampson et al. | Corpus linguistics: Readings in a widening discipline | |
Daiute | Psycholinguistic foundations of the writing process | |
De Bot | Simultaneous interpreting as language production | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
WO2015113578A1 (de) | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text | |
Clark | Grammar in the curriculum for English: What next? | |
Sukying | Word knowledge through morphological awareness in EFL learners. | |
Das et al. | A novel system for generating simple sentences from complex and compound sentences | |
Diebold | A survey of psycholinguistic research: 1954–1964 | |
Kerr | Dynamic equivalence and its daughters: placing bible translation theories in their historical context | |
Wagner et al. | Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora | |
Qu et al. | Orthographic effects in Mandarin spoken language production | |
van Heuven et al. | Analysis and synthesis of speech: strategic research towards high-quality text-to-speech generation | |
Foster et al. | A ‘new normal’of code-switching: Covid-19, the Indonesian media and language change | |
Saunders et al. | Towards using prosody to scaffold lexical meaning in robots | |
DE10015859C2 (de) | Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen | |
Waryas | Psycholinguistic research in language intervention programming: The pronoun system | |
Veenstra et al. | Keeping it simple: Studying grammatical encoding with lexically reduced item sets | |
Gregg | Written expression disorders | |
Odeyemi | Context and Discourse Intonation in English-Medium Product Advertisements in Nigeria's Broadcast Media. | |
Ismailia | The Analysis of Machine Translation Performance on Translating Informative Text from English into Indonesian |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8330 | Complete disclaimer |