DE4103277A1 - Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung - Google Patents
Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutungInfo
- Publication number
- DE4103277A1 DE4103277A1 DE19914103277 DE4103277A DE4103277A1 DE 4103277 A1 DE4103277 A1 DE 4103277A1 DE 19914103277 DE19914103277 DE 19914103277 DE 4103277 A DE4103277 A DE 4103277A DE 4103277 A1 DE4103277 A1 DE 4103277A1
- Authority
- DE
- Germany
- Prior art keywords
- memory
- words
- arrangement according
- associative
- functions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006870 function Effects 0.000 title claims abstract description 43
- 230000015654 memory Effects 0.000 title claims abstract description 34
- 230000036962 time dependent Effects 0.000 title claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000002829 reductive effect Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000000750 progressive effect Effects 0.000 claims 1
- 238000013139 quantization Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Wenn wir Laute, Silben, Worte, Sätze sprechen, erzeugen wir mit unseren
Sprechwerkzeugen zeitabhängige Druckschwankungen in der uns umgebenden Luft.
Sie können von den Hörorganen anderer Menschen aufgenommen werden. Durch
diesen Mechanismus werden Informationen von einem Menschen zu anderen
Menschen transportiert. Die erzeugten Druckschwankungen haben keinen beliebigen
z. B. zufälligen Verlauf, sondern sie sind Signale, d. h. sie haben in der Sprache, in der
sie gebraucht werden, eine verabredete symbolische Bedeutung. Der Mensch, der die
Signale empfangen hat, wird mit Hilfe seines Gehörs und des zugehörigen Teils seines
Gehirnes diesen symbolischen Gehalt aus den Zeitfunktionen extrahieren und wird
dann erst begreifen, um was es geht. Sowohl das Gehör als auch das Sprachhirn sind
dabei absolut notwendig. Für einen (hörlosen) an dem Kommunikationsvorgang nicht
beteiligten Beobachter wird der symbolische Gehalt der empfangenen Signale jedoch
erst augenfällig, wenn der Empfänger schließlich das Gehörte in Form eines Textes
niederschreibt. All dies sind keine neuen aber doch sehr wichtige Erkenntnisse, siehe
z. B. die sehr schöne Darstellung von A.Rapoport im ersten Kapitel seiner
Bedeutungslehre (1).
Hier sei zunächst noch einmal darauf aufmerksam gemacht, wie außerordentlich die
Informationswerte von gesprochener und geschriebener Sprache differieren, was man
mit den Mitteln der Elektrotechnik und der klassischen Informationstheorie leicht
ermitteln kann (2, 3). Man wird die Druckschwankungen z. B. vermittels eines
Mikrophons zuerst in einen elektrischen Spannungsverlauf umwandeln und dann diese
Spannungs-Zeitfunktion unter Beachtung des Abtasttheorems in eine Folge diskreter
(Abtast-) Amplitudenwerte umwandeln. Bei einer Breite des Spektrums wie sie z. B.
beim Telefonieren üblich ist (mit der Grenzfrequenz von fg = 3 kHz), wird man dann
pro Sekunde 6000 diskrete Amplitudenwerte erhalten. Faßt man jeden
Amplitudenwert als ein Symbol auf, wobei die vorgeschriebene Auflösung den
maximalen Symbolvorrat bestimmt (z. B. ergibt sich bei einer diskreten Darstellung der
Amplitude mit 6 binären Stellen ein maximaler Symbolvorrat von 64), so kann man aus
dieser Symbolfolge in üblicher Weise die Entropie oder die Kanalkapazität berechnen
(hier gibt es 36 000 bit pro Sekunde). Die erhaltenen Werte sind heute - trotz aller
Methoden der Datenkompression - noch außerordentlich hoch, wenn man sie
vergleicht mit dem Informationsfluß, der sich bei einer zeitgleichen Übermittlung
derselben Informationen in Form eines "gedruckten" Textes ergibt. Dann erhält man
bekanntlich nur relativ wenige bit pro Sekunde. Die Folge der Abtastwerte der
Spannungs-Zeitfunktion mit Symbolbedeutung muß daher eine außerordentlich große
Redundanz enthalten.
Daher ist es verständlich, daß, so lange es eine Nachrichtentechnik gibt, schon immer
versucht wurde, die Zeitfunktionen geeignet zu filtern, um durch eine Umwandlung des
Spektrums zu redundanzärmeren Darstellungen zu kommen.
Damit ist man aber bis jetzt nicht sehr weit gekommen, denn es besteht nach wie vor
ein Unterschied im Informationsfluß von gesprochener und geschriebener Sprache, der
einige Größenordnungen beträgt. Berücksichtigt man darüber hinaus noch den inneren
Zusammenhang zwischen den Buchstaben, Worten und Sätzen in längeren Texten, und
die sich dadurch ergebende Verringerung des Informationsflusses, so kommen noch
weitere Größenordnungen im Abstand hinzu (4). Es fehlt also für die anfänglich
erzeugten Spannungs-Zeitfunktionen der gesprochenen natürlichen Sprache ein
Codier- bzw. Modulationsverfahren, das stark redundanzvermindernd wirkt. Es wäre
schon viel gewonnen, wenn man von der Entropie gesprochener Silben oder Worte
unter Vernachlässigung individueller Sprachkennzeichen auf die Entropie
geschriebener Silben oder Worte herunterkäme.
In der obigen Skizzierung der zu lösenden Aufgabe wurde sorgfältig das Wort "Filtern"
vermieden, weil es zu sehr an die klassische Technik der analogen oder digitalen
Frequenzfilterung erinnert. Nach allen Anstrengungen der Vergangenheit ist aber klar,
daß die gewünschte starke Verringerung der Redundanz nicht mit einer
Frequenzfilterung zu erreichen ist. Im Vorgriff auf spätere Erörterungen sei hier schon
einmal festgehalten, daß vor allem die Veränderung des Spektrums in Form einer
irreversiblen "Vernichtung" von Spektralanteilen, die beim klassischen Filtern fast
immer vorliegt, den Begriff "Filtern" nicht sonderlich geeignet macht.
Vielmehr können wir uns von einem Gedanken anregen lassen, der sich bei der
Verarbeitung natürlichsprachlicher Texte als sehr fruchtbar erwiesen hat. Er wurde als
ein schrittweise vor sich gehender Abstraktionsprozeß beschrieben, der sowohl in
Richtung zunehmender Abstraktion als auch in Richtung abnehmender Abstraktion
gehen kann (5). Das wesentliche dabei ist, daß in Richtung zunehmender Abstraktion
die "redundanten" Informationsanteile, die abstrahiert wurden, nicht vernichtet,
sondern gespeichert werden. Das muß gut organisiert werden, damit man später in der
umgekehrten Richtung, der Konkretionsrichtung, die "redundanten" Anteile wieder
hinzufügen kann.
Das Verfahren, dessen Grundgedanken wir uns hier zum Vorbild machen wollen,
bewegt sich im Raum der Texte und ihrer Symbole (Buchstaben, Wörter, Sätze), das
datenverarbeitende Gerät ist die "texturale Sprachmaschine" mit dem Kern, dem
"semantischen Speicher".
Bei kontinuierlichen Spannungs-Zeitfunktionen jedoch, die wie im Falle der
gesprochenen Sprache, eine verabredete Bedeutung haben, gibt es zunächst keine
einfachen Symbole, die den Buchstaben und Wörtern der geschriebenen Sprache
vergleichbar wären. Zwar ist auch in der geschriebenen Sprache die exakte Definition
der Symbole, z. B. der Buchstaben, nicht als leicht anzusehen, wenn man alle
handschriftlichen Varianten in die Betrachtung einbeziehen will. Dennoch wird man
die Menge der Varianten gesprochener Worte bzw. die Varianten der entsprechenden
Spannungs-Zeitfunktionen noch sehr viel größer einschätzen müssen als die der
geschriebenen oder gedruckten Sprache. Um so erstaunlicher ist es, daß die
menschlichen Hörorgane und der zugehörige Teil des Gehirnes fähig sind, den
Symbolgehalt solcher Zeitfunktionen rasch und zuverlässig festzustellen. Hier wird
scheinbar mühelos seit Urzeiten der Menschheitsgeschichte und lange bevor es eine
Schriftsprache gab, ein kompliziertes Klassifizierungsproblem gelöst, das bisher selbst
mit Hilfe großer Rechner nicht befriedigend zu lösen war. Halten wir nochmals fest:
Der gesamte und äußerst vielgestaltige Schwingungszug, den wir beim Sprechen einer
Silbe oder eines Wortes erzeugen, ist das zu erkennende Symbol. Jeder Mensch
produziert für jedes Symbol einen für ihn charakteristischen d. h. individuellen
Schwingungszug. Außerdem ist selbst bei Beschränkung auf Laute, Phoneme oder
Silben die Anzahl der verschiedenen verabredeten Sprechsymbole weit größer als die
Anzahl von verschiedenen Buchstaben für die geschriebene Sprache.
Die Lösungsstrategie für die gestellte Aufgabe besteht darin, die zeitabhängige (und
eventuell auch ortsabhängige) Veränderung eines Spannungswertes zuerst zu
diskretisieren, sei es nun im Zeit- oder im Spektralbereich, dann die Aufeinanderfolge
dieser diskreten analogen Werte so umzuformen, daß eine Folge besonders
charakteristischer Größen entsteht (z. B. Differenzvektoren), die möglichen
Verknüpfungen dieser aufeinander folgenden Größen zu ermitteln und abzuspeichern,
und schließlich die Folge dieser Größen, die sich als Zahlenwerte (auch in mehreren
Dimensionen) darstellen lassen, nach dem bekannten Vorbild der
Redundanzverringerung durch schrittweise Abstraktionsprozesse in geschriebenen
Texten (5), soweit in ihrem Informationsgehalt zu verdichten, daß man schließlich nur
noch die Klassifizierung innerhalb der möglichen Anzahl verschiedener Silben oder
Worte hat. Wichtig dabei ist, daß man diese Prozesse auch umgekehrt wieder ablaufen
lassen kann, daß also zu einem gegebenen Symbol für eine Silbe oder ein Wort auch
wieder die zugehörige typische Spannungs-Zeitfunktion erzeugt wird. Es wird sich
dabei herausstellen, daß man mit der Elimination persönlicher Sprechermerkmale im
Zuge aufeinander folgender Abstraktionsprozesse auch zugleich störende Einflüsse wie
Rauschen, Hintergrundgeräusche und dergleichen völlig beseitigen kann.
Die Differenzcodierung mit ihren Prädiktionen bzw. die entsprechenden Differenz-
Modulationsverfahren (DM) und Differenz-Puls-Code-Modulationsverfahren (DPCM)
können als eine Vorstufe des hier zu beschreibenden neuen Verfahrens gesehen
werden. Diese Verfahren sind in vielen Lehrbüchern, z. B. in (6) ausführlich
beschrieben worden und können hier als allgemein bekannt vorausgesetzt werden. Die
zwei wesentlichen Unterschiede dieser Verfahren zu dem hier zu beschreibenden
neuen Verfahren liegen darin, daß die bekannten Verfahren zum einen beim Übergang
von einem Abtastwert zum nächsten von "statistischen Prädiktionen" Gebrauch machen
und sich hierbei stets auf die wahrscheinlichste Prädiktion bzw. der Abweichung zu ihr
festlegen, und zum anderen, daß sie nur diesen einen Verbesserungsschritt
durchführen. Sie gehen nicht in höhere Abstraktionsebenen. Das wäre an und für sich
möglich gewesen, denn die Abweichung vom jeweils wahrscheinlichsten
Prädiktionswert bringt ja schon eine ganz beachtliche Reduzierung der Redundanz.
Beschränkt man sich auf zeitabhängige Funktionen mit Symbolbedeutung wie z. B. ein
gesprochenes Wort der deutschen Sprache, fehlt eigentlich nur noch der Entschluß,
zwei oder mehr aufeinander folgende Differenzcodes zu einer Metagröße
zusammenzufassen und das Verfahren der Differenzcodierung auf dieser Metaebene
zu wiederholen. Natürlich würde man dazu eine leistungsfähige Speicherorganisation
benötigen (rückgekoppelte teilassoziative Speicherorganisation mit bedingter
Assoziation), die man in der Vergangenheit auf dem Gebiet der Nachrichtentechnik
nicht kannte. Erst heute, im Zeitalter der hochintegrierten Schaltungen (VLSI) mit
vielen Millionen Transistoren auf einem Chip ist auch überhaupt an die
Implementierung solcher speicherintensiven Lösungen für eine schritthaltende
Datenverarbeitung (real time) zu denken. Der Gewinn, den man bei ihrem Einsatz
erhalten kann, ist so groß, daß er auch für die Codierung analoger zeitabhängiger
Funktionen den großen Aufwand rechtfertigt.
Offenbar gibt es günstige und ungünstige Methoden eines Abstraktionsprozesses und
der Bildung von Metagrößen. Die Gewinnung eines Codes mit der gerade skizzierten
bekannten DPCM-Methode unter Bezug auf die wahrscheinlichsten Prädiktionen ist
offenbar nicht sehr günstig, weil man ja zuerst einmal die wahrscheinlichsten
Prädiktionen bestimmen muß. Arbeitet man dann weiterhin mit nur wenigen
Differenzen zu dieser Prädiktion, geht man die Gefahr ein, daß nicht mehr in allen
Fällen die ursprünglichen Kennzeichen der Größen rekonstruiert werden können. Man
sollte also fordern, daß alle Möglichkeiten eines Überganges berücksichtigt werden.
Betrachten wir als Beispiel den elektrischen Spannungsverlauf gesprochener deutscher
Sprache. Wenn wir ein und dasselbe deutsche Wort immer wieder von einer Person
oder mehreren Personen sprechen lassen, werden wir Spannungsverläufe erhalten, die
sehr ähnlich sind. Wir könnten sie nun abtasten - stellen wir uns am besten vor, dies in
etwas häufigeren Zeitabständen zu tun, als es dem Abtastheorem entspricht - und wir
könnten im einfachsten Fall die Differenz aufeinander folgender Amplitudenwerte als
Steuercode X verwenden (5). Um aber den Unterschied zu den bekannten
Differenzcodierungen deutlicher zu machen, wollen wir das Verfahren etwas
umändern. Nach Fig. 1a sollen die Richtungen, in denen man vom Abtastpunkt P1 zum
nächsten Abtastpunkt P2 kommt, in 24 = 16 gleich große Winkelbereiche eingeteilt
werden. Die jeweils aktuelle Verbindung liegt dann in einem kleinen Winkelbereich,
der durch ein Codewort von 4 Bits zu kennzeichnen ist. In Fig. 1b sind einige
aufeinanderfolgende Steigungen skizziert. Jeweils vier aufeinander folgende Steigungen
fassen wir nun zusammen, siehe das Blockschema in Fig. 2, wobei der Akkumulator als
Zwischenspeicher für die 4 aufeinander folgenden Steigungen dient. Der Code für eine
solche Vierergruppe hat eine Codewortlänge von 16 Bits, was einem Vorrat von
216 = 65 000 verschiedenen Aufeinanderfolgen von je 4 Steigungen entspricht. In
Analogie zur Textcodierung (5) könnte man eine einzelne Steigung auch als einen
"Quasi-Buchstaben" und vier zusammengefaßte Steigungen auch als ein "Quasi-Wort"
bezeichnen. Es ist nun sehr unwahrscheinlich, daß in den zu codierenden Funktionen
alle diese Quasi-Worte auch wirklich vorkommen. Bei solchen typischen Zeitverläufen
mit Symbolbedeutung darf es nämlich nur eine überschaubare Zahl verschiedener
resultierender Symbole geben, damit man sie auch auseinanderhalten kann (auch bei
Textworten ergeben ja nicht alle theoretisch möglichen Buchstabenfolgen jedesmal ein
gültiges Wort der Sprache). Aber selbst wenn alle theoretisch möglichen Quasi-Worte
wirklich vorkommen sollten, welchen Fall man nicht auszuschließen braucht, wird es
nur ganz bestimmte Aufeinanderfolgen von Quasi-Worten geben. Insbesondere wird
jedes individuelle Quasi-Wort festlegen, wieviele verschiedene Quasi-Worte darauf
folgen können und welche das sind. Ausgeschlossen könnten z. B. folgende Fälle sein:
extreme Änderungen aufeinander folgender Steigungen, häufige starke Wechsel, zu
seltene Wechsel usw. Dies läßt sich nun für das Quasi-Wort Ii zur Einführung einer
Verkettung Yi ausnutzen. Sie kennzeichnet die Größe und Zusammensetzung der
Nachfolgermenge. Innerhalb dieser Menge werden mit dem nächsten Codewort Xi+1
die Differenzierungen vorgenommen. Vorzugsweise sind diese Differenzierungen so
gewählt, daß sie den Typ des nachfolgenden Quasi-Wortes angeben und bei allen
Codes in gleicher Weise erfolgen (z. B. sollten 4 aufeinander folgende positive
Steigungen in einem bestimmten Toleranzbereich, die jeweils in dem Quasi-Wort Ii+1
zusammengefaßt sind, stets dasselbe Codewort Xi+1 ergeben).
Wegen der Existenz begrenzter Nachfolgermengen zu jedem Quasiwort wird die
Codelänge von X kleiner als die maximale Codelänge von 16 Bit sein, z. B. halb so lang.
Dann kann man jeweils zwei X-Codierungen zu einem Metawort I′ zusammenfassen,
dieses in den assoziativen Speicher der ersten Metaebene transportieren, abspeichern
und verketten. Das Spiel wiederholt sich in dieser Abstraktionsebene genauso wie in
der ursprünglichen Ebene, wodurch man zu weiteren Metaworten in weiteren Ebenen
kommt. Dies ist schon mehrfach, z. B. in (5), ausführlich dargestellt worden. Für den
begrenzten Zeitverlauf einer jeden gesprochenen (deutschen) Silbe ergibt sich
schließlich in einer höheren Abstraktionsebene ein sehr konzentrierter Code, der die
gesprochenen Silben symbolisch mit sehr wenigen Bits repräsentiert.
Bei dem hier dargestellten Verfahren ist es nicht notwendig, daß der Sprecher
zwischen den Silben Pausen macht. Wenn gewünscht, kann das System selbst
eingreifen, um Anfang und Ende von Silben zu markieren. Das ist dadurch zu
erreichen, daß jedesmal dann, wenn eine Silbe in einem entsprechenden Metawort
aktiviert wurde, ein entsprechendes Steuersignal abgegeben wird.
Ein zusammenhängender gesprochener Text wird nun auf verschiedenen Metaebenen
die Metaworte der beteiligten Silben, Worte und Sätze nacheinander aktivieren. Dabei
werden ähnlich verlaufende Zeitfunktionen zu denselben Metaworten führen. Bei der
Reproduktion der Zeitfunktionen (in Richtung abnehmender Abstraktion) kann man
nun eine möglichst exakte Reproduktion anstreben oder eine normierte bzw. eine
einmal festgelegte individuelle Reproduktion. In letzterem Fall kann die
Codekomprimierung natürlich wesentlich stärker sein, da die große Zahl aller
möglichen individuell gesprochenen Varianten einer Zeitfunktion mit
Symbolbedeutung auf eine einzige Zeitfunktion reduziert wird. Dabei werden natürlich
ebenfalls Fremdgeräusche wie z. B. Rauschen, Klirren oder Hintergrundgeräusche
eliminiert. Die Redundanzreduktion mit Hilfe schrittweiser Abstraktionsprozesse kann
daher auch als ein idealer Regenerationsprozeß für stark verrauschte oder verzerrte
Funktionen eingesetzt werden.
Sehr effektiv wird das Verfahren der zunehmenden Abstraktion, wenn in einer oder
mehreren der Abstraktionsebenen mit ihren jeweiligen assoziativen Speichern noch
eine Look-Ahead-Operation eingebaut wird, wie sie in (5) in der Anwendung auf Texte
ausführlich beschrieben wurde. Hierbei werden bekanntlich für die Auswahl eines
Speicherwortes in einem assoziativen Speicher Daten vorangegangener Worte in einem
zusätzlichen Pufferspeicher zwischengespeichert, siehe Fig. 3, so daß die Gruppe der
Nachfolgerworte, in der eine Auswahl zu treffen ist, kleiner wird. Damit kann ein nicht
unwesentlicher Anteil der Redundanz in der Folge von Abtastwerten schon innerhalb
einer Abstraktionsebene beseitigt werden. Ähnlichkeiten zu dem bekannten Verfahren
der Linearprädiktion bei linearen Digitalfiltern, siehe z. B. (6) zweite Auflage 1982,
S. 364 und S. 70, sind vorhanden. Siehe auch Fig. 4 aus (7). Allerdings ist das Look-
Ahead-Verfahren mit einem assoziativen Speicher nicht auf lineare Prädiktionen
beschränkt. Jede im dynamischen Zwischenspeicher mit ihren Verkettungsdaten
präsente Gruppe von Vorgängerworten (Vorgängerabtastwerten) wird individuell
berücksichtigt und kann z. B. auch einmal die gleiche Auswahl ergeben wie eine
Vorgängergruppe, die ansonsten völlig verschieden ist. Das gilt natürlich auch
umgekehrt, wobei noch besonders die verschiedenen Anfangsbedingungen einer
fortlaufenden Verkettung im assoziativen Speicher (assoziatives Netzwerk) zu
berücksichtigen sind. Es gelingt mit anderen Worten also, mit einem erträglichen
technischen Aufwand eine allgemeine, d. h. nichtlineare und individuell gestaltbare
Prädiktion zu realisieren.
Bei der praktischen Ausgestaltung der einzelnen Abstraktionsebenen mit
Speichereigenschaften (Meta-Ebenen) ist es sicher empfehlenswert, eine Unterteilung
in zwei Bereiche, z. B. von "unteren" und "oberen" Abstraktionsebenen vorzunehmen.
Die unteren Ebenen müssen die Zeitfunktionen als Silben- und Wortsymbole erkennen
(natürlich müssen dazu auch die Pausen erkannt werden). Sobald aber die
Wortsymbole erkannt sind, kann man im Prinzip auf die höheren Ebenen der
Textverarbeitung einer Schriftsprache übergehen. Dazu muß jedoch zwischen der
obersten Meta-Ebene für Worte, die aus gesprochenen Texten aufgebaut wurden und
der untersten Ebene (Basisebene) für die Verarbeitung geschriebener Texte, in die
zuerst die aus Buchstaben bestehenden Wörter der Schriftsprache eingeschrieben
wurden, eine Anpassung durchgeführt werden. Dies kann so geschehen, daß man an
der Grenze zwischen beiden Bereichen dem aus der gesprochenen Sprache
abgeleiteten Metawort die richtig geschriebene Form des betreffenden Wortes ein für
allemal zuordnet (Rechtschreibung). Es muß an dieser Stelle auch geklärt bzw.
definiert werden, welche Worte zusammengeschrieben werden (Wortgrammatik). Ist
dies jedoch einmal durchgeführt, kann man die redundanzfreie Codierung in dem
oberen Bereich der Abstraktionsebenen leicht bis zu den außerordentlich niedrigen
Informationswerten weitertreiben, wie sie die statistische Informationstheorie
voraussagt, siehe Fig. 5.
Das Verfahren ist auf die Erfassung komplexerer Zusammenhänge leicht zu erweitern.
Dazu braucht man sich nur zu überlegen, was die wesentlichen Kennzeichen des oben
dargestellten Verfahrens sind. Offenbar muß primär eine Folge von Zahlenwerten
vorliegen. Im obigen Beispiel sind es die Abtastwerte einer Zeitfunktion. Die Zeit muß
aber nicht immer die Dimension sein, innerhalb derer sich die Ordnung der Glieder
bzw. ihrer Aufeinanderfolge ergibt. Es genügt vielmehr, wenn für jedes Glied der Folge
eindeutig das darauf folgende Glied feststeht. D.h. es müssen
Nachbarschaftsbeziehungen definiert sein. Man kann z. B. einen Linienzug in der
Ebene zeichnen, siehe Fig. 6, mit einer wohlbekannten zweidimensionalen Funktion mit
Symbolbedeutung, und in regelmäßigen Abständen die Koordinaten (x, y) auf diesem
Linienzug ermitteln. Dann bilden diese Koordinaten vom Beginn bis zum Ende des
Linienzuges eine endliche Folge von Zahlenwerten. In dem betrachteten Fall kann man
die aus jeweils zwei Koordinaten bestehenden Zahlenwerte sogar leicht in zwei
einfache Zeitfunktionen umwandeln, indem man den Linienzug entlangfährt, und die
Zeitfunktionen x(t) und y(t) durch Projektion auf die zwei Achsen bildet. Bleiben wir
jedoch für das folgende einmal bei der Vorstellung des durchgehenden und
abgetasteten Linienzuges. Da die speziellen absoluten Koordinaten meist völlig
uninteressant sind, wollen wir zunächst eine weniger redundante Folge bilden.
Zwischen je zwei Abtastpunkten läßt sich nämlich ein kleiner Vektor einzeichnen, der
genau in die Richtung weist, in der das Schreiben oder das Zeichnen erfolgte, siehe
Fig. 7. Jeder dieser Vektoren hat eine Richtung, die z. B. durch den Winkel zur
Waagerechten gegeben ist. Damit ist die Entsprechung zum oben skizzierten Verfahren
bei einer abgetasteten zeitabhängigen Funktion gefunden. (Man kann auch einfach die
Amplitude eines Abtastwertes der Zeitfunktion ersetzen durch die Richtung des
Vektors in einem Abtastpunkt der zweidimensionalen Kurve.) Der wesentliche
Unterschied besteht darin, daß der Winkel des Vektors jetzt im Bereich von 0 bis 360
Grad liegt, was man natürlich ebenfalls mit einigen Bits quantisieren kann.
Komplikationen können dann entstehen, wenn der Linienzug Kreuzungen oder
Verzweigungen aufweist wie z. B. bei der Ziffer "4". Bei geschriebenen Buchstaben
müssen zudem noch die i-Punkte, Apostrophe, Akzente und Satzzeichen berücksichtigt
werden. In all den Fällen, in denen man - analog zum Schreiben - in einen
zeitabhängigen Linienzug mit x(t) und y(t) auflösen kann, läßt sich jedoch auf den
einfacheren Fall der eindeutigen zusammenhängenden Zeitfunktionen reduzieren. Das
ist z. B. bei allen handschriftlichen Aufzeichnungen der Fall.
Eine weitere Verallgemeinerung kann darin bestehen, daß man bei zeitabhängigen
Funktionen anstelle der zeitlichen Größen wie Abtastwerte oder Steigungen die
entsprechenden Spektralgrößen verwendet. Kurzzeitspektren lassen sich z. B. als
"Quasiworte" deuten und ebenso nutzen wie einige aufeinander folgende Steigungen.
Sehr viel Redundanz läßt sich aus den Zeitfunktionen mit Symbolbedeutung
eliminieren, indem man nur eine begrenzte Anzahl von Übergängen zwischen jeweils
zwei Abtastwerten nutzt. Im Beispiel der oben besprochenen quantisierten Steigungen
werden damit alle tatsächlich vorkommenden verschiedenen Steigungen, die in das
gleiche Winkelintervall fallen, schon als ähnlich angesehen und in derselben Weise
codiert. Der entsprechende Vorgang spielt sich natürlich auch auf den höheren
Abstraktionsebenen ab, so daß die Zusammenfassung ähnlicher "Metaworte" auch die
Ähnlichkeiten in der Aufeinanderfolge vieler Vektoren erfaßt. Das letzte Metawort ist
dann die Kennzeichnung aller ähnlichen Kurvenzüge, d. h. die Codierung der
Symbolbedeutung der gesamten Zeitfunktion.
Um die Ähnlichkeit der gesprochenen Sprache bei verschiedenen Menschen besser zu
erfassen, ist es günstig, die Abtastintervalle auf die Sprechgrundfrequenz (Pitch-
Frequenz) zu beziehen. Damit lassen sich die gesprochenen Worte unabhängig von
ihrer Tonhöhe klassifizieren. Eine solche Skalierung von Spannungszeitfunktionen ist
eine nützliche und seit langem gebräuchliche Methode.
Bei der Codierung der Ähnlichkeit gibt es einen charakteristischen Unterschied zu den
oben erwähnten Differenzcodierungsverfahren mit Prädiktion. Dort kommt es darauf
an, für häufig vorkommende Übergänge eine möglichst kurze Länge des
Codierungswortes zu finden. Das leistet die Prädiktion, welche mit dem häufigsten
Übergang identisch ist. Schwierigkeiten entstehen jedoch immer dann, wenn es
mehrere verschiedene, aber etwa gleich häufige Übergänge gibt. Dann wird das
bekannte Differenzcodierungsverfahren mit einer einzigen Prädiktion sich überhaupt
nicht mehr auf den idealen Fall einstellen können.
Bei dem hier geschilderten neuen Verfahren sind die Verhältnisse jedoch anders. Hier
wird der Code, der dem Differenzcode entspricht, ja nicht nach außen gegeben,
sondern verbleibt in der Codierungsmaschinerie, die aus mehreren Abstraktionsebenen
besteht. Erst das letzte Metawort ist ja die Codierung, die übertragen wird. Daher muß
der zuerst entstehende "Differenzcode" auch keineswegs besonders kurz sein. Vielmehr
ergibt sich seine minimale Länge aus der Anzahl der zugelassenen Nachfolger zu einem
Quasi-Wort, aus denen jeweils eine Auswahl zu treffen ist.
Die benötigten Speichersysteme können im Prinzip genauso aufgebaut werden, wie sie
für die Behandlung gedruckter sprachlicher Texte in (5) ausführlich beschrieben
wurden. Fig. 5 zeigt eine Hierarchie von rückgekoppelten teilassoziativen Speichern mit
bedingten Assoziationen, die in (5) abkürzend semantischer Speicher genannt wurde.
Für die Codierung gesprochener Sprache werden jedoch im Unterschied zu den
Anordnungen in (5) in den Speicherworten der untersten Ebene einige wenige
aufeinander folgende Größen der Abtastfolge - z. B. wie oben exemplarisch dargestellt -
4 aufeinander folgende Steigungen als ein "Quasiwort" eingespeichert. Infolgedessen
benötigt man zuerst eine Vorverarbeitung der Zeitfunktionen f(t), siehe Fig. 9, die nach
Fig. 2 organisiert sein kann und der Reihe nach z. B. aus einem Abtaster, einem
Differenzgenerator, einem Umformer, einem Quantisierer und schließlich einem
Zwischenspeicher (Akkumulator) besteht. In dem Zwischenspeicher werden jeweils
soviele Zwischenergebnisse gesammelt, bis ein brauchbares Quasiwort entstanden ist.
Dieses wird dann in eine Speicherzeile des hierarchisch untersten assoziativen
Speichers des semantischen Speichers SM1 eingeschrieben. Darauf folgt im gesamten
semantischen Speicher SM1 die Redundanzreduktion der gesprochenen Sprache. Sie
braucht nur bis zu einem Punkt voranzuschreiten, an dem man vollständige Silben oder
Worte identifizieren kann. Wie diese allerdings mit Hilfe von Buchstaben geschrieben
werden, muß separat gelernt werden. In Fig. 10 werden im Zwischenspeicher ZS diese
Schreibinformationen den im semantischen Speicher SM1 ermittelten Metaworten für
die gesprochenen Silben oder Worte jeweils ein für allemal zugegeben. Dies kann man
als einen extrem schnell verlaufenden Lernvorgang auffassen.
Da es ohne experimentelle Erfahrung mit assoziativen Speichern schwer zu überblicken
ist, wie ein Abstraktionsprozeß verläuft, ist vielleicht ein Vergleich mit einer Methode
dienlich, bei der schon gewisse primitive Abstraktionsprozesse vorhanden sind, auch
wenn das Ergebnis in den wenigstens Fällen detailliert genug und den praktischen
Erfordernissen entsprechen wird.
Zunächst bilden wir die Differenz Δx zwischen aufeinander folgenden Abtastwerten. Je
zwei aufeinander folgende Differenzen haben den Mittelwert (Δxi+Δxi+1)/2. Solche
Mittelwerte enthalten daher nicht mehr die letzten Feinheiten des ursprünglichen
Funktionsverlaufes. Er ist gewissermaßen geglättet. Nur diese Mittelwerte speichern
wir paarweise in der ersten Abstraktionsebene ab. Dort bilden wir zudem noch die
Mittelwerte von jedem Paar der aufeinander folgenden ursprünglichen Mittelwerte,
und verwenden sie z. B. als Adresse oder als Teil einer Adresse zu den gespeicherten
Paaren. Die aufeinander folgenden Adressen werden wiederum weitergegeben und
paarweise in der zweiten Abstraktionsebene abgespeichert. Das wird dann über
weitere Abstraktionsebenen so fortgesetzt. Nach n Schritten sind schließlich 2n
Abtastwerte in einen gemeinsamen Mittelwert überführt, der sich im Speicher der
letzten Metaebene befindet. Unter Benutzung der Anfangsbedingungen für jede
Abstraktionsebene ist die ursprüngliche Abtastfolge wieder herstellbar.
Für einfache Funktionen läßt sich die Folge der Mittelwerte leicht überblicken. Z.B.
haben linear ansteigende oder abfallende Zeitfunktionen identische Differenzwerte,
weshalb auch die Mittelwerte in allen Abstraktionsebenen gleich werden. Für Geraden
in der Ebene ist die Richtung der Vektoren in den Abtastpunkten gleich, d. h. die
Differenzwerte ergeben sich zu Null. Daß Geraden als Grenzfälle von Kreisen
aufgefaßt werden können, wird bei der Gelegenheit ebenfalls sichtbar. Denn die
Differenzwinkel sind beim Durchlaufen eines Kreises stets gleich. Ihr Zahlenwert ist
ein Maß für den Durchmesser des Kreises und geht gegen Null, wenn der Durchmesser
des Kreises gegen unendlich geht.
Literatur
(1) A. Rapoport
Bedeutungslehre
Verlag Darmstädter Blätter, 1972
(2) C.E. Shannon
A Mathematical Theory of Communication.
The Bell System Technical Journal, July 1948, pp. 379-423, pp. 623-656
(3) C.E. Shannon
Prediction and Entropy of Printed English.
The Bell system Technical Journal, Jan. 1951, pp. 50-64
(4) W. Hilberg
Der bekannte Grenzwert der redundanzfreien Information in Texten - eine Fehlinterpretation der Shannonschen Experimente?
Frequenz 44 (1990), 9-10, S. 243-248
(5) W. Hilberg
Die texturale Sprachmaschine als Gegenpol zum Computer.
Verlag Sprache und Technik, 1990
(6) E. Hölzler; H. Holzwarth
Pulstechnik
Band I Grundlagen, Band II Anwendungen und Systeme
Springer-Verlag, Berlin, 1982, 1984
(7) Jayant, N.S.; Noll, P.
Digital Coding of Waveforms.
Prentice Hall, 1984
Bedeutungslehre
Verlag Darmstädter Blätter, 1972
(2) C.E. Shannon
A Mathematical Theory of Communication.
The Bell System Technical Journal, July 1948, pp. 379-423, pp. 623-656
(3) C.E. Shannon
Prediction and Entropy of Printed English.
The Bell system Technical Journal, Jan. 1951, pp. 50-64
(4) W. Hilberg
Der bekannte Grenzwert der redundanzfreien Information in Texten - eine Fehlinterpretation der Shannonschen Experimente?
Frequenz 44 (1990), 9-10, S. 243-248
(5) W. Hilberg
Die texturale Sprachmaschine als Gegenpol zum Computer.
Verlag Sprache und Technik, 1990
(6) E. Hölzler; H. Holzwarth
Pulstechnik
Band I Grundlagen, Band II Anwendungen und Systeme
Springer-Verlag, Berlin, 1982, 1984
(7) Jayant, N.S.; Noll, P.
Digital Coding of Waveforms.
Prentice Hall, 1984
Claims (11)
1. Anordnung zur Codierung orts- oder zeitabhängiger analoger Funktionen mit
Symbolbedeutung, bei der zuerst eine Abtastung der Funktionen, eine Quantisierung
der diskreten Abtastwerte und eine Differenzbildung vorgenommen wird, dadurch
gekennzeichnet, daß jedem Abtastwert oder Differenzwert ein oder mehrere
individuelle Prädiktionswerte in Form unvollständiger Zeiger zugeordnet sind, daß für
die Codierung des jeweils aktuellen Abtastwertes die individuellen Prädiktionswerte
von einem oder mehreren Vorgängerabtastwerten oder Differenzwerten herangezogen
werden, und daß ein assoziativer Speicher zur Speicherung und Verarbeitung der
Abtastwerte oder Differenzwerte und ihrer individuellen Prädiktionen verwendet wird.
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der assoziative digitale
Speicher ein rückgekoppelter assoziativer Speicher mit bedingten Assoziationen ist.
3. Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeweils mehrere
Differenzgrößen zu einem Quasiwort zusammengefaßt und als ein Speicherwort in den
assoziativen digitalen Speicher eingeschrieben wird.
4. Anordnung nach einem oder mehreren der Ansprüche 1 bis 3, dadurch
gekennzeichnet, daß auf den ersten assoziativen digitalen Speicher noch weitere in
einer hierarchischen Ordnung folgen, welche Anordnung als semantischer Speicher
bekannt ist, und daß die verhältnismäßig große Menge der ursprünglichen
Differenzgrößen für je eine Zeitfunktion mit Symbolbedeutung durch fortschreitende
Abstraktionsprozesse auf ein einziges Metawort reduziert wird.
5. Anordnung nach einem oder mehreren der Ansprüche 1 bis 4, dadurch
gekennzeichnet, daß die letzten Metaworte in der Hierarchie wenigstens soviele
Binärstellen enthalten, daß damit alle zu klassifizierenden Zeitfunktionen mit
Symbolbedeutung zu unterscheiden sind.
6. Anordnung nach einem oder mehreren der Ansprüche 1 bis 5, dadurch
gekennzeichnet, daß im Speicher für die letzten Metaworte, die typischen
gesprochenen Symbolen wie Silben oder Wörter entsprechen, noch die entsprechenden
Rechtschreibformen abgespeichert sind.
7. Anordnung nach einem oder mehreren der Ansprüche 1 bis 6, dadurch
gekennzeichnet, daß die hierarchische Anordnung assoziativer Speicher für die
Erkennung gesprochener Silben oder Wörter (SM1) ergänzt wird durch eine weitere
bekannte hierarchische Anordnung für die redundanzfreie Codierung geschriebener
oder gedruckter Texte (SM2), wobei der Speicher in der letzten hierarchischen Ebene
von (SM1) mit den Metaworten und ihren Rechtschreibformen zugleich der Speicher
in der ersten hierarchischen Ebene von (SM2) ist.
8. Anordnung nach einem oder mehreren der Ansprüche 1 bis 7, dadurch
gekennzeichnet, daß bei Funktionen mit Symbolbedeutung, die vom Ort abhängen, z. B.
bei Schriftzeichen auf einem Blatt Papier, zuerst in einer Vorverarbeitungsschaltung
eine im Prinzip bekannte Umwandlung durchgeführt wird, bei der eine Distanz auf der
Ebene oder im Raum in eine zeitliche Distanz umgesetzt wird (Parameterdarstellung),
und/oder bei der die Differenzvektoren in Steigungen einer oder mehrerer
Zeitfunktionen zerlegt werden.
9. Anordnung nach einem oder mehreren der Ansprüche 1 bis 8, dadurch
gekennzeichnet, daß die Frequenz der Abtastung bezogen ist auf die
Sprechgrundfrequenz bzw. die Pitchfrequenz.
10. Anordnung nach einem oder mehreren der Ansprüche 1 bis 9, dadurch
gekennzeichnet, daß der assoziative Speicher durch einen Pufferspeicher ergänzt ist, in
dem die Daten vorangegangener Abtastwerte zur Durchführung einer Look-Ahead-
Operation bzw. einer im allgemeinen nichtlinearen Prädiktion dynamisch gespeichert
sind.
11. Anordnung nach einem oder mehreren der Ansprüche 1 bis 10, dadurch
gekennzeichnet, daß die assoziativen Funktionen des Speichers durch einen Hash-
Algorithmus implementiert sind.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19914103277 DE4103277A1 (de) | 1991-02-04 | 1991-02-04 | Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19914103277 DE4103277A1 (de) | 1991-02-04 | 1991-02-04 | Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4103277A1 true DE4103277A1 (de) | 1992-08-06 |
DE4103277C2 DE4103277C2 (de) | 1993-06-09 |
Family
ID=6424326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19914103277 Granted DE4103277A1 (de) | 1991-02-04 | 1991-02-04 | Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4103277A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0543700A2 (de) * | 1991-11-22 | 1993-05-26 | Thomson-Csf | Verfahren zur Quantisierung der Sprachsignalenergie in einem Vocoder mit niedriger Bitrate |
US7272419B1 (en) | 1999-05-14 | 2007-09-18 | Freie Erfindungskünstler GmbH | Method for transmitting symbols and/or information from a sender to a recipient |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19922068C2 (de) * | 1999-05-14 | 2002-09-12 | Freie Erfindungskuenstler Gmbh | Verfahren und System zum Übermitteln von Symbolen von einem Sender zu einem Empfänger |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0091979A1 (de) * | 1982-04-20 | 1983-10-26 | Waldemar Dipl.-Ing. Kehler | Bereichsprädiktives Code-Modulationsverfahren mit signaladaptiv reduzierter bit-Rate |
-
1991
- 1991-02-04 DE DE19914103277 patent/DE4103277A1/de active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0091979A1 (de) * | 1982-04-20 | 1983-10-26 | Waldemar Dipl.-Ing. Kehler | Bereichsprädiktives Code-Modulationsverfahren mit signaladaptiv reduzierter bit-Rate |
Non-Patent Citations (4)
Title |
---|
HILBERG, W.: Der bekannte Grenzwert der redundanzfreien Information in Texten - eine Fehlinterpretation der Shannonschen Experimente?. In: FREQUENZ, 1990, 9-10, S. 243-248 * |
HÖLZER, E. und HOLZWARTH, H.: Pulstechnik Band I und II, zweite Auflage, Springer-Verlag, 1986 und 1984 ISBN 3-540-10903-X, ISBN 3-540-13263-5 * |
SHANNON, C.E.: A Mathematical Theory of Communi- cation. In: The Bell System Technical Journal, 1948, Nr. 3, S. 379-423, S. 623-656 * |
SHANNON, C.E.: Prediction and Entropy of Printed English. In: The Bell System Technical Journal, 1951, S. 50-64 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0543700A2 (de) * | 1991-11-22 | 1993-05-26 | Thomson-Csf | Verfahren zur Quantisierung der Sprachsignalenergie in einem Vocoder mit niedriger Bitrate |
EP0543700A3 (en) * | 1991-11-22 | 1993-09-29 | Thomson-Csf | Method for quantification of speed signal energy in a low bit rate vocoder |
US7272419B1 (en) | 1999-05-14 | 2007-09-18 | Freie Erfindungskünstler GmbH | Method for transmitting symbols and/or information from a sender to a recipient |
Also Published As
Publication number | Publication date |
---|---|
DE4103277C2 (de) | 1993-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60219943T2 (de) | Verfahren zum komprimieren von wörterbuchdaten | |
DE2536640C3 (de) | Anordnung zur Erkennung von Geräuschen | |
DE69918172T2 (de) | Entropiekodierung von variabler zu variabler länge | |
DE2225652C3 (de) | Verfahren und Einrichtung zur Codierung und Decodierung von Videosignalen | |
DE3789857T2 (de) | System zur Komprimierung von Bildern mit mehreren Graustufen. | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE69907267T2 (de) | Entropie-code modenwechsel zur frequenzbereichsaudiokodierung | |
DE69726661T2 (de) | Verfahren und vorrichtung zur kodierung eines digitalen informationssignales | |
EP1500281A2 (de) | Kodierung von transformations-koeffizienten in bild- oder videokodierern | |
EP0276753A2 (de) | Verfahren und Vorrichtung zur digitalen Nachrichtenübertragung und/oder -aufzeichnung und -wiedergabe | |
DE69722085T2 (de) | Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Botschaften | |
EP1112621A1 (de) | Vorrichtung und verfahren zum entropie-codieren von informationswörtern und vorrichtung und verfahren zum decodieren von entropie-codierten informationswörtern | |
DE19910621A1 (de) | Vorrichtung und Verfahren zum Verbergen von Informationen und Vorrichtung und Verfahren zum Extrahieren von Informationen | |
DE3485824T2 (de) | Verfahren zur datenkompression. | |
DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
DE2357067A1 (de) | Vorrichtung zur sprachanalyse | |
DE19920501A1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese | |
DE60015755T2 (de) | Verlustfreie adaptive codierung von daten eines endlichen alphabets | |
DE4103277C2 (de) | ||
EP1125278B1 (de) | Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte | |
DE19907728C2 (de) | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms | |
DE2307441C1 (de) | Verfahren zum Verschleiern von Sprachsignalen | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE69032127T2 (de) | Bildkompressionsverfahren durch autoorganisation von einem neuronalen netz | |
DE2363590A1 (de) | Spracherkennungssystem mit merkmalsfolgekodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licenses declared (paragraph 23) | ||
8322 | Nonbinding interest in granting licenses declared | ||
8323 | Nonbinding interest in granting licenses withdrawn | ||
8339 | Ceased/non-payment of the annual fee |