DE4103277A1 - Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung - Google Patents

Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung

Info

Publication number
DE4103277A1
DE4103277A1 DE19914103277 DE4103277A DE4103277A1 DE 4103277 A1 DE4103277 A1 DE 4103277A1 DE 19914103277 DE19914103277 DE 19914103277 DE 4103277 A DE4103277 A DE 4103277A DE 4103277 A1 DE4103277 A1 DE 4103277A1
Authority
DE
Germany
Prior art keywords
memory
words
arrangement according
associative
functions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19914103277
Other languages
English (en)
Other versions
DE4103277C2 (de
Inventor
Wolfgang Dr Ing Hilberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19914103277 priority Critical patent/DE4103277A1/de
Publication of DE4103277A1 publication Critical patent/DE4103277A1/de
Application granted granted Critical
Publication of DE4103277C2 publication Critical patent/DE4103277C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

1. Einleitung
Wenn wir Laute, Silben, Worte, Sätze sprechen, erzeugen wir mit unseren Sprechwerkzeugen zeitabhängige Druckschwankungen in der uns umgebenden Luft. Sie können von den Hörorganen anderer Menschen aufgenommen werden. Durch diesen Mechanismus werden Informationen von einem Menschen zu anderen Menschen transportiert. Die erzeugten Druckschwankungen haben keinen beliebigen z. B. zufälligen Verlauf, sondern sie sind Signale, d. h. sie haben in der Sprache, in der sie gebraucht werden, eine verabredete symbolische Bedeutung. Der Mensch, der die Signale empfangen hat, wird mit Hilfe seines Gehörs und des zugehörigen Teils seines Gehirnes diesen symbolischen Gehalt aus den Zeitfunktionen extrahieren und wird dann erst begreifen, um was es geht. Sowohl das Gehör als auch das Sprachhirn sind dabei absolut notwendig. Für einen (hörlosen) an dem Kommunikationsvorgang nicht beteiligten Beobachter wird der symbolische Gehalt der empfangenen Signale jedoch erst augenfällig, wenn der Empfänger schließlich das Gehörte in Form eines Textes niederschreibt. All dies sind keine neuen aber doch sehr wichtige Erkenntnisse, siehe z. B. die sehr schöne Darstellung von A.Rapoport im ersten Kapitel seiner Bedeutungslehre (1).
Hier sei zunächst noch einmal darauf aufmerksam gemacht, wie außerordentlich die Informationswerte von gesprochener und geschriebener Sprache differieren, was man mit den Mitteln der Elektrotechnik und der klassischen Informationstheorie leicht ermitteln kann (2, 3). Man wird die Druckschwankungen z. B. vermittels eines Mikrophons zuerst in einen elektrischen Spannungsverlauf umwandeln und dann diese Spannungs-Zeitfunktion unter Beachtung des Abtasttheorems in eine Folge diskreter (Abtast-) Amplitudenwerte umwandeln. Bei einer Breite des Spektrums wie sie z. B. beim Telefonieren üblich ist (mit der Grenzfrequenz von fg = 3 kHz), wird man dann pro Sekunde 6000 diskrete Amplitudenwerte erhalten. Faßt man jeden Amplitudenwert als ein Symbol auf, wobei die vorgeschriebene Auflösung den maximalen Symbolvorrat bestimmt (z. B. ergibt sich bei einer diskreten Darstellung der Amplitude mit 6 binären Stellen ein maximaler Symbolvorrat von 64), so kann man aus dieser Symbolfolge in üblicher Weise die Entropie oder die Kanalkapazität berechnen (hier gibt es 36 000 bit pro Sekunde). Die erhaltenen Werte sind heute - trotz aller Methoden der Datenkompression - noch außerordentlich hoch, wenn man sie vergleicht mit dem Informationsfluß, der sich bei einer zeitgleichen Übermittlung derselben Informationen in Form eines "gedruckten" Textes ergibt. Dann erhält man bekanntlich nur relativ wenige bit pro Sekunde. Die Folge der Abtastwerte der Spannungs-Zeitfunktion mit Symbolbedeutung muß daher eine außerordentlich große Redundanz enthalten.
Daher ist es verständlich, daß, so lange es eine Nachrichtentechnik gibt, schon immer versucht wurde, die Zeitfunktionen geeignet zu filtern, um durch eine Umwandlung des Spektrums zu redundanzärmeren Darstellungen zu kommen.
Damit ist man aber bis jetzt nicht sehr weit gekommen, denn es besteht nach wie vor ein Unterschied im Informationsfluß von gesprochener und geschriebener Sprache, der einige Größenordnungen beträgt. Berücksichtigt man darüber hinaus noch den inneren Zusammenhang zwischen den Buchstaben, Worten und Sätzen in längeren Texten, und die sich dadurch ergebende Verringerung des Informationsflusses, so kommen noch weitere Größenordnungen im Abstand hinzu (4). Es fehlt also für die anfänglich erzeugten Spannungs-Zeitfunktionen der gesprochenen natürlichen Sprache ein Codier- bzw. Modulationsverfahren, das stark redundanzvermindernd wirkt. Es wäre schon viel gewonnen, wenn man von der Entropie gesprochener Silben oder Worte unter Vernachlässigung individueller Sprachkennzeichen auf die Entropie geschriebener Silben oder Worte herunterkäme.
2. Grundgedanke des neuen Verfahrens
In der obigen Skizzierung der zu lösenden Aufgabe wurde sorgfältig das Wort "Filtern" vermieden, weil es zu sehr an die klassische Technik der analogen oder digitalen Frequenzfilterung erinnert. Nach allen Anstrengungen der Vergangenheit ist aber klar, daß die gewünschte starke Verringerung der Redundanz nicht mit einer Frequenzfilterung zu erreichen ist. Im Vorgriff auf spätere Erörterungen sei hier schon einmal festgehalten, daß vor allem die Veränderung des Spektrums in Form einer irreversiblen "Vernichtung" von Spektralanteilen, die beim klassischen Filtern fast immer vorliegt, den Begriff "Filtern" nicht sonderlich geeignet macht.
Vielmehr können wir uns von einem Gedanken anregen lassen, der sich bei der Verarbeitung natürlichsprachlicher Texte als sehr fruchtbar erwiesen hat. Er wurde als ein schrittweise vor sich gehender Abstraktionsprozeß beschrieben, der sowohl in Richtung zunehmender Abstraktion als auch in Richtung abnehmender Abstraktion gehen kann (5). Das wesentliche dabei ist, daß in Richtung zunehmender Abstraktion die "redundanten" Informationsanteile, die abstrahiert wurden, nicht vernichtet, sondern gespeichert werden. Das muß gut organisiert werden, damit man später in der umgekehrten Richtung, der Konkretionsrichtung, die "redundanten" Anteile wieder hinzufügen kann.
Das Verfahren, dessen Grundgedanken wir uns hier zum Vorbild machen wollen, bewegt sich im Raum der Texte und ihrer Symbole (Buchstaben, Wörter, Sätze), das datenverarbeitende Gerät ist die "texturale Sprachmaschine" mit dem Kern, dem "semantischen Speicher".
Bei kontinuierlichen Spannungs-Zeitfunktionen jedoch, die wie im Falle der gesprochenen Sprache, eine verabredete Bedeutung haben, gibt es zunächst keine einfachen Symbole, die den Buchstaben und Wörtern der geschriebenen Sprache vergleichbar wären. Zwar ist auch in der geschriebenen Sprache die exakte Definition der Symbole, z. B. der Buchstaben, nicht als leicht anzusehen, wenn man alle handschriftlichen Varianten in die Betrachtung einbeziehen will. Dennoch wird man die Menge der Varianten gesprochener Worte bzw. die Varianten der entsprechenden Spannungs-Zeitfunktionen noch sehr viel größer einschätzen müssen als die der geschriebenen oder gedruckten Sprache. Um so erstaunlicher ist es, daß die menschlichen Hörorgane und der zugehörige Teil des Gehirnes fähig sind, den Symbolgehalt solcher Zeitfunktionen rasch und zuverlässig festzustellen. Hier wird scheinbar mühelos seit Urzeiten der Menschheitsgeschichte und lange bevor es eine Schriftsprache gab, ein kompliziertes Klassifizierungsproblem gelöst, das bisher selbst mit Hilfe großer Rechner nicht befriedigend zu lösen war. Halten wir nochmals fest: Der gesamte und äußerst vielgestaltige Schwingungszug, den wir beim Sprechen einer Silbe oder eines Wortes erzeugen, ist das zu erkennende Symbol. Jeder Mensch produziert für jedes Symbol einen für ihn charakteristischen d. h. individuellen Schwingungszug. Außerdem ist selbst bei Beschränkung auf Laute, Phoneme oder Silben die Anzahl der verschiedenen verabredeten Sprechsymbole weit größer als die Anzahl von verschiedenen Buchstaben für die geschriebene Sprache.
Die Lösungsstrategie für die gestellte Aufgabe besteht darin, die zeitabhängige (und eventuell auch ortsabhängige) Veränderung eines Spannungswertes zuerst zu diskretisieren, sei es nun im Zeit- oder im Spektralbereich, dann die Aufeinanderfolge dieser diskreten analogen Werte so umzuformen, daß eine Folge besonders charakteristischer Größen entsteht (z. B. Differenzvektoren), die möglichen Verknüpfungen dieser aufeinander folgenden Größen zu ermitteln und abzuspeichern, und schließlich die Folge dieser Größen, die sich als Zahlenwerte (auch in mehreren Dimensionen) darstellen lassen, nach dem bekannten Vorbild der Redundanzverringerung durch schrittweise Abstraktionsprozesse in geschriebenen Texten (5), soweit in ihrem Informationsgehalt zu verdichten, daß man schließlich nur noch die Klassifizierung innerhalb der möglichen Anzahl verschiedener Silben oder Worte hat. Wichtig dabei ist, daß man diese Prozesse auch umgekehrt wieder ablaufen lassen kann, daß also zu einem gegebenen Symbol für eine Silbe oder ein Wort auch wieder die zugehörige typische Spannungs-Zeitfunktion erzeugt wird. Es wird sich dabei herausstellen, daß man mit der Elimination persönlicher Sprechermerkmale im Zuge aufeinander folgender Abstraktionsprozesse auch zugleich störende Einflüsse wie Rauschen, Hintergrundgeräusche und dergleichen völlig beseitigen kann.
3. Frühe Verfahren der Nachrichtentechnik als geeigneter Ausgangspunkt für die Anwendung speichergesteuerter Abstraktionsprozesse
Die Differenzcodierung mit ihren Prädiktionen bzw. die entsprechenden Differenz- Modulationsverfahren (DM) und Differenz-Puls-Code-Modulationsverfahren (DPCM) können als eine Vorstufe des hier zu beschreibenden neuen Verfahrens gesehen werden. Diese Verfahren sind in vielen Lehrbüchern, z. B. in (6) ausführlich beschrieben worden und können hier als allgemein bekannt vorausgesetzt werden. Die zwei wesentlichen Unterschiede dieser Verfahren zu dem hier zu beschreibenden neuen Verfahren liegen darin, daß die bekannten Verfahren zum einen beim Übergang von einem Abtastwert zum nächsten von "statistischen Prädiktionen" Gebrauch machen und sich hierbei stets auf die wahrscheinlichste Prädiktion bzw. der Abweichung zu ihr festlegen, und zum anderen, daß sie nur diesen einen Verbesserungsschritt durchführen. Sie gehen nicht in höhere Abstraktionsebenen. Das wäre an und für sich möglich gewesen, denn die Abweichung vom jeweils wahrscheinlichsten Prädiktionswert bringt ja schon eine ganz beachtliche Reduzierung der Redundanz. Beschränkt man sich auf zeitabhängige Funktionen mit Symbolbedeutung wie z. B. ein gesprochenes Wort der deutschen Sprache, fehlt eigentlich nur noch der Entschluß, zwei oder mehr aufeinander folgende Differenzcodes zu einer Metagröße zusammenzufassen und das Verfahren der Differenzcodierung auf dieser Metaebene zu wiederholen. Natürlich würde man dazu eine leistungsfähige Speicherorganisation benötigen (rückgekoppelte teilassoziative Speicherorganisation mit bedingter Assoziation), die man in der Vergangenheit auf dem Gebiet der Nachrichtentechnik nicht kannte. Erst heute, im Zeitalter der hochintegrierten Schaltungen (VLSI) mit vielen Millionen Transistoren auf einem Chip ist auch überhaupt an die Implementierung solcher speicherintensiven Lösungen für eine schritthaltende Datenverarbeitung (real time) zu denken. Der Gewinn, den man bei ihrem Einsatz erhalten kann, ist so groß, daß er auch für die Codierung analoger zeitabhängiger Funktionen den großen Aufwand rechtfertigt.
4. Das neue Verfahren am Beispiel typischer Zeitfunktionen mit Symbolbedeutung
Offenbar gibt es günstige und ungünstige Methoden eines Abstraktionsprozesses und der Bildung von Metagrößen. Die Gewinnung eines Codes mit der gerade skizzierten bekannten DPCM-Methode unter Bezug auf die wahrscheinlichsten Prädiktionen ist offenbar nicht sehr günstig, weil man ja zuerst einmal die wahrscheinlichsten Prädiktionen bestimmen muß. Arbeitet man dann weiterhin mit nur wenigen Differenzen zu dieser Prädiktion, geht man die Gefahr ein, daß nicht mehr in allen Fällen die ursprünglichen Kennzeichen der Größen rekonstruiert werden können. Man sollte also fordern, daß alle Möglichkeiten eines Überganges berücksichtigt werden.
Betrachten wir als Beispiel den elektrischen Spannungsverlauf gesprochener deutscher Sprache. Wenn wir ein und dasselbe deutsche Wort immer wieder von einer Person oder mehreren Personen sprechen lassen, werden wir Spannungsverläufe erhalten, die sehr ähnlich sind. Wir könnten sie nun abtasten - stellen wir uns am besten vor, dies in etwas häufigeren Zeitabständen zu tun, als es dem Abtastheorem entspricht - und wir könnten im einfachsten Fall die Differenz aufeinander folgender Amplitudenwerte als Steuercode X verwenden (5). Um aber den Unterschied zu den bekannten Differenzcodierungen deutlicher zu machen, wollen wir das Verfahren etwas umändern. Nach Fig. 1a sollen die Richtungen, in denen man vom Abtastpunkt P1 zum nächsten Abtastpunkt P2 kommt, in 24 = 16 gleich große Winkelbereiche eingeteilt werden. Die jeweils aktuelle Verbindung liegt dann in einem kleinen Winkelbereich, der durch ein Codewort von 4 Bits zu kennzeichnen ist. In Fig. 1b sind einige aufeinanderfolgende Steigungen skizziert. Jeweils vier aufeinander folgende Steigungen fassen wir nun zusammen, siehe das Blockschema in Fig. 2, wobei der Akkumulator als Zwischenspeicher für die 4 aufeinander folgenden Steigungen dient. Der Code für eine solche Vierergruppe hat eine Codewortlänge von 16 Bits, was einem Vorrat von 216 = 65 000 verschiedenen Aufeinanderfolgen von je 4 Steigungen entspricht. In Analogie zur Textcodierung (5) könnte man eine einzelne Steigung auch als einen "Quasi-Buchstaben" und vier zusammengefaßte Steigungen auch als ein "Quasi-Wort" bezeichnen. Es ist nun sehr unwahrscheinlich, daß in den zu codierenden Funktionen alle diese Quasi-Worte auch wirklich vorkommen. Bei solchen typischen Zeitverläufen mit Symbolbedeutung darf es nämlich nur eine überschaubare Zahl verschiedener resultierender Symbole geben, damit man sie auch auseinanderhalten kann (auch bei Textworten ergeben ja nicht alle theoretisch möglichen Buchstabenfolgen jedesmal ein gültiges Wort der Sprache). Aber selbst wenn alle theoretisch möglichen Quasi-Worte wirklich vorkommen sollten, welchen Fall man nicht auszuschließen braucht, wird es nur ganz bestimmte Aufeinanderfolgen von Quasi-Worten geben. Insbesondere wird jedes individuelle Quasi-Wort festlegen, wieviele verschiedene Quasi-Worte darauf folgen können und welche das sind. Ausgeschlossen könnten z. B. folgende Fälle sein: extreme Änderungen aufeinander folgender Steigungen, häufige starke Wechsel, zu seltene Wechsel usw. Dies läßt sich nun für das Quasi-Wort Ii zur Einführung einer Verkettung Yi ausnutzen. Sie kennzeichnet die Größe und Zusammensetzung der Nachfolgermenge. Innerhalb dieser Menge werden mit dem nächsten Codewort Xi+1 die Differenzierungen vorgenommen. Vorzugsweise sind diese Differenzierungen so gewählt, daß sie den Typ des nachfolgenden Quasi-Wortes angeben und bei allen Codes in gleicher Weise erfolgen (z. B. sollten 4 aufeinander folgende positive Steigungen in einem bestimmten Toleranzbereich, die jeweils in dem Quasi-Wort Ii+1 zusammengefaßt sind, stets dasselbe Codewort Xi+1 ergeben).
Wegen der Existenz begrenzter Nachfolgermengen zu jedem Quasiwort wird die Codelänge von X kleiner als die maximale Codelänge von 16 Bit sein, z. B. halb so lang. Dann kann man jeweils zwei X-Codierungen zu einem Metawort I′ zusammenfassen, dieses in den assoziativen Speicher der ersten Metaebene transportieren, abspeichern und verketten. Das Spiel wiederholt sich in dieser Abstraktionsebene genauso wie in der ursprünglichen Ebene, wodurch man zu weiteren Metaworten in weiteren Ebenen kommt. Dies ist schon mehrfach, z. B. in (5), ausführlich dargestellt worden. Für den begrenzten Zeitverlauf einer jeden gesprochenen (deutschen) Silbe ergibt sich schließlich in einer höheren Abstraktionsebene ein sehr konzentrierter Code, der die gesprochenen Silben symbolisch mit sehr wenigen Bits repräsentiert.
Bei dem hier dargestellten Verfahren ist es nicht notwendig, daß der Sprecher zwischen den Silben Pausen macht. Wenn gewünscht, kann das System selbst eingreifen, um Anfang und Ende von Silben zu markieren. Das ist dadurch zu erreichen, daß jedesmal dann, wenn eine Silbe in einem entsprechenden Metawort aktiviert wurde, ein entsprechendes Steuersignal abgegeben wird.
Ein zusammenhängender gesprochener Text wird nun auf verschiedenen Metaebenen die Metaworte der beteiligten Silben, Worte und Sätze nacheinander aktivieren. Dabei werden ähnlich verlaufende Zeitfunktionen zu denselben Metaworten führen. Bei der Reproduktion der Zeitfunktionen (in Richtung abnehmender Abstraktion) kann man nun eine möglichst exakte Reproduktion anstreben oder eine normierte bzw. eine einmal festgelegte individuelle Reproduktion. In letzterem Fall kann die Codekomprimierung natürlich wesentlich stärker sein, da die große Zahl aller möglichen individuell gesprochenen Varianten einer Zeitfunktion mit Symbolbedeutung auf eine einzige Zeitfunktion reduziert wird. Dabei werden natürlich ebenfalls Fremdgeräusche wie z. B. Rauschen, Klirren oder Hintergrundgeräusche eliminiert. Die Redundanzreduktion mit Hilfe schrittweiser Abstraktionsprozesse kann daher auch als ein idealer Regenerationsprozeß für stark verrauschte oder verzerrte Funktionen eingesetzt werden.
Sehr effektiv wird das Verfahren der zunehmenden Abstraktion, wenn in einer oder mehreren der Abstraktionsebenen mit ihren jeweiligen assoziativen Speichern noch eine Look-Ahead-Operation eingebaut wird, wie sie in (5) in der Anwendung auf Texte ausführlich beschrieben wurde. Hierbei werden bekanntlich für die Auswahl eines Speicherwortes in einem assoziativen Speicher Daten vorangegangener Worte in einem zusätzlichen Pufferspeicher zwischengespeichert, siehe Fig. 3, so daß die Gruppe der Nachfolgerworte, in der eine Auswahl zu treffen ist, kleiner wird. Damit kann ein nicht unwesentlicher Anteil der Redundanz in der Folge von Abtastwerten schon innerhalb einer Abstraktionsebene beseitigt werden. Ähnlichkeiten zu dem bekannten Verfahren der Linearprädiktion bei linearen Digitalfiltern, siehe z. B. (6) zweite Auflage 1982, S. 364 und S. 70, sind vorhanden. Siehe auch Fig. 4 aus (7). Allerdings ist das Look- Ahead-Verfahren mit einem assoziativen Speicher nicht auf lineare Prädiktionen beschränkt. Jede im dynamischen Zwischenspeicher mit ihren Verkettungsdaten präsente Gruppe von Vorgängerworten (Vorgängerabtastwerten) wird individuell berücksichtigt und kann z. B. auch einmal die gleiche Auswahl ergeben wie eine Vorgängergruppe, die ansonsten völlig verschieden ist. Das gilt natürlich auch umgekehrt, wobei noch besonders die verschiedenen Anfangsbedingungen einer fortlaufenden Verkettung im assoziativen Speicher (assoziatives Netzwerk) zu berücksichtigen sind. Es gelingt mit anderen Worten also, mit einem erträglichen technischen Aufwand eine allgemeine, d. h. nichtlineare und individuell gestaltbare Prädiktion zu realisieren.
5. Kombination der Abstraktionsebenen für gesprochene und für geschriebene Sprache
Bei der praktischen Ausgestaltung der einzelnen Abstraktionsebenen mit Speichereigenschaften (Meta-Ebenen) ist es sicher empfehlenswert, eine Unterteilung in zwei Bereiche, z. B. von "unteren" und "oberen" Abstraktionsebenen vorzunehmen. Die unteren Ebenen müssen die Zeitfunktionen als Silben- und Wortsymbole erkennen (natürlich müssen dazu auch die Pausen erkannt werden). Sobald aber die Wortsymbole erkannt sind, kann man im Prinzip auf die höheren Ebenen der Textverarbeitung einer Schriftsprache übergehen. Dazu muß jedoch zwischen der obersten Meta-Ebene für Worte, die aus gesprochenen Texten aufgebaut wurden und der untersten Ebene (Basisebene) für die Verarbeitung geschriebener Texte, in die zuerst die aus Buchstaben bestehenden Wörter der Schriftsprache eingeschrieben wurden, eine Anpassung durchgeführt werden. Dies kann so geschehen, daß man an der Grenze zwischen beiden Bereichen dem aus der gesprochenen Sprache abgeleiteten Metawort die richtig geschriebene Form des betreffenden Wortes ein für allemal zuordnet (Rechtschreibung). Es muß an dieser Stelle auch geklärt bzw. definiert werden, welche Worte zusammengeschrieben werden (Wortgrammatik). Ist dies jedoch einmal durchgeführt, kann man die redundanzfreie Codierung in dem oberen Bereich der Abstraktionsebenen leicht bis zu den außerordentlich niedrigen Informationswerten weitertreiben, wie sie die statistische Informationstheorie voraussagt, siehe Fig. 5.
6. Verallgemeinerungen des Prinzips
Das Verfahren ist auf die Erfassung komplexerer Zusammenhänge leicht zu erweitern. Dazu braucht man sich nur zu überlegen, was die wesentlichen Kennzeichen des oben dargestellten Verfahrens sind. Offenbar muß primär eine Folge von Zahlenwerten vorliegen. Im obigen Beispiel sind es die Abtastwerte einer Zeitfunktion. Die Zeit muß aber nicht immer die Dimension sein, innerhalb derer sich die Ordnung der Glieder bzw. ihrer Aufeinanderfolge ergibt. Es genügt vielmehr, wenn für jedes Glied der Folge eindeutig das darauf folgende Glied feststeht. D.h. es müssen Nachbarschaftsbeziehungen definiert sein. Man kann z. B. einen Linienzug in der Ebene zeichnen, siehe Fig. 6, mit einer wohlbekannten zweidimensionalen Funktion mit Symbolbedeutung, und in regelmäßigen Abständen die Koordinaten (x, y) auf diesem Linienzug ermitteln. Dann bilden diese Koordinaten vom Beginn bis zum Ende des Linienzuges eine endliche Folge von Zahlenwerten. In dem betrachteten Fall kann man die aus jeweils zwei Koordinaten bestehenden Zahlenwerte sogar leicht in zwei einfache Zeitfunktionen umwandeln, indem man den Linienzug entlangfährt, und die Zeitfunktionen x(t) und y(t) durch Projektion auf die zwei Achsen bildet. Bleiben wir jedoch für das folgende einmal bei der Vorstellung des durchgehenden und abgetasteten Linienzuges. Da die speziellen absoluten Koordinaten meist völlig uninteressant sind, wollen wir zunächst eine weniger redundante Folge bilden. Zwischen je zwei Abtastpunkten läßt sich nämlich ein kleiner Vektor einzeichnen, der genau in die Richtung weist, in der das Schreiben oder das Zeichnen erfolgte, siehe Fig. 7. Jeder dieser Vektoren hat eine Richtung, die z. B. durch den Winkel zur Waagerechten gegeben ist. Damit ist die Entsprechung zum oben skizzierten Verfahren bei einer abgetasteten zeitabhängigen Funktion gefunden. (Man kann auch einfach die Amplitude eines Abtastwertes der Zeitfunktion ersetzen durch die Richtung des Vektors in einem Abtastpunkt der zweidimensionalen Kurve.) Der wesentliche Unterschied besteht darin, daß der Winkel des Vektors jetzt im Bereich von 0 bis 360 Grad liegt, was man natürlich ebenfalls mit einigen Bits quantisieren kann.
Komplikationen können dann entstehen, wenn der Linienzug Kreuzungen oder Verzweigungen aufweist wie z. B. bei der Ziffer "4". Bei geschriebenen Buchstaben müssen zudem noch die i-Punkte, Apostrophe, Akzente und Satzzeichen berücksichtigt werden. In all den Fällen, in denen man - analog zum Schreiben - in einen zeitabhängigen Linienzug mit x(t) und y(t) auflösen kann, läßt sich jedoch auf den einfacheren Fall der eindeutigen zusammenhängenden Zeitfunktionen reduzieren. Das ist z. B. bei allen handschriftlichen Aufzeichnungen der Fall.
Eine weitere Verallgemeinerung kann darin bestehen, daß man bei zeitabhängigen Funktionen anstelle der zeitlichen Größen wie Abtastwerte oder Steigungen die entsprechenden Spektralgrößen verwendet. Kurzzeitspektren lassen sich z. B. als "Quasiworte" deuten und ebenso nutzen wie einige aufeinander folgende Steigungen.
7. Ähnlichkeit
Sehr viel Redundanz läßt sich aus den Zeitfunktionen mit Symbolbedeutung eliminieren, indem man nur eine begrenzte Anzahl von Übergängen zwischen jeweils zwei Abtastwerten nutzt. Im Beispiel der oben besprochenen quantisierten Steigungen werden damit alle tatsächlich vorkommenden verschiedenen Steigungen, die in das gleiche Winkelintervall fallen, schon als ähnlich angesehen und in derselben Weise codiert. Der entsprechende Vorgang spielt sich natürlich auch auf den höheren Abstraktionsebenen ab, so daß die Zusammenfassung ähnlicher "Metaworte" auch die Ähnlichkeiten in der Aufeinanderfolge vieler Vektoren erfaßt. Das letzte Metawort ist dann die Kennzeichnung aller ähnlichen Kurvenzüge, d. h. die Codierung der Symbolbedeutung der gesamten Zeitfunktion.
Um die Ähnlichkeit der gesprochenen Sprache bei verschiedenen Menschen besser zu erfassen, ist es günstig, die Abtastintervalle auf die Sprechgrundfrequenz (Pitch- Frequenz) zu beziehen. Damit lassen sich die gesprochenen Worte unabhängig von ihrer Tonhöhe klassifizieren. Eine solche Skalierung von Spannungszeitfunktionen ist eine nützliche und seit langem gebräuchliche Methode.
Bei der Codierung der Ähnlichkeit gibt es einen charakteristischen Unterschied zu den oben erwähnten Differenzcodierungsverfahren mit Prädiktion. Dort kommt es darauf an, für häufig vorkommende Übergänge eine möglichst kurze Länge des Codierungswortes zu finden. Das leistet die Prädiktion, welche mit dem häufigsten Übergang identisch ist. Schwierigkeiten entstehen jedoch immer dann, wenn es mehrere verschiedene, aber etwa gleich häufige Übergänge gibt. Dann wird das bekannte Differenzcodierungsverfahren mit einer einzigen Prädiktion sich überhaupt nicht mehr auf den idealen Fall einstellen können.
Bei dem hier geschilderten neuen Verfahren sind die Verhältnisse jedoch anders. Hier wird der Code, der dem Differenzcode entspricht, ja nicht nach außen gegeben, sondern verbleibt in der Codierungsmaschinerie, die aus mehreren Abstraktionsebenen besteht. Erst das letzte Metawort ist ja die Codierung, die übertragen wird. Daher muß der zuerst entstehende "Differenzcode" auch keineswegs besonders kurz sein. Vielmehr ergibt sich seine minimale Länge aus der Anzahl der zugelassenen Nachfolger zu einem Quasi-Wort, aus denen jeweils eine Auswahl zu treffen ist.
8. Die technische Realisierung mit assoziativen Speichern
Die benötigten Speichersysteme können im Prinzip genauso aufgebaut werden, wie sie für die Behandlung gedruckter sprachlicher Texte in (5) ausführlich beschrieben wurden. Fig. 5 zeigt eine Hierarchie von rückgekoppelten teilassoziativen Speichern mit bedingten Assoziationen, die in (5) abkürzend semantischer Speicher genannt wurde. Für die Codierung gesprochener Sprache werden jedoch im Unterschied zu den Anordnungen in (5) in den Speicherworten der untersten Ebene einige wenige aufeinander folgende Größen der Abtastfolge - z. B. wie oben exemplarisch dargestellt - 4 aufeinander folgende Steigungen als ein "Quasiwort" eingespeichert. Infolgedessen benötigt man zuerst eine Vorverarbeitung der Zeitfunktionen f(t), siehe Fig. 9, die nach Fig. 2 organisiert sein kann und der Reihe nach z. B. aus einem Abtaster, einem Differenzgenerator, einem Umformer, einem Quantisierer und schließlich einem Zwischenspeicher (Akkumulator) besteht. In dem Zwischenspeicher werden jeweils soviele Zwischenergebnisse gesammelt, bis ein brauchbares Quasiwort entstanden ist. Dieses wird dann in eine Speicherzeile des hierarchisch untersten assoziativen Speichers des semantischen Speichers SM1 eingeschrieben. Darauf folgt im gesamten semantischen Speicher SM1 die Redundanzreduktion der gesprochenen Sprache. Sie braucht nur bis zu einem Punkt voranzuschreiten, an dem man vollständige Silben oder Worte identifizieren kann. Wie diese allerdings mit Hilfe von Buchstaben geschrieben werden, muß separat gelernt werden. In Fig. 10 werden im Zwischenspeicher ZS diese Schreibinformationen den im semantischen Speicher SM1 ermittelten Metaworten für die gesprochenen Silben oder Worte jeweils ein für allemal zugegeben. Dies kann man als einen extrem schnell verlaufenden Lernvorgang auffassen.
Anhang
Da es ohne experimentelle Erfahrung mit assoziativen Speichern schwer zu überblicken ist, wie ein Abstraktionsprozeß verläuft, ist vielleicht ein Vergleich mit einer Methode dienlich, bei der schon gewisse primitive Abstraktionsprozesse vorhanden sind, auch wenn das Ergebnis in den wenigstens Fällen detailliert genug und den praktischen Erfordernissen entsprechen wird.
Zunächst bilden wir die Differenz Δx zwischen aufeinander folgenden Abtastwerten. Je zwei aufeinander folgende Differenzen haben den Mittelwert (Δxi+Δxi+1)/2. Solche Mittelwerte enthalten daher nicht mehr die letzten Feinheiten des ursprünglichen Funktionsverlaufes. Er ist gewissermaßen geglättet. Nur diese Mittelwerte speichern wir paarweise in der ersten Abstraktionsebene ab. Dort bilden wir zudem noch die Mittelwerte von jedem Paar der aufeinander folgenden ursprünglichen Mittelwerte, und verwenden sie z. B. als Adresse oder als Teil einer Adresse zu den gespeicherten Paaren. Die aufeinander folgenden Adressen werden wiederum weitergegeben und paarweise in der zweiten Abstraktionsebene abgespeichert. Das wird dann über weitere Abstraktionsebenen so fortgesetzt. Nach n Schritten sind schließlich 2n Abtastwerte in einen gemeinsamen Mittelwert überführt, der sich im Speicher der letzten Metaebene befindet. Unter Benutzung der Anfangsbedingungen für jede Abstraktionsebene ist die ursprüngliche Abtastfolge wieder herstellbar.
Für einfache Funktionen läßt sich die Folge der Mittelwerte leicht überblicken. Z.B. haben linear ansteigende oder abfallende Zeitfunktionen identische Differenzwerte, weshalb auch die Mittelwerte in allen Abstraktionsebenen gleich werden. Für Geraden in der Ebene ist die Richtung der Vektoren in den Abtastpunkten gleich, d. h. die Differenzwerte ergeben sich zu Null. Daß Geraden als Grenzfälle von Kreisen aufgefaßt werden können, wird bei der Gelegenheit ebenfalls sichtbar. Denn die Differenzwinkel sind beim Durchlaufen eines Kreises stets gleich. Ihr Zahlenwert ist ein Maß für den Durchmesser des Kreises und geht gegen Null, wenn der Durchmesser des Kreises gegen unendlich geht.
Literatur
(1) A. Rapoport
Bedeutungslehre
Verlag Darmstädter Blätter, 1972
(2) C.E. Shannon
A Mathematical Theory of Communication.
The Bell System Technical Journal, July 1948, pp. 379-423, pp. 623-656
(3) C.E. Shannon
Prediction and Entropy of Printed English.
The Bell system Technical Journal, Jan. 1951, pp. 50-64
(4) W. Hilberg
Der bekannte Grenzwert der redundanzfreien Information in Texten - eine Fehlinterpretation der Shannonschen Experimente?
Frequenz 44 (1990), 9-10, S. 243-248
(5) W. Hilberg
Die texturale Sprachmaschine als Gegenpol zum Computer.
Verlag Sprache und Technik, 1990
(6) E. Hölzler; H. Holzwarth
Pulstechnik
Band I Grundlagen, Band II Anwendungen und Systeme
Springer-Verlag, Berlin, 1982, 1984
(7) Jayant, N.S.; Noll, P.
Digital Coding of Waveforms.
Prentice Hall, 1984

Claims (11)

1. Anordnung zur Codierung orts- oder zeitabhängiger analoger Funktionen mit Symbolbedeutung, bei der zuerst eine Abtastung der Funktionen, eine Quantisierung der diskreten Abtastwerte und eine Differenzbildung vorgenommen wird, dadurch gekennzeichnet, daß jedem Abtastwert oder Differenzwert ein oder mehrere individuelle Prädiktionswerte in Form unvollständiger Zeiger zugeordnet sind, daß für die Codierung des jeweils aktuellen Abtastwertes die individuellen Prädiktionswerte von einem oder mehreren Vorgängerabtastwerten oder Differenzwerten herangezogen werden, und daß ein assoziativer Speicher zur Speicherung und Verarbeitung der Abtastwerte oder Differenzwerte und ihrer individuellen Prädiktionen verwendet wird.
2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß der assoziative digitale Speicher ein rückgekoppelter assoziativer Speicher mit bedingten Assoziationen ist.
3. Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeweils mehrere Differenzgrößen zu einem Quasiwort zusammengefaßt und als ein Speicherwort in den assoziativen digitalen Speicher eingeschrieben wird.
4. Anordnung nach einem oder mehreren der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß auf den ersten assoziativen digitalen Speicher noch weitere in einer hierarchischen Ordnung folgen, welche Anordnung als semantischer Speicher bekannt ist, und daß die verhältnismäßig große Menge der ursprünglichen Differenzgrößen für je eine Zeitfunktion mit Symbolbedeutung durch fortschreitende Abstraktionsprozesse auf ein einziges Metawort reduziert wird.
5. Anordnung nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die letzten Metaworte in der Hierarchie wenigstens soviele Binärstellen enthalten, daß damit alle zu klassifizierenden Zeitfunktionen mit Symbolbedeutung zu unterscheiden sind.
6. Anordnung nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß im Speicher für die letzten Metaworte, die typischen gesprochenen Symbolen wie Silben oder Wörter entsprechen, noch die entsprechenden Rechtschreibformen abgespeichert sind.
7. Anordnung nach einem oder mehreren der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die hierarchische Anordnung assoziativer Speicher für die Erkennung gesprochener Silben oder Wörter (SM1) ergänzt wird durch eine weitere bekannte hierarchische Anordnung für die redundanzfreie Codierung geschriebener oder gedruckter Texte (SM2), wobei der Speicher in der letzten hierarchischen Ebene von (SM1) mit den Metaworten und ihren Rechtschreibformen zugleich der Speicher in der ersten hierarchischen Ebene von (SM2) ist.
8. Anordnung nach einem oder mehreren der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß bei Funktionen mit Symbolbedeutung, die vom Ort abhängen, z. B. bei Schriftzeichen auf einem Blatt Papier, zuerst in einer Vorverarbeitungsschaltung eine im Prinzip bekannte Umwandlung durchgeführt wird, bei der eine Distanz auf der Ebene oder im Raum in eine zeitliche Distanz umgesetzt wird (Parameterdarstellung), und/oder bei der die Differenzvektoren in Steigungen einer oder mehrerer Zeitfunktionen zerlegt werden.
9. Anordnung nach einem oder mehreren der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die Frequenz der Abtastung bezogen ist auf die Sprechgrundfrequenz bzw. die Pitchfrequenz.
10. Anordnung nach einem oder mehreren der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß der assoziative Speicher durch einen Pufferspeicher ergänzt ist, in dem die Daten vorangegangener Abtastwerte zur Durchführung einer Look-Ahead- Operation bzw. einer im allgemeinen nichtlinearen Prädiktion dynamisch gespeichert sind.
11. Anordnung nach einem oder mehreren der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die assoziativen Funktionen des Speichers durch einen Hash- Algorithmus implementiert sind.
DE19914103277 1991-02-04 1991-02-04 Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung Granted DE4103277A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19914103277 DE4103277A1 (de) 1991-02-04 1991-02-04 Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19914103277 DE4103277A1 (de) 1991-02-04 1991-02-04 Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung

Publications (2)

Publication Number Publication Date
DE4103277A1 true DE4103277A1 (de) 1992-08-06
DE4103277C2 DE4103277C2 (de) 1993-06-09

Family

ID=6424326

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19914103277 Granted DE4103277A1 (de) 1991-02-04 1991-02-04 Speichergesteuerte codierung zeitabhaengiger funktionen mit symbolbedeutung

Country Status (1)

Country Link
DE (1) DE4103277A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543700A2 (de) * 1991-11-22 1993-05-26 Thomson-Csf Verfahren zur Quantisierung der Sprachsignalenergie in einem Vocoder mit niedriger Bitrate
US7272419B1 (en) 1999-05-14 2007-09-18 Freie Erfindungskünstler GmbH Method for transmitting symbols and/or information from a sender to a recipient

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19922068C2 (de) * 1999-05-14 2002-09-12 Freie Erfindungskuenstler Gmbh Verfahren und System zum Übermitteln von Symbolen von einem Sender zu einem Empfänger

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0091979A1 (de) * 1982-04-20 1983-10-26 Waldemar Dipl.-Ing. Kehler Bereichsprädiktives Code-Modulationsverfahren mit signaladaptiv reduzierter bit-Rate

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0091979A1 (de) * 1982-04-20 1983-10-26 Waldemar Dipl.-Ing. Kehler Bereichsprädiktives Code-Modulationsverfahren mit signaladaptiv reduzierter bit-Rate

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HILBERG, W.: Der bekannte Grenzwert der redundanzfreien Information in Texten - eine Fehlinterpretation der Shannonschen Experimente?. In: FREQUENZ, 1990, 9-10, S. 243-248 *
HÖLZER, E. und HOLZWARTH, H.: Pulstechnik Band I und II, zweite Auflage, Springer-Verlag, 1986 und 1984 ISBN 3-540-10903-X, ISBN 3-540-13263-5 *
SHANNON, C.E.: A Mathematical Theory of Communi- cation. In: The Bell System Technical Journal, 1948, Nr. 3, S. 379-423, S. 623-656 *
SHANNON, C.E.: Prediction and Entropy of Printed English. In: The Bell System Technical Journal, 1951, S. 50-64 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543700A2 (de) * 1991-11-22 1993-05-26 Thomson-Csf Verfahren zur Quantisierung der Sprachsignalenergie in einem Vocoder mit niedriger Bitrate
EP0543700A3 (en) * 1991-11-22 1993-09-29 Thomson-Csf Method for quantification of speed signal energy in a low bit rate vocoder
US7272419B1 (en) 1999-05-14 2007-09-18 Freie Erfindungskünstler GmbH Method for transmitting symbols and/or information from a sender to a recipient

Also Published As

Publication number Publication date
DE4103277C2 (de) 1993-06-09

Similar Documents

Publication Publication Date Title
DE60219943T2 (de) Verfahren zum komprimieren von wörterbuchdaten
DE2536640C3 (de) Anordnung zur Erkennung von Geräuschen
DE69918172T2 (de) Entropiekodierung von variabler zu variabler länge
DE2225652C3 (de) Verfahren und Einrichtung zur Codierung und Decodierung von Videosignalen
DE3789857T2 (de) System zur Komprimierung von Bildern mit mehreren Graustufen.
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE69907267T2 (de) Entropie-code modenwechsel zur frequenzbereichsaudiokodierung
DE69726661T2 (de) Verfahren und vorrichtung zur kodierung eines digitalen informationssignales
EP1500281A2 (de) Kodierung von transformations-koeffizienten in bild- oder videokodierern
EP0276753A2 (de) Verfahren und Vorrichtung zur digitalen Nachrichtenübertragung und/oder -aufzeichnung und -wiedergabe
DE69722085T2 (de) Verfahren und Vorrichtung zur Komprimierung und Dekomprimierung von Botschaften
EP1112621A1 (de) Vorrichtung und verfahren zum entropie-codieren von informationswörtern und vorrichtung und verfahren zum decodieren von entropie-codierten informationswörtern
DE19910621A1 (de) Vorrichtung und Verfahren zum Verbergen von Informationen und Vorrichtung und Verfahren zum Extrahieren von Informationen
DE3485824T2 (de) Verfahren zur datenkompression.
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
DE2357067A1 (de) Vorrichtung zur sprachanalyse
DE19920501A1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese
DE60015755T2 (de) Verlustfreie adaptive codierung von daten eines endlichen alphabets
DE4103277C2 (de)
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE19907728C2 (de) Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms
DE2307441C1 (de) Verfahren zum Verschleiern von Sprachsignalen
DE4111781A1 (de) Computersystem zur spracherkennung
DE69032127T2 (de) Bildkompressionsverfahren durch autoorganisation von einem neuronalen netz
DE2363590A1 (de) Spracherkennungssystem mit merkmalsfolgekodierung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8320 Willingness to grant licenses declared (paragraph 23)
8322 Nonbinding interest in granting licenses declared
8323 Nonbinding interest in granting licenses withdrawn
8339 Ceased/non-payment of the annual fee