-
Verfahren zur Reduktion von Signalredundanz
-
und zur Synthese der menschlichen Sprache Die Erfindung betrifft
ein Verfahren zur Reduktion von Signalredundanz der menschlichen Sprache,sowie zur
Synthese menschlicher Sprache. Es kann angewendet werden auf Sprache in ihrer natürlichen,
physikalischen Erscheinungsform und auf deren Ab-
bildungen, insbesondere
den elektronischen, bei der Nachrichtenübertragung, Nachri ohtenverarbeitung und
Nachrichtenspeicherung.
-
Das Interesse an solchen Verfahren hat zugenommen, seit der Wunsch
nach störsicheren und verschlüsselbaren drahtlosen Kommunikationskanälen ständig
wächst, denn die verfügbaren Frequenzbänder sind beschränkt. Ein anderer Interessengrund
ist der Wunsch nach Sprachkommunikation zwischen Menschen und Automaten. Diese wird
wegen zu großen Speicherbedarfes unwirtschaftlich, wenn keine Redundanz mindernden
Verfahren eingesetzt werden. Durch Digitalisierung der Sprache erreicht man größere
Störsicherheit. Damit vermehrt man aber auch die Signalredundanz; Bandbreite Signalfluß
und Speicherbedarf nehmen zu. Um dies in Grenzen zu halten, bemüht man sich zuvor
die Signalredundanz der natürlichen Sprache abzubauen, denn sie ist eine Redundanz
infolge biologischer Gegebenheiten, keine von Ingenieuren erdachte Redundanz und
erhöht die Störsicherheit bei weitem nicht so wie die Digitalisierung.
-
Bei der Sprachverarbeitung sollten der Sprachausdruck, die Sprachmelodie
und die Sprechererkenntlichkeit möglichst erhalten bleiben. Das bedeutet, ein
Redundanzabbau
darf nur hinsichtlich überflüssiger Signale erfolgen, nicht aber hinsichtlich überflüssiger
Informationen.
-
Nach dem Stande der Technik sind bereits verschiedene Redundanz mindernde
Verfahren bekannt, die man folgendermaßen in Gruppen einteilen kann.
-
a) Verfahren der direkten Sprachcodierung. Diese Verfahren codieren
die Augenblickswerte der Sprache digital. liegt man die Bandbreite eines Fernsprechkanals
von etwa 3.000 Hz zugrunde, so benötigt man je nach Verfahrensaufwand Signalflüsse
von 64 kbit/s bis 32 kbit/s. Die aufwendigeren Verfahren sparen gegenüber den weniger
aufwendigen Signalfluß ein. Dies erfolgt allerdings nicht direkt an der natürlichen
Sprache, sondern erst an ihrem digital codierten Abbild.
-
Die direkte Sprachcodierung berücksichtigt Eigentümlichkeiten der
Sprache kaum. Man könnte sie daher im Grunde auch auf beliebige andere Zeitfunktionen
anwenden,beispielsweise auch auf Musik. Infolge dieser Universalität des Verfahrens
bleibt die Informationsredundanz der Sprache praktisch erhalten. Dies aber wird
durch be-
trächtliche Signalflüsse erkauft. Die Bandbreiten sind
5- bis 10- mal größer als die der natürlichen Sprache.
-
b) Analyse- Synthese- Verfahren Diese Verfahren analysieren die Sprache
nach Formelementen ihres augenblicklichen Erscheinungsbildes im Zeitbereich oder
Spektralbereich. Ein besonders bekanntes Verfahren ist der Kanalvocoder.
-
Das Ziel der Analyse ist Auffinden eines Parameter- Satzes, der die
Sprache ersatzweise beschreiben kann und der mit geringerer Bandbreite als die Sprache
übertragen werden kann. Im Empfänger wird wieder Sprache erzeugt. Hierzu steuern
die Parameter einen Syntheseteil, der den menschlichen Sprechtrakt simuliert: Stimmbandanregung,
Rauschanregung, nachgeschaltetes zeitvariantes Filter.
-
Mit bekannten Analyse- Synthese- Verfahren kommt man herab bis zu
Signalflüssen von 3,2 2 kbit/s bis 600 bit/s. Die Einsparung gegenüber der direkten
Sprachcodierung ist also beträchtlich. Dies ist der Fall, weil die Eigentümlichkeiten
der Sprache stärker berücksichtigt werden. Die Simulation des Sprechtraktes ist
dafür bezeichnend. Ein Sprechtrakt kann sprechen, allenfalls singen aber kaum gute
Musik erzeugen. Qualitativ befriedigende
Analyse- Synthese- Verfahren
sind bisher zu aufwendig und zu teuer. Es ist nicht zu erwarten, daß sie in tragbaren
Funksprechgeräten eingesetzt werden können. Man erhofft sich viel von digitalen
Realisierungen, weil diese in VLSI-Technik (very large scale integration) beliebigen
Aufwand bei geringen Kosten versprechen. Diese offenbaren zur Zeit aber noch viele
Schwierigkeiten, z.B. Mißverständnisse wegen Hintergrundgeräuschen, und sind oft
im Grunde nur Konzepte, die versuchsweise auf Großrechnern simuliert worden sind.
-
c) Spracherkennungs- Synthese- Verfahren Diese Verfahren enthalten
im Sender ein aufwendiges Erkennungssystem, das ähnlich arbeitet wie eine Phonotypistin,
wenn diese Sprachabschnitte (Phoneme) erkennt und in eine Folge von Zeichen umsetzt.
-
Das Erkennungssystem muß den Sprecher vorab kennenlernen, indem dieser
zur Probe Worte spricht.
-
Die Notwendigkeit einer solohen Lernphase ist problematisch. Der
Speicherbedarf des Erkennungssystems ist sehr groß und nimmt Dimensionen von vielen
Megabit an, wenn der Wortschatz in der Größenordnung von 1000 liegt. Ein gebildeter
Mensch hat aber bereits in seiner Muttersprache einen Wortschatz von etwa 12000
Worten.
-
Häufig kann das Erkennungssystem sich nur schwer entscheiden und
es trifft auch Fehlentscheidungen. Sprachlücken und Fehllaute bei der Rückumwandlung
sind die Folge. Die Phoneme, für die das Erkennungssystem sich entschieden hat,
werden digital codiert übertragen und beim Empfänger mit einem simulierten Sprechtrakt
wieder in Sprache rückumgesetzt. Man kommt zwar mit solchen Systemen herab bis zu
Signalflüssen um 32 bit/s, dem stehen aber viele Nachteile gegenüber. Insbesondere
geht die Sprechererkenntlichkeit völlig verloren, die Sprache ist eine unnatürliche
Automatensprache. Weil das System besonders eng an die Eigentümlichkeiten der Sprache
angepaßt ist, spart es viel an Signalfluß ein; dies wird aber mit enormem Aufwand
erkauft, und das Ergebnis ist wenig befriedigend, insbesondere bei Fremdsprachen,
für die das System nicht konzipiert ist.
-
Die nach dem Stande der Technik vorbekannten Verfahren offenbaren,
daß ein Abbau von Signalfluß umso besser gelingt, je mehr ein System an die Eigentümlichkeiten
der Sprache angepaßt ist. Man gäbe sich aber einem Irrtum hin, würde man überdies
aus dem Vorbekannten schließen, ein Abbau von Signalredundanz sei nicht möglich,ohne
die Informations-
redundanz zu schädigen. Es ist doch zweifellos
nur eine Frage der richtigen Konzeption, wenn nur Signalredundanz abgebaut wird,
ohne die Informationsredundanz zu berühren. Hat man die richtige Konzeption, so
kann man dies so weit treiben, bis keine Signalredundanz mehr vorhanden ist. Was
dann von der Nachricht noch übrig bleibt, ist ein Nachrichtenkern. Seine Redundanz
ist nur noch Informationsredundanz.
-
Es geht also im Grunde nur darum,den Nachrichtenkern der menschlichen
Sprache zu finden, denn ein Redundanzabbau über diesen Kern hinaus ist unzweckmäßig.
-
Die Erfindung geht von der allgemeinen Aufgabenstellung aus, ein einfaches
und universelles Verfahren vorzuschlagen, das die Signalredundanz der menschlichen
Sprache stark reduzieren und eine Sprachsynthese ermöglichen, kann ohne die Informationsredundanz
wesentlich zu beeinträchtigen.
-
Zur Lösung dieser Aufgabe ist vorgesehen, daß die Sprache in zwei
Frequenzbänder verzweigt wird, in ein unteres Band (Vokalband) und in ein oberes
Band (Konsonantband) so, daß in diesen Bändern jeweils nur eine sinusförmige Schwingung
auftritt
die in der Frequenz und Amplitude moduliert ist und daß
vier Nodulationssignale extrahiert werden, ein Frequenzsignal und ein Amplitudensignal
im Vokalband, sowie ein Frequenzsignal und ein Amplitudensignal im Konsonantband,
die anstelle der Sprache weiterverarbeitet werden.
-
Dieser Erfindungsgedanke offenbart eine typische Eigenschaft menschlicher
Sprache, die bisher allgemein übersehen worden ist. Um Sprache von ausgezeichneter
Verständlichkeit zu erzeugen, bedarf es nur zweier sinusförmiger Schwingungen, die
weit voneinander abliegen und in der Frequenz und Amplitude geeignet moduliert werden.
-
Infolge dieser Tatsache ist nicht nur die erfindungsgemäße Analyse
sondern auch die Synthese eine gänzlich andere,als bei den vorbekannten Verfahren.
-
Gemäß der Erfindung wird bei der Synthese kein Sprechtrakt simuliert.
Es werden vielmehr nur zwei sinusförmige Schwingungen - Vokalband,vorteilhaft zwischen
300 - 800 Hz und Konsonantband,vorteilhaft zwischen 2500 - 3400 Hz - in der Frequenz
und Amplitude moduliert.
-
Die Bandbreiten der vier extrahierten Modulationssignale sind zusammengenommen
erheblich geringer als die Bandbreite der natürlichen Sprache.
-
Eine erste Ausführungsform nach der Erfindung benützt die vier Modulationssignale
als Parametersatz für die Sprache und überträgt/ speichert diese anstelle der Sprache,
beispielsweise digital codiert.
-
Eine zweite Ausführungsform nach der Erfindung kommt mit einem Satz
von zwei Parametern aus. Hierzu wird mit dem Frequenzsignal und Amplitudensignal
des Vokalbandes eine Vokalbandschwingung erzeugt, sowie mit dem Frequenzsignal und
Amplitudensignal des Konsonantbandes eine Konsonantbandschwingung.
-
Uberträgt/speichert man die Vokalbandschwingung und die Konsonantbandschwingung
anstelle der Sprache, so spart man zusätzlich Bandbreite ein.
-
Eine dritte Ausführungsform nach der Erfindung unterscheidet sich
von der zweiten dadurch, daß man die Schwingungen in ihrer Frequenz untersetzt.
Man erhält ein künstliches Vokalband und ein künstliches Konsonantband, die mit
noch erheblich geringerer Bandbreite übertragen/gespeichert werden können. Dabei
kann das Konsonantband, das breiter ist, erheblich stärker untersetzt werden als
das Vokalband, denn
die Konsonanten sind unmelodisch, im Konsonantband
sind größere Frequenzfehler zulässig als im Vokalband.
-
Anstelle der Frequenzsignale kann man auch Periodensignale extrahieren
und diese verarbeiten. Ein spannungsgesteuerter Oszillator, der einen Frequenzsignaleingang
besitzt, kann mit einem Periodensignal betrieben werden und schwingt dann mit einer
inversen Frequenz. Damit und mit der erwähnten Untersetzung kann man Verschlüsselungseffekte
erzielen.
-
Eine vierte Ausführungsform nach der Erfindung kommt mit nur einem
Parameter aus. Durch Überlagerung eines komprimierten Vokalbandes mit einem komprimierten
Konsonantband erhält man eine Kunstsprache, die gegenüber der natürlichen Sprache
in der Bandbreite komprimiert ist. Überträgt/speichert man die Kunstsprache anstelle
der natürlichen Sprache, so spart man beträchtlichen Signalfluß ein. Beim Empfänger
wird die Kunstsprache verzweigt, in ein künstlicHe's Vokalband und in ein künstliches
Konsonantband. Die Frequenzen dieser Bänder werden wieder in die natürlichen lagen
rückumgesetzt. Sodann werden die Bandschwingungen überlagert und damit erhält man
wieder natürliche Sprache.
-
Um die Ausführungsformen nach der Erfindung zu realisieren, werden
nur Bausteine benötigt, die als integrierte Schaltungen im Handel erhältlich sind.
-
Zur Verzweigung in ein Vokalband und ein Konsonantband wird eine Frequenzweiche
benötigt, die man dem Stande der Technik entsprechend als aktives Filter ausbilden
wird.
-
Zur Extrahierung von Amplitudensignalen kann man Gleichrichterschaltungen
benützen oder sample- hold-Schaltungen, welche die Amplituden abtasten.
-
Zur Extrahierung von Frequenzsignalen kann man Nulldurchgangsratenwandler
benützen, elektronische Zähler oder Periodenwandler, mit nachfolgendem Hyperbelwandler.
-
Zur Frequenzuntersetzung kann man zählende Kippglieder benützen, oder
man betreibt einen Spannungsfrequenzwandler mit einem erniedrigten Frequenzsignal..
-
Zur Frequenzheraufsetzung kann man zahlreiche bekannte Methoden der
Frequenzverfielfachung benützen, oder man betreibt einen Spannungs- Frequenz- Wandler
mit erhöhtem Frequenzsignal.
-
Hat man bei einer Bandachwingung das Amplitudensignal und das Frequenzsignal
extrahiert und will man eine künstliche Bandschwingung mit untersetzter Frequenz
herstellen, so benötigt man eines der oben erwähnten Untersetzungsmittel, beispielsweise
einen Spannungs- Frequenz- Wandler, der am Ausgang eine sinusförmige Schwingung
konstanter Amplitude und untersetzt modulierter Frequenz liefert. Diese Schwingung
ist sodann in der Amplitude zu modulieren, was beispielsweise dadurch geschieht,
daß man einen Multiplizierer an einem Eingang mit der Schwingung und am anderen
Eingang mit dem Amplitudensignal betreibt.
-
Insgesamt kann man sagen, die Realisierung der Verfahren nach der
Erfindung ist nicht nur unproblematisch, es ist auch der Aufwand unwahrscheinlich
gering, er liegt in der Größenordnung eines Taschen-Transistor- Radios, und dies
ist ein großer Vorteil, nicht nur hinsichtlich der Preiswürdigkeit sondern auch
wenn man an tragbare Funksprechgeräte denkt.
-
Ein weiterer ebenso ins Gewicht fallender Vorteil ist die erstaunliche
Sprach qualität. Gestützt auf die Theorie, daß zwei Bandschwingungen ausreichen,
nützt das Verfahren eine typische Eigentümlichkeit der Sprache aus, die vorteilhafterweise
sehr unkompliziert ist. Daher gelingt es mit wenig Aufwand
viel
Signalredundanz abzubauen,und praktisch nur Signalredundanz,bis nahe hin zum Nachrichtenkern
der menschlichen Sprache.
-
Das Verfahren nach der Erfindung ist im Grunde ein live- Umrechnungsverfahren,von
höheren Frequenzlagen in niedrigere Frequenz lagen. Es drängt sich der Vergleich
mit zwei unterschiedlich großen Zahnrädern auf, die aneinander laufen, das eine
mit höherer, das andere mit niedrigerer Kreisfrequenz. Ein solches sprachspezifisches
Umrechnungsverfahren benötigt keine Lernphase und kein spezielles Fremdsprachenprogramm,
und sein Syntheseteil ist ausreichend universell. Wer da spricht, männlich oder
weiblich, wird korrekt umgerechnet. In welcher Sprache man spricht, ist gleichgültig
und wird korrekt umgerechnet. Hintergrundgeräusche , soweit sie sprachspezifisch
sind, werden korrekt umgerechnet, andernfalls unterdrückt. Verwechslungen zwischen
Sprecher und Hintergrundgeräusch finden nicht statt.
-
Der Nachrichtenkern der Sprache liegt dort, wo die komprimierten Zeitfunktionen
anfangen nahezu aperiodischen Charakter anzunehmen. Sind sie keine Schwingungen
mehr, so enthalten sie keine Wiederholungen und infolgedessen keine Signalredundanz.
Dort ist die Grenze des Verfahrens nach der Erfindung zu sehen.
-
In der Zeichnung ist ein Ausführungsbeispiel nach der Erfindung dargestellt.
Es zeigt, wie die Umwandlung der natürlichen Sprache in Kunstsprache geringerer
Bandbreite durchgeführt werden kann.
-
Es bedeuten darin: KP = high- pass = Hochpaß LP = low- pass = Tiefpaß
FVC = frequency-voltage- converter = Frequenz- Spannungs- Wandler AVC = amplitude-
voltage- converter = Amplituden- Spannungs- Wandler 1/n = Koeffizientenglied,n >
1 VFC = voltage- frequency- converter = Spannungs- Frequenz- Wandler X = Multiplizierer
+ = Summierer Beim Eingang IN liegt natürliche Sprache vor. HP und IP bilden eine
Frequenzweiche, welche die natürliche Sprache in ein Konsonantband (oben) und ein
Vokalband (unten) verzweigt. Die Kanäle in denen diese Bänder verarbeitet werden,
sind im Prinzip gleichartig aufgebaut.
-
Ein FVC extrahiert an der Band schwingung ein Frequenzsignal, ein
AVC extrahiert ein Amplitudensignal.
-
Ein Koeffizizientenglied multipliziert das Frequenzsignal mit einem
Faktor 1/n, n> 1 und bewirkt damit, daß ein darauffolgender VFC mit erniedrigter
Frequenz schwingt. Er gibt eine sinusförmige Spannung ab, deren Amplitude konstant
und deren Frequenz moduliert ist. Diese Schwingung wird in einem Multiplizierer
mit dem Amplitudensignal moduliert. Damit ist ein künstliches Band erzeugt, das
gegenüber dem natürlichen Band frequenzkomprimiert ist. Schließlich werden beide
künstlichen Bänder summiert, und damit erhält man bei OUT Kunstsprache, die eine
geringere Bandbreite besitzt als natürliche Sprache.
-
Ersetzt man die Koeffizienten 1/n durch n, so kann die Rückumwandlung
der Kunstsprache in die natürliche Sprache nach demselben Prinzip erfolgen. Bei
IN liegt dann Kunstsprache vor, die durch HP und IP in ihr künstliches Konsonantband
und ihr künstliches Vokalband verzweigt wird. Die Frequenzen der Bänder werden um
den Faktor n heraufgesetzt und bei OUT erhält man wieder die natürliche Sprache.
-
Der Schnitt hinter 1/n soll besagen, daß man die hier geschnittenen
Signalgrößen digital codiert über-
tragen kann. Man beschreibt
dann die Sprache durch vier Parameter.
-
Der Schnitt hinter den Multiplizierern soll besagen, daß man auch
die dort geschnittenen Signalgrößen digital codiert übertragen kann. Dann beschreibt
man die Sprache durch zwei Parameter.
-
Der Schnitt hinter dem Summierer soll besagen, daß man die dort geschnittene
Signalgröße digital codiert übertragen kann. Dann beschreibt man die Sprache durch
nur einen Parameter, die Kunstsprache.
-
Welche der möglichen Ausführungsformen man wählt, hängt von der Anwendung
ab. Sie sind unterschiedlich im Aufwand und in ihrer Leistungsfähigkeit.