DE3032699A1

DE3032699A1 - Verfahren zur reduktion von signalredundanz und zur synthese der menschlichen sprache

Info

Publication number: DE3032699A1
Application number: DE19803032699
Authority: DE
Inventors: Karl-Albert Dr.-Ing. 7500 Karlsruhe Turban
Original assignee: Individual
Current assignee: Individual
Priority date: 1980-08-30
Filing date: 1980-08-30
Publication date: 1982-04-29

Description

Verfahren zur Reduktion von Signalredundanz
und zur Synthese der menschlichen Sprache Die Erfindung betrifft ein Verfahren zur Reduktion von Signalredundanz der menschlichen Sprache,sowie zur Synthese menschlicher Sprache. Es kann angewendet werden auf Sprache in ihrer natürlichen, physikalischen Erscheinungsform und auf deren Ab- bildungen, insbesondere den elektronischen, bei der Nachrichtenübertragung, Nachri ohtenverarbeitung und Nachrichtenspeicherung.
Das Interesse an solchen Verfahren hat zugenommen, seit der Wunsch nach störsicheren und verschlüsselbaren drahtlosen Kommunikationskanälen ständig wächst, denn die verfügbaren Frequenzbänder sind beschränkt. Ein anderer Interessengrund ist der Wunsch nach Sprachkommunikation zwischen Menschen und Automaten. Diese wird wegen zu großen Speicherbedarfes unwirtschaftlich, wenn keine Redundanz mindernden Verfahren eingesetzt werden. Durch Digitalisierung der Sprache erreicht man größere Störsicherheit. Damit vermehrt man aber auch die Signalredundanz; Bandbreite Signalfluß und Speicherbedarf nehmen zu. Um dies in Grenzen zu halten, bemüht man sich zuvor die Signalredundanz der natürlichen Sprache abzubauen, denn sie ist eine Redundanz infolge biologischer Gegebenheiten, keine von Ingenieuren erdachte Redundanz und erhöht die Störsicherheit bei weitem nicht so wie die Digitalisierung.
Bei der Sprachverarbeitung sollten der Sprachausdruck, die Sprachmelodie und die Sprechererkenntlichkeit möglichst erhalten bleiben. Das bedeutet, ein Redundanzabbau darf nur hinsichtlich überflüssiger Signale erfolgen, nicht aber hinsichtlich überflüssiger Informationen.
Nach dem Stande der Technik sind bereits verschiedene Redundanz mindernde Verfahren bekannt, die man folgendermaßen in Gruppen einteilen kann.
a) Verfahren der direkten Sprachcodierung. Diese Verfahren codieren die Augenblickswerte der Sprache digital. liegt man die Bandbreite eines Fernsprechkanals von etwa 3.000 Hz zugrunde, so benötigt man je nach Verfahrensaufwand Signalflüsse von 64 kbit/s bis 32 kbit/s. Die aufwendigeren Verfahren sparen gegenüber den weniger aufwendigen Signalfluß ein. Dies erfolgt allerdings nicht direkt an der natürlichen Sprache, sondern erst an ihrem digital codierten Abbild.
Die direkte Sprachcodierung berücksichtigt Eigentümlichkeiten der Sprache kaum. Man könnte sie daher im Grunde auch auf beliebige andere Zeitfunktionen anwenden,beispielsweise auch auf Musik. Infolge dieser Universalität des Verfahrens bleibt die Informationsredundanz der Sprache praktisch erhalten. Dies aber wird durch be- trächtliche Signalflüsse erkauft. Die Bandbreiten sind 5- bis 10- mal größer als die der natürlichen Sprache.
b) Analyse- Synthese- Verfahren Diese Verfahren analysieren die Sprache nach Formelementen ihres augenblicklichen Erscheinungsbildes im Zeitbereich oder Spektralbereich. Ein besonders bekanntes Verfahren ist der Kanalvocoder.
Das Ziel der Analyse ist Auffinden eines Parameter- Satzes, der die Sprache ersatzweise beschreiben kann und der mit geringerer Bandbreite als die Sprache übertragen werden kann. Im Empfänger wird wieder Sprache erzeugt. Hierzu steuern die Parameter einen Syntheseteil, der den menschlichen Sprechtrakt simuliert: Stimmbandanregung, Rauschanregung, nachgeschaltetes zeitvariantes Filter.
Mit bekannten Analyse- Synthese- Verfahren kommt man herab bis zu Signalflüssen von 3,2 2 kbit/s bis 600 bit/s. Die Einsparung gegenüber der direkten Sprachcodierung ist also beträchtlich. Dies ist der Fall, weil die Eigentümlichkeiten der Sprache stärker berücksichtigt werden. Die Simulation des Sprechtraktes ist dafür bezeichnend. Ein Sprechtrakt kann sprechen, allenfalls singen aber kaum gute Musik erzeugen. Qualitativ befriedigende Analyse- Synthese- Verfahren sind bisher zu aufwendig und zu teuer. Es ist nicht zu erwarten, daß sie in tragbaren Funksprechgeräten eingesetzt werden können. Man erhofft sich viel von digitalen Realisierungen, weil diese in VLSI-Technik (very large scale integration) beliebigen Aufwand bei geringen Kosten versprechen. Diese offenbaren zur Zeit aber noch viele Schwierigkeiten, z.B. Mißverständnisse wegen Hintergrundgeräuschen, und sind oft im Grunde nur Konzepte, die versuchsweise auf Großrechnern simuliert worden sind.
c) Spracherkennungs- Synthese- Verfahren Diese Verfahren enthalten im Sender ein aufwendiges Erkennungssystem, das ähnlich arbeitet wie eine Phonotypistin, wenn diese Sprachabschnitte (Phoneme) erkennt und in eine Folge von Zeichen umsetzt.
Das Erkennungssystem muß den Sprecher vorab kennenlernen, indem dieser zur Probe Worte spricht.
Die Notwendigkeit einer solohen Lernphase ist problematisch. Der Speicherbedarf des Erkennungssystems ist sehr groß und nimmt Dimensionen von vielen Megabit an, wenn der Wortschatz in der Größenordnung von 1000 liegt. Ein gebildeter Mensch hat aber bereits in seiner Muttersprache einen Wortschatz von etwa 12000 Worten.
Häufig kann das Erkennungssystem sich nur schwer entscheiden und es trifft auch Fehlentscheidungen. Sprachlücken und Fehllaute bei der Rückumwandlung sind die Folge. Die Phoneme, für die das Erkennungssystem sich entschieden hat, werden digital codiert übertragen und beim Empfänger mit einem simulierten Sprechtrakt wieder in Sprache rückumgesetzt. Man kommt zwar mit solchen Systemen herab bis zu Signalflüssen um 32 bit/s, dem stehen aber viele Nachteile gegenüber. Insbesondere geht die Sprechererkenntlichkeit völlig verloren, die Sprache ist eine unnatürliche Automatensprache. Weil das System besonders eng an die Eigentümlichkeiten der Sprache angepaßt ist, spart es viel an Signalfluß ein; dies wird aber mit enormem Aufwand erkauft, und das Ergebnis ist wenig befriedigend, insbesondere bei Fremdsprachen, für die das System nicht konzipiert ist.
Die nach dem Stande der Technik vorbekannten Verfahren offenbaren, daß ein Abbau von Signalfluß umso besser gelingt, je mehr ein System an die Eigentümlichkeiten der Sprache angepaßt ist. Man gäbe sich aber einem Irrtum hin, würde man überdies aus dem Vorbekannten schließen, ein Abbau von Signalredundanz sei nicht möglich,ohne die Informations- redundanz zu schädigen. Es ist doch zweifellos nur eine Frage der richtigen Konzeption, wenn nur Signalredundanz abgebaut wird, ohne die Informationsredundanz zu berühren. Hat man die richtige Konzeption, so kann man dies so weit treiben, bis keine Signalredundanz mehr vorhanden ist. Was dann von der Nachricht noch übrig bleibt, ist ein Nachrichtenkern. Seine Redundanz ist nur noch Informationsredundanz.
Es geht also im Grunde nur darum,den Nachrichtenkern der menschlichen Sprache zu finden, denn ein Redundanzabbau über diesen Kern hinaus ist unzweckmäßig.
Die Erfindung geht von der allgemeinen Aufgabenstellung aus, ein einfaches und universelles Verfahren vorzuschlagen, das die Signalredundanz der menschlichen Sprache stark reduzieren und eine Sprachsynthese ermöglichen, kann ohne die Informationsredundanz wesentlich zu beeinträchtigen.
Zur Lösung dieser Aufgabe ist vorgesehen, daß die Sprache in zwei Frequenzbänder verzweigt wird, in ein unteres Band (Vokalband) und in ein oberes Band (Konsonantband) so, daß in diesen Bändern jeweils nur eine sinusförmige Schwingung auftritt die in der Frequenz und Amplitude moduliert ist und daß vier Nodulationssignale extrahiert werden, ein Frequenzsignal und ein Amplitudensignal im Vokalband, sowie ein Frequenzsignal und ein Amplitudensignal im Konsonantband, die anstelle der Sprache weiterverarbeitet werden.
Dieser Erfindungsgedanke offenbart eine typische Eigenschaft menschlicher Sprache, die bisher allgemein übersehen worden ist. Um Sprache von ausgezeichneter Verständlichkeit zu erzeugen, bedarf es nur zweier sinusförmiger Schwingungen, die weit voneinander abliegen und in der Frequenz und Amplitude geeignet moduliert werden.
Infolge dieser Tatsache ist nicht nur die erfindungsgemäße Analyse sondern auch die Synthese eine gänzlich andere,als bei den vorbekannten Verfahren.
Gemäß der Erfindung wird bei der Synthese kein Sprechtrakt simuliert. Es werden vielmehr nur zwei sinusförmige Schwingungen - Vokalband,vorteilhaft zwischen 300 - 800 Hz und Konsonantband,vorteilhaft zwischen 2500 - 3400 Hz - in der Frequenz und Amplitude moduliert.
Die Bandbreiten der vier extrahierten Modulationssignale sind zusammengenommen erheblich geringer als die Bandbreite der natürlichen Sprache.
Eine erste Ausführungsform nach der Erfindung benützt die vier Modulationssignale als Parametersatz für die Sprache und überträgt/ speichert diese anstelle der Sprache, beispielsweise digital codiert.
Eine zweite Ausführungsform nach der Erfindung kommt mit einem Satz von zwei Parametern aus. Hierzu wird mit dem Frequenzsignal und Amplitudensignal des Vokalbandes eine Vokalbandschwingung erzeugt, sowie mit dem Frequenzsignal und Amplitudensignal des Konsonantbandes eine Konsonantbandschwingung.
Uberträgt/speichert man die Vokalbandschwingung und die Konsonantbandschwingung anstelle der Sprache, so spart man zusätzlich Bandbreite ein.
Eine dritte Ausführungsform nach der Erfindung unterscheidet sich von der zweiten dadurch, daß man die Schwingungen in ihrer Frequenz untersetzt. Man erhält ein künstliches Vokalband und ein künstliches Konsonantband, die mit noch erheblich geringerer Bandbreite übertragen/gespeichert werden können. Dabei kann das Konsonantband, das breiter ist, erheblich stärker untersetzt werden als das Vokalband, denn die Konsonanten sind unmelodisch, im Konsonantband sind größere Frequenzfehler zulässig als im Vokalband.
Anstelle der Frequenzsignale kann man auch Periodensignale extrahieren und diese verarbeiten. Ein spannungsgesteuerter Oszillator, der einen Frequenzsignaleingang besitzt, kann mit einem Periodensignal betrieben werden und schwingt dann mit einer inversen Frequenz. Damit und mit der erwähnten Untersetzung kann man Verschlüsselungseffekte erzielen.
Eine vierte Ausführungsform nach der Erfindung kommt mit nur einem Parameter aus. Durch Überlagerung eines komprimierten Vokalbandes mit einem komprimierten Konsonantband erhält man eine Kunstsprache, die gegenüber der natürlichen Sprache in der Bandbreite komprimiert ist. Überträgt/speichert man die Kunstsprache anstelle der natürlichen Sprache, so spart man beträchtlichen Signalfluß ein. Beim Empfänger wird die Kunstsprache verzweigt, in ein künstlicHe's Vokalband und in ein künstliches Konsonantband. Die Frequenzen dieser Bänder werden wieder in die natürlichen lagen rückumgesetzt. Sodann werden die Bandschwingungen überlagert und damit erhält man wieder natürliche Sprache.
Um die Ausführungsformen nach der Erfindung zu realisieren, werden nur Bausteine benötigt, die als integrierte Schaltungen im Handel erhältlich sind.
Zur Verzweigung in ein Vokalband und ein Konsonantband wird eine Frequenzweiche benötigt, die man dem Stande der Technik entsprechend als aktives Filter ausbilden wird.
Zur Extrahierung von Amplitudensignalen kann man Gleichrichterschaltungen benützen oder sample- hold-Schaltungen, welche die Amplituden abtasten.
Zur Extrahierung von Frequenzsignalen kann man Nulldurchgangsratenwandler benützen, elektronische Zähler oder Periodenwandler, mit nachfolgendem Hyperbelwandler.
Zur Frequenzuntersetzung kann man zählende Kippglieder benützen, oder man betreibt einen Spannungsfrequenzwandler mit einem erniedrigten Frequenzsignal..
Zur Frequenzheraufsetzung kann man zahlreiche bekannte Methoden der Frequenzverfielfachung benützen, oder man betreibt einen Spannungs- Frequenz- Wandler mit erhöhtem Frequenzsignal.
Hat man bei einer Bandachwingung das Amplitudensignal und das Frequenzsignal extrahiert und will man eine künstliche Bandschwingung mit untersetzter Frequenz herstellen, so benötigt man eines der oben erwähnten Untersetzungsmittel, beispielsweise einen Spannungs- Frequenz- Wandler, der am Ausgang eine sinusförmige Schwingung konstanter Amplitude und untersetzt modulierter Frequenz liefert. Diese Schwingung ist sodann in der Amplitude zu modulieren, was beispielsweise dadurch geschieht, daß man einen Multiplizierer an einem Eingang mit der Schwingung und am anderen Eingang mit dem Amplitudensignal betreibt.
Insgesamt kann man sagen, die Realisierung der Verfahren nach der Erfindung ist nicht nur unproblematisch, es ist auch der Aufwand unwahrscheinlich gering, er liegt in der Größenordnung eines Taschen-Transistor- Radios, und dies ist ein großer Vorteil, nicht nur hinsichtlich der Preiswürdigkeit sondern auch wenn man an tragbare Funksprechgeräte denkt.
Ein weiterer ebenso ins Gewicht fallender Vorteil ist die erstaunliche Sprach qualität. Gestützt auf die Theorie, daß zwei Bandschwingungen ausreichen, nützt das Verfahren eine typische Eigentümlichkeit der Sprache aus, die vorteilhafterweise sehr unkompliziert ist. Daher gelingt es mit wenig Aufwand viel Signalredundanz abzubauen,und praktisch nur Signalredundanz,bis nahe hin zum Nachrichtenkern der menschlichen Sprache.
Das Verfahren nach der Erfindung ist im Grunde ein live- Umrechnungsverfahren,von höheren Frequenzlagen in niedrigere Frequenz lagen. Es drängt sich der Vergleich mit zwei unterschiedlich großen Zahnrädern auf, die aneinander laufen, das eine mit höherer, das andere mit niedrigerer Kreisfrequenz. Ein solches sprachspezifisches Umrechnungsverfahren benötigt keine Lernphase und kein spezielles Fremdsprachenprogramm, und sein Syntheseteil ist ausreichend universell. Wer da spricht, männlich oder weiblich, wird korrekt umgerechnet. In welcher Sprache man spricht, ist gleichgültig und wird korrekt umgerechnet. Hintergrundgeräusche , soweit sie sprachspezifisch sind, werden korrekt umgerechnet, andernfalls unterdrückt. Verwechslungen zwischen Sprecher und Hintergrundgeräusch finden nicht statt.
Der Nachrichtenkern der Sprache liegt dort, wo die komprimierten Zeitfunktionen anfangen nahezu aperiodischen Charakter anzunehmen. Sind sie keine Schwingungen mehr, so enthalten sie keine Wiederholungen und infolgedessen keine Signalredundanz. Dort ist die Grenze des Verfahrens nach der Erfindung zu sehen.
In der Zeichnung ist ein Ausführungsbeispiel nach der Erfindung dargestellt. Es zeigt, wie die Umwandlung der natürlichen Sprache in Kunstsprache geringerer Bandbreite durchgeführt werden kann.
Es bedeuten darin: KP = high- pass = Hochpaß LP = low- pass = Tiefpaß FVC = frequency-voltage- converter = Frequenz- Spannungs- Wandler AVC = amplitude- voltage- converter = Amplituden- Spannungs- Wandler 1/n = Koeffizientenglied,n > 1 VFC = voltage- frequency- converter = Spannungs- Frequenz- Wandler X = Multiplizierer + = Summierer Beim Eingang IN liegt natürliche Sprache vor. HP und IP bilden eine Frequenzweiche, welche die natürliche Sprache in ein Konsonantband (oben) und ein Vokalband (unten) verzweigt. Die Kanäle in denen diese Bänder verarbeitet werden, sind im Prinzip gleichartig aufgebaut.
Ein FVC extrahiert an der Band schwingung ein Frequenzsignal, ein AVC extrahiert ein Amplitudensignal.
Ein Koeffizizientenglied multipliziert das Frequenzsignal mit einem Faktor 1/n, n> 1 und bewirkt damit, daß ein darauffolgender VFC mit erniedrigter Frequenz schwingt. Er gibt eine sinusförmige Spannung ab, deren Amplitude konstant und deren Frequenz moduliert ist. Diese Schwingung wird in einem Multiplizierer mit dem Amplitudensignal moduliert. Damit ist ein künstliches Band erzeugt, das gegenüber dem natürlichen Band frequenzkomprimiert ist. Schließlich werden beide künstlichen Bänder summiert, und damit erhält man bei OUT Kunstsprache, die eine geringere Bandbreite besitzt als natürliche Sprache.
Ersetzt man die Koeffizienten 1/n durch n, so kann die Rückumwandlung der Kunstsprache in die natürliche Sprache nach demselben Prinzip erfolgen. Bei IN liegt dann Kunstsprache vor, die durch HP und IP in ihr künstliches Konsonantband und ihr künstliches Vokalband verzweigt wird. Die Frequenzen der Bänder werden um den Faktor n heraufgesetzt und bei OUT erhält man wieder die natürliche Sprache.
Der Schnitt hinter 1/n soll besagen, daß man die hier geschnittenen Signalgrößen digital codiert über- tragen kann. Man beschreibt dann die Sprache durch vier Parameter.
Der Schnitt hinter den Multiplizierern soll besagen, daß man auch die dort geschnittenen Signalgrößen digital codiert übertragen kann. Dann beschreibt man die Sprache durch zwei Parameter.
Der Schnitt hinter dem Summierer soll besagen, daß man die dort geschnittene Signalgröße digital codiert übertragen kann. Dann beschreibt man die Sprache durch nur einen Parameter, die Kunstsprache.
Welche der möglichen Ausführungsformen man wählt, hängt von der Anwendung ab. Sie sind unterschiedlich im Aufwand und in ihrer Leistungsfähigkeit.

Claims

PatentansPrüche erfahren zur Reduktion von Signalredundanz der menschlichen Sprache, d a d u r c h g e -k e n n z e i c h n e t , daß die Sprache in zwei Frequenzbänder verzweigt wird, in ein unteres Band (Vokalband) und in ein oberes Band (Konsonantband) so,daß in diesen Bändern jeweils nur eine sinusförmige Schwingung auftritt, die in der Frequenz und Amplitude moduliert ist und daß vier Nodulationssignale extrahiert werden, ein Frequenzsignal und ein Amplitudensignal im Vokalband, sowie ein Frequenzsignal und ein Amplitudensignal im Konsonantband, die anstelle der Sprache weiterverarbeitet werden.
2. Verfahren zur Erzeugung synthetischer, menschlicher Sprache, d a d u r c h g e k e n n z e i c h -n e t , daß zwei sinusförmige Schwingungen mit Hilfe von vier Nodulationssignalen in der Frequenz und Amplitude moduliert werden so, daß ein unteres Frequenzband (Vokalband) und ein oberes Frequenzband (Konsonantband) erzeugt wird und daß die Schwingungen dieser beiden Bänder addiert werden.
3. Verfahren nach Anspruch 1 und/oder 2, d a d u r c h g e k e n n z e i c h n e t , daß anstelle von Sprache vier Modulationssignale übertragen bzw.

gespeichert werden, ein Frequenzsignal und ein Amplitudensignal eines Vokalbandes sowie ein Frequenzsignal und ein Amplitudensignal eines Konsonantbandes.
4. Verfahren nach Anspruch 1 und/oder 2, d a d u r c h g e k e n n z e i c h n e t , daß die Schwingung eines Vokalbandes und die Schwingung eines Konsonantbandes übertragen bzw. gespeichert wird.
5. Verfahren nach Anspruch 1 bis 4, d a d u r c h g e k e n n z e i c h n e t , daß künstliche Vokal- und Konsonantbänder erzeugt werden, indem anstelle der Frequenzsignale Periodensignale extrahiert und weiterverarbeitet werden.
6. Verfahren nach Anspruch 1 bis 5, d a d u r c h g e k e n n z e i c h n e t , daß künstliche Vokal- und Konsonantbänder durch Frequenz- bzw.

Periodenumsetzung erzeugt werden.
7. Verfahren nach Ansprüchen 1 bis 6, d a d u r c h g e k e n n z e i c h n e t , daß durch Uberlagerung von Frequenz / Perioden- umgesetzten Vokal- und Konsonantbändern eine Kunstsprache erzeugt wird, die gegenüber natürlicher Sprache eine andere Bandbreite besitzt und beispielsweise komprimiert ist und daß im Empfänger diese Kunstsprache in ein künstliches Vokalband und ein künstliches Konsonantband verzweigt wird und daß diese Bänder wieder in natürliche lage umgesetzt und sodann überlagert werden.
8. Verfahren nach Ansprüchen 6 und/oder 7, d a -d u r c h g e k e n n z e i c h n e t , daß die Frequenz / Periodenumsetzung im Vokalband gegenüber der im Konsonantband in unterschiedlicher Weise erfolgt.
9. Verfahren nach Ansprüchen 1 bis 8, d a d u r c h gek e n n z e i c h ne t , daß die anstelle der natürlichen Sprache verarbeiteten Zeitfunktionen digital codiert werden und/oder daß ihre Abweichungen von Vergangenheitswerten digital codiert verarbeitet werden.
10. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 9, d a - d u r c h g e k e n n z e i c h n e t daß die Eingangsgröße durch einen Hochpaß und einen Tiefpaß in zwei Frequenzkanäle getrennt wird, daß in jedem Frequenzkanal ein Frequenz- Spannungs- Wandler und ein Amplituden- Spannungs-Wandler vorgesehen sind, daß der Frequenz-Spannungs- Wandler über ein seinen Ausgangswert definiert veränderndes Schaltglied mit einem Spannungs- Frequenz- Wandler verbunden ist, und daß die Ausgangsgrößen der Amplituden- Spannungs-Wandler und der Spannungs- Frequenz- Wandler mit einem den Frequenzkanälen zugeordneten Multiplizierer verbunden sind, deren Ausgangsgröße einem Summierer zugeführt wird, der die im Frequenzband komprimierte, zur Weiterverarbeitung bestimmte Ausgangsgröße bildet.
11. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 9, d a -d u r c h g e k e n n z e i c h n e t , daß die erforderlichen Baugruppen in analoger Technik realisiert sind und/oder daß ihre Arbeitsweisen durch Baugruppen nachgebildet werden, die in digitaler Technik arbeiten.