DE1202339B

DE1202339B - Vocoderanlage

Info

Publication number: DE1202339B
Application number: DEF42801A
Authority: DE
Inventors: Gunnar Fant
Original assignee: Individual
Current assignee: Individual
Priority date: 1963-05-07
Filing date: 1964-05-06
Publication date: 1965-10-07
Also published as: US3346695A; FR1398997A; NL6405028A; GB1044991A

Description

Vocoderanlage Die Erfindung bezieht sich auf eine Vocoderanlage, d. h. auf eine Sprachkompressionsanlage mit einem Senderteil zur Analyse des Sprachsignals in bezug auf die Sprachgrundfrequenz, die Formantenfrequenzen und die relativen Intensitätspegel innerhalb des Spektrums und mit einem Empfängerteil, der eine Syntheseeinrichtung für die Wiederherstellung der ursprünglichen Sprache aus den bei der Sprachanalyse im Senderteil abgeleiteten und übertragenen Parameterwerten aufweist.
Bekanntlich ist jeder Sprachlaut durch ein Lautspektrum gekennzeichnet, das sich mit der Zeit mehr oder weniger ändert und in dem die Energie im allgemeinen auf gewisse charakteristische Frequenzbereiche, die sogenannten Formanten, konzentriert ist. Die gesprochenen Laute können mittels eines Linienspektrums innerhalb des Frequenzbereiches von 50 bis 4000 Hz beschrieben werden, wobei die Ausgangsfunktion eine von den Stimmbändern erzeugte Grundfrequenz und deren Harmonische ist, während die Frequenzen und die relativen Intensitätswerte der Formanten in der Hauptsache von den Resonanzeffekten abhängen, welche beim Durchgang des Lautes durch den Rachen, die Nase und den Mund auftreten. Die stimmlosen Laute weisen ein kontinuierliches Lautspektrum auf, dessen wichtigster Frequenzbereich zwischen 1000 und 8000 Hz liegt. Alle diese Laute haben eine Formantenstruktur.
Bei einem herkömmlichen Formanten-Vocoder wird aus dem Lautsprektrum eine Anzahl von Parame.erwerten abgeleitet, die die Durchschnittswerte der Parameter des Spektrums innerhalb von Zeitintervallen von ungefähr 20 Millisekunden darstellen. Zum Beispiel werden als das Spektrum bestimmende Parameterwerte gewählt: die Sprachgrundfrequenz, die Frequenzen der erstere drei und wichtigsten Formanten, die Intensitätswerte (Amplituden) dieser Formanten und eine Information darüber, ob das betreffende Sprachlautintervall zu den Vokalen oder Konsonanten gehört. Bei dem herkömmlichen Formanten-Vocoder besteht der Zweck des Senders darin, eine Analyse des Spektrums in bezug auf diese Parameter durchzuführen, während der Empfänger eire Anordnung für die Synthese enthält, in der die Sprache kontinuierlich auf der Basis der ankommenden Parameterwerte rekonstruiert wird. Das »Rohmaterial« für die Synthese kommt aus zwei Generatoren, und zwar aus einem Generator für die Vokale und aus einem anderen für die Konsonanten, während die Formantenstruktur im Spektrum durch Formantenkreise erzeugt wird, die zu den Generatoren parallel geschaltet sind, wobei die Resonanzfrequenz und die Verstärkung in jedem Kreis so gesteuert wird, daß die erforderliche Änderung der Formantenfrequenz und der Formantenintensität erzielt wird. Die Ausgangssignale dieser Formantenkreise werden in einer gemeinsamen Summierungseinrichtung miteinander gemischt.
Das genannte Prinzip für einen Vocoder nach dem Parallelsystem gestattet grundsätzlich eine korrekte Wiedergabe der Formanten hinsichtlich Frequenz und Amplitude. Nachteilig ist der Umstand, daß zwischen den Formanten liegende Frequenzbereiche des Spektrums empfangsseitig Intensitätspegel erlangen können, die von dem ursprünglichen Wert gänzlich verschieden sind, mit der Folge, daß die Natürlichkeit bei der Wiedergabe vermindert wird, während außerdem die Übertragung von direkten Intensitätswerten für die Formanten eine Vergeudung von Information bedeutet. Ein wesentlicher Teil der Intensitätswerte der Formanten kann nämlich abgeleitet werden aus der Gesamtinformation über die Frequenzlage aller Formanten innerhalb eines Bereiches des Lautes.
Bei einem Formanten-Vocoder anderer, Seriensystem genannter Ausführung, der durch die Arbeiten von Flanagan bekanntgeworden ist (F1 a n a g a n und H o u s e : »Development and Testing of a Formant-Coding Speech Compression System« in »The Journal of the Acoustical Society of America«, Vol. 28, 1956, Nr. 6, S. 1099 bis 1106, und F1 an ag a n : »Note an the Design of Terminal-Analog Speech Synthesizers« in »The Journal of the Acoustical Society of America«, Vol. 29, 1957, Nr.2, S. 306 bis 310), wird die Synthese mit in Kaskade geschalteten Serienresonanzkreisen als Formanten-Lreise durchgeführt, in welchem Fall eine Steuerung der Intensitätspegel der Formanten nicht erforderlich ist. Die von den Formantenfrequenzen abhängigen Intensitätswerte werden bei diesem Verfahren selbsttätig eingeführt, das eine verhältnismäßig gute Wiedergabe der Vokale, jedoch eine weniger gute Wiedergabe der Konsonanten ermöglicht, da die Formantenpegel der Konsonanten nicht in derselben Weise vorausbestimmbar sind wie bei den Vokalen, d. h., das Synthesemodell mit in Kaskade geschalteten Resonanzkreisen weist für die Konsonanten nur eine begrenzte Gültigkeit auf. Nach dem obengenannten Bericht von Flanagan und House tritt leicht ein Vermischen von Konsonanten ein.
Die Erfindung bezweckt, die genannten Mängel bei den Parallelsystemen wie auch bei den Seriensystemen zu beseitigen. Im Vergleich zu den bekannten Seriensystemen wird eine wesentliche Änderung der einzelnen Formantenpegel für sich eingeführt, und die Pegelinformation wird in der Weise defmiert, daß die vom Formantenfrequenzmuster abhängige Veränderung nicht übermittelt zu werden braucht. Es wird bei Vokalen eine bessere und bei Konsonanten eine bemerkenswert verbesserte Wiedergabe erzielt. Im Vergleich zum bekannten Parallelsystem wird eine natürliche Wiedergabe der Vokale erhalten, und durch die besondere Definition des Formantenpegels wird eine Ersparnis an erforderlicher übertragungskapazität erhalten.
Die Vocoderanlage nach der Erfindung ist im wesentlichen dadurch gekennzeichnet, daß der Senderteil außer dem Analysator für das Sprachsignal zusätzlich mehrere vom Originalsprachsignal gespeiste Bandfilter mit benachbarten Durchlaßbereichen und jeweils nachgeschaltetem Gleichrichter enthält, in denen durch Integration die Intensitätswerte des ursprünglichen Sprachsignals in mehreren einander benachbarten Frequenzbereichen bestimmt werden, daß die Sendeseite außerdem eine von den Parameterwerten aus dem Analysator der Sender-Seite gespeiste Syntheseeinrichtung derselben Art wie die entsprechende Einrichtung auf der Empfängerseite aufweist, an die mehrere Bandfilter mit den gleichen Durchlaßbereichen wie die vorgenannten Bandfilter und jeweils nachgeschaltetem Gleichrichter angeschlossen sind, in denen durch Integration die Intensitätswerte des durch die Synthese erhaltenen Sprachsignals in den genannten, einander benachbarten Frequenzbereichen bestimmt werden, und daß Komparatoren vorgesehen sind, in denen für die genannten Frequenzbereiche die Intensitätswerte des ursprünglichen Sprachsignals mit denen des synthetischen Sprachsignals verglichen werden und ein Differenz- oder Restfunktionssignal erzeugt wird, welches die Intensität des synthetischen Sprachsignals in den betreffenden Frequenzbereichen auf der Empfängerseite und gegebenenfalls auch auf der Sendeseite moduliert und damit korrigiert.
Die Erfindung wird an Hand eines Ausführungsbeispiels beschrieben. In den Zeichnungen zeigt F i g. 1 das Linienspektrum eines Vokals, F i g. 2 eine Hüllkurve für eine erste Annäherung des Spektrums nach der F i g. 1, F i g. 3 das Ergebnis einer Spektralpegelmessung des ursprünglichen Vokals mit dem Spektrum gemäß F i g. 1 innerhalb einer Anzahl von Frequenzbereichen als Stufendiagramm, F i g. 4 ein entsprechendes Stufendiagramm der Hüllkurve von F i g. 2 mit Darstellung der sogenannten Restfunktion, F i g. 5 das Spektrum eines Konsonanten, F i g. 6 das Spektrum eines Nasallautes, F i g. 7, $ Einzelheiten aus der F i g. 9 und F i g. 9 ein Blockschaltbild einer Vocoderanlage nach der Erfindung.
Die F i g. 1 zeigt das Linienspektrum des Vokals e, in dem jede Linie einer Harmonischen der Grundfrequenz des Lautes entspricht, während F1, F2, F3 und F4 die ersten vier Formanten darstellen. Die F i g. 2 zeigt eine erste synthetische Annäherung dieses Spektrums, die aus einer spektralen Hüllkurve besteht, die als die Summe von einzelnen Resonanzkurven, und zwar je eine für jede Formante F1 bis F4, angesehen werden kann. Die Hüllkurve wird unzweideutig bestimmt von den Formantfrequenzen und dem Grundton. Wie zu ersehen ist, führt diese erste Annäherung, die auf den Formantfrequenzen ohne besondere Amplitudeninformation nach einem bekannten Verfahren aufbaut, nur zu einer unvollständigen Wiedergabe der ursprünglichen Hüllkurve des Spektrums.
Gemäß der Erfindung wird das Sprachspektrum sendeseitig zusätzlich in Frequenzteilbereiche aufgeteilt, und innerhalb eines jeden dieser Teilbereiche wird ein Vergleich zwischen der Energie des Spektrums erster Annäherung nach F i g. 2 und dem ursprünglichen Lautsprektrum nach F i g. 1 durchgeführt. Die Energiewerte in diesen Teilbereichen sind in den F i g. 3 und 4 für das ursprüngliche Spektrum gemäß F i g. 1 bzw. für das angenäherte Spektrum gemäß F i g. 2 als Stufendiagramme dargestellt. Bei dem Beispiel wird das Tonspektrum in sechs Frequenzbereiche aufgeteilt und zwar A = 0 bis 350 Hz, B=350 bis 900 Hz, C=900 bis 1600 Hz, D=1600 bis 2600 Hz, E=2600 bis 4500 Hz und F=4500 bis 9000 Hz. Die Differenz der Energiewerte zwischen dem synthetisch angenäherten Spektrum und dem ursprünglichen Lautspektrum, die sogenannte Restfunktion, ist in F i g. 4 als schräg schraffiertes Stufendiagramm dargestellt. Diese Restfunktion wird nach der Erfindung benutzt, um die Abweichung zwischen der direkten synthetischen Annäherung der Sprache und der natürlichen Sprache so zu korrigieren, daß das Endprodukt der Synthese innerhalb eines jeden der genannten sechs Frequenzbereiche dieselben Intensitätspegel aufweist wie die natürliche Sprache. Nach der Erfindung wird eine synthetische Annäherung sowohl beim Sender als auch beim Empfänger durchgeführt, wobei die Restfunktion zum Empfänger geleitet wird, um die im Empfänger durchgeführte synthetische Annäherung zu korrigieren. Dieselbe Korrektur wird auch im Sender durchgeführt, so daß die sprechende Person eine synthetische Version ihrer eigenen Sprache hören und technische Mängel mit einer besseren Sprechtechnik kompensieren kann. Das Prinzip wird bei der Beschreibung einer Vocodereinrichtung nach der Erfindung erläutert.
Für Konsonanten gelten die gleichen Prinzipien wie für Vokale. Die F i g. 5 zeigt das Spektrum des Konsonanten s (ausgezogene Kurve) und eine Annäherung an dieses Spektrum, bestehend aus einem Minimum oder Antiresonanz KO und den beiden Formanten K1 und K2 (gestrichelte Kurve). Wie sich gezeigt hat, reicht eine solche Annäherung für eine befriedigende Wiedergabe der Sprache vollkommen aus. Die Antiresonanz kann unzweideutig durch KI und K2 bestimmt werden und braucht daher nicht durch die Analyse bestimmt zu werden.
Die F i g. 6 zeigt das Spektrum des Nasallautes m, und wie zu ersehen ist, weicht dieses Lautspektrum von dem Lautspektrum eines Vokals im wesentlichen durch die relative Intensität der Formanten F1 bis F4 ab. Die nach der Erfindung für die Korrektur benutzte Restfunktion ermöglicht eine gute Unterscheidung des Nasallautes von einem Vokal.
Die F i g. 8 zeigt eine Ausführung des Lautanalysators AN eines an sich bekannten Formant-Vocoders (vgl. z. B. »Fortschritte der Hochfrequenztechnik«, Bd. 5, Frankfurt 1960, S. 255). Der Analysator enthält einen die Vokale von den Konsonanten unterscheidenden Stimmhaft-Stimmlos-Diskriminator, welcher ein Steuersignal G 1-G 2 erzeugt, eine Einrichtung zum Ableiten der Grundfrequenz F0 der Vokale, eine Einrichtung mit einem Filtersatz von 100 bis 4000 Hz zum Bestimmen der Formantenfrequenzen F1, F2, F3 und eine Einrichtung mit einem Filtersatz von 1 bis 10 kHz, welche die Frequenzen der ersten und zweiten Formanten K1 und K2 eines Konsonanten ableitet. Eingangsseitig ist ein Dynamikpresser und ausgangsseitig ist für jedes der abgeleiteten Steuersignale ein Tiefpaßfilter LP vorgesehen.
Die F i g. 7 zeigt als Blockschaltbild eine Anordnung OVE zum Durchführen einer Synthese. Die F i g. 7 stellt eine Vereinfachung einer bereits veröffentlichten Anordnung dar (G. Fant: »The Acoustics of Speech« in »Proceedings of the Third International Congress an Acoustics«, Stuttgart 1959; Amsterdam 1961, Vol. I, S. 188 bis 201) mit in Kaskade geschalteten Resonanzkreisen für die ersten fünf Formanten F1, F2, F3, F4, F5 sowie mit einem Hochpaß-Korrekturnetzwerk KH, das über den gesamten Frequenzbereich wirksam ist. Die ankommenden Steuersignale zum Ändern der Frequenzen von F1, F2 und F3 bestimmen auch die Frequenzen von F4, F5 und KH. Parallel zu diesem sogenannten F-System ist als K-System eine Syntheseeinrichtung für das Spektrum der Konsonanten im Frequenzbereich oberhalb von 3500 Hz angeordnet, deren Ausgang mit dem des F-Systems an eine Summierungseinrichtung -y geführt ist. Dieses System besteht aus einem Antiresonanzkreis K 0, der mit den beiden Resonanzkreisen K1 und K2 in Kaskade geschaltet ist. Ein Impulsgenerator PG führt dem Synthesesystem F »Rohmaterial« aus Vokalen zu, die entsprechend dem empfangenen Steuersignal die Grundfrequenz F0 aufweisen, während ein weiterer Generator BG ein Signal erzeugt, das dem K-System eine Rauschspannung zuführt. Der vom ankommenden Steuersignal G 1 betätigte Schalter G 1 dient zum Öffnen und Schließen der Verbindung zwischen dem Generator PG und dem F-System, während der ebenfalls von einem zugeordneten Steuersignal G 2 betätigte Schalter G2 zum Öffnen und Schließen der Verbindung zwischen dem Generator BG und dem F-System sowie dem K-System dient. Während stimmloser Laute besteht keine Notwendigkeit für eine Änderung der FZ-Einheit des F-Systems. Die hierdurch freigesetzte Übertragungskapazität wird für die Steuersignale K1 und K2 zur Frequenzänderung von K 1 und K 2 und von K 0 benutzt, die unzweideutig von K1 und K2 bestimmt wird.
Wird das Erfindungsprinzip bei einer solchen Anlage angewendet, so werden nicht nur die Vokale korrekt wiedergegeben, sondern es können auch andere Muster wiedergegeben werden, die von den reinen Vokalmustern abweichen. Ein typisches Beispiel hierfür ist eine relative Dämpfung von F1 und ein Anheben des Spektralpegels bei Frequenzen unterhalb von F 1, ein Merkmal der Nasallaute. Auch die zweite und dritte Formante kann stärker gedämpft werden, um ein F2 zu erhalten, das im Vergleich zu Vokalen sehr geschwächt ist (vgl. F i g. 6). Ohne die nach der Erfindung bei der Restfunktion durchgeführte Korrektur würde daher ein Nasallaut als Vokal wiedergegeben werden. Die Restfunktion bewirkt ferner eine größere Natürlichkeit und Entsprechung in dem Spektrum, das in einem reinen Seriensystem erhalten wird und unter anderem zu einer besseren Wiedergabe der einzelnen Sprachmerkmale und solcher gelegentlichen Verschiebungen der relativen Pegel innerhalb der verschiedenen Frequenzbereiche führt, die zur Akzentuierung, zum Rhythmus und zur Phrasierung gehören.
Die F i g. 9 zeigt als Blockschaltbild eine Vocoderanlage nach der Erfindung. Der Laut wird von einem Mikrophon M aus über einen Verstärker F zu einem Analysator AN geleitet, der der Anordnung nach der F i g. 8 entspricht, sowie zu den sechs Bandfiltern BPA 1 bis BPA 6. Die Bandfilter entsprechen mit ihren Durchlaßbereichen den oben als Beispiel angeführten sechs Frequenzbereichen A bis F, und an jedes Bandfilter ist ein Gleichrichter LRA 1 bis LRA 6 angeschlossen, an dessen Ausgang der Energiemomentanwert in dem betreffenden Frequenzbereich auftritt und je einem Komparator K01 bis K06 zugeführt wird. Der Analysator AN sendet die Parameter F1, F2, F3, K1, K2, G1, G2, F0 über einen Analog-Digital-Konverter ADA zum Empfänger, in dem sie über einen Digital-Analog-Konverter DAB zu einer Syntheseanordnung OVE gemäß F i g. 7 geleitet werden, in welcher das Lautspektrum mit den oben angeführten Mängeln reproduziert wird. Nach der Erfindung ist jedoch im Sender eine gleiche Syntheseanordnung OVE vorgesehen, die aktiv an der Berechnung derjenigen Meßwerte der Analyse teilnimmt, die gesendet werden sollen. Das Ausgangssignal der Syntheseanordnung OVE wird zu den Bandfiltern BPB 1 bis BPB 6 geleitet, deren Durchlaßbereiche den oben angeführten sechs Frequenzbereichen entsprechen und die mit je einem Gleichrichter LRB 1 bis LRB 6 verbunden sind, deren Ausgangsspannungen den Energiemomentanwerten innerhalb des betreffenden Bereichs entsprechen und zu den Komparatoren K O1 bis K O6 geleitet werden. Die Komparatoren vergleichen in den sechs Frequenzbereichen die synthetische Annäherung der Sprache, die aus der Syntheseanordnung OVE erhalten wird, mit der ursprünglichen Sprache aus dem Mikrophonverstärker F. Die sechs erhaltenen Differenzwerte, d. h. die Restfunktion wird über einen Analog-Digital-Konverter ADB zum Empfänger gesendet, in dem sie über einen Digital-Analog-Konverter DAA zu sechs Modulatoren M01 bis M06 geleitet werden. Die genannten Modulatoren erhalten ferner die Syntheseannäherung aus dem Syntheseteil OVE im Empfänger, so daß im Fernhörer T über die Summierungseinrichtung SU ein durch die Restfunktion korrigiertes Lautspektrum erhalten wird. Das Endprodukt der Synthese weist daher dieselben Intensitätspegel auf wie die natürliche Sprache in jedem der sechs Frequenzbereiche. Diese Korrektur wird nicht nur in der Empfangseinheit durchgeführt, sondern auch im Sender, so daß die sprechende Person eine synthetische Version ihrer eigenen Sprache hören kann, wie bereits beschrieben wurde. Zu diesem Zweck sind im Sender wie im Empfänger sechs ModulatorenM01 bis M06 vorgesehen, die die Restfunktion aus den Komparatoren K01 bis K06 der Gegenstelle und die Syntheseannäherung aus der eigenen Syntheseanordnung OVE empfangen, so daß dieselbe Pegelkorrektur an beiden Endstellen erhalten wird. Die Syntheseeinrichtung OVE und die Steuereingänge der Modulatoren M01 bis M06 werden mittels eines vom Mikrophonstrom gesteuerten Schalters SM zwischen Sendung und Empfang hin-und hergeschaltet.
Wie aus der F i g. 9 zu ersehen ist, sind in der Anlage entsprechend der allgemeinen Praxis für Sprachkompressionsanlagen, bei denen für die Übertragung binär codierte Signale benutzt werden, für die vom Sender abgehenden Signale Analog-Digital-Konverter und für die ankommenden Signale Digital-Analog-Konverter vorgesehen. Zusammen mit diesen Konvertern sind ferner an sich bekannte Einrichtungen vorgesehen, die eine Raummultiplex-Information in eine Zeitmultiplex-Information und umgekehrt umwandeln. Bei zweckmäßiger Bemessung der Größen kann die Datenkapazität der Anlage innerhalb eines Bereiches von 600 bis 1200 Bits pro Sekunde gehalten werden, welcher Wert für die Übertragung von PCM-modulierten Daten über Fernsprechleitungen genügend klein ist. Die Erfindung kann nicht nur bei Anlagen angewendet werden, in denen die Formantkreise für die Synthese in Reihe geschaltet sind, sondern auch bei Parallelsystemen und Kanalvocodersystemen, d. h. bei Parallelsystemen, die viele Kanäle mit festen Frequenzen aufweisen.

Claims

Patentanspruch: Vocoderanlage mit einem Senderteil zur Analyse des Sprachsignals in bezug auf die Sprachgrundfrequenz, die Formantenfrequenzen und die relativen Intensitätspegel innerhalb des Spektrums und mit einem Empfängerteil, der eine Syntheseeinrichtung für die Wiederherstellung der Originalsprache aus den bei der Sprachanalyse im Senderteil abgeleiteten und übertragenen Parameterwerten aufweist, d a d u r c h g e k e n n -z e i c h n e t, daß der Senderteil außer dem Analysator (AN) für das Sprachsignal zusätzlich mehrere vom Originalsprachsignal gespeiste Bandfilter (BPA 1 bis BPA 6) mit benachbarten Durchlaßbereichen und jeweils nachgeschaltetem Gleichrichter (LRA 1 bis LRA 6) enthält, in denen durch Integration die Intensitätswerte des ursprünglichen Sprachsignals in mehreren einander benachbarten Frequenzbereichen (A bis F) bestimmt werden, daß die Sendeseite außerdem eine von den Parameterwerten aus dem Analysator (AN) des Senderteiles gespeiste Syntheseeinrichtung (OVE) derselben Art wie die entsprechende Einrichtung auf der Empfangsseite aufweist, an die mehrere Bandfilter (BPB 1 bis BPB 6) mit den gleichen Durchlaßbereichen wie die vorgenannten Bandfilter (BPA 1 bis BPA 6) und jeweils nachgeschaltetem Gleichrichter LRB1 bis LRB6) angeschlossen sind, in denen durch Integration die Intensitätswerte des durch die Synthese erhaltenen Sprachsignals in den genannten, einander benachbarten Frequenzbereichen (A bis F) bestimmt werden, und daß Komparatoren (K01 bis K06) vorgesehen sind, in denen für die genannten Frequenzbereiche (A bis F) die Intensitätswerte des ursprünglichen Sprachsignals mit denen des synthetischen Sprachsignals verglichen werden und ein Differenz- oder Restfunktionssignal erzeugt wird, welches die Intensität des synthetischen Sprachsignals in den betreffenden Frequenzbereichen auf der Empfangsseite und gegebenenfalls auch auf der Sendeseite moduliert und damit korrigiert (F i g. 3 und 9). In Betracht gezogene Druckschriften: »Fortschritte der Hochfrequenztechnik«, Bd. 5, Frankfurt 1960, S. 255; »The Journal of the Acoustical Society of Amer rica«, Vol. 28, 1956, Nr.6, S. 1099 bis 1106, und Vol. 29, 1957, Nr.
2, S. 306 bis 310; »Proceedings of the Third International Congress an Acoustics, Stuttgart 1959«, Amsterdam 1961, Vol. I, S. 188 bis 201.