-
Vocoderanlage Die Erfindung bezieht sich auf eine Vocoderanlage, d.
h. auf eine Sprachkompressionsanlage mit einem Senderteil zur Analyse des Sprachsignals
in bezug auf die Sprachgrundfrequenz, die Formantenfrequenzen und die relativen
Intensitätspegel innerhalb des Spektrums und mit einem Empfängerteil, der eine Syntheseeinrichtung
für die Wiederherstellung der ursprünglichen Sprache aus den bei der Sprachanalyse
im Senderteil abgeleiteten und übertragenen Parameterwerten aufweist.
-
Bekanntlich ist jeder Sprachlaut durch ein Lautspektrum gekennzeichnet,
das sich mit der Zeit mehr oder weniger ändert und in dem die Energie im allgemeinen
auf gewisse charakteristische Frequenzbereiche, die sogenannten Formanten, konzentriert
ist. Die gesprochenen Laute können mittels eines Linienspektrums innerhalb des Frequenzbereiches
von 50 bis 4000 Hz beschrieben werden, wobei die Ausgangsfunktion eine von den Stimmbändern
erzeugte Grundfrequenz und deren Harmonische ist, während die Frequenzen und die
relativen Intensitätswerte der Formanten in der Hauptsache von den Resonanzeffekten
abhängen, welche beim Durchgang des Lautes durch den Rachen, die Nase und den Mund
auftreten. Die stimmlosen Laute weisen ein kontinuierliches Lautspektrum auf, dessen
wichtigster Frequenzbereich zwischen 1000 und 8000 Hz liegt. Alle diese Laute
haben eine Formantenstruktur.
-
Bei einem herkömmlichen Formanten-Vocoder wird aus dem Lautsprektrum
eine Anzahl von Parame.erwerten abgeleitet, die die Durchschnittswerte der Parameter
des Spektrums innerhalb von Zeitintervallen von ungefähr 20 Millisekunden darstellen.
Zum Beispiel werden als das Spektrum bestimmende Parameterwerte gewählt: die Sprachgrundfrequenz,
die Frequenzen der erstere drei und wichtigsten Formanten, die Intensitätswerte
(Amplituden) dieser Formanten und eine Information darüber, ob das betreffende Sprachlautintervall
zu den Vokalen oder Konsonanten gehört. Bei dem herkömmlichen Formanten-Vocoder
besteht der Zweck des Senders darin, eine Analyse des Spektrums in bezug auf diese
Parameter durchzuführen, während der Empfänger eire Anordnung für die Synthese enthält,
in der die Sprache kontinuierlich auf der Basis der ankommenden Parameterwerte rekonstruiert
wird. Das »Rohmaterial« für die Synthese kommt aus zwei Generatoren, und zwar aus
einem Generator für die Vokale und aus einem anderen für die Konsonanten, während
die Formantenstruktur im Spektrum durch Formantenkreise erzeugt wird, die zu den
Generatoren parallel geschaltet sind, wobei die Resonanzfrequenz und die Verstärkung
in jedem Kreis so gesteuert wird, daß die erforderliche Änderung der Formantenfrequenz
und der Formantenintensität erzielt wird. Die Ausgangssignale dieser Formantenkreise
werden in einer gemeinsamen Summierungseinrichtung miteinander gemischt.
-
Das genannte Prinzip für einen Vocoder nach dem Parallelsystem gestattet
grundsätzlich eine korrekte Wiedergabe der Formanten hinsichtlich Frequenz und Amplitude.
Nachteilig ist der Umstand, daß zwischen den Formanten liegende Frequenzbereiche
des Spektrums empfangsseitig Intensitätspegel erlangen können, die von dem ursprünglichen
Wert gänzlich verschieden sind, mit der Folge, daß die Natürlichkeit bei der Wiedergabe
vermindert wird, während außerdem die Übertragung von direkten Intensitätswerten
für die Formanten eine Vergeudung von Information bedeutet. Ein wesentlicher Teil
der Intensitätswerte der Formanten kann nämlich abgeleitet werden aus der Gesamtinformation
über die Frequenzlage aller Formanten innerhalb eines Bereiches des Lautes.
-
Bei einem Formanten-Vocoder anderer, Seriensystem genannter Ausführung,
der durch die Arbeiten von Flanagan bekanntgeworden ist (F1 a n a g a n und H o
u s e : »Development and Testing of a Formant-Coding Speech Compression System«
in »The Journal of the Acoustical Society of America«, Vol. 28, 1956, Nr. 6, S.
1099 bis 1106, und F1 an ag
a n : »Note an the Design of Terminal-Analog
Speech Synthesizers« in »The Journal of the Acoustical Society of America«, Vol.
29, 1957, Nr.2, S. 306 bis 310), wird die Synthese mit in Kaskade geschalteten
Serienresonanzkreisen als Formanten-Lreise durchgeführt, in welchem Fall eine Steuerung
der Intensitätspegel der Formanten nicht erforderlich ist. Die von den Formantenfrequenzen
abhängigen Intensitätswerte werden bei diesem Verfahren selbsttätig eingeführt,
das eine verhältnismäßig gute Wiedergabe der Vokale, jedoch eine weniger gute Wiedergabe
der Konsonanten ermöglicht, da die Formantenpegel der Konsonanten nicht in derselben
Weise vorausbestimmbar sind wie bei den Vokalen, d. h., das Synthesemodell mit in
Kaskade geschalteten Resonanzkreisen weist für die Konsonanten nur eine begrenzte
Gültigkeit auf. Nach dem obengenannten Bericht von Flanagan und House tritt leicht
ein Vermischen von Konsonanten ein.
-
Die Erfindung bezweckt, die genannten Mängel bei den Parallelsystemen
wie auch bei den Seriensystemen zu beseitigen. Im Vergleich zu den bekannten Seriensystemen
wird eine wesentliche Änderung der einzelnen Formantenpegel für sich eingeführt,
und die Pegelinformation wird in der Weise defmiert, daß die vom Formantenfrequenzmuster
abhängige Veränderung nicht übermittelt zu werden braucht. Es wird bei Vokalen eine
bessere und bei Konsonanten eine bemerkenswert verbesserte Wiedergabe erzielt. Im
Vergleich zum bekannten Parallelsystem wird eine natürliche Wiedergabe der Vokale
erhalten, und durch die besondere Definition des Formantenpegels wird eine Ersparnis
an erforderlicher übertragungskapazität erhalten.
-
Die Vocoderanlage nach der Erfindung ist im wesentlichen dadurch gekennzeichnet,
daß der Senderteil außer dem Analysator für das Sprachsignal zusätzlich mehrere
vom Originalsprachsignal gespeiste Bandfilter mit benachbarten Durchlaßbereichen
und jeweils nachgeschaltetem Gleichrichter enthält, in denen durch Integration die
Intensitätswerte des ursprünglichen Sprachsignals in mehreren einander benachbarten
Frequenzbereichen bestimmt werden, daß die Sendeseite außerdem eine von den Parameterwerten
aus dem Analysator der Sender-Seite gespeiste Syntheseeinrichtung derselben Art
wie die entsprechende Einrichtung auf der Empfängerseite aufweist, an die mehrere
Bandfilter mit den gleichen Durchlaßbereichen wie die vorgenannten Bandfilter und
jeweils nachgeschaltetem Gleichrichter angeschlossen sind, in denen durch Integration
die Intensitätswerte des durch die Synthese erhaltenen Sprachsignals in den genannten,
einander benachbarten Frequenzbereichen bestimmt werden, und daß Komparatoren vorgesehen
sind, in denen für die genannten Frequenzbereiche die Intensitätswerte des ursprünglichen
Sprachsignals mit denen des synthetischen Sprachsignals verglichen werden und ein
Differenz- oder Restfunktionssignal erzeugt wird, welches die Intensität des synthetischen
Sprachsignals in den betreffenden Frequenzbereichen auf der Empfängerseite und gegebenenfalls
auch auf der Sendeseite moduliert und damit korrigiert.
-
Die Erfindung wird an Hand eines Ausführungsbeispiels beschrieben.
In den Zeichnungen zeigt F i g. 1 das Linienspektrum eines Vokals, F i g. 2 eine
Hüllkurve für eine erste Annäherung des Spektrums nach der F i g. 1, F i g. 3 das
Ergebnis einer Spektralpegelmessung des ursprünglichen Vokals mit dem Spektrum gemäß
F i g. 1 innerhalb einer Anzahl von Frequenzbereichen als Stufendiagramm, F i g.
4 ein entsprechendes Stufendiagramm der Hüllkurve von F i g. 2 mit Darstellung der
sogenannten Restfunktion, F i g. 5 das Spektrum eines Konsonanten, F i g. 6 das
Spektrum eines Nasallautes, F i g. 7, $ Einzelheiten aus der F i g. 9 und F i g.
9 ein Blockschaltbild einer Vocoderanlage nach der Erfindung.
-
Die F i g. 1 zeigt das Linienspektrum des Vokals e, in dem jede Linie
einer Harmonischen der Grundfrequenz des Lautes entspricht, während F1, F2, F3 und
F4 die ersten vier Formanten darstellen. Die F i g. 2 zeigt eine erste synthetische
Annäherung dieses Spektrums, die aus einer spektralen Hüllkurve besteht, die als
die Summe von einzelnen Resonanzkurven, und zwar je eine für jede Formante F1 bis
F4, angesehen werden kann. Die Hüllkurve wird unzweideutig bestimmt von den Formantfrequenzen
und dem Grundton. Wie zu ersehen ist, führt diese erste Annäherung, die auf den
Formantfrequenzen ohne besondere Amplitudeninformation nach einem bekannten Verfahren
aufbaut, nur zu einer unvollständigen Wiedergabe der ursprünglichen Hüllkurve des
Spektrums.
-
Gemäß der Erfindung wird das Sprachspektrum sendeseitig zusätzlich
in Frequenzteilbereiche aufgeteilt, und innerhalb eines jeden dieser Teilbereiche
wird ein Vergleich zwischen der Energie des Spektrums erster Annäherung nach F i
g. 2 und dem ursprünglichen Lautsprektrum nach F i g. 1 durchgeführt. Die Energiewerte
in diesen Teilbereichen sind in den F i g. 3 und 4 für das ursprüngliche Spektrum
gemäß F i g. 1 bzw. für das angenäherte Spektrum gemäß F i g. 2 als Stufendiagramme
dargestellt. Bei dem Beispiel wird das Tonspektrum in sechs Frequenzbereiche aufgeteilt
und zwar A = 0 bis 350 Hz, B=350 bis 900 Hz, C=900 bis 1600 Hz, D=1600 bis 2600
Hz, E=2600 bis 4500 Hz und F=4500 bis 9000 Hz. Die Differenz der Energiewerte zwischen
dem synthetisch angenäherten Spektrum und dem ursprünglichen Lautspektrum, die sogenannte
Restfunktion, ist in F i g. 4 als schräg schraffiertes Stufendiagramm dargestellt.
Diese Restfunktion wird nach der Erfindung benutzt, um die Abweichung zwischen der
direkten synthetischen Annäherung der Sprache und der natürlichen Sprache so zu
korrigieren, daß das Endprodukt der Synthese innerhalb eines jeden der genannten
sechs Frequenzbereiche dieselben Intensitätspegel aufweist wie die natürliche Sprache.
Nach der Erfindung wird eine synthetische Annäherung sowohl beim Sender als auch
beim Empfänger durchgeführt, wobei die Restfunktion zum Empfänger geleitet wird,
um die im Empfänger durchgeführte synthetische Annäherung zu korrigieren. Dieselbe
Korrektur wird auch im Sender durchgeführt, so daß die sprechende Person eine synthetische
Version ihrer eigenen Sprache hören und technische Mängel mit einer besseren Sprechtechnik
kompensieren kann. Das Prinzip wird bei der Beschreibung einer Vocodereinrichtung
nach der Erfindung erläutert.
-
Für Konsonanten gelten die gleichen Prinzipien wie für Vokale. Die
F i g. 5 zeigt das Spektrum des Konsonanten s (ausgezogene Kurve) und eine Annäherung
an
dieses Spektrum, bestehend aus einem Minimum oder Antiresonanz KO und den beiden
Formanten K1 und K2 (gestrichelte Kurve). Wie sich gezeigt hat, reicht eine solche
Annäherung für eine befriedigende Wiedergabe der Sprache vollkommen aus. Die Antiresonanz
kann unzweideutig durch KI und K2 bestimmt werden und braucht daher nicht durch
die Analyse bestimmt zu werden.
-
Die F i g. 6 zeigt das Spektrum des Nasallautes m, und wie zu ersehen
ist, weicht dieses Lautspektrum von dem Lautspektrum eines Vokals im wesentlichen
durch die relative Intensität der Formanten F1 bis F4 ab. Die nach der Erfindung
für die Korrektur benutzte Restfunktion ermöglicht eine gute Unterscheidung des
Nasallautes von einem Vokal.
-
Die F i g. 8 zeigt eine Ausführung des Lautanalysators AN eines
an sich bekannten Formant-Vocoders (vgl. z. B. »Fortschritte der Hochfrequenztechnik«,
Bd. 5, Frankfurt 1960, S. 255). Der Analysator enthält einen die Vokale von den
Konsonanten unterscheidenden Stimmhaft-Stimmlos-Diskriminator, welcher ein Steuersignal
G 1-G 2 erzeugt, eine Einrichtung zum Ableiten der Grundfrequenz F0 der Vokale,
eine Einrichtung mit einem Filtersatz von 100 bis 4000 Hz zum Bestimmen der Formantenfrequenzen
F1, F2, F3 und eine Einrichtung mit einem Filtersatz von 1 bis 10 kHz, welche
die Frequenzen der ersten und zweiten Formanten K1 und K2 eines Konsonanten ableitet.
Eingangsseitig ist ein Dynamikpresser und ausgangsseitig ist für jedes der abgeleiteten
Steuersignale ein Tiefpaßfilter LP vorgesehen.
-
Die F i g. 7 zeigt als Blockschaltbild eine Anordnung OVE zum Durchführen
einer Synthese. Die F i g. 7 stellt eine Vereinfachung einer bereits veröffentlichten
Anordnung dar (G. Fant: »The Acoustics of Speech« in »Proceedings of the Third International
Congress an Acoustics«, Stuttgart 1959; Amsterdam 1961, Vol. I, S. 188 bis 201)
mit in Kaskade geschalteten Resonanzkreisen für die ersten fünf Formanten F1,
F2, F3, F4, F5 sowie mit einem Hochpaß-Korrekturnetzwerk KH, das über den
gesamten Frequenzbereich wirksam ist. Die ankommenden Steuersignale zum Ändern der
Frequenzen von F1, F2 und F3 bestimmen auch die Frequenzen von F4, F5 und
KH. Parallel zu diesem sogenannten F-System ist als K-System eine Syntheseeinrichtung
für das Spektrum der Konsonanten im Frequenzbereich oberhalb von 3500 Hz angeordnet,
deren Ausgang mit dem des F-Systems an eine Summierungseinrichtung -y geführt ist.
Dieses System besteht aus einem Antiresonanzkreis K 0, der mit den beiden Resonanzkreisen
K1 und K2 in Kaskade geschaltet ist. Ein Impulsgenerator PG führt dem Synthesesystem
F »Rohmaterial« aus Vokalen zu, die entsprechend dem empfangenen Steuersignal die
Grundfrequenz F0 aufweisen, während ein weiterer Generator BG ein Signal
erzeugt, das dem K-System eine Rauschspannung zuführt. Der vom ankommenden Steuersignal
G 1 betätigte Schalter G 1 dient zum Öffnen und Schließen der Verbindung zwischen
dem Generator PG und dem F-System, während der ebenfalls von einem zugeordneten
Steuersignal G 2 betätigte Schalter G2 zum Öffnen und Schließen der Verbindung zwischen
dem Generator BG und dem F-System sowie dem K-System dient. Während stimmloser
Laute besteht keine Notwendigkeit für eine Änderung der FZ-Einheit des F-Systems.
Die hierdurch freigesetzte Übertragungskapazität wird für die Steuersignale K1 und
K2 zur Frequenzänderung von K 1 und K 2 und von K 0 benutzt, die unzweideutig
von K1 und K2 bestimmt wird.
-
Wird das Erfindungsprinzip bei einer solchen Anlage angewendet, so
werden nicht nur die Vokale korrekt wiedergegeben, sondern es können auch andere
Muster wiedergegeben werden, die von den reinen Vokalmustern abweichen. Ein typisches
Beispiel hierfür ist eine relative Dämpfung von F1 und ein Anheben des Spektralpegels
bei Frequenzen unterhalb von F 1, ein Merkmal der Nasallaute. Auch die zweite und
dritte Formante kann stärker gedämpft werden, um ein F2 zu erhalten, das im Vergleich
zu Vokalen sehr geschwächt ist (vgl. F i g. 6). Ohne die nach der Erfindung bei
der Restfunktion durchgeführte Korrektur würde daher ein Nasallaut als Vokal wiedergegeben
werden. Die Restfunktion bewirkt ferner eine größere Natürlichkeit und Entsprechung
in dem Spektrum, das in einem reinen Seriensystem erhalten wird und unter anderem
zu einer besseren Wiedergabe der einzelnen Sprachmerkmale und solcher gelegentlichen
Verschiebungen der relativen Pegel innerhalb der verschiedenen Frequenzbereiche
führt, die zur Akzentuierung, zum Rhythmus und zur Phrasierung gehören.
-
Die F i g. 9 zeigt als Blockschaltbild eine Vocoderanlage nach der
Erfindung. Der Laut wird von einem Mikrophon M aus über einen Verstärker F zu einem
Analysator AN geleitet, der der Anordnung nach der F i g. 8 entspricht, sowie
zu den sechs Bandfiltern BPA 1 bis BPA 6. Die Bandfilter entsprechen
mit ihren Durchlaßbereichen den oben als Beispiel angeführten sechs Frequenzbereichen
A bis F, und an jedes Bandfilter ist ein Gleichrichter LRA 1 bis LRA
6 angeschlossen, an dessen Ausgang der Energiemomentanwert in dem betreffenden
Frequenzbereich auftritt und je einem Komparator K01 bis K06 zugeführt wird. Der
Analysator AN sendet die Parameter F1, F2, F3, K1, K2, G1,
G2, F0 über einen Analog-Digital-Konverter ADA zum Empfänger, in dem
sie über einen Digital-Analog-Konverter DAB zu einer Syntheseanordnung OVE gemäß
F i g. 7 geleitet werden, in welcher das Lautspektrum mit den oben angeführten Mängeln
reproduziert wird. Nach der Erfindung ist jedoch im Sender eine gleiche Syntheseanordnung
OVE vorgesehen, die aktiv an der Berechnung derjenigen Meßwerte der Analyse teilnimmt,
die gesendet werden sollen. Das Ausgangssignal der Syntheseanordnung OVE wird zu
den Bandfiltern BPB 1 bis BPB 6 geleitet, deren Durchlaßbereiche
den oben angeführten sechs Frequenzbereichen entsprechen und die mit je einem Gleichrichter
LRB 1 bis LRB 6 verbunden sind, deren Ausgangsspannungen den Energiemomentanwerten
innerhalb des betreffenden Bereichs entsprechen und zu den Komparatoren K O1 bis
K O6 geleitet werden. Die Komparatoren vergleichen in den sechs Frequenzbereichen
die synthetische Annäherung der Sprache, die aus der Syntheseanordnung OVE erhalten
wird, mit der ursprünglichen Sprache aus dem Mikrophonverstärker F. Die sechs erhaltenen
Differenzwerte, d. h. die Restfunktion wird über einen Analog-Digital-Konverter
ADB zum Empfänger gesendet, in dem sie über einen Digital-Analog-Konverter DAA zu
sechs Modulatoren M01 bis M06 geleitet werden. Die genannten Modulatoren erhalten
ferner die Syntheseannäherung aus dem Syntheseteil OVE im Empfänger, so daß im Fernhörer
T über die
Summierungseinrichtung SU ein durch die Restfunktion
korrigiertes Lautspektrum erhalten wird. Das Endprodukt der Synthese weist daher
dieselben Intensitätspegel auf wie die natürliche Sprache in jedem der sechs Frequenzbereiche.
Diese Korrektur wird nicht nur in der Empfangseinheit durchgeführt, sondern auch
im Sender, so daß die sprechende Person eine synthetische Version ihrer eigenen
Sprache hören kann, wie bereits beschrieben wurde. Zu diesem Zweck sind im Sender
wie im Empfänger sechs ModulatorenM01 bis M06 vorgesehen, die die Restfunktion aus
den Komparatoren K01 bis K06 der Gegenstelle und die Syntheseannäherung aus der
eigenen Syntheseanordnung OVE empfangen, so daß dieselbe Pegelkorrektur an beiden
Endstellen erhalten wird. Die Syntheseeinrichtung OVE und die Steuereingänge der
Modulatoren M01 bis M06 werden mittels eines vom Mikrophonstrom gesteuerten Schalters
SM zwischen Sendung und Empfang hin-und hergeschaltet.
-
Wie aus der F i g. 9 zu ersehen ist, sind in der Anlage entsprechend
der allgemeinen Praxis für Sprachkompressionsanlagen, bei denen für die Übertragung
binär codierte Signale benutzt werden, für die vom Sender abgehenden Signale Analog-Digital-Konverter
und für die ankommenden Signale Digital-Analog-Konverter vorgesehen. Zusammen mit
diesen Konvertern sind ferner an sich bekannte Einrichtungen vorgesehen, die eine
Raummultiplex-Information in eine Zeitmultiplex-Information und umgekehrt umwandeln.
Bei zweckmäßiger Bemessung der Größen kann die Datenkapazität der Anlage innerhalb
eines Bereiches von 600 bis 1200 Bits pro Sekunde gehalten werden, welcher Wert
für die Übertragung von PCM-modulierten Daten über Fernsprechleitungen genügend
klein ist. Die Erfindung kann nicht nur bei Anlagen angewendet werden, in denen
die Formantkreise für die Synthese in Reihe geschaltet sind, sondern auch bei Parallelsystemen
und Kanalvocodersystemen, d. h. bei Parallelsystemen, die viele Kanäle mit festen
Frequenzen aufweisen.