DE2834349C2

DE2834349C2 - Formantvocoder

Info

Publication number: DE2834349C2
Application number: DE19782834349
Authority: DE
Inventors: Hartmut Dr.-Ing. 5810 Witten Schroeder
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1978-08-04
Filing date: 1978-08-04
Publication date: 1979-12-20
Also published as: DE2834349B1

Description

Die Erfindung bezieht sich auf einen Formantvocoder, bei dem sendeseitig aus dem zu übertragenden Sprachsignal in eiiunn Analysator ein, zwei oder mehr Formanten nach Frequenzlage und Amplitude ermittelt und in codierter Form zur Enpfangsseite übertragen werden und bei dem auf der E'-.pfangsseiie die decodierten Formantfrequenzen und Formantamplitudenwerte eine Syntheseeinrichtung zur Wiedergewinnung des Sprachsignals steuern.

Formantvocoder sind beispielsweise in der Literaturstelle James LFIanagan »Speech Analysis Synthesis and Perception«, 2. Auflage, Springerverlag Berlin-Heidelberg-New York, 1972, Seiten 339 bis 347, beschrieben.

Da Vocoder die Aufgabe haben, die für die Übertragung der Sprache erforderliche Übertragungskapazität möglichst gering zu halten, wird angestrebt, die beim Formantvocoder im sendeseitigen Analysegerät ermittelten Formanten nach Frequenzlage und Amplitude in quantisierter Form derart darzustellen, daß zur Übertragung nur eine möglichst geringe Bitrate unter Beibehaltung maximaler Übertragungsqualität notwendig ist. Die Stuienhöhe der Quantisierung darf also nicht so groß sein, daß bei der empfangsseitigen Rückgewinnung der Sprache in der Syntheseeinrichtung die Sprachqualität durch das Quantisierungsgeräusch « merklich verschlechtert wird. In diesem Zusammenhang kommt der Übertragung der Formantfrequenzen eine besondere Bedeutung zu, da das menschliche Ohr gegenüber Tonhöhenunterschieden besonders empfindlich ist. In der oben angegebenen Literaturstelle Seite 345 wird vorgeschlagen, die Formantfrequenzen FI und f-2 wenigstens mit einer linearen Vier-Bit- und die Formantfrequenz F3 wenigstens mit einer linearen Drei-Bit-Codierung zu übertragen. Wie die Praxis zeigt, ist bei einer solchen Übertragung das Quantisierungsge- h"> rausch noch hörbar, so daß bei höheren Qualitätsanforderungen für die Frequenzen F) und F2 des ersten und des zweiten Formanten eine lineare Fünf-Bit- und für die Formantfrequenz F3 eine lineare Vier-Bit-Codierung zur Anwendung gelangen müßten. Dies ist jedoch unerwünscht, weil hierdurch die notwendige Bitrate für die Übertragung wesentlich erhöht werden würde, da ja, wie aus der oben angegebenen Literaturstelle bekannt ist, je Sekunde etwa 30 bis 100 Formantfrequenzwerte eines jeden Formanten übertragen werden müssen.

Der Erfindung liegt die Aufgabe zugrunde, für einen Formantvocoder der einleitend beschriebenen Ar' eine Möglichkeit aufzuzeigen, die bei einer Quantisierung der zu übertragenden Formantfrequenzen in sechzehn bzw. acht Stufen entsprechend einer Vier-Bit- bzw. Drei-Bit-Codierung keine merkliche Verschlechterung der Qualität der übertragenen Sprache mit sich bringt.

Ausgehend von einem Formantvocoder der vorstehend beschriebenen Art wird diese Aufgabe gemäß der Erfindung dadurch gelöst, daß die sendeseitige Codierung der Formantfrequenzen mittels einer nichtlinearen Quantisierungskennlinie vorgenommen ist, die jeweils durch eine lineare Teilung des einem Formanten zugeordneten Tonheitsbereichs bestimmt ist

Der Erfindung liegt die Erkenntnis zugrunde, daß im Zusammenhang mit der Tonhöhe grundsätzlich zwischen der harmonischen und der empfundenen Tonhöhe zu unterscheiden ist Die harmonische Tonhöhe ist in Wirklichkeit keine Empfungsgröße, sondern eine physikalische Reizgröße, nämlich der Logarithmus der Frequenz. Es läßt sich leicht zeigen, daß ein gleiches harmonisches Tonintervall, z. B. eine Terz, eine Quint, eine Quart usw. in einem hohen Tonbereich kleiner empfunden wird als in einem tiefen. Als Empfundsgröße der Tonhöhe hat sich daher, wie beispielsweise die Literaturstelle Zwicker, Feldtkeller: »Das Ohr als Nachrichtenempfänger«, Hirzel Verlag, Stuttgart, 1967, aufweist, die Tonheit eingeführt, die sich durch geeignete Meßverfahren als Funktion der Frequenz gewinnen läßt. Die Anwendung einer nichtlinep.'en Quantisierungskennlinie der genannten Art ermöglicht einen Formantvocoder mit einer Vier-Bit-Codierung für die Frequenz des ersten und des zweiten Formanten und einer Drei-Bit-Codierung für die Frequenz des dritten Formanten, wobei die zurückgewonnene Sprache praktisch keine Unterschiede mehr aufzeigt zu Formantvocodern, bei denen die Übertragung der entsprechenden Informationen analog, also nicht in quantisierter Form und damit ohne jede Beschränkung der Dynamik, vorgenommen ist.

Anhand der Zeichnung soll die Erfindung im folgenden noch näher erläutert werden. In der Zeichnung bedeuten

Fig. I das Blockschaltbild der Sende- und der Empfangsseite eines Formantvocoders,

Fig.2 ein nähere Einzelheiten aufweisendes Teilblockschaltbild der Sendeseite des Formantvocoders nach Fig. 1,

F i g. 3 ein Diagramm der Tonheit über der Frequenz,

F i g. 4 eine Stufentabelle der Quantisierungskennlinie für die Frequenz des zweiten Formanten,

F i g. 5 eine Stufentabelle der Quantisierungskennlinie für die Frequenz des dritten Formanten.

Der in Fig. I dargestellte Formantvornder weist auf der Sendeseile einen Analysator AR auf, dessen vier Eingängen die Ausgangssignale des Mikrofons Ml parallel zugeführt werden. Der Analysator AR besteht im wesentlichen aus vier Kanälen und zwar drei Kanälen für den ersten, den zweiten und den dritten Formanten und einem vierten Kanal für die Grundfrequenz. Hierzu weisen die Kanäle für die Kormanten

eingsngsseitig die Bandpässe BPt, BPt und BPZ auf, während das eingangsseitige Filter für den Grundfrequenzkanal ein Tiefpaß TP ist. An den Tiefpaß und an die Bandpässe schließen sich jeweils Detektoreinrichtungen DO, D1, D2, D3 an. Die Detektoreinrichtungen D1, D2 und D 3 liefern ausgangsseitig die Formantfrequenzen Fl, FZ, F3 sowie die zugehörigen Amplitudenwerte Al, A2, A3. Die Detektoreinrichtung DO liefert ausgangsseitig die Grundfrequenz Fo sowie eine Information V/UV über die Stimmlage — stimmhaft, stimmlos — der Sprache. AHe acht Ausgangssignale des Analysators werden einer Codiereinrichtung CE zugeführt Die digital codierten Informationen über die Formanten, die Grundfrequenz und die Stimmlage werden in einem nicht näher dargestellten Multiplexer zu einem Zeitmultiplexsignal vereinigt und über die Leitung L zur Empfangsseite hin übertragen. Dort erfolgt in einem ebenfalls nicht näher in Fig. 1 dargestellten Demultiplexer die Aufteilung der empfangenen Signale auf die acht Eingänge der Decodiereinrichtung DE der ausgangsseitig die Informationen über die Frequenzen Fl bis F3 der Formanten sowm deren Amplitudenwerte Al bis A3, die Grundfrequenz Fo und das Signal V/UV in analoger Form deß acht Eingängen der Syntheseeinrichtung SEzugeführt sind.

Die Syntheseeinrichtung weist drei Kanäle für die drei Formanten auf, die jeweils aus einem steuerbaren Resonator RKi, RKI und RK3 und einem dem steuerbaren Resonator nachgeschalteten Multiplikator M1, M 2 und M 3 bestehen. Die Multiplikatoren M1 bis M 3 sind ausgangsseitig parallel auf den Eingang des Lautsprechers LA geschaltet Die Eingänge der drei steuerbaren Resonanzkreise RK1, RK 2, RK 3 sind mit dem Schaltarm des Umschalters US verbunden. An den einen Schaltkontakt des Umschalters US ist der Pulsgenerator PG angeschaltet, dessen Synchronisiereinrichtung die übertragene Grundfrequenz Fo zugeführt wird. Der zweite Schaltkontakt des Umschalters US ist mit dem Rauschgenerator RG verbunden. Je nachdem, ob das Signal V/L/Veine stimmhafte oder eine stimmlose Stimmlage des übertragenen Sprachsignals anzeigt, wird an die Eingänge der steuerbaren Resonatoren die Ausgangsspannung des Pulsgenerators PG oder die des Rauschgenerators RG angelegt. Die Mittenfrequenz der steuerbaren Resonatoren RK1, RK 2 und RK3 wird mittels der Formantfrequenzen Fl bis F3 gesteuert. Die auf diese Weise ausgesiebten Signale am Ausgang der steuerbaren Resonatoren werden jeweils mit dem zugehörigen Amplitudenwert A 1 bis A 3 der Formanten in den Multiplizierern M1 bis M3 multipliziert und auf diese Weise die Dynamik der übertragenen Sprache zurückgewonnen. Die Steuerung der Amplitude des Anregungssignals ist nicht mit eingezeichnet, da sie nicht Gegenstand der Erfindung ist. Hierzu sei auf die genannte Literaturstelle verwiesen.

In Fig. 2 ist für den dritten Formanten der sendeseitige Signalweg beispielhaft noch näher dargestellt. Das im Bandpaß BP3 ausgesiebte Sprachsignal wird dem einen Eingang des Vergleichers ^zugeführt, an dessen zweiten Eingang die Vergleichsspannung Ub anliegt. Der Vergleicher gibt bei jedem Nulldurchgang des Sprachteilsignals einen Impuls an den dem Vergleicher nachgeschalteten Frequenzzähler FZ ab, der auf diese Weise die Frequenzlage des dritten Formanten ermittelt Auf der Ausgangsseite ist dem

ίο Frequenzzähler FZder Wandler Wnachgeschaltet, der die Frequenzinformation in eine Spannung umwandelt und diese dann dem Codierer der Codiereinrichtung CE zuführt. Der Codierer COD ist ein linearer Codierer, dem das Rechenwerk RW nachgeschaltet ist Das Rechenwerk R Wsetzt die Codeworte entsprechend der vorgegebenen nichtlinearen Quantisierungskennlinie in die zu übertragenden Codeworte um.

In Fig.3 ist über der Frequenz /'zwischen 100 und 10 000 Hz die Tonheit ζ in der Einheit mel aufgetragen.

Wie der Verlauf der Kennlinie zeigt, besteht zwischen der Tonheit ζ und der Frequenz /"obr.-.iialb ca. 600 Hz ein nichtiinearer Zusammenhang. Mit zjnehmender Frequenz nimmt die Tonheit immer weniger zu. Der Sachverhalt wird gemäß der Erfindung für die Übertragung der Frequenzlageinformation der Formanten ?(«genutzt, und zwar in der Weise, daß die Quantisierung jeweils durch eine lineare Teilung des einen Formanten zugeordneten Tonheitsbereiches bestimmt wird.

In F i g. 4 ist eine Tabelle für 16 Quantisierungsstufen, entsprechend einer Vier-Bit-Codierung für die Frequenz F2 des zweiten Formanten im Frequenzbereich zwischen 900 und 2000 Hz angegeben. Eine Tabelle für acht Quantisierungsstufen entsprechend einer Drei-Bit-Codierung für den dritten Formanten im Frequenzbereich zwischen 2000 und 3200 Hz ist in Fig.5 angegeben.

In Übereinstimmung mit F i g. 3 ergäbe sich für den ersten Formanten eine 16 Stufentabelle entsprechend einer Vier-Bit-Codierung. Auf ihre Darstellung in einer weiteren Figur wurde verzichtet, da im Frequenzbereich zwischen 100 und 900 Hz der Zusammenhang zwischen der Tonheit und der Frequenz zumindest im unteren und mittleren Bereich weitgehend linear ist.

Bei einer Variante des Formantvocoders nach F i g. 1, bei dem anstelle der Informationen über die Grundfrequenz und den ersten Formanten ein Basisband unmittelbar übertragen wird, ist die erfindungsgemäße Maßnahme auf den zweiten und den dritten Formanten

so beschränkt. Da sich der nichtlineare Zusammenhang zwischen Tonheit und Frequenz im Frequenzbereich des zweiten und des dritten Formanten viel stärker auswirkt, als im Bereich des ersten Formanten, kommt die er^f;.jic!ungsgemäße Maßnahme auch bei einem

-j-, solchen Semi-Formantvocoder, wie er beispielsweise in der eingangs genannten Literaturstelle Seite 348, 2. Absatz beschrieben ist, voll zur Auswirkung.

Hierzu 3 Blatt Zeichnungen

Claims

Patentansprüche:

1. Formantvocoder, bei dem sendeseitig aus dem zu übertragenden Sprachsignal in einem Analysator ein, zwei oder mehr Formanten nach Frequenzlage und Amplitude ermittelt und in codierter Form zur Empfangsseite übertragen sind und bei dem auf der Empfangsseite die decodierten Formantfrequenzen und Formantamplitudenwerte eine Syntheseeinrichtung zur Wiedergewinnung des Sprachsignals steuern, dadurch gekennzeichnet, daß die sendeseitige Codierung und die empfangsseitige Decodierung der Formantfrequenzen (FX, FZ, F3) mittels einer nichtlinearen Quantisierungskennlinie vorgenommen ist, die jeweils durch eine lineare Teilung des einem Formanten zugeordneten Tonheitsbereiches bestimmt ist.

2. Formantvocoder nach Anspruch 1, dadurch gekennzeichnet, daß die Frequenz (F2) des zweiten Formanten einer Vier-Bit-Codierung unterworfen ist

3. Formantvocoder nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Frequenz (F3) des dritter Formanten einer Drei-Bit-Codierung unterworfen ist.