DE2834349C2 - Formantvocoder - Google Patents

Formantvocoder

Info

Publication number
DE2834349C2
DE2834349C2 DE19782834349 DE2834349A DE2834349C2 DE 2834349 C2 DE2834349 C2 DE 2834349C2 DE 19782834349 DE19782834349 DE 19782834349 DE 2834349 A DE2834349 A DE 2834349A DE 2834349 C2 DE2834349 C2 DE 2834349C2
Authority
DE
Germany
Prior art keywords
formant
frequency
transmitted
vocoder
formants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19782834349
Other languages
English (en)
Other versions
DE2834349B1 (de
Inventor
Hartmut Dr.-Ing. 5810 Witten Schroeder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19782834349 priority Critical patent/DE2834349C2/de
Publication of DE2834349B1 publication Critical patent/DE2834349B1/de
Application granted granted Critical
Publication of DE2834349C2 publication Critical patent/DE2834349C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung bezieht sich auf einen Formantvocoder, bei dem sendeseitig aus dem zu übertragenden Sprachsignal in eiiunn Analysator ein, zwei oder mehr Formanten nach Frequenzlage und Amplitude ermittelt und in codierter Form zur Enpfangsseite übertragen werden und bei dem auf der E'-.pfangsseiie die decodierten Formantfrequenzen und Formantamplitudenwerte eine Syntheseeinrichtung zur Wiedergewinnung des Sprachsignals steuern.
Formantvocoder sind beispielsweise in der Literaturstelle James LFIanagan »Speech Analysis Synthesis and Perception«, 2. Auflage, Springerverlag Berlin-Heidelberg-New York, 1972, Seiten 339 bis 347, beschrieben.
Da Vocoder die Aufgabe haben, die für die Übertragung der Sprache erforderliche Übertragungskapazität möglichst gering zu halten, wird angestrebt, die beim Formantvocoder im sendeseitigen Analysegerät ermittelten Formanten nach Frequenzlage und Amplitude in quantisierter Form derart darzustellen, daß zur Übertragung nur eine möglichst geringe Bitrate unter Beibehaltung maximaler Übertragungsqualität notwendig ist. Die Stuienhöhe der Quantisierung darf also nicht so groß sein, daß bei der empfangsseitigen Rückgewinnung der Sprache in der Syntheseeinrichtung die Sprachqualität durch das Quantisierungsgeräusch « merklich verschlechtert wird. In diesem Zusammenhang kommt der Übertragung der Formantfrequenzen eine besondere Bedeutung zu, da das menschliche Ohr gegenüber Tonhöhenunterschieden besonders empfindlich ist. In der oben angegebenen Literaturstelle Seite 345 wird vorgeschlagen, die Formantfrequenzen FI und f-2 wenigstens mit einer linearen Vier-Bit- und die Formantfrequenz F3 wenigstens mit einer linearen Drei-Bit-Codierung zu übertragen. Wie die Praxis zeigt, ist bei einer solchen Übertragung das Quantisierungsge- h"> rausch noch hörbar, so daß bei höheren Qualitätsanforderungen für die Frequenzen F) und F2 des ersten und des zweiten Formanten eine lineare Fünf-Bit- und für die Formantfrequenz F3 eine lineare Vier-Bit-Codierung zur Anwendung gelangen müßten. Dies ist jedoch unerwünscht, weil hierdurch die notwendige Bitrate für die Übertragung wesentlich erhöht werden würde, da ja, wie aus der oben angegebenen Literaturstelle bekannt ist, je Sekunde etwa 30 bis 100 Formantfrequenzwerte eines jeden Formanten übertragen werden müssen.
Der Erfindung liegt die Aufgabe zugrunde, für einen Formantvocoder der einleitend beschriebenen Ar' eine Möglichkeit aufzuzeigen, die bei einer Quantisierung der zu übertragenden Formantfrequenzen in sechzehn bzw. acht Stufen entsprechend einer Vier-Bit- bzw. Drei-Bit-Codierung keine merkliche Verschlechterung der Qualität der übertragenen Sprache mit sich bringt.
Ausgehend von einem Formantvocoder der vorstehend beschriebenen Art wird diese Aufgabe gemäß der Erfindung dadurch gelöst, daß die sendeseitige Codierung der Formantfrequenzen mittels einer nichtlinearen Quantisierungskennlinie vorgenommen ist, die jeweils durch eine lineare Teilung des einem Formanten zugeordneten Tonheitsbereichs bestimmt ist
Der Erfindung liegt die Erkenntnis zugrunde, daß im Zusammenhang mit der Tonhöhe grundsätzlich zwischen der harmonischen und der empfundenen Tonhöhe zu unterscheiden ist Die harmonische Tonhöhe ist in Wirklichkeit keine Empfungsgröße, sondern eine physikalische Reizgröße, nämlich der Logarithmus der Frequenz. Es läßt sich leicht zeigen, daß ein gleiches harmonisches Tonintervall, z. B. eine Terz, eine Quint, eine Quart usw. in einem hohen Tonbereich kleiner empfunden wird als in einem tiefen. Als Empfundsgröße der Tonhöhe hat sich daher, wie beispielsweise die Literaturstelle Zwicker, Feldtkeller: »Das Ohr als Nachrichtenempfänger«, Hirzel Verlag, Stuttgart, 1967, aufweist, die Tonheit eingeführt, die sich durch geeignete Meßverfahren als Funktion der Frequenz gewinnen läßt. Die Anwendung einer nichtlinep.'en Quantisierungskennlinie der genannten Art ermöglicht einen Formantvocoder mit einer Vier-Bit-Codierung für die Frequenz des ersten und des zweiten Formanten und einer Drei-Bit-Codierung für die Frequenz des dritten Formanten, wobei die zurückgewonnene Sprache praktisch keine Unterschiede mehr aufzeigt zu Formantvocodern, bei denen die Übertragung der entsprechenden Informationen analog, also nicht in quantisierter Form und damit ohne jede Beschränkung der Dynamik, vorgenommen ist.
Anhand der Zeichnung soll die Erfindung im folgenden noch näher erläutert werden. In der Zeichnung bedeuten
Fig. I das Blockschaltbild der Sende- und der Empfangsseite eines Formantvocoders,
Fig.2 ein nähere Einzelheiten aufweisendes Teilblockschaltbild der Sendeseite des Formantvocoders nach Fig. 1,
F i g. 3 ein Diagramm der Tonheit über der Frequenz,
F i g. 4 eine Stufentabelle der Quantisierungskennlinie für die Frequenz des zweiten Formanten,
F i g. 5 eine Stufentabelle der Quantisierungskennlinie für die Frequenz des dritten Formanten.
Der in Fig. I dargestellte Formantvornder weist auf der Sendeseile einen Analysator AR auf, dessen vier Eingängen die Ausgangssignale des Mikrofons Ml parallel zugeführt werden. Der Analysator AR besteht im wesentlichen aus vier Kanälen und zwar drei Kanälen für den ersten, den zweiten und den dritten Formanten und einem vierten Kanal für die Grundfrequenz. Hierzu weisen die Kanäle für die Kormanten
eingsngsseitig die Bandpässe BPt, BPt und BPZ auf, während das eingangsseitige Filter für den Grundfrequenzkanal ein Tiefpaß TP ist. An den Tiefpaß und an die Bandpässe schließen sich jeweils Detektoreinrichtungen DO, D1, D2, D3 an. Die Detektoreinrichtungen D1, D2 und D 3 liefern ausgangsseitig die Formantfrequenzen Fl, FZ, F3 sowie die zugehörigen Amplitudenwerte Al, A2, A3. Die Detektoreinrichtung DO liefert ausgangsseitig die Grundfrequenz Fo sowie eine Information V/UV über die Stimmlage — stimmhaft, stimmlos — der Sprache. AHe acht Ausgangssignale des Analysators werden einer Codiereinrichtung CE zugeführt Die digital codierten Informationen über die Formanten, die Grundfrequenz und die Stimmlage werden in einem nicht näher dargestellten Multiplexer zu einem Zeitmultiplexsignal vereinigt und über die Leitung L zur Empfangsseite hin übertragen. Dort erfolgt in einem ebenfalls nicht näher in Fig. 1 dargestellten Demultiplexer die Aufteilung der empfangenen Signale auf die acht Eingänge der Decodiereinrichtung DE der ausgangsseitig die Informationen über die Frequenzen Fl bis F3 der Formanten sowm deren Amplitudenwerte Al bis A3, die Grundfrequenz Fo und das Signal V/UV in analoger Form deß acht Eingängen der Syntheseeinrichtung SEzugeführt sind.
Die Syntheseeinrichtung weist drei Kanäle für die drei Formanten auf, die jeweils aus einem steuerbaren Resonator RKi, RKI und RK3 und einem dem steuerbaren Resonator nachgeschalteten Multiplikator M1, M 2 und M 3 bestehen. Die Multiplikatoren M1 bis M 3 sind ausgangsseitig parallel auf den Eingang des Lautsprechers LA geschaltet Die Eingänge der drei steuerbaren Resonanzkreise RK1, RK 2, RK 3 sind mit dem Schaltarm des Umschalters US verbunden. An den einen Schaltkontakt des Umschalters US ist der Pulsgenerator PG angeschaltet, dessen Synchronisiereinrichtung die übertragene Grundfrequenz Fo zugeführt wird. Der zweite Schaltkontakt des Umschalters US ist mit dem Rauschgenerator RG verbunden. Je nachdem, ob das Signal V/L/Veine stimmhafte oder eine stimmlose Stimmlage des übertragenen Sprachsignals anzeigt, wird an die Eingänge der steuerbaren Resonatoren die Ausgangsspannung des Pulsgenerators PG oder die des Rauschgenerators RG angelegt. Die Mittenfrequenz der steuerbaren Resonatoren RK1, RK 2 und RK3 wird mittels der Formantfrequenzen Fl bis F3 gesteuert. Die auf diese Weise ausgesiebten Signale am Ausgang der steuerbaren Resonatoren werden jeweils mit dem zugehörigen Amplitudenwert A 1 bis A 3 der Formanten in den Multiplizierern M1 bis M3 multipliziert und auf diese Weise die Dynamik der übertragenen Sprache zurückgewonnen. Die Steuerung der Amplitude des Anregungssignals ist nicht mit eingezeichnet, da sie nicht Gegenstand der Erfindung ist. Hierzu sei auf die genannte Literaturstelle verwiesen.
In Fig. 2 ist für den dritten Formanten der sendeseitige Signalweg beispielhaft noch näher dargestellt. Das im Bandpaß BP3 ausgesiebte Sprachsignal wird dem einen Eingang des Vergleichers ^zugeführt, an dessen zweiten Eingang die Vergleichsspannung Ub anliegt. Der Vergleicher gibt bei jedem Nulldurchgang des Sprachteilsignals einen Impuls an den dem Vergleicher nachgeschalteten Frequenzzähler FZ ab, der auf diese Weise die Frequenzlage des dritten Formanten ermittelt Auf der Ausgangsseite ist dem
ίο Frequenzzähler FZder Wandler Wnachgeschaltet, der die Frequenzinformation in eine Spannung umwandelt und diese dann dem Codierer der Codiereinrichtung CE zuführt. Der Codierer COD ist ein linearer Codierer, dem das Rechenwerk RW nachgeschaltet ist Das Rechenwerk R Wsetzt die Codeworte entsprechend der vorgegebenen nichtlinearen Quantisierungskennlinie in die zu übertragenden Codeworte um.
In Fig.3 ist über der Frequenz /'zwischen 100 und 10 000 Hz die Tonheit ζ in der Einheit mel aufgetragen.
Wie der Verlauf der Kennlinie zeigt, besteht zwischen der Tonheit ζ und der Frequenz /"obr.-.iialb ca. 600 Hz ein nichtiinearer Zusammenhang. Mit zjnehmender Frequenz nimmt die Tonheit immer weniger zu. Der Sachverhalt wird gemäß der Erfindung für die Übertragung der Frequenzlageinformation der Formanten ?(«genutzt, und zwar in der Weise, daß die Quantisierung jeweils durch eine lineare Teilung des einen Formanten zugeordneten Tonheitsbereiches bestimmt wird.
In F i g. 4 ist eine Tabelle für 16 Quantisierungsstufen, entsprechend einer Vier-Bit-Codierung für die Frequenz F2 des zweiten Formanten im Frequenzbereich zwischen 900 und 2000 Hz angegeben. Eine Tabelle für acht Quantisierungsstufen entsprechend einer Drei-Bit-Codierung für den dritten Formanten im Frequenzbereich zwischen 2000 und 3200 Hz ist in Fig.5 angegeben.
In Übereinstimmung mit F i g. 3 ergäbe sich für den ersten Formanten eine 16 Stufentabelle entsprechend einer Vier-Bit-Codierung. Auf ihre Darstellung in einer weiteren Figur wurde verzichtet, da im Frequenzbereich zwischen 100 und 900 Hz der Zusammenhang zwischen der Tonheit und der Frequenz zumindest im unteren und mittleren Bereich weitgehend linear ist.
Bei einer Variante des Formantvocoders nach F i g. 1, bei dem anstelle der Informationen über die Grundfrequenz und den ersten Formanten ein Basisband unmittelbar übertragen wird, ist die erfindungsgemäße Maßnahme auf den zweiten und den dritten Formanten
so beschränkt. Da sich der nichtlineare Zusammenhang zwischen Tonheit und Frequenz im Frequenzbereich des zweiten und des dritten Formanten viel stärker auswirkt, als im Bereich des ersten Formanten, kommt die erf;.jic!ungsgemäße Maßnahme auch bei einem
-j-, solchen Semi-Formantvocoder, wie er beispielsweise in der eingangs genannten Literaturstelle Seite 348, 2. Absatz beschrieben ist, voll zur Auswirkung.
Hierzu 3 Blatt Zeichnungen

Claims (3)

Patentansprüche:
1. Formantvocoder, bei dem sendeseitig aus dem zu übertragenden Sprachsignal in einem Analysator ein, zwei oder mehr Formanten nach Frequenzlage und Amplitude ermittelt und in codierter Form zur Empfangsseite übertragen sind und bei dem auf der Empfangsseite die decodierten Formantfrequenzen und Formantamplitudenwerte eine Syntheseeinrichtung zur Wiedergewinnung des Sprachsignals steuern, dadurch gekennzeichnet, daß die sendeseitige Codierung und die empfangsseitige Decodierung der Formantfrequenzen (FX, FZ, F3) mittels einer nichtlinearen Quantisierungskennlinie vorgenommen ist, die jeweils durch eine lineare Teilung des einem Formanten zugeordneten Tonheitsbereiches bestimmt ist.
2. Formantvocoder nach Anspruch 1, dadurch gekennzeichnet, daß die Frequenz (F2) des zweiten Formanten einer Vier-Bit-Codierung unterworfen ist
3. Formantvocoder nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Frequenz (F3) des dritter Formanten einer Drei-Bit-Codierung unterworfen ist.
DE19782834349 1978-08-04 1978-08-04 Formantvocoder Expired DE2834349C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19782834349 DE2834349C2 (de) 1978-08-04 1978-08-04 Formantvocoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19782834349 DE2834349C2 (de) 1978-08-04 1978-08-04 Formantvocoder

Publications (2)

Publication Number Publication Date
DE2834349B1 DE2834349B1 (de) 1979-04-26
DE2834349C2 true DE2834349C2 (de) 1979-12-20

Family

ID=6046293

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19782834349 Expired DE2834349C2 (de) 1978-08-04 1978-08-04 Formantvocoder

Country Status (1)

Country Link
DE (1) DE2834349C2 (de)

Also Published As

Publication number Publication date
DE2834349B1 (de) 1979-04-26

Similar Documents

Publication Publication Date Title
DE3639753C2 (de)
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE69509555T2 (de) Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation
DE19604273C2 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE60207061T2 (de) Audiokompression
DE3802903C2 (de)
EP0251028A2 (de) Verfahren zur Übertragung eines Audiosignales
DE69533259T2 (de) Nichtlineares quantisieren eines informationssignales
DE2609297C3 (de) Übertragungssystem für Gesprächssignale
EP0370277A2 (de) Subband-Übertragungssystem
WO1993021694A1 (de) Verfahren zum übertragen und/oder speichern digitalisierter, datenreduzierter audiosignale
DE4343366A1 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
DE2941452C2 (de) Verfahren zur Codierung von Analogsignalen
DE2834349C2 (de) Formantvocoder
DE10023157A1 (de) Vorrichtung und Verfahren zum Verarbeiten der Phaseninformation eines akustischen Signals
DE60315544T2 (de) Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung
EP0610282B1 (de) Verfahren zur gleichzeitigen übertragung von audio-signalen aus n-signalquellen
EP0378609A1 (de) Verfahren zur übertragung eines audiosignals.
DE2316939C3 (de) Elektrische Hörhilfeschaltung
DE3621513C2 (de) Verfahren zur Übertragung eines Audiosignales
DE2210147C3 (de) Verfahren zur gleichzeitigen Übertragung einer Hauptinformation und von Zusatzinformationen im Hörfrequenzbereich
DE3440615C1 (de) Verfahren zum Übertragen und Speichern von Tonsignalen und Einrichtung zur Durchführung des Verfahrens
DE2718631A1 (de) Verfahren zur digitalen uebertragung von qualitativ hochwertigen tonsignalen
DE2659674C3 (de) Verfahren und Anordnung zum Synchronisieren eines Semi-Formantvocoders
DE1079118B (de) Verfahren zur elektrischen Nachrichtenuebertragung unter Frequenzbandpressung

Legal Events

Date Code Title Description
8339 Ceased/non-payment of the annual fee