DE2834349C2 - Formantvocoder - Google Patents
FormantvocoderInfo
- Publication number
- DE2834349C2 DE2834349C2 DE19782834349 DE2834349A DE2834349C2 DE 2834349 C2 DE2834349 C2 DE 2834349C2 DE 19782834349 DE19782834349 DE 19782834349 DE 2834349 A DE2834349 A DE 2834349A DE 2834349 C2 DE2834349 C2 DE 2834349C2
- Authority
- DE
- Germany
- Prior art keywords
- formant
- frequency
- transmitted
- vocoder
- formants
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000013139 quantization Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung bezieht sich auf einen Formantvocoder, bei dem sendeseitig aus dem zu übertragenden
Sprachsignal in eiiunn Analysator ein, zwei oder mehr
Formanten nach Frequenzlage und Amplitude ermittelt
und in codierter Form zur Enpfangsseite übertragen werden und bei dem auf der E'-.pfangsseiie die
decodierten Formantfrequenzen und Formantamplitudenwerte eine Syntheseeinrichtung zur Wiedergewinnung
des Sprachsignals steuern.
Formantvocoder sind beispielsweise in der Literaturstelle James LFIanagan »Speech Analysis Synthesis
and Perception«, 2. Auflage, Springerverlag Berlin-Heidelberg-New
York, 1972, Seiten 339 bis 347, beschrieben.
Da Vocoder die Aufgabe haben, die für die Übertragung der Sprache erforderliche Übertragungskapazität
möglichst gering zu halten, wird angestrebt, die beim Formantvocoder im sendeseitigen Analysegerät
ermittelten Formanten nach Frequenzlage und Amplitude in quantisierter Form derart darzustellen,
daß zur Übertragung nur eine möglichst geringe Bitrate unter Beibehaltung maximaler Übertragungsqualität
notwendig ist. Die Stuienhöhe der Quantisierung darf also nicht so groß sein, daß bei der empfangsseitigen
Rückgewinnung der Sprache in der Syntheseeinrichtung die Sprachqualität durch das Quantisierungsgeräusch «
merklich verschlechtert wird. In diesem Zusammenhang kommt der Übertragung der Formantfrequenzen eine
besondere Bedeutung zu, da das menschliche Ohr gegenüber Tonhöhenunterschieden besonders empfindlich
ist. In der oben angegebenen Literaturstelle Seite 345 wird vorgeschlagen, die Formantfrequenzen FI und
f-2 wenigstens mit einer linearen Vier-Bit- und die Formantfrequenz F3 wenigstens mit einer linearen
Drei-Bit-Codierung zu übertragen. Wie die Praxis zeigt, ist bei einer solchen Übertragung das Quantisierungsge- h">
rausch noch hörbar, so daß bei höheren Qualitätsanforderungen für die Frequenzen F) und F2 des ersten und
des zweiten Formanten eine lineare Fünf-Bit- und für die Formantfrequenz F3 eine lineare Vier-Bit-Codierung
zur Anwendung gelangen müßten. Dies ist jedoch unerwünscht, weil hierdurch die notwendige Bitrate für
die Übertragung wesentlich erhöht werden würde, da ja, wie aus der oben angegebenen Literaturstelle bekannt
ist, je Sekunde etwa 30 bis 100 Formantfrequenzwerte
eines jeden Formanten übertragen werden müssen.
Der Erfindung liegt die Aufgabe zugrunde, für einen Formantvocoder der einleitend beschriebenen Ar' eine
Möglichkeit aufzuzeigen, die bei einer Quantisierung der zu übertragenden Formantfrequenzen in sechzehn
bzw. acht Stufen entsprechend einer Vier-Bit- bzw. Drei-Bit-Codierung keine merkliche Verschlechterung
der Qualität der übertragenen Sprache mit sich bringt.
Ausgehend von einem Formantvocoder der vorstehend beschriebenen Art wird diese Aufgabe gemäß der
Erfindung dadurch gelöst, daß die sendeseitige Codierung der Formantfrequenzen mittels einer nichtlinearen
Quantisierungskennlinie vorgenommen ist, die jeweils durch eine lineare Teilung des einem Formanten
zugeordneten Tonheitsbereichs bestimmt ist
Der Erfindung liegt die Erkenntnis zugrunde, daß im Zusammenhang mit der Tonhöhe grundsätzlich zwischen
der harmonischen und der empfundenen Tonhöhe zu unterscheiden ist Die harmonische Tonhöhe ist in
Wirklichkeit keine Empfungsgröße, sondern eine physikalische Reizgröße, nämlich der Logarithmus der
Frequenz. Es läßt sich leicht zeigen, daß ein gleiches harmonisches Tonintervall, z. B. eine Terz, eine Quint,
eine Quart usw. in einem hohen Tonbereich kleiner empfunden wird als in einem tiefen. Als Empfundsgröße
der Tonhöhe hat sich daher, wie beispielsweise die Literaturstelle Zwicker, Feldtkeller: »Das Ohr
als Nachrichtenempfänger«, Hirzel Verlag, Stuttgart, 1967, aufweist, die Tonheit eingeführt, die sich durch
geeignete Meßverfahren als Funktion der Frequenz gewinnen läßt. Die Anwendung einer nichtlinep.'en
Quantisierungskennlinie der genannten Art ermöglicht einen Formantvocoder mit einer Vier-Bit-Codierung für
die Frequenz des ersten und des zweiten Formanten und einer Drei-Bit-Codierung für die Frequenz des dritten
Formanten, wobei die zurückgewonnene Sprache praktisch keine Unterschiede mehr aufzeigt zu Formantvocodern,
bei denen die Übertragung der entsprechenden Informationen analog, also nicht in quantisierter
Form und damit ohne jede Beschränkung der Dynamik, vorgenommen ist.
Anhand der Zeichnung soll die Erfindung im folgenden noch näher erläutert werden. In der
Zeichnung bedeuten
Fig. I das Blockschaltbild der Sende- und der Empfangsseite eines Formantvocoders,
Fig.2 ein nähere Einzelheiten aufweisendes Teilblockschaltbild
der Sendeseite des Formantvocoders nach Fig. 1,
F i g. 3 ein Diagramm der Tonheit über der Frequenz,
F i g. 4 eine Stufentabelle der Quantisierungskennlinie für die Frequenz des zweiten Formanten,
F i g. 5 eine Stufentabelle der Quantisierungskennlinie für die Frequenz des dritten Formanten.
Der in Fig. I dargestellte Formantvornder weist auf
der Sendeseile einen Analysator AR auf, dessen vier Eingängen die Ausgangssignale des Mikrofons Ml
parallel zugeführt werden. Der Analysator AR besteht im wesentlichen aus vier Kanälen und zwar drei
Kanälen für den ersten, den zweiten und den dritten Formanten und einem vierten Kanal für die Grundfrequenz.
Hierzu weisen die Kanäle für die Kormanten
eingsngsseitig die Bandpässe BPt, BPt und BPZ auf,
während das eingangsseitige Filter für den Grundfrequenzkanal
ein Tiefpaß TP ist. An den Tiefpaß und an die Bandpässe schließen sich jeweils Detektoreinrichtungen
DO, D1, D2, D3 an. Die Detektoreinrichtungen
D1, D2 und D 3 liefern ausgangsseitig die Formantfrequenzen
Fl, FZ, F3 sowie die zugehörigen Amplitudenwerte
Al, A2, A3. Die Detektoreinrichtung DO
liefert ausgangsseitig die Grundfrequenz Fo sowie eine Information V/UV über die Stimmlage — stimmhaft,
stimmlos — der Sprache. AHe acht Ausgangssignale des Analysators werden einer Codiereinrichtung CE zugeführt
Die digital codierten Informationen über die Formanten, die Grundfrequenz und die Stimmlage
werden in einem nicht näher dargestellten Multiplexer zu einem Zeitmultiplexsignal vereinigt und über die
Leitung L zur Empfangsseite hin übertragen. Dort erfolgt in einem ebenfalls nicht näher in Fig. 1
dargestellten Demultiplexer die Aufteilung der empfangenen Signale auf die acht Eingänge der Decodiereinrichtung
DE der ausgangsseitig die Informationen über die Frequenzen Fl bis F3 der Formanten sowm deren
Amplitudenwerte Al bis A3, die Grundfrequenz Fo
und das Signal V/UV in analoger Form deß acht
Eingängen der Syntheseeinrichtung SEzugeführt sind.
Die Syntheseeinrichtung weist drei Kanäle für die drei Formanten auf, die jeweils aus einem steuerbaren
Resonator RKi, RKI und RK3 und einem dem steuerbaren Resonator nachgeschalteten Multiplikator
M1, M 2 und M 3 bestehen. Die Multiplikatoren M1 bis
M 3 sind ausgangsseitig parallel auf den Eingang des Lautsprechers LA geschaltet Die Eingänge der drei
steuerbaren Resonanzkreise RK1, RK 2, RK 3 sind mit
dem Schaltarm des Umschalters US verbunden. An den einen Schaltkontakt des Umschalters US ist der
Pulsgenerator PG angeschaltet, dessen Synchronisiereinrichtung
die übertragene Grundfrequenz Fo zugeführt wird. Der zweite Schaltkontakt des Umschalters
US ist mit dem Rauschgenerator RG verbunden. Je nachdem, ob das Signal V/L/Veine stimmhafte oder eine
stimmlose Stimmlage des übertragenen Sprachsignals anzeigt, wird an die Eingänge der steuerbaren
Resonatoren die Ausgangsspannung des Pulsgenerators PG oder die des Rauschgenerators RG angelegt. Die
Mittenfrequenz der steuerbaren Resonatoren RK1,
RK 2 und RK3 wird mittels der Formantfrequenzen Fl
bis F3 gesteuert. Die auf diese Weise ausgesiebten Signale am Ausgang der steuerbaren Resonatoren
werden jeweils mit dem zugehörigen Amplitudenwert A 1 bis A 3 der Formanten in den Multiplizierern M1
bis M3 multipliziert und auf diese Weise die Dynamik
der übertragenen Sprache zurückgewonnen. Die Steuerung der Amplitude des Anregungssignals ist nicht mit
eingezeichnet, da sie nicht Gegenstand der Erfindung
ist. Hierzu sei auf die genannte Literaturstelle verwiesen.
In Fig. 2 ist für den dritten Formanten der sendeseitige Signalweg beispielhaft noch näher dargestellt.
Das im Bandpaß BP3 ausgesiebte Sprachsignal wird dem einen Eingang des Vergleichers ^zugeführt,
an dessen zweiten Eingang die Vergleichsspannung Ub anliegt. Der Vergleicher gibt bei jedem Nulldurchgang
des Sprachteilsignals einen Impuls an den dem Vergleicher nachgeschalteten Frequenzzähler FZ ab,
der auf diese Weise die Frequenzlage des dritten Formanten ermittelt Auf der Ausgangsseite ist dem
ίο Frequenzzähler FZder Wandler Wnachgeschaltet, der
die Frequenzinformation in eine Spannung umwandelt und diese dann dem Codierer der Codiereinrichtung CE
zuführt. Der Codierer COD ist ein linearer Codierer, dem das Rechenwerk RW nachgeschaltet ist Das
Rechenwerk R Wsetzt die Codeworte entsprechend der
vorgegebenen nichtlinearen Quantisierungskennlinie in die zu übertragenden Codeworte um.
In Fig.3 ist über der Frequenz /'zwischen 100 und
10 000 Hz die Tonheit ζ in der Einheit mel aufgetragen.
Wie der Verlauf der Kennlinie zeigt, besteht zwischen der Tonheit ζ und der Frequenz /"obr.-.iialb ca. 600 Hz
ein nichtiinearer Zusammenhang. Mit zjnehmender
Frequenz nimmt die Tonheit immer weniger zu. Der Sachverhalt wird gemäß der Erfindung für die
Übertragung der Frequenzlageinformation der Formanten ?(«genutzt, und zwar in der Weise, daß die
Quantisierung jeweils durch eine lineare Teilung des einen Formanten zugeordneten Tonheitsbereiches
bestimmt wird.
In F i g. 4 ist eine Tabelle für 16 Quantisierungsstufen,
entsprechend einer Vier-Bit-Codierung für die Frequenz F2 des zweiten Formanten im Frequenzbereich
zwischen 900 und 2000 Hz angegeben. Eine Tabelle für acht Quantisierungsstufen entsprechend einer Drei-Bit-Codierung
für den dritten Formanten im Frequenzbereich zwischen 2000 und 3200 Hz ist in Fig.5
angegeben.
In Übereinstimmung mit F i g. 3 ergäbe sich für den ersten Formanten eine 16 Stufentabelle entsprechend
einer Vier-Bit-Codierung. Auf ihre Darstellung in einer weiteren Figur wurde verzichtet, da im Frequenzbereich
zwischen 100 und 900 Hz der Zusammenhang zwischen
der Tonheit und der Frequenz zumindest im unteren und mittleren Bereich weitgehend linear ist.
Bei einer Variante des Formantvocoders nach F i g. 1,
bei dem anstelle der Informationen über die Grundfrequenz und den ersten Formanten ein Basisband
unmittelbar übertragen wird, ist die erfindungsgemäße Maßnahme auf den zweiten und den dritten Formanten
so beschränkt. Da sich der nichtlineare Zusammenhang
zwischen Tonheit und Frequenz im Frequenzbereich des zweiten und des dritten Formanten viel stärker
auswirkt, als im Bereich des ersten Formanten, kommt die erf;.jic!ungsgemäße Maßnahme auch bei einem
-j-, solchen Semi-Formantvocoder, wie er beispielsweise in
der eingangs genannten Literaturstelle Seite 348, 2. Absatz beschrieben ist, voll zur Auswirkung.
Hierzu 3 Blatt Zeichnungen
Claims (3)
1. Formantvocoder, bei dem sendeseitig aus dem
zu übertragenden Sprachsignal in einem Analysator ein, zwei oder mehr Formanten nach Frequenzlage
und Amplitude ermittelt und in codierter Form zur Empfangsseite übertragen sind und bei dem auf der
Empfangsseite die decodierten Formantfrequenzen und Formantamplitudenwerte eine Syntheseeinrichtung
zur Wiedergewinnung des Sprachsignals steuern, dadurch gekennzeichnet, daß die sendeseitige Codierung und die empfangsseitige
Decodierung der Formantfrequenzen (FX, FZ, F3)
mittels einer nichtlinearen Quantisierungskennlinie vorgenommen ist, die jeweils durch eine lineare
Teilung des einem Formanten zugeordneten Tonheitsbereiches bestimmt ist.
2. Formantvocoder nach Anspruch 1, dadurch gekennzeichnet, daß die Frequenz (F2) des zweiten
Formanten einer Vier-Bit-Codierung unterworfen ist
3. Formantvocoder nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Frequenz (F3) des
dritter Formanten einer Drei-Bit-Codierung unterworfen ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19782834349 DE2834349C2 (de) | 1978-08-04 | 1978-08-04 | Formantvocoder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19782834349 DE2834349C2 (de) | 1978-08-04 | 1978-08-04 | Formantvocoder |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2834349B1 DE2834349B1 (de) | 1979-04-26 |
DE2834349C2 true DE2834349C2 (de) | 1979-12-20 |
Family
ID=6046293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19782834349 Expired DE2834349C2 (de) | 1978-08-04 | 1978-08-04 | Formantvocoder |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2834349C2 (de) |
-
1978
- 1978-08-04 DE DE19782834349 patent/DE2834349C2/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
DE2834349B1 (de) | 1979-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3639753C2 (de) | ||
DE19747132C2 (de) | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms | |
DE69509555T2 (de) | Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation | |
DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE60207061T2 (de) | Audiokompression | |
DE3802903C2 (de) | ||
EP0251028A2 (de) | Verfahren zur Übertragung eines Audiosignales | |
DE69533259T2 (de) | Nichtlineares quantisieren eines informationssignales | |
DE2609297C3 (de) | Übertragungssystem für Gesprächssignale | |
EP0370277A2 (de) | Subband-Übertragungssystem | |
WO1993021694A1 (de) | Verfahren zum übertragen und/oder speichern digitalisierter, datenreduzierter audiosignale | |
DE4343366A1 (de) | Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen | |
DE2941452C2 (de) | Verfahren zur Codierung von Analogsignalen | |
DE2834349C2 (de) | Formantvocoder | |
DE10023157A1 (de) | Vorrichtung und Verfahren zum Verarbeiten der Phaseninformation eines akustischen Signals | |
DE60315544T2 (de) | Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung | |
EP0610282B1 (de) | Verfahren zur gleichzeitigen übertragung von audio-signalen aus n-signalquellen | |
EP0378609A1 (de) | Verfahren zur übertragung eines audiosignals. | |
DE2316939C3 (de) | Elektrische Hörhilfeschaltung | |
DE3621513C2 (de) | Verfahren zur Übertragung eines Audiosignales | |
DE2210147C3 (de) | Verfahren zur gleichzeitigen Übertragung einer Hauptinformation und von Zusatzinformationen im Hörfrequenzbereich | |
DE3440615C1 (de) | Verfahren zum Übertragen und Speichern von Tonsignalen und Einrichtung zur Durchführung des Verfahrens | |
DE2718631A1 (de) | Verfahren zur digitalen uebertragung von qualitativ hochwertigen tonsignalen | |
DE2659674C3 (de) | Verfahren und Anordnung zum Synchronisieren eines Semi-Formantvocoders | |
DE1079118B (de) | Verfahren zur elektrischen Nachrichtenuebertragung unter Frequenzbandpressung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8339 | Ceased/non-payment of the annual fee |