DE19722705A1 - Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung - Google Patents
Verfahren zur Abschätzung der Verstärkung zur SprachkodierungInfo
- Publication number
- DE19722705A1 DE19722705A1 DE19722705A DE19722705A DE19722705A1 DE 19722705 A1 DE19722705 A1 DE 19722705A1 DE 19722705 A DE19722705 A DE 19722705A DE 19722705 A DE19722705 A DE 19722705A DE 19722705 A1 DE19722705 A1 DE 19722705A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- output signal
- pulse
- gain
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
Description
Die Erfindung betrifft ein Verfahren zur Sprachdekodierung
mit einem Vokoder und insbesondere ein Verfahren eines
Schemas zur Abschätzung der Verstärkung für eine Kodierung
eines Vokoders.
Die Technik der linearen voraussagenden Kodierung (LPC) ei
nes Vokoders wird in großem Maße im Zusammenhang mit Syn
thetisatoren-Anwendungen zur Sprachkodierung verwendet.
Beispielhaft wird auf die US-PS 4,910,781 und die US-PS
4,697,261 verwiesen. Die gesamte Offenbarung dieser Patent
schriften wird hiermit zum Bestandteil der vorliegenden Pa
tentanmeldung gemacht. Bis heute werden LPC-10 Vokoder in
großem Umfang für die Sprachkomprimierung mit einer niedri
gen Bitrate verwendet.
Die Fig. 1 zeigt ein Blockschaltbild eines bekannten LPC-Vo
koders. Der Vokoder enthält im allgemeinen einen Impuls
reihen-Generator 11, einen Zufallsrauschgenerator 12, einen
Schalter 13 für "mit Sprache"/"ohne Sprache", eine Verstär
kereinheit 14, ein LPC-Filter 15 und eine Einstelleinheit
16 für LPC-Parameter.
Das Eingangssignal des Vokoders wird entweder von dem Im
pulsreihen-Generator 11 oder dem Zufallsrauschgenerator 12
erzeugt. Der Impulsreihen-Generator 11 kann ein Sprachsi
gnal in der Form einer periodischen Impulsreihe erzeugen,
bei dem es sich um das sogenannte Signal "mit Sprache" han
delt. Andererseits kann der Zufallsrauschgenerator 12 ein
weißes Rauschsignal erzeugen, bei dem es sich um das soge
nannte Signal "ohne Sprache" handelt. Entsprechend der
richtigen Beurteilung durch den Schalter 13 wird das durch
den Impulsreihen-Generator 11 erzeugte Signal mit der peri
odischen Impulsreihe oder das weiße Rauschsignal, das durch
den Rauschgenerator 12 erzeugt wird, zur Verstärkereinheit
14 übertragen. Es wird dann ein LPC-Allpolfilter 15 erregt
um ein Ausgangssignal S(n) zu erzeugen, das so skaliert
wird, daß es an den Pegel der Eingangssprache angepaßt ist.
Die Sprachentscheidung, die Teilungsperiode, die Filter
koeffizienten und die Verstärkung werden für jeden
Sprachrahmen aufdatiert, um Änderungen in der Eingangsspra
che zu folgen bzw. nachzusteueren. Die Gesamtverstärkung
der synthetischen Sprache muß bei praktischen Vokoderanwen
dungen so eingestellt werden, daß sie an den Pegel der Ein
gangssprache angepaßt ist. Gegenwärtig gibt es zwei Verfah
ren zur Bestimmung der Verstärkung, die in großem Umfang
angewendet werden. Bei dem ersten Verfahren kann die Ver
stärkung dadurch bestimmt werden, daß die Energie in dem
Sprachsignal an die Energie der linearen vorhergesagten Ab
tastungen bzw. Proben angepaßt wird. Dies ist in der Tat
richtig, wenn richtige Voraussetzungen im Hinblick auf das
Erregungssignal für das LPC-System gemacht werden. Einige
Voraussetzungen bestehen darin, daß die Vorhersagekoeffizi
enten ak in einem tatsächlichen Modell gleich den Vorhersa
gekoeffizienten αk in einem realen Modell sind, daß die
Energie in dem Erregungssignal Gu(n) für das tatsächliche
Modell gleich der Energie in dem Fehlersignal e(n) für das
reale Modell ist, daß u(n) = δ(n) für die gesprochene Sprache
ist und daß u(n) für die nicht gesprochene Sprache ein wei
ßer Rauschprozeß mit einem Nullmittelwert und einer Ein
heitsvarianz ist. Mit dieser Voraussetzung kann die Ver
stärkung G durch die folgende Gleichung abgeschätzt werden:
Dabei bezeichnet R(.) die Autokorrelation des Sprachsigna
les. αk bezeichnet die LPC-Koeffizienten und p die Vorher
sage- bzw. Vorgabeordnung.
Ein weiteres Verfahren zur Verstärkungsberechnung basiert
auf dem Effektivwert (RMS) der Abtastungen über dem gesam
ten Rahmen N der Eingangssprache, der folgendermaßen defi
niert wird:
Für die Rahmen "ohne Sprache" wird die Verstärkung einfach
durch RMS abgeschätzt. Für die Rahmen "mit Sprache" wird
dieselbe Annäherung auf RMS-Basis verwendet. Die Verstär
kung wird jedoch unter Verwendung eines rechteckigen Fen
sters genauer abgeschätzt, das eine Mehrzahl der gegenwär
tigen Teilungsperiode ist. Die nach einem der beiden zuvor
genannten Verfahren berechnete Verstärkung wird dann
gleichmäßig auf einer logarythmischen Skala unter Verwen
dung von 7 Bits quantisiert.
Weil der herkömmliche LPC-Vokoder ein System mit einer of
fenen Schleife ist, reicht ein einfaches Schema zur Ab
schätzung der Verstärkung nicht aus, um die Amplitude der
synthetischen Sprache genau zu bestimmen.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein
Verfahren für ein neues Schema zur Abschätzung der Verstär
kung für die Vokoderkodierung anzugeben, das glattere und
natürlichere Sprachausgangssignale für Vokoderanwendungen
erzeugen kann.
Diese Aufgabe wird durch ein Verfahren mit dem Merkmalen
des Patentanspruches 1 gelöst.
Vorteilhafterweise können mit dem erfindungsgemäßen Verfah
ren, das auf der Außenlinie bzw. Kontur der Wellenform der
Sprache basiert, die als Umhüllungsform bezeichnet wird,
die oben beschriebenen Nachteile vermieden werden.
Die vorliegende Erfindung betrifft ein neues Verfahren für
ein Schema zur Abschätzung der Verstärkung für Sprachvoko
der, das die folgenden Schritte aufweist:
- a) Erhalten einer dekodierten Umhüllung, die einen Formin dex und eine quantisierte Verstärkung enthält, durch Anpassen einer Eingangssprache aus einem vorbestimmten Code-Lexikon.
- b) Eingeben entweder eines aperiodischen Pulses oder ei nes weißen Rauchens direkt in eine Entscheidungseinheit für "mit Sprache"/"ohne Sprache" (voiced/unvoiced unit).
- c) Unterteilen der Eingangssprache in eine Mehrzahl von Rahmen und Bestimmen, ob jeder Rahmen des Eingangs sprachsignales "mit Sprache" oder "ohne Sprache" ist, durch die Entscheidungseinheit.
- d) Übertragen eines interpolierten linearen Vorgabekodie rungskoeffizienten (LPC) sowohl in den Synthesefilter, wie auch in einen Nachfilter.
- e) Übertragen der dekodierten Umhüllenden und des Synthe se-Sprachsignales in eine Einheit zur Amplitudenberech nung zur Erzeugung eines Verstärkungssignales.
- f) Multiplizieren des Verstärkungssignales und des synthe tischen Sprachsignales zur Erzeugung eines syntheti sierten Sprachausgangssignales.
- g) Übertragen des synthetisierten Sprachausgangssignales und des interpolierten LPC Koeffizienten in das Nach filter zur Erzeugung eines glatten und natürlichen ver besserten synthetischen Sprachausgangssignales.
Zum besseren Verständnis werden die Erfindung und deren
Ausgestaltungen im Zusammenhang mit den Figuren näher er
läutert. Es zeigen:
Fig. 1 ein Blockschaltbild des bekannten Vokoders;
Fig. 2 das Blockschaltbild des erfindungsgemäßen Voko
ders und
Fig. 3 die vorbestimmten Form-Codewörter eines 4-Bit-Quan
tisierers gemäß der vorliegenden Erfindung.
Die vorliegende Erfindung betrifft ein Schema zur Abschät
zung der Verstärkung, das auf der Außenlinie der Sprachwel
lenform basiert, die als Umhüllungsform bezeichnet wird, um
die oben beschriebenen Probleme zu lösen.
In der Fig. 2 ist das Blockschaltbild des erfindungsgemä
ßen Vokoders dargestellt. Der Vokoder umfaßt im allgemeinen
einen Vibrator 21, eine Entscheidungseinheit 22 für "mit
Sprache"/"ohne Sprache", eine Einrichtung 23 zum Interpo
lieren des LPC Koeffizienten in Domänen von Linienspektrum
paaren (LSP), ein Synthesefilter 24, das aus einem Allpol
filter und einem Nachentzerrungsfilter besteht, eine Ein
heit 25 zur Amplitudenberechnung, eine Einrichtung 26 zur
Dekodierung der Umhüllung, eine Verstärkungseinheit 27 und
ein Nachfilter 28.
Eine durch den Vibrator 21 verlaufende periodische Impuls
reihe erzeugt einen aperiodischen Puls an der Entschei
dungseinheit 22 "mit Sprache"/"ohne Sprache". Andererseits
wird ein weißes Rauschen ebenfalls zu der Entscheidungsein
heit 22 gesendet. Gemäß dem erfindungsgemäßen Schema zur
Entscheidung zwischen "mit Sprache"/"ohne Sprache" wird ein
Rahmen in vier Unterrahmen unterteilt und wird für jeden
Unterrahmen auf der Basis einer Anzahl von Parametern, die
die normalisierte Korrelation NC, die Energie, den Koeffi
zienten des Linienspektrumpaares LSP und die Werte des
Energieverhältnisses des niedrigen Bandes zum hohen Band
(LOH) umfassen, bestimmt, ob der Unterrahmen "mit Sprache"
oder "ohne Sprache" ist, um die Genauigkeit des Vokoders in
hohem Maße zu vergrößern. Einzelheiten über das Schema zur
Entscheidung "mit Sprache"/"ohne Sprache" auf einer 1/4-Basis
sind in der deutschen Patentanmeldung 197 21 684.6
desselben Anmelders enthalten.
In ununterbrochenen bzw. andauernden Bereichen der sich
langsam ändernden spektralen Charakteristiken kann die rah
menweise Aufdatierung sehr gut funktionieren. In den Über
gangsbereichen versagt die rahmenweise Aufdatierung jedoch,
wenn Übergänge in den Rahmen fallen. Um sicherzustellen,
daß die Ausgangssignale der Übergangsbereiche genauer sind,
wird eine bekannte Technik verwendet, um LPC Koeffizienten
in der LSP Domäne 23 zu interpolieren, bevor die LPC Koef
fizienten zum Synthesefilter 24 gesendet werden. Die Idee
besteht darin, eine verbesserte Darstellung des Spektrums
dadurch zu erreichen, daß Zwischensätze von Parametern zwi
schen Rahmen bewertet werden, so daß Übergänge an den Rah
menrändern glatter eingefügt werden, ohne daß die Kodie
rungskapazität vergrößert wird. Es wurde herausgefunden,
daß die Glattheit der verarbeiteten Sprache beträchtlich
verbessert wird und daß die Ausgangsqualität der durch
schnelle Redner gesprochenen Sprache bemerkenswert verbes
sert wurde. Um die Berechnungsanzahlen der linearen Inter
polation LSP zu verringern, wird der Sprachrahmen in vier
Unterrahmen unterteilt. Der in jedem Unterrahmen verwendete
LSP Koeffizient wird durch lineare Interpolation der LSP
Koeffizienten zwischen dem gegenwärtigen und vorgehenden
Rahmen erhalten. Die interpolierten LSP Koeffizienten wer
den dann in LPC Koeffizienten umgewandelt, die sowohl an
das Synthesefilter 24, wie auch an das adaptive Nachfilter
28 gesendet werden.
Die LPC Koeffizienten vom Synthesefilter 24 und die deko
dierten Umhüllungssignale, die durch die dekodierte Umhül
lung 26 erzeugt werden, werden in die Berechnungseinheit 25
für die Amplitude übertragen, um ein Verstärkungssteuersi
gnal zu erzeugen, das an die Verstärkungseinheit 27 gesen
det wird und dann das Nachfilter 28 erregt, um eine verbes
serte synthetische Ausgangssprache zu erhalten.
Die Eingänge der dekodierten Hüllkurve 26 weisen die Form
einer quantisierten Verstärkung und die normalisierte Form
des Indexes auf. Die Hüllkurvenform und die quantisierten
Verstärkungsparameter der synthetischen Sprache werden
durch eine Analyse/Synthese-Schleife (analysis-by-synthesis
loop) erhalten.
Die Hüllkurvenkodierung wird unter Anwendung einer Annäh
rung des mittleren quadratischen Fehlers der Verstärkungs
form aus einem Code-Lexikon ausgeführt. Durch Minimierung
des mittleren quadratischen Fehlers wird die nächstliegende
Eingabe aus einem vorbestimmten Code-Lexikon nach der fol
genden Gleichung ausgewählt:
Dabei ist N=8 und stellt xk die Umhüllungsform dar, die zu
kodieren ist. yi,k stellt das ith Formcodewort dar. Gi be
zeichnet die optimale Verstärkung bei der Anpassung des
ithen Formcodewortes der Eingangshüllkurve. In der Fig. 3
sind 16 verschiedene Formcodeworte eines 4-Bit Quantisie
rers gemäß der vorliegenden Erfindung dargestellt. Wenn der
optimale Formindex bestimmt wurde, wird die zugeordnete
Verstärkung unter Verwendung eines logarithmischen Quanti
sierers zu 7 Bit quantisiert. Dann werden der Formindex und
die quantisierten Verstärkungswerte in die dekodierte Müll
kurveneinrichtung 26 gesendet.
Die Verstärkung der Erregung, die so berechnet wird, daß
die maximale Amplitude der synthetischen Sprache gerade die
dekodierte Hüllkurve erreicht, wird folgendermaßen be
schrieben:
Für die Unterrahmen "mit Sprache" weist das Eingangssignal
der Entscheidungseinheit 22 für "mit Sprache"/"ohne Spra
che" die Form von aperiodischen Impulsen auf. Das Ansprech
verhalten des Synthesefilterspeichers (SFMR) wird zuerst
von dem vorhergehenden Rahmen herausgefunden. Das Einheits-Im
pulsansprechen des Synthesefilters 24 an der gegenwärti
gen Pulsposition wird dann durch die Berechnungseinheit 25
für die Amplitude berechnet. Die Verstärkung dieses Impul
ses kann durch folgende Gleichung abgeschätzt werden:
Dabei bezeichnet αk die K-te Impulsverstärkung Envk,i be
zeichnet die dekodierte Hüllkurve für den k-ten Impuls an
der Position I. imp_resk,i bezeichnet das Impulsansprech
verhalten. p0 bezeichnet die Impulsposition und r bezeich
net die Suchlänge, die typischerweise 10 beträgt. Wenn die
Verstärkung des Pulses herausgefunden ist, wird dieser Puls
in das Synthesefilter 24 eingegeben, das ein synthetisches
Signal erzeugt. Der SFMR Wert, der gleich dem Produkt des
synthetischen Signales und αk ist, wird in das Nachfilter
28 übertragen, um einen synthetisierten Sprachausgang "mit
Sprache" zu erhalten. Das Verfahren wird dann wiederholt,
um die Verstärkung des nächsten Impulses herauszufinden.
Für Unterrahmen "ohne Sprache" weist das Eingangssignal der
Entscheidungseinheit 22 die Form eines weißen Rauschens
auf. Das Ansprechen des Synthesefilters auf das weiße Rau
schen wird zuerst an der Position des gesamten Unterrahmens
vollständig berechnet. Dadurch kann die unerwünschte Situa
tion vermieden werden, daß die Amplitude des synthetischen
Signales die dekodierte Müllkurve bei diesem Unterrahmen
überschreitet. Die Verstärkung des weißen Rauschens an dem
gesamten Unterrahmen kann durch die folgenden Gleichung ab
geschätzt werden:
Dabei bezeichnet βj die Verstärkung des weißen Rauschens
für den gesamten j-ten Unterrahmen. Envj,i bezeichnet die
dekodierte Hüllkurve für dieses weiße Rauschen an der Posi
tion i. noise_resj,i bezeichnet das Ansprechen auf das wei
ße Rauschen. w0 ist die Anfangsposition jedes Unterrahmens
und sub_leng die Unterrahmenlänge. Nachdem die Verstärkung
des weißen Rauschens herausgefunden wurde, wird dieses wei
ße Rauschen dem Synthesefilter 24 zugeführt, das ein syn
thetisches Signal erzeugt. Der SFMR-Wert, der gleich dem
Produkt des synthetischen Signales βj ist, wird in das
Nachfilter 28 übertragen, um ein synthetisiertes Sprachaus
gangssignal "ohne Sprache" zu erzeugen.
Bei der Ausführung des neuen Schemas zu Abschätzung der
Verstärkung für die Vokoderkodierung gemäß der vorliegenden
Erfindung werden glattere und natürliche Sprachausgangs
signale für Vokoderanwendungen erreicht.
Während die vorliegende Erfindung insbesondere im Zusammen
hang mit einem bevorzugten Ausführungsbeispiel erläutert
wurde, wird darauf hingewiesen, daß für einen Fachmann im
Rahmen der vorliegenden Erfindung zahlreiche Änderungen und
Modifikationen möglich sind.
Die Erfindung betrifft ein Verfahren für ein Schema zur Ab
schätzung der Verstärkung für die Vokoderkodierung für
Sprachvokoderanwendungen mit den folgenden Schritten.
- a) Erhalten einer dekodierten Hüllkurve, die den Formin dex und die quantisierte Verstärkung enthält, durch Anpas sen der Eingangssprache aus einem vorbestimmten Code- Lexikon.
- b) Eingeben entweder eines aperiodischen Pulses oder ei nes weißen Rauschens direkt in eine Entscheidungseinheit für "mit Sprache "/"ohne Sprache".
- c) Teilen der Eingangssprache in eine Mehrzahl von Rah men und Bestimmen, ob jeder Rahmen des Eingangssprachsigna les als "mit Sprache" oder "ohne Sprache" zu bewerten ist, durch die Entscheidungseinheit.
- d) Übertragen eines interpolierten linearen Vorhersage kodierungskoeffizienten (LPC) sowohl in das Synthesefilter 24, wie auch in ein Nachfilter 28.
- e) Übertragen der dekodierten Hüllkurve und des Synthe sesprachsignales in einer Berechnungseinheit 25 für die Amplitude zur Erzeugung eines Verstärkungssignales.
- f) Multiplizieren des Verstärkungssignales und des syn thetischen Sprachsignales zur Erzeugung eines synthesierten Sprachausgangssignales.
- g) Übertragen des synthetisierten Sprachausgangssignales und des interpolierten LPC-Koeffizienten in das Nachfilter 28 zur Erzeugung eines glatten und natürlicheren syntheti schen Sprachausgangssignales.
Claims (8)
1. Verfahren zur Bestimmung der Verstärkung eines Ein
gangssprachsignales für Vokoderanwendungen mit den fol
genden Schritten:
- a) Erhalten einer dekodierten Hüllkurve durch Anpas sung einer Eingangssprache aus einem vorbestimmten Code-Lexikon.
- b) Eingeben eines aperiodischen Pulses durch Eingeben einer periodischen Impulsreihe durch einen Vibrator (21) oder eines weißen Rauschens direkt in eine Entscheidungseinheit (22) zur Entscheidung zwischen "mit Sprache"/"ohne Sprache".
- c) Teilen der Eingangssprache in eine Mehrzahl von Rahmen und Bestimmen, ob jeder Rahmen des Eingangs sprachsignales "mit Sprache" oder "ohne Sprache" ist, durch die Entscheidungseinheit (22) und dann Übertragen des Ausgangssignales der Entscheidungs einheit (22) an ein Synthesefilter (24).
- d) Übertragen eines interpolierten linearen Vorhersa gekodierungskoeffizienten (LPC) sowohl in das Syn thesefilter (24), wie auch in ein Nachfilter (28).
- e) Übertragen der Ausgangssignale der dekodierten Müllkurve (26) und des Synthesefilters (24) in eine Amplitudenberechnungseinheit (25) zur Erzeugung des Verstärkungsausgangssignales.
- f) Multiplizieren des Verstärkungsausgangssignales aus der Amplitudenberechnungseinheit (25) und des syn thetischen Ausgangssignales des Synthesefilters (24) durch eine Verstärkungseinheit (27) zur Erzeu gung eines synthetisierten Sprachausgangssignales.
- g) Übertragen des synthetisierten Sprachausgangsignales der Verstärkungseinheit (27) und des interpolierten LPC Koeffizienten (23) in das Nachfilter (28) zur Erzeugung eines verbesserten Sprachausgangssigna les.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die dekodierte Hüllkurve den Formindex und die quanti
sierte Verstärkung umfaßt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
der Formindex und die quantisierte Verstärkung durch
eine vorbestimmte Code-Lexikon-Annäherung aus 16 unter
schiedlichen Form-Codewörtern mit 4 Bits erhalten wer
den.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge
kennzeichnet, daß der interpolierte LPC Koeffizient
beim Schritt d) durch Interpolieren von LPC Koeffizien
ten in einer Domäne eines Linienspektrumpaares (LSP)
erhalten wird, bevor die LPC Koeffizienten an das Syn
thesefilter (24) gesendet werden, durch bewerten von
Zwischensätzen von Parametern zwischen Rahmen, um die
Übergänge an den Rahmenrändern glatter zu machen, ohne
die Kodierkapazität zu vergrößern.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß
das Interpolieren der LPC Koeffizienten in einer Domäne
eines Linienspektrumpaares (LSP) durch Unterteilen je
des Sprachrahmens in vier Unterrahmen erhalten wird und
daß der verwendete LSP Koeffizient in jedem Sprachrah
men durch lineare Interpolation der LSP Koeffizienten
zwischen dem gegenwärtigen Rahmen und den vorhergehen
den Rahmen erhalten wird, und daß die interpolierten
LSP Koeffizienten dann in die LPC Koeffizienten umge
wandelt werden.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
das Verstärkungsausgangssignal der Amplitudenberech
nungseinheit (25) beim Schritt e) so berechnet wird,
daß die maximale Amplitude der synthetischen Sprache
gerade die dekodierte Hüllkurve erreicht und daß die
Verstärkung der Unterrahmen "mit Sprache" und "ohne
Sprache" getrennt berechnet wird.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
die Verstärkung der Unterrahmen "mit Sprache" durch die
folgenden Schritte erhalten wird:
- a) Berechnen einer Einheitspulsansprache des Synthese filters (24) bei der gegenwärtigen Pulsposition.
- b) Berechnen der Verstärkung des gegenwärtigen Pulses
nach der Formel:
wobei αk die k-te Pulsverstärkung, Envk,i die deko dierte Hüllkurve für den k-ten Puls an der Position I, imp_resk,i das Impulsansprechen, p0 die Pulspo sition und r die Suchlänge (typischerweise 10) be zeichnen. - c) Zuführen des gegenwärtigen Pulses in das Synthese filter (24) nachdem die Verstärkung des gegenwärti gen Pulses erhalten wurde.
- d) Multiplizieren des gegenwärtigen Pulses und αk zur Erzeugung eines synthetisierten Sprachausgangs signales.
- e) Wiederholen der Schritte a) bis d) für den nächsten Puls.
8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeich
net, daß die Verstärkung der Unterrahmen "ohne Sprache"
durch die folgenden Schritte erhalten wird:
- a) Vollständiges Berechnen des Ansprechens auf das weiße Rauschen des Synthesefilters (24) an der Po sition des gesamten Unterrahmens.
- b) Berechnen der Verstärkung des gesamten Unterrahmens
nach der folgenden Gleichung:
wobei αk die Verstärkung des weißen Rauschens für den gesamten D-ten Unterrahmen, Envj,i die dekodier te Hüllkurve für das weiße Rauschen an der Position i, noise_resj,i das Ansprechen auf das weiße Rau schen, w0 die Anfangsposition jedes Unterrahmens und sub_leng die Länge des Unterrahmens bezeichnen. - c) Zuführen des weißen Rauschens in das Synthesefilter (24) nach dem die Verstärkung des weißen Rauschens erhalten wurde.
- d) Multiplizieren des weißen Rauschens und βj zur Er zeugung eines synthetisierten Sprachausgangssigna les.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW085115665A TW326070B (en) | 1996-12-19 | 1996-12-19 | The estimation method of the impulse gain for coding vocoder |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19722705A1 true DE19722705A1 (de) | 1998-07-02 |
Family
ID=21625621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19722705A Withdrawn DE19722705A1 (de) | 1996-12-19 | 1997-05-30 | Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5953697A (de) |
DE (1) | DE19722705A1 (de) |
TW (1) | TW326070B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1173044A2 (de) * | 2000-06-30 | 2002-01-16 | Cochlear Limited | System zur Rehabilitation einer Hörstörung |
US7318025B2 (en) | 2000-04-28 | 2008-01-08 | Deutsche Telekom Ag | Method for improving speech quality in speech transmission tasks |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6993480B1 (en) * | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6539349B1 (en) * | 2000-02-15 | 2003-03-25 | Lucent Technologies Inc. | Constraining pulse positions in CELP vocoding |
US20030120484A1 (en) * | 2001-06-12 | 2003-06-26 | David Wong | Method and system for generating colored comfort noise in the absence of silence insertion description packets |
US7512535B2 (en) * | 2001-10-03 | 2009-03-31 | Broadcom Corporation | Adaptive postfiltering methods and systems for decoding speech |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7860256B1 (en) * | 2004-04-09 | 2010-12-28 | Apple Inc. | Artificial-reverberation generating device |
WO2005112005A1 (ja) * | 2004-04-27 | 2005-11-24 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 |
BRPI0510400A (pt) * | 2004-05-19 | 2007-10-23 | Matsushita Electric Ind Co Ltd | dispositivo de codificação, dispositivo de decodificação e método dos mesmos |
PL2118889T3 (pl) | 2007-03-05 | 2013-03-29 | Ericsson Telefon Ab L M | Sposób i sterownik do wygładzania stacjonarnego szumu tła |
US8457953B2 (en) | 2007-03-05 | 2013-06-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for smoothing of stationary background noise |
CN101207665B (zh) * | 2007-11-05 | 2010-12-08 | 华为技术有限公司 | 一种衰减因子的获取方法 |
CN100550712C (zh) * | 2007-11-05 | 2009-10-14 | 华为技术有限公司 | 一种信号处理方法和处理装置 |
DE102008042579B4 (de) * | 2008-10-02 | 2020-07-23 | Robert Bosch Gmbh | Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten |
EP2246845A1 (de) * | 2009-04-21 | 2010-11-03 | Siemens Medical Instruments Pte. Ltd. | Verfahren und akustische Signalverarbeitungsvorrichtung zur Schätzung von linearen prädiktiven Kodierungskoeffizienten |
RU2591021C2 (ru) * | 2011-02-15 | 2016-07-10 | Войсэйдж Корпорейшн | Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp |
US9626982B2 (en) | 2011-02-15 | 2017-04-18 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec |
EP2791937B1 (de) | 2011-11-02 | 2016-06-08 | Telefonaktiebolaget LM Ericsson (publ) | Erzeugung einer hochbanderweiterung eines bandbreitenerweiterten tonsignals |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0332228A (ja) * | 1989-06-29 | 1991-02-12 | Fujitsu Ltd | ゲイン―シェイプ・ベクトル量子化方式 |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
-
1996
- 1996-12-19 TW TW085115665A patent/TW326070B/zh active
-
1997
- 1997-05-05 US US08/851,223 patent/US5953697A/en not_active Expired - Fee Related
- 1997-05-30 DE DE19722705A patent/DE19722705A1/de not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7318025B2 (en) | 2000-04-28 | 2008-01-08 | Deutsche Telekom Ag | Method for improving speech quality in speech transmission tasks |
EP1173044A2 (de) * | 2000-06-30 | 2002-01-16 | Cochlear Limited | System zur Rehabilitation einer Hörstörung |
EP1173044A3 (de) * | 2000-06-30 | 2005-08-17 | Cochlear Limited | System zur Rehabilitation einer Hörstörung |
US7376563B2 (en) | 2000-06-30 | 2008-05-20 | Cochlear Limited | System for rehabilitation of a hearing disorder |
Also Published As
Publication number | Publication date |
---|---|
US5953697A (en) | 1999-09-14 |
TW326070B (en) | 1998-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19722705A1 (de) | Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung | |
DE60121405T2 (de) | Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
DE69926821T2 (de) | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen | |
DE60011051T2 (de) | Celp-transkodierung | |
DE4492048C2 (de) | Vektorquantisierungs-Verfahren | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE60219351T2 (de) | Signaländerungsverfahren zur effizienten kodierung von sprachsignalen | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE60117144T2 (de) | Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen | |
DE69928288T2 (de) | Kodierung periodischer sprache | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE60133757T2 (de) | Verfahren und vorrichtung zur kodierung von stimmloser sprache | |
DE69730316T2 (de) | Schallquellengenerator, sprachkodierer und sprachdekodierer | |
DE69836624T2 (de) | Audiokodierer und -dekodierer | |
DE19647298C2 (de) | Kodiersystem | |
DE60209861T2 (de) | Adaptive Postfilterung zur Sprachdekodierung | |
DE2233872C2 (de) | Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals | |
DE602004006211T2 (de) | Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
DE102008042579A1 (de) | Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: HOLTEK SEMICONDUCTOR INC., HSINCHU, TW |
|
8139 | Disposal/non-payment of the annual fee |