DE19722705A1 - Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung - Google Patents

Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung

Info

Publication number
DE19722705A1
DE19722705A1 DE19722705A DE19722705A DE19722705A1 DE 19722705 A1 DE19722705 A1 DE 19722705A1 DE 19722705 A DE19722705 A DE 19722705A DE 19722705 A DE19722705 A DE 19722705A DE 19722705 A1 DE19722705 A1 DE 19722705A1
Authority
DE
Germany
Prior art keywords
speech
output signal
pulse
gain
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19722705A
Other languages
English (en)
Inventor
Chin-Ten Lin
Hsin-An Lin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Holtek Semiconductor Inc
Original Assignee
Holtek Microelectronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Holtek Microelectronics Inc filed Critical Holtek Microelectronics Inc
Publication of DE19722705A1 publication Critical patent/DE19722705A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Description

Die Erfindung betrifft ein Verfahren zur Sprachdekodierung mit einem Vokoder und insbesondere ein Verfahren eines Schemas zur Abschätzung der Verstärkung für eine Kodierung eines Vokoders.
Die Technik der linearen voraussagenden Kodierung (LPC) ei­ nes Vokoders wird in großem Maße im Zusammenhang mit Syn­ thetisatoren-Anwendungen zur Sprachkodierung verwendet. Beispielhaft wird auf die US-PS 4,910,781 und die US-PS 4,697,261 verwiesen. Die gesamte Offenbarung dieser Patent­ schriften wird hiermit zum Bestandteil der vorliegenden Pa­ tentanmeldung gemacht. Bis heute werden LPC-10 Vokoder in großem Umfang für die Sprachkomprimierung mit einer niedri­ gen Bitrate verwendet.
Die Fig. 1 zeigt ein Blockschaltbild eines bekannten LPC-Vo­ koders. Der Vokoder enthält im allgemeinen einen Impuls­ reihen-Generator 11, einen Zufallsrauschgenerator 12, einen Schalter 13 für "mit Sprache"/"ohne Sprache", eine Verstär­ kereinheit 14, ein LPC-Filter 15 und eine Einstelleinheit 16 für LPC-Parameter.
Das Eingangssignal des Vokoders wird entweder von dem Im­ pulsreihen-Generator 11 oder dem Zufallsrauschgenerator 12 erzeugt. Der Impulsreihen-Generator 11 kann ein Sprachsi­ gnal in der Form einer periodischen Impulsreihe erzeugen, bei dem es sich um das sogenannte Signal "mit Sprache" han­ delt. Andererseits kann der Zufallsrauschgenerator 12 ein weißes Rauschsignal erzeugen, bei dem es sich um das soge­ nannte Signal "ohne Sprache" handelt. Entsprechend der richtigen Beurteilung durch den Schalter 13 wird das durch den Impulsreihen-Generator 11 erzeugte Signal mit der peri­ odischen Impulsreihe oder das weiße Rauschsignal, das durch den Rauschgenerator 12 erzeugt wird, zur Verstärkereinheit 14 übertragen. Es wird dann ein LPC-Allpolfilter 15 erregt um ein Ausgangssignal S(n) zu erzeugen, das so skaliert wird, daß es an den Pegel der Eingangssprache angepaßt ist.
Die Sprachentscheidung, die Teilungsperiode, die Filter­ koeffizienten und die Verstärkung werden für jeden Sprachrahmen aufdatiert, um Änderungen in der Eingangsspra­ che zu folgen bzw. nachzusteueren. Die Gesamtverstärkung der synthetischen Sprache muß bei praktischen Vokoderanwen­ dungen so eingestellt werden, daß sie an den Pegel der Ein­ gangssprache angepaßt ist. Gegenwärtig gibt es zwei Verfah­ ren zur Bestimmung der Verstärkung, die in großem Umfang angewendet werden. Bei dem ersten Verfahren kann die Ver­ stärkung dadurch bestimmt werden, daß die Energie in dem Sprachsignal an die Energie der linearen vorhergesagten Ab­ tastungen bzw. Proben angepaßt wird. Dies ist in der Tat richtig, wenn richtige Voraussetzungen im Hinblick auf das Erregungssignal für das LPC-System gemacht werden. Einige Voraussetzungen bestehen darin, daß die Vorhersagekoeffizi­ enten ak in einem tatsächlichen Modell gleich den Vorhersa­ gekoeffizienten αk in einem realen Modell sind, daß die Energie in dem Erregungssignal Gu(n) für das tatsächliche Modell gleich der Energie in dem Fehlersignal e(n) für das reale Modell ist, daß u(n) = δ(n) für die gesprochene Sprache ist und daß u(n) für die nicht gesprochene Sprache ein wei­ ßer Rauschprozeß mit einem Nullmittelwert und einer Ein­ heitsvarianz ist. Mit dieser Voraussetzung kann die Ver­ stärkung G durch die folgende Gleichung abgeschätzt werden:
Dabei bezeichnet R(.) die Autokorrelation des Sprachsigna­ les. αk bezeichnet die LPC-Koeffizienten und p die Vorher­ sage- bzw. Vorgabeordnung.
Ein weiteres Verfahren zur Verstärkungsberechnung basiert auf dem Effektivwert (RMS) der Abtastungen über dem gesam­ ten Rahmen N der Eingangssprache, der folgendermaßen defi­ niert wird:
Für die Rahmen "ohne Sprache" wird die Verstärkung einfach durch RMS abgeschätzt. Für die Rahmen "mit Sprache" wird dieselbe Annäherung auf RMS-Basis verwendet. Die Verstär­ kung wird jedoch unter Verwendung eines rechteckigen Fen­ sters genauer abgeschätzt, das eine Mehrzahl der gegenwär­ tigen Teilungsperiode ist. Die nach einem der beiden zuvor genannten Verfahren berechnete Verstärkung wird dann gleichmäßig auf einer logarythmischen Skala unter Verwen­ dung von 7 Bits quantisiert.
Weil der herkömmliche LPC-Vokoder ein System mit einer of­ fenen Schleife ist, reicht ein einfaches Schema zur Ab­ schätzung der Verstärkung nicht aus, um die Amplitude der synthetischen Sprache genau zu bestimmen.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren für ein neues Schema zur Abschätzung der Verstär­ kung für die Vokoderkodierung anzugeben, das glattere und natürlichere Sprachausgangssignale für Vokoderanwendungen erzeugen kann.
Diese Aufgabe wird durch ein Verfahren mit dem Merkmalen des Patentanspruches 1 gelöst.
Vorteilhafterweise können mit dem erfindungsgemäßen Verfah­ ren, das auf der Außenlinie bzw. Kontur der Wellenform der Sprache basiert, die als Umhüllungsform bezeichnet wird, die oben beschriebenen Nachteile vermieden werden.
Die vorliegende Erfindung betrifft ein neues Verfahren für ein Schema zur Abschätzung der Verstärkung für Sprachvoko­ der, das die folgenden Schritte aufweist:
  • a) Erhalten einer dekodierten Umhüllung, die einen Formin­ dex und eine quantisierte Verstärkung enthält, durch Anpassen einer Eingangssprache aus einem vorbestimmten Code-Lexikon.
  • b) Eingeben entweder eines aperiodischen Pulses oder ei­ nes weißen Rauchens direkt in eine Entscheidungseinheit für "mit Sprache"/"ohne Sprache" (voiced/unvoiced unit).
  • c) Unterteilen der Eingangssprache in eine Mehrzahl von Rahmen und Bestimmen, ob jeder Rahmen des Eingangs­ sprachsignales "mit Sprache" oder "ohne Sprache" ist, durch die Entscheidungseinheit.
  • d) Übertragen eines interpolierten linearen Vorgabekodie­ rungskoeffizienten (LPC) sowohl in den Synthesefilter, wie auch in einen Nachfilter.
  • e) Übertragen der dekodierten Umhüllenden und des Synthe­ se-Sprachsignales in eine Einheit zur Amplitudenberech­ nung zur Erzeugung eines Verstärkungssignales.
  • f) Multiplizieren des Verstärkungssignales und des synthe­ tischen Sprachsignales zur Erzeugung eines syntheti­ sierten Sprachausgangssignales.
  • g) Übertragen des synthetisierten Sprachausgangssignales und des interpolierten LPC Koeffizienten in das Nach­ filter zur Erzeugung eines glatten und natürlichen ver­ besserten synthetischen Sprachausgangssignales.
Zum besseren Verständnis werden die Erfindung und deren Ausgestaltungen im Zusammenhang mit den Figuren näher er­ läutert. Es zeigen:
Fig. 1 ein Blockschaltbild des bekannten Vokoders;
Fig. 2 das Blockschaltbild des erfindungsgemäßen Voko­ ders und
Fig. 3 die vorbestimmten Form-Codewörter eines 4-Bit-Quan­ tisierers gemäß der vorliegenden Erfindung.
Die vorliegende Erfindung betrifft ein Schema zur Abschät­ zung der Verstärkung, das auf der Außenlinie der Sprachwel­ lenform basiert, die als Umhüllungsform bezeichnet wird, um die oben beschriebenen Probleme zu lösen.
In der Fig. 2 ist das Blockschaltbild des erfindungsgemä­ ßen Vokoders dargestellt. Der Vokoder umfaßt im allgemeinen einen Vibrator 21, eine Entscheidungseinheit 22 für "mit Sprache"/"ohne Sprache", eine Einrichtung 23 zum Interpo­ lieren des LPC Koeffizienten in Domänen von Linienspektrum­ paaren (LSP), ein Synthesefilter 24, das aus einem Allpol­ filter und einem Nachentzerrungsfilter besteht, eine Ein­ heit 25 zur Amplitudenberechnung, eine Einrichtung 26 zur Dekodierung der Umhüllung, eine Verstärkungseinheit 27 und ein Nachfilter 28.
Eine durch den Vibrator 21 verlaufende periodische Impuls­ reihe erzeugt einen aperiodischen Puls an der Entschei­ dungseinheit 22 "mit Sprache"/"ohne Sprache". Andererseits wird ein weißes Rauschen ebenfalls zu der Entscheidungsein­ heit 22 gesendet. Gemäß dem erfindungsgemäßen Schema zur Entscheidung zwischen "mit Sprache"/"ohne Sprache" wird ein Rahmen in vier Unterrahmen unterteilt und wird für jeden Unterrahmen auf der Basis einer Anzahl von Parametern, die die normalisierte Korrelation NC, die Energie, den Koeffi­ zienten des Linienspektrumpaares LSP und die Werte des Energieverhältnisses des niedrigen Bandes zum hohen Band (LOH) umfassen, bestimmt, ob der Unterrahmen "mit Sprache" oder "ohne Sprache" ist, um die Genauigkeit des Vokoders in hohem Maße zu vergrößern. Einzelheiten über das Schema zur Entscheidung "mit Sprache"/"ohne Sprache" auf einer 1/4-Basis sind in der deutschen Patentanmeldung 197 21 684.6 desselben Anmelders enthalten.
In ununterbrochenen bzw. andauernden Bereichen der sich langsam ändernden spektralen Charakteristiken kann die rah­ menweise Aufdatierung sehr gut funktionieren. In den Über­ gangsbereichen versagt die rahmenweise Aufdatierung jedoch, wenn Übergänge in den Rahmen fallen. Um sicherzustellen, daß die Ausgangssignale der Übergangsbereiche genauer sind, wird eine bekannte Technik verwendet, um LPC Koeffizienten in der LSP Domäne 23 zu interpolieren, bevor die LPC Koef­ fizienten zum Synthesefilter 24 gesendet werden. Die Idee besteht darin, eine verbesserte Darstellung des Spektrums dadurch zu erreichen, daß Zwischensätze von Parametern zwi­ schen Rahmen bewertet werden, so daß Übergänge an den Rah­ menrändern glatter eingefügt werden, ohne daß die Kodie­ rungskapazität vergrößert wird. Es wurde herausgefunden, daß die Glattheit der verarbeiteten Sprache beträchtlich verbessert wird und daß die Ausgangsqualität der durch schnelle Redner gesprochenen Sprache bemerkenswert verbes­ sert wurde. Um die Berechnungsanzahlen der linearen Inter­ polation LSP zu verringern, wird der Sprachrahmen in vier Unterrahmen unterteilt. Der in jedem Unterrahmen verwendete LSP Koeffizient wird durch lineare Interpolation der LSP Koeffizienten zwischen dem gegenwärtigen und vorgehenden Rahmen erhalten. Die interpolierten LSP Koeffizienten wer­ den dann in LPC Koeffizienten umgewandelt, die sowohl an das Synthesefilter 24, wie auch an das adaptive Nachfilter 28 gesendet werden.
Die LPC Koeffizienten vom Synthesefilter 24 und die deko­ dierten Umhüllungssignale, die durch die dekodierte Umhül­ lung 26 erzeugt werden, werden in die Berechnungseinheit 25 für die Amplitude übertragen, um ein Verstärkungssteuersi­ gnal zu erzeugen, das an die Verstärkungseinheit 27 gesen­ det wird und dann das Nachfilter 28 erregt, um eine verbes­ serte synthetische Ausgangssprache zu erhalten.
Die Eingänge der dekodierten Hüllkurve 26 weisen die Form einer quantisierten Verstärkung und die normalisierte Form des Indexes auf. Die Hüllkurvenform und die quantisierten Verstärkungsparameter der synthetischen Sprache werden durch eine Analyse/Synthese-Schleife (analysis-by-synthesis loop) erhalten.
Die Hüllkurvenkodierung wird unter Anwendung einer Annäh­ rung des mittleren quadratischen Fehlers der Verstärkungs­ form aus einem Code-Lexikon ausgeführt. Durch Minimierung des mittleren quadratischen Fehlers wird die nächstliegende Eingabe aus einem vorbestimmten Code-Lexikon nach der fol­ genden Gleichung ausgewählt:
Dabei ist N=8 und stellt xk die Umhüllungsform dar, die zu kodieren ist. yi,k stellt das ith Formcodewort dar. Gi be­ zeichnet die optimale Verstärkung bei der Anpassung des ithen Formcodewortes der Eingangshüllkurve. In der Fig. 3 sind 16 verschiedene Formcodeworte eines 4-Bit Quantisie­ rers gemäß der vorliegenden Erfindung dargestellt. Wenn der optimale Formindex bestimmt wurde, wird die zugeordnete Verstärkung unter Verwendung eines logarithmischen Quanti­ sierers zu 7 Bit quantisiert. Dann werden der Formindex und die quantisierten Verstärkungswerte in die dekodierte Müll­ kurveneinrichtung 26 gesendet.
Die Verstärkung der Erregung, die so berechnet wird, daß die maximale Amplitude der synthetischen Sprache gerade die dekodierte Hüllkurve erreicht, wird folgendermaßen be­ schrieben:
a) Unterrahmen "mit Sprache"
Für die Unterrahmen "mit Sprache" weist das Eingangssignal der Entscheidungseinheit 22 für "mit Sprache"/"ohne Spra­ che" die Form von aperiodischen Impulsen auf. Das Ansprech­ verhalten des Synthesefilterspeichers (SFMR) wird zuerst von dem vorhergehenden Rahmen herausgefunden. Das Einheits-Im­ pulsansprechen des Synthesefilters 24 an der gegenwärti­ gen Pulsposition wird dann durch die Berechnungseinheit 25 für die Amplitude berechnet. Die Verstärkung dieses Impul­ ses kann durch folgende Gleichung abgeschätzt werden:
Dabei bezeichnet αk die K-te Impulsverstärkung Envk,i be­ zeichnet die dekodierte Hüllkurve für den k-ten Impuls an der Position I. imp_resk,i bezeichnet das Impulsansprech­ verhalten. p0 bezeichnet die Impulsposition und r bezeich­ net die Suchlänge, die typischerweise 10 beträgt. Wenn die Verstärkung des Pulses herausgefunden ist, wird dieser Puls in das Synthesefilter 24 eingegeben, das ein synthetisches Signal erzeugt. Der SFMR Wert, der gleich dem Produkt des synthetischen Signales und αk ist, wird in das Nachfilter 28 übertragen, um einen synthetisierten Sprachausgang "mit Sprache" zu erhalten. Das Verfahren wird dann wiederholt, um die Verstärkung des nächsten Impulses herauszufinden.
b) Unterrahmen "ohne Sprache"
Für Unterrahmen "ohne Sprache" weist das Eingangssignal der Entscheidungseinheit 22 die Form eines weißen Rauschens auf. Das Ansprechen des Synthesefilters auf das weiße Rau­ schen wird zuerst an der Position des gesamten Unterrahmens vollständig berechnet. Dadurch kann die unerwünschte Situa­ tion vermieden werden, daß die Amplitude des synthetischen Signales die dekodierte Müllkurve bei diesem Unterrahmen überschreitet. Die Verstärkung des weißen Rauschens an dem gesamten Unterrahmen kann durch die folgenden Gleichung ab­ geschätzt werden:
Dabei bezeichnet βj die Verstärkung des weißen Rauschens für den gesamten j-ten Unterrahmen. Envj,i bezeichnet die dekodierte Hüllkurve für dieses weiße Rauschen an der Posi­ tion i. noise_resj,i bezeichnet das Ansprechen auf das wei­ ße Rauschen. w0 ist die Anfangsposition jedes Unterrahmens und sub_leng die Unterrahmenlänge. Nachdem die Verstärkung des weißen Rauschens herausgefunden wurde, wird dieses wei­ ße Rauschen dem Synthesefilter 24 zugeführt, das ein syn­ thetisches Signal erzeugt. Der SFMR-Wert, der gleich dem Produkt des synthetischen Signales βj ist, wird in das Nachfilter 28 übertragen, um ein synthetisiertes Sprachaus­ gangssignal "ohne Sprache" zu erzeugen.
Bei der Ausführung des neuen Schemas zu Abschätzung der Verstärkung für die Vokoderkodierung gemäß der vorliegenden Erfindung werden glattere und natürliche Sprachausgangs­ signale für Vokoderanwendungen erreicht.
Während die vorliegende Erfindung insbesondere im Zusammen­ hang mit einem bevorzugten Ausführungsbeispiel erläutert wurde, wird darauf hingewiesen, daß für einen Fachmann im Rahmen der vorliegenden Erfindung zahlreiche Änderungen und Modifikationen möglich sind.
Die Erfindung betrifft ein Verfahren für ein Schema zur Ab­ schätzung der Verstärkung für die Vokoderkodierung für Sprachvokoderanwendungen mit den folgenden Schritten.
  • a) Erhalten einer dekodierten Hüllkurve, die den Formin­ dex und die quantisierte Verstärkung enthält, durch Anpas­ sen der Eingangssprache aus einem vorbestimmten Code- Lexikon.
  • b) Eingeben entweder eines aperiodischen Pulses oder ei­ nes weißen Rauschens direkt in eine Entscheidungseinheit für "mit Sprache "/"ohne Sprache".
  • c) Teilen der Eingangssprache in eine Mehrzahl von Rah­ men und Bestimmen, ob jeder Rahmen des Eingangssprachsigna­ les als "mit Sprache" oder "ohne Sprache" zu bewerten ist, durch die Entscheidungseinheit.
  • d) Übertragen eines interpolierten linearen Vorhersage­ kodierungskoeffizienten (LPC) sowohl in das Synthesefilter 24, wie auch in ein Nachfilter 28.
  • e) Übertragen der dekodierten Hüllkurve und des Synthe­ sesprachsignales in einer Berechnungseinheit 25 für die Amplitude zur Erzeugung eines Verstärkungssignales.
  • f) Multiplizieren des Verstärkungssignales und des syn­ thetischen Sprachsignales zur Erzeugung eines synthesierten Sprachausgangssignales.
  • g) Übertragen des synthetisierten Sprachausgangssignales und des interpolierten LPC-Koeffizienten in das Nachfilter 28 zur Erzeugung eines glatten und natürlicheren syntheti­ schen Sprachausgangssignales.

Claims (8)

1. Verfahren zur Bestimmung der Verstärkung eines Ein­ gangssprachsignales für Vokoderanwendungen mit den fol­ genden Schritten:
  • a) Erhalten einer dekodierten Hüllkurve durch Anpas­ sung einer Eingangssprache aus einem vorbestimmten Code-Lexikon.
  • b) Eingeben eines aperiodischen Pulses durch Eingeben einer periodischen Impulsreihe durch einen Vibrator (21) oder eines weißen Rauschens direkt in eine Entscheidungseinheit (22) zur Entscheidung zwischen "mit Sprache"/"ohne Sprache".
  • c) Teilen der Eingangssprache in eine Mehrzahl von Rahmen und Bestimmen, ob jeder Rahmen des Eingangs­ sprachsignales "mit Sprache" oder "ohne Sprache" ist, durch die Entscheidungseinheit (22) und dann Übertragen des Ausgangssignales der Entscheidungs­ einheit (22) an ein Synthesefilter (24).
  • d) Übertragen eines interpolierten linearen Vorhersa­ gekodierungskoeffizienten (LPC) sowohl in das Syn­ thesefilter (24), wie auch in ein Nachfilter (28).
  • e) Übertragen der Ausgangssignale der dekodierten Müllkurve (26) und des Synthesefilters (24) in eine Amplitudenberechnungseinheit (25) zur Erzeugung des Verstärkungsausgangssignales.
  • f) Multiplizieren des Verstärkungsausgangssignales aus der Amplitudenberechnungseinheit (25) und des syn­ thetischen Ausgangssignales des Synthesefilters (24) durch eine Verstärkungseinheit (27) zur Erzeu­ gung eines synthetisierten Sprachausgangssignales.
  • g) Übertragen des synthetisierten Sprachausgangsignales der Verstärkungseinheit (27) und des interpolierten LPC Koeffizienten (23) in das Nachfilter (28) zur Erzeugung eines verbesserten Sprachausgangssigna­ les.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die dekodierte Hüllkurve den Formindex und die quanti­ sierte Verstärkung umfaßt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Formindex und die quantisierte Verstärkung durch eine vorbestimmte Code-Lexikon-Annäherung aus 16 unter­ schiedlichen Form-Codewörtern mit 4 Bits erhalten wer­ den.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge­ kennzeichnet, daß der interpolierte LPC Koeffizient beim Schritt d) durch Interpolieren von LPC Koeffizien­ ten in einer Domäne eines Linienspektrumpaares (LSP) erhalten wird, bevor die LPC Koeffizienten an das Syn­ thesefilter (24) gesendet werden, durch bewerten von Zwischensätzen von Parametern zwischen Rahmen, um die Übergänge an den Rahmenrändern glatter zu machen, ohne die Kodierkapazität zu vergrößern.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das Interpolieren der LPC Koeffizienten in einer Domäne eines Linienspektrumpaares (LSP) durch Unterteilen je­ des Sprachrahmens in vier Unterrahmen erhalten wird und daß der verwendete LSP Koeffizient in jedem Sprachrah­ men durch lineare Interpolation der LSP Koeffizienten zwischen dem gegenwärtigen Rahmen und den vorhergehen­ den Rahmen erhalten wird, und daß die interpolierten LSP Koeffizienten dann in die LPC Koeffizienten umge­ wandelt werden.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Verstärkungsausgangssignal der Amplitudenberech­ nungseinheit (25) beim Schritt e) so berechnet wird, daß die maximale Amplitude der synthetischen Sprache gerade die dekodierte Hüllkurve erreicht und daß die Verstärkung der Unterrahmen "mit Sprache" und "ohne Sprache" getrennt berechnet wird.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Verstärkung der Unterrahmen "mit Sprache" durch die folgenden Schritte erhalten wird:
  • a) Berechnen einer Einheitspulsansprache des Synthese­ filters (24) bei der gegenwärtigen Pulsposition.
  • b) Berechnen der Verstärkung des gegenwärtigen Pulses nach der Formel:
    wobei αk die k-te Pulsverstärkung, Envk,i die deko­ dierte Hüllkurve für den k-ten Puls an der Position I, imp_resk,i das Impulsansprechen, p0 die Pulspo­ sition und r die Suchlänge (typischerweise 10) be­ zeichnen.
  • c) Zuführen des gegenwärtigen Pulses in das Synthese­ filter (24) nachdem die Verstärkung des gegenwärti­ gen Pulses erhalten wurde.
  • d) Multiplizieren des gegenwärtigen Pulses und αk zur Erzeugung eines synthetisierten Sprachausgangs­ signales.
  • e) Wiederholen der Schritte a) bis d) für den nächsten Puls.
8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeich­ net, daß die Verstärkung der Unterrahmen "ohne Sprache" durch die folgenden Schritte erhalten wird:
  • a) Vollständiges Berechnen des Ansprechens auf das weiße Rauschen des Synthesefilters (24) an der Po­ sition des gesamten Unterrahmens.
  • b) Berechnen der Verstärkung des gesamten Unterrahmens nach der folgenden Gleichung:
    wobei αk die Verstärkung des weißen Rauschens für den gesamten D-ten Unterrahmen, Envj,i die dekodier­ te Hüllkurve für das weiße Rauschen an der Position i, noise_resj,i das Ansprechen auf das weiße Rau­ schen, w0 die Anfangsposition jedes Unterrahmens und sub_leng die Länge des Unterrahmens bezeichnen.
  • c) Zuführen des weißen Rauschens in das Synthesefilter (24) nach dem die Verstärkung des weißen Rauschens erhalten wurde.
  • d) Multiplizieren des weißen Rauschens und βj zur Er­ zeugung eines synthetisierten Sprachausgangssigna­ les.
DE19722705A 1996-12-19 1997-05-30 Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung Withdrawn DE19722705A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW085115665A TW326070B (en) 1996-12-19 1996-12-19 The estimation method of the impulse gain for coding vocoder

Publications (1)

Publication Number Publication Date
DE19722705A1 true DE19722705A1 (de) 1998-07-02

Family

ID=21625621

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19722705A Withdrawn DE19722705A1 (de) 1996-12-19 1997-05-30 Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung

Country Status (3)

Country Link
US (1) US5953697A (de)
DE (1) DE19722705A1 (de)
TW (1) TW326070B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1173044A2 (de) * 2000-06-30 2002-01-16 Cochlear Limited System zur Rehabilitation einer Hörstörung
US7318025B2 (en) 2000-04-28 2008-01-08 Deutsche Telekom Ag Method for improving speech quality in speech transmission tasks

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6539349B1 (en) * 2000-02-15 2003-03-25 Lucent Technologies Inc. Constraining pulse positions in CELP vocoding
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7860256B1 (en) * 2004-04-09 2010-12-28 Apple Inc. Artificial-reverberation generating device
WO2005112005A1 (ja) * 2004-04-27 2005-11-24 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
BRPI0510400A (pt) * 2004-05-19 2007-10-23 Matsushita Electric Ind Co Ltd dispositivo de codificação, dispositivo de decodificação e método dos mesmos
PL2118889T3 (pl) 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
US8457953B2 (en) 2007-03-05 2013-06-04 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for smoothing of stationary background noise
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
EP2246845A1 (de) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Verfahren und akustische Signalverarbeitungsvorrichtung zur Schätzung von linearen prädiktiven Kodierungskoeffizienten
RU2591021C2 (ru) * 2011-02-15 2016-07-10 Войсэйдж Корпорейшн Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
EP2791937B1 (de) 2011-11-02 2016-06-08 Telefonaktiebolaget LM Ericsson (publ) Erzeugung einer hochbanderweiterung eines bandbreitenerweiterten tonsignals

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7318025B2 (en) 2000-04-28 2008-01-08 Deutsche Telekom Ag Method for improving speech quality in speech transmission tasks
EP1173044A2 (de) * 2000-06-30 2002-01-16 Cochlear Limited System zur Rehabilitation einer Hörstörung
EP1173044A3 (de) * 2000-06-30 2005-08-17 Cochlear Limited System zur Rehabilitation einer Hörstörung
US7376563B2 (en) 2000-06-30 2008-05-20 Cochlear Limited System for rehabilitation of a hearing disorder

Also Published As

Publication number Publication date
US5953697A (en) 1999-09-14
TW326070B (en) 1998-02-01

Similar Documents

Publication Publication Date Title
DE19722705A1 (de) Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69932460T2 (de) Sprachkodierer/dekodierer
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE60011051T2 (de) Celp-transkodierung
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE69928288T2 (de) Kodierung periodischer sprache
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE69730316T2 (de) Schallquellengenerator, sprachkodierer und sprachdekodierer
DE69836624T2 (de) Audiokodierer und -dekodierer
DE19647298C2 (de) Kodiersystem
DE60209861T2 (de) Adaptive Postfilterung zur Sprachdekodierung
DE2233872C2 (de) Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE102008042579A1 (de) Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: HOLTEK SEMICONDUCTOR INC., HSINCHU, TW

8139 Disposal/non-payment of the annual fee