DE19722705A1

DE19722705A1 - Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung

Info

Publication number: DE19722705A1
Application number: DE19722705A
Authority: DE
Inventors: Chin-Ten Lin; Hsin-An Lin
Original assignee: Holtek Microelectronics Inc
Current assignee: Holtek Semiconductor Inc
Priority date: 1996-12-19
Filing date: 1997-05-30
Publication date: 1998-07-02
Also published as: US5953697A; TW326070B

Description

Die Erfindung betrifft ein Verfahren zur Sprachdekodierung mit einem Vokoder und insbesondere ein Verfahren eines Schemas zur Abschätzung der Verstärkung für eine Kodierung eines Vokoders.

Die Technik der linearen voraussagenden Kodierung (LPC) ei nes Vokoders wird in großem Maße im Zusammenhang mit Syn thetisatoren-Anwendungen zur Sprachkodierung verwendet. Beispielhaft wird auf die US-PS 4,910,781 und die US-PS 4,697,261 verwiesen. Die gesamte Offenbarung dieser Patent schriften wird hiermit zum Bestandteil der vorliegenden Pa tentanmeldung gemacht. Bis heute werden LPC-10 Vokoder in großem Umfang für die Sprachkomprimierung mit einer niedri gen Bitrate verwendet.

Die Fig. 1 zeigt ein Blockschaltbild eines bekannten LPC-Vo koders. Der Vokoder enthält im allgemeinen einen Impuls reihen-Generator 11, einen Zufallsrauschgenerator 12, einen Schalter 13 für "mit Sprache"/"ohne Sprache", eine Verstär kereinheit 14, ein LPC-Filter 15 und eine Einstelleinheit 16 für LPC-Parameter.

Das Eingangssignal des Vokoders wird entweder von dem Im pulsreihen-Generator 11 oder dem Zufallsrauschgenerator 12 erzeugt. Der Impulsreihen-Generator 11 kann ein Sprachsi gnal in der Form einer periodischen Impulsreihe erzeugen, bei dem es sich um das sogenannte Signal "mit Sprache" han delt. Andererseits kann der Zufallsrauschgenerator 12 ein weißes Rauschsignal erzeugen, bei dem es sich um das soge nannte Signal "ohne Sprache" handelt. Entsprechend der richtigen Beurteilung durch den Schalter 13 wird das durch den Impulsreihen-Generator 11 erzeugte Signal mit der peri odischen Impulsreihe oder das weiße Rauschsignal, das durch den Rauschgenerator 12 erzeugt wird, zur Verstärkereinheit 14 übertragen. Es wird dann ein LPC-Allpolfilter 15 erregt um ein Ausgangssignal S(n) zu erzeugen, das so skaliert wird, daß es an den Pegel der Eingangssprache angepaßt ist.

Die Sprachentscheidung, die Teilungsperiode, die Filter koeffizienten und die Verstärkung werden für jeden Sprachrahmen aufdatiert, um Änderungen in der Eingangsspra che zu folgen bzw. nachzusteueren. Die Gesamtverstärkung der synthetischen Sprache muß bei praktischen Vokoderanwen dungen so eingestellt werden, daß sie an den Pegel der Ein gangssprache angepaßt ist. Gegenwärtig gibt es zwei Verfah ren zur Bestimmung der Verstärkung, die in großem Umfang angewendet werden. Bei dem ersten Verfahren kann die Ver stärkung dadurch bestimmt werden, daß die Energie in dem Sprachsignal an die Energie der linearen vorhergesagten Ab tastungen bzw. Proben angepaßt wird. Dies ist in der Tat richtig, wenn richtige Voraussetzungen im Hinblick auf das Erregungssignal für das LPC-System gemacht werden. Einige Voraussetzungen bestehen darin, daß die Vorhersagekoeffizi enten a_k in einem tatsächlichen Modell gleich den Vorhersa gekoeffizienten α_k in einem realen Modell sind, daß die Energie in dem Erregungssignal Gu(n) für das tatsächliche Modell gleich der Energie in dem Fehlersignal e(n) für das reale Modell ist, daß u(n) = δ(n) für die gesprochene Sprache ist und daß u(n) für die nicht gesprochene Sprache ein wei ßer Rauschprozeß mit einem Nullmittelwert und einer Ein heitsvarianz ist. Mit dieser Voraussetzung kann die Ver stärkung G durch die folgende Gleichung abgeschätzt werden:

Dabei bezeichnet R(.) die Autokorrelation des Sprachsigna les. α_k bezeichnet die LPC-Koeffizienten und p die Vorher sage- bzw. Vorgabeordnung.

Ein weiteres Verfahren zur Verstärkungsberechnung basiert auf dem Effektivwert (RMS) der Abtastungen über dem gesam ten Rahmen N der Eingangssprache, der folgendermaßen defi niert wird:

Für die Rahmen "ohne Sprache" wird die Verstärkung einfach durch RMS abgeschätzt. Für die Rahmen "mit Sprache" wird dieselbe Annäherung auf RMS-Basis verwendet. Die Verstär kung wird jedoch unter Verwendung eines rechteckigen Fen sters genauer abgeschätzt, das eine Mehrzahl der gegenwär tigen Teilungsperiode ist. Die nach einem der beiden zuvor genannten Verfahren berechnete Verstärkung wird dann gleichmäßig auf einer logarythmischen Skala unter Verwen dung von 7 Bits quantisiert.

Weil der herkömmliche LPC-Vokoder ein System mit einer of fenen Schleife ist, reicht ein einfaches Schema zur Ab schätzung der Verstärkung nicht aus, um die Amplitude der synthetischen Sprache genau zu bestimmen.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren für ein neues Schema zur Abschätzung der Verstär kung für die Vokoderkodierung anzugeben, das glattere und natürlichere Sprachausgangssignale für Vokoderanwendungen erzeugen kann.

Diese Aufgabe wird durch ein Verfahren mit dem Merkmalen des Patentanspruches 1 gelöst.

Vorteilhafterweise können mit dem erfindungsgemäßen Verfah ren, das auf der Außenlinie bzw. Kontur der Wellenform der Sprache basiert, die als Umhüllungsform bezeichnet wird, die oben beschriebenen Nachteile vermieden werden.

Die vorliegende Erfindung betrifft ein neues Verfahren für ein Schema zur Abschätzung der Verstärkung für Sprachvoko der, das die folgenden Schritte aufweist:

a) Erhalten einer dekodierten Umhüllung, die einen Formin dex und eine quantisierte Verstärkung enthält, durch Anpassen einer Eingangssprache aus einem vorbestimmten Code-Lexikon.
b) Eingeben entweder eines aperiodischen Pulses oder ei nes weißen Rauchens direkt in eine Entscheidungseinheit für "mit Sprache"/"ohne Sprache" (voiced/unvoiced unit).
c) Unterteilen der Eingangssprache in eine Mehrzahl von Rahmen und Bestimmen, ob jeder Rahmen des Eingangs sprachsignales "mit Sprache" oder "ohne Sprache" ist, durch die Entscheidungseinheit.
d) Übertragen eines interpolierten linearen Vorgabekodie rungskoeffizienten (LPC) sowohl in den Synthesefilter, wie auch in einen Nachfilter.
e) Übertragen der dekodierten Umhüllenden und des Synthe se-Sprachsignales in eine Einheit zur Amplitudenberech nung zur Erzeugung eines Verstärkungssignales.
f) Multiplizieren des Verstärkungssignales und des synthe tischen Sprachsignales zur Erzeugung eines syntheti sierten Sprachausgangssignales.
g) Übertragen des synthetisierten Sprachausgangssignales und des interpolierten LPC Koeffizienten in das Nach filter zur Erzeugung eines glatten und natürlichen ver besserten synthetischen Sprachausgangssignales.

Zum besseren Verständnis werden die Erfindung und deren Ausgestaltungen im Zusammenhang mit den Figuren näher er läutert. Es zeigen:

Fig. 1 ein Blockschaltbild des bekannten Vokoders;

Fig. 2 das Blockschaltbild des erfindungsgemäßen Voko ders und

Fig. 3 die vorbestimmten Form-Codewörter eines 4-Bit-Quan tisierers gemäß der vorliegenden Erfindung.

Die vorliegende Erfindung betrifft ein Schema zur Abschät zung der Verstärkung, das auf der Außenlinie der Sprachwel lenform basiert, die als Umhüllungsform bezeichnet wird, um die oben beschriebenen Probleme zu lösen.

In der Fig. 2 ist das Blockschaltbild des erfindungsgemä ßen Vokoders dargestellt. Der Vokoder umfaßt im allgemeinen einen Vibrator 21, eine Entscheidungseinheit 22 für "mit Sprache"/"ohne Sprache", eine Einrichtung 23 zum Interpo lieren des LPC Koeffizienten in Domänen von Linienspektrum paaren (LSP), ein Synthesefilter 24, das aus einem Allpol filter und einem Nachentzerrungsfilter besteht, eine Ein heit 25 zur Amplitudenberechnung, eine Einrichtung 26 zur Dekodierung der Umhüllung, eine Verstärkungseinheit 27 und ein Nachfilter 28.

Eine durch den Vibrator 21 verlaufende periodische Impuls reihe erzeugt einen aperiodischen Puls an der Entschei dungseinheit 22 "mit Sprache"/"ohne Sprache". Andererseits wird ein weißes Rauschen ebenfalls zu der Entscheidungsein heit 22 gesendet. Gemäß dem erfindungsgemäßen Schema zur Entscheidung zwischen "mit Sprache"/"ohne Sprache" wird ein Rahmen in vier Unterrahmen unterteilt und wird für jeden Unterrahmen auf der Basis einer Anzahl von Parametern, die die normalisierte Korrelation NC, die Energie, den Koeffi zienten des Linienspektrumpaares LSP und die Werte des Energieverhältnisses des niedrigen Bandes zum hohen Band (LOH) umfassen, bestimmt, ob der Unterrahmen "mit Sprache" oder "ohne Sprache" ist, um die Genauigkeit des Vokoders in hohem Maße zu vergrößern. Einzelheiten über das Schema zur Entscheidung "mit Sprache"/"ohne Sprache" auf einer 1/4-Basis sind in der deutschen Patentanmeldung 197 21 684.6 desselben Anmelders enthalten.

In ununterbrochenen bzw. andauernden Bereichen der sich langsam ändernden spektralen Charakteristiken kann die rah menweise Aufdatierung sehr gut funktionieren. In den Über gangsbereichen versagt die rahmenweise Aufdatierung jedoch, wenn Übergänge in den Rahmen fallen. Um sicherzustellen, daß die Ausgangssignale der Übergangsbereiche genauer sind, wird eine bekannte Technik verwendet, um LPC Koeffizienten in der LSP Domäne 23 zu interpolieren, bevor die LPC Koef fizienten zum Synthesefilter 24 gesendet werden. Die Idee besteht darin, eine verbesserte Darstellung des Spektrums dadurch zu erreichen, daß Zwischensätze von Parametern zwi schen Rahmen bewertet werden, so daß Übergänge an den Rah menrändern glatter eingefügt werden, ohne daß die Kodie rungskapazität vergrößert wird. Es wurde herausgefunden, daß die Glattheit der verarbeiteten Sprache beträchtlich verbessert wird und daß die Ausgangsqualität der durch schnelle Redner gesprochenen Sprache bemerkenswert verbes sert wurde. Um die Berechnungsanzahlen der linearen Inter polation LSP zu verringern, wird der Sprachrahmen in vier Unterrahmen unterteilt. Der in jedem Unterrahmen verwendete LSP Koeffizient wird durch lineare Interpolation der LSP Koeffizienten zwischen dem gegenwärtigen und vorgehenden Rahmen erhalten. Die interpolierten LSP Koeffizienten wer den dann in LPC Koeffizienten umgewandelt, die sowohl an das Synthesefilter 24, wie auch an das adaptive Nachfilter 28 gesendet werden.

Die LPC Koeffizienten vom Synthesefilter 24 und die deko dierten Umhüllungssignale, die durch die dekodierte Umhül lung 26 erzeugt werden, werden in die Berechnungseinheit 25 für die Amplitude übertragen, um ein Verstärkungssteuersi gnal zu erzeugen, das an die Verstärkungseinheit 27 gesen det wird und dann das Nachfilter 28 erregt, um eine verbes serte synthetische Ausgangssprache zu erhalten.

Die Eingänge der dekodierten Hüllkurve 26 weisen die Form einer quantisierten Verstärkung und die normalisierte Form des Indexes auf. Die Hüllkurvenform und die quantisierten Verstärkungsparameter der synthetischen Sprache werden durch eine Analyse/Synthese-Schleife (analysis-by-synthesis loop) erhalten.

Die Hüllkurvenkodierung wird unter Anwendung einer Annäh rung des mittleren quadratischen Fehlers der Verstärkungs form aus einem Code-Lexikon ausgeführt. Durch Minimierung des mittleren quadratischen Fehlers wird die nächstliegende Eingabe aus einem vorbestimmten Code-Lexikon nach der fol genden Gleichung ausgewählt:

Dabei ist N=8 und stellt x_k die Umhüllungsform dar, die zu kodieren ist. y_i,k stellt das i^th Formcodewort dar. G_i be zeichnet die optimale Verstärkung bei der Anpassung des i^then Formcodewortes der Eingangshüllkurve. In der Fig. 3 sind 16 verschiedene Formcodeworte eines 4-Bit Quantisie rers gemäß der vorliegenden Erfindung dargestellt. Wenn der optimale Formindex bestimmt wurde, wird die zugeordnete Verstärkung unter Verwendung eines logarithmischen Quanti sierers zu 7 Bit quantisiert. Dann werden der Formindex und die quantisierten Verstärkungswerte in die dekodierte Müll kurveneinrichtung 26 gesendet.

Die Verstärkung der Erregung, die so berechnet wird, daß die maximale Amplitude der synthetischen Sprache gerade die dekodierte Hüllkurve erreicht, wird folgendermaßen be schrieben:

a) Unterrahmen "mit Sprache"

Für die Unterrahmen "mit Sprache" weist das Eingangssignal der Entscheidungseinheit 22 für "mit Sprache"/"ohne Spra che" die Form von aperiodischen Impulsen auf. Das Ansprech verhalten des Synthesefilterspeichers (SFMR) wird zuerst von dem vorhergehenden Rahmen herausgefunden. Das Einheits-Im pulsansprechen des Synthesefilters 24 an der gegenwärti gen Pulsposition wird dann durch die Berechnungseinheit 25 für die Amplitude berechnet. Die Verstärkung dieses Impul ses kann durch folgende Gleichung abgeschätzt werden:

Dabei bezeichnet α_k die K-te Impulsverstärkung Env_k,i be zeichnet die dekodierte Hüllkurve für den k-ten Impuls an der Position I. imp_res_k,i bezeichnet das Impulsansprech verhalten. p₀ bezeichnet die Impulsposition und r bezeich net die Suchlänge, die typischerweise 10 beträgt. Wenn die Verstärkung des Pulses herausgefunden ist, wird dieser Puls in das Synthesefilter 24 eingegeben, das ein synthetisches Signal erzeugt. Der SFMR Wert, der gleich dem Produkt des synthetischen Signales und α_k ist, wird in das Nachfilter 28 übertragen, um einen synthetisierten Sprachausgang "mit Sprache" zu erhalten. Das Verfahren wird dann wiederholt, um die Verstärkung des nächsten Impulses herauszufinden.

b) Unterrahmen "ohne Sprache"

Für Unterrahmen "ohne Sprache" weist das Eingangssignal der Entscheidungseinheit 22 die Form eines weißen Rauschens auf. Das Ansprechen des Synthesefilters auf das weiße Rau schen wird zuerst an der Position des gesamten Unterrahmens vollständig berechnet. Dadurch kann die unerwünschte Situa tion vermieden werden, daß die Amplitude des synthetischen Signales die dekodierte Müllkurve bei diesem Unterrahmen überschreitet. Die Verstärkung des weißen Rauschens an dem gesamten Unterrahmen kann durch die folgenden Gleichung ab geschätzt werden:

Dabei bezeichnet β_j die Verstärkung des weißen Rauschens für den gesamten j-ten Unterrahmen. Env_j,i bezeichnet die dekodierte Hüllkurve für dieses weiße Rauschen an der Posi tion i. noise_res_j,i bezeichnet das Ansprechen auf das wei ße Rauschen. w₀ ist die Anfangsposition jedes Unterrahmens und sub_leng die Unterrahmenlänge. Nachdem die Verstärkung des weißen Rauschens herausgefunden wurde, wird dieses wei ße Rauschen dem Synthesefilter 24 zugeführt, das ein syn thetisches Signal erzeugt. Der SFMR-Wert, der gleich dem Produkt des synthetischen Signales β_j ist, wird in das Nachfilter 28 übertragen, um ein synthetisiertes Sprachaus gangssignal "ohne Sprache" zu erzeugen.

Bei der Ausführung des neuen Schemas zu Abschätzung der Verstärkung für die Vokoderkodierung gemäß der vorliegenden Erfindung werden glattere und natürliche Sprachausgangs signale für Vokoderanwendungen erreicht.

Während die vorliegende Erfindung insbesondere im Zusammen hang mit einem bevorzugten Ausführungsbeispiel erläutert wurde, wird darauf hingewiesen, daß für einen Fachmann im Rahmen der vorliegenden Erfindung zahlreiche Änderungen und Modifikationen möglich sind.

Die Erfindung betrifft ein Verfahren für ein Schema zur Ab schätzung der Verstärkung für die Vokoderkodierung für Sprachvokoderanwendungen mit den folgenden Schritten.

a) Erhalten einer dekodierten Hüllkurve, die den Formin dex und die quantisierte Verstärkung enthält, durch Anpas sen der Eingangssprache aus einem vorbestimmten Code- Lexikon.
b) Eingeben entweder eines aperiodischen Pulses oder ei nes weißen Rauschens direkt in eine Entscheidungseinheit für "mit Sprache "/"ohne Sprache".
c) Teilen der Eingangssprache in eine Mehrzahl von Rah men und Bestimmen, ob jeder Rahmen des Eingangssprachsigna les als "mit Sprache" oder "ohne Sprache" zu bewerten ist, durch die Entscheidungseinheit.
d) Übertragen eines interpolierten linearen Vorhersage kodierungskoeffizienten (LPC) sowohl in das Synthesefilter 24, wie auch in ein Nachfilter 28.
e) Übertragen der dekodierten Hüllkurve und des Synthe sesprachsignales in einer Berechnungseinheit 25 für die Amplitude zur Erzeugung eines Verstärkungssignales.
f) Multiplizieren des Verstärkungssignales und des syn thetischen Sprachsignales zur Erzeugung eines synthesierten Sprachausgangssignales.
g) Übertragen des synthetisierten Sprachausgangssignales und des interpolierten LPC-Koeffizienten in das Nachfilter 28 zur Erzeugung eines glatten und natürlicheren syntheti schen Sprachausgangssignales.

Claims

1. Verfahren zur Bestimmung der Verstärkung eines Ein gangssprachsignales für Vokoderanwendungen mit den fol genden Schritten:

a) Erhalten einer dekodierten Hüllkurve durch Anpas sung einer Eingangssprache aus einem vorbestimmten Code-Lexikon.
b) Eingeben eines aperiodischen Pulses durch Eingeben einer periodischen Impulsreihe durch einen Vibrator (21) oder eines weißen Rauschens direkt in eine Entscheidungseinheit (22) zur Entscheidung zwischen "mit Sprache"/"ohne Sprache".
c) Teilen der Eingangssprache in eine Mehrzahl von Rahmen und Bestimmen, ob jeder Rahmen des Eingangs sprachsignales "mit Sprache" oder "ohne Sprache" ist, durch die Entscheidungseinheit (22) und dann Übertragen des Ausgangssignales der Entscheidungs einheit (22) an ein Synthesefilter (24).
d) Übertragen eines interpolierten linearen Vorhersa gekodierungskoeffizienten (LPC) sowohl in das Syn thesefilter (24), wie auch in ein Nachfilter (28).
e) Übertragen der Ausgangssignale der dekodierten Müllkurve (26) und des Synthesefilters (24) in eine Amplitudenberechnungseinheit (25) zur Erzeugung des Verstärkungsausgangssignales.
f) Multiplizieren des Verstärkungsausgangssignales aus der Amplitudenberechnungseinheit (25) und des syn thetischen Ausgangssignales des Synthesefilters (24) durch eine Verstärkungseinheit (27) zur Erzeu gung eines synthetisierten Sprachausgangssignales.
g) Übertragen des synthetisierten Sprachausgangsignales der Verstärkungseinheit (27) und des interpolierten LPC Koeffizienten (23) in das Nachfilter (28) zur Erzeugung eines verbesserten Sprachausgangssigna les.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die dekodierte Hüllkurve den Formindex und die quanti sierte Verstärkung umfaßt.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Formindex und die quantisierte Verstärkung durch eine vorbestimmte Code-Lexikon-Annäherung aus 16 unter schiedlichen Form-Codewörtern mit 4 Bits erhalten wer den.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge kennzeichnet, daß der interpolierte LPC Koeffizient beim Schritt d) durch Interpolieren von LPC Koeffizien ten in einer Domäne eines Linienspektrumpaares (LSP) erhalten wird, bevor die LPC Koeffizienten an das Syn thesefilter (24) gesendet werden, durch bewerten von Zwischensätzen von Parametern zwischen Rahmen, um die Übergänge an den Rahmenrändern glatter zu machen, ohne die Kodierkapazität zu vergrößern.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das Interpolieren der LPC Koeffizienten in einer Domäne eines Linienspektrumpaares (LSP) durch Unterteilen je des Sprachrahmens in vier Unterrahmen erhalten wird und daß der verwendete LSP Koeffizient in jedem Sprachrah men durch lineare Interpolation der LSP Koeffizienten zwischen dem gegenwärtigen Rahmen und den vorhergehen den Rahmen erhalten wird, und daß die interpolierten LSP Koeffizienten dann in die LPC Koeffizienten umge wandelt werden.

6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Verstärkungsausgangssignal der Amplitudenberech nungseinheit (25) beim Schritt e) so berechnet wird, daß die maximale Amplitude der synthetischen Sprache gerade die dekodierte Hüllkurve erreicht und daß die Verstärkung der Unterrahmen "mit Sprache" und "ohne Sprache" getrennt berechnet wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Verstärkung der Unterrahmen "mit Sprache" durch die folgenden Schritte erhalten wird:

a) Berechnen einer Einheitspulsansprache des Synthese filters (24) bei der gegenwärtigen Pulsposition.
b) Berechnen der Verstärkung des gegenwärtigen Pulses nach der Formel:
wobei α_k die k-te Pulsverstärkung, Env_k,i die deko dierte Hüllkurve für den k-ten Puls an der Position I, imp_res_k,i das Impulsansprechen, p₀ die Pulspo sition und r die Suchlänge (typischerweise 10) be zeichnen.
c) Zuführen des gegenwärtigen Pulses in das Synthese filter (24) nachdem die Verstärkung des gegenwärti gen Pulses erhalten wurde.
d) Multiplizieren des gegenwärtigen Pulses und α_k zur Erzeugung eines synthetisierten Sprachausgangs signales.
e) Wiederholen der Schritte a) bis d) für den nächsten Puls.

8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeich net, daß die Verstärkung der Unterrahmen "ohne Sprache" durch die folgenden Schritte erhalten wird:

a) Vollständiges Berechnen des Ansprechens auf das weiße Rauschen des Synthesefilters (24) an der Po sition des gesamten Unterrahmens.
b) Berechnen der Verstärkung des gesamten Unterrahmens nach der folgenden Gleichung:
wobei α_k die Verstärkung des weißen Rauschens für den gesamten D-ten Unterrahmen, Env_j,i die dekodier te Hüllkurve für das weiße Rauschen an der Position i, noise_res_j,i das Ansprechen auf das weiße Rau schen, w₀ die Anfangsposition jedes Unterrahmens und sub_leng die Länge des Unterrahmens bezeichnen.
c) Zuführen des weißen Rauschens in das Synthesefilter (24) nach dem die Verstärkung des weißen Rauschens erhalten wurde.
d) Multiplizieren des weißen Rauschens und β_j zur Er zeugung eines synthetisierten Sprachausgangssigna les.