DE69935233T2

DE69935233T2 - Sprachkodierung

Info

Publication number: DE69935233T2
Application number: DE69935233T
Authority: DE
Inventors: Ingemar Johansson; Jonas Svedberg; Anders Uvliden
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-09-16
Filing date: 1999-09-10
Publication date: 2007-10-31
Anticipated expiration: 2019-09-11
Also published as: WO2000016313A1; DE69935233D1; JP2002525665A; EP1112568A1; CN1318187A; CA2340160C; CA2340160A1; EP1879176B1; HK1117629A1; US6275798B1; BR9913754A; MY126550A; CN1244090C; KR20010090438A; KR100688069B1; TW454167B; EP1112568B1; ZA200101222B; AU6377499A; JP4309060B2

Description

GEBIET DER ERFINDUNG
Die Erfindung betrifft im Allgemeinen eine Sprachcodierung und insbesondere die Reproduktion von Hintergrundrauschen beim Sprachcodieren.
HINTERGRUND DER ERFINDUNG
Bei Sprachcodierern vom linearen Vorhersage- bzw. Prädiktionstyp wie beispielsweise Code Excited Linear Prediction (CELP) Sprachcodierer, wird typischerweise das ankommende ursprüngliche Sprachsignal in Rahmen genannte Blöcke unterteilt. Eine typische Rahmenlänge beträgt 20 Millisekunden oder 160 Abtastwerte, und die Rahmenlänge wird allgemein beispielsweise bei zellularen Anwendungen mit herkömmlicher Telefonbandbreite verwendet. Die Rahmen sind typischerweise weiter in Sub-Rahmen unterteilt, wobei die Sub-Rahmen häufig eine Länge von 5 Millisekunden oder 40 Abtastwerten haben.
Bei herkömmlichen Sprachcodierern, wie beispielsweise den oben erwähnten, werden Parameter, die die Lautführung, Tonhöhe (engl.: pitch) und andere Merkmale beschreiben, aus dem ursprünglichen Sprachsignal während des Sprachcodiervorgangs extrahiert. Parameter, die sich langsam ändern, werden auf einer Rahmen-für-Rahmen Basis berechnet. Beispiele solcher langsam veränderlichen Parameter umfassen die sogenannte Kurzzeitprädiktions- bzw. STP-Parameter, die die Sprachführung beschreiben. Die STP-Parameter definieren die Filterkoeffizienten des Synthesefilters bei Linearprädiktionssprachcodierern. Parameter, die sich schneller verändern, beispielsweise die Tonhöhe und die Innovationsform und Innovationsverstärkungsparameter, werden normalerweise für jeden Sub-Rahmen berechnet.
Nachdem die Parameter berechnet wurden, werden sie quantisiert. Die STP-Parameter werden häufig in eine Darstellung transformiert, die für eine Quantisierung geeigneter ist, wie beispielsweise eine Linienspektrumfrequenz (LSF) Darstellung. Die Umwandlung von STP-Parametern in LSF Darstellung ist im Stand der Technik wohlbekannt.
Sobald die Parameter quantisiert wurden, wird eine Fehlerkontrollcodierung und Prüfsummeninformation hinzugefügt, vor einem Interleaven und einer Modulation der Parameterinformation. Die Parameterinformation wird dann über den Kommunikationskanal zu einem Empfänger übermittelt, wobei ein Sprachdecoder im Grunde genommen das entgegengesetzte durchführt wie die oben beschriebene Sprachcodierprozedur, um ein Sprachsignal zu synthetisieren, das dem ursprünglichen Sprachsignal sehr nahe kommt. Beim Sprachdecoder wird allgemein ein Nachfiltern auf das synthetisierte Sprachsignal angewendet, um die wahrgenommene Qualität des Signals zu verbessern.
Sprachcodierer, die Linearprädiktionsmodelle wie beispielsweise das CELP Modell verwenden, sind typischerweise sehr genau auf die Codierung von Sprache angepasst, so dass die Synthese oder Reproduktion von Nicht-Sprachsignalen, wie beispielsweise Hintergrundrauschen, in solchen Codierern häufig schlecht ist. Unter schlechten Kanalbedingungen, beispielsweise wenn die quantisierte Parameterinformation durch Kanalfehler verzerrt ist, verschlechtert sich die Reproduktion von Hintergrundrauschen noch weiter. Sogar unter klaren Kanalbedingungen wird ein Hintergrundrauschen durch den Zuhörer am Empfänger häufig als fluktuierendes und unstetiges Rauschen empfunden. Bei CELP Codierern ist der Grund für dieses Problem im wesentlichen das mittlere quadratische Fehler (MSE) Kriterium, herkömmlicherweise in der Analyse-um-Synthese-Schleife verwendet, in Kombination mit schlechter Korrelation zwischen dem Ziel und synthetisierten Signalen. Bei schlechten Kanalbedingungen ist das oben erwähnte Problem noch schlechter, da das Niveau des Hintergrundrauschens stark fluktuiert. Dies wird durch den Zuhörer als störend empfunden, da vom Hintergrundrauschpegel erwartet wird, dass er sich recht langsam ändert.
Eine Lösung zum verbessern der wahrgenommenen Qualität von Hintergrundrauschen bei sowohl sauberen als auch verrauschten Kanalbedingungen, könnte die Nutzung von Sprachaktivitätsdetektoren (VADs) umfassen, die eine harte (z.B. ja oder nein) Entscheidung fällen, ob das Signal, das codiert wird, Sprache oder Nicht-Sprache ist. Basierend auf der harten Entscheidung können unterschiedliche Verarbeitungstechniken in dem Decoder angewendet werden. Beispielsweise, falls die Entscheidung Nicht-Sprache ist, dann kann der Decoder annehmen, dass das Signal Hintergrundrauschen ist, und kann dorthingehend arbeiten, die spektralen Veränderungen im Hintergrundrauschen auszuglätten. Dieses Verfahren mit harter Entscheidung lässt den Zuhörer jedoch nachteiligerweise hören, wie der Decoder zwischen Sprachverarbeitungsbetriebsvorgängen und Nicht-Sprachverarbeitungsbetriebsvorgängen schaltet.
Zusätzlich zu den vorhergehend genannten Problemen wird die Reproduktion von Hintergrundrauschen bei verminderten Bitraten (beispielsweise unterhalb 8 kb/s) noch weiter verschlechtert. Unter schlechten Kanalbedingungen bei verminderten Bitraten wird das Hintergrundrauschen häufig als ein Tonhöhenschwankungseffekt gehört, bewirkt durch unnatürliche Veränderungen des Pegels des decodierten Hintergrundrauschens.
Es ist daher wünschenswert, die Reproduktion eines Hintergrundrauschens in einem Linearprädiktions-Sprachdecoder, wie beispielsweise einem CELP Decoder, bereitzustellen, wobei die oben genannten unerwünschten Zuhörerwahrnehmungen des Hintergrundrauschens vermieden werden.
Die vorliegende Erfindung stellt eine verbesserte Reproduktion eines Hintergrundrauschens bereit. Der Decoder ist in der Lage, die Anwendung einer Energiekonturglättung auf das zu rekonstruierende Signal graduell (oder sanft) zu erhöhen oder zu vermindern. Somit kann durch Glätten der Energiekontur auf das Problem einer Hintergrundrausch-Reproduktion eingegangen werden, ohne den Nachteil einer wahrnehmbaren Aktivierung/Deaktivierung der Energiekonturglättungsbetriebsvorgänge.
Die europäische Patentanmeldung Nr. 0,843,301 beschreibt allgemein ein Verfahren zum Erzeugen eines Komfort-Rauschens in einem Mobilgerät, das in einem nicht-kontinuierlichen Übertragsmodus arbeitet. Die Zufallsanregungssteuerparameter werden auf der Übertragungsseite berechnet, und werden an der Empfängerseite modifiziert. Dieses erzeugt ein genaues Komfort-Rauschen, das dem Hintergrundrauschen auf der Übertragungsseite entspricht. Diese Parameter, zusätzlich zu anderen Komfort-Rauschparametern, werden nur während Sprachpausen berechnet. Eine Mittelung von schlecht konditionierten Sprachcodierparametern ersetzt die ursprünglichen Parameter.
Das US-Patent Nr. 4,630,305 beschreibt allgemein einen automatischen Verstärkungswähler für ein Rausch-Unterdrückungssystem, das die Sprachqualität bei Empfang eines verrauschten Sprachsignals verbessert, um ein rauschunterdrücktes Sprachsignal zu erzeugen. Dieses Verfahren wird unter Verwendung einer Spektralverstärkungs-Änderung durchgeführt, wobei jede individuelle Kanalverstärkung in Übereinstimmung mit mehreren Parametern ausgewählt wird, wie beispielsweise der Kanalnummer, der momentanen Kanal SNR (Signal zu Rausch Verhältnis) und dem insgesamt gemittelten Hintergrundrauschen.
Die europäische Patentanmeldung Nr. 0 786 760 beschreibt allgemein ein Erzeugen eines Komfort-Rauschens unter Verwendung eines Decoders, der eine gewichtete Mittelung von Autokorrelationswerten des Eingangssignals während eines bestimmten Segments verwendet, um Statistiken des Hintergrundrauschens abzuschätzen. Darüber hinaus wird ein Glättungsübergang eingeführt, der ein Komfort-Rauschen zwischen Sprachstößen sanft einsetzt.
Die WO 96/34382 beschreibt allgemein ein Verfahren zum Bestimmen, ob der momentane Abschnitt eines Signals Sprache oder Rauschen ist. Dies wird durch ein Vergleichen eines momentanen Abschnitts mit dem vorhergehenden Abschnitt erzielt, was letztendlich die Bestimmung erlaubt, ob der momentane Signalabschnitt Rauschen oder Sprache ist.
Der IEEE-Artikel "A voice activity detector employing soft decision based noise spectrum adaptation" proceedings der 1998 IEEE international conference on acoustics, speech and signal processing, ICASSP '98, vol. 1, 12–15, Mai 1998, S. 365–368, XP002085126, Seattle, WA, US, beschreibt allgemein einen Sprachaktivitätsdetektor (VAD) zur Verwendung bei einer Sprachcodierung mit variabler Rate. Die Rauschstatistiken sind vorab bekannt, während die Rauschstatistiken unter Verwendung einer Weich-Entscheidung (Soft-Entscheidung) basierend auf einem Rauschspektrum-Adaptionsalgorithmus bestimmt werden.
EP 0 731 348 A2 offenbart ein Sprachdecodierverfahren, das während der Decodier-Prozedur ausgeführtes Zwischen-Rahmen-Glätten einschließt. Ähnliche bzw. entsprechende Parameter von der Vielzahl von Rahmen werden jeweils in Zirkular- Puffern gespeichert. Vorzugsweise werden Parameter von siebzehn Rahmen in jedem Zirkular-Puffer gespeichert, um zu ermöglichen, dass Parameter von den acht vorangegangenen und den acht nachfolgenden Rahmen für den Glättungsprozess jedes Parameters verwendet werden. Glättungsparameter werden zum Erzeugen einer Approximation das derzeitigen Segments des Ursprungssprachsignals verwendet. Die Verwendung nachfolgender Rahmen bedeutet jedoch eine Einschränkung in Bezug auf ein Echtzeit-Decodiererfordernis, weil das Decodieren des derzeitigen Rahmens nicht beginnen kann, bis Parameter jedes der zu verwendenden nachfolgenden Rahmen verfügbar sind.
RESÜMEE DER ERFINDUNG
Es ist ein Ziel der vorliegenden Erfindung, ein Verfahren zum Erzeugen einer Approximation eines Ursprungssprachsignals von codierter Information über das Ursprungssprachsignal bereitzustellen, das im Stande ist, hohe Echtzeit-Decodiererfordernisse zu erfüllen.
Fernere Ziele der vorliegenden Erfindung richten sich auf eine entsprechende Sprachdekodiereinrichtung und eine eine entsprechende Sprachdekodiereinrichtung enthaltende Sender-Empfänger-Vorrichtung.
Gemäß der vorliegenden Erfindung werden diese Ziele jeweils durch ein Verfahren des Erzeugens einer Approximation eines Ursprungssprachsignals mit den Merkmalen des Anspruchs 1, eine Sprachdecodiervorrichtung mit den Merkmalen des Anspruchs 15, und eine Sender-Empfänger-Vorrichtung mit den Merkmalen des Anspruchs 30 erlangt
KURZBESCHREIBUNG DER ZEICHNUNGEN
Es zeigt:
1 wesentliche Abschnitte eines bekannten Linearprädiktions-Sprachdecoders.
2 wesentliche Abschnitte eines Linearprädiktions-Sprachdecoder gemäß der vorliegenden Erfindung.
3 den Modifizierer von 2 mit mehr Detail.
4 in einem Flussdiagrammformat beispielhafte Betriebsvorgänge, die durch den Sprachdecoder der 2 und 3 durchgeführt werden kann.
5 ein Kommunikationssystem gemäß der vorliegenden Erfindung.
6 graphisch eine Beziehung zwischen einem Mischungsfaktor und einem Stationärmaß gemäß der Erfindung.
7 detaillierter einen Abschnitt des Sprachrekonstruierers der 2 und 3.
DETAILLIERTE BESCHREIBUNG
Das Beispiel der 1 zeigt diagrammartig wesentliche Abschnitte eines bekannten Linearprädiktions-Sprachdecoder, wie beispielsweise einem CELP Decoder, zur Erleichterung eines Verständnisses der vorliegenden Erfindung. Bei dem bekannten Decoderabschnitt von 1 empfängt ein Parameterbestimmer 11 von einem Sprachcodierer (über einen nicht gezeigten bekannten Kommunikationskanal) die Parameter bezeichnende Information, die durch den Decoder verwendet werden wird, um so genau wie möglich das ursprüngliche Sprachsignal zu rekonstruieren. Der Parameterbestimmer 11 bestimmt aus der Codiererinformation Energieparameter und andere Parameter für den momentanen Sub-Rahmen oder Rahmen. Die Energieparameter werden als EnPar(i) in 1 bezeichnet, und die anderen Parameter (bei 13 gezeigt) werden als OtherPar(i) bezeichnet, wobei i der Sub-Rahmen (oder Rahmen) Index des momentanen Sub-Rahmens (oder Rahmens) ist. Die Parameter werden in einen Sprachrekonstruierer 15 eingegeben, der eine Annäherung der ursprünglichen Sprache und Hintergrundrauschens aus den Energieparametern und den anderen Parameters synthetisiert oder rekonstruiert.
Bekannte Beispiele der Energieparameter EnPar(i) umfassen die bekannte feste Codebuchverstärkung bzw. Gewichtung (codebook gain), die in dem CELP Modell verwendet wird, die Langzeitprädiktorverstärkung bzw. Gewichtung (long term predictor gain) und den Rahmenenergieparameter. Bekannte Beispiele der anderen Parameter OtherPar(i) umfassen die vorhergehend genannte LSF Darstellung der STP-Parameter. Die Energieparameter und andere Parameter, die in den Sprachrekonstruierer 15 von 1 eingegeben werden, sind dem Fachmann wohlbekannt.
2 zeigt diagrammartig wesentliche Abschnitte eines beispielhaften Linearprädiktionsdecoders, wie beispielsweise einem CELP Decoder, in Übereinstimmung mit der vorliegenden Erfindung. Der Decoder von 2 umfasst den bekannten Parameterbestimmer 11 von 1 und einen Sprachrekonstruierer 25. die Energieparameter EnPar(i), ausgegeben von dem Parameterbestimmer 11 in 2, werden jedoch in einen Energieparameter-Modifizierer 21 eingegeben, der seinerseits modifizierte Energieparameter EnPar(i)_mod ausgibt. Die modifizierten Energieparameter werden in den Sprachrekonstruierer 25 zusammen mit den Parametern EnPar(i) und OtherPar(i), erstellt durch den Parameterbestimmer 11, eingegeben.
Der Energieparameter-Modifizierer 21 empfängt eine Steuereingabe 23 von den anderen durch den Parameterbestimmer 11 ausgegebenen Parametern, und empfängt auch eine Steuereingabe, die die Kanalbedingungen bezeichnet. In Antwort auf diese Steuereingaben modifiziert der Energieparameter-Modifizierer selektiv die Energieparameter EnPar(i) und gibt die modifizierten Energieparameter EnPar(i)_mod aus. Die modifizierten Energieparameter erlauben eine verbesserte Reproduktion von Hintergrundrauschen ohne die vorhergehend genannten nachteiligen Zuhörerwahrnehmungen im Zusammenhang mit der Reproduktion eines Hintergrundrauschens in den bekannten Decodern, wie z.B. in 1 zeigt.
In einer beispielhaften Implementierung der vorliegenden Erfindung versucht der Energieparameter-Modifizierer 21, die Energiekontur nur bei einem stationären Hintergrundrauschen zu glätten. Stationäres Hintergrundrauschen bedeutet im wesentlichen ein konstantes Hintergrundrauschen, wie beispielsweise das Hintergrundrauschen, das vorhanden ist, wenn ein zellulares Telefon benutzt wird, während man in einem sich bewegenden Auto fährt. In einer beispielhaften Implementierung verwendet die vorliegende Erfindung momentane und vorhergehende Kurzzeitsynthesefilterkoeffizienten (die STP-Parameter), um ein Maß für die Stationarität des Signals zu erhalten. Diese Parameter werden typischerweise gegen Kanalfehler gut geschützt. Ein beispielhaftes Maß für Stationarität unter Verwendung von momentanen und vorhergehenden Kurzzeitfilterkoeffizienten wird wie folgt gegeben:
In der obigen Gleichung 1 zeichnet lsf_j den j-ten Linienspektrumfrequenzkoeffizienten in der Linienspektrumfrequenzdarstellung der Kurzzeitfilterkoeffizienten, die dem momentanen Sub-Rahmen zugehörig sind. Weiter stellt in Gleichung 1 lsfAver_j den Mittelwert der lsf Darstellungen des j-ten Kurzzeitfilterkoeffizienten von der vorhergehenden N Rahmen dar, wobei N beispielsweise auf 8 eingestellt sein kann. Somit wird die Berechnung auf der rechten Seite des Summenzeichens in Gleichung 1 für jede der Linienspektrumfrequenzdarstellungen der Kurzzeitfilterkoeffizienten durchgeführt. Als ein Beispiel gibt es typischerweise zehn Kurzzeitfilterkoeffizienten (entsprechend einem Synthesefilter zehnter Ordnung) und somit zehn entsprechende Linienspektrumfrequenzdarstellungen, und so würde j die lsf's von eins bis zehn indizieren. In diesem Beispiel werden in Gleichung 1 zehn Werte (einer für jeden Kurzzeitfilterkoeffizienten) berechnet, und diese zehn Werte werden dann aufsummiert, um das Stationaritätsmaß, diff, für diesen Sub-Rahmen bereitzustellen.
Es wird darauf hingewiesen, dass Gleichung 1 auf Sub-Rahmenbasis angewendet wird, obwohl die Kurzzeitfilterkoeffizienten und entsprechenden Linienspektrumfrequenzdarstellungen nur einmal pro Rahmen aktualisiert werden. Dies ist möglich, da bekannte Decoder Werte von jeder Linienspektrumfrequenz lsf für jeden Sub-Rahmen interpolieren. Somit ist bei konventionellen CELP Decodierbetriebsvorgängen jedem Sub-Rahmen ein Satz von interpolierten lsf Werten zugeordnet. Unter Verwendung des vorhergehenden Beispiels wären jedem Sub-Rahmen zehn interpolierte lsf Werte zugeordnet sein.
Der lsfAver_j Term in Gleichung 1 kann, muss jedoch nicht, die Sub-Rahmeninterpolation der lsf Werte berücksichtigen. Beispielsweise könnte der lsfAver_j Term entweder einen Mittelwert von N vorhergehenden lsf Werten darstellen, einen für jeden der N vorhergehenden Rahmen, oder einen Durchschnitt von 4N vorhergehenden lsf Werten, einen für jeden der vier Sub-Rahmen (unter Verwendung von interpolierten lsf Werten) von jedem der N vorhergehenden Rahmen. In Gleichung 1 kann die Spanne der lsf's typischerweise von 0-π sein, wobei π die Hälfte der Abtastfrequenz darstellt.
Eine alternative Weise, den lsfAver_j Term aus Gleichung 1 zu berechnen ist wie folgt; lsfAverj(i) = A1·lsfAverj(i – 1) + A2·lsfj(i) (Gl. 1A)wobei lsfAver_j(i) und lsfAver_j(i – 1) Terme jeweilig der j-ten lsf Darstellung des i-ten und (i – 1)ten Rahmen entsprechen, und lsf_j(i) die j-te lsf Darstellung des i-ten Rahmens ist. Beispielsweise wenn i = 1, kann ein geeigneter (z.B. ein empirisch bestimmter) anfänglicher Wert für den lsfAver_j(i – 1) (= lsfAver_j(0)) Term ausgewählt werden. Beispielwerte von A1 und A2 umfassen A1 = 0,84 und A2 = 0,16. Die obige Gleichung 1A ist rechenaufwandsbezogen weniger komplex als der beispielhafte 8-Rahmen laufende Mittelwert, oben beschrieben.
In einer alternativen Formulierung des Stationaritätsmaßes von Gleichung 1 kann der lsfAver_j Term im Nenner durch lsf_j ersetzt werden.
Das Stationaritätsmaß, diff, aus Gleichung 1 bezeichnet, wie weit sich das Spektrum des momentanen Sub-Rahmens von dem mittleren Spektrum unterscheidet, gemittelt über eine vorgegebene Anzahl von vorhergehenden Rahmen. Eine Differenz bei einer spektralen Form ist sehr stark mit einer Änderung einer Signalenergie korreliert, beispielsweise zu Beginn eines Sprachstoßes, dem Zuwerfen von Türen, etc. Für die meisten Typen von Hintergrundrauschen ist diff sehr niedrig, wohingegen diff für gesprochene Sprache sehr hoch ist.
Für schwer zu codierende Signale, wie beispielsweise Hintergrundrauschen, ist es vorzuziehen, eine glatte Energiekontur bereitzustellen, anstatt eines exakten Wellenformanpassens, was schwer zu erzielen ist. Das Stationaritätsmaß, diff, wird verwendet, um zu bestimmen, wie viel Energiekonturglättung benötigt wird. Die Energiekonturglättung sollte bezüglich der Decoderverarbeitung sanft eingeführt oder entfernt werden, um hörbar wahrnehmbare Aktivierung/Deaktivierung der Glättungsbetriebsvorgänge zu vermeiden. Demzufolge wird das diff-Maß verwendet, um einen Mixfaktor k zu definieren, wobei eine beispielhafte Formulierung dafür gegeben wird durch: k = min(K2, max(0, diff – K1))K2 (Gl. 2)wobei K₁ und K₂ ausgewählt werden, so dass der Mixfaktor k meistens gleich eins ist (keine Energiekonturglättung) für gesprochene Sprache und null (volles Energiekonturglätten) für stationäres Hintergrundrauschen ist. Beispiele von geeigneten Werten für K₁ und K₂ sind K₁ = 0,40 und K₂ = 0,25. 6 zeigt graphisch die Beziehung zwischen dem Stationaritätsmaß, diff, und dem Mixfaktor k für das oben gegebene Beispiel, bei dem K₁ = 0,40 und K₂ = 0,25. Der Mixfaktor k kann als eine beliebige andere geeignete Funktion F des diff-Maßes formuliert werden, k = F(diff).
Der Energieparameter-Modifizierer 21 aus 2 verwendet auch Energieparameter, die mit vorhergehenden Sub-Rahmen im Zusammenhang stehen, um die modifizierten Energieparameter EnPar(i)_mod zu erzeugen. Beispielsweise kann der Modifizierer 21 eine zeitgemittelte Version der bekannten empfangenen Energieparameter EnPar(i) von 2 berechnen. Die zeitgemittelte Version kann beispielsweise wie folgt berechnet werden;
wobei b_i verwendet wird, um eine gewichtete Summe der Energieparameter bereitzustellen. Beispielsweise kann der Wert von b_i auf 1/M eingestellt werden, um eine tatsächliche Mittelung der Energieparameterwerte von den vergangenen M Sub-Rahmen bereitzustellen. Die Glättung von Gleichung 3 muss nicht auf einer Sub-Rahmenbasis durchgeführt werden, sie könnte auch auf M Rahmen angewendet werden. Die Grundlage des Mittels wird von den Energieparameter (oder -parametern) abhängen, die gemittelt werden, und dem Typ einer erwünschten Verarbeitung.
Sobald die zeitgemittelte Version des Energieparameters EnPar(i)_avg unter Verwendung von Gleichung 3 berechnet wurde, wird der Mixfaktor k verwendet, um das sanfte oder graduelle Umschalten zwischen der Verwendung des empfangenen Energieparameterwertes EnPar(i) und dem gemittelten Energieparameterwert EnPar(i)_avg umzuschalten. Eine beispielhafte Gleichung für eine Anwendung des Mixfaktors k ist wie folgt: EnPar(i)mod = k·EnPar(i) + (1 – k)·EnPar(i)avg (Gl.4)
Aus Gleichung 4 ist klar, dass, wenn k niedrig ist (stationäres Hintergrundrauschen), hauptsächlich die gemittelten Energieparameter verwendet werden, um die Energiekontur zu glätten. Auf der anderen Seite, wenn k hoch ist, dann werden hauptsächlich die momentanen Parameter verwendet. Für die zwischengelagerten Werte von k wird eine Mischung aus den momentanen Parametern und den gemittelten Parametern berechnet werden. Es wird darauf hingewiesen, dass die Verarbeitungen von Gleichungen 3 und 4 auf irgendeinen beliebigen gewünschten Energieparameter angewendet werden können, auf so viele Energieparameter wie erwünscht, und auf eine beliebige gewünschte Kombination von Energieparametern.
Mit Bezug auf die Kanalbedingungen, die in den Energieparameter-Modifizierer 21 von 2 eingegeben sind, ist eine solche Kanalbedingungsinformation herkömmlicherweise in Linearprädiktionsdecodern wie beispielsweise CELP Decodern verfügbar, beispielsweise in der Form von Kanaldecodierinformation und CRC Prüfsummen. Falls beispielsweise keine CRC Prüfsummenfehler vorliegen, zeigt dies einen guten Kanal an, falls jedoch zu viele CRC Prüfsummenfehler innerhalb einer gegebenen Sequenz von Sub-Rahmen vorliegen, dann könnte dies eine interne Zustandsfehlausrichtung zwischen dem Codierer und Decoder anzeigen. Zuletzt, falls ein gegebener Rahmen einen CRC Prüfsummenfehler aufweist, dann zeigt dies an, dass der Rahmen ein schlechter Rahmen ist. In dem oben beschriebenen Fall eines guten Kanals kann der Energieparameter-Modifizierer beispielsweise einen konservativen Ansatz nehmen, und M gleich 4 oder 5 in Gleichung 3 einstellen. In dem Fall der vorhergehend genannten vermuteten codierer/Decoderinternen Zustandsfehlausrichtung kann der Energieparameter 21 von 2 beispielsweise den Mixfaktor k durch ein Erhöhen der Werte K₁ in Gleichung 2 von 0,4 auf beispielsweise 0,55 verändern. Wie aus Gleichung 4 und 6 zu sehen ist, wird die Erhöhung des Wertes K₁ bewirken, dass der Mixfaktor k für einen breiteren Bereich von diff-Werten auf null verbleibt (volle Glättung), somit den Einfluss des zeitgemittelten Energieparameterterms EnPar(i)_avg von Gleichung 4 erhöhend. Falls die Kanalbedingungsinformation einen schlechten Rahmen anzeigt, dann kann der Energieparameter-Modifizierer 21 von 2 beispielsweise den K₁ Wert in Gleichung 2 als auch den Wert von M in Gleichung 3 erhöhen.
3 zeigt diagrammartig eine beispielhafte Implementierung des Energieparameter-Modifizierers 21 von 2. In dem Beispiel von 3 werden EnPar(i) und die lsf Werte des momentanen Sub-Rahmens, lsf(i) bezeichnet, empfangen und in einem Speicher 31 gespeichert. Ein Stationaritätsbestimmer 33 holt die momentanen und vorhergehenden lsf Werte aus dem Speicher 31 und implementiert die obige Gleichung 1, um das Stationaritätsmaß, diff, zu bestimmen. Der Stationaritätsbestimmer liefert dann diff an einen Mixfaktorbestimmer 35, der die obige Gleichung 2 implementiert, um den Mixfaktor k zu bestimmen. Der Mixfaktorbestimmer liefert dann den Mixfaktor k an die Mixlogik 37.
Ein Energieparameter-Mittelwertbilder 39 holt die momentanen und vorhergehenden Werte von EnPar(i) aus dem Speicher 31 und implementiert die obige Gleichung 3. Der Energieparameter-Mittelwertbilder liefert dann EnPar(i)_avg an die Mixlogik 37, die auch den momentanen Energieparameter EnPar(i) empfängt. Die Mixlogik 37 implementiert die obige Gleichung 4, um EnPar(i)_mod bereitzustellen, was dann in den Sprachrekonstruierer 25 zusammen mit den Parametern EnPar(i) und OtherPar(i), wie oben beschrieben, eingegeben wird. Der Mixfaktorbestimmer 35 und der Energieparameter-Mittelwertbilder 39 empfangen jeweils die konventionell verfügbare Kanalbedingungsinformation als Steuereingabe, und sind in der Lage, die geeigneten Betriebsvorgänge zu implementieren, wie oben beschrieben, in Antwort auf die verschiedenen Kanalbedingungen.
4 zeigt exemplarische Betriebsvorgänge der exemplarischen Linearprädiktionsdecodiervorrichtung, die in 2 und 3 zeigt ist. Bei 41 bestimmt der Parameterbestimmer 11 die Sprachparameter aus der Codiererinformation. Danach bestimmt bei 43 der Stationaritätsbestimmer 33 das Stationaritätsmaß des Hintergrundrauschens. Bei 45 bestimmt der Mixfaktorbestimmer 35 den Mixfaktor k basierend auf dem Stationaritätsmaß und der Kanalbedingungsinformation. Bei 47 bestimmt der Energieparameter-Mittelwertbilder 39 den zeitgemittelten Energieparameter EnPar(i)_avg, bei 49 wendet die Mixlogik den Mixfaktor k auf den momentanen Energieparameter (bzw. -parameter) EnPar(i) und den gemittelten Energieparameter (bzw. -parameter) EnPar(i)_avg an, um den modifizierten Energieparameter (bzw. -parameter) EnPar(i)_mod zu bestimmen. Bei 40 wird der modifizierte Energieparameter (bzw. -parameter) EnPar(i)_mod an den Sprachrekonstruierer geliefert, zusammen mit den Parametern EnPar(i) und OtherPar(i), und eine Approximation des ursprünglichen Sprachsignals (einschließlich des Hintergrundrauschens) wird aus solchen Parametern rekonstruiert.
7 zeigt eine beispielhafte Implementierung eines Abschnitts des Sprachrekonstruierers 25 der 2 und 3. 7 zeigt, wie die Parameter EnPar(i) und EnPar(i)_mod durch den Sprachrekonstruierer 25 in konventionellen Berechnungen unter Verwendung von Energieparametern verwendet werden. Der Rekonstruierer 25 verwendet einen oder mehrere Parameter EnPar(i) für konventionelle Energieparameterberechnungen, die einen beliebigen internen Zustand des Decoders beeinflussen, der vorzugsweise dem entsprechenden internen Zustand des Codierers entsprechen sollte, beispielsweise einer Tonhöhenhistorie (pitch Historie). Der Rekonstruierer 25 verwendet den modifizierten Parameter (bzw. die Parameter) EnPar(i)_mod für alle anderen konventionellen Energieparameterberechnungen. Im Gegensatz dazu verwendet der konventionelle Rekonstruierer 15 von 1 EnPar(i) für alle konventionellen Energieparameterberechnungen, zeigt in 7. Die Parameter OtherPar(i) (2 und 3) können in dem Rekonstruierer 25 auf die gleiche Weise verwendet werden, wie sie konventioneller Weise in dem bekannten Rekonstruierer 15 verwendet werden.
5 zeigt ein Blockdiagramm eines beispielhaften Kommunikationssystems gemäß der vorliegenden Erfindung. In 5 wird ein Decoder 52 gemäß der vorliegenden Erfindung in einem Transceiver (XCVR) 53 bereitgestellt, der mit einem Transceiver 54 über einen Kommunikationskanal 55 kommuniziert. Der Decoder 52 empfängt die Parameterinformation von einem Codierer 56 in dem Transceiver 54 über den Kanal 55, und stellt eine rekonstruierte Sprache und Hintergrundrauschen für einen Zuhörer an dem Transceiver 53 bereit. Als ein Beispiel könnten die Transceiver 53 und 54 von 5 zellulare Telefone sein, und der Kanal 55 könnte ein Kommunikationskanal durch ein zellulares Telefonnetzwerk sein. Andere Anwendungen des Sprachdecoders 52 der vorliegenden Erfindung sind in großer Zahl vorhanden und offensichtlich.
Es ergibt sich für den Fachmann, dass ein Sprachdecoder gemäß der Erfindung beispielsweise unter Verwendung eines geeigneterweise programmierten digitalen Signalprozessors (DSP) oder eine andere Datenverarbeitungsvorrichtung sofort implementiert werden kann, entweder alleine oder in Kombination mit einer externen Unterstützungslogik.
Die obenbeschriebene Sprachdecodierung in Übereinstimmung mit der vorliegenden Erfindung verbessert die Fähigkeit, ein Hintergrundrauschen zu reproduzieren, sowohl unter fehlerfreien Bedingungen als auch schlechten Kanalbedingungen, ohne jedoch eine Sprachleistungsfähigkeit auf unannehmbare Weise zu verschlechtern. Der Mixfaktor der Erfindung erlaubt ein sanftes Aktivieren oder Deaktivieren der Energieglättungsbetriebsvorgänge, so dass keine wahrnehmbare Verschlechterung des reproduzierten Sprachsignals aufgrund einer Aktivierung/Deaktivierung der Energieglättungsbetriebsvorgänge vorliegt. Ebenso, da die Menge vorhergehender Parameterinformation, die in den Energieglättungsbetriebsvorgängen verwendet wird, relativ klein ist, besteht geringe Gefahr einer Verschlechterung des reproduzierten Sprachsignals.
Obwohl beispielhafte Ausführungen der vorliegenden Erfindung detailliert oben beschrieben wurden, beschränkt dies nicht den Umfang der Erfindung, die in einer Vielzahl von Ausführungsbeispielen verwirklicht werden kann.

Claims

Verfahren des Erzeugens einer Approximation eines Ursprungssprachsignals aus codierter Information über das Ursprungssprachsignal, umfassend: Bestimmen (11, 41) von momentanen Parametern, die einem momentanen Segment des Ursprungssprachsignals zugeordnet sind aus der codierten Information; und für mindestens einen der momentanen Parameter, Verwenden des momentanen Parameters und entsprechender vorhergehender, den vorhergehenden Segmenten des Ursprungssprachsignals zugeordneter jeweiliger Parameter zum Erzeugen eines modifizierten Parameters (21), dadurch gekennzeichnet, dass der Schritt des Verwendens momentaner und vorhergehender Parameter das Durchschnittsbilden der vorangehenden Parameter einschließt zum Erhalten eines Durchschnittsparameters, der gemeinsam mit dem Momentanen Parameter zu verwenden ist zum Erzeugen des modifizierten Parameters, und Bestimmen eines Mischungsfaktors (35, 45), der indikativ ist in Bezug auf die relative Wichtigkeit des Momentanen Parameters und des Durchschnittsparameters beim Erzeugen des modifizierten Parameters; und Verwenden des modifizierten Parameters zum Erzeugen einer Approximation des momentanen Segmentes des Ursprungssprachsignals (25).
Verfahren nach Anspruch 1, wobei der modifizierte Parameter sich von dem momentanen Parameter unterscheidet.
Verfahren nach Anspruch 1, wobei der momentane Parameter ein Parameter ist, der indikativ ist in Bezug auf eine Signalenergie in dem momentanen Segment des Ursprungssprachsignals.
Verfahren nach Anspruch 3, wobei der Schritt des Verwendens momentaner und vorhergehender Parameter das Verwenden vorhergehender Parameter in einer Durchschnittsbildungsoperation (39, 47) zum Erzeugen eines Durchschnittsparameters einschließt, und Erzeugen des multiplizierten Parameters basierend auf dem Durchschnittsparameter und dem Momentanen Parameter.
Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens eines Mischungsfaktors das Bestimmen eines Stationaritätsmaßes (33, 43) einschließt, welches indikativ ist in Bezug auf eine Stationaritätseigenschaft einer dem momentanen Segment des Ursprungssprachsignals zugeordneten Rauschkomponente, und Bestimmen des Mischungsfaktors (35) als eine Funktion des Stationaritätsmaßes.
Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens eines Stationaritätsmaßes (33, 43) für mindestens einen anderen der momentanen Parameter die Verwendung des Momentanen Parameters und entsprechender vorangehender Parameter, die jeweils vorhergehenden Segmenten des Ursprungssprachsignals zugeordnet sind, zum Bestimmen des Stationaritätsmaßes einschließt.
Verfahren nach Anspruch 6, wobei der zuletzt erwähnte Schritt des Verwendens momentaner und vorangehender Parameter das Anwenden einer Durchschnittsbildungsoperation auf die vorangehenden Parameter einschließt zum Erzeugen eines Durchschnittsparameters, und das Verwenden des Durchschnittsparameters gemeinsam mit dem momentanen Parameter zum Bestimmen des Stationaritätsmaßes.
Verfahren nach Anspruch 6, wobei der andere momentane Parameter ein Filterkoeffizient eines Synthesefilters ist, das beim Erzeugen der Approximation des Ursprungssprachsignals verwendet wird.
Verfahren nach Anspruch 1, wobei der Schritt des Verwendens momentaner und Durchschnittsparameter das Bestimmen weiterer Faktoren aus dem Mischungsfaktor (35) einschließt, die jeweils den momentanen und Durchschnittsparametern zugeordnet sind, und das Multiplizieren der momentanen und Durchschnittsparameter mit den jeweiligen weiteren Faktoren.
Verfahren nach Anspruch 4, wobei der Schritt des Verwendens der vorangehenden Parameter eine Durchschnittsbildungsoperation ist, die selektives Ändern der Durchschnittsbildungsoperation ansprechend auf Bedingungen eines Kommunikationskanals einschließt, der verwendet wird zum Bereitstellen der codierten Information.
Verfahren nach Anspruch 3, wobei der Schritt des Verwendens momentaner und vorangehender Parameter das Bestimmen eines Mischungsfaktors einschließt, der indikativ ist in Bezug auf die Wichtigkeit der vorangehenden Parameter bezogen auf den momentanen Parameter beim Erzeugen des modifizierten Parameters.
Verfahren nach Anspruch 11, wobei der Schritt des Bestimmens eines Mischungsfaktors das Bestimmen eines Stationaritätsmaßes einschließt, das indikativ ist in Bezug auf eine Stationaritätseigenschaft einer Rauschkomponente, die dem momentanen Segment des Ursprungssprachsignals zugeordnet ist, und das Bestimmen des Mischungsfaktors als einer Funktion des Stationaritätsmaßes.
Verfahren nach Anspruch 11, wobei der Schritt des Bestimmens eines Mischungsfaktors das selektive Ändern des Mischungsfaktors ansprechend auf Bedingungen eines Kommunikationskanals einschließt, der zum Bereitstellen der codierten Information verwendet wird.
Verfahren nach Anspruch 3, wobei der Momentane Parameter eine festgelegte Codebuch-Zunahme zur Verwendung beim Ausführen eines "Code Excited Linear Prediction"- bzw. CELP-Sprachdecodierprozesses ist.
Sprachdecodiervorrichtung, umfassend: einen Eingang (11) zum Empfangen codierter Information, von der eine Approximation eines Ursprungssprachsignals zu erzeugen ist; einen Ausgang (25) zum Ausgeben der Approximation; einen Parameterbestimmer (11), der an den Eingang gekoppelt ist zum Bestimmen von beim Erzeugen einer Approximation eines momentanen Segments des Ursprungssprachsignals zu verwendender momentaner Parameter aus der codierten Information; einen Rekonstruierer (25), der zwischen dem Parameterbestimmer und dem Ausgang gekoppelt ist zum Erzeugen der Approximation des Ursprungssprachsignals; und einen Modifizierer (21), der zwischen dem Parameterbestimmer und dem Rekonstruierer gekoppelt ist zur Verwendung von mindestens einem der momentanen Parameter und entsprechender vorangehender Parameter, die jeweils vorangehenden Segmenten des Ursprungssprachsignals zugeordnet sind, zum Erzeugen eines modifizierten Parameters, dadurch gekennzeichnet, dass der Modifizierer einen Mischungsfaktorbestimmer (35) einschließt zum Bestimmen eines Mischungsfaktors, der indikativ ist in Bezug auf die relative Wichtigkeit des momentanen Parameters und eines Durchschnittsparameters, der durch Durchschnittsbildung der vorangehenden Parameter erhalten wird, beim Erzeugen des modifizierten Parameters; und de Modifizierer ferner vorgesehen ist zum Bereitstellen des modifizierten Parameters für den Rekonstruierer zur Verwendung beim Erzeugen der Approximation des momentanen Segments des Ursprungssprachsignals.
Vorrichtung nach Anspruch 15, wobei der modifizierte Parameter sich von dem momentanen Parameter unterscheidet.
Vorrichtung nach Anspruch 15, wobei der momentane Parameter ein Parameter ist, der Indikativ ist in Bezug auf Signalenergie im momentanen Segment des Ursprungssprachsignals.
Vorrichtung nach Anspruch 17, wobei der Modifizierer einen Durchschnittsbilder (39) einschließt zur Verwendung der vorangehenden Parameter in einer Durchschnittsbildungsoperation zum Erzeugen eines Durchschnittsparameters, wobei der Modifizierer betreibbar ist zum Verwenden des Durchschnittsparameters gemeinsam mit dem momentanen Parameter zum Erzeugen des modifizierten Parameters.
Vorrichtung nach Anspruch 15, wobei der Modifizierer einen Stationaritätsbestimmer (33) einschließt, der zwischen dem Parameterbestimmer und dem Mischungsfaktorbestimmer gekoppelt ist zum Bestimmen eines Stationaritätsmaßes, das indikativ ist in Bezug auf eine Stationaritätseigenschaft einer Rauschkomponente des momentanen Segments, wobei der Mischungsfaktorbestimmer betreibbar ist zum Bestimmen des Mischungsfaktors als einer Funktion des Stationaritätsmaßes.
Vorrichtung nach Anspruch 19, wobei der Stationaritätsbestimmer betreibbar ist zum Verwenden mindestens eines anderen der momentanen Parameter und entsprechender vorangehender Parameter, die jeweils vorangehenden Segmenten des Ursprungssprachsignals zugeordnet sind, zum Bestimmen des Stationaritätsmaßes.
Vorrichtung nach Anspruch 20, wobei der Stationaritätsbestimmer ferner betreibbar ist zum Anwenden einer Durchschnittsbildungsoperation auf die vorangehenden Parameter in Entsprechung zu mindestens einem anderem vorangehenden Parameter zum Erzeugen eines weiteren Durchschnittsparameters, und zum Verwenden des weiteren Durchschnittsparameters gemeinsam mit dem anderen momentanen Parameter zum Bestimmen des Stationaritätsmaßes.
Vorrichtung nach Anspruch 20, wobei der andere Durchschnittsparameter ein Filterkoeffizient eines Synthesefilters ist, das durch den Rekonstruierer beim Erzeugen der Approximation des Ursprungssprachsignals implementiert wird.
Vorrichtung nach Anspruch 15, wobei der Modifizierer eine Mischungs-Logik (37) einschließt, die zwischen dem Mischungsfaktorbestimmer (35) und dem Rekonstruierer (25) gekoppelt ist zum Bestimmen von weiteren Faktoren, die jeweils dem Momentanen Parameter und dem Durchschnittsparameter zugeordnet sind, aus dem Mischungsfaktor, und zum Multiplizieren der momentanen und Durchschnittsparameter durch die jeweiligen weiteren Faktoren, die betreibbar sind zum Erzeugen des modifizierten Parameters ansprechend auf die Produkte.
Vorrichtung nach Anspruch 18, wobei der Durchschnittsbilder (39) einen Eingang einschließt zum Empfangen von Information, die indikativ ist in Bezug auf Bedingungen eines Kanals, von dem die codierte Information bereitgestellt wird, wobei der Durchschnittsbilder anspricht auf die Information zum selektiven Ändern der Durchschnittsbildungsoperation.
Vorrichtung nach Anspruch 17, wobei der Modifizierer (21) einen Mischungsfaktorbestimmer (35) einschließt zum Bestimmen eines Mischungsfaktors, der indikativ ist in Bezug auf die Wichtigkeit der vorangehenden Parameter relativ zu dem Momentanen Parameter beim Erzeugen des modifizierten Parameters.
Vorrichtung nach Anspruch 25, wobei der Modifizierer (21) einen Stationaritätsbestimmer (33) einschließt, der gekoppelt ist zwischen dem Parameterbestimmer (11) und dem Mischungsfaktorbestimmer (35) zum Bestimmen eines Stationaritätsmaßes, das indikativ ist in Bezug auf eine Stationaritätseigenschaft einer Rauschkomponente des momentanen Segments, wobei der Mischungsfaktorbestimmer betreibbar ist zum Bestimmen des Mischungsfaktors als eine Funktion des Stationaritätsmaßes.
Vorrichtung nach Anspruch 25, wobei der Mischungsfaktorbestimmer einen Eingang einschließt zum Empfangen von Information, die indikativ ist in Bezug auf Bedingungen eines Kanals, von dem die codierte Information bereitgestellt wird, wobei der Mischungsfaktorbestimmer anspricht auf die Information zum selektiven Ändern des Mischungsfaktors.
Vorrichtung nach Anspruch 17, wobei der momentane Parameter eine feste Codebuch-Zunahme ist zur Verwendung in einem "Code Excited Linear Prediction"- bzw. CELP-Sprachcodierungsprozess.
Vorrichtung nach Anspruch 15, wobei die Sprachdecodiervorrichtung einen "Code Excited Linear Prediction- bzw. CELP-Sprachdecoder einschließt.
Sender-Empfänger-Vorrichtung zur Verwendung in einem Kommunikationssystem, umfassend: einen Eingang zum Empfangen von Information von einem Sender-Empfänger über einen Kommunikationskanal (55); einen Ausgang zum Bereitstellen einer Ausgangsgröße an einen Benutzer des Sender-Empfängers; gekennzeichnet durch die Sprachdecodiervorrichtung (52) nach Anspruch 15, deren Eingang an den Sender-Empfänger-Eingang gekoppelt ist und deren Ausgang an den Sender-Empfänger-Ausgang gekoppelt ist, wobei der Eingang der Sprachdecodiervorrichtung zum Empfangen von codierter Information von dem Sender-Empfänger vorgesehen ist, die eine Approximation eines zu erzeugenden Ursprungssprachsignals ist, wobei die Ausgangsgröße der Sprachdecodiervorrichtung für das Bereitstellen der Approximation an den Sender-Empfänger-Ausgang vorgesehen ist.
Vorrichtung nach Anspruch 30, wobei die Sender-Empfänger-Vorrichtung einen Abschnitt eines Zellulartelefons bildet.