DE69917677T2

DE69917677T2 - SPRACHKODIERUNG MIT VERäNDERBAREM KOMFORT-RAUSCHEN FüR VERBESSERTER WIEDERGABEQUALITäT

Info

Publication number: DE69917677T2
Application number: DE69917677T
Authority: DE
Inventors: Erik Ekudden; Roar Hagen; Ingemar Johansson
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-11-23
Filing date: 1999-11-08
Publication date: 2005-06-02
Anticipated expiration: 2019-11-09
Also published as: AR028468A1; KR20010080497A; CN1183512C; DE69917677D1; JP4659216B2; CA2349944C; AU1591100A; US7124079B1; CN1354872A; CA2349944A1; EP1145222A2; WO2000031719A3; BR9915577A; AU760447B2; TW469423B; WO2000031719A2; EP1145222B1; EP1145222A3; KR100675126B1; JP2003529950A

Description

Diese Anmeldung beansprucht die Priorität unter 35 USC 119(e)(1) einer gleichzeitig anhängigen vorläufigen US-Anmeldung Nr. 60/109,555, eingereicht am 23. November 1998.
GEBIET DER ERFINDUNG
Die Erfindung betrifft allgemein eine Sprachcodierung, und insbesondere eine Sprachcodierung, bei welcher während Perioden einer Sprachinaktivität ein künstliches Hintergrundrauschen erzeugt wird.
HINTERGRUND DER ERFINDUNG
Sprachcodierer und -decodierer sind herkömmlich jeweils in Funksendern und Funkempfängern vorgesehen und kooperieren zum Zulassen von Sprachkommunikationen zwischen einem gegebenen Sender und Empfänger über eine Funkverbindung. Die Kombination aus einem Sprachcodierer und einem Sprachdecodierer wird oft Sprach-Codec genannt. Ein Mobilfunktelefon (z. B. ein zellulares Telefon) ist ein Beispiel für eine herkömmliche Kommunikationsvorrichtung, die typischerweise einen Funksender mit einem Sprachcodierer und einen Funkempfänger mit einem Sprachdecodierer enthält.
Bei herkömmlichen blockbasierenden Sprachcodierern wird das ankommende Sprachsignal in Blöcke aufgeteilt, die Frames genannt werden. Für allgemeine 4 kHz- Telefonierbandbreitenanwendungen sind typische Framelängen 20 ms oder 160 Abtastungen. Die Frames bzw. Datenübertragungsblöcke sind weiter in Unterframes unterteilt, die typischerweise eine Länge von 5 ms oder 40 Abtastungen haben.
Herkömmliche lineare Vorhersage-Analyse-durch-Synthese-(LPAS)-Codierer verwenden spracherzeugungsbezogene Modelle. Aus dem eingegebenen Sprachsignal werden Modellparameter extrahiert, die den Stimmtrakt, die Tonhöhe, etc. beschreiben. Parameter, die sich langsam ändern, werden typischerweise für jeden Frame berechnet. Beispiele für solche Parameter enthalten die STP-(Kurzzeitvorhersage-)Parameter, die den Stimmtrakt in der Vorrichtung beschreiben, der die Sprache erzeugte. Ein Beispiel für STP-Parameter sind lineare Vorhersagekoeffizienten (LPC), die die spektrale Form des eingegebenen Sprachsignals darstellen. Beispiele für Parameter, die sich schneller ändern, enthalten die Tonhöhen- und Innovations-Form/Verstärkungs-Parameter, die typischerweise für jeden Unterframe berechnet werden.
Die extrahierten Parameter werden unter Verwendung geeigneter wohlbekannter skalarer und vektorieller Quantisierungstechniken quantisiert. Die STP-Parameter, wie beispielsweise die linearen Vorhersagekoeffizienten, werden oft zu einer Darstellung transformiert, die besser zur Quantisierung geeignet ist, wie beispielsweise Linienspektrumsfrequenzen (LSFs). Nach einer Quantisierung werden die Parameter über den Kommunikationskanal zum Decodierer übertragen.
Bei einem herkömmlichen LPAS-Decodierer wird allgemein das Gegenteil vom Obigen durchgeführt, und das Sprachsignal wird synthetisiert. Nachfilterungstechniken werden normalerweise auf das synthetisierte Sprachsignal angewendet, um die wahrgenommene Qualität zu verbessern.
Für viele allgemeine Hintergrundrauschtypen liefert eine viel niedrigere Bitrate, als sie für eine Sprache nötig ist, ein Modell des Signals, das gut genug ist. Existierende Mobilfunksysteme verwenden diese Tatsache durch entsprechendes Einstellen der übertragenen Bitrate während eines Hintergrundrauschens. Bei herkömmlichen Systemen, die kontinuierliche Übertragungstechniken verwenden, kann ein Sprachcodierer mit variabler Rate (VR) seine niedrigste Bitrate verwenden. Bei herkömmlichen diskontinuierlichen Übertragungs-(DTX)-Schemen stoppt der Sender ein Senden codierter Sprachframes, wenn der Lautsprecher inaktiv ist. In regelmäßigen oder unregelmäßigen Intervallen (typischerweise alle 500 ms) sendet der Sender Sprachparameter, die für eine Erzeugung eines Komfortrauschens im Decodierer geeignet sind. Diese Parameter für eine Komfortrauscherzeugung (CNG) werden herkömmlich in etwas codiert, was manchmal stille Deskriptor-(SID)-Frames genannt wird. Beim Empfänger verwendet der Decodierer die Komfortrauschparameter, die in den SID-Frames empfangen werden, um mittels eines herkömmlichen Algorithmus zur Einspeisung eines Komfortrauschens (CNI) ein künstliches Rauschen zu synthetisieren.
Wenn ein Komfortrauschen im Decodierer in einem herkömmlichen DTX-System erzeugt wird, wird das Rauschen oft derart wahrgenommen, dass es sehr statisch und sehr unterschiedlich vom Hintergrundrauschen ist, das in einem aktiven (keinem DTX) Mode erzeugt wird. Der Grund für diese Wahrnehmung besteht darin, dass DTX SID-Frames nicht so oft zum Empfänger gesendet werden, wie normale Sprachframes. Bei LPAS-Codecs mit einem DTX-Mode werden das Spektrum und die Energie des Hintergrundrauschens typischerweise über mehrere Frames geschätzt (beispielsweise wird ein Durchschnitt gebildet), und die geschätzten Parameter werden quantisiert und über den Kanal zum Decodierer übertragen. 1 stellt einen beispielhaften Komfortrauschcodierer nach dem Stand der Technik dar, der die vorgenannten geschätzten Hintergrundrausch-(Komfortrausch)-Parameter erzeugt. Die quantisierten Komfortrauschparameter werden typischerweise alle 100 bis 500 ms gesendet.
Der Vorteil eines Sendens von SID-Frames mit einer niedrigen Aktualisierungsrate anstelle eines Sendens von regulären Sprachframes ist zweifach. Die Batterielebensdauer in beispielsweise einem Mobilfunktransceiver wird aufgrund eines niedrigeren Energieverbrauchs verlängert, und die durch den Sender erzeugte Interferenz wird erniedrigt, um dadurch eine höhere Systemkapazität zur Verfügung zu stellen.
Bei einem herkömmlichen Decodierer können die Komfortrauschparameter empfangen und decodiert werden, wie es in 2 gezeigt ist. Weil der Decodierer keine neuen Komfortrauschparameter so oft empfängt, wie er normalerweise Sprachparameter empfängt, werden die Komfortrauschparameter, die in den SID-Frames empfangen werden, typischerweise bei 23 interpoliert, um eine stetige Entwicklung der Parameter bei der Komfortrauschsynthese zur Verfügung zu stellen. Bei der Syntheseoperation, die allgemein bei 25 gezeigt ist, gibt der Decodierer zum Synthesefilter 27 eine verstärkungsskalierte Zufallsrausch-(z. B. weißes Rauschen)-Erregung und die interpolierten Spektrumsparameter ein. Als Ergebnis wird das erzeugte Komfortrauschen s_c(n) ungeachtet dessen als äußerst stationär ("statisch") wahrgenommen werden, ob sich das Hintergrundrauschen s(n) an dem Codiererende (siehe 1) bezüglich des Charakters ändert. Dieses Problem wird bei Hintergründen mit starker Variabilität deutlich, wie beispielsweise bei Straßenrauschen und Geplapper (z. B. Restaurantrauschen), ist aber auch in Situationen eines Rauschens von Autos vorhanden.
EP 0 843 301 beschreibt die Verwendung von RESC-Parametern (für eine spektrale Steuerung einer Zufallserregung) auf der Empfängerseite zum Modifizieren der Zufallserregung, so dass der Spektralgehalt des erzeugten Komfortrauschens genauer mit dem Hintergrundrauschen übereinstimmt.
Ein herkömmlicher Ansatz zum Lösen dieses Problems eines "statischen" Komfortrauschens besteht einfach im Erhöhen der Aktualisierungsrate von DTX-Komfortrauschparametern (z. B. im Verwenden einer höheren SID-Framerate). Beispielhafte Probleme bei dieser Lösung bestehen darin, dass sich ein Batterieverbrauch (z. B. in einem Mobilfunktransceiver) erhöhen wird, weil der Sender sehr oft betrieben werden muss, und sich die Systemkapazität aufgrund der erhöhten SID-Framerate erniedrigen wird. Somit ist es bei herkömmlichen Systemen normal, das statische Hintergrundrauschen zu akzeptieren.
Es ist daher wünschenswert, die vorgenannten Nachteile zu vermeiden, die zu einer herkömmlichen Komfortrauscherzeugung gehören.
Gemäß der Erfindung, wie sie durch die beigefügten unabhängigen Ansprüche definiert ist, werden herkömmlich erzeugte Komfortrauschparameter basierend auf Eigenschaften eines aktuellen Hintergrundrauschens modifiziert, das beim Codierer erfahren wird. Aus den modifizierten Parametern erzeugtes Komfortrauschen wird als weniger statisch als herkömmlich erzeugtes Komfortrauschen wahrgenommen, und ähnlicher dem aktuellen Hintergrundrauschen, das beim Codierer erfahren wird.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 stellt diagrammmäßig die Erzeugung von Komfortrauschparametern in einem herkömmlichen Sprachcodierer dar.
2 stellt diagrammmäßig die Erzeugung eines Komfortrauschens in einem herkömmlichen Sprachcodierer dar.
3 stellt einen Komfortrauschparametermodifizierer zur Verwendung beim Erzeugen eines Komfortrauschens gemäß der Erfindung dar.
4 stellt ein beispielhaftes Ausführungsbeispiel des Modifizierers der 3 dar.
5 stellt ein beispielhaftes Ausführungsbeispiel der Variabilitätsschätzeinheit der 4 dar.
5A stellt eine beispielhafte Steuerung des AUSWAHL-Signals der 5 dar.
6 stellt ein beispielhaftes Ausführungsbeispiel des Modifizierers der 3–5 dar, wobei die Variabilitätsschätzeinheit der 5 teilweise im Codierer und teilweise im Decodierer vorgesehen ist.
7 stellt beispielhafte Operationen dar, die durch den Modifizierer der 3–6 durchgeführt werden können.
8 stellt ein Beispiel des Schätzschritts der 7 dar.
9 stellt ein Sprachkommunikationssystem dar, bei welchem die Modifiziererausführungsbeispiele der 3–8 implementiert sein können.
DETAILLIERTE BESCHREIBUNG
3 stellt einen Komfortrauschparametermodifizierer 30 zum Modifizieren von Komfortrauschparametern gemäß der Erfindung dar. Bei dem Beispiel der 3 empfängt der Modifizierer 30 am Eingang 33 die herkömmlichen interpolierten Komfortrauschparameter, wie beispielsweise die Spektrums- und Energieparameter, die vom Interpolierer 23 der 2 ausgegeben werden. Der Modifizierer 30 empfängt auch am Eingang 31 Spektrums- und Energieparameter, die zu einem Hintergrundrauschen gehören, das beim Codierer erfahren wird. Der Modifizierer 30 modifiziert die empfangenen Komfortrauschparameter basierend auf den Hintergrundrauschparametern, die bei 31 empfangen werden, um modifizierte Komfortrauschparameter bei 35 zu erzeugen. Die modifizierten Komfortrauschparameter können dann beispielsweise zum Komfortrausch-Syntheseabschnitt 25 der 2 zur Verwendung bei herkömmlichen Komfortrausch-Syntheseoperationen geliefert werden. Die bei 35 zur Verfügung gestellten modifizierten Komfortrauschparameter lassen zu, dass der Syntheseabschnitt 25 ein Komfortrauschen erzeugt, das das aktuelle Hintergrundrauschen, das dem Sprachcodierer präsentiert wird, genauer reproduziert bzw. wiedergibt.
4 stellt ein beispielhaftes Ausführungsbeispiel des Komfortrauschparametermodifizierers 30 der 3 dar. Der Modifizierer 30 enthält eine Variabilitätsschätzeinheit 41, die mit dem Eingang 31 gekoppelt ist, um die Spektrums- und Energieparameter des Hintergrundrauschens zu empfangen. Die Variabilitätsschätzeinheit 41 schätzt Variabilitätscharakteristiken der Hintergrundrauschparameter und gibt bei 43 Information aus, die die Variabilität der Hintergrundrauschparameter anzeigt. Die Variabilitätsinformation kann die Variabilität des Parameters um dessen Mittelwert charakterisieren, wie beispielsweise die Varianz des Parameters, oder die maximale Abweichung des Parameters von seinem Mittelwert.
Die Variabilitätsinformation bei 43 kann auch Korrelationseigenschaften, die Evolution bzw. Entwicklung des Parameters im Verlaufe der Zeit oder andere Maße für die Variabilität des Parameters im Laufe der Zeit anzeigen. Beispiele für Information für eine zeitliche Variabilität enthalten einfache Maße, wie beispielsweise die Änderungsrate des Parameters (schnelle oder langsame Änderungen), die Varianz des Parameters, die maximale Abweichung vom Mittelwert, andere statistische Maße, die die Variabilität des Parameters charakterisieren, und höher entwickelte Maße, wie beispielsweise Autokorrelationseigenschaften, und Filterkoeffizienten eines aus dem Parameter geschätzten autoregressiven (AR) Vorhersagewerts. Ein Beispiel für ein einfaches Maß einer Änderungsrate ist ein Zählen der Nulldurchgangsrate, d. h. der Anzahl von Malen, für welche sich das Vorzeichen des Parameters ändert, wenn man vom ersten Parameterwert zum letzten Parameterwert in der Folge von Parameterwerten schaut. Die bei 43 von der Schätzeinheit 41 ausgegebene Information wird zu einem Kombinierer 45 eingegeben, der die Ausgangsinformation bei 43 mit den bei 33 empfangenen interpolierten Komfortrauschparametern kombiniert, um die modifizierten Komfortrauschparameter bei 35 zu erzeugen.
5 stellt ein beispielhaftes Ausführungsbeispiel der Variabilitätsschätzeinheit 41 der 4 dar. Die Schätzeinheit der 5 enthält eine Bestimmungseinheit 51 für eine mittlere Variabilität, die mit dem Eingang 31 gekoppelt ist, zum Empfangen der Spektrums- und Energieparameter des Hintergrundrauschens. Die Bestimmungseinheit 51 für eine mittlere Variabilität kann Charakteristiken für eine mittlere Variabilität bestimmen, wie es oben beschrieben ist. Beispielsweise dann, wenn der Hintergrundrauschpuffer 37 der 3 8 Frames und 32 Unterframes enthält, kann die Variabilität der gepufferten Spektrums- und Energieparameter wie folgt analysiert werden. Der Mittel-(oder Durchschnitts-)Wert der gepufferten Spektrumsparameter kann berechnet (wie es herkömmlich in DTX-Codierern zum Erzeugen von SID-Frames durchgeführt wird) und von den gepufferten Spektrumsparameterwerten subtrahiert werden, um dadurch einen Vektor von spektralen Abweichungswerten zu ergeben. Gleichermaßen kann der mittlere Unterframewert der gepufferten Energieparameter berechnet werden (wie es herkömmlich in DTX-Codierern zum Erzeugen von SID-Frames durchgeführt wird), und dann von den gepufferten Unterframe-Energieparameterwerten subtrahiert werden, um dadurch einen Vektor von Energieabweichungswerten zu ergeben. Die Spektrums- und Energie-Abweichungsvektoren weisen somit Werte, von welchen ein Mittelwert entfernt ist, der Spektrums- und Energieparameter auf. Die Spektrums- und Energie-Abweichungsvektoren werden von der Variabilitäts-Bestimmungseinheit 51 über einen Kommunikationspfad 52 zu einer Abweichungsvektor-Speichereinheit 55 kommuniziert.
Eine Koeffizienten-Berechnungseinheit 53 ist auch mit dem Eingang 31 gekoppelt, um die Hintergrundrauschparameter zu empfangen. Die beispielhafte Koeffizienten-Berechnungseinheit 53 ist betreibbar, um herkömmliche AR-Abschätzungen über die jeweiligen Spektrums- und Energieparameter durchzuführen. Die Filterkoeffizienten, die aus den AR-Abschätzungen resultieren, werden von der Koeffizienten-Berechnungseinheit 53 über einen Kommunikationspfad 54 zu einem Filter 57 kommuniziert. Die bei 53 berechneten Filterkoeffizienten können beispielsweise jeweilige Allpolfilter für die Spektrums- und Energieparameter definieren.
Bei einem Ausführungsbeispiel führt die Koeffizienten-Berechnungseinheit 53 AR-Abschätzungen erster Ordnung für sowohl die Spektrums- als auch die Energieparameter durch, was Filterkoeffizienten al = Rxx(1)/Rxx(0) für jeden Parameter auf herkömmliche Weise berechnet. Rxx(0)- und Rxx(1)-Werte sind herkömmliche Autokorrelationswerte des bestimmten Parameters:
In diesen Rxx-Berechnungen stellt x den Hintergrundrausch-(z. B. Spektrums- oder Energie-)Parameter dar. Ein positiver Wert von al zeigt allgemein an, dass sich der Parameter langsam ändert, und ein negativer Wert zeigt allgemein eine schnelle Veränderung an.
Gemäß einem Ausführungsbeispiel kann für jeden Frame der Spektrumsparameter und für jeden Unterframe der Energieparameter eine Komponente x(k) aus dem entsprechenden Abweichungsvektor beispielsweise zufällig ausgewählt (über einen AUSWAHL-Eingang der Speichereinheit 55) und durch das Filter 57 unter Verwendung der entsprechenden Filterkoeffizienten gefiltert werden. Die Ausgabe aus dem Filter wird dann durch einen konstanten Skalierungsfaktor über eine Skalierungsvorrichtung 59, wie beispielsweise einen Multiplizierer, skaliert. Die skalierte Ausgabe, die in 5 als xp(k) bezeichnet ist, wird zum Eingang 53 des Kombinierers 45 der 9 geliefert.
Bei einem Ausführungsbeispiel, das diagrammmäßig in 5A dargestellt ist, ist eine Bestimmungseinheit 50 für eine Nulldurchgangsrate bei 31 gekoppelt, um die gepufferten Parameter bei 37 zu empfangen. Die Bestimmungseinheit 50 bestimmt die jeweiligen Nulldurchgangsraten der Spektrums- und Energieparameter. Das bedeutet, dass für die Folge von Energieparametern, die bei 37 gepuffert sind, und auch für die Folge von Spektrumsparametern, die bei 37 gepuffert sind, die Bestimmungseinheit 50 für eine Nulldurchgangsrate die Anzahl von Malen in der jeweiligen Sequenz bestimmt, für welche sich das Vorzeichen des zugehörigen Parameterwerts ändert, wenn man vom ersten Parameterwert zum letzten Parameterwert in der gepufferten Sequenz bzw. Folge schaut. Diese Information über eine Nulldurchgangsrate kann dann bei 56 zum Steuern des AUSWAHL-Signals der 5 verwendet werden.
Beispielsweise kann das AUSWAHL-Signal für einen gegebenen Abweichungsvektor gesteuert werden, um Komponenten x(k) des Abweichungsvektors relativ häufiger (so oft wie für jeden Frame oder jeden Unterframe) zufällig auszuwählen, wenn die zu diesem Parameter gehörende Nulldurchgangsrate relativ hoch ist (was eine relativ hohe Parametervariabilität anzeigt), und um Komponenten x(k) des Abweichungsvektors relativ weniger häufig (z. B. weniger oft als für jeden Frame oder Unterframe) zufällig auszuwählen, wenn die zugehörige Nulldurchgangsrate relativ niedrig ist (was eine relativ niedrige Parametervariabilität anzeigt). Bei anderen Ausführungsbeispielen kann die Häufigkeit einer Auswahl der Komponenten x(k) eines gegebenen Abweichungsvektors auf einen vorbestimmten, gewünschten Wert eingestellt werden.
Der Kombinierer der 4 arbeitet zum Kombinieren der skalierten Ausgabe xp(k) mit den herkömmlichen Komfortrauschparametern. Das Kombinieren wird auf einer Frame-Basis für spektrale Parameter durchgeführt, und auf einer Unterframe-Basis für Energieparameter. Bei einem Beispiel kann der Kombinierer 45 ein Addierer sein, der einfach das Signal xp(k) zu den herkömmlichen Komfortrauschparametern addiert. Die skalierte Ausgabe xp(k) der 5 kann somit derart angesehen werden, dass es ein Störsignal ist, das durch den Kombinierer 45 zum Stören der herkömmlichen Komfortrauschparameter verwendet wird, die bei 33 empfangen werden, um die modifizierten (oder gestörten) Komfortrauschparameter zu erzeugen, die zu dem Komfortrausch-Syntheseabschnitt 25 einzugeben sind (siehe 2–4).
Der herkömmliche Komfortrausch-Syntheseabschnitt 25 kann die gestörten Komfortrauschparameter auf herkömmliche Weise verwenden. Aufgrund der Störung der herkömmlichen Parameter wird das erzeugte Komfortrauschen eine semi-zufällige Variabilität aufweisen, die die wahrgenommene Qualität für veränderbarere Hintergründe, wie beispielsweise Geplapper und Straßenrauschen sowie für Autorauschen signifikant verbessert.
Das Störsignal xp(k) kann bei einem Beispiel wie folgt ausgedrückt werden: xp(k) = βx·(b0x·x(k) – a1x·γx·(xp(k – 1)),wobei β_x ein Skalierungsfaktor ist, b0_x und al_x Filterkoeffizienten sind und γ_x ein Bandbreitenexpansionsfaktor ist.
Die gestrichelte Linie in 5 stellt ein Ausführungsbeispiel dar, bei welchem die Filteroperation weggelassen ist und das Störsignal xp(k) skalierte Abweichungsvektorkomponenten aufweist.
Bei einigen Ausführungsbeispielen ist der Modifizierer 30 der 3–5 völlig innerhalb des Sprachdecodierers vorgesehen (siehe 9) und bei anderen Ausführungsbeispielen ist der Modifizierer der 3–5 zwischen dem Sprachcodierer und dem Sprachdecodierer aufgeteilt (siehe gestrichelte Linien in 9). Bei Ausführungsbeispielen, bei welchen der Modifizierer 30 völlig im Decodierer vorgesehen ist, müssen die in 3 gezeigten Hintergrundrauschparameter als solches im Decodierer identifiziert werden. Dies kann durch Puffern einer erwünschten Menge (Frames oder Unterframes) der Spektrums- und Energieparameter, die vom Codierer über den Übertragungskanal empfangen werden, bei 37 erreicht werden. Bei einem DTX-Schema kann implizite Information, die herkömmlich im Decodierer verfügbar ist, dazu verwendet werden, zu entscheiden, wenn der Puffer 37 nur Parameter enthält, die zu einem Hintergrundrauschen gehören. Beispielsweise dann, wenn der Puffer 37 N Frames puffern kann und wenn N Frames eines Überhangs hinter Sprachsegmenten verwendet werden, bevor die Übertragung für einen DTX-Mode (wie es herkömmlich ist) unterbrochen wird, ist es für diese letzten N Frames vor dem Schalten zum DTX-Mode bekannt, dass sie nur Spektrums- und Energieparameter eines Hintergrundrauschens enthalten. Diese Hintergrundrauschparameter können dann durch den Modifizierer 30 verwendet werden, wie es oben beschrieben ist.
Bei Ausführungsbeispielen, bei welchen der Modifizierer 30 zwischen dem Codierer und dem Decodierer aufgeteilt ist, können die Bestimmungseinheit 51 für eine mittlere Variabilität und die Koeffizienten-Berechnungseinheit 53 im Codierer vorgesehen sein. Somit sind die Kommunikationspfade 52 und 54 bei solchen Ausführungsbeispielen analog zu dem herkömmlichen Kommunikationspfad, der zum Übertragen von herkömmlichen Komfortrauschparametern vom Codierer zum Decodierer verwendet wird (siehe 1 und 2). Genauer gesagt gehen, wie es bei einem Beispiel der 6 gezeigt ist, die Pfade 52 und 54 durch einen Quantisierer (siehe auch 1), zu einem Kommunikationskanal (siehe auch die 1 und 2) und einem entquantisierenden Abschnitt (siehe auch 2) zu der Speichereinheit 55 bzw. zu dem Filter 57 (siehe auch 5). Wohlbekannte Techniken zur Quantisierung von skalaren Werten sowie AR-Filterkoeffizienten können in Bezug auf die Information für eine mittlere Variabilität und die AR-Filterkoeffizienten verwendet werden.
Der Codierer weiß durch eine herkömmliche Einrichtung, wenn die Spektrums- und Energieparameter eines Hintergrundrauschens zur Verarbeitung durch die Bestimmungseinheit 51 für eine mittlere Variabilität und die Koeffizienten-Berechnungseinheit 53 verfügbar sind, weil dieselben Spektrums- und Energieparameter herkömmlich durch den Codierer verwendet werden, um herkömmliche Komfortrauschparameter zu erzeugen. Herkömmliche Codierer berechnen typischerweise eine Durchschnittsenergie und ein Durchschnittsspektrum über eine Anzahl von Frames, und diese Durchschnittsspektrums- und -energieparameter werden zum Decodierer als Komfortrauschparameter übertragen. Weil die Filterkoeffizienten von der Koeffizienten-Berechnungseinheit 53 und die Abweichungsvektoren von der Bestimmungseinheit 51 für eine mittlere Variabilität vom Codierer zum Decodierer über den Übertragungskanal übertragen werden müssen, wie es in 6 gezeigt ist, ist eine zusätzliche Bandbreite erforderlich, wenn der Modifizierer zwischen dem Codierer und dem Decodierer aufgeteilt ist. Gegensätzlich dazu ist dann, wenn der Modifizierer völlig im Decodierer vorgesehen ist, keine zusätzliche Bandbreite für seine Implementierung erforderlich.
7 stellt die oben beschriebenen beispielhaften Operationen dar, die durch die Ausführungsbeispiele für einen Modifizierer der 3–5 durchgeführt werden können. Es wird bei 71 zuerst bestimmt, ob die verfügbaren Spektrums- und Energieparameter (z. B. im Puffer 37 der 3) zu einem Sprach- oder Hintergrundrauschen gehören. Wenn die verfügbaren Parameter zu einem Hintergrundrauschen gehören, dann werden Eigenschaften des Hintergrundrauschens, wie eine mittlere Variabilität und eine zeitliche Variabilität, bei 73 abgeschätzt. Danach werden die interpolierten Komfortrauschparameter bei 75 gemäß den geschätzten Eigenschaften des Hintergrundrauschens gestört. Der Störungsprozess bei 75 wird solange fortgesetzt, wie ein Hintergrundrauschen bei 77 erfasst wird. Wenn bei 77 eine Sprachaktivität erfasst wird, dann wird bei 71 auf eine Verfügbarkeit von weiteren Hintergrundrauschparametern gewartet.
8 stellt beispielhafte Operationen dar, die während des Schätzschritts 73 der 7 durchgeführt werden können. Die Verarbeitung berücksichtigt N Frames und kN Unterframes bei 81, und zwar entsprechend den vorgenannten N gepufferten Frames. Bei einem Ausführungsbeispiel gilt N = 8 und k = 4. Ein Vektor von Spektrumsabweichungen mit N Komponenten wird bei 83 erhalten und ein Vektor von Energieabweichungen mit kn Komponenten wird bei 85 erhalten. Bei 87 wird eine Komponente aus jedem der Abweichungsvektoren ausgewählt (beispielsweise zufällig). Bei 85 werden Filterkoeffizienten berechnet und die ausgewählten Vektorkomponenten werden entsprechend gefiltert. Bei 88 werden die gefilterten Vektorkomponenten skaliert, um das Störsignal zu erzeugen, das bei 75 in 7 verwendet wird. Die gestrichelte Linie in 8 entspricht den Ausführungsbeispielen für eine gestrichelte Linie der 5, das heißt den Ausführungsbeispielen, bei welchen das Filtern weggelassen ist und skalierte Abweichungsvektorkomponenten als die Störparameter verwendet werden.
9 stellt ein beispielhaftes Sprachkommunikationssystem dar, bei welchem die Ausführungsbeispiele für einen Komfortrauschparametermodifizierer der 3–8 implementiert werden können. Ein Sender XMTR enthält einen Sprachcodierer 91, der mit einem Sprachdecodierer 93 in einem Empfänger RCVR über einen Übertragungskanal 85 gekoppelt ist. Einer oder beide von dem Sender und dem Empfänger der 9 können ein Teil von beispielsweise einem Funktelefon oder einer anderen Komponente eines Funkkommunikationssystems sein. Der Kanal 95 kann beispielsweise einen Funkkommunikationskanal enthalten. Wie es in 9 gezeigt ist, können die Ausführungsbeispiele für einen Modifizierer der 3–8 im Decodierer implementiert sein, oder können zwischen dem Codierer und dem Decodierer aufgeteilt sein (siehe gestrichelte Linien), wie es oben in Bezug auf die 5 und 6 beschrieben ist.
Es wird Fachleuten auf dem Gebiet offensichtlich werden, dass die obigen Ausführungsbeispiele der 3–9 ohne weiteres beispielsweise durch geeignete Modifikationen bezüglich der Software, der Hardware oder von beiden in herkömmlichen Sprachcodecs implementiert werden können.
Die oben beschriebene Erfindung verbessert die Natürlichkeit eines Hintergrundrauschens (ohne zusätzliche Bandbreite oder Energiekosten bei einigen Ausführungsbeispielen). Dies lässt ein Umschalten zwischen Sprach- und Nichtsprachmoden in einem Sprachcodec übergangsloser und daher für das menschliche Ohr akzeptierbarer werden.
Obwohl beispielhafte Ausführungsbeispiele der vorliegenden Erfindung oben detailliert beschrieben worden sind, beschränkt dies nicht den Schutzumfang der Erfindung, die in einer Vielfalt von Ausführungsbeispielen ausgeführt werden kann.

Claims

Verfahren zum Erzeugen eines Komfortrauschens in einem Sprachdecodierer (93), der Sprach- und Rauschinformation von einem Kommunikationskanal (95) empfängt, einschließlich eines Lieferns einer Vielzahl von Komfortrausch-Parameterwerten (33), die normalerweise durch den Sprachdecodierer (93) verwendet werden, um ein Komfortrauschen zu erzeugen, und gekennzeichnet durch: Erhalten von Variabilitätsinformation (31), die eine Variabilität eines Hintergrundrauschparameters (37) anzeigt; in Reaktion auf die Variabilitätsinformation Modifizieren (30) der Komfortrausch-Parameterwerte (33), um modifizierte Komfortrausch-Parameterwerte (35) zu erzeugen; und Verwenden der modifizierten Komfortrausch-Parameterwerte (35), um ein Komfortrauschen (25) zu erzeugen, wobei die Variabilitätsinformation anzeigt, wie der Hintergrundrauschparameter in Bezug auf wenigstens einen eines Zeit- und eines Mittelwerts des Hintergrundrauschparameters variiert.
Verfahren nach Anspruch 1, wobei der Hintergrundrauschparameter (37) ein Spektrumsparameter ist.
Verfahren nach Anspruch 1, wobei der Hintergrundrauschparameter (37) ein Energieparameter ist.
Verfahren nach Anspruch 1, wobei der Erhaltungsschritt ein Erhalten von Variabilitätsinformation (31) enthält, die eine Variabilität eines Hintergrundrauschspektrumsparameters und eines Hintergrundrauschenergieparameters enthält.
Verfahren nach Anspruch 1, wobei der Erhaltungsschritt ein Berechnen aus einer Vielzahl von Werten des Hintergrundrauschparameters (37) eines Mittelwerts des Hintergrundrauschparameters (51) und ein Subtrahieren des Mittelwerts von jedem Wert für einen Hintergrundrauschparameter (37) enthält, um eine Vielzahl von Abweichungswerten (55) zu erzeugen.
Verfahren nach Anspruch 5, wobei der Modifizierungsschritt ein beliebiges Auswählen der Abweichungswerte, ein Skalieren des beliebig ausgewählten Abweichungswerts durch einen Skalierungsfaktor zum Erzeugen eines skalierten Abweichungswerts und ein Kombinieren des skalierten Abweichungswerts mit einem der Komfortrausch-Parameterwerte (33) zum Erzeugen von einem der modifizierten Komfortrausch-Parameterwerte (35) enthält.
Verfahren nach Anspruch 1, wobei der Sprachdecodierer (93) in einer Funkkommunikationsvorrichtung vorgesehen ist.
Verfahren nach Anspruch 7, wobei der Sprachdecodierer (93) in einem zellularen Telefon vorgesehen ist.
Verfahren nach Anspruch 1, wobei der Erhaltungsschritt enthält, dass der Sprachdecodierer (93) die Variabilitätsinformation (31) unabhängig von dem Kommunikationskanal (95) erhält.
Verfahren nach Anspruch 1, wobei der Erhaltungsschritt enthält, dass der Sprachdecodierer (93) die Variabilitätsinformation (31) von einem Sprachcodierer (91) über den Kommunikationskanal (95) empfängt.
Verfahren nach Anspruch 1, wobei die Variabilitätsinformation (31) eine mittlere Variabilitätsinformation enthält, die anzeigt, wie der Hintergrundrauschparameter relativ zu einem Mittelwert des Hintergrundrauschparameters (73) variiert.
Verfahren nach Anspruch 11, wobei der Erhaltungsschritt ein Verwenden einer Vielzahl von Werten des Hintergrundrauschparameters (37) zum Berechnen eines Mittelwerts des Hintergrundrauschparameters (37) über eine Zeitperiode (51) und ein Vergleichen des Mittelwerts mit wenigstens einigen der Hintergrundrauschparameterwerte (37) zum Erzeugen von mittleren entfernten Werten des Hintergrundrauschparameters enthält.
Verfahren nach Anspruch 12, wobei der Erhaltungsschritt ein Verwenden der Vielzahl von Werten des Hintergrundrauschparameters (37) zum Berechnen von Filterkoeffizienten (89) und ein Filtern von wenigstens einigen der mittleren entfernten Werte des Hintergrundrauschparameters (37) gemäß den Filterkoeffizienten enthält.
Verfahren nach Anspruch 13, wobei der zuletzt angegebene Anwendungsschritt ein Berechnen von Filterkoeffizienten eines Autoregressions-Vorhersagefilters enthält.
Verfahren nach Anspruch 11, wobei die Variabilitätsinformation (31) Zeitvariabilitätsinformation enthält, die anzeigt, wie der Hintergrundrauschparameter (37) über der Zeit variiert.
Verfahren nach Anspruch 1, wobei die Variabilitätsinformation (31) Zeitvariabilitätsinformation enthält, die anzeigt, wie der Hintergrundrauschparameter mit der Zeit variiert.
Vorrichtung zum Erzeugen von Komfortrauschparametern (33) zur Verwendung beim Erzeugen eines Komfortrauschens in einem Sprachdecodierer (93), der Sprach- und Rauschinformation von einem Kanal (95) empfängt, mit einem ersten Eingang (33) zum Liefern einer Vielzahl von Komfortrauschparameterwerten (33), die normalerweise durch den Sprachdecodierer (93) verwendet werden, um ein Komfortrauschen zu erzeugen, und einem zweiten Eingang (31) zum Liefern eines Hintergrundrauschparameters (37), und dadurch gekennzeichnet, dass sie weiterhin folgendes aufweist: einen Modifizierer (30), der mit dem ersten (33) und dem zweiten (31) Eingang gekoppelt ist und auf Variabilitätscharakteristiken des Hintergrundrauschparameters (51) zum Modifizieren der Komfortrauschparameterwerte (33) zum Erzeugen von modifizierten Komfortrauschparameterwerten (30) reagiert; und einen Ausgang (35), der mit dem Modifizierer (30) gekoppelt ist, zum Liefern der modifizierten Komfortrauschparameterwerte (30) zur Verwendung beim Erzeugen eines Komfortrauschens, wobei die Variabilitätscharakteristiken des Hintergrundrauschparameters anzeigen, wie der Hintergrundrauschparameter in Bezug auf wenigstens einen eines Zeit- und eines Mittelwerts des Hintergrundrauschparameters variiert.
Vorrichtung nach Anspruch 17, wobei der Hintergrundrauschparameter (37) ein Spektrumsparameter ist.
Vorrichtung nach Anspruch 17, wobei der Hintergrundrauschparameter (37) ein Energieparameter ist.
Vorrichtung nach Anspruch 17, wobei der Modifizierer (30) eine Variabilitätsschätzeinheit (37) enthält, die mit dem zweiten Eingang (31) gekoppelt ist und auf den Hintergrundrauschparameter (37) zum Erzeugen der Variabilitätsinformation reagiert.
Vorrichtung nach Anspruch 20, wobei die Variabilitätsabschätzeinheit eine Mittelwertsvariabilitäts-Bestimmungseinheit (51) zum Erzeugen einer Mittelwertsvariabilitätsinformation (31) enthält, die anzeigt, wie der Hintergrundrauschparameter (37) relativ zu einem Mittelwert des Hintergrundrauschparameters (37) variiert.
Vorrichtung nach Anspruch 21, wobei die Mittelwertsvariabilitäts-Bestimmungseinheit (51) im Sprachdecodierer (93) vorgesehen ist.
Vorrichtung nach Anspruch 21, wobei die Mittelwertsvariabilitäts-Bestimmungseinheit (51) in einem Sprachcodierer (91) vorgesehen ist, der betreibbar ist, um mit dem Sprachdecodierer (93) über den Kommunikationskanal (95) zu kommunizieren.
Vorrichtung nach Anspruch 21, wobei die Mittelwertsvariabilitäts-Bestimmungseinheit (51) auf eine Vielzahl von Werten des Hintergrundrauschparameters (37) reagiert, um einen Mittelwert des Hintergrundrauschparameters (37) über eine Zeitperiode (51) zu berechnen, und weiterhin betreibbar ist, um den Mittelwert mit wenigstens einigen der Hintergrundrauschparameterwerte (37) zu vergleichen, um mittlere entfernte Werte des Hinterrauschparameters (37) zu erzeugen.
Vorrichtung nach Anspruch 24, wobei die Variabilitätsinformation (31) eine Zeitvariabilitätsinformation enthält, die anzeigt, wie der Hintergrundrauschparameter (37) mit der Zeit variiert.
Vorrichtung nach Anspruch 25, wobei die Variabilitäts-Abschätzeinheit (41) eine Koeffizienten-Berechnungseinheit (53) enthält, die auf eine Vielzahl von Werten des Hintergrundrauschparameters (37) reagiert, um Filterkoeffizienten (89) zu berechnen, wobei die Zeitvariabilitätsinformation die Filterkoeffizienten enthält.
Vorrichtung nach Anspruch 26, wobei die Filterkoeffizienten Filterkoeffizienten eines Autoregressions-Vorhersagefilters sind.
Vorrichtung nach Anspruch 26, die ein Filter (57) enthält, das mit der Koeffizienten-Berechnungseinheit (53) gekoppelt ist, zum Empfangen der Filterkoeffizienten davon, und mit der Mittelwertvariabilitäts-Bestimmungseinheit (51) gekoppelt ist, zum Filtern von wenigstens einigen der mittleren entfernten Hintergrundrauschparameterwerte gemäß den Filterkoeffizienten.
Vorrichtung nach Anspruch 26, wobei die Koeffizienten-Berechnungseinheit im Sprachdecodierer vorgesehen ist.
Vorrichtung nach Anspruch 26, wobei die Koeffizienten-Berechnungseinheit (53) in einem Sprachcodierer (91) vorgesehen ist, der zur Kommunikation mit dem Sprachdecodierer (93) über den Kommunikationskanal (91) betreibbar ist.
Vorrichtung nach Anspruch 20, wobei die Variabilitätsinformation (31) Zeitvariabilitätsinformation enthält, die anzeigt, wie der Hintergrundrauschparameter über der Zeit variiert.