EP2245620A1

EP2245620A1 - Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Info

Publication number: EP2245620A1
Application number: EP09711709A
Authority: EP
Inventors: Stefan Schandl; Panji Setiawan; Herve Taddei
Original assignee: Siemens Enterprise Communications GmbH and Co KG
Current assignee: Unify GmbH and Co KG
Priority date: 2008-02-19
Filing date: 2009-02-02
Publication date: 2010-11-03
Anticipated expiration: 2029-02-02
Also published as: WO2009103610A1; KR20100123734A; CN101952887A; JP5415460B2; RU2440674C1; DE102008009718A1; KR101216496B1; DE102008009718A8; US20110004471A1; EP2245620B1; CN101952887B; JP2011515705A; US8949121B2

Abstract

Das erfinderische Verfahren sieht vor, einen Enkoder eines Sprachcodecs so auszugestalten, dass dieser nach einer bestimmten Leerlaufzeit (»Idle Period«) eine erneute Berechnung der gemittelten Energie und der Autokorrelationsfunktion vornimmt. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die im Ubertragungsnetzwerk eingestellte Leerlauf zeit.

Description

Beschreibung

Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen

Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodie- rungsverfahren .

Für Telefongespräche ist seit den Anfangen der Telekommunikation eine Bandbreitenbeschrankung für eine analoge Sprach- ubertragung vorgesehen. Die Sprachubertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.

Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschrankung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprachcodec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.

Ein schmalbandiger Sprachcodec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandi- gen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen. Weiterhin sind sogenannte breitbandige Sprachcodecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Hor- eindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprachcodec ist beispielsweise aus der ITU-T- Empfehlung G.729. EV bekannt.

Üblicherweise sind Kodierungsverfahren für breitbandige Sprachcodecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blocke enthalten, welche den schmalban- digen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfanger- seitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Daten- ubertragungskapazitaten im Ubertragungskanal eine sender- und empfangerseitige Anpassung der Datenrate und der Große von übertragenen Datenrahmen vorzunehmen.

Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der

Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfanger übertragen. Dort wird mithilfe des Codecs ein synthe- tisches Sprachsignal synthetisiert, das dem ursprunglichen

Sprachsignal hinsichtlich eines subjektiven Horeindrucks möglichst ahnlich ist. Mit Hilfe diesem auch als »Analysis-by- Synthesis« bezeichneten Verfahren werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst ubertra- gen, sondern ermittelte Parameter, die eine empfangerseitige Synthese des Sprachsignals ermöglichen.

Eine weitere Maßnahme zur Reduzierung der Datenubertragungs- rate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission) , welches in der Fachwelt auch unter dem Begriff DTX gelaufig ist. Das grundsatzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.

Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt.

Üblicherweise wird vom Empfanger wahrend einer Sprechpause keine vollige Stille erwartet. Im Gegenteil wurde eine vollige Stille empfangerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus fuhren. Aus diesem Grund wer- den Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.

Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfangers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfangerseitig noch als realistisch empfundene Synthetisierung des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet .

Gegenwartige skalierbare Kodierungsverfahren für breitbandige Sprachcodecs sehen derzeit keine Verfahren zur diskontinuierlichen Übertragung vor.

Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfangerseite (CNG Comfort Noise Generator) .

Derzeit bekannte Verfahren zur diskontinuierlichen Übertragung sehen eine Übermittlung SID-Rahmen mit aktualisierten Parametern zur Charakterisierung des Hintergrundrauschens nur dann vor, wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens wahrend einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breit- bandige Sprachcodecs, welche Verfahren zur diskontinuierlichen Übertragung unterstutzen. Üblicherweise wird bei der Entscheidung, einen SID-Rahmen mit aktualisierten Parametern zu übermitteln, ein im Dekoder spezifizierter Energiegrenzwert (Energy Threshold) herangezogen. Dies fuhrt dazu, dass bei einer Nichtuberschreitung des definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Ubertra- gungsnetzwerks zwischen Empfanger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewahrleistung einer Aufrechterhaltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusatzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll. Ein bekannter zusatzlich vorgesehener Datenaustausch erfolgt derzeit in der Weise, dass administrative Stellen im Netzwerkmanagement des Ubertragungsnetzwerks den sendenden Knoten, d.h. den sendenden Enkoder auffordern, den zuletzt uber- mittelten SID-Rahmen erneut zu übermitteln, falls die verstrichene Leerlaufzeit (»Idle Period«) zum letzten gesendeten SID-Rahmen als zu lang für die entsprechende Verbindung erachtet wird. Für eine solche erneute Übermittlung werden Parameter des erneut gesendeten SID-Rahmens nicht aktualisiert. Der Enkoder fuhrt also keine zusatzlichen Aktionen aus.

Aufgabe der Erfindung ist es, eine verbesserte Implementierung der diskontinuierlichen Übertragung in skalierbaren Sprachcodecs anzugeben.

Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost.

Ein Grundgedanke der Erfindung besteht darin, den Enkoder ei- nes Sprachcodecs so auszugestalten, dass dieser nach einer zuvor ermittelten Leerlaufzeit (»Idle Period«) eine erneute Ermittlung bzw. Berechnung von Parameter über das Hintergrundrauschen, insbesondere der gemittelten Energie und der Autokorrelationsfunktion, vornimmt. Die besagte Ermittlung der Hintergrundrauschparameter entspricht mit anderen Worten einer Enkodierung des Rauschsignals. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die im Uber- tragungsnetzwerk eingestellte Leerlaufzeit . Der Enkoder bestimmt also die Leerlaufzeit z.B. durch Anfrage administrati- ver Stellen im Ubertragungsnetzwerk. Eine solche Anfrage ist nur einmal notwendig, wenn die ermittelte Leerlaufzeit seitens des Enkoders gespeichert wird. Eine Einstellung eines zeitlichen Abstands für zu sendende SID-Rahmen gestattet es administrative Stellen im Ubertra- gungsnetzwerk, den Enkoder zu einem Senden eines aktualisierten Rahmens zu zwingen. Dies garantiert sowohl eine Aktuali- sierung zugunsten einer besseren Rekonstruktion des Hintergrundrauschens im CNG als auch ein zuverlässigeres Halten der Verbindung .

Ein Vorteil des erfindungsgemaßen Verfahrens besteht darin, dass zur Entscheidung, ob aktualisierte Hintergrundrauschparameter in Form eines aktualisierten SID-Rahmen gesendet werden sollen, kein Vergleich der Energie des Hintergrundrauschsignals mit einem Energiegrenzwert erforderlich ist. Das Verfahren spart somit Rechenressourcen gegenüber den bekannten Verfahren.

Ein weiterer Vorteil besteht darin, dass die eingestellte Zeitdauer zwischen zwei SID-Rahmen mit den Erfordernissen des jeweiligen Ubertragungsnetzwerks übereinstimmt.

Vorteilhafte Weiterbildungen und Ausgestaltungen der Erfindung sind Gegenstand der Unteranspruche .

Eine vorteilhafte Ausgestaltung der Erfindung sieht eine SID- Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent. Diese Ausgestaltung hat weiterhin den Vorteil, dass empfangerseitig bestimmt werden kann, ob ein Komfortrauschen auf Basis des breitbandigen Anteils der ubertra- genen SID-Rahmen oder auf Basis des schmalbandigen Anteils erfolgen soll. Dies ist von besonderem Vorteil für die emp- fangerseitige akustische Rezeption in einer Situation, in der die Ubertragungsrate für Sprachinformationsrahmen verringert wurde, dass nur noch schmalbandige Sprachinformationen übertragen werden. Wird nämlich, wie im derzeitigen Stand der Technik, schmalbandige Sprachinformationen in Verbindung mit breitbandigem Rauschen synthetisiert, ist dies für den Empfanger sehr irritierend. Die besagte Verringerung der Uber- tragungsrate für Sprachinformationsrahmen kann zum Beispiel durch eine hohe Auslastung (Congestion) des Netzwerks zwischen Sender und Empfanger verursacht sein. Die wesentlich kleineren SID-Rahmen sind von einem solchen Netzwerkengpass nicht betroffen. Für sie besteht also weder ein Zwang zur Re- duzierung ihrer Datenübertragungsrate noch ihres Inhalts.

Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Bestimmung der Hintergrundrauschparameter des schmalbandigen ersten Anteils des Hintergrundrauschens Energie und Au- tokorrelationsfunktion des Hintergrundrauschens ermittelt werden. Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgroßen gemäß dieser Ausfuhrungsform umfassen dabei die Energie (nicht die logarithmierte Energie) und die Autokorrelationsfunktion.

Zu Beginn eines Zeitabschnitts, welcher als inaktiv bzw. als Sprechpause klassifiziert ist, wird gemäß einer weiteren vor- teilhaften Ausgestaltung der Erfindung eine zusatzliche Uber- hangperiode (Hangover Period) eingeführt. Die neu eingeführte Uberhangperiode, im Folgenden: DTX-Uberhangperiode dient im Vergleich zur bisher bekannten VAD- Uberhangperiode (Voice Activity Detection) einem weiteren bislang unbekannten Zweck. o

Wahrend beide Arten von Uberhangperiode das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Uberhangperiode den zusatzli- chen Zweck, Informationen über das Hintergrundrauschen zu erheben .

Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass der breitbandige zweite Anteil gedampft wird. Die Dampfung des breitbandigen Anteils spielt eine Rolle bei der Dampfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enko- der .

Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass auf das gesamte Hintergrundrauschsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis Post Filter«) angewandt wird. Das »De-Emphasis Post Filter« fuhrt zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhuilende deformiert, kann diese Dampfung in vorteilhafter Weise dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfanger zu reduzieren.

Ein Ausfuhrungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung naher erläutert. Dabei zeigt die einzige FIG eine zeitliche Darstellung eines Übergangs von einem als Sprache klassifizierten zu einem als Hintergrundrauschen klassifizierten Eingangssignal an einem Dekoder .

Im Folgenden wird der der Erfindung zugrundeliegende technische Hintergrund, zunächst ohne Bezugnahme auf die Zeichnung, naher beschrieben.

Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfangerseite (CNG Comfort Noise Generator) . Wahrend der DTX/CNG-Operation müssen folgende Überlegungen berücksichtigt werden:

1. Seitens des CNG ist eine geeignete Erzeugung des Hintergrundrauschens bzw. Komfortrauschens erforderlich, welche von einem Zuhörer auf Empfangerseite als realistisch auf- gefasst werden soll. Im Falle von breitbandigen Sprachco- decs, also beispielsweise Sprachcodecs mit einer Bandbreite zwischen Frequenzen von 50 Hz und 7 kHz, wird eine Generierung eines breitbandigen Rauschens als eine Verschlechterung angesehen. Darüber hinaus ist der Charakter bzw. »die Farbe« des Hintergrundrauschens auf Dekoder- und Enkoderseite nicht immer gleich, sodass gegenwartige Losungen, welche eine Mittelwertbildung der Energie und der spektralen Einhüllenden vorsehen, eine Verfälschung der ursprunglichen Hintergrundrauschinformation bewirken.

2. Das DTX-Verfahren übermittelt nur dann aktualisierte SID- Rahmen wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens wahrend einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breitbandige Sprachcodecs, welche das DTX/CNG- Verfahren unterstutzen. Üblicherweise spielt dabei ein Energiegrenzwert (Energy Threshold) eine zentrale Rolle. Dies fuhrt dazu, dass bei einer Nichtuberschreitung eines definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Ubertragungsnetzwerks zwischen Empfanger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewahrleistung einer Aufrechter- haltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusatzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll.

Derzeit wird mit dem oben genannten Problemen wie folgt umgegangen :

Zu 1. : Die den breitbandigen Anteil betreffende Information wird in dem SID-Rahmen enkodiert. Dabei werden die gemittelte logarithmische Energie und die gemittelte Immitance Spectral Frequency (ISF) zur Beschreibung des breitbandigen Hintergrundrauschens herangezogen, z.B. in den Sprachcodecs G.722.2 und AMR-WB. Es ist dabei keine getrennte Behandlung eines unteren Teils und eines oberen Teils des breitbandigen Hinter- grundrauschens vorgesehen. Der schmalbandige Sprachcode G.729 verwendet eine gemittelte logarithmische Energie und eine gemittelte Autokorrelationsfunktion. Die Mittelungsperiode für die Energie und die Mittelungsperiode für die Autokorrelationsfunktion stimmen dabei nicht uberein.

Zu 2. : Administrative Stellen im Netzwerkmanagement fordern den sendenden Knoten, d.h. den sendenden Enkoder auf, den zuletzt übermittelten SID-Rahmen erneut zu übermitteln, falls die »Idle Period« als zu lang für die zugehörige Verbindung erachtet wird. Der erneut gesendete SID-Rahmen und die darin enthaltene Information wird daher nicht aktualisiert. Der En- koder führt also keine zusätzlichen Aktionen aus.

Das erfinderische Verfahren sieht vor, den Enkoder so auszugestalten, dass dieser nach einer bestimmten gegebenen Zeit eine erneute Berechnung der gemittelten Energie und der Autokorrelationsfunktion vornimmt. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die benötigte Id- Ie Time.

Im Folgenden werden weitere Ausführungsformen zur Generierung des SID-Rahmens beschrieben.

Eine SID-Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist, wird erzeugt. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent.

Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgrößen umfassen dabei die Energie (nicht die logarith- mierte Energie) und die Autokorrelationsfunktion. Die Autokorrelationsfunktion wird benutzt für eine spektrale Hüllkur- venpräsentation . Ein Gesamtverstärkungsfaktor kann dabei durch eine Kombination aller Verstärkungs- und Mittlungsme- thoden kompensiert werden. Die Werte für die Autokorrelationsfunktion werden durch Summierung oder Mittelwertbildung jeweils normiert (Equally Weighted) . Dies betrifft alle SID- Rahmen. Eine relativ lange Mittelung (Averaging) des schmal- bandigen Anteils fuhrt zu einer Glattung der schmalbandigen Energie und der spektralen Einhüllenden, sodass eine plötzliche Energieanderung keinen merklichen Einfluss auf die Syn- thetisierung des Komfortrauschens im Empfanger zeitigt. Dieselbe Mittelungsperiode wird sowohl für die Energie als auch zur Mittelung der spektralen Einhüllenden verwendet, nachdem ein erster SID-Rahmen nach einem Einsetzen eines Sprachsignals (Speak Burst) erzeugt wird. Diese Maßnahme sichert eine konsistentere Abschätzung des schmalbandigen Hintergrundrauschens wahrend einem Übergang von einer Sprachperiode in eine Sprechpause .

Im Folgenden wird auf die FIG Bezug genommen. Die FIG zeigt ein Sprachsignal (Speech Burst) , dass zu einem bestimmten

Zeitpunkt t einen bestimmten Signalpegel, Threshold, in der Zeichnung als strichlierte Linie dargestellt, unterschreitet. Die Ordinate ist als Pegel oder als Energiewert des Signals zu verstehen. Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten des Thresholds auf eine Sprechpause erkennt. Das VAD-Verfahren sieht eine bekannte Uberhangperiode VAD-HO vor, in welcher weiterhin aktive Sprachrahmen gesendet werden und erst nach üblicherweise zwei Rahmenlangen in einen Modus überwechselt, der eine Generierung von SID-Rahmen vorsieht.

Gemäß der hier beschriebenen Ausfuhrungsform der Erfindung wird eine zusatzliche Uberhangperiode DTX-HO eingeführt. Die neue Uberhangperiode DTX-HO schließt sich an die bislang bekannte Uberhangperiode VAD-HO an, welche als »Black Box« verwendet wird. Wahrend dieser Uberhangperiode DTX-HO wird das im Enkoder bearbeitete Signal immer noch als Sprachsignal klassifiziert, wahrend parallel dazu bereits eine Bestimmung von Hintergrundrauschparametern beginnt. Die Datenrate der Sprachkodierung ist bereits reduziert, da zu Beginn einer Sprechpause keine hochqualitative Enkodierung benotigt wird. Weiterhin wird für den schmalbandigen Anteil ein Teil der Uberhangperiode benutzt für die Mittelwertbildung des ersten SID-Rahmens . Die vorgenannten Ausfuhrungen beziehen sich vorzugsweise auf die letzten Rahmen FRAMES innerhalb einer Uberhangperiode DTX-HO, VAD-HO. Die Information der ersten Rahmen der Uberhangperiode wird dagegen vorzugsweise nicht benutzt.

Die neu eingeführte Uberhangperiode DTX-HO dient im Vergleich zur bisher von Bedurfnissen der Voice Activity Detection motivierten bekannten Uberhangperiode VAD-HO einem weiteren bislang nicht beachteten Zweck. Wahrend beide Arten von Uber- hangperioden DTX-HO, VAD-HO das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Uberhangperiode DTX-HO den zusatzlichen Zweck, Informationen über das Hintergrundrauschen zu erheben.

Bezuglich des verfolgten Ziels, eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, stellt die neue Uberhangperiode DTX-HO eine zusatzliche Versicherung dar, dass nach Ablauf der Uberhangperiode DTX-HO definitiv ein Hintergrundrauschen und keine Sprachsignale am Eingang des Dekoders anliegen. Bei einer bisherigen Verwendung der bekannten Uberhangperiode VAD-HO konnte nicht ausgeschlossen werden, dass es sich bei dem anliegenden Signal exklusiv nur um Hintergrundrauschen handelte. In der Praxis konnten wah- rend dieser bekannten Uberhangperiode VAD-HO noch Sprachanteile (Speech Bursts) auftreten. Im Übrigen dient die neue Uberhangperiode DTX-HO ausschließlich zur Anlernung des Hintergrundrauschens . Bezuglich der Wahl der Zeitdauer dieser Uberhangperioden DTX-HO, VAD-HO und damit der Wahl der Anzahl an Rahmen FRAMES ist eine vorteilhafte Einstellung z.B. so zu wählen, dass eine Zeitdauer von zwei Rahmen - vgl. gestrichelte Achse FRAMES - für die bekannte Uberhangperiode VAD-HO und eine

Zeitdauer von fünf Rahmen für die neue Uberhangperiode DTX-HO vorgesehen ist.

Im breitbandigen Anteil wird eine Energiedampfung ausgeführt. Die Dampfung des breitbandigen Anteils spielt eine Rolle bei der Dampfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enkoder.

Auf das ausgegebene Breitbandprachsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, wird eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis

Post Filter«) angewandt. Diese Filterung dampft hauptsachlich höhere Frequenzkomponenten. Das »De-Emphasis Post Filter« fuhrt weiterhin zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhüllende deformiert, kann diese Dampfung dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfanger zu reduzieren.

Claims

Patentansprüche

1. Verfahren zur Generierung von SID-Rahmen für eine diskontinuierliche Übertragung von Hintergrundrauschparametern über ein Ubertragungsnetzwerk, bei dem eine periodenweise Ermittlung von Hintergrundrauschparametern und eine auf Basis der ermittelten Hintergrundrauschparameter erfolgende Generierung und Übersendung von SID-Rahmen vorgesehen ist, wobei die Periode einer ermittelten Leerlaufzeit des Ubertra- gungsnetzwerks entspricht.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Hintergrundrauschparameter eines schmalbandigen ersten Anteils und eines breitbandigen zweiten Anteils ermittelt wer- den und dass die Generierung des SID-Rahmens mit getrennten Bereichen für den ersten und den zweiten Anteil erfolgt.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass zur Bestimmung der Hintergrundrauschparameter des schmalban- digen ersten Anteils des Hintergrundrauschens Energie und Autokorrelationsfunktion des Hintergrundrauschens ermittelt werden .

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Hintergrundrauschparameter des schmalbandigen ersten Anteils über einen Zeitraum um 100 Millisekunden gemittelt werden.

5. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass beim Übergang von einem als Sprache ka- tegorisierten Signal zu einem als Hintergrundrauschen katego- risierten Signal eine zusatzliche Uberhangperiode vorgesehen ist, wahrend der eine Bestimmung von Hintergrundrauschparametern erfolgt.

6. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass der breitbandige zweite Anteil gedämpft wird.

7. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass auf das gesamte Hintergrundrauschsignal eine nachgeschaltete Betonungsminderungsfilterung angewandt wird.

8. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7.

9. Codec nach Anspruch 8, gekennzeichnet durch eine Implementierung im an sich bekannten ITU-T Standard G.729.1.