DE102008009719A1 - Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen - Google Patents

Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen Download PDF

Info

Publication number
DE102008009719A1
DE102008009719A1 DE102008009719A DE102008009719A DE102008009719A1 DE 102008009719 A1 DE102008009719 A1 DE 102008009719A1 DE 102008009719 A DE102008009719 A DE 102008009719A DE 102008009719 A DE102008009719 A DE 102008009719A DE 102008009719 A1 DE102008009719 A1 DE 102008009719A1
Authority
DE
Germany
Prior art keywords
sid
background noise
speech
encoding
narrowband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102008009719A
Other languages
English (en)
Inventor
Stefan Schandl
Panji Setiawan
Herve Dr. Taddei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens Enterprise Communications GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications GmbH and Co KG filed Critical Siemens Enterprise Communications GmbH and Co KG
Priority to DE102008009719A priority Critical patent/DE102008009719A1/de
Priority to US12/867,969 priority patent/US20100318352A1/en
Priority to CN2009801057752A priority patent/CN101952886B/zh
Priority to KR1020107020943A priority patent/KR20100120217A/ko
Priority to RU2010138563/08A priority patent/RU2461080C2/ru
Priority to PCT/EP2009/051118 priority patent/WO2009103608A1/de
Priority to KR1020127019596A priority patent/KR101364983B1/ko
Priority to EP09711908.5A priority patent/EP2245621B1/de
Priority to JP2010547137A priority patent/JP5361909B2/ja
Publication of DE102008009719A1 publication Critical patent/DE102008009719A1/de
Priority to US14/880,490 priority patent/US20160035360A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodierungsverfahren. Ein Grundgedanke der Erfindung besteht darin, die für die Übertragung von Sprachinformationen bekannte Skalierbarkeit analog bei der Bildung eines SID-Rahmens vorzusehen. Erfindungsgemäß sind eine Enkodierung eines schmalbandigen ersten Anteils und eines breitbandigen zweiten Anteils einer Hintergrundrauschinformation und eine Bildung eines das Hintergrundrauschen beschreibenden SID-Rahmens mit getrennten Bereichen für den ersten und den zweiten Anteil vorgesehen.

Description

  • Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodierungsverfahren.
  • Für Telefongespräche ist seit den Anfängen der Telekommunikation eine Bandbreitenbeschränkung für eine analoge Sprachübertragung vorgesehen. Die Sprachübertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.
  • Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschränkung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprach-Codec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.
  • Ein schmalbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandigen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen.
  • Weiterhin sind sogenannte breitbandige Sprach-Codecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Höreindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z. B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729.EV bekannt.
  • Üblicherweise sind Kodierungsverfahren für breitbandige Sprach-Codecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blöcke enthalten, welche den schmalbandigen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfängerseitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Datenübertragungskapazitäten im Übertragungskanal eine sender- und empfängerseitige Anpassung der Datenrate und der Größe von übertragenen Datenrahmen vorzunehmen.
  • Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfänger übertragen. Dort wird mithilfe des Codecs ein synthetisches Sprachsignal synthetisiert, das dem ursprünglichen Sprachsignal hinsichtlich eines subjektiven Höreindrucks möglichst ähnlich ist. Mit Hilfe diesem auch als »Analysis-by-Synthesis« bezeichneten Verfahren werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst übertra gen, sondern ermittelte Parameter, die eine empfängerseitige Synthese des Sprachsignals ermöglichen.
  • Eine weitere Maßnahme zur Reduzierung der Datenübertragungsrate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission), welches in der Fachwelt auch unter dem Begriff DTX geläufig ist. Das grundsätzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.
  • Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt. Üblicherweise wird vom Empfänger während einer Sprechpause keine völlige Stille erwartet. Im Gegenteil würde eine völlige Stille empfängerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus führen. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.
  • Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfängers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfängerseitig noch als realistisch empfundene Synthetisierung des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet.
  • Derzeit in der Entwicklung stehende Codecs konzentrieren sich auf eine skalierbare Enkodierung der Sprachinformation. Mit Hilfe einer skalierbaren Ansatzes wird erreicht, dass das Ergebnis des Enkodiervorgangs verschiedene Blöcke enthält, welche den schmalbandigen Anteil des ursprünglichen Sprachsignals enthalten, den breitbandigen Anteil oder auch die volle Bandbreite des Sprachsignals enthalten, also z. B. einen Frequenzbereich zwischen 50 und 7000 Hz.
  • In gegenwärtigen skalierbaren Kodierungsverfahren erfolgt die Enkodierung der Hintergrundrauschinformation entweder über die gesamte Bandbreite des Eingangsrauschsignals oder über einen Ausschnitt aus der Bandbreite des Eingangsrauschsignals. Das enkodierte Rauschsignal wird in Form von SID-Rahmen über das DTX-Verfahren übertragen und empfängerseitig rekonstruiert. Das rekonstruierte, d. h. synthetisierte Komfortrauschen weist also eventuell eine andere Qualität als die empfängerseitig synthetisierte Sprachinformation auf. Dies wirkt sich nachteilig auf die Rezeption des Empfängers aus.
  • Aufgabe der Erfindung ist es, eine verbesserte Implementierung des DTX-Verfahrens in skalierbaren Sprachcodecs anzugeben.
  • Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst.
  • Ein Grundgedanke der Erfindung besteht darin, die für die Übertragung von Sprachinformationen bekannte Skalierbarkeit analog bei der Bildung eines SID-Rahmens vorzusehen.
  • Das erfindungsgemäße Verfahren zur Enkodierung eines SID-Rahmens für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungs verfahren sieht eine Enkodierung eines schmalbandigen ersten und eines breitbandigen zweiten Anteils der Hintergrundrauschinformation vor. Die Enkodierung wird üblicherweise zeitgleich und auf verschiedene Art und Weise erfolgen. Die Enkodierung eines Anteils kann jedoch selbstverständlich auch zeitlich versetzt vor oder nach einer Enkodierung eines anderen Anteils erfolgen. Ebenso kann die Enkodierung der beiden Anteile optional auch in gleicher Weise erfolgen. Nach der Enkodierung der beiden Anteile wird ein SID-Rahmen gebildet mit getrennten Bereichen für den ersten und den zweiten Anteil. Dies bedeutet mit anderen Worten, dass im SID-Rahmen ein erster Datenbereich die Daten für den enkodierten ersten Anteil aufnimmt, während ein davon getrennter zweiter Datenbereich die Daten für den enkodierten zweiten Anteil aufnimmt.
  • Ein wesentlicher Vorteil der Erfindung besteht darin, dass empfängerseitig bestimmt werden kann, ob ein Komfortrauschen auf Basis des breitbandigen Anteils der übertragenen SID-Rahmen oder auf Basis des schmalbandigen Anteils erfolgen soll. Dies ist von besonderem Vorteil für die empfängerseitige akustische Rezeption in einer Situation, in der die Übertragungsrate für Sprachinformationsrahmen verringert wurde, dass nur noch schmalbandige Sprachinformationen übertragen werden. Wird nämlich, wie im derzeitigen Stand der Technik, schmalbandige Sprachinformationen in Verbindung mit breitbandigen Rauschen synthetisiert, ist dies für den Empfänger sehr irritierend. Die besagte Verringerung der Übertragungsrate für Sprachinformationsrahmen kann zum Beispiel durch eine hohe Auslastung (Congestion) des Netzwerks zwischen Sender und Empfänger verursacht sein. Die wesentlich kleineren SID-Rahmen sind von einem solchen Netzwerkengpass nicht betroffen. Für sie besteht also weder ein Zwang zur Reduzierung ihrer Datenübertragungsrate noch ihres Inhalts.
  • Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen angegeben.
  • Gemäß einer ersten vorteilhaften Ausgestaltung der Erfindung ist vorgesehen ein dritter Anteil in der Definition des SID-Rahmens vorgesehen. Dieser enthält enkodierte Hintergrundrauschparameter, welche mit einer erhöhten Datenrate enkodiert sind, wenngleich der dritte Anteil immer noch schmalbindige Daten (erweiterte schmalbindige Daten bzw. »Enhanced Low Band«) enthält. Der Vorteil einer Definition des SID-Rahmens mit diesem dritten Anteil besteht in einer Möglichkeit, ein Rauschsignal in einer im Vergleich zur herkömmlichen schmalbindigen Kodierungsweise gesteigerten Qualität wiederzugeben und dabei noch in Konformität zum Standard G.729.B zu bleiben.
  • Ein Ausführungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung näher erläutert.
  • Dabei zeigt die einzige FIG eine Struktur eines erfindungsgemäßen SID-Rahmens.
  • Im Folgenden wird der der Erfindung zugrundeliegende technische Hintergrund, zunächst ohne Bezugnahme auf die Zeichnung, näher beschrieben.
  • In gegenwärtigen skalierbaren Kodierungsverfahren für breitbindige Sprach-Codecs implementierte Verfahren zur diskontinuierlichen Übertragung (DTX) unterstützen für die Übertragung der Hintergrundrauschinformation derzeit nicht den skalierbaren Charakter, welcher für die Übertragung der Sprachinformation vorgesehen ist.
  • Als derzeitige Umgehungslösung erfolgt eine Enkodierung entweder über die gesamte Bandbreite des Eingangsrauschsignals oder über einen Ausschnitt aus der Bandbreite des Eingangsrauschsignals. Aus diesem Grund besteht ein Bedarf für verbesserte Verfahren.
  • In der Vergangenheit wurden hauptsächlich zwei Typen von Sprachcodecs entwickelt, einerseits schmalbandige Sprachcodecs wie z. B. 3GPP AMR, ITU-T G.729 und andererseits breitbandige Sprachcodecs, wie z. B. 3GPP AMR-WB, ITU-T G.722. Ein schmalbandiger Sprachcodec enkodiert Sprachsignale mit einer Abtastfrequenz von 8 kHz mit einer Bandbreite welche üblicherweise im Frequenzbereich zwischen 300 und 3400 Hz liegt. Ein breitbandiger Sprachcodec enkodiert ein Sprachsignal mit einer Abtastfrequenz von 16 kHz bei einer Bandbreite in einem Frequenzbereich zwischen 50 und 7000 Hz.
  • Einige dieser Codecs verwenden DTX-Verfahren, also diskontinuierliche Übertragungsverfahren, um die Gesamtübertragungsrate im Kommunikationskanal zu reduzieren. Gemäß dem DTX-verfahren werden SID-Rahmen gesendet, wobei die Bandbreite der SID-Rahmen mit der Bandbreite des Sprachsignals korespondiert. In einem SID-Rahmen wird das Hintergrundrauschen während einer Sprechpause beschrieben.
  • Derzeit in der Entwicklung stehende Codecs konzentrieren sich auf eine skalierbare Kodierung. Mit Hilfe einer skalierbaren Ansatzes wird erreicht, dass das Ergebnis des Enkodiervorgangs verschiedene Blöcke enthält, welche den schmalbandigen Anteil des ursprünglichen Sprachsignals enthalten, den breitbandigen Anteil oder auch die volle Bandbreite des Sprachsignals enthalten, also z. B. einen Frequenzbereich zwischen 50 und 7000 Hz. Der breitbandige Anteil beginnt üblicherweise ab einer Frequenz von 4 kHz.
  • Die gegenwärtigen DTX-Verfahren unterstützen derzeit nicht den skalierbaren Charakter von Codecs. Stattdessen erfolgt eine Kodierung entweder über die gesamte Bandbreite des Eingangsprachsignals oder über einen Ausschnitt aus der Bandbreite des Eingangssignals. Aus diesem Grund besteht ein Bedarf für verbesserte Verfahren.
  • Zur Verdeutlichung wird im Folgenden das Enkodierverfahren gemäß ITU-T-Standards G.729.1 beschrieben. Bei diesem Codec G.729.1 handelt es sich um einen skalierbaren Sprachcodec, in welchem das DTX-Verfahren derzeit nicht skalierbar über die gesamte Bandbreite angewandt wird.
  • Das Codierverfahren lässt sich während einer aktiven Sprachperiode – in Abgrenzung zu einer als »Silent Period« erkannten Sprechpause – wie folgt charakterisieren:
    Das Sprachsignal wird in zwei Anteile, nämlich einen schmalbandigen (Lowband) Teil und einen breitbandigen (Highband) Anteil zerlegt. Beide Signale sind mit einer Abtastfrequenz von 8 kHz abgetastet. Die Aufteilung in einen schmalbandigen und einen breitbandigen Anteil erfolgt in einem speziellen Bandpassfilter, welcher auch als QMF (Quadrature Mirror Filter) bezeichnet wird.
  • Der schmalbandige Anteil des Sprachsignals wird mit einer Datenrate von 8 und 12 kbit/s enkodiert. Zur Enkodierung des Sprachsignals wird ein CELP-Verfahren (Code Excited Linear Prediction) angewandt. Für Datenraten oberhalb von 14 kbit/s wird der schmalbandige Anteil weiter unter Berücksichtigung des »Transform Codec«-Abschnitts von G.729.1 modifiziert. Der breitbandige Anteil des aktuellen Rahmens – wiederum unter der Voraussetzung, dass dieser Sprachsignale enthält – wird mit einer Datenrate von 14 kbit/s unter Anwendung des TDBWE-Verfahrens (Time Domain Bandwidth Extension) enkodiert. Für Datenrate von über 14 kbit/s wird der »Transform Codec«-Abschnitt von G.729.1 angewandt.
  • Da der Standard G.729.1 keine Verfahren zur diskontinuierlichen Übertragung bereitstellt, wird in Sprechpausen bzw. »non active voice periods« eine Umgehungslösung angewandt, welche im Folgenden beschrieben wird.
  • Das Sprachsignal wird ebenfalls in einen schmalbandigen und einen breitbandigen Anteil zerlegt, wobei beide Anteile mit einer Frequenz von 8 kHz abgetastet werden. Die Zerlegung erfolgt ebenfalls über ein QMF-Filter.
  • Der schmalbandige Anteil wird unter Verwendung einer schmalbandigen SID-Information enkodiert. Diese schmalbandige SID-Information zu einem späteren Zeitpunkt in einem SID-Rahmen, welcher kompatibel zum Standard G.729 ist, an den Empfänger gesandt. Weitere wie oben beschriebene Maßnahmen können zu einer Verbesserung des schmalbandigen SID-Anteils beitragen.
  • Der breitbandige Anteil wird unter Anwendung eines modifizierten TDBWE-Verfahrens enkodiert. Während einer sog. Überhangperiode (Hangover Period) wird das Sprachsignal weiterhin mit einer Datenrate von 14 kbit/s enkodiert, während gleichzeitig das während der Sprechpause erkannte Hintergrundrauschen ausgewertet und entsprechende Parameter eingestellt werden. Die Auswertung des Hintergrundrauschens erfolgt hinsichtlich der Energie des Rauschsignals und hinsichtlich seiner Frequenzverteilung. Im Gegensatz zu dem vom Standard G.729.1 vorgesehenen TDBWE-Verfahren wird jedoch die zeitliche Feinstruktur nicht ausgewertet, sondern lediglich ein Durchschnitt der Energie über den Rahmen gebildet.
  • Im Folgenden wird eine Ausführungsform des erfindungsgemäßen Verfahrens anhand der FIG erläutert.
  • Die FIG zeigt einen SID-Rahmen mit getrennten Bereichen für einen schmalbandigen ersten Anteil LB (»Low Band«), einen breitbandigen zweiten Anteil HB (»High Band«) und einen itermediären dritten Anteil ELB (»Enhanced Low Band«).
  • Der erste Anteil LB enthält dabei enkodierte Hintergrundrauschparameter, welche mit einer Datenrate von 8 kbit/s oder darunter enkodiert sind. Die Datenlänge des ersten Anteils LB beträgt beispielsweise 15 Bit.
  • Der zweite Anteil HB enthält enkodierte Hintergrundrauschparameter, welche mit einer Datenrate zwischen 14 kbit/s und 32 kbit/s enkodiert sind. Die Datenlänge des zweiten Anteils HB beträgt beispielsweise 19 Bit.
  • Der dritte Anteil ELB enthält enkodierte Hintergrundrauschparameter, welche mit einer Datenrate von größer als 8 kbit/s also beispielsweise 12 kbit/s enkodiert sind. Die Datenlänge des dritten Anteils ELB beträgt beispielsweise 9 Bit. Der Vorteil einer Definition des SID-Rahmens mit einem dritten Anteil ELB besteht in einer Möglichkeit, ein Rauschsignal in einer im Vergleich zur herkömmlichen schmalbandigen Kodierungsweise gesteigerten Qualität wiederzugeben und dabei noch in Konformität zum Standard G.729.B zu bleiben.
  • Während einer Sprechpause werden auf Seiten des Enkoders Charakteristika des Hintergrundrauschens angelernt. Die Charakteristika umfassen insbesondere die zeitliche Verteilung als auch die spektrale Form des Hintergrundrauschens. Für den Anlernvorgang wird ein Filterverfahren angewandt, welches zeitliche und spektrale Parameter des Hintergrundrauschens aus vorangegangenen Rahmen berücksichtigt. Ergeben sich signifikante Änderungen im Charakter oder in der Stärke des Hintergrundrauschens, wird eine Entscheidung auf Basis von Grenzwertparametern (Threshold Values) getroffen, ob ein Bedarf besteht, die angelernten Parameter zu aktualisieren.
  • Auf Seiten des Dekoders bzw. Empfängers wird folgendes Verfahren durchgeführt: Wenn ein »regulärer«, d. h. ein sprachsignalenthaltender Rahmen empfangen wird, wird die übliche Dekodierung ausgeführt. Die Datenrate für solche regulären Rahmen beträgt üblicherweise 8 kbit/s oder darüber. Wenn ein SID-Rahmen empfangen wird, wird Komfortrauschen synthetisiert, wobei im Falle eines breitbandigen SID ein breitbandiges Komfortrauschen synthetisiert und mit einem ausgelesenen Verstärkungsfaktor ausgegeben wird.
  • Im Folgenden wird das erfindungsgemäße Verfahren mit weiteren Ausgestaltungen der Erfindung beschrieben.
  • Die Ausgestaltungen betreffen weitere Details zur Einbeziehung des DTX-Verfahrens in breitbandige Codecs wie z. B. G.729.1 und weiterhin Verfahren zur Modifizierung des TDBWE-Verfahrens, welche eine Synthetisierung von Komfortrauschen während nicht-aktiver Rahmen (Non Active Frames), d. h. Rahmen ohne Sprachinformation, unterstützen.
  • Gemäß einer Ausgestaltung ist folgendes Vorgehen vorgesehen.
    • – Produzieren einer schmalbandigen SID-Information zur Erzeugung eines G.729- bzw. G.729.B- kompatiblen SID-Rahmens (erster Anteil LB des erfindungsgemäßen SID-Rahmens)
    • – Produzieren einer breitbandigen SID-Information unter Verwendung eines modifizierten TDBWE-Verfahrens (zweiter Anteil HB des erfindungsgemäßen SID-Rahmens)
    • – Optional werden Verbesserungen bezüglich der schmalbandigen und/oder der breitbandigen SID-Informationen vorgenommen.
    • – Das Hintergrundrauschen wird während einer Phase, welche einem Senden der ersten SID-Rahmen vorausgeht, bezüglich der Energie- und/oder Frequenzverteilung analysiert bzw. »angelernt«.
    • – SID-Rahmen werden gesendet, wenn eine signifikante Änderung des breitbandigen Anteils des Hintergrundrauschens detektiert wird oder wenn eine Aktualisierung der schmalbandigen SID-Informationen gesendet werden soll.
  • Eine Implementierung dieses Ausführungsbeispiels erfolgt in folgenden Phasen:
    • – Mit Hilfe eines VAD-Verfahrens wird eine aktive Sprachphase bzw. eine Sprechpause definiert.
    • – Wird durch das VAD-Verfahren ein Wechsel in eine Sprechpause angezeigt, wird eine Überhangperiode (Hang Over Period) gestartet. Während der Überhangperiode wird die Datenrate des Enkodierers auf 14 kbit/s reduziert, wenn die vorhergehende Datenrate einen höheren Wert aufgewiesen hat. Für den Fall dass die vorhergehende Datenrate des Enkodierers bereits Werte um 12 kbit/s betragen hat, wird die Datenrate auf einen Wert von 8 kbit/s reduziert.
    • – Während der Überhangperiode wird das Hintergrundrauschen bezüglich des schmalbandigen Anteils in analoger Weise zum Vorgehen in Standard G.729 angelernt, jedoch unter Verwendung einer höheren Anzahl von Rahmen. Hierbei kann optional ein Filterverfahren angewandt werden, durch welches erreicht wird, dass aktuellen Rahmen eine höhere Wichtigkeit zugeordnet wird als vorausgegangenen Rahmen.
    • – Während der Überhangperiode wird das Hintergrundrauschen darüber hinaus im breitbandigen Anteil angelernt. Optional wird für eine Vereinfachung der Implementierung, insbesondere zur Reduzierung des Speicherplatzbedarfs, ein modifiziertes TDBWE-Verfahren eingesetzt, welche durch eine vereinfachte Enkodierung im Zeitbereich gekennzeichnet ist. Optional kann eine weitere Vereinfachung im modifizierten TDBWE-Verfahren dadurch erreicht werden, dass die Enkodierung im Zeitbereich nur mit der Energie des Signals im Zeitbereich korrespondiert. Eine weitere optionale vereinfachte Enkodierung besteht darin, spektrale Glättungsverfahren anzuwenden, da die Energie im Zeitbereich und im Frequenzbereich als Folge des Parsevaltheorems gleich Werte liefert. Auch im breitbandigen Anteil des Hintergrundrauschens können optional weitere Filterungsmaßnahmen angewandt werden, welche das Ziel haben, aktuellen Rahmen eine höhere Wichtigkeit als vorausgegangenen Rahmen zuzuordnen.
    • – Nach Beendigung der Überhangperiode wird ein erster SID-Rahmen gesendet, welche eine grobe Repräsentierung des Hintergrundrauschens enthält. Die grobe Beschreibung des Hintergrundrauschens wurde während der Überhangperiode angelernt.
    • – Solange durch die VAD keine aktive Phase (sprechen) detektiert wurde, wird auf Seiten des Dekoders bzw. Empfängers ein Komfortrauschen auf Basis der empfangenen SID-Rahmen synthetisiert.
    • – Änderungen des Hintergrundrauschens werden im schmalbandigen Anteil des SID-Rahmens detektiert, wobei ein ähnliches Verfahren zu G.729 verfolgt wird, wenngleich verschiedene Parameter berücksichtigt werden.
    • – Im breitbandigen Anteil werden gefilterte Energieparameter zur Beschreibung des Hintergrundrauschens benutzt. Diese umfassen z. B. Parameter von Einhüllkurven im Zeitbereich tenv_fidx und/oder Parameter von Einhüllkurven im Frequenzbereich fenv_fidx[i], wobei ein jeweiliger Index idx einen jeweiligen Rahmen identifiziert und wobei die Einhüllkurve im Frequenzbereich von einer geeigneten Anzahl von Frequenzwerten i = {1, ..., NB-SUBBANDS} zur Beschreibung der spektralen Eigenschaften des Hintergrundrauschens gebildet wird. Die gefilterten Energieparameter werden von den in G.729.1 definierten TDBWE-Parameter abgeleitet unter Verwendung geeigneter Tiefpassfilterq: tenv_fidx = αtenv·tenvidx + (1 – αtenv)·tenv_fidx-1 fenv_fidx[i] = αtenv·fenvidx[i] + (1 – αtenv)·fenv_fidx-1[i]Welche auf die Einhüllparameter im Frequenz- und im Zeitbereich entsprechend angewandt werden.
    • – Änderungen im breitbandigen Anteil der Energieparameter werden überwacht und detektiert, indem die gefilterten Energieparameter des gegenwärtigen Rauschsignals verglichen werden mit zwei Sätzen aus Vergleichswerten dieser Parameter, wobei ein Satz von Vergleichswerten die Para meter aus dem vorangegangenem Rahmen mit dem Index idx – 1 ist.
      Figure 00150001
      Und wobei der andere Satz aus Parametern des zuletzt übertragenen Rahmens mit dem Index last_tx besteht. Wenn einer der Parameterunterschiede (temp_d, spec_d, temp_ch, spec_ch) einen geeignet gewählten Grenzwert überschreitet:
      Figure 00150002
      muss ein neuer SID-Update-Rahmen gesendet werden.
    • – Sobald durch die VAD eine Sprachperiode erkannt wird, wird das Sprachsignal mit der benötigten Übertragungsrate übertragen und die Synthetisierung von Komfortrauschen auf der Dekoderseite beendet. Somit stellt sich ein regulärer Dekodierungsbetrieb ein wie in G.729.1.

Claims (7)

  1. Verfahren zur Enkodierung eines SID-Rahmens (SID) für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungsverfahren mit folgenden Schritten: Enkodierung eines schmalbandigen ersten Anteils (LB) und eines breitbandigen zweiten Anteils (HB) der Hintergrundrauschinformation; Bildung des SID-Rahmens (SID) mit getrennten Bereichen für den ersten (LB) und den zweiten (HB) Anteil.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein erweiterter schmalbandiger dritter Anteil (ELB) enkodiert wird und dass die Bildung des SID-Rahmens mit einem zusätzlichen getrennten Bereich für den dritten Anteil (ELB) gebildet wird.
  3. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass der erste Anteil (LB) der Hintergrundrauschinformation gemäß Kodierungsrichtlinien des an sich bekannten Standards G.729.B enkodiert werden.
  4. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass der zweite Anteil (HB) der Hintergrundrauschinformation gemäß eines modifizierten TDBWE-Verfahrens enkodiert wird.
  5. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass Während einer Überhangperiode Filterverfahren zur Zuordnung einer höheren Wichtigkeit eines aktuellen Rahmens als vorausgegangenen Rahmen angewandt werden.
  6. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5.
  7. Codec nach Anspruch 6, gekennzeichnet durch eine Implementierung im an sich bekannten ITU-T Standard G.729.1.
DE102008009719A 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen Withdrawn DE102008009719A1 (de)

Priority Applications (10)

Application Number Priority Date Filing Date Title
DE102008009719A DE102008009719A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
PCT/EP2009/051118 WO2009103608A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
CN2009801057752A CN101952886B (zh) 2008-02-19 2009-02-02 用于对背景噪声信息进行编码的方法和装置
KR1020107020943A KR20100120217A (ko) 2008-02-19 2009-02-02 배경 잡음 정보를 인코딩하는 방법 및 수단
RU2010138563/08A RU2461080C2 (ru) 2008-02-19 2009-02-02 Способ и средство для кодирования информации фонового шума
US12/867,969 US20100318352A1 (en) 2008-02-19 2009-02-02 Method and means for encoding background noise information
KR1020127019596A KR101364983B1 (ko) 2008-02-19 2009-02-02 Sid 프레임을 인코딩하기 위한 방법
EP09711908.5A EP2245621B1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
JP2010547137A JP5361909B2 (ja) 2008-02-19 2009-02-02 背景ノイズ情報を符号化する方法および手段
US14/880,490 US20160035360A1 (en) 2008-02-19 2015-10-12 Method and Means of Encoding Background Noise Information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102008009719A DE102008009719A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen

Publications (1)

Publication Number Publication Date
DE102008009719A1 true DE102008009719A1 (de) 2009-08-20

Family

ID=40652248

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102008009719A Withdrawn DE102008009719A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen

Country Status (8)

Country Link
US (2) US20100318352A1 (de)
EP (1) EP2245621B1 (de)
JP (1) JP5361909B2 (de)
KR (2) KR20100120217A (de)
CN (1) CN101952886B (de)
DE (1) DE102008009719A1 (de)
RU (1) RU2461080C2 (de)
WO (1) WO2009103608A1 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483495B (zh) 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
CA2895391C (en) 2012-12-21 2019-08-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
RU2650025C2 (ru) * 2012-12-21 2018-04-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Генерирование комфортного шума с высоким спектрально-временным разрешением при прерывистой передаче аудиосигналов
KR101775086B1 (ko) * 2013-01-29 2017-09-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법
CN106169297B (zh) 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
BR112015031180B1 (pt) * 2013-06-21 2022-04-05 Fraunhofer- Gesellschaft Zur Förderung Der Angewandten Forschung E.V Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
EP2980790A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Komfortgeräuscherzeugungs-Modusauswahl
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
RU2237296C2 (ru) * 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
JP3761795B2 (ja) * 2000-04-10 2006-03-29 三菱電機株式会社 ディジタル回線多重化装置
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US20030112758A1 (en) * 2001-12-03 2003-06-19 Pang Jon Laurent Methods and systems for managing variable delays in packet transmission
RU2331933C2 (ru) * 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
EP1808852A1 (de) * 2002-10-11 2007-07-18 Nokia Corporation Verfahren zur Interoperation zwischen adaptiven Breitband-Codecs mit unterschiedlichen Raten und Breitband-Codecs mit mehreren Betriebsarten und variabler Bitrate
US7391768B1 (en) * 2003-05-13 2008-06-24 Cisco Technology, Inc. IPv4-IPv6 FTP application level gateway
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
EP1768106B8 (de) * 2004-07-23 2017-07-19 III Holdings 12, LLC Audiokodierungsvorrichtung und -methode
US20060149536A1 (en) * 2004-12-30 2006-07-06 Dunling Li SID frame update using SID prediction error
CN101151840B (zh) * 2005-01-10 2011-09-21 四次方有限公司 用于依据指令处理媒体的单芯片媒体处理器
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
ES2629727T3 (es) * 2005-06-18 2017-08-14 Nokia Technologies Oy Sistema y método para la transmisión adaptativa de parámetros de ruido de confort durante la transmisión de habla discontinua
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US7796626B2 (en) * 2006-09-26 2010-09-14 Nokia Corporation Supporting a decoding of frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
BRPI0818927A2 (pt) * 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Also Published As

Publication number Publication date
CN101952886B (zh) 2013-03-06
EP2245621A1 (de) 2010-11-03
KR101364983B1 (ko) 2014-02-20
JP2011512563A (ja) 2011-04-21
JP5361909B2 (ja) 2013-12-04
KR20100120217A (ko) 2010-11-12
RU2461080C2 (ru) 2012-09-10
KR20120089378A (ko) 2012-08-09
US20100318352A1 (en) 2010-12-16
CN101952886A (zh) 2011-01-19
US20160035360A1 (en) 2016-02-04
WO2009103608A1 (de) 2009-08-27
EP2245621B1 (de) 2019-05-01
RU2010138563A (ru) 2012-04-10

Similar Documents

Publication Publication Date Title
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE60117471T2 (de) Breitband-signalübertragungssystem
DE69721349T2 (de) Sprachkodierung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
EP3217583B1 (de) Decodierer und verfahren zum decodieren einer folge von datenpaketen
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
EP1979899A1 (de) Verfahren und anordnungen zur audiosignalkodierung
EP1327243A1 (de) Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms
EP1677286A1 (de) Verfahren zur Anpassung von Comfort Noise Generation Parametern
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
DE202015009942U1 (de) Codier-/Decodiervorrichtung und -system
DE2303497C2 (de) Verfahren zur Übertragung von Sprachsignalen
DE69921643T2 (de) Av-signalübertragung mit variabler bitrate in einem paketnetz
EP1390946B1 (de) Verfahren zur schätzung eines codecparameters
DE69834993T2 (de) Sprachübertragungssystem
DE69836454T2 (de) Kommunikationsnetzwerk zur übertragung von sprachsignalen
WO2006072526A1 (de) Verfahren zur bandbreitenerweiterung
DE102005000828A1 (de) Verfahren zum Codieren eines analogen Signals
DE19906223B4 (de) Verfahren und Funk-Kommunikationssystem zur Sprachübertragung, insbesondere für digitale Mobilkummunikationssysteme
DE4239506A1 (de) Verfahren zur bitratenreduzierenden Quellcodierung für die Übertragung und Speicherung von digitalen Tonsignalen
CH680030A5 (de)
EP1390947A2 (de) Verfahren zum signalempfang in einem digitalen kommunikationssystem

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee