EP2245620A1 - Verfahren und mittel zur enkodierung von hintergrundrauschinformationen - Google Patents

Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Info

Publication number
EP2245620A1
EP2245620A1 EP09711709A EP09711709A EP2245620A1 EP 2245620 A1 EP2245620 A1 EP 2245620A1 EP 09711709 A EP09711709 A EP 09711709A EP 09711709 A EP09711709 A EP 09711709A EP 2245620 A1 EP2245620 A1 EP 2245620A1
Authority
EP
European Patent Office
Prior art keywords
background noise
speech
period
narrowband
broadband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP09711709A
Other languages
English (en)
French (fr)
Other versions
EP2245620B1 (de
Inventor
Stefan Schandl
Panji Setiawan
Herve Taddei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens Enterprise Communications GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications GmbH and Co KG filed Critical Siemens Enterprise Communications GmbH and Co KG
Publication of EP2245620A1 publication Critical patent/EP2245620A1/de
Application granted granted Critical
Publication of EP2245620B1 publication Critical patent/EP2245620B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Definitions

  • the invention relates to methods and means for encoding background noise information in speech signal coding methods.
  • Such a limited frequency range is also provided in many speech signal coding methods for today's digital telecommunications.
  • a bandwidth limitation of the analog signal Prior to a coding process, a bandwidth limitation of the analog signal is performed for this purpose.
  • a codec is used which, due to the described bandwidth limitation in the frequency range between 300 Hz and 3400 Hz, is also referred to below as narrow-band speech codec (Narrow Band Speech Codec).
  • the term codec is understood to mean both the coding rule for the digital coding of audio signals and the decoding rule for the decoding of data with the aim of reconstructing the audio signal.
  • a narrowband speech codec is known, for example, from ITU-T Recommendation G.729.
  • a transmission of a narrow-band voice signal with a data rate of 8 kbit / s is provided.
  • so-called broadband speech codecs Wide Band Speech Codec
  • Such an extended frequency range is, for example, between a frequency of 50 Hz and 7000 Hz.
  • a broadband voice codec is for example from the ITU-T Recommendation G.729. EV known.
  • coding methods for broadband speech codecs are made scalable.
  • Scalability means that the transmitted coded data contain various demarcated blocks which contain the narrowband component, the broadband component and / or the full bandwidth of the coded voice signal.
  • such a scalable design allows for backwards compatibility on the receiver side and, on the other hand, offers a simple possibility of adapting the data rate and the size of transmitted data frames in the transmission channel in the case of limited data transmission capacities.
  • a compression of the data to be transmitted is usually provided. Compression is achieved, for example, by coding methods, for coding the
  • Speech data parameters for an excitation signal and filter parameters are determined.
  • the filter parameters and the excitation signal specifying parameters are then transmitted to the receiver.
  • a synthetic speech signal is synthesized using the codec, which is the original one
  • Speech signal is as similar as possible in terms of a subjective Horeindrucks.
  • analysis-by-synthesis the determined and digitized samples are not themselves transmitted. but determined parameters that enable a receiver-side synthesis of the speech signal.
  • a further measure for reducing the data transmission rate is provided by a method for discontinuous transmission (Discontinuous Transmission), which is also known in the art as DTX.
  • DTX discontinuous Transmission
  • the basic goal of DTX is to reduce the data transfer rate in the event of a speech break.
  • a pause detection (Voice Activity Detection, VAD) is used on the part of the transmitter, which recognizes when a certain signal level falls below a speech break.
  • VAD Voice Activity Detection
  • Comfort noise is noise that is synthesized to fill silence phases on the receiver's side.
  • the comfort noise serves as a subjective impression of a continuing connection, without claiming the data transmission rate intended for the transmission of speech signals. In other words, less effort is required to code the speech data for the transmitter-side coding of the noise. For a receiver-side still perceived as realistic synthesizing the comfort noise data are transmitted at a much lower data rate.
  • the data transmitted here will be Also referred to in the art as SID (Silence Insertion Description).
  • discontinuous transmission methods provide for transmission of SID frames with updated background noise characterization parameters only when significant changes in background noise energy are detected by the encoder during an inactive speech period (speech pause). This applies to both narrowband (50Hz to 4kHz) and wide band voice codecs which support discontinuous transmission techniques.
  • an Energy Threshold specified in the decoder is used. This will result in no SID frames being sent if the defined energy limit is not exceeded.
  • a suspension of the transmission of SID frames is regarded as idle or idle channel.
  • additional data exchange may be required to indicate that the connection is to be maintained.
  • a known additional data exchange is currently taking place in such a way that administrative bodies in the network management of the transmission network request the transmitting node, ie the sending encoder, to transmit the last transmitted SID frame again, if the elapsed idle period to the last sent SID frame is considered too long for the corresponding connection. For such retransmission, parameters of the retransmitted SID frame are not updated.
  • the encoder does not perform any additional actions.
  • the object of the invention is to provide an improved implementation of the discontinuous transmission in scalable speech codecs.
  • a basic idea of the invention is to design the encoder of a speech codec in such a way that, after a previously determined idle period, it carries out a new determination or calculation of parameters via the background noise, in particular the averaged energy and the autocorrelation function , Said determination of the background noise parameters in other words corresponds to an encoding of the noise signal.
  • Administrative authorities in the network inform the encoder about the idle time set in the transmission network.
  • the encoder thus determines the idle time eg by requesting administrative digits in the transmission network. Such a request is necessary only once if the determined idle time is stored by the encoder. Setting a time interval for SID frames to be sent allows administrative authorities in the transmission network to force the encoder to send an updated frame. This guarantees both an update in favor of a better reconstruction of background noise in the CNG as well as a more reliable hold of the connection.
  • An advantage of the inventive method is that in order to decide whether to send updated background noise parameters in the form of an updated SID frame, no comparison of the energy of the background noise signal with an energy limit is required.
  • the method thus saves computational resources compared with the known methods.
  • Another advantage is that the set time duration between two SID frames complies with the requirements of the respective transmission network.
  • An advantageous embodiment of the invention provides a SID structure (SID Bitstream Structure) in which the narrowband portion of the background noise information is separated from the broadband portion of the background noise information.
  • SID Bitstream Structure SID Bitstream Structure
  • Separate handling of narrowband and broadband background noise information in a SID frame enables separate encoding of the narrowband and wideband portions of the background noise and makes the processing transparent.
  • This refinement furthermore has the advantage that it can be determined on the receiver side whether a comfort noise on the basis of the broadband component of the transmission SID framework or on the basis of the narrowband share. This is of particular advantage for the receiver-side acoustic reception in a situation in which the transmission rate for speech information frames has been reduced so that only narrowband speech information is transmitted.
  • An advantageous embodiment of the invention provides that for determining the background noise parameters of the narrow-band first portion of the background noise, energy and auto-correlation function of the background noise are determined.
  • the narrowband portion requires averaging over a relatively long period of speech break, in practice over a period of e.g. 100 ms.
  • the calculation quantities used according to this embodiment include the energy (not the logarithmized energy) and the autocorrelation function.
  • an additional hangover period is introduced.
  • the newly introduced overhang period in the following: DTX overhang period serves another previously unknown purpose compared to the previously known VAD overhang period (Voice Activity Detection).
  • the DTX overhang period While both types of hangover period aim to identify multiple frames as active speech frames and thus avoid misclassification at the end of a speech signal, the DTX overhang period has the additional purpose of gathering information about the background noise.
  • An advantageous embodiment of the invention provides that the broadband second portion is evaporated.
  • the attenuation of the broadband component plays a role in the attenuation of the entire energy component in the broadband component. This measure is necessary due to the fact that the generator for generating (synthesizing) the comfort noise in the decoder is unable to produce the same noise characteristics as the original background noise in the encoder.
  • An advantageous embodiment of the invention provides that is applied to the entire background noise signal, ie the combination of broadband and narrowband portion, a downstream emphasis reduction filter ("De-emphasis Post Filter").
  • the De-Emphasis Post Filter leads to a de-emphasis of energy and higher frequency components. Since the averaging deforms the spectral envelope in a certain way, this attenuation can advantageously contribute to reducing the disturbing effect of a disturbed wideband noise on a human receiver.
  • the single FIGURE shows a temporal representation of a transition from a classified as a speech to a classified as background noise input signal to a decoder.
  • the DTX method transmits updated SID frames only when the encoder detects significant changes in background noise energy during an inactive speech period (silence). This affects both narrowband (50Hz to 4kHz) as also broadband speech codecs which support the DTX / CNG method.
  • an energy limit (Energy Threshold) plays a central role. This leads to the fact that if a defined energy limit value is not exceeded no SID frames are sent.
  • To maintain a connection (“Connection Alive"), additional data exchange may be required to indicate that the connection is to be maintained.
  • Re 1 The information concerning the broadband component is encoded in the SID frame.
  • the averaged logarithmic energy and the averaged Immitance Spectral Frequency (ISF) are used to describe broadband background noise, e.g. in the speech codecs G.722.2 and AMR-WB. There is no separate treatment of a lower part and an upper part of the broadband background noise provided.
  • the G.729 narrowband language code uses averaged logarithmic energy and an averaged autocorrelation function. The averaging period for the energy and the averaging period for the autocorrelation function are not identical.
  • Ad 2 Administrative authorities in the network management request the sending node, ie the sending encoder, to transmit the last transmitted SID frame again if the "idle period" is too long for the associated connection is considered. The resent SID frame and the information contained therein will therefore not be updated. The encoder does not perform any additional actions.
  • the inventive method provides for designing the encoder so that it recalculates the averaged energy and the autocorrelation function after a certain given time. Administrative authorities in the network inform the encoder about the required idle time.
  • SID SID Bitstream Structure
  • the calculation quantities used include the energy (not the logarithmized energy) and the autocorrelation function.
  • the autocorrelation function is used for a spectral envelope presentation.
  • An overall amplification factor can be compensated by a combination of all amplification and averaging methods.
  • the values for the autocorrelation function are normalized by summing or averaging (Equally Weighted). This concerns all SID Frame.
  • a relatively long averaging of the narrow-band component leads to a smoothing of the narrow-band energy and the spectral envelope, so that a sudden change in energy does not have a noticeable effect on the synthesizing of the comfort noise in the receiver.
  • the same averaging period is used for both energy and averaging of the spectral envelope after a first SID frame is generated after a Speak Burst is applied. This measure ensures a more consistent estimation of the narrowband background noise during a transition from a speech period to a speech pause.
  • FIG. 1 shows a speech signal (Speech Burst) that results in a particular
  • a certain signal level, Threshold shown in the drawing as a dashed line, falls below.
  • the ordinate is to be understood as the level or energy value of the signal.
  • a pause detection (Voice Activity Detection, VAD) is used on the part of the transmitter, which detects when the threshold falls below a speech break.
  • VAD Voice Activity Detection
  • the VAD method provides a known overhead period VAD-HO in which active voice frames are still transmitted and only after typically two frame lengths are transitioned to a mode which provides for generation of SID frames.
  • an additional overhang period DTX-HO is introduced.
  • the new overhang period DTX-HO follows the hitherto known overhang period VAD-HO, which is used as a "black box".
  • VAD-HO hitherto known overhang period
  • the signal processed in the encoder is still classified as a speech signal, while in parallel there is already a determination starts from background noise parameters.
  • the data rate of the speech coding is already reduced, since no high-quality encoding is needed at the beginning of a speech break.
  • a portion of the overhang period is used for averaging the first SID frame.
  • the above-mentioned embodiments preferably relate to the last frames FRAMES within a overhang period DTX-HO, VAD-HO.
  • the information of the first frames of the overhang period is preferably not used.
  • the newly introduced overhanging period DTX-HO serves a further hitherto unnoticed purpose in comparison to the known overhang period VAD-HO, which was previously motivated by the needs of Voice Activity Detection. While both types of hangover periods DTX-HO, VAD-HO aim to identify multiple frames as active speech frames and thus avoid misclassification at the end of a speech signal, DTX-HO has the additional purpose of providing information to raise above the background noise.
  • the new overhang period DTX-HO provides additional assurance that after the lapse of the overdrive period DTX-HO there will definitely be background noise and no speech at the decoder's input.
  • the known overhang period VAD-HO it could not be ruled out that the applied signal was exclusively background noise.
  • speech components speech bursts
  • the new overhang period DTX-HO serves exclusively for learning the background noise.
  • an advantageous setting is to be selected, for example, such that a time period of two frames - cf. dashed axis FRAMES - for the known overhang period VAD-HO and a
  • Period of five frames is provided for the new overhang period DTX-HO.
  • the attenuation of the broadband component plays a role in the attenuation of the entire energy component in the broadband component. This measure is necessary due to the fact that the generator for generating (synthesizing) the comfort noise in the decoder is unable to produce the same noise characteristics as the original background noise in the encoder.
  • This filtering mainly vaporizes higher frequency components.
  • the De-Emphasis Post Filter continues to de-emphasis the energy and higher frequency components. Since averaging deforms the spectral envelope in some way, this attenuation can help to reduce the disturbing effect of a disturbed wideband noise on a human receiver.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Das erfinderische Verfahren sieht vor, einen Enkoder eines Sprachcodecs so auszugestalten, dass dieser nach einer bestimmten Leerlaufzeit (»Idle Period«) eine erneute Berechnung der gemittelten Energie und der Autokorrelationsfunktion vornimmt. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die im Ubertragungsnetzwerk eingestellte Leerlauf zeit.

Description

Beschreibung
Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodie- rungsverfahren .
Für Telefongespräche ist seit den Anfangen der Telekommunikation eine Bandbreitenbeschrankung für eine analoge Sprach- ubertragung vorgesehen. Die Sprachubertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.
Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschrankung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprachcodec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.
Ein schmalbandiger Sprachcodec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandi- gen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen. Weiterhin sind sogenannte breitbandige Sprachcodecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Hor- eindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprachcodec ist beispielsweise aus der ITU-T- Empfehlung G.729. EV bekannt.
Üblicherweise sind Kodierungsverfahren für breitbandige Sprachcodecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blocke enthalten, welche den schmalban- digen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfanger- seitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Daten- ubertragungskapazitaten im Ubertragungskanal eine sender- und empfangerseitige Anpassung der Datenrate und der Große von übertragenen Datenrahmen vorzunehmen.
Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der
Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfanger übertragen. Dort wird mithilfe des Codecs ein synthe- tisches Sprachsignal synthetisiert, das dem ursprunglichen
Sprachsignal hinsichtlich eines subjektiven Horeindrucks möglichst ahnlich ist. Mit Hilfe diesem auch als »Analysis-by- Synthesis« bezeichneten Verfahren werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst ubertra- gen, sondern ermittelte Parameter, die eine empfangerseitige Synthese des Sprachsignals ermöglichen.
Eine weitere Maßnahme zur Reduzierung der Datenubertragungs- rate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission) , welches in der Fachwelt auch unter dem Begriff DTX gelaufig ist. Das grundsatzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.
Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt.
Üblicherweise wird vom Empfanger wahrend einer Sprechpause keine vollige Stille erwartet. Im Gegenteil wurde eine vollige Stille empfangerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus fuhren. Aus diesem Grund wer- den Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.
Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfangers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfangerseitig noch als realistisch empfundene Synthetisierung des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet .
Gegenwartige skalierbare Kodierungsverfahren für breitbandige Sprachcodecs sehen derzeit keine Verfahren zur diskontinuierlichen Übertragung vor.
Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfangerseite (CNG Comfort Noise Generator) .
Derzeit bekannte Verfahren zur diskontinuierlichen Übertragung sehen eine Übermittlung SID-Rahmen mit aktualisierten Parametern zur Charakterisierung des Hintergrundrauschens nur dann vor, wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens wahrend einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breit- bandige Sprachcodecs, welche Verfahren zur diskontinuierlichen Übertragung unterstutzen. Üblicherweise wird bei der Entscheidung, einen SID-Rahmen mit aktualisierten Parametern zu übermitteln, ein im Dekoder spezifizierter Energiegrenzwert (Energy Threshold) herangezogen. Dies fuhrt dazu, dass bei einer Nichtuberschreitung des definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Ubertra- gungsnetzwerks zwischen Empfanger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewahrleistung einer Aufrechterhaltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusatzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll. Ein bekannter zusatzlich vorgesehener Datenaustausch erfolgt derzeit in der Weise, dass administrative Stellen im Netzwerkmanagement des Ubertragungsnetzwerks den sendenden Knoten, d.h. den sendenden Enkoder auffordern, den zuletzt uber- mittelten SID-Rahmen erneut zu übermitteln, falls die verstrichene Leerlaufzeit (»Idle Period«) zum letzten gesendeten SID-Rahmen als zu lang für die entsprechende Verbindung erachtet wird. Für eine solche erneute Übermittlung werden Parameter des erneut gesendeten SID-Rahmens nicht aktualisiert. Der Enkoder fuhrt also keine zusatzlichen Aktionen aus.
Aufgabe der Erfindung ist es, eine verbesserte Implementierung der diskontinuierlichen Übertragung in skalierbaren Sprachcodecs anzugeben.
Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost.
Ein Grundgedanke der Erfindung besteht darin, den Enkoder ei- nes Sprachcodecs so auszugestalten, dass dieser nach einer zuvor ermittelten Leerlaufzeit (»Idle Period«) eine erneute Ermittlung bzw. Berechnung von Parameter über das Hintergrundrauschen, insbesondere der gemittelten Energie und der Autokorrelationsfunktion, vornimmt. Die besagte Ermittlung der Hintergrundrauschparameter entspricht mit anderen Worten einer Enkodierung des Rauschsignals. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die im Uber- tragungsnetzwerk eingestellte Leerlaufzeit . Der Enkoder bestimmt also die Leerlaufzeit z.B. durch Anfrage administrati- ver Stellen im Ubertragungsnetzwerk. Eine solche Anfrage ist nur einmal notwendig, wenn die ermittelte Leerlaufzeit seitens des Enkoders gespeichert wird. Eine Einstellung eines zeitlichen Abstands für zu sendende SID-Rahmen gestattet es administrative Stellen im Ubertra- gungsnetzwerk, den Enkoder zu einem Senden eines aktualisierten Rahmens zu zwingen. Dies garantiert sowohl eine Aktuali- sierung zugunsten einer besseren Rekonstruktion des Hintergrundrauschens im CNG als auch ein zuverlässigeres Halten der Verbindung .
Ein Vorteil des erfindungsgemaßen Verfahrens besteht darin, dass zur Entscheidung, ob aktualisierte Hintergrundrauschparameter in Form eines aktualisierten SID-Rahmen gesendet werden sollen, kein Vergleich der Energie des Hintergrundrauschsignals mit einem Energiegrenzwert erforderlich ist. Das Verfahren spart somit Rechenressourcen gegenüber den bekannten Verfahren.
Ein weiterer Vorteil besteht darin, dass die eingestellte Zeitdauer zwischen zwei SID-Rahmen mit den Erfordernissen des jeweiligen Ubertragungsnetzwerks übereinstimmt.
Vorteilhafte Weiterbildungen und Ausgestaltungen der Erfindung sind Gegenstand der Unteranspruche .
Eine vorteilhafte Ausgestaltung der Erfindung sieht eine SID- Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent. Diese Ausgestaltung hat weiterhin den Vorteil, dass empfangerseitig bestimmt werden kann, ob ein Komfortrauschen auf Basis des breitbandigen Anteils der ubertra- genen SID-Rahmen oder auf Basis des schmalbandigen Anteils erfolgen soll. Dies ist von besonderem Vorteil für die emp- fangerseitige akustische Rezeption in einer Situation, in der die Ubertragungsrate für Sprachinformationsrahmen verringert wurde, dass nur noch schmalbandige Sprachinformationen übertragen werden. Wird nämlich, wie im derzeitigen Stand der Technik, schmalbandige Sprachinformationen in Verbindung mit breitbandigem Rauschen synthetisiert, ist dies für den Empfanger sehr irritierend. Die besagte Verringerung der Uber- tragungsrate für Sprachinformationsrahmen kann zum Beispiel durch eine hohe Auslastung (Congestion) des Netzwerks zwischen Sender und Empfanger verursacht sein. Die wesentlich kleineren SID-Rahmen sind von einem solchen Netzwerkengpass nicht betroffen. Für sie besteht also weder ein Zwang zur Re- duzierung ihrer Datenübertragungsrate noch ihres Inhalts.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Bestimmung der Hintergrundrauschparameter des schmalbandigen ersten Anteils des Hintergrundrauschens Energie und Au- tokorrelationsfunktion des Hintergrundrauschens ermittelt werden. Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgroßen gemäß dieser Ausfuhrungsform umfassen dabei die Energie (nicht die logarithmierte Energie) und die Autokorrelationsfunktion.
Zu Beginn eines Zeitabschnitts, welcher als inaktiv bzw. als Sprechpause klassifiziert ist, wird gemäß einer weiteren vor- teilhaften Ausgestaltung der Erfindung eine zusatzliche Uber- hangperiode (Hangover Period) eingeführt. Die neu eingeführte Uberhangperiode, im Folgenden: DTX-Uberhangperiode dient im Vergleich zur bisher bekannten VAD- Uberhangperiode (Voice Activity Detection) einem weiteren bislang unbekannten Zweck. o
Wahrend beide Arten von Uberhangperiode das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Uberhangperiode den zusatzli- chen Zweck, Informationen über das Hintergrundrauschen zu erheben .
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass der breitbandige zweite Anteil gedampft wird. Die Dampfung des breitbandigen Anteils spielt eine Rolle bei der Dampfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enko- der .
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass auf das gesamte Hintergrundrauschsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis Post Filter«) angewandt wird. Das »De-Emphasis Post Filter« fuhrt zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhuilende deformiert, kann diese Dampfung in vorteilhafter Weise dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfanger zu reduzieren.
Ein Ausfuhrungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung naher erläutert. Dabei zeigt die einzige FIG eine zeitliche Darstellung eines Übergangs von einem als Sprache klassifizierten zu einem als Hintergrundrauschen klassifizierten Eingangssignal an einem Dekoder .
Im Folgenden wird der der Erfindung zugrundeliegende technische Hintergrund, zunächst ohne Bezugnahme auf die Zeichnung, naher beschrieben.
Im Stand der Technik bestehen Probleme mit einer Anwendung des diskontinuierlichen Übertragung (DTX) in Verbindung mit einem Komfortrauschgenerator auf Empfangerseite (CNG Comfort Noise Generator) . Wahrend der DTX/CNG-Operation müssen folgende Überlegungen berücksichtigt werden:
1. Seitens des CNG ist eine geeignete Erzeugung des Hintergrundrauschens bzw. Komfortrauschens erforderlich, welche von einem Zuhörer auf Empfangerseite als realistisch auf- gefasst werden soll. Im Falle von breitbandigen Sprachco- decs, also beispielsweise Sprachcodecs mit einer Bandbreite zwischen Frequenzen von 50 Hz und 7 kHz, wird eine Generierung eines breitbandigen Rauschens als eine Verschlechterung angesehen. Darüber hinaus ist der Charakter bzw. »die Farbe« des Hintergrundrauschens auf Dekoder- und Enkoderseite nicht immer gleich, sodass gegenwartige Losungen, welche eine Mittelwertbildung der Energie und der spektralen Einhüllenden vorsehen, eine Verfälschung der ursprunglichen Hintergrundrauschinformation bewirken.
2. Das DTX-Verfahren übermittelt nur dann aktualisierte SID- Rahmen wenn seitens des Enkoders signifikante Änderungen in der Energie des Hintergrundrauschens wahrend einer inaktiven Sprachperiode (Sprechpause) detektiert werden. Dies betrifft sowohl schmalbandige (50Hz bis 4kHz) als auch breitbandige Sprachcodecs, welche das DTX/CNG- Verfahren unterstutzen. Üblicherweise spielt dabei ein Energiegrenzwert (Energy Threshold) eine zentrale Rolle. Dies fuhrt dazu, dass bei einer Nichtuberschreitung eines definierten Energiegrenzwertes keine SID-Rahmen gesendet werden. Seitens des Ubertragungsnetzwerks zwischen Empfanger und Sender wird jedoch ein derartiges Aussetzen des Sendens von SID-Rahmen als Ruhezustand bzw. »Idle Channel« angesehen. Zur Gewahrleistung einer Aufrechter- haltung der Verbindung (»Connection Alive«) ist dann eventuell ein zusatzlicher Datenaustausch erforderlich, um anzuzeigen, dass die Verbindung aufrechterhalten werden soll.
Derzeit wird mit dem oben genannten Problemen wie folgt umgegangen :
Zu 1. : Die den breitbandigen Anteil betreffende Information wird in dem SID-Rahmen enkodiert. Dabei werden die gemittelte logarithmische Energie und die gemittelte Immitance Spectral Frequency (ISF) zur Beschreibung des breitbandigen Hintergrundrauschens herangezogen, z.B. in den Sprachcodecs G.722.2 und AMR-WB. Es ist dabei keine getrennte Behandlung eines unteren Teils und eines oberen Teils des breitbandigen Hinter- grundrauschens vorgesehen. Der schmalbandige Sprachcode G.729 verwendet eine gemittelte logarithmische Energie und eine gemittelte Autokorrelationsfunktion. Die Mittelungsperiode für die Energie und die Mittelungsperiode für die Autokorrelationsfunktion stimmen dabei nicht uberein.
Zu 2. : Administrative Stellen im Netzwerkmanagement fordern den sendenden Knoten, d.h. den sendenden Enkoder auf, den zuletzt übermittelten SID-Rahmen erneut zu übermitteln, falls die »Idle Period« als zu lang für die zugehörige Verbindung erachtet wird. Der erneut gesendete SID-Rahmen und die darin enthaltene Information wird daher nicht aktualisiert. Der En- koder führt also keine zusätzlichen Aktionen aus.
Das erfinderische Verfahren sieht vor, den Enkoder so auszugestalten, dass dieser nach einer bestimmten gegebenen Zeit eine erneute Berechnung der gemittelten Energie und der Autokorrelationsfunktion vornimmt. Administrative Stellen im Netzwerk informieren den Enkoder dabei über die benötigte Id- Ie Time.
Im Folgenden werden weitere Ausführungsformen zur Generierung des SID-Rahmens beschrieben.
Eine SID-Struktur (SID Bitstream Structure) bei der der schmalbandige Anteil der Hintergrundrauschinformation vom breitbandigen Anteil der Hintergrundrauschinformation getrennt ist, wird erzeugt. Eine getrennte Behandlung von schmalbandiger und breitbandiger Hintergrundrauschinformation in einem SID-Rahmen ermöglicht eine getrennte Enkodierung des schmalbandigen und des breitbandigen Anteils des Hintergrundrauschens und macht die Bearbeitung transparent.
Im schmalbandigen Anteil ist eine Mittlung über einen relativ langen Zeitraum einer Sprechpause notwendig, in der Praxis über einen Zeitraum von z.B. 100 ms. Die verwendeten Berechnungsgrößen umfassen dabei die Energie (nicht die logarith- mierte Energie) und die Autokorrelationsfunktion. Die Autokorrelationsfunktion wird benutzt für eine spektrale Hüllkur- venpräsentation . Ein Gesamtverstärkungsfaktor kann dabei durch eine Kombination aller Verstärkungs- und Mittlungsme- thoden kompensiert werden. Die Werte für die Autokorrelationsfunktion werden durch Summierung oder Mittelwertbildung jeweils normiert (Equally Weighted) . Dies betrifft alle SID- Rahmen. Eine relativ lange Mittelung (Averaging) des schmal- bandigen Anteils fuhrt zu einer Glattung der schmalbandigen Energie und der spektralen Einhüllenden, sodass eine plötzliche Energieanderung keinen merklichen Einfluss auf die Syn- thetisierung des Komfortrauschens im Empfanger zeitigt. Dieselbe Mittelungsperiode wird sowohl für die Energie als auch zur Mittelung der spektralen Einhüllenden verwendet, nachdem ein erster SID-Rahmen nach einem Einsetzen eines Sprachsignals (Speak Burst) erzeugt wird. Diese Maßnahme sichert eine konsistentere Abschätzung des schmalbandigen Hintergrundrauschens wahrend einem Übergang von einer Sprachperiode in eine Sprechpause .
Im Folgenden wird auf die FIG Bezug genommen. Die FIG zeigt ein Sprachsignal (Speech Burst) , dass zu einem bestimmten
Zeitpunkt t einen bestimmten Signalpegel, Threshold, in der Zeichnung als strichlierte Linie dargestellt, unterschreitet. Die Ordinate ist als Pegel oder als Energiewert des Signals zu verstehen. Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten des Thresholds auf eine Sprechpause erkennt. Das VAD-Verfahren sieht eine bekannte Uberhangperiode VAD-HO vor, in welcher weiterhin aktive Sprachrahmen gesendet werden und erst nach üblicherweise zwei Rahmenlangen in einen Modus überwechselt, der eine Generierung von SID-Rahmen vorsieht.
Gemäß der hier beschriebenen Ausfuhrungsform der Erfindung wird eine zusatzliche Uberhangperiode DTX-HO eingeführt. Die neue Uberhangperiode DTX-HO schließt sich an die bislang bekannte Uberhangperiode VAD-HO an, welche als »Black Box« verwendet wird. Wahrend dieser Uberhangperiode DTX-HO wird das im Enkoder bearbeitete Signal immer noch als Sprachsignal klassifiziert, wahrend parallel dazu bereits eine Bestimmung von Hintergrundrauschparametern beginnt. Die Datenrate der Sprachkodierung ist bereits reduziert, da zu Beginn einer Sprechpause keine hochqualitative Enkodierung benotigt wird. Weiterhin wird für den schmalbandigen Anteil ein Teil der Uberhangperiode benutzt für die Mittelwertbildung des ersten SID-Rahmens . Die vorgenannten Ausfuhrungen beziehen sich vorzugsweise auf die letzten Rahmen FRAMES innerhalb einer Uberhangperiode DTX-HO, VAD-HO. Die Information der ersten Rahmen der Uberhangperiode wird dagegen vorzugsweise nicht benutzt.
Die neu eingeführte Uberhangperiode DTX-HO dient im Vergleich zur bisher von Bedurfnissen der Voice Activity Detection motivierten bekannten Uberhangperiode VAD-HO einem weiteren bislang nicht beachteten Zweck. Wahrend beide Arten von Uber- hangperioden DTX-HO, VAD-HO das Ziel verfolgen, mehrere Rahmen als aktive Sprachrahmen zu kennzeichnen und damit eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, hat die DTX-Uberhangperiode DTX-HO den zusatzlichen Zweck, Informationen über das Hintergrundrauschen zu erheben.
Bezuglich des verfolgten Ziels, eine falsche Klassifizierung am Ende eines Sprachsignals zu vermeiden, stellt die neue Uberhangperiode DTX-HO eine zusatzliche Versicherung dar, dass nach Ablauf der Uberhangperiode DTX-HO definitiv ein Hintergrundrauschen und keine Sprachsignale am Eingang des Dekoders anliegen. Bei einer bisherigen Verwendung der bekannten Uberhangperiode VAD-HO konnte nicht ausgeschlossen werden, dass es sich bei dem anliegenden Signal exklusiv nur um Hintergrundrauschen handelte. In der Praxis konnten wah- rend dieser bekannten Uberhangperiode VAD-HO noch Sprachanteile (Speech Bursts) auftreten. Im Übrigen dient die neue Uberhangperiode DTX-HO ausschließlich zur Anlernung des Hintergrundrauschens . Bezuglich der Wahl der Zeitdauer dieser Uberhangperioden DTX-HO, VAD-HO und damit der Wahl der Anzahl an Rahmen FRAMES ist eine vorteilhafte Einstellung z.B. so zu wählen, dass eine Zeitdauer von zwei Rahmen - vgl. gestrichelte Achse FRAMES - für die bekannte Uberhangperiode VAD-HO und eine
Zeitdauer von fünf Rahmen für die neue Uberhangperiode DTX-HO vorgesehen ist.
Im breitbandigen Anteil wird eine Energiedampfung ausgeführt. Die Dampfung des breitbandigen Anteils spielt eine Rolle bei der Dampfung des gesamten Energieanteils im breitbandigen Anteil. Diese Maßnahme ist aufgrund der Tatsache notwendig, dass der Generator zur Erzeugung (synthetisieren) des Komfortrauschens im Dekoder nicht in der Lage ist, dieselben Rauscheigenschaften zu produzieren als das Originalhintergrundrauschen im Enkoder.
Auf das ausgegebene Breitbandprachsignal, also der Kombination aus breitbandigen und schmalbandigen Anteil, wird eine nachgeschaltete Betonungsminderungsfilterung (»De-emphasis
Post Filter«) angewandt. Diese Filterung dampft hauptsachlich höhere Frequenzkomponenten. Das »De-Emphasis Post Filter« fuhrt weiterhin zu einer Betonungsminderung (De-Emphasis) der Energie und der höheren Frequenzkomponenten. Da die Mittelung in bestimmter Weise die spektrale Einhüllende deformiert, kann diese Dampfung dazu beitragen, den störenden Effekt eines gestörten breitbandigen Rauschens auf einen menschlichen Empfanger zu reduzieren.

Claims

Patentansprüche
1. Verfahren zur Generierung von SID-Rahmen für eine diskontinuierliche Übertragung von Hintergrundrauschparametern über ein Ubertragungsnetzwerk, bei dem eine periodenweise Ermittlung von Hintergrundrauschparametern und eine auf Basis der ermittelten Hintergrundrauschparameter erfolgende Generierung und Übersendung von SID-Rahmen vorgesehen ist, wobei die Periode einer ermittelten Leerlaufzeit des Ubertra- gungsnetzwerks entspricht.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass Hintergrundrauschparameter eines schmalbandigen ersten Anteils und eines breitbandigen zweiten Anteils ermittelt wer- den und dass die Generierung des SID-Rahmens mit getrennten Bereichen für den ersten und den zweiten Anteil erfolgt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass zur Bestimmung der Hintergrundrauschparameter des schmalban- digen ersten Anteils des Hintergrundrauschens Energie und Autokorrelationsfunktion des Hintergrundrauschens ermittelt werden .
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Hintergrundrauschparameter des schmalbandigen ersten Anteils über einen Zeitraum um 100 Millisekunden gemittelt werden.
5. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass beim Übergang von einem als Sprache ka- tegorisierten Signal zu einem als Hintergrundrauschen katego- risierten Signal eine zusatzliche Uberhangperiode vorgesehen ist, wahrend der eine Bestimmung von Hintergrundrauschparametern erfolgt.
6. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass der breitbandige zweite Anteil gedämpft wird.
7. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass auf das gesamte Hintergrundrauschsignal eine nachgeschaltete Betonungsminderungsfilterung angewandt wird.
8. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 7.
9. Codec nach Anspruch 8, gekennzeichnet durch eine Implementierung im an sich bekannten ITU-T Standard G.729.1.
EP09711709.7A 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen Active EP2245620B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008009718A DE102008009718A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
PCT/EP2009/051123 WO2009103610A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Publications (2)

Publication Number Publication Date
EP2245620A1 true EP2245620A1 (de) 2010-11-03
EP2245620B1 EP2245620B1 (de) 2017-08-30

Family

ID=40568601

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09711709.7A Active EP2245620B1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Country Status (8)

Country Link
US (1) US8949121B2 (de)
EP (1) EP2245620B1 (de)
JP (1) JP5415460B2 (de)
KR (1) KR101216496B1 (de)
CN (1) CN101952887B (de)
DE (1) DE102008009718A1 (de)
RU (1) RU2440674C1 (de)
WO (1) WO2009103610A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3285253B1 (de) * 2011-01-14 2020-08-12 III Holdings 12, LLC Verfahren zur kodierung eines sprach-/tonsignal
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US8868415B1 (en) * 2012-05-22 2014-10-21 Sprint Spectrum L.P. Discontinuous transmission control based on vocoder and voice activity
PL2959480T3 (pl) * 2013-02-22 2016-12-30 Sposoby i urządzenia do ramek hangover transmisji przerywanej w kodowaniu dźwięku
US9572103B2 (en) * 2014-09-24 2017-02-14 Nuance Communications, Inc. System and method for addressing discontinuous transmission in a network device
JP7195344B2 (ja) 2018-07-27 2022-12-23 ドルビー ラボラトリーズ ライセンシング コーポレイション パーベイシブ・リステニングのための強制ギャップ挿入

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5881373A (en) 1996-08-28 1999-03-09 Telefonaktiebolaget Lm Ericsson Muting a microphone in radiocommunication systems
US5893056A (en) 1997-04-17 1999-04-06 Northern Telecom Limited Methods and apparatus for generating noise signals from speech signals
CA2334195A1 (en) * 1998-06-08 1999-12-16 Telefonaktiebolaget Lm Ericsson System for elimination of audible effects of handover
RU2237296C2 (ru) 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
MY141074A (en) * 1998-11-24 2010-03-15 Ericsson Telefon Ab L M Efficient in-band signaling for discontinuous transmission and configuration changes in adaptive multi-rate communications systems
CN1145928C (zh) * 1999-06-07 2004-04-14 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
CN1617605A (zh) 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
JP4963963B2 (ja) * 2004-09-17 2012-06-27 パナソニック株式会社 スケーラブル符号化装置、スケーラブル復号装置、スケーラブル符号化方法およびスケーラブル復号方法
WO2006136901A2 (en) 2005-06-18 2006-12-28 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2009103610A1 *

Also Published As

Publication number Publication date
WO2009103610A1 (de) 2009-08-27
KR20100123734A (ko) 2010-11-24
CN101952887A (zh) 2011-01-19
JP5415460B2 (ja) 2014-02-12
RU2440674C1 (ru) 2012-01-20
DE102008009718A1 (de) 2009-08-20
KR101216496B1 (ko) 2012-12-31
DE102008009718A8 (de) 2009-12-17
US20110004471A1 (en) 2011-01-06
EP2245620B1 (de) 2017-08-30
CN101952887B (zh) 2013-05-29
JP2011515705A (ja) 2011-05-19
US8949121B2 (en) 2015-02-03

Similar Documents

Publication Publication Date Title
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE60117471T2 (de) Breitband-signalübertragungssystem
DE69631318T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem
DE69603743T2 (de) Verfahren und gerät zum kodieren, behandeln und dekodieren von audiosignalen
DE69621613T2 (de) Anordnung und verfahren zur sprachübertragung und eine derartige anordnung enthaltende fernsprechanlage
DE60209888T2 (de) Kodieren eines audiosignals
DE102007051367B4 (de) Verfahren für eine Datenübertragung über einen Sprachkanal eines drahtlosen Kommunikationsnetzwerks
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
EP2047669B1 (de) Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern
DE102008016502B4 (de) Verfahren zur Datenübermittlung über einen Sprachkanal eines drahtlosen Kommunikationsnetzes unter Verwendung einer kontinuierlichen Signalmodulation
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE60122751T2 (de) Verfahren und vorrichtung für die objektive bewertung der sprachqualität ohne referenzsignal
DE202008017752U1 (de) Vorrichtung zum Erlangen eines Dämpfungsfaktors
WO1999018673A1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
DE10252070B4 (de) Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
DE60210597T2 (de) Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte
WO2002084929A1 (de) Verfahren und vorrichtung zur übertragung von digitalen signalen
DE69420848T2 (de) Sprachkodierer/-dekodierer mit fester bitrate
EP1390947B1 (de) Verfahren zum signalempfang in einem digitalen kommunikationssystem
WO2006072526A1 (de) Verfahren zur bandbreitenerweiterung
DE102004001496A1 (de) Kommunikationsendgerät mit Avatar-Code-Übermittlung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20100812

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA RS

RIN1 Information on inventor provided before grant (corrected)

Inventor name: SETIAWAN, PANJI

Inventor name: TADDEI, HERVE

Inventor name: SCHANDL, STEFAN

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

17Q First examination report despatched

Effective date: 20140129

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502009014306

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0019000000

Ipc: G10L0019012000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20170331

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 19/18 20130101ALN20170320BHEP

Ipc: G10L 19/012 20130101AFI20170320BHEP

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 924306

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170915

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502009014306

Country of ref document: DE

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20170830

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171130

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 10

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171130

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171201

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20171230

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502009014306

Country of ref document: DE

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20180531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20180228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180202

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180228

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180228

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180228

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 924306

Country of ref document: AT

Kind code of ref document: T

Effective date: 20180202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20090202

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170830

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20170830

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009014306

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240216

Year of fee payment: 16

Ref country code: GB

Payment date: 20240222

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20240221

Year of fee payment: 16