EP2245622A1 - Verfahren und mittel zur dekodierung von hintergrundrauschinformationen - Google Patents

Verfahren und mittel zur dekodierung von hintergrundrauschinformationen

Info

Publication number
EP2245622A1
EP2245622A1 EP09712583A EP09712583A EP2245622A1 EP 2245622 A1 EP2245622 A1 EP 2245622A1 EP 09712583 A EP09712583 A EP 09712583A EP 09712583 A EP09712583 A EP 09712583A EP 2245622 A1 EP2245622 A1 EP 2245622A1
Authority
EP
European Patent Office
Prior art keywords
time
entering
phase
broadband
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP09712583A
Other languages
English (en)
French (fr)
Other versions
EP2245622B1 (de
Inventor
Panji Setiawan
Stefan Schandl
Herve Taddei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens Enterprise Communications GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications GmbH and Co KG filed Critical Siemens Enterprise Communications GmbH and Co KG
Publication of EP2245622A1 publication Critical patent/EP2245622A1/de
Application granted granted Critical
Publication of EP2245622B1 publication Critical patent/EP2245622B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the invention relates to methods and means for decoding background noise information in speech signal coding methods.
  • Such a limited frequency range is also provided in many speech signal coding methods for today's digital telecommunications.
  • a bandwidth limitation of the analog signal Prior to a coding process, a bandwidth limitation of the analog signal is performed for this purpose.
  • a codec is used which, due to the described bandwidth limitation in the frequency range between 300 Hz and 3400 Hz, is also referred to below as narrow-band speech codec (Narrow Band Speech Codec).
  • the term codec is understood to mean both the coding rule for the digital coding of audio signals and the decoding rule for the decoding of data with the aim of reconstructing the audio signal.
  • a narrowband speech codec is known from ITU-T Recommendation G.729.
  • a transmission of a narrow-band voice signal with a data rate of 8 kbit / s is provided.
  • Band Speech Codec are known, which provide a coding of one in an extended frequency range to improve the Hor- impressive. Such an extended frequency range lies for example between a frequency of 50 Hz and 7000 Hz.
  • a broadband voice codec is for example from the ITU-T Recommendation G.729. EV known.
  • Speech codecs made scalable.
  • Scalability means that the transmitted coded data contain various demarcated blocks which contain the narrowband component, the broadband component and / or the full bandwidth of the coded voice signal.
  • such a scalable design allows for backwards compatibility on the receiver side and, on the other hand, offers a simple possibility of adapting the data rate and the size of transmitted data frames in the transmission channel in the case of limited data transmission capacities.
  • a compression of the data to be transmitted is provided. Compression is achieved, for example, by coding methods, in which parameters for an excitation signal and filter parameters are determined for coding the speech data. The filter parameters and parameters specifying the excitation signal are then transmitted to the receiver. There, a synthetic speech signal is synthesized using the codec, which is as similar as possible to the original speech signal with regard to a subjective impression of hearing. With the aid of this method, also known as "analysis-by-synthesis", the determined and digitized samples (samples) are not transmitted themselves but determined parameters which enable a receiver-side synthesis of the speech signal.
  • a further measure for reducing the data transmission rate is provided by a method for discontinuous transmission (Discontinuous Transmission), which is also known in the art as DTX.
  • the fundamental goal DTX is a reduction in the data transfer rate in the event of a speech break.
  • a voice pause detection (VAD) is used on the transmitter side, which detects a pause in speech when the signal falls below a certain signal level.
  • VAD voice pause detection
  • Comfort noise is noise that is synthesized to fill silence phases on the receiver's side.
  • the comfort noise serves as a subjective impression of a continuing connection, without claiming the data transmission rate intended for the transmission of speech signals. In other words, less effort is required to code the speech data for the transmitter-side coding of the noise. For a receiver-side still perceived as realistic synthesis - i.
  • Decoding - Comfort noise transmits data at a much lower data rate.
  • the data transmitted here are also referred to in the professional world as the SID (Meaning Insertion Description).
  • the aforementioned scalable wideband speech codecs usually support different data transmission rates in a bandwidth range of 50 to 7000 Hz.
  • Possible data rates for encoding the voice information include 8, 12, 14, 16, ..., 32 kbit / s, which are used, for example, in the G.729.1 standard.
  • the data rates of 8 and 12 kbit / s are applied to narrowband signals (50Hz to 4kHz). Data rates greater than 12 kbit / s are applied to the upper frequency band of 4 to 7 kHz.
  • a sudden change from a narrowband to a broadband data rate is known to cause a disturbing effect on a human recipient.
  • Such a transition occurs, for example, as a result of a truncation of the data stream (bitstream transformation), which is caused, for example, by the transmission network between transmitter and receiver, for example as a result of the establishment of further additional connections or due to a congestion in the transmission network.
  • the said clipping leads to a change in the data rate and finally to a transition from a broadband to a narrowband transmission of the speech signal.
  • a saving of the data transmission rate for the transmission of the respective data frames is possible.
  • the DTX method is used exactly when a corresponding frame is characterized as a speech break.
  • a reduced data transmission rate on transmitted frames is achieved due to two factors. First, the encoder does not need to send all inactive frames to the decoder. Second, a transmitted SID frame occupies much fewer bits than a voice data frame.
  • VAD Paging detection
  • the encoder then sends a specially marked frame, a Silence Insertion Descriptor (SID) frame, to the decoder.
  • SID Silence Insertion Descriptor
  • the decoder synthesizes comfort noise based on the information contained in a SID frame, and the decoder can determine, based on the SID frame, whether the contained noise information is narrowband or broadband information.
  • bit rate switching Changing the bit rate (bit rate switching) between narrowband and wideband information is a common scenario for any scalable wideband speech codec.
  • a treatment of a data rate change during a normal speech phase i. in the absence of pauses in speech, although adequately described in the literature, a treatment on entry into a DTX phase is currently still unknown.
  • the active speech frames are narrow-band decoded and the background noise is played back in pauses in broadband.
  • the object of the invention is to specify a method for changing a data rate of SID frames during a speech pause, which results in an improved quality of the signal synthesized on the decoder.
  • a basic idea of the invention is a determination of information about the course of the bandwidth switchover
  • information about the percentage of broadband active speech frames in comparison to narrowband active speech frames is collected on the decoder side during the speech phase.
  • information on the nature of the background noise is not collected until the time of a change to a speech break, as has hitherto been suggested by the prior art.
  • a high percentage of broadband active speech frames indicates that the codec prefers broadband use and therefore there is a need to broadly synthesize noise information during a DTX phase, i. to decode.
  • narrow-band noise is generated on the decoder's side when entering a DTX phase, even if the received SID frames require a synthesizer - i. Decoding - would allow a broadband noise.
  • the object of the invention to provide a method for changing a data rate of SID frames during a speech break more than solved.
  • the change to be made between noise information with different data rate according to the object is refined according to the inventive solution presented here into a determination of a proportion of noise information with different data rates.
  • the proportion is adjustable in contrast to a change in any ratio between noise information with different data rate.
  • the method according to the invention thus achieves the object of the invention to achieve an improved quality of the signal synthesized on the decoder.
  • a decision is made that a noise signal having a certain quality (ie, wideband or narrowband) is synthesized during a speech pause a case may arise in which a truncation occurs in the last few frames during an active speech phase on the part of the network the active data frame took place.
  • a predominantly narrow-band decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly wideband decoding.
  • Such a transition is thus preferably quasi-continuous, with a Transition to discrete times - hence "quasi" -continuous - is set to a certain share factor.
  • the following values for the proportion factor have proven to be particularly advantageous for subjective human hearing: at the time of entering the DTX phase, a proportion factor of 0, and consequently only narrowband noise; at a time of 20 ms after entering the DTX phase, a share factor of 0.09525986892242; at a time of 40 ms after entering the DTX phase, a proportion factor of 0.19753086419753; at a time of 60 ms after entering the DTX phase, a share factor of 0.36595031245237; at a time of 80 ms after entering the DTX phase, a proportion factor of 0.62429507696997; and; at a time of 100 ms after entering the DTX phase, a share factor of 1, hence exclusively broadband
  • the codec used preferred a narrow-band reproduction mode and / or a broadband transmission method in the past was not ensured by the transmission network. This may lead to the case that few active speech frames arrive at the receiving decoder as wideband speech frames before receiving first SID frames there.
  • a predominantly wideband decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly narrowband decoding.
  • Such a transition is preferably quasi-continuous analogous to the development described above, wherein a transition to discrete times is set to a certain proportion factor.
  • the proportion factor is set with values as above, but in reverse order.
  • Showing: 1 shows a time representation of a data rate between a transmitter and a receiver with a plurality of bandwidth switches and an entry into a speech pause, wherein SID frames are transmitted;
  • Fig. 2A is a schematic illustration of a first scenario of bandwidth switching
  • FIG. 2B shows a schematic illustration of a second scenario of bandwidth switching
  • FIG. 3 A switching process executed on the decoder side with a quasi-continuous transition from a narrow-band to a broad-band noise signal quality.
  • FIG. 1 shows a time transmission of voice data frames with a respective data rate DR and, as of a third time t3, a transmission of SID frames.
  • a transmission of broadband active speech frames takes place with a data rate of 32 kbit / s. From the time t1, a switchover to a data rate of 22 kbit / s and from a second time t2 to a data rate of 12 kbit / s. A data rate of 12 kbit / s already corresponds to a narrowband speech frame.
  • FIG. 2A and FIG. 2B show two possible scenarios for a progression of the data rate DR over time t.
  • a transmission is largely narrow-band due to restrictions of the network or due to other circumstances, in the example of FIG. 2A at 8 kbit / s, while at a few points in time, between a first time t 1 and a second time t 2, exceptionally a broadband. dige transmission with 32 kbit / s takes place.
  • FIG. 2B again shows a situation in reverse, namely a predominantly wideband transmission mode with 32 kbit / s and an exceptionally short, narrowband transmission method between a fourth time t4 and a fifth time t5.
  • information about the proportion of broadband active speech frames in comparison to narrowband active speech frames is collected on the part of the decoder during the speech phase.
  • the percentage of broadband active speech frames is to be described as very low, while in the example of FIG. tual proportion of broadband active speech frames.
  • FIG. 3 illustrates a design of the noise signal following a scenario according to FIG. 2B, in which a requirement has been determined on the basis of the decoder-side determined percentage share of broadband active speech frames, and broadband noise information during the DTX phase to synthesize.
  • Transition from a narrowband speech signal to a broadband noise signal quasi-continuous which has proven to be the most favorable embodiment for a subjective Horempfinden a human recipient, is started at this time TIME with an exclusively narrow-band signal, ie with a proportion HB- SHARE of the wideband noise of 0.
  • the wideband noise is 1 or 100%.
  • a further embodiment of the invention analogously provides for a transition from a wideband speech signal to a narrowband noise signal.
  • a slightly modified scenario is assumed in which, unlike the scenario illustrated in FIG. 2A, shortly before time t3, a change-not shown-to a broadband transmission at 32 kbit / s takes place , Despite this "peak", the percentage of broadband active speech frames remains very low, so that now in transition to the DTX phase, a noise signal is to be synthesized that broadband begins, however - due to the predominantly narrow-band transmission history and thus expected for the future Continuation of the narrow-band transfer character - to be converted into a narrow-band noise signal. To make this transition from a broadband
  • an exclusively broadband signal is entered to enter the DTX phase, ie with a HB-SHARE component of the broadband noise of 1.
  • the narrow-band noise component is 0
  • the values proposed above are advantageously set in an inverse row. This would correspond to a curve mirrored on the ordinate HB-SHARE according to FIG. 3.

Abstract

Ein Grundgedanke der Erfindung besteht darin, eine Ermittlung von Informationen zum Verlauf der Bandbreitenumschaltung (Bitrate Switching) während einer aktiven Sprachphase vorzunehmen. Erfindungsgemäß werden während der Sprachphase auf Seiten des Dekoders Informationen zum prozentualen Anteil von breitbandigen aktiven Sprachrahmen im Vergleich zu schmalbandigen aktiven Sprachrahmen erhoben. Ein hoher prozentualer Anteil an breitbandigen aktiven Sprachrahmen zeigt dabei an, dass seitens des Codecs eine breitbandige Verwendung bevorzugt wird und daher ein Bedarf besteht, während einer DTX-Phase Rauschinformationen breitbandig zu synthetisieren.

Description

Beschreibung
Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
Die Erfindung betrifft Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen bei Sprachsignalkodie- rungsverfahren .
Für Telefongespräche ist seit den Anfangen der Telekommunikation eine Bandbreitenbeschrankung für eine analoge Sprach- ubertragung vorgesehen. Die Sprachubertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.
Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschrankung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprach-Codec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.
Ein schmalbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandi- gen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen .
Weiterhin sind sogenannte breitbandige Sprach-Codecs (Wide
Band Speech Codec) bekannt, welche zur Verbesserung des Hor- eindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprach-Codec ist beispielsweise aus der ITU-T- Empfehlung G.729. EV bekannt.
Üblicherweise sind Kodierungsverfahren für breitbandige
Sprach-Codecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blocke enthalten, welche den schmalban- digen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfanger- seitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Daten- ubertragungskapazitaten im Ubertragungskanal eine sender- und empfangerseitige Anpassung der Datenrate und der Große von übertragenen Datenrahmen vorzunehmen.
Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu ubertragen- den Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Emp- fanger übertragen. Dort wird mithilfe des Codecs ein synthetisches Sprachsignal synthetisiert, das dem ursprunglichen Sprachsignal hinsichtlich eines subjektiven Horeindrucks möglichst ahnlich ist. Mit Hilfe diesem auch als »Analysis-by- Synthesis« bezeichneten Verfahren werden nicht die ermittel- ten und digitalisierten Abtastwerte (Samples) selbst übertragen, sondern ermittelte Parameter, die eine empfangerseitige Synthese des Sprachsignals ermöglichen.
Eine weitere Maßnahme zur Reduzierung der Datenubertragungs- rate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission) , welches in der Fachwelt auch unter dem Begriff DTX gelaufig ist. Das grundsatzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.
Hierzu kommt auf Seiten des Senders eine Sprechpausenerken- nung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt.
Üblicherweise wird vom Empfanger wahrend einer Sprechpause keine vollige Stille erwartet. Im Gegenteil wurde eine vollige Stille empfangerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus fuhren. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.
Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfangers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfangerseitig noch als realistisch empfundene Synthetisierung - d.h. Dekodierung - des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Si- lence Insertion Description) bezeichnet.
Im Stand der Technik entstehen Probleme mit dem Verfahren zur diskontinuierlichen Übertragung bei einer Verwendung von breitbandigen Sprachcodecs, wie z.B. ITU-T G.729.1, G.722.2 oder 3GPP AMR-WB. Die genannten skalierbaren breitbandigen Sprachcodecs unterstutzen üblicherweise unterschiedliche Da- tenubertragungsraten in einem Bandbreitenbereich von 50 bis 7000 Hz. Mögliche Datenraten zur Enkodierung der Sprachinformationen sind z.B. 8, 12, 14, 16, ..., 32 kbit/s, welche z.B. im Standard G.729.1 zum Einsatz kommen. Die Datenraten von 8 und 12 kbit/s werden auf schmalbandige Signale (50Hz bis 4kHz) ange- wandt. Datenraten von mehr als 12 kbit/s werden auf das obere Frequenzband von 4 bis 7 kHz angewandt.
Wahrend einer Übertragung ist ein Wechsel zwischen den besagten Datenraten möglich. Ein plötzlicher Wechsel von einer schmalbandigen auf eine breitbandige Datenrate verursacht dabei bekanntermaßen einen störenden Effekt auf einen menschlichen Rezipienten. Ein solcher Übergang erfolgt beispielsweise in Folge einer Beschneidung des Datenstroms (Bitstream Tran- cation) , welcher beispielsweise durch das Ubertragungsnetz- werk zwischen Sender und Empfanger verursacht wird, beispielsweise in Folge einer Einrichtung weiterer zusatzlicher Verbindungen oder aufgrund eines Datenstaus (Congestion) im Ubertragungsnetzwerk . Die genannte Beschneidung fuhrt zu einer Änderung der Datenrate und schließlich zu einem Übergang von einer breitbandigen zu einer schmalbandigen Übertragung des Sprachsignals.
Werden im Enkoder Verfahren zur diskontinuierlichen Übertragung - bzw. DTX-Verfahren - angewandt, ist eine Einsparung der Datenübertragungsrate für die Übertragung der jeweiligen Datenrahmen möglich. Das DTX-Verfahren kommt genau dann zum Einsatz, wenn ein entsprechender Rahmen als Sprechpause charakterisiert ist. In Anwendung des DTX-Verfahrens wird eine reduzierte Datenübertragungsrate an übertragenen Rahmen auf- grund zweier Faktoren erreicht. Erstens müssen seitens des Enkoders nicht alle inaktiven Rahmen an den Dekoder gesandt werden. Zweitens belegt ein gesendeter SID-Rahmen bzw. inaktiver Rahmen viel weniger Bits als ein Sprachdatenrahmen.
Ein solches Verfahren erfordert eine Beteiligung einer
Sprechpausenerkennung (VAD) auf Enkoderseite . Mit Hilfe eines Sprechpausendetektors wird dem Enkoder auf der Senderseite mitgeteilt, ob ein aktueller Abtastwerte enthaltender und zu enkodierender Rahmen ein Sprachsignal enthalt oder eine Sprechpause mit Hintergrundrauschen. Mit Hilfe dieser Charakterisierung werden im Enkoder Maßnahmen getroffen, welche die Wahrnehmungscharakteristika (Perceptional Characteristics) eines inaktiven Rahmens (Inactive Speech Frame) ermitteln. Zu solchen Wahrnehmungscharakteristika zahlen beispielsweise die gemittelte Energie sowie spektrale und zeitliche Charakteristika .
Der Enkoder sendet daraufhin einen speziell gekennzeichneten Rahmen, einen SID-Rahmen (Silence Insertion Descriptor) an den Dekoder. Der Dekoder synthetisiert auf Basis der in einem SID-Rahmen enthaltenen Informationen ein Komfortrauschen, wobei der Dekoder aufgrund des SID-Rahmens bestimmen kann, ob es sich bei der enthaltenen Rauschinformation um schmalbandi- ge oder breitbandige Informationen handelt.
Ein Wechsel der Datenrate (»Bitrate Switching«) zwischen schmalbandiger und breitbandiger Information ist ein übliches Szenario für jeden skalierbaren breitbandigen Sprachcodec.
Eine Behandlung eines Datenratenwechsels wahrend einer normalen Sprachphase, d.h. in Abwesenheit von Sprechpausen, ist zwar hinreichend in der Literatur beschrieben, eine Behandlung bei Eintritt in eine DTX-Phase ist derzeit indes noch unbekannt.
Es ergibt sich daher ein dringendes Bedürfnis, ein Verfahren zum Datenratenwechsel wahrend einer DTX-Phase und/oder bei Eintritt in eine DTX-Phase anzugeben, um auf einen Wechsel zwischen einer schmalbandigen und breitbandigen Datenrate vor oder wahrend des Übergangs in die DTX-Phase optimal zu reagieren .
Wahrend einer Sprechpause ist eine Datenratenbeschneidung un- wahrscheinlich, da die Datenbelegung (Bitstream Elocati- on) eines SID-Rahmens ohnehin weniger Bits benotigt als ein aktiver Sprachdatenrahmen in einer »normalen« Codec- Operation, also eine Codec-Operation wahrend einer auschließ- lichen Sprechphase.
Dies fuhrt zu einem möglichen Szenario, in dem die Datenrate wahrend einer aktiven Sprechphase geändert wird, jedoch in
Sprechpausen, also wahrend der DTX-Phase in einem breitbandi- gen Modus verbleibt. Als sehr störend seitens eines menschlichen Empfangers auf Dekoderseite wird dabei der Fall empfunden, bei dem die aktiven Sprachrahmen schmalbandig dekodiert sind und das Hintergrundrauschen in Sprechpausen breitbandig wiedergegeben wird.
Dieser Fall tritt mit hoher Wahrscheinlichkeit z.B. in Situationen auf, bei denen die enkoderseitig gesendeten Sprachda- tenrahmen durch das Ubertragungsnetzwerk beschnitten werden, jedoch seitens des Ubertragungsnetzwerks noch genügend Kapazität zur Übertragung der breitbandigen SID-Rahmen übrig bleibt.
Bislang sind keine Verfahren zum Wechsel der Datenrate von
SID-Rahmen wahrend einer Sprechpause bekannt. Die bestehenden Verfahren zum Wechsel der Datenrate beziehen sich lediglich auf den normalen Codec-Betrieb wahrend einer aktiven Sprachphase .
Aufgabe der Erfindung ist es, ein Verfahren zum Wechsel einer Datenrate von SID-Rahmen wahrend einer Sprechpause anzugeben, das eine verbesserte Qualität des am Dekoder synthetisierten Signals zur Folge hat.
Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost.
Ein Grundgedanke der Erfindung besteht darin, eine Ermittlung von Informationen zum Verlauf der Bandbreitenumschaltung
(Bitrate Switching) wahrend einer aktiven Sprachphase vorzunehmen. Die skalierbare Natur des erfindungsgemaß zum Einsatz kommenden Sprachsignalkodierungsverfahren bzw. Codecs druckt dabei die Möglichkeit des Codecs zur Bandbreitenumschaltung bereits aus.
Erfindungsgemäß werden während der Sprachphase auf Seiten des Dekoders Informationen zum prozentualen Anteil von breitban- digen aktiven Sprachrahmen im Vergleich zu schmalbandigen aktiven Sprachrahmen erhoben. Mit anderen Worten werden nicht erst zum Zeitpunkt eines Wechsels in eine Sprechpause Informationen zum Charakter des Hintergrundrauschens erhoben, wie aus dem Stand der Technik bislang nahegelegt wurde. Ein hoher prozentualer Anteil an breitbandigen aktiven Sprachrahmen zeigt dabei an, dass seitens des Codecs eine breitbandige Verwendung bevorzugt wird und daher ein Bedarf besteht, während einer DTX-Phase Rauschinformationen breitbandig zu syn- thetisieren, d.h. zu dekodieren. Wird dagegen ein niedriger prozentualer Anteil ermittelt, wird auf Seiten des Dekoders bei Eintritt in eine DTX-Phase ein schmalbandiges Rauschen erzeugt, sogar dann, wenn die empfangenen SID-Rahmen eine Synthetisierung - d.h. Dekodierung - eines breitbandigen Rauschens erlauben würden.
Mit dem hier vorgestellten erfindungsgemäßen Verfahren wird die Aufgabe der Erfindung, ein Verfahren zum Wechsel einer Datenrate von SID-Rahmen während einer Sprechpause anzugeben mehr als gelöst. Der zu lösende Wechsel zwischen Rauschinformationen mit verschiedener Datenrate gemäß der Aufgabe wird gemäß der hier vorgestellten erfinderischen Lösung in eine Bestimmung eines Anteils an Rauschinformationen mit verschiedenen Datenraten verfeinert. Der Anteil ist im Gegensatz zu einem Wechsel in beliebigem Verhältnis zwischen Rauschinformationen mit verschiedener Datenrate einstellbar.
Durch die Einstellbarkeit bzw. Anpassbarkeit der Rauschsignalqualität auf die zuvor erhobene Sprachsignalqualität (schmalbandig/breitbandig) ergibt für das gesamte Signal, also Rausch- und Sprachsignal, auf Seiten des Empfängers insgesamt eine erheblich gesteigerte Signalqualität. Das erfindungsgemäße Verfahren löst somit die Aufgabe der Erfindung, eine verbesserte Qualität des am Dekoder synthetisierten Signals zu erzielen.
Ein solcher Ansatz gemäß dem erfindungsgemaßen Verfahren er- weist sich als grundlegend für vorteilhafte Weiterbildungen der Erfindung, welche Gegenstand der Unteranspruche sind.
Wird gemäß des erfindungsgemaßen Verfahrens eine Entscheidung dahingehend getroffen, dass wahrend einer Sprechpause ein Rauschsignal mit einer bestimmten Qualität (d.h. breitbandig oder schmalbandig) synthetisiert wird, kann ein Fall auftreten, bei dem in den letzten wenigen Rahmen wahrend einer aktiven Sprachphase seitens des Netzwerks eine Beschneidung der aktiven Datenrahmen stattfand.
Zur Erklärung wird zunächst angenommen, dass der verwendete Codec eine breitbandige Wiedergabeweise bevorzugt und eine breitbandige Ubertragungsweise in der Vergangenheit durch das Ubertragungsnetzwerk auch überwiegend gewahrleistet war. Dies kann zu dem Fall fuhren, dass wenige aktive Sprachrahmen beim empfangenden Dekoder als schmalbandige Sprachrahmen eintreffen, bevor dort erste SID-Rahmen empfangen werden.
In diesem Fall wurde ohne zusatzliche Maßnahmen ein abrupter Übergang von einem schmalbandigen Sprachsignal auf ein breit- bandiges Rauschsignal wahrend der ersten wenigen SID-Rahmen erfolgen. So wichtig ein solcher Übergang zur Wiedereinstellung auf eine breitbandige Empfangsbedingung im Allgemeinen ist, wird dieser Übergang jedoch für den Empfanger als sto- rend empfunden.
Gemäß einer Weiterbildung der Erfindung ist daher vorgesehen, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend breitbandige Dekodierung übergeht. Ein solcher Übergang erfolgt also vorzugsweise quasi-stetig, wobei ein Übergang zu diskreten Zeitpunkten - daher »quasi«-stetig - auf einen bestimmten Anteilsfaktor eingestellt wird.
Gemäß einer Weiterbildung der Erfindung wird ein Verfahren zum schnellem Umschalten (Fast Switching) vorgeschlagen, bei welchem innerhalb eines bestimmten Zeitrahmens von 100 ms ein quasi-stetiger Übergang von einer schmalbandigen (Anteilsfaktor = 0) auf eine breitbandige (Anteilsfaktor = 1) Rauschsig- nalqualitat durchgeführt wird. Dieser Übergang wird seitens des Dekoders durchgeführt.
Als besonders vorteilhaft für das subjektive menschliche Hor- empfinden haben sich gemäß einer Weiterbildung der Erfindung folgende Werte für den Anteilsfaktor erwiesen: zum Zeitpunkt des Eintritts in die DTX-Phase ein Anteilsfaktor von 0, mithin ausschließlich schmalbandiges Rauschen; zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,09525986892242; zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,19753086419753; zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,36595031245237; zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,62429507696997; und; zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 1, mithin ausschließlich breitbandiges
Rauschen .
Gemäß einer Weiterbildung der Erfindung wird angenommen, dass der verwendete Codec eine schmalbandige Wiedergabeweise bevorzugt und/oder eine breitbandige Ubertragungsweise in der Vergangenheit durch das Ubertragungsnetzwerk nicht gewahrleistet war. Dies kann zu dem Fall fuhren, dass wenige aktive Sprachrahmen beim empfangenden Dekoder als breitbandige Sprachrahmen eintreffen, bevor dort erste SID-Rahmen empfangen werden.
Gemäß einer Weiterbildung der Erfindung ist vorgesehen, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend breitbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vor- wiegend schmalbandige Dekodierung übergeht. Ein solcher Übergang erfolgt analog zum oben beschriebenen Weiterbildung vorzugsweise quasi-stetig, wobei ein Übergang zu diskreten Zeitpunkten auf einen bestimmten Anteilsfaktor eingestellt wird.
Gemäß einer Weiterbildung der Erfindung wird ein Verfahren zum schnellem Umschalten (Fast Switching) vorgeschlagen, bei welchem innerhalb eines bestimmten Zeitrahmens von 100 ms ein quasi-stetiger Übergang von einer breitbandigen (Anteilsfaktor = 1) auf eine schmalbandige (Anteilsfaktor = 0) Rausch- signalqualitat durchgeführt wird. Dieser Übergang wird seitens des Dekoders durchgeführt.
Zum quasi-stetigen Übergang von der breitbandigen auf die schmalbandige Rauschsignalqualitat wird der Anteilsfaktor mit Werten wie oben, allerdings in umgekehrter Reihenfolge eingestellt.
Ein Ausfuhrungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung naher erläutert.
Dabei zeigen: Fig. 1 eine zeitliche Darstellung einer Datenrate zwischen einem Sender und einem Empfanger mit mehreren Band- breitenumschaltungen und einem Eintritt in eine Sprechpause, wobei SID-Rahmen gesendet werden;
Fig. 2A eine schematische Darstellung eines erstes Szenarios einer Bandbreitenumschaltung;
Fig. 2B eine schematische Darstellung eines zweiten Szena- rios einer Bandbreitenumschaltung; und;
Fig. 3 Ein dekoderseitig ausgeführter Umschaltvorgang mit einem quasi-stetigen Übergang von einer schmalban- digen auf eine breitbandige Rauschsignalqualitat .
In Fig. 1 ist eine zeitliche Übertragung von Sprachdatenrahmen mit einer jeweiligen Datenrate DR sowie, ab einem dritten Zeitpunkt t3, eine Übertragung von SID-Rahmen dargestellt.
Vor einem ersten Zeitpunkt tl erfolgt eine Übertragung von breitbandigen aktiven Sprachrahmen mit einer Datenrate von 32 kbit/s. Ab dem Zeitpunkt tl erfolgt eine Umschaltung auf eine Datenrate von 22 kbit/s und ab einem zweiten Zeitpunkt t2 auf eine Datenrate von 12 kbit/s. Eine Datenrate von 12 kbit/s entspricht bereits einem schmalbandigen Sprachrahmen.
Zu einem dritten Zeitpunkt t3 wird angenommen, dass aufgrund einer Sprechpause seitens des Senders ein Übertritt in eine DTX-Phase erfolgt. Ab dem dritten Zeitpunkt t3 werden somit SID-Rahmen SID in einer bestimmten zeitlichen Periode gesendet.
Ab dem dritten Zeitpunkt t3 tritt nun die zuvor erläuterte Situation ein, dass in der Vergangenheit - wahrend der Zeit- phase zwischen dem zweiten Zeitpunkt t2 und dem dritten Zeitpunkt t3 - ein schmalbandiges Sprachsignal übermittelt wurde, wobei ab dem dritten Zeitpunkt t3 nunmehr ein breitbandi- ges Rauschsignal durch entsprechende SID-Rahmen zur Verfugung gestellt wird. Die Datenrate der SID-Rahmen entspricht 43 bit/20ms = 2,15 kbit/s bei einer Lange von 43 Bit pro SID- Rahmen und einer Periode von 20 ms pro gesendetem SID-Rahmen.
In dieser Situation tritt der Fall ein, dass seitens des Dekoders ein unmittelbarer, d.h. unstetiger, Übergang von einem schmalbandigen Sprachsignal auf ein breitbandiges Rauschsignal erfolgen wurde. Ein solcher abrupter Übergang wird für einen menschlichen Rezipienten als äußerst störend empfunden.
Figur 2A und Figur 2B zeigen zwei mögliche Szenarien für einen Verlauf der Datenrate DR über die Zeit t.
In Figur 2A ist aufgrund von Einschränkungen des Netzwerks oder aufgrund anderer Umstände eine Übertragung weitgehend schmalbandig, im Beispiel der Fig. 2A mit 8 kbit/s, wahrend zu wenigen Zeitpunkten, zwischen einem ersten Zeitpunkt tl und einem zweiten Zeitpunkt t2, ausnahmsweise eine breitban- dige Übertragung mit 32 kbit/s erfolgt.
In Figur 2B wiederum ist eine umgekehrte Situation zu verzeichnen, nämlich eine überwiegend breitbandige Ubertragungs- weise mit 32 kbit/s und eine ausnahmsweise kurze, zwischen einem vierten Zeitpunkt t4 und einem fünften Zeitpunkt t5 er- folgende, schmalbandige Ubertragungsweise .
Im Folgenden wird zu einem Zeitpunkt t3 für das Beispiel der Fig. 2A sowie zu einem Zeitpunkt t6 für das Beispiel der Fig. 2B angenommen, dass ein Eintritt in eine DTX-Phase erfolgt.
Gemäß dem erfindungsgemaßen Vorgehen werden wahrend der Sprachphase auf Seiten des Dekoders Informationen zum Anteil von breitbandigen aktiven Sprachrahmen im Vergleich zu schmalbandigen aktiven Sprachrahmen erhoben.
Für das Beispiel der Fig. 2A ist dabei der prozentuale Anteil von breitbandigen aktiven Sprachrahmen als sehr niedrig zu bezeichnen, wahrend im Beispiel der Fig. 2B ein hoher prozen- tualer Anteil von breitbandigen aktiven Sprachrahmen vorliegt .
Bei Eintritt in eine DTX-Phase zum Zeitpunkt t3 im Beispiel der Fig. 2A wird nun, unter Anwendung des erfindungsgemaßen Verfahrens ein schmalbandiges Rauschen erzeugt, obwohl die ab dem Zeitpunkt t3 empfangenen - nicht dargestellten - SID- Rahmen eine Synthetisierung eines breitbandigen Rauschens erlauben wurden.
Im Beispiel der Fig. 2B dagegen werden zu einem Zeitpunkt t6 mit der dort beginnenden DTX-Phase eine breitbandige Synthetisierung der Rauschinformationen bevorzugt.
In Fig. 3 ist eine Rauschsignalqualitat HB-SHARE über eine Zeit TIME, welche in ms angegeben ist, aufgetragen. Die Fig. 3 stellt dabei eine Gestaltung des Rauschsignals in An- schluss an ein Szenario gemäß der vorangegangenen Figur 2B dar, bei der aufgrund des dekoderseitig ermittelten prozentu- alen Anteils von breitbandigen aktiven Sprachrahmen ein Bedarf ermittelt wurde, wahrend der DTX-Phase Rauschinformationen breitbandig zu synthetisieren.
Der Übergang in die DTX-Phase erfolgt in der Darstellung der Fig. 3 zum dargestellten Zeitpunkt TIME von 0 ms. Um diesen
Übergang von einem schmalbandigen Sprachsignal auf ein breit- bandiges Rauschsignal quais-stetig zu gestalten, was sich als gunstigste Ausgestaltung für ein subjektives Horempfinden eines menschlichen Rezipienten erwiesen hat, wird zu diesem Zeitpunkt TIME mit einem ausschließlich schmalbandigen Signal begonnen, d.h. mit einem Anteil HB-SHARE des breitbandigen Rauschens von 0. Zu einem Zeitpunkt von 100 ms ist der breitbandige Rauschanteil 1 bzw. 100 %. Zum quasi-stetigen Übergang von einem ausschließlich schmalbandigen Rauschsignal zum Zeitpunkt TIME = 0 ms auf einem ausschließlich breitbandigen Rauschsignal zum Zeitpunkt TIME = 100 ms haben sich in der Praxis folgende weitere Werte des Anteils HB-SHARE zu diskreten Zeitpunkten TIME bewahrt: Zum Zeitpunkt TIME = 20 ms ein Anteil HB-SHARE von 0, 09525986892242;
Zum Zeitpunkt TIME = 40 ms ein Anteil HB-SHARE von 0,19753086419753;
Zum Zeitpunkt TIME = 60 ms ein Anteil HB-SHARE von 0,36595031245237; und;
Zum Zeitpunkt TIME = 80 ms ein Anteil HB-SHARE von 0, 62429507696997.
Eine weitere Ausfuhrungsform der Erfindung sieht in analoger Weise einen Übergang von einem breitbandigen Sprachsignal auf ein schmalbandiges Rauschsignal vor.
Hierzu wird zunächst in Bezugnahme auf Fig 2A ein leicht abgeändertes Szenario angenommen, bei dem in Abweichung zu dem in Fig. 2A dargestellten Szenario kurz vor dem Zeitpunkt t3 noch eine - nicht dargestellte - Änderung auf eine breit- bandige Übertragung mit 32 kbit/s erfolgt. Trotz dieses »Peaks« bleibt der prozentuale Anteil von breitbandigen aktiven Sprachrahmen sehr niedrig, sodass nunmehr bei Übergang in die DTX-Phase ein Rauschsignal zu synthetisieren ist, dass breitbandig beginnt, jedoch - aufgrund der überwiegend schmalbandigen Ubertragungshistorie und der damit für die Zukunft zu erwartenden Fortsetzung des schmalbandigen Ubertra- gungscharakters - in ein schmalbandiges Rauschsignal uberzu- fuhren ist. Um diesen Übergang von einem breitbandigen
Sprachsignal auf ein schmalbandiges Rauschsignal quais-stetig zu gestalten, wird zum Eintritt in die DTX-Phase mit einem ausschließlich breitbandigen Signal begonnen, d.h. mit einem Anteil HB-SHARE des breitbandigen Rauschens von 1. Zu einem Zeitpunkt von 100 ms ist der schmalbandige Rauschanteil 0. Zum quasi-stetigen Übergang von einem ausschließlich breitbandigen Rauschsignal zum Zeitpunkt des Eintritts in die DTX- Phase auf einem ausschließlich schmalbandigen Rauschsignal zu einem Zeitpunkt nach 100 ms werden in vorteilhafter Weise die oben vorgeschlagenen Werte in einer umgekehrten Reihe eingestellt. Die entspräche einer an der Ordinate HB-SHARE gespiegelten Kurve gemäß Fig. 3.

Claims

Patentansprüche
1. Verfahren zur Dekodierung eines SID-Rahmens (SID) für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungsverfahren mit folgenden Schritten:
Bestimmung eines Anteils an empfangenen breitbandigen Sprachrahmen im Verhältnis zu empfangenen schmalbandigen Sprachrahmen wahrend einer Sprachphase, Dekodierung der in einem SID-Rahmen enthaltenen Hintergrundrauschinformationen bei Eintritt in eine DTX-Phase, wobei die Dekodierung nach Maßgabe des ermittelten Anteils erfolgt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass im Falle einer Bestimmung eines hohen Anteils an empfangenen breitbandigen Sprachrahmen bei Eintritt in die DTX-Phase eine vorwiegend breitbandige Dekodierung der Hintergrundrauschinformationen erfolgt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend breitbandige Dekodierung übergeht.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Übergang in die vorwiegend breitbandige Dekodierung mit einem Anteilsfaktor (HB-SHARE) einstellbar ist, welcher ein Verhältnis zwischen einer breitbandigen und einer schmalban- digen Rauschsignalqualitat ausdruckt.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Anteilsfaktor zum Zeitpunkt des Eintritts in die DTX- Phase zu Null dimensioniert wird.
6. Verfahren nach einem der Ansprüche 4 bis 5, dadurch gekennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase zu Eins dimensioniert wird.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch ge- kennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX- Phase zu 0,09525986892242 dimensioniert wird; zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX- Phase zu 0,19753086419753 dimensioniert wird; - zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX- Phase zu 0,36595031245237 dimensioniert wird; und; zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX- Phase zu 0,62429507696997 dimensioniert wird.
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass im Falle einer Bestimmung eines niedrigen Anteils an empfangenen breitbandigen Sprachrahmen bei Eintritt in die DTX-Phase eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend breit- bandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vor- wiegend schmalbandige Dekodierung übergeht.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Übergang in die vorwiegend schmalbandige Dekodierung mit einem Anteilsfaktor (HB-SHARE) einstellbar ist, welcher ein Verhältnis zwischen einer breitbandigen und einer schmalban- digen Rauschsignalqualitat ausdruckt.
11. Verfahren nach Anspruch 10 dadurch gekennzeichnet, dass der Anteilsfaktor zum Zeitpunkt des Eintritts in die DTX- Phase zu Eins dimensioniert wird.
12. Verfahren nach einem der Ansprüche 10 bis 11, dadurch gekennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase zu Null dimensioniert wird.
13. Verfahren nach einem der Ansprüche 10 bis 12, dadurch ge- kennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX- Phase zu 0,62429507696997 dimensioniert wird; zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX- Phase zu 0,36595031245237 dimensioniert wird; - zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX- Phase zu 0,19753086419753 dimensioniert wird; und; zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX- Phase zu 0,09525986892242 dimensioniert wird.
14. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 13.
15. Codec nach Anspruch 14, gekennzeichnet durch eine Implementierung im an sich bekannten ITU-T Standard G.729.1.
EP09712583.5A 2008-02-19 2009-02-02 Verfahren und mittel zur dekodierung von hintergrundrauschinformationen Active EP2245622B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008009720A DE102008009720A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
PCT/EP2009/051120 WO2009103609A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur dekodierung von hintergrundrauschinformationen

Publications (2)

Publication Number Publication Date
EP2245622A1 true EP2245622A1 (de) 2010-11-03
EP2245622B1 EP2245622B1 (de) 2016-07-13

Family

ID=40790517

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09712583.5A Active EP2245622B1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur dekodierung von hintergrundrauschinformationen

Country Status (8)

Country Link
US (1) US8260606B2 (de)
EP (1) EP2245622B1 (de)
JP (1) JP5006975B2 (de)
KR (1) KR101166650B1 (de)
CN (1) CN101946281B (de)
DE (1) DE102008009720A1 (de)
RU (1) RU2454737C2 (de)
WO (1) WO2009103609A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980790A1 (de) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Komfortgeräuscherzeugungs-Modusauswahl
JP2016038513A (ja) * 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
RU2237296C2 (ru) * 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
EP1808852A1 (de) * 2002-10-11 2007-07-18 Nokia Corporation Verfahren zur Interoperation zwischen adaptiven Breitband-Codecs mit unterschiedlichen Raten und Breitband-Codecs mit mehreren Betriebsarten und variabler Bitrate
JP4438280B2 (ja) * 2002-10-31 2010-03-24 日本電気株式会社 トランスコーダ及び符号変換方法
ES2629727T3 (es) * 2005-06-18 2017-08-14 Nokia Technologies Oy Sistema y método para la transmisión adaptativa de parámetros de ruido de confort durante la transmisión de habla discontinua
CN101263554B (zh) * 2005-07-22 2011-12-28 法国电信公司 在比特率分级和带宽分级的音频解码中的比特率切换方法
EP2276023A3 (de) 2005-11-30 2011-10-05 Telefonaktiebolaget LM Ericsson (publ) Effiziente sprach-strom-umsetzung
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
BRPI0818927A2 (pt) * 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2009103609A1 *

Also Published As

Publication number Publication date
JP2011512564A (ja) 2011-04-21
JP5006975B2 (ja) 2012-08-22
CN101946281A (zh) 2011-01-12
US8260606B2 (en) 2012-09-04
DE102008009720A1 (de) 2009-08-20
US20110040560A1 (en) 2011-02-17
RU2454737C2 (ru) 2012-06-27
EP2245622B1 (de) 2016-07-13
WO2009103609A1 (de) 2009-08-27
CN101946281B (zh) 2012-08-15
RU2010138566A (ru) 2012-03-27
KR20100125340A (ko) 2010-11-30
KR101166650B1 (ko) 2012-07-23

Similar Documents

Publication Publication Date Title
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
EP0667063B1 (de) Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle
DE60214599T2 (de) Skalierbare audiokodierung
DE60120504T2 (de) Verfahren zur transcodierung von audiosignalen, netzwerkelement, drahtloses kommunikationsnetzwerk und kommunikationssystem
DE60117471T2 (de) Breitband-signalübertragungssystem
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
EP1647010B1 (de) Audiodateiformatumwandlung
DE60121592T2 (de) Kodierung und dekodierung eines digitalen signals
WO2002063611A1 (de) Verfahren und vorrichtung zum erzeugen bzw. decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkasse, codierer und skalierbarer codierer
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
EP1979899A1 (de) Verfahren und anordnungen zur audiosignalkodierung
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
WO2002058054A1 (de) Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms
EP1677286A1 (de) Verfahren zur Anpassung von Comfort Noise Generation Parametern
DE69921643T2 (de) Av-signalübertragung mit variabler bitrate in einem paketnetz
DE60304237T2 (de) Sprachkodiervorrichtung und Verfahren mit TFO (Tandem Free Operation) Funktion
EP1390947B1 (de) Verfahren zum signalempfang in einem digitalen kommunikationssystem
DE19727938B4 (de) Verfahren und Vorrichtung zum Codieren von Signalen
EP1433166A1 (de) Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals
DE10339498A1 (de) Audiodateiformatumwandlung
DE19906223B4 (de) Verfahren und Funk-Kommunikationssystem zur Sprachübertragung, insbesondere für digitale Mobilkummunikationssysteme
WO2006072526A1 (de) Verfahren zur bandbreitenerweiterung
DE102008050351A1 (de) System und Verfahren zur Übertragung von Audiodaten an ein Hörgerät
DE19735675A1 (de) Verfahren zum Verschleiern von Fehlern in einem Audiodatenstrom

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20100812

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA RS

RIN1 Information on inventor provided before grant (corrected)

Inventor name: TADDEI, HERVE

Inventor name: SCHANDL, STEFAN

Inventor name: SETIAWAN, PANJI

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502009012809

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0019000000

Ipc: G10L0019012000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 19/24 20130101ALI20150609BHEP

Ipc: G10L 19/012 20130101AFI20150609BHEP

INTG Intention to grant announced

Effective date: 20150706

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20151012

INTG Intention to grant announced

Effective date: 20160224

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 812878

Country of ref document: AT

Kind code of ref document: T

Effective date: 20160715

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502009012809

Country of ref document: DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: FRITZSCHE PATENTANWAELTE, DE

Ref country code: DE

Ref legal event code: R081

Ref document number: 502009012809

Country of ref document: DE

Owner name: UNIFY GMBH & CO. KG, DE

Free format text: FORMER OWNER: UNIFY GMBH & CO. KG, 81379 MUENCHEN, DE

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161113

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161013

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161114

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161014

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502009012809

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161013

26N No opposition filed

Effective date: 20170418

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20170228

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 10

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 812878

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20090202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230217

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20230221

Year of fee payment: 15

Ref country code: DE

Payment date: 20230216

Year of fee payment: 15