EP1390946B1 - Verfahren zur schätzung eines codecparameters - Google Patents

Verfahren zur schätzung eines codecparameters Download PDF

Info

Publication number
EP1390946B1
EP1390946B1 EP02729881A EP02729881A EP1390946B1 EP 1390946 B1 EP1390946 B1 EP 1390946B1 EP 02729881 A EP02729881 A EP 02729881A EP 02729881 A EP02729881 A EP 02729881A EP 1390946 B1 EP1390946 B1 EP 1390946B1
Authority
EP
European Patent Office
Prior art keywords
parameter
time point
frame
interpolation
difference signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
EP02729881A
Other languages
English (en)
French (fr)
Other versions
EP1390946A1 (de
Inventor
Tim Fingscheidt
Jesus Guitarte Perez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1390946A1 publication Critical patent/EP1390946A1/de
Application granted granted Critical
Publication of EP1390946B1 publication Critical patent/EP1390946B1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Definitions

  • the invention relates to a method for estimating a Parameters occurring in the course of speech coding, in particular a filter coefficient, a gain factor, or a basic speech frequency.
  • bits are within of a frame generally a certain set of parameters represent which one depends on the particular one used Source coding method is.
  • the digitized signal within a frame was up the transmission side through the so-called source coding redundancy withdrawn. On the receiving side, this is due to the source decoding, such as speech decoding, largely reversed made.
  • the source decoder for example the speech decoder, must take measures on the receiving side, that such a loss of frame is not audible if possible or in the case of image or video transmissions is not visible.
  • bit errors that is, the reversal of individual bits, within one Framework depending on the system conditions.
  • VoIP Voice over IP
  • a mobile communication system such as GSM or UMTS
  • Buffer memory required because packets received do not arrive in a fixed time grid, but with different ones Delay times arrive (delay jitter).
  • Delay jitter Delay times arrive
  • Such a buffer memory can possibly have several frames to include length, causing too frequent frame losses at cost an increased transmission delay can be prevented can.
  • Speech codec parameters of the lost frames instead a conventional extrapolation advantageous because it Is generally more accurate.
  • a buffer storage and therefore Parameter interpolation can also be used in streaming applications can be realized since they are usually not sensitive regarding the delay time, see e.g. EP-A-0,459,358th
  • a spectral parameter V_i (t) of a speech frame is, for example, the filter coefficient of the time-dependent, digital filter, with the aid of which the vocal tract is modeled: Speech is encoded, for example, using the LPC principle (Linear Predictive Coding). Voiced sounds are generated in this case via a periodic sequence of pulses, unvoiced sounds, for example, by means of a random noise generator (random noise generator).
  • Plosive sounds are simulated by changing the amplification, and the vocal tract is simulated using a time-varying digital filter.
  • the coefficients of this varying digital filter are obtained with the help of linear prediction, that is to say a prediction of the following value on the basis of previous values.
  • Differential or predictive coding is understood an encoding of a parameter at a time n at which also values of the parameter before n Times to be involved.
  • a parameter in the sense of the following explanations can for example a gain factor, a basic speech frequency or be a spectral parameter.
  • Usual forms of presentation spectral parameters are, for example, the filter coefficients itself (in so-called direct form), autocorrelation coefficients, Reflection coefficients or so-called Log-area ratios.
  • a state-of-the-art presentation are for example the ISF (imittance spectral frequencies), LSF (line spectral frequencies) or LSP (line spectral pairs).
  • ISF input spectral frequencies
  • LSF line spectral frequencies
  • LSP line spectral pairs
  • vector quantization is often used for quantization. This is the joint quantization of several X_i (n) for certain values of i.
  • Vector quantization can also mean the joint quantization of two or more different parameter types that occur in a speech coding method.
  • parameter decoding is common in many coding methods currently used, under other, for example, in the AMR and EFR speech coder (adaptive multi-rate or enhanced full-rate). in principle are of course also higher orders of prediction imaginable.
  • equations (1), (2) mentioned regulations for the reduced by the mean Parameter value carried out.
  • the mean becomes Finally added as an addition of a constant.
  • a predictive coding as exemplified above indicates an interpolative determination of the spectral coefficients missing frame disadvantages on:
  • the present invention is therefore based on the object specify a method with which codec parameters are received let determine, even if the underlying Data in single or multiple successive time periods absence.
  • the invention relates to a method for receiving-side estimation of a time-variable parameter at an nth point in time.
  • the parameter was coded predictively on the transmission side and is determined interpolatively on the reception side depending on at least two variables.
  • One interpolation interpolation point, the first variable forms an earlier value of the parameter that has already been decoded, and a second interpolation interpolation point, the second variable, is determined by extrapolative measures.
  • the interpolative determination of the parameter can be carried out by means of known interpolation measures, for example by means of linear interpolation between the first and second variable.
  • a weighted summation is also used for the interpolation.
  • the advantage of this method is that it is interpolated to determine the parameter can, as soon as the second size is known.
  • the invention further relates to a method for receiving Estimation of an assigned to an nth frame Codec parameter.
  • the codec parameter is predictive on the transmission side encoded and is received at the receiving end as a function of at least two signals determined by interpolation.
  • a The interpolation is supported by the previously decoded Parameters of the (n-1) th frame formed, another Support point is determined by the parameter of the mth frame with m > n formed, which is determined by extrapolative measures has been.
  • This indicator size can e.g. B. the "bad frame” indicator BFI.
  • Figure 1 is a simulation of a GSM full rate channel transmission with various C / I ratios (carrier-tointerferer ratio), which describe the channel quality, too see.
  • C / I ratios carrier-tointerferer ratio
  • Curve 1 shows an extrapolation as used in previous decoding methods is used.
  • Curves 2 to 5 show the results for the above embodiment depend on of size K, which is the maximum allowed time delay indicates in frame.

Description

Die Erfindung betrifft ein Verfahren zur Schätzung eines im Zuge einer Sprachcodierung auftretenden Parameters, insbesondere eines Filterkoeffizienten, eines Verstärkungsfaktors, oder einer Sprachgrundfrequenz.
In digitalen Kommunikationssystemen wie dem Internet oder Mobilfunksystemen wie beispielsweise GSM oder UMTS werden Quellcodierverfahren, beispielsweise Sprach-, Audio-, Bildoder Videocodierverfahren eingesetzt, um die zu übertragende Bitrate zu senken. Die Quellcodierverfahren liefern üblicherweise einen Bitstrom, der in Rahmen aufgeteilt ist. Im Falle der Sprachübertragung im GSM-System repräsentiert ein Rahmen sprachcodierter Bits 20 ms des Sprachsignals. Die Bits innerhalb eines Rahmens repräsentieren unter anderem einen bestimmten Satz an Parametern. Diese Parameter beschreiben beispielsweise die spektrale Einhüllende des Sprachsignals, die Sprachgrundfrequenz, oder eine Signalenergie beziehungsweise Verstärkung.
Ein Rahmen ist wiederum vielfach in Subrahmen aufgeteilt, so daß manche Parameter einmal pro Rahmen, andere einmal pro Subrahmen übertragen werden.
Im Falle des US-TDMA Enhanced Fullrate (EFR) Sprachcodecs mit 7.4 kbps enthält ein 20 ms-Rahmen 148 bit. Ein Rahmen besteht hier aus vier Subrahmen. Die Parameter sind hier im einzelnen:
  • Die 10 Koeffizienten eines Filters, welches die spektrale Einhüllende des Sprachsignals im Bereich des aktuellen Rahmens repräsentiert, werden mit 26 Bit pro Rahmen quantisiert. Diese Koeffizienten werden auch Spektralkoeffizienten oder Spektralparameter genannt.
  • Mittels 4x7 bit werden vier Subrahmen eines Anregungssignals für dieses Filter quantisiert.
  • Mittels 2x8 bit und 2x5 bit werden vier Werte einer Sprachgrundfrequenz repräsentiert.
  • Mittels 4x7 bit werden vier Verstärkungsfaktorpaare pro Rahmen vektorquantisiert.
Zusammenfassend läßt sich also sagen, daß die Bits innerhalb eines Rahmens im allgemeinen einen bestimmten Satz an Parametern repräsentieren, welcher abhängig vom jeweils verwendeten Quellcodierverfahren ist.
Dem digitalisierten Signal innerhalb eines Rahmens wurde auf der Sendeseite durch die sogenannte Quellcodierung Redundanz entzogen. Auf der Empfangsseite wird dies durch die Quelldecodierung, etwa die Sprachdecodierung, weitgehend rückgängig gemacht.
Es kann nun passieren, daß einzelne oder auch mehrere aufeinanderfolgende Rahmen verlorengehen oder von einer Netzkomponente als unbrauchbar gekennzeichnet werden. Diese Rahmen, sogenannte "bad frames", können oder sollen dann nicht genutzt werden. Der Quelldecodierer, beispielsweise der Sprachdecodierer, muß auf der Empfangsseite Maßnahmen ergreifen, daß ein solcher Rahmenverlust nach Möglichkeit nicht hörbar beziehungsweise im Falle von Bild- oder Videoübertragungen nicht sichtbar wird.
Im allgemeinen liegt auf der Empfangsseite ein Indikator vor, der anzeigt, ob ein Rahmen fehlerfrei empfangen wurde, der sogenannte bad frame indicator (BFI). BFI = 0 bedeutet im folgenden, daß man davon ausgeht, daß der empfangene Rahmen korrekt ist, während BFI = 1 auf einen Fehler hindeutet, beispielsweise daß kein Rahmen rechtzeitig empfangen wurde oder ein gestörter Rahmen empfangen wurde. Natürlich können Bitfehler, das heißt die Umkehrung einzelner Bits, innerhalb eines Rahmens je nach Systemgegebenheiten auftreten. Diese sollen aber im weiteren entweder keine differenzierte Behandlung auf der Empfangsseite erfahren, oder der entsprechende Rahmen wird mit BFI = 1 gekennzeichnet.
Bisher wird im Falle BFI = 1 aus der Vergangenheit des schon decodierten Sprachsignals beispielsweise durch Korrelationsbildung der gegenwärtige Sprachsignalrahmen geschätzt. Alternativ sind Verfahren bekannt, die aus der Vergangenheit der Sprachcodecparameter die Parameter des aktuellen Rahmens schätzen, und dann den Decodierer in ähnlicher Weise arbeiten lassen, als wären diese geschätzten Parameterwerte korrekt. Hierbei handelt es sich in der Regel um extrapolative Verfahren, die nur auf die schon empfangenen Bits oder Parameterwerte zurückgreifen.
Bei der Sprachübertragung über das Internet, beispielsweise Voice over IP (VoIP), oder bei der Sprachübertragung über das Internet in Verbindung mit einem Mobilkommunikationssystem (wie beispielsweise GSM oder UMTS) ist empfangsseitig ein Pufferspeicher (Buffer) erforderlich, da empfangene Pakete nicht in einem festen Zeitraster eintreffen, sondern mit unterschiedlichen Verzögerungszeiten ankommen (delay jitter). Ein solcher Pufferspeicher kann gegebenenfalls mehrere Rahmen an Länge umfassen, wodurch zu häufige Rahmenverluste auf Kosten einer erhöhten Übertragungsverzögerung verhindert werden können. Es tritt jedoch auch häufig der Fall ein, daß mehrere aufeinanderfolgende Rahmen verlorengehen, aber der darauffolgende Rahmen korrekt empfangen ist. In solchen Fällen ist bei der Verwendung eines Pufferspeichers eine Interpolation der Sprachcodecparameter der verlorengegangenen Rahmen anstelle einer konventionellen Extrapolation vorteilhaft, da sie im Allgemeinen genauer ist. Eine einfache Lösung wäre eine lineare Interpolation auf der Basis der Parameterwerte des letzten decodierten Rahmens (Zeitpunkt t=n-1) und der Parameterwerte des korrekt empfangenen Rahmens (Zeitpunkt t=m>n) über alle m-n dazwischenliegenden verlorengegangenen Rahmen (Zeitpunkte t=n, n+1, ..., m-1). Ein Pufferspeicher und damit eine Parameterinterpolation kann auch bei Streaming-Anwendungen realisiert werden, da sie in der Regel nicht sensitiv bezüglich der Verzögerungszeit sind, siehe z.B. EP-A-0459358.
Nachteilig wirkt sich jedoch dabei aus, daß es Parameter gibt, die nicht einfach interpoliert werden können. Dazu zählen oftmals die Verstärkungsfaktoren, die Sprachgrundfrequenzwerte oder auch die Spektralparameter V_i(t) eines Sprachrahmens zum Zeitpunkt t, weil sie differentiell codiert sind. Ein Spektralparameter V_i(t) eines Sprachrahmens ist im Falle einer Sprachcodierung beispielsweise der Filterkoeffizient des zeitabhängigen, digitalen Filters, mit dessen Hilfe der Vokaltrakt modelliert wird:
Sprache wird beispielsweise mittels des LPC-Prinzips (Linear Predictive Coding) codiert. Stimmhafte Laute werden in diesem Falle über eine periodische Folge von Impulsen generiert, stimmlose Laute beispielsweise mittels eines Zufallsrauschens-Generators (Random Noise Generator). Plosivlaute werden mit Hilfe einer Veränderung der Verstärkung, und der Stimmtrakt mit Hilfe eines zeitlich variierenden digitalen Filters simuliert. Die Koeffizienten dieses variierenden digitalen Filters erhält man mit Hilfe der linearen Prädiktion, also einer Vorhersage des folgenden Wertes auf der Basis von vorhergehenden Werten.
Unter differentieller oder prädiktiver Codierung versteht man eine Codierung eines Parameters zu einem Zeitpunkt n, bei der auch Werte des Parameters zu vor dem Zeitpunkt n liegenden Zeiten miteinbezogen werden.
Ein Parameter im Sinne der nachfolgenden Ausführungen kann beispielsweise ein Verstärkungsfaktor, eine Sprachgrundfrequenz oder ein Spektralparameter sein. Übliche Darstellungsformen von Spektralparametern sind beispielsweise die Filterkoeffizienten selbst (in sogenannter direkter Form), Autokorrelationskoeffizienten, Reflexionskoeffizienten oder sogenannte Log-area-Ratios. Eine State-of-the-Art-Darstellung sind beispielsweise die ISF (imittance spectral frequencies), LSF (line spectral frequencies) beziehungsweise LSP (line spectral pairs). Der Einfachheit halber wird ein Parameter im folgenden ohne Beschränkung der Allgemeinheit als Spektralkoeffizient angenommen.
Eine differentielle Codierung und Decodierung des Parameters V_i(t) kann beispielsweise in folgender Weise erfolgen: Sendeseitig wird ein Differenzsignal X_i(t=n) bestimmt gemäß: X_i(n) = V_i(n)-a_i*Q[X_i(n-1)],   i=1,2,...,10, wobei V_i(n) der zu codierende Parameter ist, a_i ein Prädiktionskoeffizient, und Q[X_i(n-1)] das quantisierte Differenzsignal, das für die Codierung von V_i(n-1) im vorangegangenen Rahmen bestimmt worden ist. Zur Quantisierung wird oftmals eine sogenannte Vektorquantisierung verwendet. Darunter versteht man die gemeinsame Quantisierung mehrerer X_i(n) für bestimmte Werte von i. Eine Vektorquantisierung kann auch die gemeinsame Quantisierung zweier oder mehrerer unterschiedlicher, in einem Sprachcodierverfahren auftretenden Parametertypen bedeuten. Im beschriebenen Fall könnte eine Vektorquantisierung folgendermaßen aussehen: i=1,2,3, und i=4,5,6 und i=7,8,9,10. Das quantisierte Differenzsignal Q[X_i(n)], i=1,2,...,10 wird also durch eine Anzahl von Bits repräsentiert, beispielsweise 26 Bit pro Rahmen, und übertragen.
Aus Gleichung (1) ist ersichtlich, daß eine derartige Codierung zu einer Datenkompression führt: Der Speicheraufwand für die Differenzwerte X_i, welche die Differenz von beinahe gleich großen Zahlen darstellen, ist geringer als für die Werte von V_i.
Empfangsseitig wird ein quantisierter Wert W_i(n) des Spektralparameters V_i(n) aus dem aktuell empfangenen Differenzsignalwert Q[X_i(n)] und dem zuvor empfangenen Q[X_i(n-1)] rekonstruiert: W_i(n) = a_i*Q[X_i(n-1)] + Q[X_i(n)],   i=1,2,..,10
Die hier beschriebene Form der Parameterdecodierung ist üblich in vielen gegenwärtig benutzten Codierverfahren, unter anderem beispielsweise im AMR- und EFR-Sprachcodierer (adaptive multi-rate beziehungsweise enhanced full-rate). Prinzipiell sind natürlich auch höhere Ordnungen der Prädiktion vorstellbar. Üblicherweise werden die in den Gleichungen (1), (2) genannten Vorschriften für den um den Mittelwert geminderten Parameterwert durchgeführt. Der Mittelwert wird zum Schluß als Addition einer Konstanten wieder hinzugefügt.
Eine prädiktive Codierung, wie sie oben beispielhaft dargestellt ist, weist für eine interpolative Bestimmung der Spektralkoeffizienten fehlender Rahmen Nachteile auf:
Bei einer prädiktiven Quantisierung erster Ordnung (siehe Gleichungen (1) und (2)) ist es für eine interpolative Bestimmung des quantisierten Parameterwertes W_i(n) erforderlich, daß zwei aufeinanderfolgende Werte des quantisierten Differenzsignales {Q[X_i(m)], Q[X_i(m+1)]} empfangen werden, was gerade bei paketvermittelten Übertragungsweisen oft nicht der Fall ist. Dieser Sachverhalt wird im folgenden etwas genauer beleuchtet; dazu wird das quantisierte Differenzsignal Q[X_i(n)] im folgenden als Größe Y_i(n) bezeichnet:
Es gilt also: W_i(n) = a_i * Y_i(n-1) + Y_i(n),   i=1,2,..,10.
Es sei im folgenden angenommen, daß der letzte, bereits gemäß Gleichung (3) decodierte Rahmen zum Zeitpunkt t = n-1 gehört, und daß aktuell der Rahmen t = n decodiert werden soll, aber BFI(n) = 1 gilt, also ein "schlechter" Rahmen vorliegt. Es sei nun der Rahmen t = m > n der erste Rahmen nach t = n-1, für den BFI = 0 gilt. Die Spektralkoeffizienten aller anderen m-n dazwischenliegenden Rahmen mit BFI = 1 sollen nun interpoliert werden. Der Spektralkoeffizient W_i(n-1) bildet nun die untere (das heißt in der Vergangenheit liegende) Stützstelle der Interpolation. Der Spektralkoeffizient W_i(m) sollte normalerweise die obere (das heißt in der Zukunft liegende) Stützstelle der Interpolation bilden. Er kann bei prädiktiver Codierung jedoch nicht berechnet werden, da für Gleichung (3) zwar die Größe Y_i(m) empfangen wurde, Y_i(m-1) aber nach Voraussetzung fehlt. Erst nach zwei aufeinanderfolgenden korrekt empfangenen Rahmen m und m+1 könnte ein Spektralkoeffizient W_i(m+1) = a_i * Y_i(m) + Y_i(m+1) berechnet werden und empfangsseitig als Stützstelle zu einer Interpolation dienen. Dies verlangt jedoch prinzipiell eine zusätzliche Verzögerung von einem Rahmen, was zumindest für bidirektionale Sprachübertragung ein erhebliches Problem darstellt, beziehungsweise zwei aufeinanderfolgende Rahmen mit BFI = 0, was insbesondere bei paketvermittelten Übertragungsmodi nicht immer gegeben ist.
Bei Prädiktion L-ter Ordnung verschärft sich das Problem bei den oben genannten Aspekten entsprechend: Die differentielle Decodierung nach Gleichung (2) erfordert L+1 aufeinanderfolgende Größen oder Differenzsignale Y_i(t), das heißt zur Interpolation der Spektralkoeffizienten vorangegangener Rahmen mit BFI = 1 muß eine Anzahl von L+1 aufeinanderfolgenden korrekten Rahmen empfangen werden, um im letzten dieser Rahmen wieder einen völlig fehlerfreien Satz von Spektralkoeffizienten und damit eine obere Stützstelle zur Interpolation zu erhalten.
Auch wenn in gängigen Sprachcodierverfahren aus dem Grunde der Fehlerfortpflanzung oftmals eine lineare Prädiktion mit L=1 gewählt ist, so läßt sich zusammenfassend sagen, daß doch zwei aufeinanderfolgende korrekte Rahmen empfangen werden müssen, bevor man wieder einen korrekten Spektralkoeffizienten W_i(m+1) erhält. Dies ist statistisch gesehen natürlich weniger wahrscheinlich, als der Empfang eines korrekten Rahmens. Diese Tatsache resultiert in der Regel in höheren Verzögerungszeiten, was für echtzeit-sensitive Applikationen nicht tolerierbar ist.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren anzugeben, mit dem sich Codecparameter empfangsseitig bestimmen lassen, auch wenn die zugrundeliegenden Daten in einzelnen oder mehreren aufeinanderfolgenden Zeitbereichen fehlen.
Diese Aufgabe wird durch den unabhängigen Anspruch 1 gelöst. Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.
Die Erfindung betrifft ein Verfahren zur empfangsseitigen Schätzung eines zeitlich variablen Parameters zu einem n-ten Zeitpunkt. Der Parameter wurde sendeseitig prädiktiv codiert und wird empfangsseitig in Abhängigkeit von mindestens zwei Größen interpolativ ermittelt. Eine Stützstelle der Interpolation, die erste Größe, bildet ein früherer Wert des Parameters, der bereits decodiert wurde, eine zweite Stützstelle der Interpolation, die zweite Größe, wird durch extrapolative Maßnahmen ermittelt.
Die interpolative Ermittlung des Parameters kann mittels bekannter Interpolationsmaßnahmen, beispielsweise mittels linearer Interpolation zwischen erster und zweiter Größe erfolgen. Bei einer Ausführungsvariante wird zur Interpolation auch eine gewichtete Summation verwendet.
Der Vorteil dieses Verfahrens liegt darin, daß eine Interpolation zur Ermittlung des Parameters durchgeführt werden kann, sobald die zweite Größe bekannt ist.
Die Erfindung betrifft ferner ein Verfahren zur empfangsseitigen Schätzung eines einem n-ten Rahmen zugeordneten Codecparameters. Der Codecparameter ist sendeseitig prädiktiv codiert und wird empfangsseitig als Funktion von zumindest zwei Signalen mittels einer Interpolation bestimmt. Eine Stützstelle der Interpolation wird durch den zuvor decodierten Parameter des (n-1)-ten Rahmens gebildet, eine weitere Stützstelle wird durch den Parameter des m-ten Rahmens mit m > n gebildet, welcher durch extrapolative Maßnahmen ermittelt wurde.
Eine Weiterbildung besteht darin, daß eine Interpolation dann erfolgt, sobald die Daten eines korrekten Rahmens vorliegen. Dies hat den Vorteil einer kurzen Verzögerungszeit bei gleichzeitigem Einsatz einer interpolativen Maßnahme zur Parameterschätzung.
Eine andere Weiterbildung sieht vor, daß die Qualität des Empfangs durch eine Indikatorgröße angezeigt wird. Diese Indikatorgröße kann z. B. der "bad frame"-Indicator BFI sein.
Die Erfindung wird im Folgenden anhand einiger Ausführungsbeispiele genauer erläutert.
Im weiteren zeigt
Figur 1
die Simulationsergebnisse einer GSM-Vollratenkanal-Übertragung, wobei die Ergebnisse verschiedener Extrapolationsmethoden dargestellt sind.
In einer möglichen Ausführungsform werden die differentiell codierten Parameter einem Vorgehen unterzogen, welches aus zwei Schritten besteht: Zunächst werden die Parameter der Rahmen, bei denen ein schlechter Empfang, BFI = 1, vorliegt, extrapolativ geschätzt. Auf dieser Grundlage kann nun der erste wieder korrekt empfangene Rahmen decodiert werden. Er bildet dann die Basis für eine interpolative Neuschätzung der Parameter der davorliegenden Rahmen mit BFI = 1.
Bei jedem empfangenen Rahmen mit BFI = 1, also einem nicht fehlerfrei vorliegenden Rahmen, ist es vorgesehen, zunächst eine konventionelle Extrapolation der Parameter vorzunehmen. Dies umfaßt (zumindest im letzten Rahmen mit BFI=1 vor einem Rahmen mit BFI=0) bei differentiell codierten Parametern eine Berechnung des quantisierten Differenzsignals oder der Größe Y "im Nachhinein". Dieses konventionelle Vorgehen sieht im eingangs angegebenen Beispiel vor, daß nach der extrapolativen Bestimmung von W_i(n) im Rahmen t = n nach Gleichung (3) die Größe Y_i(n) bestimmt wird durch Umstellung von Gleichung (3): Y_i(n) = W_i(n) - a_i * Y_i(n-1),   i=1,2,...,10,
Damit liegt zum Zeitpunkt t = n+1 wieder ein Differenzsignal des vorangegangenen Rahmens vor, also Y_i(n), so daß jederzeit wieder mittels Gleichung (3) decodiert werden kann. Durch das (vorläufige) extrapolative Vorgehen kann also eine obere Stützstelle W_i(m) bestimmt werden, wenn denn nur für den Rahmen m BFI(m) = 0 gilt. Kein weiterer korrekter Rahmen ist erforderlich. Die Interpolation der m-n zurückliegenden Rahmen kann direkt zum Zeitpunkt t = m erfolgen.
Wegen des Gedächtnisses der differentiellen Codierung ist die Stützstelle W_i(m) mit Fehlern behaftet. Dieser Fehler verschwindet vollständig nur beim Empfang von L aufeinanderfolgenden Rahmen mit BFI = 0. Eigene, zum Testen dieses Verfahrens durchgeführte Simulationen zeigen jedoch, daß W_i(m) als obere Stützstelle verwendet werden kann, um eine gegenüber dem Stand der Technik wesentlich verbesserte Approximation der Parameter zu ermöglichen. Der wesentliche Vorteil dieses Verfahrens ist, dass ein Fehlerburst, das heißt eine Folge von m-n bad frames, durch Abwarten eines einzigen korrekten Rahmens interpoliert werden kann, und zwar auch, wenn differentiell codierte Parameter vorhanden sind. Keine zusätzliche Verzögerung ist nötig; außerdem wird der statistisch seltenere Fall von L aufeinanderfolgenden Rahmen mit BFI = 0 nicht vorausgesetzt.
In einem ersten Ausführungsbeispiel werden nun differentiell, mit einer Prädiktion erster Ordnung, also L=1, codierte Parameter betrachtet:
Dazu werden folgende Annahmen getroffen:
  • Der Spektralkoeffizient W_i(n-1) sei bereits decodiert,
  • Y_i(n-1) liege entweder empfangen [BFI(n-1)=0] oder nach Gleichung (4) rekonstruiert vor [BFI(n-1)=1].
  • Als Resultat des nachfolgend genannten rekursiven Algorithmus' liegen auch Y_i(n), ..., Y_i(n+K-1) vor.
  • Der aktuelle Zeitpunkt sei t = n+K, zu diesem Zeitpunkt solle der Spektralkoeffizient W_i(n) bestimmt werden.
Das heißt also, daß eine Zeitverzögerung von K Rahmen zur Interpolation erlaubt ist.
Das Vorgehen erfolgt nun in zwei Schritten:
  • a) Operationen am Rahmen n+K:
  • Falls BFI(n+K) = 0: Berechne W_i(n+K) nach Gleichung (3).
  • Falls BFI(n+K) = 1: Berechne eine vorläufige extrapolierte Version W_i(n+K) mit einem beliebigen extrapolativen Verfahren.
  • b) Decodiere den Rahmen n:
  • Falls BFI(n) = 0: Berechne W_i(n) nach Gleichung (3).
  • Falls BFI(n) = 1: Berechne m > n, wobei m der erste Rahmen mit BFI(m) = 0 nach dem Rahmen n ist.
  • Falls m > n+K: Berechne mit einem beliebigen Extrapolationsverfahren W_i(n).
  • Falls m <= n+K: Dann liegt für Rahmen m als korrekt empfangener Rahmen ja bereits ein vorläufig extrapolativ bestimmter Spektralkoeffizientwert W_i(m) vor. Er bildet die obere (oder zukünftige) Stützstelle für eine Interpolation des Parameters W_i(n). Die untere (oder zurückliegende) Stützstelle sei der Spektralkoeffizient W_i(n-1).
  • Man kann nun zum Beispiel eine lineare Interpolation durchführen. Dies geschieht unter Berücksichtigung der zeitlichen Abstände des Rahmens n zu den Stützstellen durch: W_i(n) = [W_i(n-1) - W_i(m)] * (m-n) / (m-n+1) + W_i(m). Die obere Stützstelle W_i(m) ist bereits vorläufig extrapolativ bestimmt, die untere Stützstelle W_i(n-1) bereits endgültig decodiert.
    In Figur 1 ist eine Simulation einer GSM-Vollratenkanal-Übertragung mit diversen C/I-Verhältnissen (carrier-tointerferer-ratio), welche die Kanalqualität beschreiben, zu sehen. Für die Kurven ist die spektrale Verzerrung (spectral distortion, SD), ein übliches Qualitätsmaß für die Codierung beziehungsweise Übertragung von Spektralkoeffizienten gegen das C/I-Verhältnis aufgetragen. Je höher die SD ist, umso schlechter ist die empfangsseitige Sprachqualität.
    Kurve 1 zeigt eine Extrapolation, wie sie in bisherigen Decodierungsmethoden verwendet wird. Die Kurven 2 bis 5 zeigen die Ergebnisse für das obige Ausführungsbeispiel in Abhängigkeit von der Größe K, welche die maximal erlaubte Zeitverzögerung in Rahmen angibt. Dabei weist Kurve 2 eine Verzögerung um einen Rahmen (K=1), Kurve 3 eine Verzögerung um zwei Rahmen (K=2), Kurve 4 eine Verzögerung um drei Rahmen (K=3) und Kurve 5 eine Verzögerung von vier Rahmen (K=4) auf.
    Man sieht, daß schon mit einer Verzögerung von einem einzigen Rahmen (K=1) ein enormer Gewinn zu erzielen ist, mehr als K=2 zukünftige Rahmen bringen keinen großen zusätzlichen Gewinn. Diese Simulationsergebnisse sind äußerst vorteilhaft für die Übertragung echtzeitsensitiver Applikationen, da hier ja nur eine geringe Verzögerung erlaubt ist. Bei sehr niedrigen C/I-Verhältnissen sieht man jedoch leichte Unterschiede für die verschiedenen Verzögerungswerte (K=1,2,3,4). Die Ursache hierfür ist, daß bei einem derart schlechten C/I-Verhältnis häufig mehrere aufeinanderfolgende Rahmen "bad frames" sind.
    Neben den oben erläuterten Beispielen liegt eine Vielzahl weiterer Ausführungsvarianten im Rahmen der durch die Patentansprüche definierten Erfindung, die hier nicht weiter beschrieben werden. Sie lassen sich aber anhand der vorausgegangenen Ausführungen vom Fachmann ohne großen Aufwand in die Praxis umsetzen.

    Claims (4)

    1. Verfahren zur empfangsseitigen Schätzung des Wertes eines zeitlich variablen Parameters zu einem n-ten Zeitpunkt,
      bei dem der Parameter sendeseitig prädiktiv codiert ist und durch diese Codierung ein zum Zeitpunkt n gehörendes quantisiertes Differenzsignal zwischen dem Wert des Parameters zum n-ten Zeitpunkt und dem quantisierten Differenzsignal an dem (n-1)-ten Zeitpunkt gebildet wird, welches übertragen wird,
      bei dem empfangsseitig ein Indikator vorliegt, der anzeigt, ob für den n-ten Zeitpunkt ein korrekt empfangenes quantisiertes Differenzsignal vorliegt oder nicht,
      bei dem der Parameter empfangsseitig als Funktion von mindestens zwei Größen durch Interpolation ermittelt wird, falls das zugehörige Differenzsignal nicht korrekt empfangen vorliegt und dabei
      die erste Größe eine erste Stützstelle darstellt, welche durch einen Wert des decodierten Parameters gebildet wird, der einem früheren als dem n-ten Zeitpunkt zugeordnet ist, und
      bei dem die zweite Größe eine weitere Stützstelle der Interpolation darstellt, welche durch einen weiteren Wert des Parameters zu einem m-ten Zeitpunkt, welcher nach dem n-ten Zeitpunkt liegt, gebildet wird und dieser weitere Wert des Parameters durch Extrapolation ermittelt wird.
    2. Verfahren nach Anspruch 1, bei dem zum n-ten Zeitpunkt gehörende Daten in einem n-ten Rahmen übertragen werden und es sich bei dem zeitlich variablen Parameter um einen Codecparameter handelt.
    3. Verfahren nach Anspruch 1 oder 2, bei dem das sendeseitige quantisierte Differenzsignal zum (n-1)-ten Zeitpunkt zur Bildung des quantisierten Differenzsignals zum n-ten Zeitpunkt mit einem Prädiktionskoeffizienten gewichtet wird.
    4. Verfahren nach einem der vorangegangenen Ansprüche, bei dem eine Interpolation durchgeführt wird, sobald die Daten zu nur einem korrekten Rahmen empfangen werden.
    EP02729881A 2001-05-18 2002-04-26 Verfahren zur schätzung eines codecparameters Expired - Fee Related EP1390946B1 (de)

    Applications Claiming Priority (3)

    Application Number Priority Date Filing Date Title
    DE10124421A DE10124421C1 (de) 2001-05-18 2001-05-18 Verfahren zur Schätzung eines Codecparameters
    DE10124421 2001-05-18
    PCT/DE2002/001546 WO2002095733A1 (de) 2001-05-18 2002-04-26 Verfahren zur schätzung eines codecparameters

    Publications (2)

    Publication Number Publication Date
    EP1390946A1 EP1390946A1 (de) 2004-02-25
    EP1390946B1 true EP1390946B1 (de) 2004-10-06

    Family

    ID=7685380

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP02729881A Expired - Fee Related EP1390946B1 (de) 2001-05-18 2002-04-26 Verfahren zur schätzung eines codecparameters

    Country Status (5)

    Country Link
    US (1) US20040138878A1 (de)
    EP (1) EP1390946B1 (de)
    CN (1) CN1244905C (de)
    DE (2) DE10124421C1 (de)
    WO (1) WO2002095733A1 (de)

    Families Citing this family (4)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    SE0301272D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Adaptive voice enhancement for low bit rate audio coding
    CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
    CN103219998B (zh) * 2013-03-27 2016-01-20 哈尔滨工业大学 一种多通道压缩感知框架下的混合参数估计方法
    US11582462B1 (en) 2021-07-14 2023-02-14 Meta Platforms, Inc. Constraint-modified selection of video encoding configurations

    Family Cites Families (7)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
    US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
    US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
    US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
    US5550543A (en) * 1994-10-14 1996-08-27 Lucent Technologies Inc. Frame erasure or packet loss compensation method
    US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
    US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment

    Also Published As

    Publication number Publication date
    DE50201242D1 (de) 2004-11-11
    DE10124421C1 (de) 2002-10-17
    WO2002095733A1 (de) 2002-11-28
    CN1509468A (zh) 2004-06-30
    CN1244905C (zh) 2006-03-08
    EP1390946A1 (de) 2004-02-25
    US20040138878A1 (en) 2004-07-15

    Similar Documents

    Publication Publication Date Title
    DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
    DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
    DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
    DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
    DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
    DE60034484T2 (de) Verfahren und vorrichtung in einem kommunikationssystem
    DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
    DE60220485T2 (de) Verfahren und Vorrichtung zur Verschleierung von Rahmenausfall von prädiktionskodierter Sprache unter Verwendung von Extrapolation der Wellenform
    DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
    AT405346B (de) Verfahren zum herleiten der nachwirkperiode in einem sprachdecodierer bei diskontinuierlicher übertragung, sowie sprachcodierer und sender-empfänger
    DE60117471T2 (de) Breitband-signalübertragungssystem
    DE60132217T2 (de) Übertragungsfehler-verdeckung in einem audiosignal
    DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
    DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
    DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
    DE60316396T2 (de) Interoperable Sprachkodierung
    DE60121201T2 (de) Verfahren und vorrichtung zur verschleierung von fehlerhaften rahmen während der sprachdekodierung
    DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
    EP1388147B1 (de) Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
    DE69911169T2 (de) Verfahren zur dekodierung eines audiosignals mit korrektur von übertragungsfehlern
    EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
    DE4237563A1 (de)
    EP2385521A1 (de) Steganographie in digitalen Signal-Codierern
    EP1953739A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung
    DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    17P Request for examination filed

    Effective date: 20031028

    AK Designated contracting states

    Kind code of ref document: A1

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

    GRAP Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOSNIGR1

    RIN1 Information on inventor provided before grant (corrected)

    Inventor name: GUITARTE PEREZ, JESUS

    Inventor name: FINGSCHEIDT, TIM

    GRAS Grant fee paid

    Free format text: ORIGINAL CODE: EPIDOSNIGR3

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): DE FR GB

    RBV Designated contracting states (corrected)

    Designated state(s): DE FR GB

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: FG4D

    Free format text: NOT ENGLISH

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)
    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: GERMAN

    REF Corresponds to:

    Ref document number: 50201242

    Country of ref document: DE

    Date of ref document: 20041111

    Kind code of ref document: P

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FD4D

    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    ET Fr: translation filed
    26N No opposition filed

    Effective date: 20050707

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20130620

    Year of fee payment: 12

    Ref country code: GB

    Payment date: 20130415

    Year of fee payment: 12

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: FR

    Payment date: 20130430

    Year of fee payment: 12

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R119

    Ref document number: 50201242

    Country of ref document: DE

    GBPC Gb: european patent ceased through non-payment of renewal fee

    Effective date: 20140426

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: ST

    Effective date: 20141231

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R119

    Ref document number: 50201242

    Country of ref document: DE

    Effective date: 20141101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20140426

    Ref country code: DE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20141101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: FR

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20140430