EP1390946B1

EP1390946B1 - Method for estimating a codec parameter

Info

Publication number: EP1390946B1
Application number: EP02729881A
Authority: EP
Inventors: Tim Fingscheidt; Jesus Guitarte Perez
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2001-05-18
Filing date: 2002-04-26
Publication date: 2004-10-06
Anticipated expiration: 2022-04-26
Also published as: DE50201242D1; EP1390946A1; DE10124421C1; CN1244905C; US20040138878A1; WO2002095733A1; CN1509468A

Description

Die Erfindung betrifft ein Verfahren zur Schätzung eines im Zuge einer Sprachcodierung auftretenden Parameters, insbesondere eines Filterkoeffizienten, eines Verstärkungsfaktors, oder einer Sprachgrundfrequenz.The invention relates to a method for estimating a Parameters occurring in the course of speech coding, in particular a filter coefficient, a gain factor, or a basic speech frequency.

In digitalen Kommunikationssystemen wie dem Internet oder Mobilfunksystemen wie beispielsweise GSM oder UMTS werden Quellcodierverfahren, beispielsweise Sprach-, Audio-, Bildoder Videocodierverfahren eingesetzt, um die zu übertragende Bitrate zu senken. Die Quellcodierverfahren liefern üblicherweise einen Bitstrom, der in Rahmen aufgeteilt ist. Im Falle der Sprachübertragung im GSM-System repräsentiert ein Rahmen sprachcodierter Bits 20 ms des Sprachsignals. Die Bits innerhalb eines Rahmens repräsentieren unter anderem einen bestimmten Satz an Parametern. Diese Parameter beschreiben beispielsweise die spektrale Einhüllende des Sprachsignals, die Sprachgrundfrequenz, oder eine Signalenergie beziehungsweise Verstärkung.
Ein Rahmen ist wiederum vielfach in Subrahmen aufgeteilt, so daß manche Parameter einmal pro Rahmen, andere einmal pro Subrahmen übertragen werden.
Im Falle des US-TDMA Enhanced Fullrate (EFR) Sprachcodecs mit 7.4 kbps enthält ein 20 ms-Rahmen 148 bit. Ein Rahmen besteht hier aus vier Subrahmen. Die Parameter sind hier im einzelnen:

Die 10 Koeffizienten eines Filters, welches die spektrale Einhüllende des Sprachsignals im Bereich des aktuellen Rahmens repräsentiert, werden mit 26 Bit pro Rahmen quantisiert. Diese Koeffizienten werden auch Spektralkoeffizienten oder Spektralparameter genannt.
Mittels 4x7 bit werden vier Subrahmen eines Anregungssignals für dieses Filter quantisiert.
Mittels 2x8 bit und 2x5 bit werden vier Werte einer Sprachgrundfrequenz repräsentiert.
Mittels 4x7 bit werden vier Verstärkungsfaktorpaare pro Rahmen vektorquantisiert.

In digital communication systems such as the Internet or mobile radio systems such as GSM or UMTS, source coding methods, for example voice, audio, image or video coding methods, are used in order to reduce the bit rate to be transmitted. The source coding methods usually provide a bit stream that is divided into frames. In the case of voice transmission in the GSM system, a frame of voice-coded bits represents 20 ms of the voice signal. The bits within a frame represent, among other things, a certain set of parameters. These parameters describe, for example, the spectral envelope of the speech signal, the basic speech frequency, or a signal energy or amplification.
A frame is again often divided into subframes, so that some parameters are transmitted once per frame, others once per subframe.
In the case of the US TDMA Enhanced Full Rate (EFR) speech codec with 7.4 kbps, a 20 ms frame contains 148 bits. A frame here consists of four subframes. The parameters here are:

The 10 coefficients of a filter, which represents the spectral envelope of the speech signal in the area of the current frame, are quantized with 26 bits per frame. These coefficients are also called spectral coefficients or spectral parameters.
Four subframes of an excitation signal for this filter are quantized using 4x7 bits.
Using 2x8 bit and 2x5 bit, four values of a basic speech frequency are represented.
Four pairs of amplification factors per frame are vector-quantized using 4x7 bits.

Zusammenfassend läßt sich also sagen, daß die Bits innerhalb eines Rahmens im allgemeinen einen bestimmten Satz an Parametern repräsentieren, welcher abhängig vom jeweils verwendeten Quellcodierverfahren ist.In summary, it can be said that the bits are within of a frame generally a certain set of parameters represent which one depends on the particular one used Source coding method is.

Dem digitalisierten Signal innerhalb eines Rahmens wurde auf der Sendeseite durch die sogenannte Quellcodierung Redundanz entzogen. Auf der Empfangsseite wird dies durch die Quelldecodierung, etwa die Sprachdecodierung, weitgehend rückgängig gemacht.The digitized signal within a frame was up the transmission side through the so-called source coding redundancy withdrawn. On the receiving side, this is due to the source decoding, such as speech decoding, largely reversed made.

Es kann nun passieren, daß einzelne oder auch mehrere aufeinanderfolgende Rahmen verlorengehen oder von einer Netzkomponente als unbrauchbar gekennzeichnet werden. Diese Rahmen, sogenannte "bad frames", können oder sollen dann nicht genutzt werden. Der Quelldecodierer, beispielsweise der Sprachdecodierer, muß auf der Empfangsseite Maßnahmen ergreifen, daß ein solcher Rahmenverlust nach Möglichkeit nicht hörbar beziehungsweise im Falle von Bild- oder Videoübertragungen nicht sichtbar wird.It can now happen that one or more consecutive Frame is lost or from a network component be marked as unusable. These frames, So-called "bad frames" cannot or should not be used then become. The source decoder, for example the speech decoder, must take measures on the receiving side, that such a loss of frame is not audible if possible or in the case of image or video transmissions is not visible.

Im allgemeinen liegt auf der Empfangsseite ein Indikator vor, der anzeigt, ob ein Rahmen fehlerfrei empfangen wurde, der sogenannte bad frame indicator (BFI). BFI = 0 bedeutet im folgenden, daß man davon ausgeht, daß der empfangene Rahmen korrekt ist, während BFI = 1 auf einen Fehler hindeutet, beispielsweise daß kein Rahmen rechtzeitig empfangen wurde oder ein gestörter Rahmen empfangen wurde. Natürlich können Bitfehler, das heißt die Umkehrung einzelner Bits, innerhalb eines Rahmens je nach Systemgegebenheiten auftreten. Diese sollen aber im weiteren entweder keine differenzierte Behandlung auf der Empfangsseite erfahren, oder der entsprechende Rahmen wird mit BFI = 1 gekennzeichnet.Generally there is an indicator on the receiving side indicating whether a frame was received without errors, the so-called bad frame indicator (BFI). BFI = 0 means in following that one assumes that the received frame is correct, while BFI = 1 indicates an error, for example that no frame was received in time or a disturbed frame was received. Of course, bit errors, that is, the reversal of individual bits, within one Framework depending on the system conditions. These are supposed to but in the further either no differentiated treatment experienced on the reception side, or the appropriate framework is marked with BFI = 1.

Bisher wird im Falle BFI = 1 aus der Vergangenheit des schon decodierten Sprachsignals beispielsweise durch Korrelationsbildung der gegenwärtige Sprachsignalrahmen geschätzt. Alternativ sind Verfahren bekannt, die aus der Vergangenheit der Sprachcodecparameter die Parameter des aktuellen Rahmens schätzen, und dann den Decodierer in ähnlicher Weise arbeiten lassen, als wären diese geschätzten Parameterwerte korrekt. Hierbei handelt es sich in der Regel um extrapolative Verfahren, die nur auf die schon empfangenen Bits oder Parameterwerte zurückgreifen.So far, in the case of BFI = 1, the past has already been decoded speech signal, for example by correlation formation the current speech signal frame is estimated. alternative are known from the past Speech codec parameters are the parameters of the current frame estimate, and then operate the decoder in a similar manner leave as if these estimated parameter values were correct. These are usually extrapolative processes, only on the bits or parameter values already received To fall back on.

Bei der Sprachübertragung über das Internet, beispielsweise Voice over IP (VoIP), oder bei der Sprachübertragung über das Internet in Verbindung mit einem Mobilkommunikationssystem (wie beispielsweise GSM oder UMTS) ist empfangsseitig ein Pufferspeicher (Buffer) erforderlich, da empfangene Pakete nicht in einem festen Zeitraster eintreffen, sondern mit unterschiedlichen Verzögerungszeiten ankommen (delay jitter). Ein solcher Pufferspeicher kann gegebenenfalls mehrere Rahmen an Länge umfassen, wodurch zu häufige Rahmenverluste auf Kosten einer erhöhten Übertragungsverzögerung verhindert werden können. Es tritt jedoch auch häufig der Fall ein, daß mehrere aufeinanderfolgende Rahmen verlorengehen, aber der darauffolgende Rahmen korrekt empfangen ist. In solchen Fällen ist bei der Verwendung eines Pufferspeichers eine Interpolation der Sprachcodecparameter der verlorengegangenen Rahmen anstelle einer konventionellen Extrapolation vorteilhaft, da sie im Allgemeinen genauer ist. Eine einfache Lösung wäre eine lineare Interpolation auf der Basis der Parameterwerte des letzten decodierten Rahmens (Zeitpunkt t=n-1) und der Parameterwerte des korrekt empfangenen Rahmens (Zeitpunkt t=m>n) über alle m-n dazwischenliegenden verlorengegangenen Rahmen (Zeitpunkte t=n, n+1, ..., m-1). Ein Pufferspeicher und damit eine Parameterinterpolation kann auch bei Streaming-Anwendungen realisiert werden, da sie in der Regel nicht sensitiv bezüglich der Verzögerungszeit sind, siehe z.B. EP-A-0459358.For voice transmission over the Internet, for example Voice over IP (VoIP), or for voice transmission over the Internet in connection with a mobile communication system (such as GSM or UMTS) is on at the receiving end Buffer memory required because packets received do not arrive in a fixed time grid, but with different ones Delay times arrive (delay jitter). Such a buffer memory can possibly have several frames to include length, causing too frequent frame losses at cost an increased transmission delay can be prevented can. However, it often happens that several successive frames are lost, but the subsequent one Frame is received correctly. In such cases an interpolation of the use of a buffer memory Speech codec parameters of the lost frames instead a conventional extrapolation advantageous because it Is generally more accurate. A simple solution would be a linear one Interpolation based on the parameter values of the last decoded frame (time t = n-1) and the parameter values of the correctly received frame (time t = m> n) over all m-n intervening lost frames (Times t = n, n + 1, ..., m-1). A buffer storage and therefore Parameter interpolation can also be used in streaming applications can be realized since they are usually not sensitive regarding the delay time, see e.g. EP-A-0,459,358th

Nachteilig wirkt sich jedoch dabei aus, daß es Parameter gibt, die nicht einfach interpoliert werden können. Dazu zählen oftmals die Verstärkungsfaktoren, die Sprachgrundfrequenzwerte oder auch die Spektralparameter V_i(t) eines Sprachrahmens zum Zeitpunkt t, weil sie differentiell codiert sind. Ein Spektralparameter V_i(t) eines Sprachrahmens ist im Falle einer Sprachcodierung beispielsweise der Filterkoeffizient des zeitabhängigen, digitalen Filters, mit dessen Hilfe der Vokaltrakt modelliert wird:
Sprache wird beispielsweise mittels des LPC-Prinzips (Linear Predictive Coding) codiert. Stimmhafte Laute werden in diesem Falle über eine periodische Folge von Impulsen generiert, stimmlose Laute beispielsweise mittels eines Zufallsrauschens-Generators (Random Noise Generator). Plosivlaute werden mit Hilfe einer Veränderung der Verstärkung, und der Stimmtrakt mit Hilfe eines zeitlich variierenden digitalen Filters simuliert. Die Koeffizienten dieses variierenden digitalen Filters erhält man mit Hilfe der linearen Prädiktion, also einer Vorhersage des folgenden Wertes auf der Basis von vorhergehenden Werten.However, this has the disadvantage that there are parameters that cannot simply be interpolated. These often include the amplification factors, the basic speech frequency values or the spectral parameters V_i (t) of a speech frame at time t because they are differentially coded. In the case of speech coding, a spectral parameter V_i (t) of a speech frame is, for example, the filter coefficient of the time-dependent, digital filter, with the aid of which the vocal tract is modeled:
Speech is encoded, for example, using the LPC principle (Linear Predictive Coding). Voiced sounds are generated in this case via a periodic sequence of pulses, unvoiced sounds, for example, by means of a random noise generator (random noise generator). Plosive sounds are simulated by changing the amplification, and the vocal tract is simulated using a time-varying digital filter. The coefficients of this varying digital filter are obtained with the help of linear prediction, that is to say a prediction of the following value on the basis of previous values.

Unter differentieller oder prädiktiver Codierung versteht man eine Codierung eines Parameters zu einem Zeitpunkt n, bei der auch Werte des Parameters zu vor dem Zeitpunkt n liegenden Zeiten miteinbezogen werden.Differential or predictive coding is understood an encoding of a parameter at a time n at which also values of the parameter before n Times to be involved.

Ein Parameter im Sinne der nachfolgenden Ausführungen kann beispielsweise ein Verstärkungsfaktor, eine Sprachgrundfrequenz oder ein Spektralparameter sein. Übliche Darstellungsformen von Spektralparametern sind beispielsweise die Filterkoeffizienten selbst (in sogenannter direkter Form), Autokorrelationskoeffizienten, Reflexionskoeffizienten oder sogenannte Log-area-Ratios. Eine State-of-the-Art-Darstellung sind beispielsweise die ISF (imittance spectral frequencies), LSF (line spectral frequencies) beziehungsweise LSP (line spectral pairs). Der Einfachheit halber wird ein Parameter im folgenden ohne Beschränkung der Allgemeinheit als Spektralkoeffizient angenommen.A parameter in the sense of the following explanations can for example a gain factor, a basic speech frequency or be a spectral parameter. Usual forms of presentation spectral parameters are, for example, the filter coefficients itself (in so-called direct form), autocorrelation coefficients, Reflection coefficients or so-called Log-area ratios. A state-of-the-art presentation are for example the ISF (imittance spectral frequencies), LSF (line spectral frequencies) or LSP (line spectral pairs). For the sake of simplicity, a parameter in the following without restricting generality as a spectral coefficient accepted.

Eine differentielle Codierung und Decodierung des Parameters V_i(t) kann beispielsweise in folgender Weise erfolgen: Sendeseitig wird ein Differenzsignal X_i(t=n) bestimmt gemäß: X_i(n) = V_i(n)-a_i*Q[X_i(n-1)], i=1,2,...,10, wobei V_i(n) der zu codierende Parameter ist, a_i ein Prädiktionskoeffizient, und Q[X_i(n-1)] das quantisierte Differenzsignal, das für die Codierung von V_i(n-1) im vorangegangenen Rahmen bestimmt worden ist. Zur Quantisierung wird oftmals eine sogenannte Vektorquantisierung verwendet. Darunter versteht man die gemeinsame Quantisierung mehrerer X_i(n) für bestimmte Werte von i. Eine Vektorquantisierung kann auch die gemeinsame Quantisierung zweier oder mehrerer unterschiedlicher, in einem Sprachcodierverfahren auftretenden Parametertypen bedeuten. Im beschriebenen Fall könnte eine Vektorquantisierung folgendermaßen aussehen: i=1,2,3, und i=4,5,6 und i=7,8,9,10. Das quantisierte Differenzsignal Q[X_i(n)], i=1,2,...,10 wird also durch eine Anzahl von Bits repräsentiert, beispielsweise 26 Bit pro Rahmen, und übertragen.
Aus Gleichung (1) ist ersichtlich, daß eine derartige Codierung zu einer Datenkompression führt: Der Speicheraufwand für die Differenzwerte X_i, welche die Differenz von beinahe gleich großen Zahlen darstellen, ist geringer als für die Werte von V_i.Differential coding and decoding of the parameter V_i (t) can be carried out, for example, in the following way: A differential signal X_i (t = n) is determined on the transmission side in accordance with: X_i (n) = V_i (n) -a_i * Q [X_i (n-1)], i = 1,2, ..., 10, where V_i (n) is the parameter to be encoded, a_i is a prediction coefficient, and Q [X_i (n-1)] is the quantized difference signal determined for the encoding of V_i (n-1) in the previous frame. So-called vector quantization is often used for quantization. This is the joint quantization of several X_i (n) for certain values of i. Vector quantization can also mean the joint quantization of two or more different parameter types that occur in a speech coding method. In the case described, vector quantization could look like this: i = 1,2,3, and i = 4,5,6 and i = 7,8,9,10. The quantized difference signal Q [X_i (n)], i = 1,2, ..., 10 is thus represented by a number of bits, for example 26 bits per frame, and transmitted.
It can be seen from equation (1) that such coding leads to data compression: the storage effort for the difference values X_i, which represent the difference of almost equally large numbers, is less than for the values of V_i.

Empfangsseitig wird ein quantisierter Wert W_i(n) des Spektralparameters V_i(n) aus dem aktuell empfangenen Differenzsignalwert Q[X_i(n)] und dem zuvor empfangenen Q[X_i(n-1)] rekonstruiert: W_i(n) = a_i*Q[X_i(n-1)] + Q[X_i(n)], i=1,2,..,10 At the receiving end, a quantized value W_i (n) of the spectral parameter V_i (n) is reconstructed from the currently received difference signal value Q [X_i (n)] and the previously received Q [X_i (n-1)]: W_i (n) = a_i * Q [X_i (n-1)] + Q [X_i (n)], i = 1,2, .., 10

Die hier beschriebene Form der Parameterdecodierung ist üblich in vielen gegenwärtig benutzten Codierverfahren, unter anderem beispielsweise im AMR- und EFR-Sprachcodierer (adaptive multi-rate beziehungsweise enhanced full-rate). Prinzipiell sind natürlich auch höhere Ordnungen der Prädiktion vorstellbar. Üblicherweise werden die in den Gleichungen (1), (2) genannten Vorschriften für den um den Mittelwert geminderten Parameterwert durchgeführt. Der Mittelwert wird zum Schluß als Addition einer Konstanten wieder hinzugefügt.The form of parameter decoding described here is common in many coding methods currently used, under other, for example, in the AMR and EFR speech coder (adaptive multi-rate or enhanced full-rate). in principle are of course also higher orders of prediction imaginable. Usually, the equations (1), (2) mentioned regulations for the reduced by the mean Parameter value carried out. The mean becomes Finally added as an addition of a constant.

Eine prädiktive Codierung, wie sie oben beispielhaft dargestellt ist, weist für eine interpolative Bestimmung der Spektralkoeffizienten fehlender Rahmen Nachteile auf:A predictive coding as exemplified above indicates an interpolative determination of the spectral coefficients missing frame disadvantages on:

Bei einer prädiktiven Quantisierung erster Ordnung (siehe Gleichungen (1) und (2)) ist es für eine interpolative Bestimmung des quantisierten Parameterwertes W_i(n) erforderlich, daß zwei aufeinanderfolgende Werte des quantisierten Differenzsignales {Q[X_i(m)], Q[X_i(m+1)]} empfangen werden, was gerade bei paketvermittelten Übertragungsweisen oft nicht der Fall ist. Dieser Sachverhalt wird im folgenden etwas genauer beleuchtet; dazu wird das quantisierte Differenzsignal Q[X_i(n)] im folgenden als Größe Y_i(n) bezeichnet:With first-order predictive quantization (see Equations (1) and (2)) is there for an interpolative determination the quantized parameter value W_i (n) required, that two successive values of the quantized Difference signals {Q [X_i (m)], Q [X_i (m + 1)]} are received, which is often not the case with packet-switched transmission methods the case is. This will be explained in more detail in the following illuminated; this is the quantized difference signal Q [X_i (n)] hereinafter referred to as quantity Y_i (n):

Es gilt also: W_i(n) = a_i * Y_i(n-1) + Y_i(n), i=1,2,..,10. So the following applies: W_i (n) = a_i * Y_i (n-1) + Y_i (n), i = 1,2, .., 10.

Es sei im folgenden angenommen, daß der letzte, bereits gemäß Gleichung (3) decodierte Rahmen zum Zeitpunkt t = n-1 gehört, und daß aktuell der Rahmen t = n decodiert werden soll, aber BFI(n) = 1 gilt, also ein "schlechter" Rahmen vorliegt. Es sei nun der Rahmen t = m > n der erste Rahmen nach t = n-1, für den BFI = 0 gilt. Die Spektralkoeffizienten aller anderen m-n dazwischenliegenden Rahmen mit BFI = 1 sollen nun interpoliert werden. Der Spektralkoeffizient W_i(n-1) bildet nun die untere (das heißt in der Vergangenheit liegende) Stützstelle der Interpolation. Der Spektralkoeffizient W_i(m) sollte normalerweise die obere (das heißt in der Zukunft liegende) Stützstelle der Interpolation bilden. Er kann bei prädiktiver Codierung jedoch nicht berechnet werden, da für Gleichung (3) zwar die Größe Y_i(m) empfangen wurde, Y_i(m-1) aber nach Voraussetzung fehlt. Erst nach zwei aufeinanderfolgenden korrekt empfangenen Rahmen m und m+1 könnte ein Spektralkoeffizient W_i(m+1) = a_i * Y_i(m) + Y_i(m+1) berechnet werden und empfangsseitig als Stützstelle zu einer Interpolation dienen. Dies verlangt jedoch prinzipiell eine zusätzliche Verzögerung von einem Rahmen, was zumindest für bidirektionale Sprachübertragung ein erhebliches Problem darstellt, beziehungsweise zwei aufeinanderfolgende Rahmen mit BFI = 0, was insbesondere bei paketvermittelten Übertragungsmodi nicht immer gegeben ist.It is assumed below that the last one, already according to Equation (3) heard decoded frames at time t = n-1, and that the frame t = n is currently being decoded should, but BFI (n) = 1 applies, ie a "bad" framework is present. Let the frame t = m> n be the first frame after t = n-1, for which BFI = 0 applies. The spectral coefficients all other m-n intermediate frames with BFI = 1 are now to be interpolated. The spectral coefficient W_i (n-1) now forms the lower one (that is, in the past support point of the interpolation. The spectral coefficient W_i (m) should normally be the top one (that is form the interpolation base in the future. However, it cannot be calculated with predictive coding are received, since the quantity Y_i (m) is received for equation (3) Y_i (m-1) but is missing on condition. Only after two consecutive correctly received frames m and m + 1 could be a spectral coefficient W_i (m + 1) = a_i * Y_i (m) + Y_i (m + 1) can be calculated and on the receiving side as a support point serve for an interpolation. In principle, however, this requires an additional delay of one frame, at least what a significant one for bidirectional voice transmission Represents problem, or two consecutive Frame with BFI = 0, which is particularly true for packet-switched Transmission modes is not always given.

Bei Prädiktion L-ter Ordnung verschärft sich das Problem bei den oben genannten Aspekten entsprechend: Die differentielle Decodierung nach Gleichung (2) erfordert L+1 aufeinanderfolgende Größen oder Differenzsignale Y_i(t), das heißt zur Interpolation der Spektralkoeffizienten vorangegangener Rahmen mit BFI = 1 muß eine Anzahl von L+1 aufeinanderfolgenden korrekten Rahmen empfangen werden, um im letzten dieser Rahmen wieder einen völlig fehlerfreien Satz von Spektralkoeffizienten und damit eine obere Stützstelle zur Interpolation zu erhalten.With L-order prediction, the problem is aggravated according to the aspects mentioned above: The differential Decoding according to equation (2) requires L + 1 consecutive Variables or difference signals Y_i (t), that is, for interpolation the spectral coefficients of previous frames with BFI = 1 a number of L + 1 consecutive correct ones Frames are received to last in this frame again a completely error-free set of spectral coefficients and thus to obtain an upper interpolation point.

Auch wenn in gängigen Sprachcodierverfahren aus dem Grunde der Fehlerfortpflanzung oftmals eine lineare Prädiktion mit L=1 gewählt ist, so läßt sich zusammenfassend sagen, daß doch zwei aufeinanderfolgende korrekte Rahmen empfangen werden müssen, bevor man wieder einen korrekten Spektralkoeffizienten W_i(m+1) erhält. Dies ist statistisch gesehen natürlich weniger wahrscheinlich, als der Empfang eines korrekten Rahmens. Diese Tatsache resultiert in der Regel in höheren Verzögerungszeiten, was für echtzeit-sensitive Applikationen nicht tolerierbar ist.Even if for the reason in common speech coding methods error propagation often uses a linear prediction L = 1 is selected, it can be summarized that yes two consecutive correct frames are received need before getting a correct spectral coefficient again W_i (m + 1) receives. Statistically speaking, this is natural less likely than receiving a correct frame. This fact usually results in longer delay times, what real-time sensitive applications is intolerable.

Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren anzugeben, mit dem sich Codecparameter empfangsseitig bestimmen lassen, auch wenn die zugrundeliegenden Daten in einzelnen oder mehreren aufeinanderfolgenden Zeitbereichen fehlen.The present invention is therefore based on the object specify a method with which codec parameters are received let determine, even if the underlying Data in single or multiple successive time periods absence.

Diese Aufgabe wird durch den unabhängigen Anspruch 1 gelöst. Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.This object is achieved by independent claim 1 solved. Further developments result from the dependent claims.

Die Erfindung betrifft ein Verfahren zur empfangsseitigen Schätzung eines zeitlich variablen Parameters zu einem n-ten Zeitpunkt. Der Parameter wurde sendeseitig prädiktiv codiert und wird empfangsseitig in Abhängigkeit von mindestens zwei Größen interpolativ ermittelt. Eine Stützstelle der Interpolation, die erste Größe, bildet ein früherer Wert des Parameters, der bereits decodiert wurde, eine zweite Stützstelle der Interpolation, die zweite Größe, wird durch extrapolative Maßnahmen ermittelt.
Die interpolative Ermittlung des Parameters kann mittels bekannter Interpolationsmaßnahmen, beispielsweise mittels linearer Interpolation zwischen erster und zweiter Größe erfolgen. Bei einer Ausführungsvariante wird zur Interpolation auch eine gewichtete Summation verwendet.The invention relates to a method for receiving-side estimation of a time-variable parameter at an nth point in time. The parameter was coded predictively on the transmission side and is determined interpolatively on the reception side depending on at least two variables. One interpolation interpolation point, the first variable, forms an earlier value of the parameter that has already been decoded, and a second interpolation interpolation point, the second variable, is determined by extrapolative measures.
The interpolative determination of the parameter can be carried out by means of known interpolation measures, for example by means of linear interpolation between the first and second variable. In an embodiment variant, a weighted summation is also used for the interpolation.

Der Vorteil dieses Verfahrens liegt darin, daß eine Interpolation zur Ermittlung des Parameters durchgeführt werden kann, sobald die zweite Größe bekannt ist.The advantage of this method is that it is interpolated to determine the parameter can, as soon as the second size is known.

Die Erfindung betrifft ferner ein Verfahren zur empfangsseitigen Schätzung eines einem n-ten Rahmen zugeordneten Codecparameters. Der Codecparameter ist sendeseitig prädiktiv codiert und wird empfangsseitig als Funktion von zumindest zwei Signalen mittels einer Interpolation bestimmt. Eine Stützstelle der Interpolation wird durch den zuvor decodierten Parameter des (n-1)-ten Rahmens gebildet, eine weitere Stützstelle wird durch den Parameter des m-ten Rahmens mit m > n gebildet, welcher durch extrapolative Maßnahmen ermittelt wurde.The invention further relates to a method for receiving Estimation of an assigned to an nth frame Codec parameter. The codec parameter is predictive on the transmission side encoded and is received at the receiving end as a function of at least two signals determined by interpolation. A The interpolation is supported by the previously decoded Parameters of the (n-1) th frame formed, another Support point is determined by the parameter of the mth frame with m > n formed, which is determined by extrapolative measures has been.

Eine Weiterbildung besteht darin, daß eine Interpolation dann erfolgt, sobald die Daten eines korrekten Rahmens vorliegen. Dies hat den Vorteil einer kurzen Verzögerungszeit bei gleichzeitigem Einsatz einer interpolativen Maßnahme zur Parameterschätzung.A further development is that an interpolation then takes place as soon as the data of a correct framework are available. This has the advantage of a short delay time simultaneous use of an interpolative measure for parameter estimation.

Eine andere Weiterbildung sieht vor, daß die Qualität des Empfangs durch eine Indikatorgröße angezeigt wird. Diese Indikatorgröße kann z. B. der "bad frame"-Indicator BFI sein.Another further training provides that the quality of the Receive is indicated by an indicator size. This indicator size can e.g. B. the "bad frame" indicator BFI.

Die Erfindung wird im Folgenden anhand einiger Ausführungsbeispiele genauer erläutert.
Im weiteren zeigt

Figur 1: die Simulationsergebnisse einer GSM-Vollratenkanal-Übertragung, wobei die Ergebnisse verschiedener Extrapolationsmethoden dargestellt sind.

The invention is explained in more detail below on the basis of a few exemplary embodiments.
In the further shows

Figure 1: the simulation results of a GSM full rate channel transmission, the results of various extrapolation methods being shown.

In einer möglichen Ausführungsform werden die differentiell codierten Parameter einem Vorgehen unterzogen, welches aus zwei Schritten besteht: Zunächst werden die Parameter der Rahmen, bei denen ein schlechter Empfang, BFI = 1, vorliegt, extrapolativ geschätzt. Auf dieser Grundlage kann nun der erste wieder korrekt empfangene Rahmen decodiert werden. Er bildet dann die Basis für eine interpolative Neuschätzung der Parameter der davorliegenden Rahmen mit BFI = 1.In one possible embodiment, they are differential encoded parameters a procedure which consists of There are two steps: First, the parameters of the Frames with poor reception, BFI = 1, extrapolatively estimated. On this basis, the first can now frames received correctly are decoded again. He then forms the basis for an interpolative reassessment of the Parameters of the previous frame with BFI = 1.

Bei jedem empfangenen Rahmen mit BFI = 1, also einem nicht fehlerfrei vorliegenden Rahmen, ist es vorgesehen, zunächst eine konventionelle Extrapolation der Parameter vorzunehmen. Dies umfaßt (zumindest im letzten Rahmen mit BFI=1 vor einem Rahmen mit BFI=0) bei differentiell codierten Parametern eine Berechnung des quantisierten Differenzsignals oder der Größe Y "im Nachhinein". Dieses konventionelle Vorgehen sieht im eingangs angegebenen Beispiel vor, daß nach der extrapolativen Bestimmung von W_i(n) im Rahmen t = n nach Gleichung (3) die Größe Y_i(n) bestimmt wird durch Umstellung von Gleichung (3): Y_i(n) = W_i(n) - a_i * Y_i(n-1), i=1,2,...,10, For each received frame with BFI = 1, that is, a frame that is not error-free, it is provided that the parameters are first extrapolated conventionally. This includes (at least in the last frame with BFI = 1 before a frame with BFI = 0) with differentially coded parameters a calculation of the quantized difference signal or the quantity Y "afterwards". In the example given at the beginning, this conventional procedure provides that after the extrapolative determination of W_i (n) in the context t = n according to equation (3), the quantity Y_i (n) is determined by converting equation (3): Y_i (n) = W_i (n) - a_i * Y_i (n-1), i = 1,2, ..., 10,

Damit liegt zum Zeitpunkt t = n+1 wieder ein Differenzsignal des vorangegangenen Rahmens vor, also Y_i(n), so daß jederzeit wieder mittels Gleichung (3) decodiert werden kann. Durch das (vorläufige) extrapolative Vorgehen kann also eine obere Stützstelle W_i(m) bestimmt werden, wenn denn nur für den Rahmen m BFI(m) = 0 gilt. Kein weiterer korrekter Rahmen ist erforderlich. Die Interpolation der m-n zurückliegenden Rahmen kann direkt zum Zeitpunkt t = m erfolgen.A difference signal is thus again present at the time t = n + 1 of the previous frame, i.e. Y_i (n), so that at any time can be decoded again using equation (3). Due to the (provisional) extrapolative approach, one can upper support point W_i (m) can be determined, if only for the frame m BFI (m) = 0 applies. No further correct framework is required. The interpolation of the m-n past The frame can take place directly at time t = m.

Wegen des Gedächtnisses der differentiellen Codierung ist die Stützstelle W_i(m) mit Fehlern behaftet. Dieser Fehler verschwindet vollständig nur beim Empfang von L aufeinanderfolgenden Rahmen mit BFI = 0. Eigene, zum Testen dieses Verfahrens durchgeführte Simulationen zeigen jedoch, daß W_i(m) als obere Stützstelle verwendet werden kann, um eine gegenüber dem Stand der Technik wesentlich verbesserte Approximation der Parameter zu ermöglichen. Der wesentliche Vorteil dieses Verfahrens ist, dass ein Fehlerburst, das heißt eine Folge von m-n bad frames, durch Abwarten eines einzigen korrekten Rahmens interpoliert werden kann, und zwar auch, wenn differentiell codierte Parameter vorhanden sind. Keine zusätzliche Verzögerung ist nötig; außerdem wird der statistisch seltenere Fall von L aufeinanderfolgenden Rahmen mit BFI = 0 nicht vorausgesetzt.Because of the memory of differential coding the support point W_i (m) has errors. This mistake disappears completely only when receiving L consecutive Frame with BFI = 0. Own, to test this procedure however, simulations show that W_i (m) can be used as an upper support point, opposite one approximation substantially improved in the prior art to enable the parameters. The main advantage this method is that an error burst, that is, a Sequence of m-n bad frames, waiting for a single correct one Frame can be interpolated, even if differentially coded parameters are present. No additional Delay is necessary; moreover, that becomes statistical rarer case of L using consecutive frames BFI = 0 not required.

In einem ersten Ausführungsbeispiel werden nun differentiell, mit einer Prädiktion erster Ordnung, also L=1, codierte Parameter betrachtet: In a first exemplary embodiment, parameters with a first order prediction, that is L = 1 considered:

Dazu werden folgende Annahmen getroffen:

Der Spektralkoeffizient W_i(n-1) sei bereits decodiert,
Y_i(n-1) liege entweder empfangen [BFI(n-1)=0] oder nach Gleichung (4) rekonstruiert vor [BFI(n-1)=1].
Als Resultat des nachfolgend genannten rekursiven Algorithmus' liegen auch Y_i(n), ..., Y_i(n+K-1) vor.
Der aktuelle Zeitpunkt sei t = n+K, zu diesem Zeitpunkt solle der Spektralkoeffizient W_i(n) bestimmt werden.

Das heißt also, daß eine Zeitverzögerung von K Rahmen zur Interpolation erlaubt ist.
Das Vorgehen erfolgt nun in zwei Schritten:

a) Operationen am Rahmen n+K:

Falls BFI(n+K) = 0: Berechne W_i(n+K) nach Gleichung (3).

Falls BFI(n+K) = 1: Berechne eine vorläufige extrapolierte Version W_i(n+K) mit einem beliebigen extrapolativen Verfahren.

b) Decodiere den Rahmen n:

Falls BFI(n) = 0: Berechne W_i(n) nach Gleichung (3).

Falls BFI(n) = 1: Berechne m > n, wobei m der erste Rahmen mit BFI(m) = 0 nach dem Rahmen n ist.

Falls m > n+K: Berechne mit einem beliebigen Extrapolationsverfahren W_i(n).

Falls m <= n+K: Dann liegt für Rahmen m als korrekt empfangener Rahmen ja bereits ein vorläufig extrapolativ bestimmter Spektralkoeffizientwert W_i(m) vor. Er bildet die obere (oder zukünftige) Stützstelle für eine Interpolation des Parameters W_i(n). Die untere (oder zurückliegende) Stützstelle sei der Spektralkoeffizient W_i(n-1).

Man kann nun zum Beispiel eine lineare Interpolation durchführen. Dies geschieht unter Berücksichtigung der zeitlichen Abstände des Rahmens n zu den Stützstellen durch: W_i(n) = [W_i(n-1) - W_i(m)] * (m-n) / (m-n+1) + W_i(m). Die obere Stützstelle W_i(m) ist bereits vorläufig extrapolativ bestimmt, die untere Stützstelle W_i(n-1) bereits endgültig decodiert. The following assumptions are made:

The spectral coefficient W_i (n-1) is already decoded,
Y_i (n-1) is either received [BFI (n-1) = 0] or reconstructed according to equation (4) before [BFI (n-1) = 1].
As a result of the recursive algorithm mentioned below, there are also Y_i (n), ..., Y_i (n + K-1).
The current point in time is t = n + K, at this point the spectral coefficient W_i (n) should be determined.

This means that a time delay of K frames for interpolation is allowed.
The procedure now takes place in two steps:

a) Operations on frame n + K:

If BFI (n + K) = 0: Calculate W_i (n + K) according to equation (3).

If BFI (n + K) = 1: Calculate a preliminary extrapolated version W_i (n + K) using any extrapolative method.

b) Decode the frame n:

If BFI (n) = 0: Calculate W_i (n) according to equation (3).

If BFI (n) = 1: Calculate m> n, where m is the first frame with BFI (m) = 0 after frame n.

If m> n + K: Calculate W_i (n) with any extrapolation method.

If m <= n + K: Then, for frame m as the correctly received frame, there is already a provisionally extrapolative spectral coefficient value W_i (m). It forms the upper (or future) support point for an interpolation of the parameter W_i (n). The lower (or back) support point is the spectral coefficient W_i (n-1).

For example, you can now perform a linear interpolation. This takes into account the time intervals between the frame n and the support points by: W_i (n) = [W_i (n-1) - W_i (m)] * (mn) / (m-n + 1) + W_i (m). The upper interpolation point W_i (m) has already been provisionally determined extrapolatively, the lower interpolation point W_i (n-1) has already been finally decoded.

In Figur 1 ist eine Simulation einer GSM-Vollratenkanal-Übertragung mit diversen C/I-Verhältnissen (carrier-tointerferer-ratio), welche die Kanalqualität beschreiben, zu sehen. Für die Kurven ist die spektrale Verzerrung (spectral distortion, SD), ein übliches Qualitätsmaß für die Codierung beziehungsweise Übertragung von Spektralkoeffizienten gegen das C/I-Verhältnis aufgetragen. Je höher die SD ist, umso schlechter ist die empfangsseitige Sprachqualität.In Figure 1 is a simulation of a GSM full rate channel transmission with various C / I ratios (carrier-tointerferer ratio), which describe the channel quality, too see. For the curves, the spectral distortion (spectral distortion, SD), a common measure of quality for coding or transmission of spectral coefficients against the C / I ratio is plotted. The higher the SD, the more the reception-side speech quality is worse.

Kurve 1 zeigt eine Extrapolation, wie sie in bisherigen Decodierungsmethoden verwendet wird. Die Kurven 2 bis 5 zeigen die Ergebnisse für das obige Ausführungsbeispiel in Abhängigkeit von der Größe K, welche die maximal erlaubte Zeitverzögerung in Rahmen angibt. Dabei weist Kurve 2 eine Verzögerung um einen Rahmen (K=1), Kurve 3 eine Verzögerung um zwei Rahmen (K=2), Kurve 4 eine Verzögerung um drei Rahmen (K=3) und Kurve 5 eine Verzögerung von vier Rahmen (K=4) auf.Curve 1 shows an extrapolation as used in previous decoding methods is used. Curves 2 to 5 show the results for the above embodiment depend on of size K, which is the maximum allowed time delay indicates in frame. Curve 2 shows a delay by one frame (K = 1), curve 3 a delay by two frames (K = 2), curve 4 a delay of three frames (K = 3) and Curve 5 shows a delay of four frames (K = 4).

Man sieht, daß schon mit einer Verzögerung von einem einzigen Rahmen (K=1) ein enormer Gewinn zu erzielen ist, mehr als K=2 zukünftige Rahmen bringen keinen großen zusätzlichen Gewinn. Diese Simulationsergebnisse sind äußerst vorteilhaft für die Übertragung echtzeitsensitiver Applikationen, da hier ja nur eine geringe Verzögerung erlaubt ist. Bei sehr niedrigen C/I-Verhältnissen sieht man jedoch leichte Unterschiede für die verschiedenen Verzögerungswerte (K=1,2,3,4). Die Ursache hierfür ist, daß bei einem derart schlechten C/I-Verhältnis häufig mehrere aufeinanderfolgende Rahmen "bad frames" sind.You can see that with a delay of just one Frame (K = 1) is a huge profit, more than K = 2 future frames will not bring much additional profit. These simulation results are extremely beneficial for the Transfer of real-time sensitive applications, since here only a slight delay is allowed. At very low C / I ratios however, you can see slight differences for the different deceleration values (K = 1,2,3,4). The cause the reason for this is that with such a poor C / I ratio often several successive frames are "bad frames".

Neben den oben erläuterten Beispielen liegt eine Vielzahl weiterer Ausführungsvarianten im Rahmen der durch die Patentansprüche definierten Erfindung, die hier nicht weiter beschrieben werden. Sie lassen sich aber anhand der vorausgegangenen Ausführungen vom Fachmann ohne großen Aufwand in die Praxis umsetzen.In addition to the examples explained above, there are many further embodiments within the scope of the invention defined by the claims, the not described further here. But you can based on the preceding statements by the specialist without to put a lot of effort into practice.

Claims

Method for estimating, on the receiving side, the value of a temporally variable parameter at an nth time point,

wherein the parameter is predictively encoded on the sending side and, as a result of this encoding, a quantised difference signal belonging to the time point n is formed between the value of the parameter at the nth time point and the quantised difference signal at the (n-1)th time point, said formed difference signal being transmitted,

wherein an indicator is present on the receiving side and shows whether or not a correctly received quantised difference signal is present for the nth time point,

wherein the parameter is determined on the receiving side as a function of at least two variables by means of interpolation if the associated difference signal has not been correctly received, and

the first variable in this case represents a first interpolation node, which is formed by a value of the decoded parameter which is assigned to a time point prior to the nth time point, and

wherein the second variable represents a further interpolation node, which is formed by a further value of the parameter at an mth time point after the nth time point, and this further value of the parameter is determined by means of extrapolation.
Method according to claim 1, wherein data belonging to the nth time point is transmitted in an nth frame and the temporally variable parameter is a codec parameter.
Method according to claim 1 or 2, wherein the quantised signal for the (n-1)th time point on the sending side is weighted with a prediction coefficient for forming the quantised difference signal for the nth time point.
Method according to one of the preceding claims, wherein an interpolation is carried out as soon as the data for only one correct frame is received.