DE69731677T2

DE69731677T2 - Improved combination stereo coding with temporal envelope shaping

Info

Publication number: DE69731677T2
Application number: DE69731677T
Authority: DE
Inventors: Juergen Heinrich Basking Ridge Herre
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1996-03-22
Filing date: 1997-03-12
Publication date: 2005-12-15
Anticipated expiration: 2017-03-13
Also published as: EP0797324B1; EP0797324A3; US5812971A; CA2197128A1; EP0797324A2; DE69731677D1; JP3316159B2; CA2197128C; JPH1051313A

Description

Querverweis auf verwandte Anmeldungcross-reference on related application

Der Gegenstand dieser Patentanmeldung ist verwandt mit dem Gegenstand der US-Patentanmeldung von J. Herre mit dem Titel „Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain", Aktenzeichen 08/585086, eingereicht am 16. Januar 1996 und auf den Zessionar der vorliegenden Erfindung übertragen; die genannte US-Patentanmeldung entspricht EP-A-0 785 631, veröffentlicht am 23.07.1997. „Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain" wird hiermit durch Literaturhinweis in die vorliegende Patentanmeldung eingefügt.Of the The subject of this patent application is related to the subject matter U.S. Patent Application to J. Herre entitled "Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain ", file number 08/585086, filed January 16, 1996 and assigned to the assignee of transferred to the present invention; said US patent application corresponds to EP-A-0 785 631 published on 23.07.1997. "Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain "is hereby Inserted by reference in the present patent application.

Gebiet der ErfindungTerritory of invention

Die vorliegende Erfindung betrifft das Gebiet des Audiosignalkodierens, im Speziellen ein verbessertes Verfahren sowie eine verbesserte Vorrichtung zum Kombinationsstereokodieren von Mehrkanal-Audiosignalen.The The present invention relates to the field of audio signal coding. in particular, an improved method and an improved Apparatus for combining stereo coding of multi-channel audio signals.

Allgemeiner Stand der Technikgeneral State of the art

Über die letzten Jahre sind sogenannte „wahrnehmungsorientierte Audiokodierer" entwickelt worden, welche die Übertragung und Speicherung von hochwertigen Audiosignalen bei Bitraten von weniger als einem Zwölftel der üblicherweise auf einem herkömmlichen Compact-Disc-Medium (CD) benutzten Bitrate ermöglichen. Solche Kodierer nutzen die aufgrund der Irrelevanz des menschlichen Gehörs in einem Audiosignal enthaltene Irrelevanz aus, indem sie das Signal nur mit der zum Erhalt eines bei der Wahrnehmung ununterscheidbaren rekonstruierten (d. h. dekodierten) Signals notwendigen Genauigkeit kodieren. Unter verschiedenen Standardisierungsorganisationen sind Standards festgelegt worden, beispielsweise die Audiostandards MPEG1 und MPEG2 der Moving Picture Experts Group der International Standardization Organization (ISO/MPEG). Wahrnehmungsorientierte Audiokodierer sind zum Beispiel in den folgenden US-Patentschriften detailliert beschrieben: 5,285,498, erteilt an James D. Johnston am 8. Februar 1994 und 5, 341, 457, erteilt an Joseph L. Hall II und James D. Johnston am 23. August 1994; beide sind an den Zessionar der vorliegenden Erfindung übertragen.About the Last years are so-called "perception-oriented Audio Encoder "has been developed which the transmission and storing high quality audio signals at bit rates of less than a twelfth the usual on a conventional one Compact Disc Media (CD) used bitrate. Such encoders use those due to the irrelevance of the human hearing in an audio signal contained irrelevance by the signal only with the one to obtain an indistinguishable in perception reconstructed (i.e., decoded) signal to code necessary accuracy. Different standardization organizations are standards for example, the MPEG1 and MPEG2 audio standards Moving Picture Experts Group of the International Standardization Organization (ISO / MPEG). Perceptual audio coders are for example in detail in the following U.S. Patents: 5,285,498, issued to James D. Johnston on February 8, 1994 and 5, 341, 457, granted to Joseph L. Hall II and James D. Johnston on August 23, 1994; both are assigned to the assignee of the present invention.

Generell kann der Aufbau eines wahrnehmungsorientierten Audiokodierers für monophone Audiosignale wie folgt beschrieben werden:

• Die Eingangssignalwerte werden in eine unterabgetastete Spektraldarstellung umgewandelt, wobei verschiedene Arten von Filterbänken und Transformationen zum Einsatz kommen, so z. B. die bekannte modifizierte diskrete Kosinustransformation (MDCT), Polyphasenfilterbänke oder hybride Strukturen.
• Unter Verwendung eines Wahrnehmungsmodells werden eine oder mehrere zeitabhängige Maskierungsschwellen abgeschätzt. Diese Schwellen geben den maximalen Kodierungsfehler an, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann. Insbesondere können diese Maskierungsschwellen für jedes Teilband einzeln festgelegt werden. D. h., die einzelnen Frequenzbänder des Kodierers, bestehend aus einer Gruppierung eines oder mehrerer Spektralkoeffizienten, werden vorteilhafterweise jeweils gemeinsam auf Basis einer entsprechend festgelegten Maskierungsschwelle kodiert.
• Die Spektralwerte werden quantisiert und auf Basis der Frequenzbänder des Kodierers in der zu den Maskierungsschwellen-Schätzwerten korrespondierenden Genauigkeit kodiert. Auf diese Weise kann das Quantisierungsrauschen von dem jeweiligen übertra genen Signal versteckt (d. h. maskiert) werden und ist daher nach dem Dekodieren nicht wahrnehmbar.
• Schließlich werden alle relevanten Informationen (z. B. die kodierten Spektralwerte und zusätzliche Seiteninformationen) in einen Bitstrom gepackt und an den Dekodierer übertragen.

In general, the construction of a perceptual audio coder for monophonic audio signals can be described as follows:

• The input signal values are converted to a sub-sampled spectral representation using various types of filter banks and transforms, such as: The known modified discrete cosine transform (MDCT), polyphase filter banks or hybrid structures.
Using one perceptual model, one or more time-dependent masking thresholds are estimated. These thresholds indicate the maximum coding error that can be introduced into the audio signal while maintaining unimpaired signal quality. In particular, these masking thresholds can be determined individually for each subband. In other words, the individual frequency bands of the coder, consisting of a grouping of one or more spectral coefficients, are advantageously coded together on the basis of a correspondingly defined masking threshold.
The spectral values are quantized and encoded based on the frequency bands of the encoder in the accuracy corresponding to the masking threshold estimates. In this way, the quantization noise from the respective transmitted signal can be hidden (ie masked) and therefore imperceptible after decoding.
Finally, all relevant information (eg the coded spectral values and additional page information) is packed into a bit stream and transmitted to the decoder.

Die Verarbeitung im Kodierer ist im Dekodierer entsprechend umgekehrt:

• Der Bitstrom wird dekodiert, analysiert und in kodierte Spektraldaten und Seiteninformationen zerlegt.
• Die quantisierten Spektralwerte werden (auf Basis der im Kodierer verwendeten Frequenzbänder) invers quantisiert.
• Die Spektralwerte werden unter Verwendung einer Synthesefilterbank in eine Zeitbereichsdarstellung rücküberführt.

The processing in the encoder is reversed accordingly in the decoder:

• The bit stream is decoded, analyzed and decomposed into coded spectral data and page information.
• The quantized spectral values are inversely quantized (based on the frequency bands used in the encoder).
The spectral values are reconverted to a time domain representation using a synthesis filter bank.

Mit einem solchen generischen Aufbau des Kodierers kann man die aufgrund der Irrelevanz des menschlichen Gehörs in einem Audiosignal enthaltene Irrelevanz effizient ausnutzen. Insbesondere kann das Spektrum des Quantisierungsrauschens entsprechend der Gestalt der Rauschmaskierungsschwelle des Signals geformt werden. Auf diese Weise kann das aus dem Kodiervorgang resultierende Rauschen unter dem kodierten Signal „versteckt" werden, und so kann bei hohen Kompressionsraten eine bei der Wahrnehmung transparente Qualität erzielt werden.With Such a generic structure of the encoder can be due to the irrelevance of human hearing contained in an audio signal Exploit irrelevance efficiently. In particular, the spectrum of the Quantization noise corresponding to the shape of the noise masking threshold be formed of the signal. In this way, this can be done from the coding process resulting noise can be "hidden" under the coded signal, and so on at high compression rates, a transparent in the perception quality be achieved.

Wahrnehmungsorientierte Kodierverfahren für monophone Audiosignale sind erfolgreich auf das Kodieren von stereophonen Zweikanal- und Mehrkanalsignalen erweitert worden. Insbesondere sind sogenannte „Kombinations stereo"-Kodierverfahren eingeführt worden, die eine kombinierte Signalverarbeitung der Eingangssignale ausführen, anstatt separate (d. h. unabhängige) Kodiervorgänge für die einzelnen Eingangssignale auszuführen. (Es ist zu beachten, dass sich hier, wie auch im allgemeinen Gebrauch, und wie es dem Durchschnittsfachmann geläufig ist, die Begriffe „Stereo" und „stereophon" auf die Verwendung von zwei oder mehr einzelnen Audiokanälen beziehen.)Perceptual coding methods for monophonic audio signals have been successfully extended to the coding of stereophonic two-channel and multi-channel signals. In particular, so-called "combination stereo" coding methods have been introduced which combine signal processing instead of performing separate (ie, independent) coding operations on the individual input signals. (It should be noted that here, as well as in common usage, and as those of ordinary skill in the art will appreciate, the terms "stereo" and "stereophonic" refer to the use of two or more separate audio channels.)

Der Einsatz von Kombinationsstereokodierverfahren bringt mindestens zwei Vorteile mit sich. Erstens ermöglicht der Einsatz von Kombinationsstereokodierverfahren die Berücksichtigung von binauralen psychoakustischen Effekten. Zweitens kann die für das Kodieren von stereophonen Signalen benötigte Bitrate erheblich unter die für ein separates, unabhängiges Kodieren der einzelnen Kanäle benötigte Bitrate abgesenkt werden.Of the Use of combination stereo coding method brings at least two advantages. First, the use of combination stereo coding techniques allows the consideration of binaural psychoacoustic effects. Second, that can be for coding required of stereophonic signals Bitrate significantly below the for a separate, independent Coding of the individual channels required bit rate be lowered.

Generell kann der Aufbau eines wahrnehmungsorientierten, stereophonen Mehrkanal-Audiokodierers wie folgt beschrieben werden:

• Die Signalwerte der Eingangssignale werden in eine unterabgetastete Spektraldarstellung umgewandelt, wobei verschiedene Arten von Filterbänken und Transformationen zum Einsatz kommen, so z. B. die modifizierte diskrete Kosinustransformation (MDCT), Polyphasenfilterbänke oder hybride Strukturen.
• Unter Verwendung eines Wahrnehmungsmodells wird die zeitabhängige Maskierungsschwelle des Signals für die einzelnen Kanäle abgeschätzt. Daraus ergibt sich der maximale Kodierungsfehler, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann.
• Beim Kombinationsstereokodieren werden Anteile der Spektralkoeffizientendaten gemeinsam verarbeitet, um eine effizientere Darstellung des Stereosignals zu erzielen. Abhängig von dem eingesetzten Stereokodierverfahren können auch Anpassungen an den Maskierungsschwellen vorgenommen werden.
• Die Spektralwerte werden quantisiert und in der zu den Maskierungsschwellen-Schätzwerten korrespondierenden Genauigkeit kodiert. Auf diese Weise wird das Quantisierungsrauschen durch das jeweilige übertragene Signal versteckt (d. h. maskiert) und ist daher nach dem Dekodieren nicht wahrnehmbar.
• Schließlich werden alle relevanten Informationen (d. h. die kodierten Spektralwerte und zusätzliche Seiteninformationen) in einen Bitstrom gepackt und an den Dekodierer übertragen.

In general, the construction of a perceptual stereophonic multichannel audio encoder can be described as follows:

• The signal values of the input signals are converted into a sub-sampled spectral representation, using various types of filter banks and transformations, such as: The modified discrete cosine transform (MDCT), polyphase filter banks, or hybrid structures.
• Using a perceptual model, estimate the time-dependent masking threshold of the signal for each channel. This results in the maximum coding error that can be introduced into the audio signal while maintaining a signal quality unaffected by the perception.
• In combination stereo coding, portions of the spectral coefficient data are processed together to provide a more efficient representation of the stereo signal. Depending on the stereo coding method used, adjustments to the masking thresholds can also be made.
The spectral values are quantized and encoded in the accuracy corresponding to the masking threshold estimates. In this way, the quantization noise is hidden (ie masked) by the respective transmitted signal and is therefore imperceptible after decoding.
Finally, all relevant information (ie the coded spectral values and additional page information) is packed into a bit stream and transmitted to the decoder.

Die Verarbeitung im Kodierer ist im Dekodierer entsprechend umgekehrt:

• Der Bitstrom wird dekodiert, analysiert und in kodierte Spektraldaten und Seiteninformationen zerlegt.
• Die quantisierten Spektralwerte werden invers quantisiert.
• Mit den Spektralwerten wird der Dekodiervorgang für die Kombinationsstereoverarbeitung ausgeführt, wodurch man für die einzelnen Kanäle jeweils ein separates Signal erhält.
• Die Spektralwerte für die einzelnen Kanäle werden jeweils unter Verwendung entsprechender Synthesefilterbänke in die Zeitbereichsdarstellung rück überführt.

The processing in the encoder is reversed accordingly in the decoder:

• The bit stream is decoded, analyzed and decomposed into coded spectral data and page information.
• The quantized spectral values are inversely quantized.
• The spectral values are used to perform the decoding process for the combination stereo processing, whereby a separate signal is obtained for the individual channels.
• The spectral values for the individual channels are each converted back to the time domain representation using appropriate synthesis filter banks.

Die zwei derzeit meistverbreitetsten Kombinationsstereokodierverfahren sind als „Mitte-Seite-Stereokodieren" (M/S) bzw. „Intensitätsstereokodieren" bekannt. Aufbau und Betrieb eines Kodierers auf Basis des M/S-Stereokodierens sind z. B. in US-Patentschrift Nr. 5,285,498 beschrieben (siehe oben). Unter Verwendung dieses Verfahrens können binaurale Maskierungseffekte vorteilhaft berücksichtigt werden, und zusätzlich kann ein gewisses Maß an signalabhängigem Gewinn erzielt werden.The two currently most common combination stereo coding methods are known as "center-side stereo coding" (M / S) and "intensity stereo coding", respectively. construction and operation of a coder based on M / S stereo coding z. In U.S. Patent No. 5,285,498 (see above). Using this method, binaural masking effects can be achieved considered advantageous be, and in addition can be a degree signalabhängigem Profit can be achieved.

Ein größeres Biteinsparungspotential bietet jedoch das Intensitätsstereoverfahren. Insbesondere nutzt dieses Verfahren die Einschränkungen des menschlichen Gehörs bei hohen Frequenzen (z. B. bei Frequenzen oberhalb 4 kHz) aus, indem nur ein Spektralkoeffizientensatz für alle kombinationskodierten Kanalsignale übertragen wird, wodurch erhebliche Einsparungen bei der Datenrate erzielt werden. Kodierer auf Basis des Intensitätsstereoprinzips sind in zahlreichen Quellen beschrieben, darunter die europäische Patentanmeldung 0 497 413 Al von R. Veidhuis et al., eingereicht am 24. Januar 1992 und publiziert am 5. August 1992, sowie (mit anderer Terminologie) die internationale PCT-Patentanmeldung WO 92/12607 von M. Davis et al., eingereicht am 8. Januar 1992 und publiziert am 23. Juli 1992.One greater bit-saving potential however, provides the intensity stereo method. In particular, this method uses the limitations of human hearing at high levels Frequencies (eg at frequencies above 4 kHz) by only a spectral coefficient set for All the combination coded channel signals is transmitted, which is significant Savings in the data rate can be achieved. Encoder based of the intensity stereo principle described in numerous sources, including the European patent application 0 497 413 Al to R. Veidhuis et al., Filed January 24, 1992 and published on August 5, 1992, as well as (with different terminology) PCT International Patent Application WO 92/12607 to M. Davis et al., filed January 8, 1992 and published July 23 1,992th

Durch Kombinationsstereoverarbeiten der Spektralkoeffizienten vor der Quantisierung können weitere Einsparungen bezüglich der erforderlichen Bitrate erzielt werden. Im Falle des Intensitätsstereokodierens rühren einige dieser Einsparungen daher, dass das menschliche Gehör bei hohen Frequenzen (z. B. bei Frequenzen oberhalb 4 kHz) bekanntermaßen unempfindlich gegen Phaseninformationen ist. Aufgrund der Eigenschaften der menschlichen Haarzellen werden bei der Wahrnehmung Signalhüllkurven anstelle der Wellenform des Signals selbst ausgewertet. Daher genügt es, anstatt der gesamten Wellenform nur die Hüllkurve dieser Signalanteile zu kodieren. Dies kann beispielsweise bewerkstelligt werden, indem für alle in Frage kommende Kanäle ein gemeinsamer Spektralkoeffizientensatz (nachfolgend als das „Trägersignal" bezeichnet) übertragen wird, anstatt separate Koeffizientensätze für jeden Kanal zu übertragen. Im Dekodierer wird das Trägersignal dann für jeden Kanal unabhängig skaliert, um die gemittelte Hüllkurve (bzw. Signalenergie) für den jeweiligen Kodierblock anzupassen.By combining stereo processing of the spectral coefficients before quantization, further savings in the required bit rate can be achieved. In the case of intensity stereo coding, some of these savings stem from the fact that human hearing at high frequencies (eg, at frequencies above 4 kHz) is known to be insensitive to phase information. Due to the characteristics of human hair cells, signal envelopes are evaluated instead of the waveform of the signal itself. Therefore, it is sufficient to code instead of the entire waveform only the envelope of these signal components. This may be accomplished, for example, by transmitting a common set of spectral coefficients (hereinafter referred to as the "carrier signal") for all candidate channels, rather than transmitting separate sets of coefficients for each channel In the decoder, the carrier signal is then scaled independently for each channel the averaged envelope (or signal energy) for the adapt to each coding block.

Beim Intensitätsstereokodieren/-dekodieren werden typischerweise auf Basis der Frequenzbänder des Kodierers die folgenden Verarbeitungsschritte ausgeführt:

• Aus den Spektralkoeffizienten aller in Frage kommender Kanäle wird ein „Träger"-Signal erzeugt, das dazu geeignet ist, die einzelnen Kanalsignale darzustellen. Hierzu werden üblicherweise Linearkombinationen der Teilsignale gebildet.
• Aus den ursprünglichen Signalen werden Skalierungsinformationen extrahiert, die die Hüllkurve bzw. den Energiegehalt des betreffenden Frequenzbands des Kodierers beschreiben.
• Sowohl das Trägersignal als auch die Skalierungsinformationen werden an den Dekodierer übertragen.
• Im Dekodierer werden die Spektralkoeffizienten des Trägersignals rekonstruiert. Daraufhin werden die Spektralkoeffizienten für die einzelnen Kanäle berechnet, indem das Trägersignal unter Verwendung der jeweiligen Skalierungsinformationen für die einzelnen Kanäle skaliert wird.

In intensity stereo coding / decoding, the following processing steps are typically performed based on the frequency bands of the encoder:

• A "carrier" signal is generated from the spectral coefficients of all channels in question, which is suitable for representing the individual channel signals, for which linear combinations of the sub-signals are usually formed.
• From the original signals, scaling information is extracted that describes the envelope or energy content of the particular frequency band of the encoder.
• Both the carrier signal and the scaling information are transmitted to the decoder.
• In the decoder, the spectral coefficients of the carrier signal are reconstructed. Thereafter, the spectral coefficients for the individual channels are calculated by scaling the carrier signal using the respective scaling information for the individual channels.

Dieser Ansatz bewirkt, dass anstelle separater Spektralkoeffizientensätze für jedes Kanalsignal nur ein Spektralkoeffizientensatz (nämlich die Koeffizienten des Trägersignals) sowie eine kleine Menge an Seiteninformationen (nämlich die Skalierungsinformationen) übertragen werden müssen. Im Falle von Zweikanal-Stereo führt dies bei den intensitätskodierten Frequenzbereichen zu einer Einsparung von fast 50% der Datenrate.This Approach causes, instead of separate spectral coefficient sets for each Channel signal only one set of spectral coefficients (namely the coefficients of the Carrier signal) and a small amount of page information (namely the Scaling information) Need to become. In the case of two-channel stereo does this at the intensity-coded Frequency ranges to a saving of almost 50% of the data rate.

Ungeachtet der Vorteile dieses Ansatzes führt übermäßige oder unkontrollierte Anwendung des Intensitätsstereokodierverfahrens zu einer Verschlechterung des wahrgenommenen Stereobildes, weil die detaillierte zeitliche Struktur der Signale für Zeitintervalle, die kleiner als die Granularität der Kodieranordnung (z. B. 20 ms je Block) sind, nicht erhalten ist. Insbesondere sind infolge der Verwendung eines einzigen Trägers alle aus diesem Träger rekonstruierten Ausgangssignale notwendigerweise skalierte Versionen voneinander. Anders ausgedrückt: über die Dauer des kodierten Blocks (z. B. 10 bis 20 ms) hinweg haben sie die gleiche Hüllkurvenfeinstruktur. Für stationäre Signale oder für Signale mit in den intensitätsstereokodierten Kanälen ähnlichen Hüllkurvenfeinstrukturen stellt dies kein erhebliches Problem dar.regardless The benefits of this approach are excessive or uncontrolled application of the intensity stereo coding method a deterioration of the perceived stereo image, because the detailed temporal structure of the signals for time intervals, the smaller as the granularity of the coding arrangement (eg 20 ms per block) are not preserved is. In particular, all are due to the use of a single carrier from this carrier Reconstructed output signals necessarily scaled versions from each other. In other words: about the They have the duration of the coded block (eg 10 to 20 ms) the same envelope fine structure. For stationary signals or for Signals with in the intensity stereo coded Canals similar Hüllkurvenfeinstrukturen this does not pose a significant problem.

Bei transienten Signalen mit unähnlichen Hüllkurven in verschiedenen Kanälen jedoch kann die ursprüngliche Verteilung der Hüllkurveneinsätze über die kodierten Kanäle nicht zurückgewonnen werden. Beispielsweise unterscheiden sich in einer stereophonen Aufnahme eines applaudierenden Publikums die einzelnen Hüllkurven im rechten bzw. linken Kanal aufgrund der unterschiedlichen Klatschereignisse, die in den jeweiligen Kanälen zu verschiedenen Zeitpunkten stattfinden. Ähnliche Effekte treten bei Aufnahmen auf, die mit stereophonen Mikrophonen erzeugt wurden, so dass die räumliche Position einer Schallquelle letztendlich in Form von Zeitdifferenzen bzw. Verzögerungen zwischen den jewei ligen Kanalsignalen kodiert ist. Infolgedessen verringert sich die Qualität des Stereobildes eines intensitätsstereokodierten/-dekodierten Signals in diesen Fällen wesentlich. Der räumliche Eindruck tendiert dazu, sich zu verschmälern, und das wahrgenommene Stereobild tendiert dazu, in die Mittenposition zu kollabieren. Bei kritischen Signalen kann die erreichte Qualität nicht mehr als brauchbar betrachtet werden.at transient signals with dissimilar envelopes in different channels however, the original one Distribution of Envelope Deployments over the coded channels not be recovered. For example, differ in a stereophonic recording an applauding audience the individual envelopes in the right and left Channel due to the different gossip events occurring in the respective channels take place at different times. Similar effects occur Recordings made with stereophonic microphones so that the spatial Position of a sound source ultimately in the form of time differences or delays is encoded between the jewei time channel signals. Consequently the quality decreases the stereo image of an intensity stereo coded / decoded Signal in these cases essential. The spatial Impression tends to narrow, and the perceived Stereo image tends to collapse to the center position. For critical signals, the quality achieved can not be considered more than useful.

Um Verschlechterungen im Stereobild eines intensitätskodierten/-dekodierten Signals zu vermeiden, sind einige Strategien vorgeschlagen worden. Da das Intensitätsstereokodieren das Risiko einer Beeinträchtigung des Stereobildes trägt, ist vorgeschlagen worden, dieses Verfahren nur dann zu benutzen, wenn dem Kodierer die Bits ausgehen, um schwerwiegende Quantisierungsverzerrungen zu vermeiden, die vom Hörer als noch störender wahrgenommen würden.Around Degradation in the stereo image of an intensity-coded / decoded signal To avoid some strategies have been proposed. Since that Intensity stereo coding the risk of impairment wearing the stereo image, it has been proposed to use this procedure only if the coder emits the bits, severe quantization distortions to be avoided by the listener as even more disturbing would be perceived.

Auch könnte ein Algorithmus eingesetzt werden, der Unähnlichkeiten in den zeitlichen Feinstrukturen der Kanäle erkennt. Wenn eine Nichtübereinstimmung der Hüllkurven erkannt wird, wird in dem betreffenden Block keine Intensitätsstereokodierung angewendet. Ein solcher Ansatz wird z. B. beschrieben in J. Herre et al., „Intensity Stereo Coding", 96^th Audio Engineering Society Convention, Amsterdam, Februar 1994. Ein offensichtlicher Nachteil der bislang vorgeschlagenen Lösungen ist jedoch, dass das Biteinsparpotential nicht mehr voll ausgenutzt werden kann, da bei solchen Signalen das Intensitätsstereokodieren deaktiviert wird.An algorithm could also be used which detects dissimilarities in the temporal fine structures of the channels. If an envelope mismatch is detected, no intensity stereo coding will be applied to the block in question. Such an approach is z. As described in J. Herre et al., "Intensity Stereo Coding", 96 ^th Audio Engineering Society Convention, Amsterdam, February 1994. However, an obvious disadvantage of the solutions proposed so far is that the bit-saving potential can no longer be fully exploited with such signals the intensity stereo coding is deactivated.

Kurzdarstellung der ErfindungSummary the invention

Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden die Nachteile der Verfahren nach Stand der Technik mit Hilfe eines Verfahrens und einer Vorrichtung überwunden, die Mehrkanal-Audiosignale mittels Intensitätsstereokodierverfahren kombinationsstereo kodieren. Im Speziellen werden Prädiktionsfilterverfahren auf die Spektralkoeffizientendaten angewendet, wodurch die zeitliche Feinstruktur des Ausgangssignals der einzelnen Kanäle erhalten wird, dabei aber der Vorteil der durch Intensitätsstereokodieren ermöglichten hohen Bitrateneinsparungen erhalten bleibt. In einem Ausführungsbeispiel der vorliegenden Erfindung wird ein Verfahren zur Verbesserung des wahrgenommenen Stereobildes von intensitätsstereokodierten/-dekodierten Signalen geschaffen, indem in einem Kodierer für stereophone Zweikanalsignale die folgenden Verarbeitungsschritte zur Anwendung kommen:

• Das Eingangssignal der einzelnen Kanäle wird durch eine hochauflösende Filterbank bzw. Transformation in Spektralkoeffizienten zerlegt.
• Unter Verwendung eines Wahrnehmungsmodells werden für die einzelnen Kanäle eine oder mehrere zeitabhängige Maskierungsschwellen des Signals abgeschätzt. Dies ergibt vorteilhafterweise den maximalen Kodierungsfehler, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann.
• Für jeden Kanal wird ein Filter, der lineare Prädiktion in der Frequenz ausführt, an den Ausgängen der Filterbank angewendet, so dass für die folgenden Schritte das Restfehlersignal anstelle des tatsächlichen Ausgangssignals der Filterbank benutzt wird.
• Intensitätsstereokodierverfahren werden angewendet, um beide Restfehlersignale in ein Trägersignal zu kodieren.
• Die Spektralwerte des Trägersignals werden quantisiert und in der zu dem bzw. zu den Maskierungsschwellen-Schätzwert(en) korrespondierenden Genau igkeit kodiert.
• Alle relevanten Informationen (d. h. die kodierten Spektralwerte, Intensitätsskalierungsdaten und Prädiktionsfilterdaten) werden in einen Bitstrom gepackt und an den Dekodierer übertragen.

According to one embodiment of the present invention, the disadvantages of the prior art methods are overcome by means of a method and a device which encode multi-channel audio signals in combination stereo by means of intensity stereo coding methods. Specifically, prediction filtering techniques are applied to the spectral coefficient data, thereby preserving the fine-temporal structure of the output of each channel, while retaining the advantage of high bit rate savings enabled by intensity stereo coding. In one embodiment of the present invention, a method is provided for enhancing the perceived stereo image of intensity stereo coded / decoded signals by using a codec For stereophonic 2-channel signals, the following processing steps are used:

• The input signal of the individual channels is split into spectral coefficients by a high-resolution filter bank or transformation.
• Using a perceptual model, one or more time-dependent masking thresholds of the signal are estimated for each channel. This advantageously provides the maximum coding error that can be introduced into the audio signal while maintaining a signal quality unaffected by the perception.
• For each channel, a filter that performs linear prediction in frequency is applied to the outputs of the filter bank, so that for the following steps the residual error signal is used instead of the actual output signal of the filter bank.
• Intensity stereo coding techniques are used to encode both residual error signals into a carrier signal.
The spectral values of the carrier signal are quantized and encoded in the exactness corresponding to the masking threshold estimate (s).
All relevant information (ie the coded spectral values, intensity scaling data and prediction filter data) is packed into a bit stream and transmitted to the decoder.

Entsprechend führt ein Dekodierer gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung für kombinationsstereokodierte Signale, der dem obenstehend beschriebenen Beispielkodierer entspricht, die folgenden Verarbeitungsschritte aus:

• Der Bitstrom wird dekodiert, analysiert und in die kodierten Spektraldaten und Seiteninformationen zerlegt.
• Die quantisierten Spektralwerte des Trägersignals werden invers quantisiert.
• Die Spektralwerte des Trägersignals werden intensitätsstereodekodiert, wodurch (Restfehler-)Signale für die einzelnen Kanäle erzeugt werden.
• Für die einzelnen Kanäle werden in der Frequenz arbeitende inverse Prädiktionsfilter auf das ursprüngliche Signal angewendet, die den Prädiktionsfiltern entsprechen, die von dem Kodierer, der benutzt wurde, um das ursprüngliche Signal zu kodieren, angewendet wurden.
• Die von den inversen Prädiktionsfiltern erzeugten Spektralwerte werden unter Verwendung von Synthesefilterbänken in die Zeitbereichsdarstellung rücküberführt.

Accordingly, a decoder according to another embodiment of the present invention for combined stereo coded signals corresponding to the example encoder described above performs the following processing steps:

The bit stream is decoded, analyzed and decomposed into the coded spectral data and page information.
• The quantized spectral values of the carrier signal are inversely quantized.
• The spectral values of the carrier signal are intensity-stereo-decoded, producing (residual-error) signals for the individual channels.
For the individual channels, frequency inverse prediction filters are applied to the original signal corresponding to the prediction filters used by the encoder used to encode the original signal.
The spectral values generated by the inverse prediction filters are returned to the time domain representation using synthesis filter banks.

Kurze Beschreibung der ZeichnungenShort description the drawings

Es zeigen:It demonstrate:

1 einen Kodierer für stereophone Zweikanalsignale nach Stand der Technik, bei dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen. 1 a stereophonic two-channel signal encoder according to the prior art, in which conventional intensity stereo coding methods are used.

2 einen Kodierer für stereophone Zweikanalsignale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. 2 an encoder for stereophonic two-channel signals according to an embodiment of the present invention.

3 eine Beispielimplementierung der Prädiktionsfilter des Beispielkodierers aus 2. 3 an example implementation of the prediction filter of the example encoder from 2 ,

4 einen Dekodierer für Kombinationsstereosignale nach Stand der Technik, der dem Kodierer nach Stand der Technik aus 1 entspricht, in dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen. 4 a prior art combination stereo signal decoder corresponding to the prior art coder 1 corresponds to the conventional intensity stereo coding used.

5 einen Dekodierer für kombinationsstereokodierte Signale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, der dem Beispielkodierer aus 2 entspricht. 5 a combination stereo coded signal decoder according to an embodiment of the present invention, which is the example coder 2 equivalent.

6 eine Beispielimplementierung der inversen Prädiktionsfilter des Beispielkodierers aus 5. 6 an example implementation of the inverse prediction filter of the example encoder from 5 ,

7 ein Flussdiagramm eines Verfahrens zum Kodieren von stereophonen Zweikanalsignalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. 7 a flowchart of a method for encoding stereophonic two-channel signals according to an embodiment of the present invention.

8 ein Flussdiagramm eines Verfahrens zum Dekodieren von kombinationsstereokodierten Signalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, das dem in 7 gezeigten Beispielkodierverfahren entspricht. 8th a flowchart of a method for decoding combination stereo coded signals according to an embodiment of the present invention, the in 7 corresponds to the example coding method shown.

Detaillierte Beschreibungdetailed description

Überblickoverview

Die Aufnahme eines Prädiktionsfiltervorgangs in Kodierer und Dekodierer gemäß bestimmten Ausführungsbeispielen der vorliegenden Erfindung verbessert vorteilhafterweise die Qualität des intensitätsstereokodierten/-dekodierten Signals, indem die Einschränkung der Anordnungen nach Stand der Technik, dass in allen intensitätsstereodekodierten Kanalsignalen identische Hüllkurvenfeinstrukturen erzeugt werden, überwunden wird. Insbesondere überwindet das Beispielkodierverfahren die Nachteile der bisherigen Verfahren, indem die Filterbank durch die Prädiktionsfilterstufe effektiv derart erweitert wird, dass die über die Frequenz hinweg gemeinsamen Hüllkurveninformationen in Form von Filterkoeffizienten extrahiert und größtenteils aus dem Restfehlersignal entfernt werden.The Recording a prediction filter operation in encoders and decoders according to certain embodiments The present invention advantageously improves the quality of the intensity stereo coded / decoded Signal by the restriction the arrangements of the prior art that in all intensity stereo decoded Channel signals identical envelope fine structures be generated, overcome becomes. In particular, overcomes the example coding method the disadvantages of the previous methods, by making the filter bank effective through the prediction filter stage is extended so that the over the frequency away common envelope information in the form extracted from filter coefficients and largely from the residual error signal be removed.

Insbesondere wird für jedes Eingangskanalsignal auf den entsprechenden Spektralkoeffizientendaten eine lineare Prädiktion durchgeführt, wobei die lineare Prädiktion über die Frequenz ausgeführt wird. Da die Prädiktionskodierung auf Spektralbereichsdaten angewendet wird, sind bei den im Falle klassischer Prädiktionen bekannten gültigen Beziehungen der Zeit- und der Frequenzbereich zu vertauschen. Beispielsweise hat das Prädiktionsfehlersignal idealerweise eine „flache" (quadrierte) Hüllkurve, im Gegensatz zu einem „flachen" Leistungsspektrum (ein sogenannter „Prewhitening"-Filtereffekt). Die zeitlichen Feinstrukturinformationen für die einzelnen Kanalsignale sind in den jeweiligen Prädiktionsfilterkoeffizienten enthalten. Es kann daher davon ausgegangen werden, dass das für das Intensitätsstereokodieren benutzte Trägersignal ebenso eine flache Hüllkurve aufweist, da es durch Bilden von Linearkombinationen aus den (gefilterten) Kanalsignalen erzeugt wird.In particular, for each input channel signal on the corresponding spectral coefficient data is performed a linear prediction, wherein the linear prediction is performed on the frequency. Since predictive coding is applied to spectral domain data, the time and frequency domain must be swapped in the valid relations known in the case of classical predictions. For example, the prediction error signal ideally has a "flat" (squared) envelope, as opposed to a "flat" power spectrum (a so-called "pre-whitening" filter effect.) The fine time structure information for the individual channel signals are included in the respective prediction filter coefficients It can also be assumed that the carrier signal used for the intensity stereo coding also has a flat envelope since it is generated by forming linear combinations of the (filtered) channel signals.

In einem entsprechenden Dekodierer gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden die einzelnen Kanalsignale gemäß der übertragenen Skalierungsinformationen reskaliert, und auf die Spektralkoeffizienten wird der inverse Filtervorgang angewendet. Auf diese Weise wird der inverse „Prewhitening"-Vorgang mit den Hüllkurven der einzelnen dekodierten Kanalsignale ausgeführt, wodurch effektiv die Hüllkurveninformation in die Spektralkoeffizienten wieder eingeführt wird. Da dies individuell für jeden einzelnen Kanal geschieht, ist das erweiterte Kodier-/Dekodiersystem dazu in der Lage, die verschiedenen individuellen Hüllkurvenfeinstrukturen der einzelnen Kanalsignale zu reproduzieren. Es ist zu beachten, dass in der Praxis der Einsatz einer Kombination aus Filterbank und linearer Prädiktion in der Frequenz äquivalent ist zum Einsatz einer auf die Hüllkurve des Eingangssignals abgestimmten adaptiven Filterbank. Da der Vorgang der Hüllkurvenformung eines Signals entweder für das gesamte Spektrum des Signals oder nur für einen Teil davon ausgeführt werden kann, kann diese Hüllkurvensteuerung im Zeitbereich vorteilhafterweise in jeder beliebigen notwendigen frequenzabhängigen Weise angewendet werden.In a corresponding decoder according to an embodiment According to the present invention, the individual channel signals are transmitted in accordance with FIG Scaling information rescaled, and on the spectral coefficients the inverse filtering process is applied. This way will the inverse "Prewhitening" process with the envelopes of each decoded Channel signals executed, effectively causing the envelope information is reintroduced into the spectral coefficients. As this is individual for each single channel happens, is the advanced coding / decoding system to be able to do the various individual envelope fine structures to reproduce the individual channel signals. It should be noted that in practice the use of a combination of filter bank and linear prediction equivalent in frequency is to use one on the envelope the input signal tuned adaptive filter bank. Because the process the envelope shaping a signal for either the entire spectrum of the signal or only a part of it can, this envelope control can in the time domain advantageously in any necessary frequency-dependent Be applied.

Außerdem kann der Bitstrom, welcher zum Beispiel von dem oben beschriebenen und nachstehend anhand 2, 3 und 7 näher erläuterten Beispielkodierer erzeugt wird, gemäß einer weiteren Ausführungsform der vorliegenden Erfindung vorteilhafterweise auf einem Speichermedium, wie z. B. einer Compact Disc oder einem Digitaltonband, oder in einem Halbleiterspeicher gespeichert werden. Ein solches Speichermedium kann dann wieder eingelesen werden, um den Bitstrom für ein späteres Dekodieren beispielsweise durch den oben beschriebenen (und nachstehend anhand 5, 6 und 8 näher erläuterten) Beispieldekodierer bereitzustellen. Auf diese Art kann eine erhebliche Menge an Audiodaten (z. B. Musik) komp rimiert und ohne Verluste bei der (wahrgenommenen) Qualität des rekonstruierten Signals auf das gegebene Speichermedium geschrieben werden.In addition, the bitstream, for example, as described above and below 2 . 3 and 7 described in more detail exemplary encoder, according to another embodiment of the present invention advantageously on a storage medium, such. As a compact disc or a digital audio tape, or stored in a semiconductor memory. Such a storage medium may then be read in again to recover the bitstream for later decoding by, for example, the method described above (and below 5 . 6 and 8th explained in more detail) provide exemplary decoder. In this way, a significant amount of audio data (eg music) can be compressed and written to the given storage medium without losses in the (perceived) quality of the reconstructed signal.

Ein Kodierer nach Stand der TechnikAn encoder according to the prior art

1 zeigt einen wahrnehmungsorientierten Kodierer für stereophone Zweikanalsignale nach Stand der Technik, bei dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen. Der Kodierer aus 1 arbeitet wie folgt:

• Die linken und rechten Eingangssignale, xl(k) und xr(k), werden durch die Analysefilterbank-/Transformationsmodule 12l bzw. 12r jeweils einzeln in Spektralkoeffizienten zerlegt, wobei sich für jeden Analyseblock b ein entsprechender Satz aus „n" Spektralkomponenten yl(b, 0 ... n – 1) bzw. yr(b, 0 ... n – 1) ergibt, wobei „n" die Anzahl der Spektralkoeffizienten pro Analyseblock (d. h. die Blockgröße) ist. Jeder Spektralkomponente yl(b, i) bzw. yr(b, i) ist eine Analysefrequenz in Übereinstimmung mit der speziellen eingesetzten Filterbank zugeordnet.
• Die Wahrnehmungsmodelle 11l bzw. 11r schätzen für jeden Kanal die Genauigkeit der Kodierung ab, die für bei der Wahrnehmung transparente Qualität des kodierten/dekodierten Signals benötigt wird. Die Schätzungsdaten können zum Beispiel auf dem in den einzelnen Bändern des Kodierers erforderlichen minimalen Signal-Rauschabstand (SNR) beruhen und werden an das Quantisierungs-/Kodiermodul weitergeleitet.
• Die Spektralwerte für sowohl den linken als auch den rechten Kanal, yl(b, 0 ... n – 1) und yr(b, 0 ... n – 1), werden dem Intensitätsstereo-Kodiermodul 13 zur Verfügung gestellt, welches das herkömmliche In tensitätsstereokodieren durchführt. Für Spektralanteile, die vom Intensitätsstereokodieren ausgenommen werden sollen, können die entsprechenden Werte yl(b, 0 ... n – 1) und yr(b, 0 ... n – 1) direkt an die Quantisierungs- und Kodierstufe weitergeleitet werden. Für Spektralanteile, bei denen intensitätsstereokodiert werden soll (d. h. vorzugsweise für die hochfrequenten Anteile) wird der Intensitätsstereokodiervorgang wie folgt ausgeführt: Von jedem der Signale yl() und yr() werden Skalierungsinformationen (d. h. Spitzenamplitude oder Gesamtenergie) für die einzelnen Frequenzbänder des Kodierers extrahiert und durch Kombinieren der entsprechenden yl()- und yr()-Werte ein einzelnes Trägersignal yi() erzeugt. Für die intensitätsstereokodierten Spektralanteile werden somit der Quantisierungs- und Kodierstufe nur ein Wertesatz yi() für beide Kanäle sowie Skalierungs-Seiteninformationen für jeden Kanal zur Verfügung gestellt. Alternativ können auch kombinierte Skalierungsinformationen zusammen mit Richtungsinformationen (und dem einzelnen Trägersignal) verwendet werden.
• Die Spektralkomponenten am Ausgang der Intensitätskodierstufe, die aus separaten Werten yl() und yr() sowie aus gemeinsamen Werten yi() bestehen, werden von dem Quantisierungs- und Kodiermodul 14 quantisiert und auf Übertragungssymbole abgebildet. Dieses Modul berücksichtigt die erforderliche Genauigkeit der Kodierung, wie sie von den Wahrnehmungsmodellen 11l und 11r bestimmt wird.
• Die von dem Quantisierungs- und Kodiermodul 14 erzeugten Übertragungssymbolwerte werden zusammen mit weiteren Seiteninformationen an den Bitstrom-Kodierer/-Multiplexer 15 weitergeleitet und werden dadurch in dem kodierten Bitstrom übertragen. Für Frequenzbänder des Kodierers, die Intensitätsstereokodierung einsetzen, werden dem Bitstrom-Kodierer/-Multiplexer 15 außerdem die von dem Intensitätsstereokodiermodul 13 gelieferten Skalierungsinformationen zur Verfügung gestellt.

1 shows a perceptual coder for stereophonic two-channel signals according to the prior art, in which conventional intensity stereo coding methods are used. The encoder off 1 works as follows:

• The left and right input signals, xl (k) and xr (k), are passed through the analysis filter bank / transformation modules 12l respectively. 12r each individually decomposed into spectral coefficients, wherein for each analysis block b, a corresponding set of "n" spectral components yl (b, 0 ... n-1) or yr (b, 0 ... n-1) results, where " n "is the number of spectral coefficients per analysis block (ie the block size). Each spectral component yl (b, i) or yr (b, i) is assigned an analysis frequency in accordance with the particular filter bank used.
• The perceptual models 11l respectively. 11r For each channel, we estimate the accuracy of the coding needed for the perceptually transparent quality of the coded / decoded signal. For example, the estimation data may be based on the minimum signal-to-noise ratio (SNR) required in the individual bands of the encoder, and passed to the quantization / coding module.
• The spectral values for both left and right channels, yl (b, 0 ... n-1) and yr (b, 0 ... n-1), become the intensity stereo coding module 13 which performs conventional intensity stereo coding. For spectral components that are to be excluded from the intensity stereo coding, the corresponding values yl (b, 0 ... n-1) and yr (b, 0 ... n-1) can be forwarded directly to the quantization and coding stage. For spectral portions to be intensity stereo coded (ie, preferably for the high frequency components), the intensity stereo coding operation is performed as follows: From each of the signals y1 () and yr (), scaling information (ie peak amplitude or total energy) is extracted for the individual frequency bands of the encoder Combining the corresponding yl () and yr () values produces a single carrier signal yi (). Thus, for the intensity stereo coded spectral components, only one set of values yi () for both channels and scaling page information for each channel are provided to the quantization and coding stage. Alternatively, combined scaling information may be used along with direction information (and the single carrier signal).
• The spectral components at the output of the intensity encoding stage, which consist of separate values yl () and yr () as well as common values yi (), are used by the quantization and coding module 14 quantized and mapped to transmission symbols. This module takes into account the required accuracy of coding as used by perceptual models 11l and 11r is determined.
• The of the quantization and coding module 14 generated transfer symbol values are sent to the bitstream encoder / multiplexer along with other page information 15 forwarded and are thereby transmitted in the coded bit stream. For frequency bands of the encoder employing intensity stereo coding, the bitstream encoder / multiplexer becomes 15 also from the intensity stereo coding module 13 supplied scaling information provided.

Ein BeispielkodiererA sample encoder

2 zeigt einen Kodierer für stereophone Zweikanalsignale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Die Funktionsweise des Beispielkodierers aus 2 entspricht derjenigen des Kodierers nach Stand der Technik aus 1, mit der Ausnahme, dass für jeden Kanal zwischen der entsprechenden Analysefilterbank und dem entsprechenden Intensitätsstereokodiermodul jeweils eine Prädiktionsfilterstufe eingeschoben ist. D. h., dass die Prädiktionsfilter 16l und 16r auf die Ausgänge der Analysefilterbänke 12l bzw. 12r angewendet werden. Dadurch werden die Spektralwerte yl(b, 0 ... n – 1) und yr(b, 0 ... n – 1) durch die Ausgangswerte yl'(b, 0 ... n – 1) bzw. yr'(b, 0 ... n – 1) des Prädiktionsfiltervorgangs ersetzt, bevor sie dem Intensitätsstereokodiermodul 13 zur Verfügung gestellt werden. 2 FIG. 12 shows an encoder for stereophonic two-channel signals according to an embodiment of the present invention. FIG. The operation of the example encoder off 2 corresponds to that of the encoder of the prior art 1 with the exception that one prediction filter stage is inserted for each channel between the corresponding analysis filter bank and the corresponding intensity stereo coding module. That is, the prediction filters 16l and 16r to the outputs of the analysis filter banks 12l respectively. 12r be applied. As a result, the spectral values y1 (b, 0 ... n-1) and yr (b, 0 ... n-1) are determined by the output values y1 '(b, 0 ... n-1) and yr' ( b, 0 ... n-1) of the prediction filter operation before replacing the intensity stereo coding module 13 to provide.

3 zeigt eine Beispielimplementierung der Prädiktionsfilter des Beispielkodierers aus 2. Insbesondere wird in der Prädiktionsfilterstufe eine lineare Prädiktion über die Frequenz ausgeführt (im Gegensatz beispielsweise zum Prädiktionskodieren über die Zeit, wie es von Teilband-ADPCM-Kodierern eingesetzt wird). 3 Figure 12 shows an example implementation of the prediction filters of the example encoder 2 , In particular, in the prediction filter stage, a linear prediction is performed on the frequency (as opposed to, for example, predictive coding over time as used by subband ADPCM encoders).

Zu diesem Zwecke dient der „Drehschalter" 43, der die Spektralwerte y(b, 0 ... n – 1) vor der Verarbeitung in eine serielle Anordnung bringt; und die resultierenden Ausgangswerte y'(b, 0... n – 1) werden anschließend durch den „Drehschalter" 46 in paralleler Anordnung zur Verfügung gestellt. (Es ist zu beachten, dass die Verwendung von „Drehschaltern" als Mechanismus zur Umwandlung zwischen seriellen und parallelen Anordnungen hier ausschließ lich der Einfachheit und des besseren Verständnisses halber geschieht. Dem Durchschnittsfachmann wird klar sein, dass kein solches physikalisches Schaltgerät bereitgestellt werden muss. Vielmehr können Umwandlungen zwischen serieller und paralleler Anordnung auf mehrere verschiedene herkömmliche, dem Fachmann bekannte Weisen ausgeführt werden, unter anderem auch allein durch Software.) Obwohl das hier gezeigte Ausführungsbeispiel die Spektralwerte in der Reihenfolge steigender Frequenzen abarbeitet, können alternative Ausführungsformen die Spektralwerte beispielsweise in der Reihenfolge fallender Frequenzen abarbeiten. Andere Abarbeitungsreihenfolgen sind ebenso möglich, wie dem Durchschnittsfachmann klar sein wird.For this purpose serves the "rotary switch" 43 which places the spectral values y (b, 0 ... n-1) in a serial array prior to processing; and the resulting output values y '(b, 0 ... n-1) are then passed through the "rotary switch" 46 provided in parallel arrangement. (It should be noted that the use of "rotary switches" as a mechanism for conversion between serial and parallel arrangements is here for the sake of simplicity and understanding only.) One of ordinary skill in the art will appreciate that no such physical switching device needs to be provided For example, although the embodiment shown here processes the spectral values in order of increasing frequencies, alternative embodiments may use the spectral values, for example, in order Other processing sequences are also possible, as will be apparent to one of ordinary skill in the art.

Insbesondere werden, wie man in der Figur sehen kann, die resultierenden Ausgangswerte y'(b, 0 ... n – 1) aus den Eingangswerten y(b, 0 ... n – 1) berechnet, indem (mit Hilfe von Subtrahierer 48) die vorhergesagten Werte (vorhergesagt durch Prädiktor 47) von den Eingangswerten abgezogen werden, so dass nur das Prädiktionsfehlersignal weitergeleitet wird. Es ist zu beachten, dass die in der Figur mit „Hüllkurven-Prewhitening-Filter 44" bezeichnete Kombination aus Prädiktor 47 und Subtrahierer 48 die zeitliche Gestalt des entsprechenden Zeitsignals glättet.In particular, as can be seen in the figure, the resulting output values y '(b, 0 ... n-1) are calculated from the input values y (b, 0 ... n-1) by (using subtractor 48 ) the predicted values (predicted by predictor 47 ) are subtracted from the input values, so that only the prediction error signal is forwarded. It should be noted that in the figure with "Envelope Prewhitening Filter 44 "designated combination of predictor 47 and subtractors 48 the temporal shape of the corresponding time signal smoothes.

Der von den Prädiktionsfiltern 16l und 16r von 2 ausgeführte Vorgang kann entweder für das gesamte Spektrum (d. h. für alle Spektralkoeffizienten) oder aber nur für einen Spektralanteil (d. h. für eine Teilmenge der Spektralkoeffizienten) ausgeführt werden. Darüber hinaus können für unterschiedliche Anteile des Signalspektrums unterschiedliche Prädiktorfilter (wie z. B. die in 3 gezeigten unterschiedlichen Prädiktoren 47) benutzt werden. Auf diese Weise kann das obenstehend beschriebene Verfahren zur Hüllkurvensteuerung im Zeitbereich auf jede benötigte frequenzabhängige Art und Weise angewendet werden.The one of the prediction filters 16l and 16r from 2 The process performed can be performed either for the entire spectrum (ie for all spectral coefficients) or only for one spectral component (ie for a subset of the spectral coefficients). In addition, for different portions of the signal spectrum, different predictor filters (such as those in FIG 3 shown different predictors 47 ) to be used. In this way, the above-described time-domain envelope control method can be applied in any required frequency-dependent manner.

Um das korrekte Dekodieren des Signals zu ermöglichen, enthält der Bitstrom vorteilhafterweise bestimmte zusätzliche Seiteninformationen. Ein Feld dieser Informationen könnte beispielsweise die Benutzung der Prädiktionsfilterung anzeigen sowie, falls zutreffend, die Anzahl unterschiedlicher Prädiktionsfilter. Falls Prädiktionsfilterung benutzt wird, können im Bitstrom für jeden Prädiktionsfilter zusätzliche Felder übertragen werden, die den Zielfrequenzbereich des jeweiligen Filters und seine Filterkoeffizienten angeben. Dementsprechend stellen, wie in 2 durch die mit „L-Filter-Daten" bzw. „R-Filter-Daten" beschrifteten gestrichelten Linien angezeigt, die Prädiktionsfilter 16l und 16r dem Bitstrom-Kodierer/-Multiplexer 17 die notwendigen Informationen zur Aufnahme in den übertragenen Bitstrom zur Verfügung.Advantageously, to enable the signal to be correctly decoded, the bit stream includes certain additional page information. For example, a field of this information could indicate the use of prediction filtering and, if applicable, the number of different prediction filters. If prediction filtering is used, additional fields can be transmitted in the bit stream for each prediction filter, indicating the target frequency range of the respective filter and its filter coefficients. Accordingly, as in 2 indicated by the dashed lines labeled "L-filter data" and "R-filter data" respectively, the prediction filters 16l and 16r the bitstream encoder / multiplexer 17 the necessary information for inclusion in the transmitted bit stream available.

7 zeigt ein Flussdiagramm eines Verfahrens zum Kodieren von stereophonen Zweikanalsignalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Das in diesem Flussdiagramm gezeigte Ausführungsbeispiel implementiert bestimmte relevante Abschnitte des Beispielkodierers aus 2. Insbesondere zeigt das Flussdiagramm den eingangsseitigen Abschnitt des Kodierers für einen einzelnen der Kanäle inklusive des Hüllkurven-Prewhitening-Vorgangs unter Verwendung eines einzelnen Prädiktionsfilters. Dieser Prewhitening-Vorgang wird nach der Berechnung der Spektralwerte durch die Analysefilterbank ausgeführt, wie in Schritt 61 der Figur gezeigt. 7 FIG. 12 shows a flowchart of a method for coding stereo two-channel signals according to an embodiment of the present invention ing invention. The embodiment shown in this flowchart implements certain relevant portions of the example encoder 2 , In particular, the flowchart shows the input side portion of the encoder for a single one of the channels, including the envelope pre-whitening operation, using a single prediction filter. This pre-whitening process is performed after the spectral values have been calculated by the analysis filter bank, as in step 61 the figure shown.

Insbesondere werden nach dem Analysefilterbanklauf die Ordnung des Prädiktionsfilters und der Zielfrequenzbereich festgelegt (Schritt 62). Zur Erläuterung können diese Parameter z. B. auf eine Filterordnung von 15 sowie auf einen Zielfrequenzbereich, der den gesamten mit Intensitätsstereokodierung zu kodierenden Frequenzbereich (z. B. von 4 kHz bis 20 kHz) umfasst, gesetzt werden. Auf diese Weise ist die Anordnung vorteilhafterweise zur Bereitstellung eines Satzes individueller zeitlicher Feinstrukturdaten je Audiokanal eingerichtet. In Schritt 63 ist der Prädiktionsfilter dadurch bestimmt, dass der mit dem Zielfrequenzbereich übereinstimmende Spektralkoeffizientenbereich sowie ein herkömmliches Verfahren zum Prädiktionskodieren, wie es beispielsweise im Zusammenhang mit Differenzpulscodemodulations-Kodierern (DPCM-Kodierern) bekannt ist, verwendet werden. Zum Beispiel kann die Autokorrelationsfunktion der Koeffizienten berechnet und in einem herkömmlichen, dem Fachmann bekannten Levinson-Durbin-Rekursionsalgorithmus benutzt werden. Infolgedessen sind die Prädiktionsfilterkoeffizienten, die entsprechenden Reflexionskoeffizienten („PARCOR"-Koeffizienten) und der erwartete Prädiktionsgewinn bekannt.Specifically, after the analysis filter bank run, the order of the prediction filter and the target frequency range are set (step 62 ). For explanation, these parameters z. 15, and a target frequency range including the entire frequency range (for example, 4 kHz to 20 kHz) to be coded with intensity stereo coding. In this way, the arrangement is advantageously arranged to provide a set of individual temporal fine structure data per audio channel. In step 63 For example, the prediction filter is determined by using the spectral coefficient range coinciding with the target frequency range, as well as a conventional predictive coding method, for example, as known in the context of differential pulse code modulation (DPCM) encoders. For example, the autocorrelation function of the coefficients may be calculated and used in a conventional Levinson-Durbin recursion algorithm known to those skilled in the art. As a result, the prediction filter coefficients, the corresponding reflection coefficients ("PARCOR" coefficients) and the expected prediction gain are known.

Wenn der zu erwartende Prädiktionsgewinn eine bestimmte, durch Entscheidung 64 festgelegte Schwelle (z. B. 2 dB) übersteigt, wird der aus den Schritten 65 bis 67 bestehende Prädiktionsfiltervorgang benutzt. In diesem Falle werden die Prädiktionsfilterkoeffizienten, wie für die Übertragung an den Dekodierer als Teil der Seiteninformationen erforderlich, quantisiert (in Schritt 65). Daraufhin wird in Schritt 66 der Prädiktionsfilter auf den mit dem Zielfrequenzbereich übereinstimmenden Spektralkoeffizientenbereich angewendet, wobei die quantisierten Filterkoeffizienten benutzt werden. Für die weitere Verarbeitung werden die Spektralkoeffizienten daher durch die Ausgangsdaten des Filtervorgangs ersetzt. Schließlich wird in Schritt 67 ein Feld des zur Übertragung bestimmten Bitstroms so gesetzt, dass die Verwendung von Prädiktionsfilterung angezeigt wird („Prädiktionsflag" an). Außerdem werden der Zielfrequenzbereich, die Ordnung des Prädiktionsfilters und Informationen, die die Filterkoeffizienten beschreiben, in den Bitstrom aufgenommen.If the expected prediction gain a certain, by decision 64 fixed threshold (eg 2 dB), the from the steps 65 to 67 existing prediction filter operation used. In this case, the prediction filter coefficients, as required for transmission to the decoder as part of the page information, are quantized (in step 65 ). Then in step 66 the prediction filter is applied to the spectral coefficient range coinciding with the target frequency range, using the quantized filter coefficients. For further processing, the spectral coefficients are therefore replaced by the output data of the filtering process. Finally, in step 67 In addition, the target frequency range, the order of the prediction filter, and information describing the filter coefficients are included in the bit stream.

Wenn andererseits der erwartete Prädiktionsgewinn die von Entscheidung 64 festgelegte Entscheidungsschwelle nicht übersteigt, setzt Schritt 68 ein Feld in dem Bitstrom so, dass angezeigt wird, dass keine Prädiktionsfilterung zum Einsatz kam („Prädiktionsflag" aus). Nach Abschluss der obenstehend beschriebenen Verarbeitung schließlich werden herkömmliche Schritte ausgeführt, wie sie auch in Kodierern nach Stand der Technik (wie z. B. dem Kodierer aus 1) ausgeführt werden, d. h.: der Intensitätsstereokodiervorgang wird auf die Spektralkoeffizienten (bei denen es sich jetzt um Restfehlerdaten handeln kann) angewendet, die Ergebnisse des Intensitätsstereokodiervorgangs werden quantisiert und kodiert, und der konkret zu übertragende Bitstrom (mit den entsprechenden multiplexierten Seiteninformationen) wird zur Übertragung kodiert. Es ist jedoch zu beachten, dass der Bitstromkodierer/-multiplexer 17 des Beispielkodierers aus 2 den herkömmlichen Bitstromkodierer/-multiplexer 15 des Kodierers nach Stand der Technik aus 1 ersetzt, so dass die von den Prädiktionsfiltern 16l und 16r bereitgestellten zusätzlichen Seiteninformationen (d. h. die „L-Filter-Daten" und die „R-Filter-Daten") vorteilhafterweise in den sich ergebenden Bitstrom kodiert und mit ihm übertragen werden können.On the other hand, if the expected prediction gain is that of decision 64 set decision threshold, is stepping down 68 a field in the bit stream indicating that no prediction filtering was used ("prediction flag" off) .After completion of the processing described above, conventional steps are performed, as in prior art encoders (such as e.g. from the encoder 1 ), that is, the intensity stereo coding operation is applied to the spectral coefficients (which may now be residual error data), the results of the intensity stereo coding operation are quantized and coded, and the concrete-to-be-transmitted bitstream (with the corresponding multiplexed side information) becomes transmission coded. It should be noted, however, that the bitstream encoder / multiplexer 17 of the sample encoder 2 the conventional bit stream coder / multiplexer 15 of the encoder of the prior art 1 replaced, so that of the prediction filters 16l and 16r provided additional page information (ie, the "L-filter data" and the "R-filter data") can be advantageously encoded into and transmitted with the resulting bit stream.

Ein Dekodierer nach Stand der TechnikA decoder according to the prior art

4 zeigt einen Dekodierer für Kombinationsstereosignale nach Stand der Technik, der dem Kodierer nach Stand der Technik aus 1 entspricht, in dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen. Insbesondere führt der Dekodierer aus 4 die folgenden Schritte aus:

• Der eingehende Bitstrom wird von dem Bitstrom-Dekodierer/Demultiplexer 21 analysiert und zerlegt, und die Übertragungssymbole für die Spektralkoeffizienten werden zusammen mit den quantisierungsbezogenen Seiteninformationen an das Modul 22 zum Dekodieren und zum inversen Quantisieren weitergeleitet.
• Im Modul 22 zum Dekodieren und zum inversen Quantisieren werden die quantisierten Spektralwerte yql(), yqr() und yqi() rekonstruiert. Diese Signale entsprechen jeweils dem unabhängig kodierten Signalanteil des linken Kanals, dem unabhängig kodierten Signalanteil des rechten Kanals bzw. dem Intensitätsstereo-Trägersignal.
• Aus den rekonstruierten Spektralwerten des Trägersignals und der übertragenen Skalierungsinformationen werden unter Verwendung eines herkömmlichen Intensitätsstereodekodiervorgangs, der von Intensitätsstereodekodiermodul 23 ausgeführt wird, die fehlenden Anteile der yql()- und yqr()-Spektren der linken bzw. rechten Kanalsignale berechnet. Am Ausgang dieses Moduls sind zwei vollständige (und unabhängige) spektrale Kanalsignale yql() und yqr() verfügbar, die dem linken bzw. rechten Kanal entsprechen.
• Schließlich werden die einzelnen linken bzw. rechten spektralen Kanalsignale yql() und yqr() von den Synthesefilterbänken 24l bzw. 24r in eine Zeitbereichsdarstellung rücküberführt, wobei sich die endgültigen Ausgangssignale xl'(k) und xr'(k) ergeben.

4 shows a prior art combination stereo signal decoder corresponding to the prior art coder 1 corresponds to the conventional intensity stereo coding used. In particular, the decoder executes 4 the following steps:

The incoming bit stream is from the bit stream decoder / demultiplexer 21 are analyzed and decomposed, and the transmission symbols for the spectral coefficients are sent to the module along with the quantization-related page information 22 forwarded for decoding and for inverse quantization.
• In the module 22 for decoding and for inverse quantizing the quantized spectral values yql (), yqr () and yqi () are reconstructed. These signals respectively correspond to the independently coded signal component of the left channel, the independently coded signal component of the right channel and the intensity stereo carrier signal.
From the reconstructed spectral values of the carrier signal and the transmitted scaling information, using a conventional intensity stereo decoding process, the intensity stereo decoding module 23 which calculates missing portions of the yql () and yqr () spectrums of the left and right channel signals, respectively. At the output of this module are two complete (and independent) spectral channel signals yql () and yqr () available to the correspond to left and right channel.
• Finally, the individual left and right spectral channel signals yql () and yqr () from the synthesis filter banks 24l respectively. 24r is returned to a time domain representation resulting in the final output signals xl '(k) and xr' (k).

Ein BeispieldekodiererAn example decoder

5 zeigt einen Dekodierer für kombinationsstereokodierte Signale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, der dem Beispielkodierer aus 2 entspricht. Die Funktionsweise des Beispieldekodierers aus 5 entspricht derjenigen des Kodierers nach Stand der Technik aus 4, mit der Ausnahme, dass für jeden Kanal zwischen dem entsprechenden Intensitätsstereokodiermodul und der entsprechenden Synthesefilterbank jeweils eine inverse Prädiktionsfilterstufe eingeschoben ist. D. h. die inversen Prädiktionsfilter 26l bzw. 26r sind vor den Synthesefilterbänken 24l bzw. 24r eingefügt. Folglich werden die von dem Intensitätsstereodekodiermodul 23 erzeugten Spektralwerte yql() und yqr() durch die Ausgangswerte yql'() bzw. yqr'() des entsprechenden inversen Prädiktionsfiltervorgangs ersetzt, bevor sie den entsprechenden Synthesefilterbänken (Synthesefilterbänke 24l und 24r) zur Verfügung gestellt werden. 5 Figure 4 shows a combined stereo coded signal decoder according to an embodiment of the present invention, which is the example coder 2 equivalent. The operation of the example decoder 5 corresponds to that of the encoder of the prior art 4 , with the exception that an inverse prediction filter stage is inserted for each channel between the corresponding intensity stereo coding module and the corresponding synthesis filter bank. Ie. the inverse prediction filters 26l respectively. 26r are in front of the synthesis filter banks 24l respectively. 24r inserted. Consequently, those from the intensity stereo decode module 23 spectral values yql () and yqr () replaced by the output values yql '() and yqr' () of the corresponding inverse prediction filter operation, respectively, before passing to the corresponding synthesis filter banks (synthesis filter banks 24l and 24r ) to provide.

6 zeigt eine Beispielimplementierung der inversen Prädiktionsfilter des Beispieldekodierers aus 5. 6 Fig. 12 shows an example implementation of the inverse prediction filters of the example decoder 5 ,

Insbesondere wird in den inversen Prädiktionsfiltern eine lineare Filteroperation über die Frequenz ausgeführt (im Unterschied zum Prädiktionskodieren über die Zeit, wie es in Teilband-ADPCM-Kodierern stattfindet). Analog zu der Prädiktionsfilterimplementierung aus 3 wird der „Drehschalter" 33 aus 6 verwendet, um die Spektralwerte yq(b, 0 ... n – 1) vor der Verarbeitung in eine serielle Anordnung zu bringen, und der „Drehschalter" 36 aus der Figur wird verwendet, um anschließend die resultierenden Ausgangswerte yq'(b, 0 ... n – 1) in eine parallele Anordnung zu bringen. (Erneut ist zu beachten, dass die Verwendung von „Drehschaltern" als Mechanismus zur Umwandlung zwischen seriellen und parallelen Anordnungen hier ausschließlich der Einfachheit und des besseren Verständnisses halber geschieht. Dem Durchschnittsfachmann wird klar sein, dass kein solches physikalisches Schaltgerät bereitgestellt werden muss. Vielmehr können Umwandlungen zwischen serieller und paralleler Anordnung auf mehrere verschiedene herkömmliche, dem Fachmann bekannte Weisen ausgeführt werden, unter anderem auch allein durch Software.) Wiederum ist, wie im Falle des obenstehend beschriebenen Beispielkodierers, die Verarbeitung in der Reihenfolge steigender oder fallender Frequenzen genauso möglich, wie andere, dem Fachmann offenkundigen Verarbeitungsreihenfolgen.In particular, in the inverse prediction filters, a linear filtering operation is performed on the frequency (as opposed to predictive coding over time, as occurs in subband ADPCM encoders). Analogous to the prediction filter implementation 3 becomes the "rotary switch" 33 out 6 used to bring the spectral values yq (b, 0 ... n-1) into serialization prior to processing, and the "rotary switch" 36 from the figure is used to then bring the resulting output values yq '(b, 0 ... n-1) into a parallel arrangement. (Again, it should be noted that the use of "rotary switches" as a mechanism for conversion between serial and parallel arrangements is here for the sake of simplicity and understanding only.) One of ordinary skill in the art will appreciate that no such physical switching device needs to be provided Conversions between serial and parallel arrangement in several different conventional manners known to those skilled in the art, including software alone.) Again, as in the case of the example encoder described above, processing in the order of increasing or decreasing frequencies is possible as well other processing sequences obvious to the person skilled in the art.

Im Speziellen werden, wie aus der Figur ersichtlich, die Ausgangswerte yq'(b, 0 ... n – 1) aus den Eingangswerten yq(b, 0 ... n – 1) berechnet, indem die Umkehrung des in dem entsprechenden Kodierer eingesetzten Hüllkurven-Prewhitening-Filters angewendet wird. Insbesondere werden die Ausgangswerte aus den Eingangswerten berechnet, indem unter Verwendung des Addierers 38 die vorhergesagten Werte (vorhergesagt durch Prädiktor 37) wie gezeigt auf die Eingangswerte addiert werden. Es ist zu beachten, dass die in der Figur mit „Hüllkurven-Prewhitening-Filter" 34 bezeichnete Kombination aus Prädiktor 37 und Addierer 38 die zeitliche Gestalt des ursprünglichen Zeitsignals wieder einführt.Specifically, as can be seen from the figure, the output values yq '(b, 0 ... n-1) are calculated from the input values yq (b, 0 ... n-1) by reversing that in the corresponding coder Envelope Prewhitening filters applied. In particular, the output values are calculated from the input values by using the adder 38 the predicted values (predicted by predictor 37 ) are added to the input values as shown. It should be noted that in the figure with "Envelope Prewhitening Filter" 34 designated combination of predictor 37 and adders 38 reintroduces the temporal shape of the original time signal.

Wie zuvor bei der Behandlung des Beispielkodierers aus 2 und 3 erläutert, kann der obenstehend beschriebene Filtervorgang entweder für das gesamte Spektrum (d. h. für alle Spektralkoeffizienten) oder aber nur für einen Spektralanteil (d. h. für eine Teilmenge der Spektralkoeffizienten) ausgeführt werden. Darüber hinaus können für unterschiedliche Anteile des Signalspektrums unterschiedliche Prädiktorfilter (z. B. die in 6 gezeigten unterschiedlichen Prädiktoren 37) benutzt werden. In einem solchen Falle dekodiert der Beispieldekodierer aus 5 vorteilhafterweise die zusätzlichen (in der Figur mit „L-Filter-Daten" bzw. „R-Filter-Daten" beschrifteten) Seiteninformationen, die von dem Kodierer übertragen worden waren, aus dem Bitstrom und stellt diese Daten den inversen Prädiktionsfiltern 26l und 26r zur Verfügung (damit das Signal korrekt dekodiert werden kann). Auf diese Weise kann das Prädiktionsdekodieren in jedem gegebenen Zielfrequenzbereich mit einem entsprechenden Prädiktionsfilter durchgeführt werden.As before, when handling the sample encoder 2 and 3 1, the filtering process described above can be carried out either for the entire spectrum (ie for all spectral coefficients) or only for one spectral component (ie for a subset of the spectral coefficients). In addition, for different portions of the signal spectrum, different predictor filters (eg, those in 6 shown different predictors 37 ) to be used. In such a case, the example decoder decodes out 5 Advantageously, the additional page information (labeled in the figure with "L-filter data" or "R-filter data") page information transmitted by the encoder from the bit stream and places this data in the inverse prediction filters 26l and 26r available (so that the signal can be decoded correctly). In this way, prediction decoding in any given target frequency range can be performed with a corresponding prediction filter.

8 zeigt ein Flussdiagramm eines Verfahrens zum De kodieren von kombinationsstereokodierten Signalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, das dem in 7 gezeigten Beispielkodierverfahren entspricht. Das in diesem Flussdiagramm gezeigte Ausführungsbeispiel implementiert bestimmte relevante Abschnitte des Beispieldekodierers aus 5. Im Speziellen zeigt das Flussdiagramm den ausgangsseitigen Abschnitt des Kodierers für einen einzelnen der Kanäle inklusive des Hüllkurven-Prewhitening-Vorgangs unter Verwendung eines einzelnen (inversen) Prädiktionsfilters. Die von dem Dekodierer vor den in dem Flussdiagramm aus 8 gezeigten Schritten ausgeführte Verarbeitung umfasst herkömmliche Schritte, wie sie in Dekodierern nach Stand der Technik (z. B. dem Dekodierer aus 4) ausgeführt werden, d. h.: Der Bitstrom wird dekodiert/demultiplexiert, die resultierenden Daten werden dekodiert und invers quantisiert, und der Intensitätsstereodekodiervorgang wird ausgeführt. Es ist jedoch zu beachten, dass der Bitstromdekodierer/-demultiplexer 25 des Beispieldekodierers aus 5 den herkömmlichen Bitstromdekodierer/-demultiplexer 21 des Dekodierers nach Stand der Technik aus 4 ersetzt, so dass die von dem Kodierer bereitgestellten zusätzlichen Seiteninformationen (d. h. die „L-Filter-Daten" und die „R-Filter-Daten") vorteilhafterweise dekodiert und den inversen Prädiktionsfiltern 26l und 26r zur Verfügung gestellt werden können. 8th FIG. 11 shows a flowchart of a method for decoding combination stereo-coded signals according to an embodiment of the present invention, which is similar to that in FIG 7 corresponds to the example coding method shown. The embodiment shown in this flowchart implements certain relevant portions of the example decoder 5 , In particular, the flowchart shows the output side portion of the encoder for a single one of the channels, including the envelope pre-whitening operation, using a single (inverse) prediction filter. That of the decoder before that in the flowchart 8th The processing performed in the steps shown includes conventional steps as described in prior art decoders (eg, the decoder 4 ), that is, the bit stream is decoded / demultiplexed, the resulting data is decoded and inverse quantized, and the intensity stereo decode operation becomes executed. It should be noted, however, that the bit stream decoder / demultiplexer 25 of the example decoder 5 the conventional bit stream decoder / demultiplexer 21 of the decoder of the prior art 4 so that the additional page information provided by the encoder (ie, the "L-filter data" and the "R-filter data") advantageously decodes and the inverse prediction filters 26l and 26r can be made available.

Nach Abschluss des Intensitätsstereodekodierens werden (von Entscheidung 72) die Daten aus dem Bitstrom überprüft, die die Verwendung von Prädiktionsfilterung signalisieren. Wenn die Daten anzeigen, dass im Kodierer Prädiktionsfilterung zum Einsatz kam (d. h. das „Prädiktionsflag" ist an), dann wird der aus den Schritten 73 und 74 bestehende erweiterte Dekodiervorgang ausgeführt. Insbesondere werden der Zielfrequenzbereich der Prädiktionsfilterung, die Ordnung des Prewhitening-(Prädiktions)-Filters und Informationen, die die Koeffizienten des Filters beschreiben, aus den (zuvor dekodierten) Seiteninformationen zurückgewonnen (Schritt 73). Dann wird der inverse (Dekodier-)Prädiktionsfilter (d. h. der Hüllkurvenformungsfilter) auf den dem Zielfrequenzbereich entsprechenden Spektralkoeffizientenbereich angewendet (Schritt 74). In beiden Fällen (d. h. unabhängig davon, ob Prädiktionsfilterung zum Einsatz kam oder nicht), wird die Verarbeitung im Dekodierer abgeschlossen, indem (für jeden Kanal) die Synthesefilterbank mit den Spektralkoeffizienten (gegebenenfalls nach deren Verarbeitung durch den Hüllkurvenformungsfilter) ausgeführt wird, wie in Schritt 75 gezeigt.After completion of the intensity stereo decoding, (by decision 72 ) checks the data from the bit stream that signals the use of prediction filtering. If the data indicates that prediction filtering was used in the encoder (ie the "prediction flag" is on), then the one from the steps 73 and 74 existing extended decoding process executed. In particular, the target frequency range of the prediction filtering, the order of the pre-whitening (prediction) filter, and information describing the coefficients of the filter are retrieved from the page information (previously decoded) (step 73 ). Then, the inverse (decoding) prediction filter (ie, the envelope shaping filter) is applied to the spectral coefficient area corresponding to the target frequency range (step 74 ). In either case (ie, whether prediction filtering was used or not), processing in the decoder is completed by executing (for each channel) the synthesis filter bank with the spectral coefficients (possibly after processing by the envelope shaping filter), as in step 75 shown.

Schlussfolgerungconclusion

Durch Verwendung des obenstehend beschriebenen Verfahrens in Übereinstimmung mit den Ausführungsbeispielen der vorliegenden Erfindung (d. h. Prädiktionsfilterung im Kodierer und inverse Filterung im Dekodierer) kann für bestimmte herkömmliche Blocktransformationen, zu denen die diskrete Fouriertransformation (DFT) oder die diskrete Kosinustransformation (DCT) zählen, welche beide dem Durchschnittsfachmann bekannt sind, ein eindeutiger Hüllkurvenformungseffekt erzielt werden. Wenn beispielsweise ein wahrnehmungsorientierter Kodierer gemäß der vorliegenden Erfindung eine Filterbank mit kritischer Unterabtastung und überlappenden Fenstern – z. B. eine herkömmliche modifizierte diskrete Kosinustransformation (MDCT) oder eine andere herkömmliche, auf „Time Domain Aliasing Cancellation" (TDAC) beruhende Filterbank – benutzt, ist der resultierende Hüllkurvenformungseffekt den in der Filterbank inhärenten Aliasing-Effekten im Zeitbereich ausgesetzt. Zum Beispiel findet im Falle einer MDCT ein Rückspiegelungs-Vorgang (d. h. ein Aliasing-Vorgang) pro Fensterhälfte statt, und die Hüllkurvenfeinstruktur erscheint innerhalb der linken und der rechten Fensterhälfte nach dem Dekodieren jeweils gespiegelt (d. h. von Aliasing betroffen). Da die letztendlichen Ausgangsdaten der Filterbank durch Anwenden eines Synthesefensters auf die Ausgangsdaten der einzelnen inversen Transformationen und durch Ausführen einer überlappenden Addition dieser Datensegmente entstehen, werden die von Aliasing betroffenen unerwünschten Komponenten in Abhängigkeit des verwendeten Synthesefensters abgeschwächt. Es ist daher von Vorteil, ein Filterbankfenster auszuwählen, das nur eine geringe Überlappung zwischen aufeinanderfolgenden Blöcken zeigt, so dass der zeitliche Aliasing-Effekt minimal ist. Eine geeignete Strategie im Kodierer kann beispielsweise für kritische Signale adaptiv ein Fenster mit einem geringen Überlappungsgrad auswählen und dadurch für eine verbesserte Frequenztrennschärfe sorgen. Die Details der Implementierung einer solchen Strategie sind dem Fachmann bekannt.By Use the method described above in accordance with the embodiments of the present invention (i.e., prediction filtering in the encoder and inverse filtering in the decoder) may be conventional for certain Block transformations, which include the discrete Fourier transform (DFT) or the discrete cosine transform (DCT) count which both known to one of ordinary skill in the art, provide a unique envelope shaping effect be achieved. For example, if a perceptual Encoder according to the present invention Invention a filter bank with critical subsampling and overlapping windows -. B. a conventional one Modified Discrete Cosine Transform (MDCT) or another conventional, on "Time Domain Aliasing Cancellation "(TDAC) based filter bank - used, is the resulting envelope shaping effect inherent in the filter bank Exposed to aliasing effects in the time domain. For example, finds in the case of a MDCT, a back-mirroring process (i.e., one aliasing operation) per window half, and the envelope fine structure appears within the left and right half of the window each mirrored (i.e., affected by aliasing). Since the final output data of the filter bank by applying a synthesis window on the output data of each inverse Transformations and by running an overlapping one Addition of these data segments are created by aliasing affected unwanted Components in dependence weakened the synthesis window used. It is therefore an advantage select a filter bank window that only a small overlap between successive blocks shows, so that the temporal aliasing effect is minimal. A suitable Strategy in the encoder, for example, adaptive for critical signals a window with a low degree of overlap select and by for provide an improved frequency separation. The details of Implementation of such a strategy is known to the person skilled in the art.

Obwohl etliche spezifische Ausführungsformen dieser Entfindung gezeigt und beschrieben wurden, versteht es sich, dass diese Ausführungsformen nichts weiter als Beispiele für die vielen möglichen spezifischen Anordnungen sind, die unter Anwendung der Prinzipien der Erfindung ausgearbeitet werden können. Obwohl die gezeigten und beschriebenen Ausführungsbeispiele auf das Kodieren und Dekodieren von nur zwei Kanäle umfassenden stereophonen Audiosignalen beschränkt gewesen sind, werden dem Fachmann auf Grundlage der hier getätigten Offenbarungen alternative Ausführungsformen als naheliegend erscheinen, die zum Beispiel zum Kodieren und Dekodieren von stereophonen Audiosignalen benutzt werden können, die mehr als zwei Kanäle aufweisen. Außerdem können vom Durchschnittsfachmann in Übereinstimmung mit diesen Prinzipien zahlreiche und verschiedenartige andere Anordnungen ausgearbeitet werden, ohne dass vom Umfang der Erfindung abgewichen würde.Even though several specific embodiments of this discovery have been shown and described, it is understood that these embodiments are nothing continue as examples of the many possible specific ones Arrangements are those which use the principles of the invention can be worked out. Although the embodiments shown and described are based on coding and decoding only two channels comprehensive stereophonic audio signals have been limited Skilled in the art based on the disclosures made herein Embodiments as obvious, for example for coding and decoding of stereophonic audio signals having more than two channels. Furthermore can by the average expert in agreement with these principles numerous and varied other arrangements be worked out without departing from the scope of the invention would.

Claims

A method of combining stereo-encoding a multi-channel audio signal to produce a coded signal, the method comprising the steps of: (a) performing spectral decomposition of a first audio channel signal into a plurality of first spectral component signals; (b) generating a first prediction signal representative of a prediction of one of the first spectral component signals, the prediction being based on one or more further ones of the first spectral component signals; (c) comparing the first prediction signal with that one of the first spectral component signals to produce a first prediction error signal; (d) performing a spectral decomposition of a second Audio channel signal into a plurality of second spectral component signals; (e) combining stereo-coding that one of the first spectral component signals and one of the second spectral component signals to produce a combination-coded spectral component signal, the encoding being based on the first prediction error signal; and (f) generating the coded signal based on the combination coded spectral component signal.

The method of claim 1, further comprising following steps: (g) generating a second prediction signal, this is a prediction of that one of the second spectral component signals where the prediction is based on one or more others based on the second spectral component signals; and (h) Compare the second prediction signal with that one of the second spectral component signals, a second one prediction error to create; and wherein the step of combining stereo coding that one of the first spectral component signals as well as that one the second spectral component signals also on the second prediction error signal based.

The method of claim 1, wherein the step of Combination stereo coding that one of the first spectral component signals as well as that one of the second spectral component signals the intensity stereo coding that one of the first spectral component signals as well as that one the second spectral component signals.

The method of claim 1, wherein the step of Generating the coded signal based on the combination-coded one Spectral component signal quantizing the combination-coded Spectral component signal comprises.

The method of claim 4, wherein the quantization of the combination coded spectral component signal on a perceptual model based.

Method according to one of the preceding claims, which the step of storing the coded signal on a Storage medium includes.

The method of claim 6, wherein the storage medium includes a compact disc.

The method of claim 6, wherein the storage medium includes a digital audio tape.

The method of claim 6, wherein the storage medium comprises a semiconductor memory.

Method for decoding a coded signal, to produce a reconstructed multi-channel audio signal, wherein the coded signal is a combination stereo coding of an original multi-channel audio signal and wherein the method comprises the following steps: (A) Combine stereo decoding the encoded signal to a plurality to produce decoded channel signals, each decoded Channel signal comprises a plurality of decoded spectral component prediction error signals includes; (b) generating a first spectral component signal based on one or more of these spectral component prediction error signals, included in a first of the decoded channel signals; (C) Generating a first prediction signal, which represents a prediction of a second spectral component signal, wherein the prediction is based on the first spectral component signal; (D) Generating the second spectral component signal based on the first prediction signal as well one or more of the spectral component prediction error signals that included in the first of the decoded channel signals; and (E) Generating a first channel of the reconstructed multi-channel audio signal based on the first and second spectral component signals.

The method of claim 10, further comprising following steps: (f) generating a third spectral component signal based on one or more of the spectral component prediction error signals, included in a second of the decoded channel signals; (G) Generating a second prediction signal, which represents a prediction of a fourth spectral component signal, wherein the prediction is based on the third spectral component signal; (H) Generating the fourth spectral component signal based on the second prediction signal and one or more of the spectral component prediction error signals, included in the second of the decoded channel signals; and (i) generating a second channel of the reconstructed multi-channel audio signal based on the third and fourth spectral component signals.

The method of claim 10, wherein the step of Combining stereo decoding the encoded signal, the intensity stereo decoding of the coded signal.

A coder for combining stereo coded a multichannel audio signal to produce a coded signal, the coder comprising: (a) a first filter bank ( 12l . 12r ), which is a spectral decomposition of a first audio channel signal in a Performs a plurality of first spectral component signals; (b) a first prediction filter ( 16l . 16r . 47 ) generating a first prediction signal representing a prediction of one of the first spectral component signals, the prediction filter being responsive to one or more further ones of the first spectral component signals; (c) a first comparator ( 48 ) comparing the first prediction signal with that one of the first spectral component signals to produce a first prediction error signal; (d) a second filter bank ( 12l . 12r ) performing a spectral decomposition of a second audio channel signal into a plurality of second spectral component signals; (e) a combination stereo coder ( 13 ) performing the combination stereo coding of one of the first spectral component signals and one of the second spectral component signals to produce a combination coded spectral component signal, the coding being based on the first prediction error signal; and (f) an encoder ( 14 ) which generates the coded signal based on the combination coded spectral component signal.

An encoder according to claim 13, further comprising: (g) a second prediction filter (16) 16l . 16r . 47 ) generating a second prediction signal representing a prediction of said one of said second spectral component signals, said prediction being based on one or more further ones of said second spectral component signals; and (h) a second comparator ( 48 ) comparing the second prediction signal to that one of the second spectral component signals to produce a second prediction error signal; and wherein the combination stereo encoder further performs the combination stereo coding based on the second prediction error signal.

The encoder of claim 13, wherein the combination stereo encoder an intensity stereo encoder comprising the intensity stereo coding that one of the first spectral component signals as well as that one performs the second spectral component signals.

An encoder according to claim 13, wherein the encoder, the the coded signal based on the combination coded Generated spectral component signal comprising a quantizer, which quantizes the combination coded spectral component signal.

An encoder according to claim 16, wherein the quantizer based on a perceptual model.

A decoder for decoding a coded signal to produce a reconstructed multichannel audio signal, the coded signal comprising combining stereo coding an original multichannel audio signal, and the method comprising: (a) a combination stereo codec 23 ) performing the combination stereo decoding of the encoded signals to produce a plurality of decoded channel signals, each decoded channel signal comprising a plurality of decoded spectral component prediction error signals; (b) means for generating a first spectral component signal based on one or more of the spectral component prediction error signals included in a first of the decoded channel signals; (c) a first prediction filter ( 26l . 26r ) generating a first prediction signal representing a prediction of a second spectral component signal, the prediction based on the first spectral component signal; (d) means for generating the second spectral component signal based on the first prediction signal and one or more of the spectral component prediction error signals included in the first of the decoded channel signals; and (e) a first filter bank ( 24l . 24r ) which generates a first channel of the reconstructed multi-channel audio signal based on the first and second spectral component signals.

The decoder of claim 18, further comprising includes: (f) means for generating a third spectral component signal based on one or more of the spectral component prediction error signals, included in a second of the decoded channel signals; (G) a second prediction filter, which is a second prediction signal which produces a prediction of a fourth spectral component signal representing the prediction on the third spectral component signal is based; (h) means for generating the fourth spectral component signal based on the second prediction signal and one or more of the spectral component prediction error signals, included in the second of the decoded channel signals; and (i) a second filter bank having a second channel of the reconstructed multi-channel audio signal based on the third and fourth spectral component signals.

The decoder of claim 18, wherein the composite stereo decoder comprises an intensity stereo decoder that is the intensity stereo decoding the coded signal.