DE69731677T2 - Improved combination stereo coding with temporal envelope shaping - Google Patents
Improved combination stereo coding with temporal envelope shaping Download PDFInfo
- Publication number
- DE69731677T2 DE69731677T2 DE69731677T DE69731677T DE69731677T2 DE 69731677 T2 DE69731677 T2 DE 69731677T2 DE 69731677 T DE69731677 T DE 69731677T DE 69731677 T DE69731677 T DE 69731677T DE 69731677 T2 DE69731677 T2 DE 69731677T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- spectral component
- prediction
- signals
- coded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000007493 shaping process Methods 0.000 title description 8
- 230000002123 temporal effect Effects 0.000 title description 7
- 230000003595 spectral effect Effects 0.000 claims description 139
- 238000000034 method Methods 0.000 claims description 60
- 230000005236 sound signal Effects 0.000 claims description 26
- 238000013139 quantization Methods 0.000 claims description 13
- 239000004065 semiconductor Substances 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims 4
- 239000002131 composite material Substances 0.000 claims 1
- 238000001914 filtration Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 11
- 230000000873 masking effect Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002087 whitening effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 241001136792 Alle Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000036962 time dependent Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000002768 hair cell Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000002023 somite Anatomy 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Querverweis auf verwandte Anmeldungcross-reference on related application
Der Gegenstand dieser Patentanmeldung ist verwandt mit dem Gegenstand der US-Patentanmeldung von J. Herre mit dem Titel „Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain", Aktenzeichen 08/585086, eingereicht am 16. Januar 1996 und auf den Zessionar der vorliegenden Erfindung übertragen; die genannte US-Patentanmeldung entspricht EP-A-0 785 631, veröffentlicht am 23.07.1997. „Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain" wird hiermit durch Literaturhinweis in die vorliegende Patentanmeldung eingefügt.Of the The subject of this patent application is related to the subject matter U.S. Patent Application to J. Herre entitled "Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain ", file number 08/585086, filed January 16, 1996 and assigned to the assignee of transferred to the present invention; said US patent application corresponds to EP-A-0 785 631 published on 23.07.1997. "Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain "is hereby Inserted by reference in the present patent application.
Gebiet der ErfindungTerritory of invention
Die vorliegende Erfindung betrifft das Gebiet des Audiosignalkodierens, im Speziellen ein verbessertes Verfahren sowie eine verbesserte Vorrichtung zum Kombinationsstereokodieren von Mehrkanal-Audiosignalen.The The present invention relates to the field of audio signal coding. in particular, an improved method and an improved Apparatus for combining stereo coding of multi-channel audio signals.
Allgemeiner Stand der Technikgeneral State of the art
Über die letzten Jahre sind sogenannte „wahrnehmungsorientierte Audiokodierer" entwickelt worden, welche die Übertragung und Speicherung von hochwertigen Audiosignalen bei Bitraten von weniger als einem Zwölftel der üblicherweise auf einem herkömmlichen Compact-Disc-Medium (CD) benutzten Bitrate ermöglichen. Solche Kodierer nutzen die aufgrund der Irrelevanz des menschlichen Gehörs in einem Audiosignal enthaltene Irrelevanz aus, indem sie das Signal nur mit der zum Erhalt eines bei der Wahrnehmung ununterscheidbaren rekonstruierten (d. h. dekodierten) Signals notwendigen Genauigkeit kodieren. Unter verschiedenen Standardisierungsorganisationen sind Standards festgelegt worden, beispielsweise die Audiostandards MPEG1 und MPEG2 der Moving Picture Experts Group der International Standardization Organization (ISO/MPEG). Wahrnehmungsorientierte Audiokodierer sind zum Beispiel in den folgenden US-Patentschriften detailliert beschrieben: 5,285,498, erteilt an James D. Johnston am 8. Februar 1994 und 5, 341, 457, erteilt an Joseph L. Hall II und James D. Johnston am 23. August 1994; beide sind an den Zessionar der vorliegenden Erfindung übertragen.About the Last years are so-called "perception-oriented Audio Encoder "has been developed which the transmission and storing high quality audio signals at bit rates of less than a twelfth the usual on a conventional one Compact Disc Media (CD) used bitrate. Such encoders use those due to the irrelevance of the human hearing in an audio signal contained irrelevance by the signal only with the one to obtain an indistinguishable in perception reconstructed (i.e., decoded) signal to code necessary accuracy. Different standardization organizations are standards for example, the MPEG1 and MPEG2 audio standards Moving Picture Experts Group of the International Standardization Organization (ISO / MPEG). Perceptual audio coders are for example in detail in the following U.S. Patents: 5,285,498, issued to James D. Johnston on February 8, 1994 and 5, 341, 457, granted to Joseph L. Hall II and James D. Johnston on August 23, 1994; both are assigned to the assignee of the present invention.
Generell kann der Aufbau eines wahrnehmungsorientierten Audiokodierers für monophone Audiosignale wie folgt beschrieben werden:
- • Die Eingangssignalwerte werden in eine unterabgetastete Spektraldarstellung umgewandelt, wobei verschiedene Arten von Filterbänken und Transformationen zum Einsatz kommen, so z. B. die bekannte modifizierte diskrete Kosinustransformation (MDCT), Polyphasenfilterbänke oder hybride Strukturen.
- • Unter Verwendung eines Wahrnehmungsmodells werden eine oder mehrere zeitabhängige Maskierungsschwellen abgeschätzt. Diese Schwellen geben den maximalen Kodierungsfehler an, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann. Insbesondere können diese Maskierungsschwellen für jedes Teilband einzeln festgelegt werden. D. h., die einzelnen Frequenzbänder des Kodierers, bestehend aus einer Gruppierung eines oder mehrerer Spektralkoeffizienten, werden vorteilhafterweise jeweils gemeinsam auf Basis einer entsprechend festgelegten Maskierungsschwelle kodiert.
- • Die Spektralwerte werden quantisiert und auf Basis der Frequenzbänder des Kodierers in der zu den Maskierungsschwellen-Schätzwerten korrespondierenden Genauigkeit kodiert. Auf diese Weise kann das Quantisierungsrauschen von dem jeweiligen übertra genen Signal versteckt (d. h. maskiert) werden und ist daher nach dem Dekodieren nicht wahrnehmbar.
- • Schließlich werden alle relevanten Informationen (z. B. die kodierten Spektralwerte und zusätzliche Seiteninformationen) in einen Bitstrom gepackt und an den Dekodierer übertragen.
- • The input signal values are converted to a sub-sampled spectral representation using various types of filter banks and transforms, such as: The known modified discrete cosine transform (MDCT), polyphase filter banks or hybrid structures.
- Using one perceptual model, one or more time-dependent masking thresholds are estimated. These thresholds indicate the maximum coding error that can be introduced into the audio signal while maintaining unimpaired signal quality. In particular, these masking thresholds can be determined individually for each subband. In other words, the individual frequency bands of the coder, consisting of a grouping of one or more spectral coefficients, are advantageously coded together on the basis of a correspondingly defined masking threshold.
- The spectral values are quantized and encoded based on the frequency bands of the encoder in the accuracy corresponding to the masking threshold estimates. In this way, the quantization noise from the respective transmitted signal can be hidden (ie masked) and therefore imperceptible after decoding.
- Finally, all relevant information (eg the coded spectral values and additional page information) is packed into a bit stream and transmitted to the decoder.
Die Verarbeitung im Kodierer ist im Dekodierer entsprechend umgekehrt:
- • Der Bitstrom wird dekodiert, analysiert und in kodierte Spektraldaten und Seiteninformationen zerlegt.
- • Die quantisierten Spektralwerte werden (auf Basis der im Kodierer verwendeten Frequenzbänder) invers quantisiert.
- • Die Spektralwerte werden unter Verwendung einer Synthesefilterbank in eine Zeitbereichsdarstellung rücküberführt.
- • The bit stream is decoded, analyzed and decomposed into coded spectral data and page information.
- • The quantized spectral values are inversely quantized (based on the frequency bands used in the encoder).
- The spectral values are reconverted to a time domain representation using a synthesis filter bank.
Mit einem solchen generischen Aufbau des Kodierers kann man die aufgrund der Irrelevanz des menschlichen Gehörs in einem Audiosignal enthaltene Irrelevanz effizient ausnutzen. Insbesondere kann das Spektrum des Quantisierungsrauschens entsprechend der Gestalt der Rauschmaskierungsschwelle des Signals geformt werden. Auf diese Weise kann das aus dem Kodiervorgang resultierende Rauschen unter dem kodierten Signal „versteckt" werden, und so kann bei hohen Kompressionsraten eine bei der Wahrnehmung transparente Qualität erzielt werden.With Such a generic structure of the encoder can be due to the irrelevance of human hearing contained in an audio signal Exploit irrelevance efficiently. In particular, the spectrum of the Quantization noise corresponding to the shape of the noise masking threshold be formed of the signal. In this way, this can be done from the coding process resulting noise can be "hidden" under the coded signal, and so on at high compression rates, a transparent in the perception quality be achieved.
Wahrnehmungsorientierte Kodierverfahren für monophone Audiosignale sind erfolgreich auf das Kodieren von stereophonen Zweikanal- und Mehrkanalsignalen erweitert worden. Insbesondere sind sogenannte „Kombinations stereo"-Kodierverfahren eingeführt worden, die eine kombinierte Signalverarbeitung der Eingangssignale ausführen, anstatt separate (d. h. unabhängige) Kodiervorgänge für die einzelnen Eingangssignale auszuführen. (Es ist zu beachten, dass sich hier, wie auch im allgemeinen Gebrauch, und wie es dem Durchschnittsfachmann geläufig ist, die Begriffe „Stereo" und „stereophon" auf die Verwendung von zwei oder mehr einzelnen Audiokanälen beziehen.)Perceptual coding methods for monophonic audio signals have been successfully extended to the coding of stereophonic two-channel and multi-channel signals. In particular, so-called "combination stereo" coding methods have been introduced which combine signal processing instead of performing separate (ie, independent) coding operations on the individual input signals. (It should be noted that here, as well as in common usage, and as those of ordinary skill in the art will appreciate, the terms "stereo" and "stereophonic" refer to the use of two or more separate audio channels.)
Der Einsatz von Kombinationsstereokodierverfahren bringt mindestens zwei Vorteile mit sich. Erstens ermöglicht der Einsatz von Kombinationsstereokodierverfahren die Berücksichtigung von binauralen psychoakustischen Effekten. Zweitens kann die für das Kodieren von stereophonen Signalen benötigte Bitrate erheblich unter die für ein separates, unabhängiges Kodieren der einzelnen Kanäle benötigte Bitrate abgesenkt werden.Of the Use of combination stereo coding method brings at least two advantages. First, the use of combination stereo coding techniques allows the consideration of binaural psychoacoustic effects. Second, that can be for coding required of stereophonic signals Bitrate significantly below the for a separate, independent Coding of the individual channels required bit rate be lowered.
Generell kann der Aufbau eines wahrnehmungsorientierten, stereophonen Mehrkanal-Audiokodierers wie folgt beschrieben werden:
- • Die Signalwerte der Eingangssignale werden in eine unterabgetastete Spektraldarstellung umgewandelt, wobei verschiedene Arten von Filterbänken und Transformationen zum Einsatz kommen, so z. B. die modifizierte diskrete Kosinustransformation (MDCT), Polyphasenfilterbänke oder hybride Strukturen.
- • Unter Verwendung eines Wahrnehmungsmodells wird die zeitabhängige Maskierungsschwelle des Signals für die einzelnen Kanäle abgeschätzt. Daraus ergibt sich der maximale Kodierungsfehler, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann.
- • Beim Kombinationsstereokodieren werden Anteile der Spektralkoeffizientendaten gemeinsam verarbeitet, um eine effizientere Darstellung des Stereosignals zu erzielen. Abhängig von dem eingesetzten Stereokodierverfahren können auch Anpassungen an den Maskierungsschwellen vorgenommen werden.
- • Die Spektralwerte werden quantisiert und in der zu den Maskierungsschwellen-Schätzwerten korrespondierenden Genauigkeit kodiert. Auf diese Weise wird das Quantisierungsrauschen durch das jeweilige übertragene Signal versteckt (d. h. maskiert) und ist daher nach dem Dekodieren nicht wahrnehmbar.
- • Schließlich werden alle relevanten Informationen (d. h. die kodierten Spektralwerte und zusätzliche Seiteninformationen) in einen Bitstrom gepackt und an den Dekodierer übertragen.
- • The signal values of the input signals are converted into a sub-sampled spectral representation, using various types of filter banks and transformations, such as: The modified discrete cosine transform (MDCT), polyphase filter banks, or hybrid structures.
- • Using a perceptual model, estimate the time-dependent masking threshold of the signal for each channel. This results in the maximum coding error that can be introduced into the audio signal while maintaining a signal quality unaffected by the perception.
- • In combination stereo coding, portions of the spectral coefficient data are processed together to provide a more efficient representation of the stereo signal. Depending on the stereo coding method used, adjustments to the masking thresholds can also be made.
- The spectral values are quantized and encoded in the accuracy corresponding to the masking threshold estimates. In this way, the quantization noise is hidden (ie masked) by the respective transmitted signal and is therefore imperceptible after decoding.
- Finally, all relevant information (ie the coded spectral values and additional page information) is packed into a bit stream and transmitted to the decoder.
Die Verarbeitung im Kodierer ist im Dekodierer entsprechend umgekehrt:
- • Der Bitstrom wird dekodiert, analysiert und in kodierte Spektraldaten und Seiteninformationen zerlegt.
- • Die quantisierten Spektralwerte werden invers quantisiert.
- • Mit den Spektralwerten wird der Dekodiervorgang für die Kombinationsstereoverarbeitung ausgeführt, wodurch man für die einzelnen Kanäle jeweils ein separates Signal erhält.
- • Die Spektralwerte für die einzelnen Kanäle werden jeweils unter Verwendung entsprechender Synthesefilterbänke in die Zeitbereichsdarstellung rück überführt.
- • The bit stream is decoded, analyzed and decomposed into coded spectral data and page information.
- • The quantized spectral values are inversely quantized.
- • The spectral values are used to perform the decoding process for the combination stereo processing, whereby a separate signal is obtained for the individual channels.
- • The spectral values for the individual channels are each converted back to the time domain representation using appropriate synthesis filter banks.
Die zwei derzeit meistverbreitetsten Kombinationsstereokodierverfahren sind als „Mitte-Seite-Stereokodieren" (M/S) bzw. „Intensitätsstereokodieren" bekannt. Aufbau und Betrieb eines Kodierers auf Basis des M/S-Stereokodierens sind z. B. in US-Patentschrift Nr. 5,285,498 beschrieben (siehe oben). Unter Verwendung dieses Verfahrens können binaurale Maskierungseffekte vorteilhaft berücksichtigt werden, und zusätzlich kann ein gewisses Maß an signalabhängigem Gewinn erzielt werden.The two currently most common combination stereo coding methods are known as "center-side stereo coding" (M / S) and "intensity stereo coding", respectively. construction and operation of a coder based on M / S stereo coding z. In U.S. Patent No. 5,285,498 (see above). Using this method, binaural masking effects can be achieved considered advantageous be, and in addition can be a degree signalabhängigem Profit can be achieved.
Ein größeres Biteinsparungspotential bietet jedoch das Intensitätsstereoverfahren. Insbesondere nutzt dieses Verfahren die Einschränkungen des menschlichen Gehörs bei hohen Frequenzen (z. B. bei Frequenzen oberhalb 4 kHz) aus, indem nur ein Spektralkoeffizientensatz für alle kombinationskodierten Kanalsignale übertragen wird, wodurch erhebliche Einsparungen bei der Datenrate erzielt werden. Kodierer auf Basis des Intensitätsstereoprinzips sind in zahlreichen Quellen beschrieben, darunter die europäische Patentanmeldung 0 497 413 Al von R. Veidhuis et al., eingereicht am 24. Januar 1992 und publiziert am 5. August 1992, sowie (mit anderer Terminologie) die internationale PCT-Patentanmeldung WO 92/12607 von M. Davis et al., eingereicht am 8. Januar 1992 und publiziert am 23. Juli 1992.One greater bit-saving potential however, provides the intensity stereo method. In particular, this method uses the limitations of human hearing at high levels Frequencies (eg at frequencies above 4 kHz) by only a spectral coefficient set for All the combination coded channel signals is transmitted, which is significant Savings in the data rate can be achieved. Encoder based of the intensity stereo principle described in numerous sources, including the European patent application 0 497 413 Al to R. Veidhuis et al., Filed January 24, 1992 and published on August 5, 1992, as well as (with different terminology) PCT International Patent Application WO 92/12607 to M. Davis et al., filed January 8, 1992 and published July 23 1,992th
Durch Kombinationsstereoverarbeiten der Spektralkoeffizienten vor der Quantisierung können weitere Einsparungen bezüglich der erforderlichen Bitrate erzielt werden. Im Falle des Intensitätsstereokodierens rühren einige dieser Einsparungen daher, dass das menschliche Gehör bei hohen Frequenzen (z. B. bei Frequenzen oberhalb 4 kHz) bekanntermaßen unempfindlich gegen Phaseninformationen ist. Aufgrund der Eigenschaften der menschlichen Haarzellen werden bei der Wahrnehmung Signalhüllkurven anstelle der Wellenform des Signals selbst ausgewertet. Daher genügt es, anstatt der gesamten Wellenform nur die Hüllkurve dieser Signalanteile zu kodieren. Dies kann beispielsweise bewerkstelligt werden, indem für alle in Frage kommende Kanäle ein gemeinsamer Spektralkoeffizientensatz (nachfolgend als das „Trägersignal" bezeichnet) übertragen wird, anstatt separate Koeffizientensätze für jeden Kanal zu übertragen. Im Dekodierer wird das Trägersignal dann für jeden Kanal unabhängig skaliert, um die gemittelte Hüllkurve (bzw. Signalenergie) für den jeweiligen Kodierblock anzupassen.By combining stereo processing of the spectral coefficients before quantization, further savings in the required bit rate can be achieved. In the case of intensity stereo coding, some of these savings stem from the fact that human hearing at high frequencies (eg, at frequencies above 4 kHz) is known to be insensitive to phase information. Due to the characteristics of human hair cells, signal envelopes are evaluated instead of the waveform of the signal itself. Therefore, it is sufficient to code instead of the entire waveform only the envelope of these signal components. This may be accomplished, for example, by transmitting a common set of spectral coefficients (hereinafter referred to as the "carrier signal") for all candidate channels, rather than transmitting separate sets of coefficients for each channel In the decoder, the carrier signal is then scaled independently for each channel the averaged envelope (or signal energy) for the adapt to each coding block.
Beim Intensitätsstereokodieren/-dekodieren werden typischerweise auf Basis der Frequenzbänder des Kodierers die folgenden Verarbeitungsschritte ausgeführt:
- • Aus den Spektralkoeffizienten aller in Frage kommender Kanäle wird ein „Träger"-Signal erzeugt, das dazu geeignet ist, die einzelnen Kanalsignale darzustellen. Hierzu werden üblicherweise Linearkombinationen der Teilsignale gebildet.
- • Aus den ursprünglichen Signalen werden Skalierungsinformationen extrahiert, die die Hüllkurve bzw. den Energiegehalt des betreffenden Frequenzbands des Kodierers beschreiben.
- • Sowohl das Trägersignal als auch die Skalierungsinformationen werden an den Dekodierer übertragen.
- • Im Dekodierer werden die Spektralkoeffizienten des Trägersignals rekonstruiert. Daraufhin werden die Spektralkoeffizienten für die einzelnen Kanäle berechnet, indem das Trägersignal unter Verwendung der jeweiligen Skalierungsinformationen für die einzelnen Kanäle skaliert wird.
- • A "carrier" signal is generated from the spectral coefficients of all channels in question, which is suitable for representing the individual channel signals, for which linear combinations of the sub-signals are usually formed.
- • From the original signals, scaling information is extracted that describes the envelope or energy content of the particular frequency band of the encoder.
- • Both the carrier signal and the scaling information are transmitted to the decoder.
- • In the decoder, the spectral coefficients of the carrier signal are reconstructed. Thereafter, the spectral coefficients for the individual channels are calculated by scaling the carrier signal using the respective scaling information for the individual channels.
Dieser Ansatz bewirkt, dass anstelle separater Spektralkoeffizientensätze für jedes Kanalsignal nur ein Spektralkoeffizientensatz (nämlich die Koeffizienten des Trägersignals) sowie eine kleine Menge an Seiteninformationen (nämlich die Skalierungsinformationen) übertragen werden müssen. Im Falle von Zweikanal-Stereo führt dies bei den intensitätskodierten Frequenzbereichen zu einer Einsparung von fast 50% der Datenrate.This Approach causes, instead of separate spectral coefficient sets for each Channel signal only one set of spectral coefficients (namely the coefficients of the Carrier signal) and a small amount of page information (namely the Scaling information) Need to become. In the case of two-channel stereo does this at the intensity-coded Frequency ranges to a saving of almost 50% of the data rate.
Ungeachtet der Vorteile dieses Ansatzes führt übermäßige oder unkontrollierte Anwendung des Intensitätsstereokodierverfahrens zu einer Verschlechterung des wahrgenommenen Stereobildes, weil die detaillierte zeitliche Struktur der Signale für Zeitintervalle, die kleiner als die Granularität der Kodieranordnung (z. B. 20 ms je Block) sind, nicht erhalten ist. Insbesondere sind infolge der Verwendung eines einzigen Trägers alle aus diesem Träger rekonstruierten Ausgangssignale notwendigerweise skalierte Versionen voneinander. Anders ausgedrückt: über die Dauer des kodierten Blocks (z. B. 10 bis 20 ms) hinweg haben sie die gleiche Hüllkurvenfeinstruktur. Für stationäre Signale oder für Signale mit in den intensitätsstereokodierten Kanälen ähnlichen Hüllkurvenfeinstrukturen stellt dies kein erhebliches Problem dar.regardless The benefits of this approach are excessive or uncontrolled application of the intensity stereo coding method a deterioration of the perceived stereo image, because the detailed temporal structure of the signals for time intervals, the smaller as the granularity of the coding arrangement (eg 20 ms per block) are not preserved is. In particular, all are due to the use of a single carrier from this carrier Reconstructed output signals necessarily scaled versions from each other. In other words: about the They have the duration of the coded block (eg 10 to 20 ms) the same envelope fine structure. For stationary signals or for Signals with in the intensity stereo coded Canals similar Hüllkurvenfeinstrukturen this does not pose a significant problem.
Bei transienten Signalen mit unähnlichen Hüllkurven in verschiedenen Kanälen jedoch kann die ursprüngliche Verteilung der Hüllkurveneinsätze über die kodierten Kanäle nicht zurückgewonnen werden. Beispielsweise unterscheiden sich in einer stereophonen Aufnahme eines applaudierenden Publikums die einzelnen Hüllkurven im rechten bzw. linken Kanal aufgrund der unterschiedlichen Klatschereignisse, die in den jeweiligen Kanälen zu verschiedenen Zeitpunkten stattfinden. Ähnliche Effekte treten bei Aufnahmen auf, die mit stereophonen Mikrophonen erzeugt wurden, so dass die räumliche Position einer Schallquelle letztendlich in Form von Zeitdifferenzen bzw. Verzögerungen zwischen den jewei ligen Kanalsignalen kodiert ist. Infolgedessen verringert sich die Qualität des Stereobildes eines intensitätsstereokodierten/-dekodierten Signals in diesen Fällen wesentlich. Der räumliche Eindruck tendiert dazu, sich zu verschmälern, und das wahrgenommene Stereobild tendiert dazu, in die Mittenposition zu kollabieren. Bei kritischen Signalen kann die erreichte Qualität nicht mehr als brauchbar betrachtet werden.at transient signals with dissimilar envelopes in different channels however, the original one Distribution of Envelope Deployments over the coded channels not be recovered. For example, differ in a stereophonic recording an applauding audience the individual envelopes in the right and left Channel due to the different gossip events occurring in the respective channels take place at different times. Similar effects occur Recordings made with stereophonic microphones so that the spatial Position of a sound source ultimately in the form of time differences or delays is encoded between the jewei time channel signals. Consequently the quality decreases the stereo image of an intensity stereo coded / decoded Signal in these cases essential. The spatial Impression tends to narrow, and the perceived Stereo image tends to collapse to the center position. For critical signals, the quality achieved can not be considered more than useful.
Um Verschlechterungen im Stereobild eines intensitätskodierten/-dekodierten Signals zu vermeiden, sind einige Strategien vorgeschlagen worden. Da das Intensitätsstereokodieren das Risiko einer Beeinträchtigung des Stereobildes trägt, ist vorgeschlagen worden, dieses Verfahren nur dann zu benutzen, wenn dem Kodierer die Bits ausgehen, um schwerwiegende Quantisierungsverzerrungen zu vermeiden, die vom Hörer als noch störender wahrgenommen würden.Around Degradation in the stereo image of an intensity-coded / decoded signal To avoid some strategies have been proposed. Since that Intensity stereo coding the risk of impairment wearing the stereo image, it has been proposed to use this procedure only if the coder emits the bits, severe quantization distortions to be avoided by the listener as even more disturbing would be perceived.
Auch könnte ein Algorithmus eingesetzt werden, der Unähnlichkeiten in den zeitlichen Feinstrukturen der Kanäle erkennt. Wenn eine Nichtübereinstimmung der Hüllkurven erkannt wird, wird in dem betreffenden Block keine Intensitätsstereokodierung angewendet. Ein solcher Ansatz wird z. B. beschrieben in J. Herre et al., „Intensity Stereo Coding", 96th Audio Engineering Society Convention, Amsterdam, Februar 1994. Ein offensichtlicher Nachteil der bislang vorgeschlagenen Lösungen ist jedoch, dass das Biteinsparpotential nicht mehr voll ausgenutzt werden kann, da bei solchen Signalen das Intensitätsstereokodieren deaktiviert wird.An algorithm could also be used which detects dissimilarities in the temporal fine structures of the channels. If an envelope mismatch is detected, no intensity stereo coding will be applied to the block in question. Such an approach is z. As described in J. Herre et al., "Intensity Stereo Coding", 96 th Audio Engineering Society Convention, Amsterdam, February 1994. However, an obvious disadvantage of the solutions proposed so far is that the bit-saving potential can no longer be fully exploited with such signals the intensity stereo coding is deactivated.
Kurzdarstellung der ErfindungSummary the invention
Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden die Nachteile der Verfahren nach Stand der Technik mit Hilfe eines Verfahrens und einer Vorrichtung überwunden, die Mehrkanal-Audiosignale mittels Intensitätsstereokodierverfahren kombinationsstereo kodieren. Im Speziellen werden Prädiktionsfilterverfahren auf die Spektralkoeffizientendaten angewendet, wodurch die zeitliche Feinstruktur des Ausgangssignals der einzelnen Kanäle erhalten wird, dabei aber der Vorteil der durch Intensitätsstereokodieren ermöglichten hohen Bitrateneinsparungen erhalten bleibt. In einem Ausführungsbeispiel der vorliegenden Erfindung wird ein Verfahren zur Verbesserung des wahrgenommenen Stereobildes von intensitätsstereokodierten/-dekodierten Signalen geschaffen, indem in einem Kodierer für stereophone Zweikanalsignale die folgenden Verarbeitungsschritte zur Anwendung kommen:
- • Das Eingangssignal der einzelnen Kanäle wird durch eine hochauflösende Filterbank bzw. Transformation in Spektralkoeffizienten zerlegt.
- • Unter Verwendung eines Wahrnehmungsmodells werden für die einzelnen Kanäle eine oder mehrere zeitabhängige Maskierungsschwellen des Signals abgeschätzt. Dies ergibt vorteilhafterweise den maximalen Kodierungsfehler, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann.
- • Für jeden Kanal wird ein Filter, der lineare Prädiktion in der Frequenz ausführt, an den Ausgängen der Filterbank angewendet, so dass für die folgenden Schritte das Restfehlersignal anstelle des tatsächlichen Ausgangssignals der Filterbank benutzt wird.
- • Intensitätsstereokodierverfahren werden angewendet, um beide Restfehlersignale in ein Trägersignal zu kodieren.
- • Die Spektralwerte des Trägersignals werden quantisiert und in der zu dem bzw. zu den Maskierungsschwellen-Schätzwert(en) korrespondierenden Genau igkeit kodiert.
- • Alle relevanten Informationen (d. h. die kodierten Spektralwerte, Intensitätsskalierungsdaten und Prädiktionsfilterdaten) werden in einen Bitstrom gepackt und an den Dekodierer übertragen.
- • The input signal of the individual channels is split into spectral coefficients by a high-resolution filter bank or transformation.
- • Using a perceptual model, one or more time-dependent masking thresholds of the signal are estimated for each channel. This advantageously provides the maximum coding error that can be introduced into the audio signal while maintaining a signal quality unaffected by the perception.
- • For each channel, a filter that performs linear prediction in frequency is applied to the outputs of the filter bank, so that for the following steps the residual error signal is used instead of the actual output signal of the filter bank.
- • Intensity stereo coding techniques are used to encode both residual error signals into a carrier signal.
- The spectral values of the carrier signal are quantized and encoded in the exactness corresponding to the masking threshold estimate (s).
- All relevant information (ie the coded spectral values, intensity scaling data and prediction filter data) is packed into a bit stream and transmitted to the decoder.
Entsprechend führt ein Dekodierer gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung für kombinationsstereokodierte Signale, der dem obenstehend beschriebenen Beispielkodierer entspricht, die folgenden Verarbeitungsschritte aus:
- • Der Bitstrom wird dekodiert, analysiert und in die kodierten Spektraldaten und Seiteninformationen zerlegt.
- • Die quantisierten Spektralwerte des Trägersignals werden invers quantisiert.
- • Die Spektralwerte des Trägersignals werden intensitätsstereodekodiert, wodurch (Restfehler-)Signale für die einzelnen Kanäle erzeugt werden.
- • Für die einzelnen Kanäle werden in der Frequenz arbeitende inverse Prädiktionsfilter auf das ursprüngliche Signal angewendet, die den Prädiktionsfiltern entsprechen, die von dem Kodierer, der benutzt wurde, um das ursprüngliche Signal zu kodieren, angewendet wurden.
- • Die von den inversen Prädiktionsfiltern erzeugten Spektralwerte werden unter Verwendung von Synthesefilterbänken in die Zeitbereichsdarstellung rücküberführt.
- The bit stream is decoded, analyzed and decomposed into the coded spectral data and page information.
- • The quantized spectral values of the carrier signal are inversely quantized.
- • The spectral values of the carrier signal are intensity-stereo-decoded, producing (residual-error) signals for the individual channels.
- For the individual channels, frequency inverse prediction filters are applied to the original signal corresponding to the prediction filters used by the encoder used to encode the original signal.
- The spectral values generated by the inverse prediction filters are returned to the time domain representation using synthesis filter banks.
Kurze Beschreibung der ZeichnungenShort description the drawings
Es zeigen:It demonstrate:
Detaillierte Beschreibungdetailed description
Überblickoverview
Die Aufnahme eines Prädiktionsfiltervorgangs in Kodierer und Dekodierer gemäß bestimmten Ausführungsbeispielen der vorliegenden Erfindung verbessert vorteilhafterweise die Qualität des intensitätsstereokodierten/-dekodierten Signals, indem die Einschränkung der Anordnungen nach Stand der Technik, dass in allen intensitätsstereodekodierten Kanalsignalen identische Hüllkurvenfeinstrukturen erzeugt werden, überwunden wird. Insbesondere überwindet das Beispielkodierverfahren die Nachteile der bisherigen Verfahren, indem die Filterbank durch die Prädiktionsfilterstufe effektiv derart erweitert wird, dass die über die Frequenz hinweg gemeinsamen Hüllkurveninformationen in Form von Filterkoeffizienten extrahiert und größtenteils aus dem Restfehlersignal entfernt werden.The Recording a prediction filter operation in encoders and decoders according to certain embodiments The present invention advantageously improves the quality of the intensity stereo coded / decoded Signal by the restriction the arrangements of the prior art that in all intensity stereo decoded Channel signals identical envelope fine structures be generated, overcome becomes. In particular, overcomes the example coding method the disadvantages of the previous methods, by making the filter bank effective through the prediction filter stage is extended so that the over the frequency away common envelope information in the form extracted from filter coefficients and largely from the residual error signal be removed.
Insbesondere wird für jedes Eingangskanalsignal auf den entsprechenden Spektralkoeffizientendaten eine lineare Prädiktion durchgeführt, wobei die lineare Prädiktion über die Frequenz ausgeführt wird. Da die Prädiktionskodierung auf Spektralbereichsdaten angewendet wird, sind bei den im Falle klassischer Prädiktionen bekannten gültigen Beziehungen der Zeit- und der Frequenzbereich zu vertauschen. Beispielsweise hat das Prädiktionsfehlersignal idealerweise eine „flache" (quadrierte) Hüllkurve, im Gegensatz zu einem „flachen" Leistungsspektrum (ein sogenannter „Prewhitening"-Filtereffekt). Die zeitlichen Feinstrukturinformationen für die einzelnen Kanalsignale sind in den jeweiligen Prädiktionsfilterkoeffizienten enthalten. Es kann daher davon ausgegangen werden, dass das für das Intensitätsstereokodieren benutzte Trägersignal ebenso eine flache Hüllkurve aufweist, da es durch Bilden von Linearkombinationen aus den (gefilterten) Kanalsignalen erzeugt wird.In particular, for each input channel signal on the corresponding spectral coefficient data is performed a linear prediction, wherein the linear prediction is performed on the frequency. Since predictive coding is applied to spectral domain data, the time and frequency domain must be swapped in the valid relations known in the case of classical predictions. For example, the prediction error signal ideally has a "flat" (squared) envelope, as opposed to a "flat" power spectrum (a so-called "pre-whitening" filter effect.) The fine time structure information for the individual channel signals are included in the respective prediction filter coefficients It can also be assumed that the carrier signal used for the intensity stereo coding also has a flat envelope since it is generated by forming linear combinations of the (filtered) channel signals.
In einem entsprechenden Dekodierer gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden die einzelnen Kanalsignale gemäß der übertragenen Skalierungsinformationen reskaliert, und auf die Spektralkoeffizienten wird der inverse Filtervorgang angewendet. Auf diese Weise wird der inverse „Prewhitening"-Vorgang mit den Hüllkurven der einzelnen dekodierten Kanalsignale ausgeführt, wodurch effektiv die Hüllkurveninformation in die Spektralkoeffizienten wieder eingeführt wird. Da dies individuell für jeden einzelnen Kanal geschieht, ist das erweiterte Kodier-/Dekodiersystem dazu in der Lage, die verschiedenen individuellen Hüllkurvenfeinstrukturen der einzelnen Kanalsignale zu reproduzieren. Es ist zu beachten, dass in der Praxis der Einsatz einer Kombination aus Filterbank und linearer Prädiktion in der Frequenz äquivalent ist zum Einsatz einer auf die Hüllkurve des Eingangssignals abgestimmten adaptiven Filterbank. Da der Vorgang der Hüllkurvenformung eines Signals entweder für das gesamte Spektrum des Signals oder nur für einen Teil davon ausgeführt werden kann, kann diese Hüllkurvensteuerung im Zeitbereich vorteilhafterweise in jeder beliebigen notwendigen frequenzabhängigen Weise angewendet werden.In a corresponding decoder according to an embodiment According to the present invention, the individual channel signals are transmitted in accordance with FIG Scaling information rescaled, and on the spectral coefficients the inverse filtering process is applied. This way will the inverse "Prewhitening" process with the envelopes of each decoded Channel signals executed, effectively causing the envelope information is reintroduced into the spectral coefficients. As this is individual for each single channel happens, is the advanced coding / decoding system to be able to do the various individual envelope fine structures to reproduce the individual channel signals. It should be noted that in practice the use of a combination of filter bank and linear prediction equivalent in frequency is to use one on the envelope the input signal tuned adaptive filter bank. Because the process the envelope shaping a signal for either the entire spectrum of the signal or only a part of it can, this envelope control can in the time domain advantageously in any necessary frequency-dependent Be applied.
Außerdem kann
der Bitstrom, welcher zum Beispiel von dem oben beschriebenen und
nachstehend anhand
Ein Kodierer nach Stand der TechnikAn encoder according to the prior art
- • Die
linken und rechten Eingangssignale, xl(k) und xr(k), werden durch
die Analysefilterbank-/Transformationsmodule
12l bzw.12r jeweils einzeln in Spektralkoeffizienten zerlegt, wobei sich für jeden Analyseblock b ein entsprechender Satz aus „n" Spektralkomponenten yl(b, 0 ... n – 1) bzw. yr(b, 0 ... n – 1) ergibt, wobei „n" die Anzahl der Spektralkoeffizienten pro Analyseblock (d. h. die Blockgröße) ist. Jeder Spektralkomponente yl(b, i) bzw. yr(b, i) ist eine Analysefrequenz in Übereinstimmung mit der speziellen eingesetzten Filterbank zugeordnet. - • Die
Wahrnehmungsmodelle
11l bzw.11r schätzen für jeden Kanal die Genauigkeit der Kodierung ab, die für bei der Wahrnehmung transparente Qualität des kodierten/dekodierten Signals benötigt wird. Die Schätzungsdaten können zum Beispiel auf dem in den einzelnen Bändern des Kodierers erforderlichen minimalen Signal-Rauschabstand (SNR) beruhen und werden an das Quantisierungs-/Kodiermodul weitergeleitet. - • Die
Spektralwerte für
sowohl den linken als auch den rechten Kanal, yl(b, 0 ... n – 1) und
yr(b, 0 ... n – 1),
werden dem Intensitätsstereo-Kodiermodul
13 zur Verfügung gestellt, welches das herkömmliche In tensitätsstereokodieren durchführt. Für Spektralanteile, die vom Intensitätsstereokodieren ausgenommen werden sollen, können die entsprechenden Werte yl(b, 0 ... n – 1) und yr(b, 0 ... n – 1) direkt an die Quantisierungs- und Kodierstufe weitergeleitet werden. Für Spektralanteile, bei denen intensitätsstereokodiert werden soll (d. h. vorzugsweise für die hochfrequenten Anteile) wird der Intensitätsstereokodiervorgang wie folgt ausgeführt: Von jedem der Signale yl() und yr() werden Skalierungsinformationen (d. h. Spitzenamplitude oder Gesamtenergie) für die einzelnen Frequenzbänder des Kodierers extrahiert und durch Kombinieren der entsprechenden yl()- und yr()-Werte ein einzelnes Trägersignal yi() erzeugt. Für die intensitätsstereokodierten Spektralanteile werden somit der Quantisierungs- und Kodierstufe nur ein Wertesatz yi() für beide Kanäle sowie Skalierungs-Seiteninformationen für jeden Kanal zur Verfügung gestellt. Alternativ können auch kombinierte Skalierungsinformationen zusammen mit Richtungsinformationen (und dem einzelnen Trägersignal) verwendet werden. - • Die
Spektralkomponenten am Ausgang der Intensitätskodierstufe, die aus separaten
Werten yl() und yr() sowie aus gemeinsamen Werten yi() bestehen,
werden von dem Quantisierungs- und Kodiermodul
14 quantisiert und auf Übertragungssymbole abgebildet. Dieses Modul berücksichtigt die erforderliche Genauigkeit der Kodierung, wie sie von den Wahrnehmungsmodellen11l und11r bestimmt wird. - • Die
von dem Quantisierungs- und Kodiermodul
14 erzeugten Übertragungssymbolwerte werden zusammen mit weiteren Seiteninformationen an den Bitstrom-Kodierer/-Multiplexer15 weitergeleitet und werden dadurch in dem kodierten Bitstrom übertragen. Für Frequenzbänder des Kodierers, die Intensitätsstereokodierung einsetzen, werden dem Bitstrom-Kodierer/-Multiplexer15 außerdem die von dem Intensitätsstereokodiermodul13 gelieferten Skalierungsinformationen zur Verfügung gestellt.
- • The left and right input signals, xl (k) and xr (k), are passed through the analysis filter bank / transformation modules
12l respectively.12r each individually decomposed into spectral coefficients, wherein for each analysis block b, a corresponding set of "n" spectral components yl (b, 0 ... n-1) or yr (b, 0 ... n-1) results, where " n "is the number of spectral coefficients per analysis block (ie the block size). Each spectral component yl (b, i) or yr (b, i) is assigned an analysis frequency in accordance with the particular filter bank used. - • The perceptual models
11l respectively.11r For each channel, we estimate the accuracy of the coding needed for the perceptually transparent quality of the coded / decoded signal. For example, the estimation data may be based on the minimum signal-to-noise ratio (SNR) required in the individual bands of the encoder, and passed to the quantization / coding module. - • The spectral values for both left and right channels, yl (b, 0 ... n-1) and yr (b, 0 ... n-1), become the intensity stereo coding module
13 which performs conventional intensity stereo coding. For spectral components that are to be excluded from the intensity stereo coding, the corresponding values yl (b, 0 ... n-1) and yr (b, 0 ... n-1) can be forwarded directly to the quantization and coding stage. For spectral portions to be intensity stereo coded (ie, preferably for the high frequency components), the intensity stereo coding operation is performed as follows: From each of the signals y1 () and yr (), scaling information (ie peak amplitude or total energy) is extracted for the individual frequency bands of the encoder Combining the corresponding yl () and yr () values produces a single carrier signal yi (). Thus, for the intensity stereo coded spectral components, only one set of values yi () for both channels and scaling page information for each channel are provided to the quantization and coding stage. Alternatively, combined scaling information may be used along with direction information (and the single carrier signal). - • The spectral components at the output of the intensity encoding stage, which consist of separate values yl () and yr () as well as common values yi (), are used by the quantization and coding module
14 quantized and mapped to transmission symbols. This module takes into account the required accuracy of coding as used by perceptual models11l and11r is determined. - • The of the quantization and coding module
14 generated transfer symbol values are sent to the bitstream encoder / multiplexer along with other page information15 forwarded and are thereby transmitted in the coded bit stream. For frequency bands of the encoder employing intensity stereo coding, the bitstream encoder / multiplexer becomes15 also from the intensity stereo coding module13 supplied scaling information provided.
Ein BeispielkodiererA sample encoder
Zu
diesem Zwecke dient der „Drehschalter"
Insbesondere
werden, wie man in der Figur sehen kann, die resultierenden Ausgangswerte
y'(b, 0 ... n – 1) aus
den Eingangswerten y(b, 0 ... n – 1) berechnet, indem (mit
Hilfe von Subtrahierer
Der
von den Prädiktionsfiltern
Um
das korrekte Dekodieren des Signals zu ermöglichen, enthält der Bitstrom
vorteilhafterweise bestimmte zusätzliche
Seiteninformationen. Ein Feld dieser Informationen könnte beispielsweise
die Benutzung der Prädiktionsfilterung
anzeigen sowie, falls zutreffend, die Anzahl unterschiedlicher Prädiktionsfilter.
Falls Prädiktionsfilterung
benutzt wird, können im
Bitstrom für
jeden Prädiktionsfilter
zusätzliche
Felder übertragen
werden, die den Zielfrequenzbereich des jeweiligen Filters und seine
Filterkoeffizienten angeben. Dementsprechend stellen, wie in
Insbesondere
werden nach dem Analysefilterbanklauf die Ordnung des Prädiktionsfilters
und der Zielfrequenzbereich festgelegt (Schritt
Wenn
der zu erwartende Prädiktionsgewinn eine
bestimmte, durch Entscheidung
Wenn
andererseits der erwartete Prädiktionsgewinn
die von Entscheidung
Ein Dekodierer nach Stand der TechnikA decoder according to the prior art
- • Der eingehende Bitstrom wird
von dem Bitstrom-Dekodierer/Demultiplexer
21 analysiert und zerlegt, und die Übertragungssymbole für die Spektralkoeffizienten werden zusammen mit den quantisierungsbezogenen Seiteninformationen an das Modul22 zum Dekodieren und zum inversen Quantisieren weitergeleitet. - • Im
Modul
22 zum Dekodieren und zum inversen Quantisieren werden die quantisierten Spektralwerte yql(), yqr() und yqi() rekonstruiert. Diese Signale entsprechen jeweils dem unabhängig kodierten Signalanteil des linken Kanals, dem unabhängig kodierten Signalanteil des rechten Kanals bzw. dem Intensitätsstereo-Trägersignal. - • Aus
den rekonstruierten Spektralwerten des Trägersignals und der übertragenen
Skalierungsinformationen werden unter Verwendung eines herkömmlichen
Intensitätsstereodekodiervorgangs, der
von Intensitätsstereodekodiermodul
23 ausgeführt wird, die fehlenden Anteile der yql()- und yqr()-Spektren der linken bzw. rechten Kanalsignale berechnet. Am Ausgang dieses Moduls sind zwei vollständige (und unabhängige) spektrale Kanalsignale yql() und yqr() verfügbar, die dem linken bzw. rechten Kanal entsprechen. - • Schließlich werden
die einzelnen linken bzw. rechten spektralen Kanalsignale yql()
und yqr() von den Synthesefilterbänken
24l bzw.24r in eine Zeitbereichsdarstellung rücküberführt, wobei sich die endgültigen Ausgangssignale xl'(k) und xr'(k) ergeben.
- The incoming bit stream is from the bit stream decoder / demultiplexer
21 are analyzed and decomposed, and the transmission symbols for the spectral coefficients are sent to the module along with the quantization-related page information22 forwarded for decoding and for inverse quantization. - • In the module
22 for decoding and for inverse quantizing the quantized spectral values yql (), yqr () and yqi () are reconstructed. These signals respectively correspond to the independently coded signal component of the left channel, the independently coded signal component of the right channel and the intensity stereo carrier signal. - From the reconstructed spectral values of the carrier signal and the transmitted scaling information, using a conventional intensity stereo decoding process, the intensity stereo decoding module
23 which calculates missing portions of the yql () and yqr () spectrums of the left and right channel signals, respectively. At the output of this module are two complete (and independent) spectral channel signals yql () and yqr () available to the correspond to left and right channel. - • Finally, the individual left and right spectral channel signals yql () and yqr () from the synthesis filter banks
24l respectively.24r is returned to a time domain representation resulting in the final output signals xl '(k) and xr' (k).
Ein BeispieldekodiererAn example decoder
Insbesondere
wird in den inversen Prädiktionsfiltern
eine lineare Filteroperation über
die Frequenz ausgeführt
(im Unterschied zum Prädiktionskodieren über die
Zeit, wie es in Teilband-ADPCM-Kodierern stattfindet). Analog zu
der Prädiktionsfilterimplementierung
aus
Im
Speziellen werden, wie aus der Figur ersichtlich, die Ausgangswerte
yq'(b, 0 ... n – 1) aus
den Eingangswerten yq(b, 0 ... n – 1) berechnet, indem die Umkehrung
des in dem entsprechenden Kodierer eingesetzten Hüllkurven-Prewhitening-Filters
angewendet wird. Insbesondere werden die Ausgangswerte aus den Eingangswerten
berechnet, indem unter Verwendung des Addierers
Wie
zuvor bei der Behandlung des Beispielkodierers aus
Nach
Abschluss des Intensitätsstereodekodierens
werden (von Entscheidung
Schlussfolgerungconclusion
Durch Verwendung des obenstehend beschriebenen Verfahrens in Übereinstimmung mit den Ausführungsbeispielen der vorliegenden Erfindung (d. h. Prädiktionsfilterung im Kodierer und inverse Filterung im Dekodierer) kann für bestimmte herkömmliche Blocktransformationen, zu denen die diskrete Fouriertransformation (DFT) oder die diskrete Kosinustransformation (DCT) zählen, welche beide dem Durchschnittsfachmann bekannt sind, ein eindeutiger Hüllkurvenformungseffekt erzielt werden. Wenn beispielsweise ein wahrnehmungsorientierter Kodierer gemäß der vorliegenden Erfindung eine Filterbank mit kritischer Unterabtastung und überlappenden Fenstern – z. B. eine herkömmliche modifizierte diskrete Kosinustransformation (MDCT) oder eine andere herkömmliche, auf „Time Domain Aliasing Cancellation" (TDAC) beruhende Filterbank – benutzt, ist der resultierende Hüllkurvenformungseffekt den in der Filterbank inhärenten Aliasing-Effekten im Zeitbereich ausgesetzt. Zum Beispiel findet im Falle einer MDCT ein Rückspiegelungs-Vorgang (d. h. ein Aliasing-Vorgang) pro Fensterhälfte statt, und die Hüllkurvenfeinstruktur erscheint innerhalb der linken und der rechten Fensterhälfte nach dem Dekodieren jeweils gespiegelt (d. h. von Aliasing betroffen). Da die letztendlichen Ausgangsdaten der Filterbank durch Anwenden eines Synthesefensters auf die Ausgangsdaten der einzelnen inversen Transformationen und durch Ausführen einer überlappenden Addition dieser Datensegmente entstehen, werden die von Aliasing betroffenen unerwünschten Komponenten in Abhängigkeit des verwendeten Synthesefensters abgeschwächt. Es ist daher von Vorteil, ein Filterbankfenster auszuwählen, das nur eine geringe Überlappung zwischen aufeinanderfolgenden Blöcken zeigt, so dass der zeitliche Aliasing-Effekt minimal ist. Eine geeignete Strategie im Kodierer kann beispielsweise für kritische Signale adaptiv ein Fenster mit einem geringen Überlappungsgrad auswählen und dadurch für eine verbesserte Frequenztrennschärfe sorgen. Die Details der Implementierung einer solchen Strategie sind dem Fachmann bekannt.By Use the method described above in accordance with the embodiments of the present invention (i.e., prediction filtering in the encoder and inverse filtering in the decoder) may be conventional for certain Block transformations, which include the discrete Fourier transform (DFT) or the discrete cosine transform (DCT) count which both known to one of ordinary skill in the art, provide a unique envelope shaping effect be achieved. For example, if a perceptual Encoder according to the present invention Invention a filter bank with critical subsampling and overlapping windows -. B. a conventional one Modified Discrete Cosine Transform (MDCT) or another conventional, on "Time Domain Aliasing Cancellation "(TDAC) based filter bank - used, is the resulting envelope shaping effect inherent in the filter bank Exposed to aliasing effects in the time domain. For example, finds in the case of a MDCT, a back-mirroring process (i.e., one aliasing operation) per window half, and the envelope fine structure appears within the left and right half of the window each mirrored (i.e., affected by aliasing). Since the final output data of the filter bank by applying a synthesis window on the output data of each inverse Transformations and by running an overlapping one Addition of these data segments are created by aliasing affected unwanted Components in dependence weakened the synthesis window used. It is therefore an advantage select a filter bank window that only a small overlap between successive blocks shows, so that the temporal aliasing effect is minimal. A suitable Strategy in the encoder, for example, adaptive for critical signals a window with a low degree of overlap select and by for provide an improved frequency separation. The details of Implementation of such a strategy is known to the person skilled in the art.
Obwohl etliche spezifische Ausführungsformen dieser Entfindung gezeigt und beschrieben wurden, versteht es sich, dass diese Ausführungsformen nichts weiter als Beispiele für die vielen möglichen spezifischen Anordnungen sind, die unter Anwendung der Prinzipien der Erfindung ausgearbeitet werden können. Obwohl die gezeigten und beschriebenen Ausführungsbeispiele auf das Kodieren und Dekodieren von nur zwei Kanäle umfassenden stereophonen Audiosignalen beschränkt gewesen sind, werden dem Fachmann auf Grundlage der hier getätigten Offenbarungen alternative Ausführungsformen als naheliegend erscheinen, die zum Beispiel zum Kodieren und Dekodieren von stereophonen Audiosignalen benutzt werden können, die mehr als zwei Kanäle aufweisen. Außerdem können vom Durchschnittsfachmann in Übereinstimmung mit diesen Prinzipien zahlreiche und verschiedenartige andere Anordnungen ausgearbeitet werden, ohne dass vom Umfang der Erfindung abgewichen würde.Even though several specific embodiments of this discovery have been shown and described, it is understood that these embodiments are nothing continue as examples of the many possible specific ones Arrangements are those which use the principles of the invention can be worked out. Although the embodiments shown and described are based on coding and decoding only two channels comprehensive stereophonic audio signals have been limited Skilled in the art based on the disclosures made herein Embodiments as obvious, for example for coding and decoding of stereophonic audio signals having more than two channels. Furthermore can by the average expert in agreement with these principles numerous and varied other arrangements be worked out without departing from the scope of the invention would.
Claims (20)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US621762 | 1996-03-22 | ||
US08/621,762 US5812971A (en) | 1996-03-22 | 1996-03-22 | Enhanced joint stereo coding method using temporal envelope shaping |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69731677D1 DE69731677D1 (en) | 2004-12-30 |
DE69731677T2 true DE69731677T2 (en) | 2005-12-15 |
Family
ID=24491531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69731677T Expired - Lifetime DE69731677T2 (en) | 1996-03-22 | 1997-03-12 | Improved combination stereo coding with temporal envelope shaping |
Country Status (5)
Country | Link |
---|---|
US (1) | US5812971A (en) |
EP (1) | EP0797324B1 (en) |
JP (1) | JP3316159B2 (en) |
CA (1) | CA2197128C (en) |
DE (1) | DE69731677T2 (en) |
Families Citing this family (114)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19628293C1 (en) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Encoding and decoding audio signals using intensity stereo and prediction |
JP2891193B2 (en) * | 1996-08-16 | 1999-05-17 | 日本電気株式会社 | Wideband speech spectral coefficient quantizer |
ATE371298T1 (en) * | 1996-11-07 | 2007-09-15 | Koninkl Philips Electronics Nv | TRANSMISSION OF A BIT STREAM SIGNAL |
US5913191A (en) * | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries |
US6574602B1 (en) * | 1997-12-19 | 2003-06-03 | Stmicroelectronics Asia Pacific Pte Limited | Dual channel phase flag determination for coupling bands in a transform coder for high quality audio |
EP1050113B1 (en) * | 1997-12-27 | 2002-03-13 | STMicroelectronics Asia Pacific Pte Ltd. | Method and apparatus for estimation of coupling parameters in a transform coder for high quality audio |
SE519552C2 (en) | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Multichannel signal coding and decoding |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
BR0006949A (en) * | 1999-07-20 | 2001-07-31 | Koninkl Philips Electronics Nv | Recording carrier, process of recording a stereo signal and a data signal on it, and recording and playback devices. |
EP1087557A3 (en) * | 1999-09-22 | 2005-01-19 | Matsushita Electric Industrial Co., Ltd. | Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data |
DE19947877C2 (en) * | 1999-10-05 | 2001-09-13 | Fraunhofer Ges Forschung | Method and device for introducing information into a data stream and method and device for encoding an audio signal |
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
ATE387044T1 (en) * | 2000-07-07 | 2008-03-15 | Nokia Siemens Networks Oy | METHOD AND APPARATUS FOR PERCEPTUAL TONE CODING OF A MULTI-CHANNEL TONE SIGNAL USING CASCADED DISCRETE COSINE TRANSFORMATION OR MODIFIED DISCRETE COSINE TRANSFORMATION |
SE0004163D0 (en) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance or high frequency reconstruction coding methods by adaptive filtering |
JP4618873B2 (en) * | 2000-11-24 | 2011-01-26 | パナソニック株式会社 | Audio signal encoding method, audio signal encoding device, music distribution method, and music distribution system |
FR2821475B1 (en) * | 2001-02-23 | 2003-05-09 | France Telecom | METHOD AND DEVICE FOR SPECTRALLY RECONSTRUCTING MULTI-CHANNEL SIGNALS, ESPECIALLY STEREOPHONIC SIGNALS |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US6934676B2 (en) * | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7002618B2 (en) * | 2001-06-01 | 2006-02-21 | Stereographics Corporation | Plano-stereoscopic DVD movie |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7206740B2 (en) * | 2002-01-04 | 2007-04-17 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US6751587B2 (en) * | 2002-01-04 | 2004-06-15 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
EP1500085B1 (en) * | 2002-04-10 | 2013-02-20 | Koninklijke Philips Electronics N.V. | Coding of stereo signals |
US7275036B2 (en) * | 2002-04-18 | 2007-09-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data |
ATE332003T1 (en) * | 2002-04-22 | 2006-07-15 | Koninkl Philips Electronics Nv | PARAMETRIC DESCRIPTION OF MULTI-CHANNEL AUDIO |
ATE377339T1 (en) * | 2002-07-12 | 2007-11-15 | Koninkl Philips Electronics Nv | AUDIO ENCODING |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
ATE543179T1 (en) | 2002-09-04 | 2012-02-15 | Microsoft Corp | ENTROPIC CODING BY ADJUSTING THE CODING MODE BETWEEN LEVEL AND RUNLENGTH LEVEL MODE |
JP4676140B2 (en) | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | Audio quantization and inverse quantization |
KR100501930B1 (en) * | 2002-11-29 | 2005-07-18 | 삼성전자주식회사 | Audio decoding method recovering high frequency with small computation and apparatus thereof |
WO2004086817A2 (en) * | 2003-03-24 | 2004-10-07 | Koninklijke Philips Electronics N.V. | Coding of main and side signal representing a multichannel signal |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
US7447317B2 (en) | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7725324B2 (en) * | 2003-12-19 | 2010-05-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Constrained filter encoding of polyphonic signals |
SE527670C2 (en) * | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Natural fidelity optimized coding with variable frame length |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
DE102004009954B4 (en) * | 2004-03-01 | 2005-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a multi-channel signal |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
US7653255B2 (en) | 2004-06-02 | 2010-01-26 | Adobe Systems Incorporated | Image region of interest encoding |
US7742912B2 (en) * | 2004-06-21 | 2010-06-22 | Koninklijke Philips Electronics N.V. | Method and apparatus to encode and decode multi-channel audio signals |
KR101147187B1 (en) | 2004-07-14 | 2012-07-09 | 돌비 인터네셔널 에이비 | Method, device, encoder apparatus, decoder apparatus and audio system |
KR101283525B1 (en) * | 2004-07-14 | 2013-07-15 | 돌비 인터네셔널 에이비 | Audio channel conversion |
AU2012205170B2 (en) * | 2004-08-25 | 2015-05-14 | Dolby Laboratories Licensing Corporation | Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering |
TWI497485B (en) | 2004-08-25 | 2015-08-21 | Dolby Lab Licensing Corp | Method for reshaping the temporal envelope of synthesized output audio signal to approximate more closely the temporal envelope of input audio signal |
TWI393121B (en) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | Method and apparatus for processing a set of n audio signals, and computer program associated therewith |
EP1783745B1 (en) | 2004-08-26 | 2009-09-09 | Panasonic Corporation | Multichannel signal decoding |
US7895034B2 (en) * | 2004-09-17 | 2011-02-22 | Digital Rise Technology Co., Ltd. | Audio encoding system |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
US7761304B2 (en) | 2004-11-30 | 2010-07-20 | Agere Systems Inc. | Synchronizing parametric coding of spatial audio with externally provided downmix |
WO2006060279A1 (en) * | 2004-11-30 | 2006-06-08 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US9626973B2 (en) * | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
WO2006091139A1 (en) * | 2005-02-23 | 2006-08-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
DE102005010057A1 (en) * | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a coded stereo signal of an audio piece or audio data stream |
KR100818268B1 (en) | 2005-04-14 | 2008-04-02 | 삼성전자주식회사 | Apparatus and method for audio encoding/decoding with scalability |
CN102163429B (en) * | 2005-04-15 | 2013-04-10 | 杜比国际公司 | Device and method for processing a correlated signal or a combined signal |
US7983922B2 (en) | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
JP5191886B2 (en) * | 2005-06-03 | 2013-05-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Reconfiguration of channels with side information |
US7693709B2 (en) * | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
US7599840B2 (en) | 2005-07-15 | 2009-10-06 | Microsoft Corporation | Selectively using multiple entropy models in adaptive coding and decoding |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US7933337B2 (en) * | 2005-08-12 | 2011-04-26 | Microsoft Corporation | Prediction of transform coefficients for image compression |
US7565018B2 (en) * | 2005-08-12 | 2009-07-21 | Microsoft Corporation | Adaptive coding and decoding of wide-range coefficients |
CN101427307B (en) * | 2005-09-27 | 2012-03-07 | Lg电子株式会社 | Method and apparatus for encoding/decoding multi-channel audio signal |
US8090587B2 (en) * | 2005-09-27 | 2012-01-03 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
KR100754937B1 (en) * | 2006-03-30 | 2007-09-03 | 인하대학교 산학협력단 | A multi-step channel prediction apparatus and method for adaptive transmission in ofdm/fdd system |
JPWO2007116809A1 (en) * | 2006-03-31 | 2009-08-20 | パナソニック株式会社 | Stereo speech coding apparatus, stereo speech decoding apparatus, and methods thereof |
KR100718416B1 (en) | 2006-06-28 | 2007-05-14 | 주식회사 대우일렉트로닉스 | Method for coding stereo audio signal between channels using prediction filter |
US7797155B2 (en) * | 2006-07-26 | 2010-09-14 | Ittiam Systems (P) Ltd. | System and method for measurement of perceivable quantization noise in perceptual audio coders |
CN101169934B (en) * | 2006-10-24 | 2011-05-11 | 华为技术有限公司 | Time domain hearing threshold weighting filter construction method and apparatus, encoder and decoder |
DE102006055737A1 (en) * | 2006-11-25 | 2008-05-29 | Deutsche Telekom Ag | Method for the scalable coding of stereo signals |
US8184710B2 (en) | 2007-02-21 | 2012-05-22 | Microsoft Corporation | Adaptive truncation of transform coefficient data in a transform-based digital media codec |
JP5355387B2 (en) | 2007-03-30 | 2013-11-27 | パナソニック株式会社 | Encoding apparatus and encoding method |
US7761290B2 (en) | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8249883B2 (en) | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
CN101842832B (en) * | 2007-10-31 | 2012-11-07 | 松下电器产业株式会社 | Encoder and decoder |
WO2009057329A1 (en) | 2007-11-01 | 2009-05-07 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
US8179974B2 (en) | 2008-05-02 | 2012-05-15 | Microsoft Corporation | Multi-level representation of reordered transform coefficients |
MX2011000375A (en) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Audio encoder and decoder for encoding and decoding frames of sampled audio signal. |
KR101546793B1 (en) | 2008-07-14 | 2015-08-28 | 삼성전자주식회사 | / method and apparatus for encoding/decoding audio signal |
US8406307B2 (en) | 2008-08-22 | 2013-03-26 | Microsoft Corporation | Entropy coding/decoding of hierarchically organized data |
CA3057366C (en) | 2009-03-17 | 2020-10-27 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
EP2439736A1 (en) * | 2009-06-02 | 2012-04-11 | Panasonic Corporation | Down-mixing device, encoder, and method therefor |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
CA2793140C (en) * | 2010-04-09 | 2016-05-31 | Dolby International Ab | Mdct-based complex prediction stereo coding |
US9311923B2 (en) * | 2011-05-19 | 2016-04-12 | Dolby Laboratories Licensing Corporation | Adaptive audio processing based on forensic detection of media processing history |
US8401863B1 (en) * | 2012-04-25 | 2013-03-19 | Dolby Laboratories Licensing Corporation | Audio encoding and decoding with conditional quantizers |
EP3067886A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE457402B (en) * | 1987-02-20 | 1988-12-19 | Harald Brusewitz | PROCEDURE AND DEVICE FOR CODING AND DECODING IMAGE INFORMATION |
US4875095A (en) * | 1987-06-30 | 1989-10-17 | Kokusai Denshin Denwa Kabushiki Kaisha | Noise-shaping predictive coding system |
US4943855A (en) * | 1988-07-22 | 1990-07-24 | At&T Bell Laboratories | Progressive sub-band image coding system |
US5341457A (en) * | 1988-12-30 | 1994-08-23 | At&T Bell Laboratories | Perceptual coding of audio signals |
DE69210689T2 (en) * | 1991-01-08 | 1996-11-21 | Dolby Lab Licensing Corp | ENCODER / DECODER FOR MULTI-DIMENSIONAL SOUND FIELDS |
NL9100173A (en) * | 1991-02-01 | 1992-09-01 | Philips Nv | SUBBAND CODING DEVICE, AND A TRANSMITTER EQUIPPED WITH THE CODING DEVICE. |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JP2693893B2 (en) * | 1992-03-30 | 1997-12-24 | 松下電器産業株式会社 | Stereo speech coding method |
DE4320990B4 (en) * | 1993-06-05 | 2004-04-29 | Robert Bosch Gmbh | Redundancy reduction procedure |
DE4331376C1 (en) * | 1993-09-15 | 1994-11-10 | Fraunhofer Ges Forschung | Method for determining the type of encoding to selected for the encoding of at least two signals |
DE4409368A1 (en) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Method for encoding multiple audio signals |
-
1996
- 1996-03-22 US US08/621,762 patent/US5812971A/en not_active Expired - Lifetime
-
1997
- 1997-02-10 CA CA002197128A patent/CA2197128C/en not_active Expired - Lifetime
- 1997-03-12 EP EP97301677A patent/EP0797324B1/en not_active Expired - Lifetime
- 1997-03-12 DE DE69731677T patent/DE69731677T2/en not_active Expired - Lifetime
- 1997-03-18 JP JP06405297A patent/JP3316159B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0797324B1 (en) | 2004-11-24 |
EP0797324A3 (en) | 2004-01-14 |
US5812971A (en) | 1998-09-22 |
CA2197128A1 (en) | 1997-09-23 |
EP0797324A2 (en) | 1997-09-24 |
DE69731677D1 (en) | 2004-12-30 |
JP3316159B2 (en) | 2002-08-19 |
CA2197128C (en) | 2000-04-11 |
JPH1051313A (en) | 1998-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69731677T2 (en) | Improved combination stereo coding with temporal envelope shaping | |
DE69737489T2 (en) | Forming the recognizable noise signal in the time domain by means of LPC prediction in the frequency domain | |
EP0954909B1 (en) | Method for coding an audio signal | |
DE19747132C2 (en) | Methods and devices for encoding audio signals and methods and devices for decoding a bit stream | |
DE602004002390T2 (en) | AUDIO CODING | |
EP1687809B1 (en) | Device and method for reconstruction a multichannel audio signal and for generating a parameter data record therefor | |
EP1763870B1 (en) | Generation of a multichannel encoded signal and decoding of a multichannel encoded signal | |
DE60202881T2 (en) | RECONSTRUCTION OF HIGH-FREQUENCY COMPONENTS | |
DE60310716T2 (en) | SYSTEM FOR AUDIO CODING WITH FILLING OF SPECTRAL GAPS | |
EP0931386B1 (en) | Method for signalling a noise substitution during audio signal coding | |
DE60110679T3 (en) | Perceptual coding of audio signals using separate reduction of irrelevance and redundancy | |
DE69534140T2 (en) | METHOD AND DEVICE FOR SIGNALING AND DECODING, RECORDING MEDIA AND SIGNAL TRANSMISSION METHOD | |
EP0750811B1 (en) | Process for coding a plurality of audio signals | |
DE602004005846T2 (en) | AUDIO SIGNAL GENERATION | |
DE602005002833T2 (en) | COMPENSATION OF MULTICANAL AUDIO ENERGY LOSSES | |
DE69432538T2 (en) | Digital signal coding device, associated decoding device and recording medium | |
EP0667063B2 (en) | Process for transmitting and/or storing digital signals from several channels | |
EP1495464B1 (en) | Device and method for encoding a time-discrete audio signal and device and method for decoding coded audio data | |
EP2005421B1 (en) | Apparatus and method for production of a surrounding-area signal | |
DE69533500T2 (en) | METHOD AND DEVICE FOR CODING AND DECODING MESSAGES | |
DE102005014477A1 (en) | Apparatus and method for generating a data stream and generating a multi-channel representation | |
DE10328777A1 (en) | Apparatus and method for encoding an audio signal and apparatus and method for decoding an encoded audio signal | |
DE69932861T2 (en) | METHOD FOR CODING AN AUDIO SIGNAL WITH A QUALITY VALUE FOR BIT ASSIGNMENT | |
DE60112407T2 (en) | METHOD AND DEVICE FOR CONVERTING AN AUDIO SIGNAL BETWEEN DIFFERENT DATA COMPRESSION FORMATS | |
DE60300500T2 (en) | Signaling of window circuits in an MPEG Layer 3 audio data stream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |