DE602004008613T2 - TREUE OPTIMIZED CODING WITH VARIABLE FRAME LENGTH - Google Patents
TREUE OPTIMIZED CODING WITH VARIABLE FRAME LENGTH Download PDFInfo
- Publication number
- DE602004008613T2 DE602004008613T2 DE602004008613T DE602004008613T DE602004008613T2 DE 602004008613 T2 DE602004008613 T2 DE 602004008613T2 DE 602004008613 T DE602004008613 T DE 602004008613T DE 602004008613 T DE602004008613 T DE 602004008613T DE 602004008613 T2 DE602004008613 T2 DE 602004008613T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- coding
- mono
- subframes
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000004927 clay Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Endoscopes (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
Description
TECHNISCHES GEBIETTECHNICAL AREA
Die vorliegende Erfindung betrifft allgemein das Kodieren von Audio-Signalen und speziell das Kodieren von Viel-Kanal-Audio-Signalen.The The present invention relates generally to the coding of audio signals and especially the coding of multi-channel audio signals.
HINTERGRUNDBACKGROUND
Es besteht ein großer Bedarf am Markt für das Übertragen und Speichern von Audio-Signalen bei niedriger Bit-Rate, während hohe Audio-Qualität beibehalten wird. Besonders in Fällen, in welchen Übertragungs-Ressourcen oder Speicher begrenzt sind, ist der Betrieb bei niedriger Bit-Rate ein essentieller Kostenfaktor. Dieses ist typisch der Fall z. B. bei Strom- und Mitteilungs-Applikationen in Mobil-Kommunikations-Systemen, solchen wie GSM, UMTS oder CDMA.It there is a big one Demand on the market for the transferring and storing audio signals at low bit rate while high Audio Quality is maintained. Especially in cases in which transmission resources or memory is limited, the operation is at low bit rate an essential cost factor. This is typical of the case z. B. in power and messaging applications in mobile communication systems, such as GSM, UMTS or CDMA.
Gegenwärtig sind keine standardisierten Kodierer-Dekodierer verfügbar, bereitstellend hohe stereophone Audio-Qualität bei Bit-Raten, welche ökonomisch interessant für die Verwendung in Mobil-Kommunikations-Systemen sind. Was möglich ist mit verfügbaren Kodierern/Dekodierern, ist monophone Übertragung der Audio-Signale. In einem gewissen Maß ist auch stereophone Übertragung verfügbar. Jedoch, Bit-Raten-Begrenzungen erfordern es gewöhnlich die Stereo-Präsentation drastisch zu begrenzen.Present are no standardized encoder-decoder available, providing high stereophonic Audio Quality at bit rates, which is economical interesting for which are use in mobile communication systems. Which is possible with available Encoders / decoders, is monophonic transmission of audio signals. To some extent also stereophonic transmission available. However, bit rate limits usually require the stereo presentation drastically limit.
Der einfachste Weg, des stereophonen- oder Vielkanal-Kodierens von Audio-Signalen ist es, die Signale von verschiedenen Kanälen getrennt als individuelle und unabhängige Signale zu kodieren. Ein anderer grundsätzlicher Weg, verwendet in Stereo-FM-Funk-Übertragung, der auch Kompatibilität mit legalen Mono-Funk-Empfängern sichert, ist ein Summen- und ein Differenz-Signal der zwei involvierten Kanäle zu übertragen.Of the simplest way of stereophonic or multi-channel coding of audio signals is to the signals from different channels separated as individual and independent Encode signals. Another fundamental way, used in Stereo FM radio transmission, which also has compatibility with legal mono-radio receivers saves, a sum and a difference signal of the two channels involved is to be transmitted.
Kodierer/Dekodierer des Stands der Technik, solche wie MPEG-1/2 Layer III und MPEG-2/4 AAC verwenden so genanntes gemeinsames Stereo-Kodieren. Entsprechend dieser Technik werden die Signale der verschiedenen Kanäle gemeinsam verarbeitet, anstatt getrennt und individuell. Die beiden am meisten verwendeten Techniken der gemeinsamen Stereo-Kodierung sind bekannt als „Mitte/Seite" (M/S) Stereo-Kodierung und Intensitäts-Stereo-Kodierung, welche gewöhnlich auf Sub-Bänder der zu kodierenden Stereo- oder Vielkanal-Signale angewandt werden.Encoder / decoder of the prior art, such as MPEG-1/2 Layer III and MPEG-2/4 AAC use so-called common stereo coding. According to this technique the signals of the different channels are processed together instead of separate and individual. The two most used techniques the common stereo coding are known as "mid / side" (M / S) stereo coding and intensity stereo coding, which usually on sub-bands the stereo or multi-channel signals to be coded are used.
M/S
Stereo-Kodierung ist ähnlich
der beschriebenen Prozedur für
Stereo-FM-Funk, in einem Sinne, dass diese die Summen- und Differenz-Signale
der Kanal-Sub-Bänder
kodiert und überträgt und dadurch
Redundanz zwischen den Sub-Bändern
ausnutzt. Die Struktur und der Betrieb eines Kodierers basierend
auf M/S-Stereo-Kodierung ist beschrienen z. B. in
Intensitäts-Stereo-Kodierung
ist andererseits fähig
Stereo-Irrelevanz
zu nutzen. Es überträgt die gemeinsame
Intensität
der Kanäle
(der verschiedenen Sub-Bänder)
zusammen mit einiger Ortsinformation, anzeigend, wie die Intensität unter
den Kanälen
verteilt ist. Intensitäts-Stereo-Kodierung
liefert nur Information zur spektralen Intensität der Kanäle. Phasen-Information wird
nicht transportiert. Aus diesem Grund und da die zeitliche Zwischen-Kanal-Information
(genauer die Zeit-Differenz zwischen Kanälen) von größerer Psychoakustischer Relevanz
ist, insbesondere bei niedrigeren Frequenzen, kann Intensitäts-Stereo-Kodierung
nur bei hohen Frequenzen über
etwa 2 kHz verwendet werden. Ein Intensitäts-Stereo-Kodier-Verfahren ist beschrieben
z. B. in dem
Ein kürzlich entwickeltes Stereo-Kodierungs-Verfahren ist beschrieben z. B. in einer Konferenz-Veröffentlichung mit dem Titel „Binaural cue coding applied stereo and multi-channel audio compression", 112th AES convention, May 2002, Munich, Germany durch C. Faller et al. Dieses Verfahren ist ein Verfahren für parametrische Viel-Kanal-Audio-Kodierung. Das grundlegende Prinzip ist, dass auf der Seite der Kodierung die Signale von N Kanälen c1, c2, ... cn in ein Mono-Signal m kombiniert werden. Das Mono-Signal ist Audio-kodiert, unter Verwendung irgendeines konventionellen monophonen Audio-Kodierers/Dekodierers. Parallel werden Parameter aus den Kanal-Signalen abgeleitet, welche das Viel-Kanal-Bild beschreiben. Die Parameter werden kodiert und übertragen an den Dekodierer, zusammen mit dem Audio-Bit-Strom. Der Dekodierer dekodiert zuerst das Mono-Signal m' und regeneriert die Kanal-Signale c1', c2', ..., cN', basierend auf der parametrischen Beschreibung des Viel-Kanal-Bildes.One recently developed stereo coding method is described for. In a conference publication entitled "Binaural cue coding applied stereo and multi-channel audio compression ", 112th AES convention, May 2002, Munich, Germany by C. Faller et al. This method is a procedure for parametric multi-channel audio coding. The basic principle is that on the coding side the signals of N channels c1, c2, ... cn be combined into a mono signal m. The mono signal is audio encoded, using any conventional one monophonic audio encoder / decoder. In parallel, parameters are derived from the channel signals, which describe the multi-channel image. The parameters are coded and transmitted to the decoder, along with the audio bit stream. The decoder first decodes the mono signal m 'and regenerates the channel signals c1', c2 ', ..., cN' based on the parametric description of the multi-channel image.
Das Prinzip des ,Binaural Cue Coding' (BCC) besteht darin, dass es das kodierte Mono-Signal und so genannte BCC-Parameter überträgt. Die BCC-Parameter umfassen kodierte Niveau-Differenzen und Zeit-Differenzen zwischen den Kanälen für Sub-Bänder des originalen Viel-Kanal-Eingabe-Signals. Der Dekodierer erzeugt die verschiedenen Kanal-Signale wieder durch Anwenden von Niveau- und Phasen-Einstellungen pro Sub-Band, basierend auf den BCC-Parametern. Der Vorteil gegenüber z. B. M/S oder Intensitäts-Stereo ist, dass die Stereo-Information, umfassend zeitliche Zwischen-Kanal-Information mit viel geringeren Bit-Raten übertragen wird. Jedoch erfordert diese Technik hinsichtlich der Berechnung anspruchsvolle Zeit-Frequenz-Transformationen für jeden der Kanäle, sowohl im Kodierer als auch im Dekodierer.The principle of 'Binaural Cue Coding' (BCC) is that it is the encoded mono signal and so on transmits said BCC parameter. The BCC parameters include coded level differences and time differences between the channels for sub-bands of the original multi-channel input signal. The decoder re-generates the various channel signals by applying level and phase adjustments per sub-band based on the BCC parameters. The advantage over z. M / S or intensity stereo is that the stereo information comprising inter-channel temporal information is transmitted at much lower bit rates. However, this technique requires sophisticated time-frequency transforms for each of the channels in terms of computation, both in the encoder and in the decoder.
Darüber hinaus handhabt BCC nicht die Tatsache, dass eine Menge der Stereo-Information, speziell bei niedrigen Frequenzen diffus ist, das bedeutet sie kommt nicht aus irgendeiner bestimmten Richtung. Diffuse Ton-Felder existieren in beiden Kanälen einer Stereo-Aufnahme, jedoch sind diese in einem großen Ausmaß nicht in Phase in Bezug zu einander. Wenn ein Algorithmus, ein solcher wie BCC, Aufzeichnungen mit einer großen Menge von diffusen Ton-Feldern unterworfen wird, wird das reproduzierte Stereo-Bild verwirrt, springend von links nach rechts, da der BCC-Algorithmus das Signal nur in bestimmten Frequenz-Bändern nach rechts oder links einordnen kann.Furthermore BCC does not handle the fact that a lot of the stereo information, especially at low frequencies is diffuse, that means it comes not from any direction. Diffuse tone fields exist in both channels a stereo recording, but these are not to a large extent in phase in relation to each other. If an algorithm, such a like BCC, subject records with a large amount of diffuse clay fields The reproduced stereo image is confused, jumping from left to right as the BCC algorithm the signal only in certain frequency bands to the right or left can classify.
Ein mögliches Mittel um das Stereo-Signal zu kodieren und gute Wiedergabe von diffusen Ton-Feldern sicher zu stellen, ist ein Kodier-Schema sehr ähnlich zu dem im FM-Stereo-Rundfunk angewendeten zu verwenden, nämlich die Mono-Signale (Links + Rechts) und die Differenz-Signale (Links-Rechts) getrennt zu kodieren.One potential Means to encode the stereo signal and good playback of To ensure diffuse sound fields, a coding scheme is very similar to in FM stereo broadcasting used, namely the mono signals (left + right) and the difference signals (left-right) to code separately.
Eine
Technik, beschrieben in
Letztlich, für die Vollständigkeit, ist eine Technik zu erwähnen, welche für 3-D-Audio verwendet wird. Diese Technik synthetisiert die rechten und linken Kanal-Signale durch Filtern der Ton-Quellen-Signale mit sogenannten Kopfbezogenen Filtern. Jedoch erfordert diese Technik, dass die verschiedenen Ton-Quellen-Signale getrennt sind, und kann deshalb nicht generell für Stereo- oder Viel-Kanal-Kodierung angewandt werden.Ultimately, for the Completeness, is a technique to mention which for 3-D audio is used. This technique synthesizes the right one and left channel signals by filtering the audio source signals so-called head-related filters. However, this technique requires that the different sound source signals are separate, and can therefore not generally for Stereo or multi-channel coding.
ZUSAMNENFASSUNGZUSAMNENFASSUNG
Ein Problem mit bestehenden Kodier-Schemata, basierend auf dem Kodieren von Rahmen von Signalen, speziell eines Haupt-Signals und eines oder mehreren Seiten-Signale, ist, dass die Unterteilung von Audio-Information in Rahmen unattraktive Empfindungs-Artefakte erzeugen kann. Das Unterteilen der Information in Rahmen relativ langer Dauer reduziert gewöhnlich die im Durchschnitt verlangte Bit-Rate. Dieses kann vorteilhaft sein z. B. für Musik, enthaltend einen große Menge von diffusem Ton. Jedoch, für Musik, reich an Übergängen oder Sprache, werden schnelle zeitliche Variationen verschmiert werden über die Dauer des Rahmens, verursachend gespensterhafte Töne oder auch Vor-Echo-Probleme. Das Kodieren kurzer Rahmen wird statt dessen eine genauere Präsentation des Tons ergeben, minimierend die Energie, erfordert aber höhere Übertragungs-Bit-Raten und größere Berechnungs-Kapazitäten. Die Kodierungs-Effizienz als solche kann sich mit sehr kurzen Rahmen-Längen auch verringern. Die Einführung von mehr Rahmen-Grenzen kann auch Diskontinuitäten in Kodier-Parametern einführen, welche als Wahrnehmungs-Artefakte erscheinen können.One Problem with existing coding schemes based on coding of frames of signals, especially a main signal and one or more side signals, is that the subdivision of audio information in frame unattractive Can produce sensation artifacts. Dividing the information in a relatively long duration usually reduces the average demanded bit rate. This can be advantageous for. For music, containing a large one Amount of diffused clay. However, for music, rich in transitions or Language, fast temporal variations will be smeared over the Duration of the frame, causing ghostly sounds or also pre-echo problems. Encoding short frames will instead be a more accurate presentation of the sound, minimizing the energy but requiring higher transmission bit rates and larger calculation capacities. The Encoding efficiency as such can vary with very short frame lengths as well reduce. The introduction more frame boundaries may also introduce discontinuities in encoding parameters can appear as perceptual artifacts.
Ein weiteres Problem mit Schemata, basierend auf dem Kodieren eines Haupt-Signals und eines oder einiger Seiten-Signale ist, dass diese häufig relativ große Berechnungs-Kapazitäten erfordern. Insbesondere, wenn kurze Rahmen verwendet werden, ist das Handhaben von Diskontinuitäten in den Parametern von einem Rahmen zu einem anderen eine komplexe Aufgabe. Wenn lange Rahmen verwendet werden, können Abschätzungs-Fehler von Ton-Übergängen sehr große Seiten-Signale verursachen, welche wiederum den Bedarf an Übertragungs-Rate erhöhen.One Another problem with schemes based on coding a Main signal and one or more side signals is that these often relatively large Calculation capacity require. In particular, when short frames are used is managing discontinuities in the parameters from one frame to another a complex one Task. When long frames are used, estimation errors of tone transitions can be very high size Cause side signals, which in turn reduces the need for transmission rate increase.
Ein Ziel der vorliegenden Erfindung ist es daher, ein Kodier-Verfahren und eine Vorrichtung bereitzustellen, verbessernd die Wahrnehmungs-Qualität von Viel-Kanal-Audio-Signalen, insbesondere um Artefakte zu vermeiden, solche wie Vor-Echo, gespensterhafte Töne oder Rahmen-Diskontinuitäts-Artefakte. Ein weiteres Ziel der vorliegenden Erfindung ist es, ein Kodier-Verfahren und eine Vorrichtung bereitzustellen, welche geringere Verarbeitungs-Leistung erfordern und konstantere Übertragungs-Bit-Raten-Anforderungen haben.One The aim of the present invention is therefore to provide a coding method and a Device to improve the perceptual quality of multi-channel audio signals, especially to avoid artifacts, such as pre-echo, ghostly Sounds or Frame discontinuity artefacts. Another object of the present invention is an encoding method and to provide a device which has lower processing power require and more constant transmission bit rate requirements to have.
Die obigen Ziele werden erreicht durch Verfahren und Vorrichtungen entsprechend den anhängenden Patentansprüchen. Allgemein ausgedrückt: Polyphone Signale werden verwendet, um ein Haupt-Signal, typisch ein Mono-Signal, und ein Seiten-Signal zu erzeugen. Das Haupt-Signal wird entsprechend zu Kodier-Prinzipien des Stands der Technik kodiert. Eine Anzahl von Kodier-Schemata für das Seiten-Signal wird bereitgestellt. Jedes Kodier-Schema ist gekennzeichnet durch eine Gruppe von Unter-Rahmen verschiedener Längen. Die gesamte Länge der Unter-Rahmen korrespondiert zu der Länge des Kodier-Rahmens des Kodier-Schemas. Die Gruppen von Unter-Rahmen umfassen zumindest einen Unter-Rahmen. Das für das Seiten-Signal zu verwendende Kodier-Schema wird ausgewählt, zumindest teilweise abhängig von dem gegenwärtigen Signal-Inhalt der polyphonen Signale.The The above objects are achieved by methods and devices accordingly the appended claims. Generally words Polyphonic signals are used to produce a main signal, typical a mono signal, and a side signal to create. The main signal becomes according to coding principles of the prior art coded. A number of coding schemes for the Page signal is provided. Each coding scheme is marked by a group of sub-frames of different lengths. The whole length the sub-frame corresponds to the length of the coding frame of the Coding scheme. The groups of subframes include at least one subframe. That for the encoding scheme to be used for the page signal is selected, at least partially dependent from the present Signal content of the polyphonic signals.
In einer Ausführungsform findet die Auswahl vor dem Kodieren statt, basierend auf Analyse der Signal-Eigenschaften. In einer anderen Ausführungsform wird das Seiten-Signal kodiert durch jedes der Kodier-Schemata und dann wird basierend auf Messungen der Qualität der Kodierung das beste Kodier-Schema ausgewählt.In an embodiment the selection takes place before coding, based on analysis the signal properties. In another embodiment, the page signal encoded by each of the coding schemes and then being based on quality measurements coding the best coding scheme selected.
In einer bevorzugten Ausführungsform wird ein Residuum-Signal erzeugt als eine Differenz zwischen dem Seiten-Signal und dem mit einem Abgleich/Ausgleichs-Faktor skalierten Haupt-Signal. Der Abgleich/Ausgleichs-Faktor wird ausgewählt, um das Seiten-Residuum-Signal zu minimieren. Das optimierte Seiten-Residuum-Signal und der Abgleich/Ausgleichs-Faktor werden kodiert und als das Seiten-Signal repräsentierende Parameter bereitgestellt. Auf der Dekodierer-Seite werden der Abgleich/Ausgleichs-Faktor, das Seiten-Residuum-Signal und das Haupt-Signal verwendet, um das Seiten-Signal wieder herzustellen.In a preferred embodiment a residual signal is generated as a difference between the Page signal and the scaled with a balance / compensation factor Main signal. The balance / compensation factor is selected to to minimize the page residual signal. The optimized side residual signal and the adjustment / compensation factor is encoded and called the page signal representing parameters provided. On the decoder side, the balance / equalization factor, the side residual signal and the main signal used to get that Restore page signal.
In einer weiteren bevorzugten Ausführungsform umfasst das Kodieren des Seiten-Signals eine Energie-Kontur-Skalierung, um Vor-Echo-Effekte zu vermeiden. Außerdem können unterschiedliche Kodier-Schemata unterschiedliche Kodier-Prozeduren in den getrennten Unter-Rahmen umfassen.In a further preferred embodiment Encoding the side signal includes energy contour scaling to avoid pre-echo effects. You can also use different coding schemes different coding procedures in the separate sub-frames.
Der Haupt-Vorteil der vorliegenden Erfindung ist, dass die Erhaltung der Wahrnehmung/Empfindung der Audio-Signale verbessert ist. Außerdem erlaubt die vorliegende Erfindung auch die Übertragung von Viel-Kanal-Signalen bei sehr niedrigen Bit-Raten.Of the Main advantage of the present invention is that the conservation the perception / sensation of the audio signals is improved. Also allowed the present invention also involves the transmission of multi-channel signals at very low bit rates.
KURZE BESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS
Die Erfindung, zusammen mit deren weiteren Zielen und Vorteilen, kann am besten verstanden werden durch Bezugnahme af die folgende Beschreibung, genommen zusammen mit den begleitenden Zeichnungen, in welchen:The Invention, together with its other objectives and advantages, can are best understood by reference to the following description, taken together with the accompanying drawings, in which:
DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION
Auf
der Seite des Empfängers
Das
System
In
einer Subtraktions-Einheit
Die
Kodierungs-Parameter pmono, repräsentierend
das Haupt-Signal
xmono, sind ein erstes Ausgabe-Signal und
die Kodierungs-Parameter pside repräsentieren
das Seiten-Signal xside in einem zweiten
Ausgabe-Signal. In einem typischen Fall werden diese zwei Ausgabe-Signale
pmono, pside, zusammen
den vollen Stereo-Ton repräsentierend,
in ein Übertragungs-Signal
In
Ähnlich wird
das zweite Eingabe-Signal, korrespondierend zu einem Seiten-Signal,
an eine Seiten-Signal-Dekodier-Einheit
Die
dekodierten Haupt- und Seiten-Signale x''mono und x''side werden an eine Addier-Einheit
Wie
in der Zusammenfassung erwähnt,
wird das Kodieren typisch zu einer Zeit in einem Rahmen ausgeführt. Ein
Rahmen enthält
Audio-Abtastungen(Samples) innerhalb einer vordefinierten Zeitspanne.
In dem unteren Teil der
Angesichts dessen ist es vorteilhaft möglichst lange Rahmen zu verwenden, da dann die Anzahl der Rahmen-Grenzen klein sein wird. Auch wird die Kodier-Effizienz typisch hoch und die erforderliche Übertragungs-Bit-Rate wird typisch minimiert sein. Jedoch lange Rahmen ergeben Probleme mit Vor-Echo-Artefakten und gespensterhaften Tönen.in view of it is advantageous as possible to use long frames, since then the number of frame boundaries will be small. Also, the coding efficiency is typically high and high the required transmission bit rate will typically be minimized. However, long frames result in problems with pre-echo artifacts and ghostly tones.
Werden statt dessen kürzere Rahmen verwendet, solche wie SF1 oder sogar SF0, aufweisend die Zeitdauer jeweils von L/2 und L/4, wird jeder mit dem Gebiet Vertraute erkennen, dass die Kodier-Effizienz verringert sein kann, die Übertragungs-Bit-Rate höher zu sein hat und die Probleme mit Rahmen-Grenzen-Artefakten wachsen werden. Jedoch, kürzere Rahmen leiden weniger unter anderen Wahrnehmungs-Artefakten, solchen wie gespensterhaften Tönen und Vor-Echo. Um den Kodier-Fehler so gut wie möglich zu minimieren, sollte man eine Rahmen-Länge, so kurz wie möglich wählen.If, instead, shorter frames are used, such as SF1 or even SF0, having the time periods of L / 2 and L / 4, respectively, anyone familiar with the art will recognize that the coding efficiency can be reduced, the transmission bit rate is higher and the problems with frame boundary artifacts will grow. However, shorter frames suffer less from other perceptual artifacts, such as ghostly sounds and pre-echo. To minimize the coding error as much as possible, you should choose a frame length as short as possible.
Entsprechend der vorliegenden Erfindung wird die Audio-Wahrnehmung verbessert durch Verwenden einer Rahmen-Länge für das Kodieren des Seiten-Signals, welche abhängig ist von dem gegenwärtig vorhandenen Signal-Inhalt. Da der Einfluss verschiedener Rahmen-Längen auf die Audio-Wahrnehmung verschieden sein wird, abhängig von der Natur der zu kodierenden Töne, kann eine Verbesserung dadurch erreicht werden, dass der Natur des Signals selbst erlaubt wird die verwendete Rahmen-Länge zu beeinflussen. Das Kodieren des Haupt-Signals ist nicht Gegenstand der vorliegenden Erfindung und wird daher nicht im Detail beschrieben. Jedoch können die für das Kodieren des Haupt-Signals verwendeten Rahmen-Längen gleich oder nicht gleich sein zu den für das Kodieren des Seiten-Signals verwendeten Rahmen-Längen.Corresponding In the present invention, the audio perception is improved by using a Frame length for the Encoding the page signal, which depends on the currently available one Signal content. Because the influence of different frame lengths on the audio perception will be different, depending on the nature of the coded Sounds, can An improvement can be achieved by the nature of the signal itself is allowed to influence the frame length used. Coding the Main signal is not the subject of the present invention and is therefore not described in detail. However, those for coding the main signal used frame lengths equal to or not equal to those for encoding the page signal used frame lengths.
Wegen kleiner zeitlicher Veränderungen kann es in einigen Fällen nützlich sein, das Seiten-Signal unter Verwendung relativ langer Rahmen zu kodieren. Dieses kann der Fall sein bei Aufzeichnungen mit einer großen Menge von diffusem Ton-Feld, solchen wie Konzert-Aufzeichnungen. In anderen Fällen, solchen wie Stereo-Sprach-Konversation, sind wahrscheinlich kurze Rahmen zu bevorzugen. Die Entscheidung, welche Rahmen-Länge zu bevorzugen ist kann auf zwei grundlegende Arten getroffen werden.Because of small temporal changes It can in some cases useful be, the side signal using relatively long frame to encode. This can be the case with records with a large amount of diffuse clay field, such as concert records. In other cases, such as stereo-voice conversation, are probably short frames to prefer. The decision, which frame length to prefer is can be met in two basic ways.
Eine
Ausführungsform
einer Seiten-Signal-Kodier-Einheit
Das
Signal xside, geliefert an die Seiten-Signal-Kodier-Einheit
Bevorzugt werden alle möglichen Kombinationen von Rahmen-Längen geprüft und die Gruppe von Unter-Rahmen, welche die beste objektive Qualität ergibt, z. B. Signal-zu-Rauschen-Verhältnis, wird gewählt.Prefers be all possible Combinations of frame lengths tested and the Group of sub-frames that gives the best objective quality, z. As signal-to-noise ratio is selected.
In der vorliegenden Ausführungsform werden die Längen der verwendeten Unter-Rahmen ausgewählt entsprechend zu: wobei lsf die Längen der Unter-Rahmen, lf die Länge des Kodier-Rahmens und n ein Integer ist. In der vorliegenden Ausführungsform wird n zwischen 0 und 3 gewählt, es wird möglich sein irgendeine Rahmen-Länge zu verwenden, so lange wie die gesamte Länge der Gruppe konstant gehalten wird.In the present embodiment, the lengths of the sub-frames used are selected according to: where l sf is the lengths of the subframes, l f is the length of the encoding frame, and n is an integer. In the present embodiment, n is selected between 0 and 3, it will be possible to use any frame length as long as the entire length of the group is kept constant.
In
Der
Vorteil mit einer Endlos-Schleifen-Entscheidung ist, dass nur eine
Kodierung tatsächlich
auszuführen
ist. Der Nachteil ist jedoch, dass die Analyse der Signal-Eigenschaften
tatsächlich
sehr kompliziert sein kann und es schwierig sein kann, mögliches
Verhalten vorherzusagen, um fähig
zu sein, in dem Schalter
Durch
das Verwenden der Endlos-Schleifen-Auswahl (
Der Nutzen bei solch einem Kodieren variabler Länge für das Seiten-Signal ist, dass zwischen einer feinen zeitlichen Auflösung und grober Frequenz-Auflösung auf der einen Seite und grober zeitlicher Auflösung und feiner Frequenz-Auflösung auf der anderen Seite gewählt werden kann. Die obigen Ausführungsformen werden das Stereo-Bild in der bestmöglichen Weise erhalten.Of the The benefit of such variable length coding for the page signal is that between a fine temporal resolution and coarse frequency resolution one side and gross temporal resolution and fine frequency resolution chosen the other side can be. The above embodiments will be the stereo picture in the best possible Received manner.
Es gibt auch einige Erfordernisse für das tatsächliche in den verschiedenen Kodier-Schemata verwendete Kodieren. Insbesondere, wenn die Endlos-Schleifen-Auswahl verwendet wird, müssen die Rechenleistungs-Ressourcen groß sein, um eine Anzahl von mehr oder weniger gleichzeitigem Kodieren auszuführen. Umso komplizierter der Kodier-Vorgang ist, umso mehr Rechen-Leistung wird benötigt. Außerdem ist eine geringe Bit-Rate bei der Übertragung auch zu bevorzugen.It There are also some requirements for the actual coding used in the various coding schemes. Especially, if the infinite loop selection is used, the Computing power resources be great to perform a number of more or less simultaneous coding. more the more complex the coding process, the more computational power is required. Furthermore a low bit rate is also preferable in the transmission.
Das
in
Ein Mittel, um die Notwendigkeit für Interpolation zu vermeiden, ist die Filter-Koeffizienten auf einer Abtastung-für-Abtastung-Basis zu aktualisieren und auf rückwärtsadaptive/verwendbare Analyse zu vertrauen. Für diese Arbeit wird es erforderlich sein, dass die Bit-Rate des Residuum-Kodierers ziemlich hoch ist. Dieses ist daher keine gute Alternative für Stereo-Kodierung bei niedriger Bit-Rate.One Means to the need for To avoid interpolation, the filter coefficients are on one Sample-by-sample basis to update and to backward / adaptable Trust analysis. For This work will require that the bit rate of the residual encoder be pretty much is high. This is therefore not a good alternative for stereo coding at low bit rate.
Es existieren Fälle, z. B. recht üblich mit Musik, in welchen das Mono- und die Differenz-Signale nahezu unkorreliert sind. Die Filter-Schätzung wird dann sehr mühevoll mit dem zusätzlichen Risiko, die Dinge für den Differenz-Fehler-Signal-Kodierer nur schlechter zu machen.It there are cases z. B. quite common with music in which the mono and differential signals are almost are uncorrelated. The filter estimation then becomes very painstaking the additional Risk things for the difference error signal encoder just to make it worse.
Die
Lösung
entsprechend zu
Daher basiert in einer bevorzugten Ausführungsform das Kodieren des Seiten-Signals auf der Idee, die Redundanz zwischen dem Mono- und dem Seiten-Signal durch Verwenden eines einfachen Abgleich/Ausgleich-Faktors anstelle eines komplexen Bit-Rate-verbrauchenden Prädiktor-Filters zu reduzieren. Das Residuum dieses Vorgangs wird dann kodiert. Die Größe eines solchen Residuums ist relativ klein und verlangt nicht nach hoher Bit-Rate für die Übertragung. Diese Idee ist tatsächlich sehr geeignet, um sie mit dem früher beschriebenen Ansatz der variablen Rahmen-Gruppe zu kombinieren, da die Berechnungs-Komplexität gering ist.Therefore, in a preferred embodiment, the coding of the side signal is based on the idea of reducing the redundancy between the mono and the side signal by using a simple balance / equalization factor instead of a complex bit rate consuming predictor filter. The Resi duum of this process is then coded. The size of such residual is relatively small and does not require high bit rate for transmission. In fact, this idea is very well suited to combine with the variable frame group approach described earlier, since the computational complexity is low.
Die Verwendung eines Abgleich/Ausgleich-Faktors, kombiniert mit dem Ansatz der variablen Rahmen-Länge beseitigt die Notwendigkeit von komplexer Interpolation und die verbundenen Probleme, welche Interpolation verursachen kann. Darüber hinaus ergibt die Verwendung eines einfachen Abgleich/Ausgleich-Faktors anstelle eines komplexen Filters weniger Probleme mit der Schätzung, da mögliche Schätz-Fehler für den Abgleich/Ausgleich-Faktor weniger Einfluss haben. Die bevorzugte Lösung wird fähig sein beides, verschobene Signale und diffuse Ton-Felder, mit guter Qualität und mit begrenzten Bit-Raten-Anforderungen und Berechnungs-Ressourcen zu reproduzieren.The Using an adjustment / compensation factor combined with the Variable frame length approach eliminates the need for complex interpolation and the related problems, which may cause interpolation. Furthermore results in the use of a simple adjustment / compensation factor instead of a complex filter, there are fewer problems with the estimation because possible estimation errors for the Balance / compensation factor have less influence. The preferred solution will be able both, shifted signals and diffuse sound fields, with good quality and with limited bit rate requirements and computational resources too reproduce.
In
der Ausführungsform
der
In
einer mehr mathematischen Weise kann das grundlegende Kodier-Schema
wie folgt beschrieben werden. Bezeichne die beiden Kanäle als a
und b, welche der linke und der rechte Kanal eines Stereo-Paars sein
können.
Die Kanal-Signale werden durch Addition in ein Mono-Signal und durch
Subtraktion in ein Seiten-Signal kombiniert. In Gleichungsform werden
die Vorgänge
beschrieben als:
Es
ist nützlich
die xmono und xside -Signale
um einen Faktor 2 nach unten zu skalieren. Es ist hier angenommen,
dass andere Wege des Erzeugens der xmono und
xside existieren. Man kann zum Beispiel
verwenden:
Für Blöcke von
Eingabe-Signalen wird ein modifiziertes Residuum-Seiten-Signal berechnet
entsprechend zu:
In dem oben erwähnten speziellen Fall wird f(xmono, xside) beschrieben als: wobei xside das Seiten-Signal und xmono das Mono-Signal ist. Bemerke, dass die Funktion basiert auf einem Block, beginnend bei „frame start" (Rahmen-Beginn) und endend bei „frame end" (Rahmen-Ende).In the special case mentioned above, f (x mono , x side ) is described as: where x side is the side signal and x mono is the mono signal. Note that the function is based on a block, starting at "frame start" and ending at "frame end".
Es ist möglich in der Frequenz-Domäne bei der Berechnung des Abgleich/Ausgleich-Faktors Gewichtung hinzuzufügen. Dieses wird gemacht durch Konvolution der xside- und xmono-Signale mit der Impuls-Reaktion eines Gewichtungs-Filters. Es ist dann möglich, die Schätzungs-Fehler in einen Frequenzbereich zu schieben, in welchem diese weniger gut zu hören sind. Dieses wird als Wahrnehmungs-Wichtung bezeichnet.It is possible to add weighting in the frequency domain when calculating the adjustment / compensation factor. This is done by convolution of the x side and x mono signals with the impulse response of a weighting filter. It is then possible to shift the estimation errors to a frequency range where they are less easy to hear. This is called perceptual weighting.
Eine
gequantelte Version des Abgleich/Ausgleich-Faktor-Werts, gegeben
durch die Funktion f(xmono, xside)
wird an den Dekodierer übertragen.
Es ist vorzuziehen, die Quantelung bereits in Betracht zu ziehen, wenn
das modifizierte Signal erzeugt wird. Der folgende Ausdruck wird
dann erzielt:
Qg(..) ist eine Quantelungs-Funktion, welche angewandt ist auf den Abgleich/Ausgleich-Faktor, gegeben durch die Funktion f(xmono, xside). Der Abgleich/Ausgleich-Faktor wird in dem Übertragungs-Kanal übertragen. In normalen links-rechts liegenden Signalen ist der Abgleich/Ausgleich-Faktor begrenzt auf das Intervall [–1.0 1.0]. Wenn andererseits die Signale außer Phase sind in Bezug zu einander, kann der Abgleich/Ausgleich-Faktor über diese Grenzen hinausgehen.Q g (..) is a quantization function which is applied to the balance / equalization factor given by the function f (x mono , x side ). The balance / equalization factor is transmitted in the transmission channel. In normal left-right signals, the adjustment / compensation factor is limited to the interval [-1.0 1.0]. On the other hand, if the signals are out of phase with each other, the balance / equalization factor may go beyond these limits.
Als ein optionales Mittel, um das Stereo-Bild zu stabilisieren, kann man den Abgleich/Ausgleich-Faktor begrenzen, wenn die normalisierte Quer-Korrelation zwischen dem Mono- und dem Seiten-Signal schlecht ist, wie gegeben durch die nachfolgende Gleichung: wobeiAs an optional means to stabilize the stereo image, one can limit the balance / equalization factor if the normalized cross-correlation between the mono and the side signal is poor as given by the following equation: in which
Diese Situationen treten recht häufig ein bei z. B. klassischer Musik oder Studio-Musik mit einem großen Anteil von diffusen Tönen, wobei die a und b Kanäle in manchen Fällen sich gegenseitig fast auslöschen in Fällen, in welchen ein Mono-Signal erzeugt wird. Die Wirkung auf den Abgleich/Ausgleich-Faktor ist, dass dieser schnell springen kann, verursachend ein verwischtes Stereo-Bild. Die obige Korrektur schwächt dieses Problem ab.These situations occur quite often at z. Classical music or studio music with a large proportion of diffused sounds, where the a and b channels in some cases almost cancel each other out in cases where a mono signal is generated. The effect on the balance / equalization factor is that this can jump quickly, creating a blurred stereo image. The above correction weakens this Problem.
Der
Filter-basierte Ansatz in
Wenn
Es die Kodier-Funktion (z. B. ein Transformations-Kodierer) des Seiten-Residuum-Signals
und Em die Kodier-Funktion des Mono-Signals ist, dann
können
die dekodierten a" und
b"-Signale in dem
Dekodierer-Ende beschrieben werden als (es ist angenommen hier,
dass γ =
0.5):
Ein wichtiger Nutzen aus dem Berechnen des Abgleich/Ausgleich-Faktors für jeden Rahmen ist, dass die Verwendung von Interpolation vermieden wird. Stattdessen wird normalerweise, wie oben beschrieben, die Rahmen-Verarbeitung mit überlappenden Rahmen ausgeführt.One important benefit from calculating the balance / compensation factor for each The framework is that the use of interpolation is avoided. Instead, normally, as described above, the frame processing is overlapping Frame executed.
Das Kodier-Prinzip verwendend Abgleich/Ausgleich-Faktoren arbeitet besonders gut in dem Fall von Musik-Signalen, wo typisch schnelle Wechsel benötigt werden, um dem Stereo-Bild zu folgen.The Using Coding Principle Matching / Compensation Factors works especially good in the case of music signals, where typically fast change needed to follow the stereo picture.
Kürzlich ist
Viel-Kanal-Kodierung populär
geworden. Ein Beispiel ist 5.1-Kanal Umgebungs-Ton in DVD-Filmen.
Die Kanäle
werden dann so angeordnet: vorne links, vorne Zentrum, vorne rechts,
hinten links, hinten rechts und Sub-Woofer. In
Die
drei Kanäle
L, C, R werden an die drei Eingängen
Das
Seiten-Signal xside, das ist die Differenz
zwischen links L und rechts R-Kanälen wird an die Seiten-Signal-Kodierer-Einheit
Das oben beschriebene Konzept variabler Rahmen-Längen kann auf jedem der Seiten- und Zentrum-Signale oder auf beide angewandt werden.The The concept of variable frame lengths described above can be used on any of the and center signals or both.
Die Eingabe-Signale
xleft, xright und
xcentre werden in einen Mono-Kanal kombiniert
entsprechend zu:
The input signals x left , x right and x center are combined into a mono channel corresponding to:
Die normalisierte Quer-Korrelation zwischen dem Mono- und dem Zentrum-Signal wird berechnet als: wobeiThe normalized cross-correlation between the mono and center signals is calculated as: in which
xcentre das Zentrum-Signal und xmono das Mono-Signal ist. Das Mono-Signal kommt aus dem Mono-Ziel-Signal, aber es ist möglich ebenso gut die lokale Synthese des Mono-Kodierers zu verwenden.x center is the center signal and x mono is the mono signal. The mono signal comes from the mono-target signal, but it is equally possible to use the local synthesis of the mono-coder.
Das
zu kodierende Zentrum-Residuum-Signal ist:
Wenn
Ec die Kodier-Funktion (z. B. ein Transformations-Kodierer) des Zentrum-Residuum-Signals
und Em die Kodier-Funktion des Mono-Signals ist, dann
kann das dekodierte xcentre-Signal an dem
Ende des Dekodierers beschrieben werden als:
Das
zu kodierende Seiten-Residuum-Signal ist:
Wenn
Es die Kodier-Funktion des Seiten-Residuum-Signals
ist, dann sind die dekodierten x''left und x''right-Kanal-Signale
gegeben als:
Einer
der Wahrnehmungs-Artefakte, welche am meisten störend sind, ist der Vor-Echo-Effekt.
In den
Die Vor-Echo-Artefakte werden deutlicher, wenn lange Kodier-Rahmen verwendet werden. Durch Verwendung kürzerer Rahmen wird der Artefakt etwas unterdrückt. Ein anderer Weg, um oben beschriebene Vor-Echo-Probleme zu behandeln, ist die Tatsache zu nutzen, dass das Mono-Signal verfügbar ist an beiden, dem Kodierer- und dem Dekodierer-Ende. Dieses macht es möglich, das Seiten-Signal zu skalieren, entsprechend der Energie-Kontur des Mono-Signals. An dem Dekodierer-Ende wird das inverse Skalieren ausgeführt und so können einige der Vor-Echo-Probleme erleichtert werden.The Pre-echo artifacts become more apparent when using long encoding frames become. By using shorter ones Frame, the artifact is somewhat suppressed. Another way to go up to treat pre-echo problems described is the fact too that the mono signal is available on both the encoder and and the decoder end. This makes it possible to adjust the page signal scale, according to the energy contour of the mono signal. At the decoder end inverse scaling is done and so can some the pre-echo problems be relieved.
Eine Energie-Kontur des Mono-Signals wird über den gesamten Rahmen berechnet als: wobei w(n) eine Fenster-Funktion ist. Die einfachste Fenster-Funktion ist eine Rechtecks-Funktion, es können aber andere Fenster-Typen, solche wie ein Hamming-Fenster, bevorzugter sein.An energy contour of the mono signal is calculated over the entire frame as: where w (n) is a window function. The simplest window function is a rectangle function, but other types of windows, such as a Hamming window, may be more preferable.
Das Seiten-Residuum-Signal ist dann skaliert als: The page residual signal is then scaled as:
In
einer allgemeineren Form kann die obige Gleichung geschrieben werden
als: wobei f(..) eine monotone
kontinuierliche Funktion ist. In dem Dekodierer wird die Energie-Kontur
für das
dekodierte Mono-Signal berechnet und auf das dekodierte Signal angewandt
als:
Da
dieses Energie-Kontur-Skalieren in mancher Weise alternativ zu der
Verwendung der kürzeren Rahmen-Längen ist,
ist dieses Konzept besonders gut geeignet, um kombiniert zu werden
mit dem weiter oben beschriebenen Konzept der variablen Rahmen-Längen. Dadurch,
dass einige Kodier-Schemata,
welche Energie-Kontur-Skalieren anwenden, einige, welche dies nicht
tun, und einige, welche Energie-Kontur-Skalieren nur während bestimmter Unter-Rahmen
anwenden, verfügbar
sind, kann eine flexiblere Gruppe von Kodier-Schemata bereitgestellt werden. In
Die
Gruppe von Kodier-Schemata der
Die vorgeschlagene Lösung kann in dem gesamten Frequenzband oder in einem oder mehreren bestimmten Sub-Bändern verwendet werden. Die Verwendung von Sub-Bändern kann angewandt werden entweder auf beide, Haupt- und Seiten-Signale oder getrennt auf eines von diesen. Eine bevorzugte Ausführungsform umfasst eine Aufspaltung des Seiten-Signals in einige Frequenz-Bänder. der Grund ist einfach, dass es leichter ist, die mögliche Redundanz in einem isolierten Frequenz-Band zu entfernen als in dem gesamten Frequenz-Band. Dieses ist insbesondere wichtig, wenn Musik-Signale mit reichem spektralem Inhalt kodiert werden.The suggested solution may be in the entire frequency band or in one or more specific ones Sub-bands be used. The use of sub-bands can be used either on both main and side signals or separately on one of these. A preferred embodiment comprises a splitting of the side signal in some frequency bands. the reason is simple, that it is easier, the possible redundancy to remove in an isolated frequency band than in the whole Frequency band. This is especially important if music signals be encoded with rich spectral content.
Eine mögliche Anwendung ist, das Frequenz-Band unterhalb eines vorbestimmten Schwellwerts mit dem obigen Verfahren zu kodieren. der vorbestimmte Schwellwert kann bevorzugt bei 2 kHz oder noch besser bei 1 kHz liegen. Für den verbleibenden Teil des Frequenz-Bereichs von Interesse kann ein anderes zusätzliches Frequenz-Band mit dem obigen Verfahren kodiert werden oder es kann ein völlig anderes Verfahren verwendet werden.A possible Application is, the frequency band below a predetermined threshold encode with the above method. the predetermined threshold may preferably be at 2 kHz or even better at 1 kHz. For the remaining Part of the frequency range of interest may be another additional one Frequency band can be encoded with the above method or it can a completely other method can be used.
Es
ist eine Motivation für
das Verwenden des obigen Verfahrens bevorzugt für niedrige Frequenzen, dass
die diffusen Ton-Felder generell wenig Energie-Inhalt bei hohen
Frequenzen haben. Der natürliche
Grund ist, dass Ton-Absorption
typisch mit der Frequenz anwächst.
Auch scheinen die diffusen Ton-Feld-Komponenten bei hohen Frequenzen
eine weniger wichtige Rolle für
das menschliche Gehör-System
zu spielen. Daher ist es nützlich,
diese Lösung
bei niedrigen Frequenzen (unter 1 oder 2 kHz) einzusetzen und bei
höheren
Frequenzen auf andere, sogar effizientere Kodier-Schemata zu vertrauen.
Die Tatsache, dass das Schema nur bei niedrigen Frequenzen angewandt
wird, ergibt eine große
Einsparung an Bit-Rate, da die notwendige Bit-Rate bei dem vorgeschlagenen
Verfahren proportional ist zu der erforderlichen Bandbreite. In
den meisten Fällen
kann der Mono-Kodierer das gesamte Frequenz-Band kodieren, während das
vorgeschlagene Kodieren des Seiten-Signals vorgeschlagen ist, nur
in dem unteren Teil des Frequenz-Bands ausgeführt zu werden, wie durch
Es besteht auch die Möglichkeit, das vorgeschlagene Verfahren für einige bestimmte Frequenz-Bänder zu verwenden.It there is also the possibility the proposed procedure for some specific frequency bands to use.
In
In
Die oben beschriebenen Ausführungsformen sind zu verstehen als einige wenige illustrative Beispiele der vorliegenden Erfindung. Es wird durch mit dem Gebiet Vertrauten verstanden werden, dass verschiedene Modifikationen, Kombinationen und Veränderungen an den Ausführungsformen gemacht werden können, ohne von dem Geltungsbereich der vorliegenden Erfindung abzuweichen. Insbesondere können verschiedene Teil-Lösungen in den verschiedenen Ausführungsformen in anderen Konfigurationen kombiniert werde, wo technisch möglich. Der Geltungsbereich der vorliegenden Erfindung ist jedoch definiert durch die angehängten Ansprüche.The Embodiments described above are to be understood as a few illustrative examples of the present Invention. It will be understood by those familiar with the field, that different modifications, combinations and changes on the embodiments can be done without to deviate from the scope of the present invention. In particular, you can different part solutions in the various embodiments combined in other configurations where technically possible. Of the Scope of the present invention is defined, however by the appended claims.
REFERENZENREFERENCES
-
European Patent 0497413European Patent 0497413 -
US patent 5,285,498US patent 5,285,498 -
US patent 5,434,948US patent 5,434,948 - „Binaural cue coding applied to stereo and multi-channel audio compression", 112th AES convention, May 2002, Munich, Germany by C. Faller et al."Binaural cue coding to stereo and multi-channel audio compression ", 112th AES convention, May 2002, Munich, Germany by C. Faller et al.
Claims (26)
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0303501A SE0303501D0 (en) | 2003-12-19 | 2003-12-19 | Filter-based parametric multi-channel coding |
SE0303501 | 2003-12-19 | ||
SE0400417 | 2004-02-20 | ||
SE0400417A SE527670C2 (en) | 2003-12-19 | 2004-02-20 | Natural fidelity optimized coding with variable frame length |
PCT/SE2004/001867 WO2005059899A1 (en) | 2003-12-19 | 2004-12-15 | Fidelity-optimised variable frame length encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
DE602004008613D1 DE602004008613D1 (en) | 2007-10-11 |
DE602004008613T2 true DE602004008613T2 (en) | 2008-06-12 |
Family
ID=31996354
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE602004008613T Active DE602004008613T2 (en) | 2003-12-19 | 2004-12-15 | TREUE OPTIMIZED CODING WITH VARIABLE FRAME LENGTH |
DE602004023240T Active DE602004023240D1 (en) | 2003-12-19 | 2004-12-15 | Coding and decoding of multi-channel sound signals based on a main and sub signal representation |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE602004023240T Active DE602004023240D1 (en) | 2003-12-19 | 2004-12-15 | Coding and decoding of multi-channel sound signals based on a main and sub signal representation |
Country Status (15)
Country | Link |
---|---|
EP (2) | EP1845519B1 (en) |
JP (2) | JP4335917B2 (en) |
CN (2) | CN100559465C (en) |
AT (2) | ATE443317T1 (en) |
AU (1) | AU2004298708B2 (en) |
BR (2) | BRPI0410856B8 (en) |
CA (2) | CA2690885C (en) |
DE (2) | DE602004008613T2 (en) |
HK (2) | HK1091585A1 (en) |
MX (1) | MXPA05012230A (en) |
PL (1) | PL1623411T3 (en) |
RU (2) | RU2305870C2 (en) |
SE (1) | SE527670C2 (en) |
WO (1) | WO2005059899A1 (en) |
ZA (1) | ZA200508980B (en) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2363116C2 (en) * | 2002-07-12 | 2009-07-27 | Конинклейке Филипс Электроникс Н.В. | Audio encoding |
WO2006126858A2 (en) | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method of encoding and decoding an audio signal |
JP4639966B2 (en) * | 2005-05-31 | 2011-02-23 | ヤマハ株式会社 | Audio data compression method, audio data compression circuit, and audio data expansion circuit |
US8494667B2 (en) | 2005-06-30 | 2013-07-23 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007004830A1 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
EP1913578B1 (en) | 2005-06-30 | 2012-08-01 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
US8121836B2 (en) | 2005-07-11 | 2012-02-21 | Lg Electronics Inc. | Apparatus and method of processing an audio signal |
JP5111375B2 (en) | 2005-08-30 | 2013-01-09 | エルジー エレクトロニクス インコーポレイティド | Apparatus and method for encoding and decoding audio signals |
US7987097B2 (en) | 2005-08-30 | 2011-07-26 | Lg Electronics | Method for decoding an audio signal |
JP4859925B2 (en) | 2005-08-30 | 2012-01-25 | エルジー エレクトロニクス インコーポレイティド | Audio signal decoding method and apparatus |
US7788107B2 (en) | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
WO2007040349A1 (en) | 2005-10-05 | 2007-04-12 | Lg Electronics Inc. | Method and apparatus for signal processing |
US7646319B2 (en) | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7672379B2 (en) | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7751485B2 (en) | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
US8068569B2 (en) | 2005-10-05 | 2011-11-29 | Lg Electronics, Inc. | Method and apparatus for signal processing and encoding and decoding |
KR100857113B1 (en) | 2005-10-05 | 2008-09-08 | 엘지전자 주식회사 | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7742913B2 (en) | 2005-10-24 | 2010-06-22 | Lg Electronics Inc. | Removing time delays in signal paths |
WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
US8204740B2 (en) | 2006-02-06 | 2012-06-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Variable frame offset coding |
US7461106B2 (en) | 2006-09-12 | 2008-12-02 | Motorola, Inc. | Apparatus and method for low complexity combinatorial coding of signals |
US8576096B2 (en) | 2007-10-11 | 2013-11-05 | Motorola Mobility Llc | Apparatus and method for low complexity combinatorial coding of signals |
US8209190B2 (en) | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
US7889103B2 (en) | 2008-03-13 | 2011-02-15 | Motorola Mobility, Inc. | Method and apparatus for low complexity combinatorial coding of signals |
US8639519B2 (en) | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
EP2124486A1 (en) * | 2008-05-13 | 2009-11-25 | Clemens Par | Angle-dependent operating device or method for generating a pseudo-stereophonic audio signal |
KR101629862B1 (en) * | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder |
JPWO2010016270A1 (en) * | 2008-08-08 | 2012-01-19 | パナソニック株式会社 | Quantization apparatus, encoding apparatus, quantization method, and encoding method |
US8676365B2 (en) * | 2008-09-17 | 2014-03-18 | Orange | Pre-echo attenuation in a digital audio signal |
JP5309944B2 (en) | 2008-12-11 | 2013-10-09 | 富士通株式会社 | Audio decoding apparatus, method, and program |
US8175888B2 (en) | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
US8200496B2 (en) | 2008-12-29 | 2012-06-12 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
US8140342B2 (en) | 2008-12-29 | 2012-03-20 | Motorola Mobility, Inc. | Selective scaling mask computation based on peak detection |
US8219408B2 (en) | 2008-12-29 | 2012-07-10 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
JP5793675B2 (en) | 2009-07-31 | 2015-10-14 | パナソニックIpマネジメント株式会社 | Encoding device and decoding device |
JP5295380B2 (en) * | 2009-10-20 | 2013-09-18 | パナソニック株式会社 | Encoding device, decoding device and methods thereof |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
WO2011076285A1 (en) * | 2009-12-23 | 2011-06-30 | Nokia Corporation | Sparse audio |
US8442837B2 (en) | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
US8428936B2 (en) | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
US8423355B2 (en) | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
EP2544466A1 (en) * | 2011-07-05 | 2013-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor |
US9129600B2 (en) | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
KR102173422B1 (en) * | 2012-11-15 | 2020-11-03 | 가부시키가이샤 엔.티.티.도코모 | Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program |
US10060955B2 (en) * | 2014-06-25 | 2018-08-28 | Advanced Micro Devices, Inc. | Calibrating power supply voltages using reference measurements from code loop executions |
ES2904275T3 (en) | 2015-09-25 | 2022-04-04 | Voiceage Corp | Method and system for decoding the left and right channels of a stereo sound signal |
US12125492B2 (en) | 2015-09-25 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
CN107742521B (en) | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | Coding method and coder for multi-channel signal |
CN109215668B (en) | 2017-06-30 | 2021-01-05 | 华为技术有限公司 | Method and device for encoding inter-channel phase difference parameters |
CN115831130A (en) | 2018-06-29 | 2023-03-21 | 华为技术有限公司 | Coding method, decoding method, coding device and decoding device for stereo signal |
CN112233682B (en) * | 2019-06-29 | 2024-07-16 | 华为技术有限公司 | Stereo encoding method, stereo decoding method and device |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434948A (en) * | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
NL9100173A (en) * | 1991-02-01 | 1992-09-01 | Philips Nv | SUBBAND CODING DEVICE, AND A TRANSMITTER EQUIPPED WITH THE CODING DEVICE. |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
US5694332A (en) * | 1994-12-13 | 1997-12-02 | Lsi Logic Corporation | MPEG audio decoding system with subframe input buffering |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US5796842A (en) * | 1996-06-07 | 1998-08-18 | That Corporation | BTSC encoder |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
JP3335605B2 (en) * | 2000-03-13 | 2002-10-21 | 日本電信電話株式会社 | Stereo signal encoding method |
DE60209888T2 (en) * | 2001-05-08 | 2006-11-23 | Koninklijke Philips Electronics N.V. | CODING AN AUDIO SIGNAL |
JP2003084790A (en) * | 2001-09-17 | 2003-03-19 | Matsushita Electric Ind Co Ltd | Speech component emphasizing device |
CN1219415C (en) * | 2002-07-23 | 2005-09-14 | 华南理工大学 | 5.1 path surround sound earphone repeat signal processing method |
-
2004
- 2004-02-20 SE SE0400417A patent/SE527670C2/en unknown
- 2004-12-15 BR BRPI0410856A patent/BRPI0410856B8/en not_active IP Right Cessation
- 2004-12-15 AT AT07109801T patent/ATE443317T1/en not_active IP Right Cessation
- 2004-12-15 CA CA2690885A patent/CA2690885C/en active Active
- 2004-12-15 CN CNB2004800186630A patent/CN100559465C/en active Active
- 2004-12-15 AU AU2004298708A patent/AU2004298708B2/en not_active Ceased
- 2004-12-15 JP JP2006518596A patent/JP4335917B2/en not_active Expired - Fee Related
- 2004-12-15 AT AT04820553T patent/ATE371924T1/en not_active IP Right Cessation
- 2004-12-15 EP EP07109801A patent/EP1845519B1/en active Active
- 2004-12-15 WO PCT/SE2004/001867 patent/WO2005059899A1/en active IP Right Grant
- 2004-12-15 CN CN200710138487XA patent/CN101118747B/en not_active Expired - Fee Related
- 2004-12-15 MX MXPA05012230A patent/MXPA05012230A/en active IP Right Grant
- 2004-12-15 RU RU2005134365/09A patent/RU2305870C2/en active
- 2004-12-15 CA CA2527971A patent/CA2527971C/en active Active
- 2004-12-15 DE DE602004008613T patent/DE602004008613T2/en active Active
- 2004-12-15 PL PL04820553T patent/PL1623411T3/en unknown
- 2004-12-15 DE DE602004023240T patent/DE602004023240D1/en active Active
- 2004-12-15 BR BRPI0419281-8A patent/BRPI0419281B1/en not_active IP Right Cessation
- 2004-12-15 ZA ZA200508980A patent/ZA200508980B/en unknown
- 2004-12-15 EP EP04820553A patent/EP1623411B1/en not_active Ceased
-
2006
- 2006-11-01 HK HK06112026.7A patent/HK1091585A1/en not_active IP Right Cessation
- 2006-11-01 HK HK08106066.8A patent/HK1115665A1/en not_active IP Right Cessation
-
2007
- 2007-06-05 RU RU2007121143/09A patent/RU2425340C2/en active
- 2007-08-22 JP JP2007216374A patent/JP4589366B2/en not_active Expired - Fee Related
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE602004008613T2 (en) | TREUE OPTIMIZED CODING WITH VARIABLE FRAME LENGTH | |
DE60206390T2 (en) | EFFICIENT AND SCALABLE PARAMETRIC STEREOCODING FOR LOW-BITRATE APPLICATIONS | |
EP1864279B1 (en) | Device and method for producing a data flow and for producing a multi-channel representation | |
DE60103424T2 (en) | IMPROVING THE PERFORMANCE OF CODING SYSTEMS USING HIGH FREQUENCY RECONSTRUCTION PROCESSES | |
US7809579B2 (en) | Fidelity-optimized variable frame length encoding | |
DE69731677T2 (en) | Improved combination stereo coding with temporal envelope shaping | |
DE60310716T2 (en) | SYSTEM FOR AUDIO CODING WITH FILLING OF SPECTRAL GAPS | |
DE69325952T2 (en) | Coding and decoding of audio information | |
DE602004002390T2 (en) | AUDIO CODING | |
DE602006000239T2 (en) | ENERGY DEPENDENT QUANTIZATION FOR EFFICIENT CODING OF SPATIAL AUDIOPARAMETERS | |
DE69210689T2 (en) | ENCODER / DECODER FOR MULTI-DIMENSIONAL SOUND FIELDS | |
DE69933659T2 (en) | METHOD AND SYSTEM FOR SPATIAL CODING WITH LOW BITRATE | |
DE69431622T2 (en) | METHOD AND DEVICE FOR ENCODING DIGITAL SOUND ENCODED WITH MULTIPLE BITS BY SUBTRACTING AN ADAPTIVE SHAKING SIGNAL, INSERTING HIDDEN CHANNEL BITS AND FILTERING, AND ENCODING DEVICE FOR USE IN THIS PROCESS | |
DE602005002833T2 (en) | COMPENSATION OF MULTICANAL AUDIO ENERGY LOSSES | |
DE60013785T2 (en) | IMPROVED SUBJECTIVE QUALITY OF SBR (SPECTRAL BAND REPLICATION) AND HFR (HIGH FREQUENCY RECONSTRUCTION) CODING PROCEDURES BY ADDING NOISE AND LIMITING NOISE REDUCTION | |
DE69432012T2 (en) | Perceptual coding of audio signals | |
DE602005006424T2 (en) | STEREO COMPATIBLE MULTICHANNEL AUDIO CODING | |
DE602004010885T2 (en) | AUDIO-TRANS CODING | |
DE69810361T2 (en) | Method and device for multi-channel acoustic signal coding and decoding | |
DE102005010057A1 (en) | Apparatus and method for generating a coded stereo signal of an audio piece or audio data stream | |
DE102008009024A1 (en) | Apparatus and method for synchronizing multichannel extension data with an audio signal and for processing the audio signal | |
EP2402943A2 (en) | Method and device for creating an environmental signal | |
DE102007029381A1 (en) | Digital signal e.g. audio signal, processing device, has decision section, which assumes forecast data before deletion as interpolation data, when absolute value is lower than resolution | |
DE102020210917B4 (en) | Improved M/S stereo encoder and decoder | |
DE10065363B4 (en) | Apparatus and method for decoding a coded data signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |