DE60303209T2 - Parametrische audiocodierung - Google Patents
Parametrische audiocodierung Download PDFInfo
- Publication number
- DE60303209T2 DE60303209T2 DE60303209T DE60303209T DE60303209T2 DE 60303209 T2 DE60303209 T2 DE 60303209T2 DE 60303209 T DE60303209 T DE 60303209T DE 60303209 T DE60303209 T DE 60303209T DE 60303209 T2 DE60303209 T2 DE 60303209T2
- Authority
- DE
- Germany
- Prior art keywords
- audio signal
- common
- frequencies
- channels
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf parametrische Audiocodierung.
Heiko Purnhagen: "Advances in parametric audio coding", "Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics" New Paltz, New York, 17.–20. Oktober 1999 beschreibt, dass parametrische Modellierung eine effiziente Darstellung allgemeiner Audiosignale bietet und bei Codierung von Audio mit einer sehr niedrigen Bitrate angewandt wird. Basis dabei ist die Dekomposition eines Audiosignals in Komponenten, die durch geeignete Quellenmodelle beschrieben und durch Modellparameter (wie die Frequenz und die Amplitude eines reinen Tones) dargestellt werden. Perzeptionsmodelle werden in der Signaldekomposition und in der Modellparametercodierung verwendet. - Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung eine vorteilhafte Parameterisierung eines Mehrkanal-Audiosignals (beispielsweise Stereo) zu schaffen. Dazu schafft die vorliegende Erfindung ein Verfahren zum Codieren, einen Codierer, ein codiertes Audiosignal, ein Speichermedium, ein Verfahren zum Decodieren und einen Decoder, wie in den Hauptansprüchen definiert. Vorteilhafte Ausführungsformen sind in den Unteransprüchen definiert.
- Es sei bemerkt, dass Stereo-Audiocodierung an sich in dem Stand der Technik bekannt ist. So können beispielsweise die zwei Kanäle links (L) und rechts (R) unabhängig voneinander codiert werden. Dies kann mit zwei unabhängigen Codierern erfolgen, die parallel zueinander vorgesehen sind, oder durch Zeitmultiplexbetrieb in einem einzigen Codierer. Meistens kann man die zwei Kanäle durch Anwendung von Kreuzkanalkorrelation (und Belanglosigkeiten) in dem Signal effizienter codieren. Hingewiesen wird in diesem Zusammenhang auf den MPEG-2 Audiostandard (ISO/IEC 13818-3, Seiten 5, 6), der eine gemeinsame Stereocodierung beschreibt. Gemeinsame Stereocodierung benutzt die Redundanz zwischen dem linken und dem rechten Kanal um die Audio-Bitrate zu reduzieren. Es sind zwei Formen von gemeinsamer Stereocodierung möglich: MS Stereo und Intensitäts-Stereo. <S Stereo basiert auf der Codierung des Summensignals (L+R) und des Differenz signals (L-R) statt des linken (L) und des rechten (R) Kanals. Intensitäts-Codierung basiert auf der Beibehaltung bei hohen Frequenzen nur der Energieumhüllenden des rechten (R) und des linken (L) Kanals. Eine direkte Anwendung des MS Stereo Codierungsprinzips bei parametrischer Codierung statt bei Subbandcodierung würde zu einem parameterisierten Summensignal und zu einem parameterisierten Differenzsignal führen. Die Bildung des Summensignals und des Differenzsignals vor der Codierung könnte zu der Erzeugung zusätzlicher Frequenzanteile in dem zu codierenden Audiosignal führen, was die Effizienz der parameterischen Codierung reduziert. Eine direkte Anwendung des Intensitäts-Stereocodierungsprinzips auf ein parametrisches Codierungsschema würde zu einem NF-Teil mit unabhängig voneinander codierten Kanälen und einem HF-Teil führen, der nur die Energieumhüllende des rechten und des linken Kanals umfasst.
- Nach einem ersten Aspekt der vorliegenden Erfindung werden gemeinsame Frequenzen in den wenigstens zwei Kanälen des Audiosignals ermittelt, wobei diese gemeinsamen Frequenzen in wenigstens zwei der wenigstens zwei Kanäle auftreten, und betreffende sinusförmige Komponenten in den betreffenden Kanälen mit einer bestimmten gemeinsamen Frequenz werden durch eine Darstellung der gegebenen gemeinsamen Frequenz dargestellt, und eine Darstellung der betreffenden Amplituden der betreffenden sinusförmigen Komponenten bei der gegebenen gemeinsamen Frequenz. Diesem Aspekt liegt die Erkenntnis zugrunde, dass eine bestimmte von einer bestimmten Quelle erzeugte Frequenz eine hohe Wahrscheinlichkeit hat, dass sie eine Komponente in jedem der Kanäle hat. Diese Signalkomponenten werden ihre Frequenz gemeinsam haben. Dies stimmt, weil Signaltransformationen, die in der Übertragung von der Schallquelle über die Aufzeichnungsapparatur zu dem Hörer meistens Frequenzkomponenten in den jeweiligen oder in allen Kanälen beeinträchtigen. Auf diese Weise können gemeinsame Komponenten in den jeweiligen Signalkanälen durch eine einzige gemeinsame Frequenz dargestellt werden. Die betreffenden Amplituden (und Phasen) der betreffenden Komponenten in den jeweiligen Kanälen können verschieden sein. Auf diese Weise wird durch Codierung der Sinuskurven mit einer gemeinsamen Frequenz und einer Darstellung der betreffenden Amplituden eine effiziente zusammendrückende Codierung des Audiosignals erreicht; es ist nur ein einziger Parameter notwendig um eine gegebene gemeinsame Frequenz (die in mehreren Kanälen auftritt) zu codieren. Weiterhin wird eine derartige Parameterisierung auf vorteilhafte Weise mit einem geeigneten psychoakustischen Modell angewandt.
- Wenn einmal eine gemeinsame Frequenz gefunden worden ist, können die anderen Parameter, welche die Komponenten in jedem betreffenden Kanal beschreiben, dargestellt werden. So können beispielsweise für ein Stereosignal, das mit sinusförmigen Komponenten dargestellt wird, der Mittelwert und die Differenz der Amplituden (und ggf. der betreffenden Phasen) codiert werden. Bei einer anderen Ausführungsform wird die größte Amplitude in dem codierten Audiostrom zusammen mit einer Differenzamplitude codiert, wobei das Vorzeichen der Differenzamplitude den Vorherrschenden Kanal für diese Frequenz ermitteln kann.
- Da es wahrscheinlich etwas Korrelation zwischen dem linken und dem rechten Kanal gibt, kann Antropiecodierung der sinusförmigen Parameter angewandt werden, was zu einer mehr effizienten Codierung des Stereosignals führen wird. Außerdem kann irrelevante Information innerhalb der gemeinsamen Komponentendarstellung entfernt werden, beispielsweise interaurale Phasendifferenzen bei hohen Frequenzen werden unhörbar und können auf Null gesetzt werden.
- Es ist möglich, jede beliebige Frequenz, die in den Kanälen auftritt, als gemeinsame Frequenz zu codieren. Wenn eine Frequenz, die in dem einem Kanal auftritt, nicht in einem anderen Kanal auftritt, soll die Amplitudendarstellung derart codiert werden, dass eine Null-Amplitude für den Kanal entsteht, in dem die Frequenz nicht auftritt. Wenn beispielsweise in einer Mehrkanalapplikation eine Frequenz in 3 der 4 Kanäle auftritt, kann die Frequenz als eine gemeinsame Frequenz codiert werden, während in dem Kanal, in dem die Frequenz nicht auftritt, die Amplitude Null gemacht wird.
- Nicht gemeinsame Frequenzen können auch als unabhängige Sinusformen in den betreffenden Kanälen dargestellt werden. Nicht gemeinsame Frequenzen können in einem separaten Parameterblock codiert werden. Es ist weiterhin möglich, einen ersten Parameterblock mit gemeinsamen Frequenzen zu erzeugen, wobei die gemeinsamen Frequenzen allen Kanälen gemeinsam sind, einen zweiten Parameterblock, der Frequenzen umfasst, die einem (vorbestimmten) Subsatz aller Kanäle gemeinsam sind, einen dritten Parameterblock, der Frequenzen enthält, die einem weiteren (vorbestimmten) Subsatz aller Kanäle gemeinsam sind, und so weiter, bis ein letzterer Parameterblock, der die Frequenzen umfasst, die in nur einem Kanal auftreten und die unabhängig codiert werden.
- Eine gemeinsame Frequenz kann als ein absoluter Frequenzwert dargestellt werden, aber auch als eine in der Zeit veränderliche Frequenz, beispielsweise eine erste Abgeleitete ∂f/∂t. Weiterhin können die gemeinsamen Frequenzen gegenüber anderen gemeinsamen Frequenzen verschieden codiert werden.
- Gemeinsame Frequenzen lassen sich durch Schätzung von Frequenzen finden, indem zwei oder Mehr Kanäle gleichzeitig betrachtet werden.
- In einer ersten Ausführungsform werden Frequenzen für die jeweiligen Kanäle einzeln ermittelt, wonach ein Vergleichsschritt durchgeführt wird um die gemeinsamen Frequenzen zu ermitteln. Die Ermittlung der Frequenz, die in den betreffenden Kanälen auftreten, kann durch eine herkömmliche Anpassungsverfolgung durchgeführt werden (siehe beispielsweise S.G. Mallat und Z. Zhang, "Matching pursuits with time-frequency dictionaries," IEEE trans. on Signal Processing, Heft 41, Nr. 12, Seiten 3397–3415) oder "peak picking" (siehe beispielsweise: R. McAulay und T. Quatieri, "Speech Analysis/Synthesis Based on a Sinusoidal Representation," IEEE Trans. ASSP, Heft 34, Nr. 4, Seiten 744–754, Aug. 1986).
- In einer zweiten Ausführungsform zum Ermitteln der gemeinsamen Frequenzen wird eine kombinierte Anpassungsverfolgung angewandt. So werden beispielsweise die betreffenden Energiedarstellungen der wenigstens zwei Kanäle kombiniert zum Erhalten einer gemeinsamen Darstellung. Die gemeinsamen Frequenzen werden danach auf Basis der gemeinsamen Darstellung ermittelt.
- Vorzugsweise werden die Energiespektren der wenigstens zwei Kanäle addiert um ein gemeinsames Energiespektrum zu erhalten. Eine herkömmliche Anpassungsverfolgung wird angewandt um die Frequenzen in diesem addierten Spektrum zu ermitteln. Die in diesem addierten Energiespektrum gefundenen Frequenzen werden als gemeinsame Frequenzen ermittelt.
- In einer dritten Ausführungsform zum Ermitteln der gemeinsamen Frequenzen wird Peak Picking in addierten Energiespektren angewandt. Die Frequenzen der Maxima, die in diesem gemeinsamen Energiespektrum gefunden werden, können als gemeinsame Frequenzen benutzt werden. Man könnte auch low-power Spektren statt linearer Energiespektren addieren.
- Vorzugsweise wird die Phase der betreffenden Komponenten der gemeinsamen Frequenz auch codiert. Eine gemeinsame Phase, welche die mittlere Phase der Phasen in den Kanälen, oder die Phase des Kanals mit der größten Amplitude sein kann, und eine Differenzphase (Interkanal) können in das codierte Audiosignal eingeschlossen wer den. Auf vorteilhafte Weise wird die Differenzphase nur bis zu einer bestimmten Schwellenfrequenz (beispielsweise 1,5 kHz oder 2 kHz) codiert. Für Frequenzen höher als diese Schwelle wird keine Differenzphase codiert. Dies ist möglich ohne dass die Qualität wesentlich reduziert wird, weil die menschliche Empfindlichkeit für interaurale Phasendifferenzen für Frequenzen über dieser Schwelle niedrig ist. Deswegen ist ein Differenzphasenparameter nicht notwendig für Frequenzen über der gegebenen Schwelle. Bei Codierung kann vorausgesetzt werden, dass der Delta-Phasenparameter für Frequenzen über der Schwelle Null ist. Der Decoder ist vorgesehen zum Empfangen derartiger Signale. Über der Schwellenfrequenz erwartet der Decoder keine Codes für Differenzphasen. Weil die Differenzphasen in einer praktischen Ausführungsform nicht mit einem Identifizierer versehen sind, ist es wichtig, für den Decoder zu wissen, wann Differenzphasen erwartet werden konnten und wann nicht. Weiterhin können, weil das menschliche Ohr weniger empfindlich ist für große interaurale Intensitätsdifferenzen, Delta-Amplituden, die größer sind als eine bestimmte Schwelle, beispielsweise um 10 dB, als unendlich vorausgesetzt werden. Folglich brauchen auch in diesem Fall keine interauralen Phasendifferenzen codiert zu werden.
- Frequenzen in verschiedenen Kanälen, die weniger als eine bestimmte Schwelle voneinander abweichen, können durch eine gemeinsame Frequenz dargerstellt werden. In diesem Fall wird vorausgesetzt, dass die voneinander abweichenden Frequenzen von derselben Quellenfrequenz herrühren. In praktischen Ausführungsformen bezieht sich die Schwelle auf die Genauigkeit der Anpassungsverfolgung oder des Peak-Picking-Algorithmus.
- In praktischen Ausführungsformen erfolgt die Parameterisierung nach der vorliegenden Erfindung auf Frame-Basis.
- Die vorliegende Erfindung ist auf jedes beliebige Audiosignal, einschließlich Sprachsignale, anwendbar.
- Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
-
1 einen Codierer nach einer Ausführungsform der vorliegenden Erfindung, -
2 eine mögliche Implementierung des Codierers nach1 , -
3 eine alternative Implementierung des Codierers nach1 , und -
4 ein System nach einer Ausführungsform der vorliegenden Erfindung. - Die Zeichnung zeigt nur diejenigen Elemente, die zum Verständnis der Ausführungsformen der vorliegenden Erfindung erforderlich sind.
-
1 zeigt einen Codierer11 nach einer Ausführungsform der vorliegenden Erfindung. Ein Mehrkanal-Audiosignal wird dem Codierer zugeführt. In dieser Ausführungsform ist das Mehrkanal-Audiosignal ein Stereo-Audiosignal mit einem linken Kanal L und einem rechten Kanal R. Der Codierer11 hat zwei Eingänge: einen Eingang für das Linkskanalsignal L und einen anderen Eingang für das Rechtskanalsignal R. Auf alternative Weise hat der Codierer einen Eingang für die beiden Kanäle L und R, die in dem Fall in einer gemultiplexten Form dem Codierer11 zugeführt werden. Der Codierer11 extrahiert Sinuskurven aus den beiden Kanälen und ermittelt gemeinsame Frequenzen fcom. Das Ergebnis des in dem Codierer11 durchgeführten Codierungsprozesses ist ein codiertes Audiosignal. Das codierte Audiosignal umfasst die gemeinsamen Frequenzen fcom und je gemeinsame Frequenz fcom eine Darstellung der betreffenden Amplituden in den betreffenden Kanälen, beispielsweise in Form einer maximalen oder mittleren Amplitude A und einer Differenz (Delta) Amplitude ΔA. - Nachstehend wird beschrieben, wie die gemeinsamen Frequenzen ermittelt werden können, wobei eine erste Ausführungsform eine Anpassungsverfolgung anwendet und eine zweite Ausführungsform Peak-Picking anwendet.
- Eine Ausführungsform, wobei "matching persuit" angewandt wird
- Dieses Verfahren ist eine Erweiterung der bestehenden Anpassungsverfolgungsalgorithmen. Matching persuits sind in dem Stand der Technik durchaus bekannt. Eine Anpassungsverfolgung ist ein sich wiederholender Algorithmus. Es projiziert das Signal auf ein passendes Dictionary Element, gewählt aus einem redundanten Dictionay von Zeitfrequenz-Wellenformen. Die Projektion wird von dem in der nächsten Wiederholung anzunähernden Signal subtrahiert. Auf diese Weise wird in bestehenden Matching Persuits Algorithmen die Parameterisierung durch wiederholte Ermittlung einer Spitze des "projizierten" Energiespektrums eines Frames des Audiosignals durchgeführt, wobei die optimale Amplitude und Phase entsprechend der Spitzenfrequenz hergeleitet wird und die entsprechende Sinuskurve aus dem analysierten Frame extrahiert wird. Dieser Prozess wird wiederholt, bis eine befriedigende Parameterisierung des Audiosignals erhalten worden ist. Zum Herleiten gemeinsamer Frequenzen in einem Mehrkanal-Audiosignal werden die E nergiespektren des linken und rechten Kanals addiert und die Spitzen dieses Summenenergiespektrums werden festgelegt. Diese Spitzenfrequenzen werden benutzt zum Ermitteln der optimalen Amplituden und ggf. der Phasen des linken und rechten Kanals (oder von mehreren Kanälen).
- Der Mehrkanal-Anpassungsverfolgungsalgorithmus nach einer praktischen Ausführungsform der vorliegenden Erfindung umfasst den Schritt der Spaltung des Mehrkanalsignals in kur dauernde (beispielsweise 10 ms) sich überlappende Frames, und der wiederholten Durchführung der nachfolgenden Schritte an jedem der Frames, bis ein Stop-Kriterium auftritt:
- 1. Die Energiespektren jedes der Kanäle des Mehrkanalframes werden berechnet.
- 2. Die Energiespektren werden addiert zum Erhalten eines gemeinsamen Energiespektrums.
- 3. Die Frequenz, bei der das gemeinsame "projizierte" Energiespektrum maximal ist, wird ermittelt.
- 4. Für die in dem Schritt 3 ermittelte Frequenz, für jeden Kanal werden die Amplitude und die Phase der besten passenden Sinuskurve ermittelt und all diese Parameter werden gespeichert. Diese Parameter werden unter Verwendung der gemeinsamen Frequenzen in Kombination mit einer Darstellung der betreffenden Amplituden codiert, wobei Kreuzkanalkorrelationen und Irrelevanzen benutzt werden.
- 5. Die Sinuskurven werden von den entsprechenden aktuellen Mehrkanalframes subtrahiert zum Erhalten eines aktualisierten Restsignals, das als nächstes Mehrkanalframe in dem Schritt 1 dient.
- Ausführungsform unter Anwendung von "peak picking"
- Auf alternative Weise kann peak picking angewandt werden, wobei beispielsweise die nachfolgenden Schritte durchgeführt werden:
-
- 1. Die Energiespektren jedes der Kanäle des Mehrkanalframes werden berechnet.
- 2. Die Energiespektren werden addiert zum Erhalten eines gemeinsamen Energiespektrums.
- 3. Die Frequenzen, die mit allen Spitzen in dem Energiespektrum übereinstimmen, werden ermittelt.
- 4. Für diese ermittelten Frequenzen werden die besten Amplituden und die besten Phasen erhalten.
-
2 zeigt eine mögliche Implementierung des Codierers nach1 , wobei ein gemeinsames (addiertes) Energiespektrum der Kanäle verwendet wird um die gemeinsamen Frequenzen zu ermitteln. In der Recheneinheit110 wird ein Anpassungsverfolgungsprozess oder ein Peak-Picking-Prozess durchgeführt, wie oben beschrieben, und zwar durch Verwendung eines gemeinsamen Energiespektrums, erhalten aus dem L und dem R Kanal. Die ermittelten gemeinsamen Frequenzen fcom werden der Codierungseinheit111 zugeführt. Diese Codierungseinheit bestimmt die betreffenden Amplituden der Sinuskurven (und vorzugsweise der Phasen) in den jeweiligen Kanälen bei einer bestimmten gemeinsamen Frequenz. - Auf alternative Weise werden die betreffenden Kanäle unabhängig voneinander codiert, und zwar zum Erhalten eines Satzes parameterisierter Sinuskurven jedes Kanals. Diese Parameter werden danach auf gemeinsame Frequenzen geprüft. Eine derartige Ausführungsform ist in
3 dargestellt.3 zeigt eine alternative Implementierung des Codierers11 nach1 . In dieser Implementierung umfasst der Codierer11 zwei unabhängige parametrische Codierer112 und113 . Die Parameter fL, AL und fR, AR, die in diesen unabhängigen Codierern erhalten werden, werden einer weiteren Codierungseinheit114 zugeführt, welche die gemeinsamen Frequenzen fcom in diesen zwei parametrischen Signalen bestimmt. - Codierungsbeispiel eines Stereo-Audiosignals
-
- In der Praxis wird in dem Fall, dass der Amplitudenunterschied zwischen den Kanälen bei einer bestimmten Frequenz +15 dB oder –15 dB ist, diese Frequenz als nur in dem vorherrschenden Kanal auftretend betrachtet.
- Unabhängig codiert
- Die nachfolgende Parameterisierung kann angewandt werden zum unabhängigen Codieren des als Beispiel gewählten Stereosignals.
L(f,A) = (50,30), (100,50), (250,40), (500,40)
R(f,A) = (50,20), (100,60), (200,30), (500,35) - Diese Parameterisierung erfordert 16 Parameter.
- Verwendung von gemeinsamen Frequenzen und nicht gemeinsamen Frequenzen
- Gemeinsame Frequenzen sind 50 Hz, 100 Hz und 500 Hz. Um dieses Signal zu codieren:
(Fcom, Amax, ΔA) = (50,30,10), (100,60,-10), (500,40,5)
(Fnon-com, A) = (200,-30), (250,40) - Codierung des als Beispiel gewählten Stereo-Audiosignals unter Verwendung von gemeinsamen und nicht gemeinsamen Frequenzen erfordert 13 Parameter in diesem Beispiel. Im Vergleich zu dem unabhängig codierten Mehrkanalsignal reduziert die Verwendung von gemeinsamen Frequenzen die Anzahl Codierungsparameter. Weiterhin sind die Werte für die Delta-Amplitude niedriger als für die absoluten Amplituden, wie in dem unabhängig codieren Mehrkanalsignal gegeben. Dies reduziert weiterhin die Bitrate.
- Das Vorzeichen in der Delta-Amplitude ΔA bestimmt den vorherrschenden Kanal (zwischen zwei Signalen). In dem oben stehenden Beispiel bedeutet eine positive Amplitude, dass der linke Kanal vorherrschend ist. Das Vorzeichen kann auch in der nicht gemeinsamen Frequenzdarstellung benutzt werden um anzugeben, für welches Signal die Frequenz gültig ist. Dieselbe Vereinbarung wird hier angewandt: positiv ist links (vorherrschend). Es ist auf alternative Weise möglich, eine mittlere Amplitude in Kombination mit einer Differenzamplitude zu geben, oder übereinstimmend die Amplitude eines bestimmten Kanals mit einer Differenzamplitude gegenüber dem anderen Kanal.
- Statt der Verwendung des Vorzeichens in der Delta-Amplitude ΔA zum Ermitteln des vorherrschenden Kanals, ist es auch möglich, ein Bit in dem Bit-Strom zu verwenden um den vorherrschenden Kanal anzugeben. Dies erfordert 1 Bit, wird dies auch der Fall ist für das Vorzeichenbit. Dieses Bit wird in den Bit-Strom eingeschlossen und wird in dem Decoder verwendet. In dem Fall, dass ein Audiosignal mit mehr als zwei Kanälen codiert wird, ist mehr als nur 1 Bit erforderlich um den vorherrschenden Kanal anzugeben. Diese Implementierung ist eindeutig.
- Verwendung nur gemeinsamer Frequenzen
- Wenn nur eine Darstellung auf Basis gemeinsamer Frequenzen verwendet wird, werden die nicht gemeinsamen Frequenzen derart codiert, dass die Amplitude der gemeinsamen Frequenz in dem Kanal, in dem keine Sinuskurve bei der Frequenz auftritt, Null ist. In der Praxis kann ein Wert von beispielsweise +15 dB oder –15 dB für die Delta-Amplitude verwendet werden um anzugeben, dass keine Sinuskurve der aktuellen Frequenz in dem betreffenden Kanal vorhanden ist. Das Vorzeichen in der Delta-Amplitude ΔA bestimmt den vorherrschenden Kanal (zwischen zwei Signalen). In diesem Beispiel bedeutet eine positive Amplitude, dass der linke Kanal vorherrschend ist.
(Fcom, A, ΔA) = (50,30,10), (100,60,-10), (200,30,-15), (250,40,15), (500,40,5) - Diese Parameterisierung erfordert 15 Parameter. Für dieses Beispiel ist die Verwendung von nur gemeinsamen Frequenzen weniger vorteilhaft als die Verwendung von gemeinsamen und nicht gemeinsamen Frequenzen.
- Frequenzmittelwerte und -unterschiede
-
- (Fav, ΔF, Aav, ΔA) = (50,0,25,5), (100,0,55,-5), (225,25,35,5), (500,0,30,10)
- Diese Parameterisierung erfordert 16 Parameter.
- Dies ist eine alternative Codierung, wobei die sinusförmigen Komponenten in dem Signal durch mittlere Frequenzen und mittlere Amplituden dargestellt werden. Es dürfte einleuchten, dass auch im vergleich mit dieser Codierungsstrategie die Verwendung gemeinsamer Frequenzen vorteilhaft ist. Es sei bemerkt, dass die Verwendung von mittleren Frequenzen und mittleren Amplituden als eine einzelne Erfindung außerhalb des Rahmens der vorliegenden Patentanmeldung betrachtet werden kann.
- Es sei bemerkt, dass nicht unbedingt die Anzahl Parameter sondern vielmehr die Summe der Anzahl Bits je Parameter für die Bitrate des resultierenden codierten Audio-Stroms wichtig ist. In dieser Hinsicht schafft eine differenzielle Codierung meistens eine Bitratenreduktion für korrelierte Signalanteile.
- Die Darstellung mit einem gemeinsamen Frequenzparameter und betreffenden Amplituden (und ggf. betreffenden Phasen) kann als eine Mono-Darstellung betrachtet werden, gefangen in der gemeinsamen Frequenz, der mittleren oder maximalen Amplitude, der Phase der mittleren oder maximalen Amplitude (ggf.) und einer Mehrkanalerweiterung der Parameter, gefangen in der Delta-Amplitude und Delta-Phase (ggf.) der Parameter. Die Mono-Parameter können als Standardparameter behandelt werden, die man in einem Mono- Sinus-Codierer erhalten würde. Auf diese Weise können diese Mono-Parameter verwendet werden zum Schaffen von Kopplungen zwischen Sinuskurven in aufeinander folgenden Frames, zum differentiellen Codieren von Parametern entsprechend diesen Kopplungen und zum Durchführen von Phasenfortsetzung. Die zusätzlichen Mehrkanal-Parameter können entsprechend den oben genannten Strategien codiert werden, die weiterhin binaurale Höreigenschaften ausnutzen. Die Delta-Parameter (Delta-Amplitude und Delta-Phase) können auch differenziell codiert werden, und zwar auf Basis der Kopplungen, die auf Basis der Mono-Parameter gemacht worden sind. Weiterhin können zum Schaffen eines skalierbaren Bitstroms die Mono-Parameter in eine Basisschicht eingeschlossen werden, während die Mehrkanal-Parameter in eine Verbesserungsschicht eingeschlossen werden.
- In der Spur der Mono-Komponenten ist die Kostenfunktion (oder die Gemeinsamkeitsmaßnahme) eine Kombination der Kosten für die Frequenz, der Kosten für die Amplitude und (ggf.) der Kosten für die Phase. Für Stereo-Komponenten kann die Kostenfunktion eine Kombination der Kosten für die gemeinsame Frequenz, der Kosten für die mittlere oder maximale Amplitude, der Kosten für die Phase, der Kosten für die Delta-Amplitude und der Kosten für die Delta-Phase sein. Auf alternative Weise kann man für die Kostenfunktion für Stereo-Komponenten Folgendes verwenden: die gemeinsame Frequenz, die betreffenden Amplituden und die betreffenden Phasen.
- Auf vorteilhafte Weise wird die Sinus-Parameterisierung, wobei eine gemeinsame Frequenz und eine Darstellung der betreffenden Amplituden dieser Frequenz in den betreffenden Kanälen verwendet werden, mit einer Mono-Übergangsparameterisierung verwendet, wie in WO 01/69593-A1 beschrieben. Diese kann weiterhin mit einer Mono-Darstellung für das Rauschen kombiniert werden, wie in WO 01/88904 beschrieben.
- Obschon die meisten oben beschriebenen Ausführungsformen sich auf Zweikanal-Audiosignale beziehen, ist die Erweiterung auf Drei- oder Mehrkanal-Audiosignale einfach.
- Hinzufügung eines zusätzlichen Kanals zu einem bereits codierten Audiosignal kann auf vorteilhafte Weise wie folgt geschehen: es reicht in dem codierten Audiosignal zu identifizieren, dass ein zusätzlicher Kanal vorhanden ist und zu dem codierten Audiosignal eine Darstellung der Amplituden der gemeinsamen Frequenz in dem zusätzlichen Kanal und eine Darstellung der nicht gemeinsamen Frequenzen hinzuzufügen. Phaseninformation kann ggf. auch in das codierte Audiosignal eingeschlossen werden.
- In einer praktischen Ausführungsform werden die mittlere oder maximale Amplitude und die mittlere Phase der größten Amplitude bei einer gemeinsamen Frequenz auf gleiche Weise wie bei der betreffenden Quantisierung der Delta-Amplitude und der Delta-Phase bei der gemeinsamen Frequenz für den anderen Kanal (die anderen Kanäle) quantisiert. Praktische Werte für die Quantisierung sind:
Gemeinsame Frequenz Auflösung von 0,5% Amplitude, Delta-Amplitude Auflösung von 1 dB Phase, Delta-Phase Auflösung von 0,25 rad - Die vorgeschlagene Mehrkanal-Audiocodierung schafft eine Reduktion der Bitrate, und zwar im Vergleich zu der Codierung der Kanäle, unabhängig voneinander.
-
4 zeigt ein System nach einer Ausführungsform der vorliegenden Erfindung. Das System umfasst ein Gerät1 zum Übertragen oder zum Speichern eines codierten Audiosignals [S]. Das Gerät1 umfasst einen Eingang10 zum Empfangen eines wenigstens Zweikanal-Audiosignals S. Die Eingangseinheit10 kann eine Antenne, ein Mikrophon, eine Netzwerkverbindung usw. sein. Das Gerät1 umfasst weiterhin den Codierer11 , wie in -
1 dargestellt, zur Codierung des Audiosignals S zum Erhalten eines codierten Audiosignals mit einer Parameterisierung nach der vorliegenden Erfindung, beispielsweise (fcom, Aav, ΔA) or (fcom, Amax, ΔA). Die codierte Audiosignal-Parameterisierung wird einer Ausgangseinheit12 zugeführt, die das codierte Audiosignal in ein geeignetes Format [S] zur Übertragung über ein Übertragungsmedium bzw. Speicherung in einem Speichermedium2 transformiert. Das System umfasst weiterhin einen Empfänger oder einen Wiedergabeapparat3 , der das codierte Audiosignal [S] in einer Eingangseinheit30 empfängt. Die Eingangseinheit30 extrahiert aus dem codierten Audiosignal [S] die Parameter (fcom, Aav, ΔA) or (fcom, Amax, ΔA). Diese Parameter werden einem Decoder31 zugeführt, der auf Basis der empfangenen Parameter durch Erzeugung der gemeinsamen Frequenzen mit den betreffenden Amplituden zum Erhalten der zwei Kanäle L und R des decodierten Audiosignals S' ein decodiertes Audiosignal synthetisiert. Die zwei Kanäle L und R werden einer Ausgangseinheit32 zugeführt, die das decodierte Audiosignal S' liefert. Die Ausgangseinheit32 kann eine Wiedergabeanordnung, wie ein Lautsprecher zur Wiedergabe des decodierten Audiosignals S' sein. Die Ausgangseinheit32 kann auch ein Sender sein zur weiteren Übertragung des decodierten Audiosignals S', beispielsweise über ein Heimnetzwerk, usw. - Es sei bemerkt, dass die oben genannten Ausführungsformen die vorliegende Erfindung illustrieren statt begrenzen, und dass der Fachmann imstande sein wird, im Rahmen der beiliegenden Patentansprüche viele alternative Ausführungsformen zu entwerfen. In den Patentansprüchen sollen eingeklammerte Bezugszeichen nicht als den Anspruch begrenzend betrachtet werden. Das Wort "umfassen" schließt das Vorhandensein anderer Elemente oder Schritte als die in dem Anspruch genannten nicht aus. Die vorliegende Erfindung kann mit Hilfe von Hardware mit verschiedenen Elementen, und mit Hilfe eines auf geeignete Art und Weise programmierten Computers implementiert werden. In einem Vorrichtungsanspruch mit verschiedenen Mitteln können mehrere dieser Mittel von ein und demselben Hardware-Item verkörpert werden. Die Tatsache, dass bestimmte Maßnahmen in untereinander verschiedenen Unteransprüchen genannt werden, bedeutet nicht, dass eine Kombination dieser Maßnahmen nicht mit Vorteil angewandt werden kann.
Claims (25)
- Verfahren zum Codieren (
11 ) eines wenigstens Zweikanal-Audiosignals (L,R), wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Bestimmen (110 ) gemeinsamer Frequenzen in den wenigstens zwei Kanälen (L,R) des Audiosignals, wobei diese gemeinsamen Frequenzen in wenigstens zwei der wenigstens zwei Kanäle des Audiosignals auftreten, und – das Darstellen (111 ) betreffender sinusförmiger Anteile in den betreffenden Kanälen bei einer bestimmten Frequenz durch eine Darstellung der bestimmten gemeinsamen Frequenz (fcom) und eine Darstellung der betreffenden Amplituden (A, ΔA) der betreffenden sinusförmigen Anteile bei der betreffenden gemeinsamen Frequenz. - Verfahren zum Codieren nach Anspruch 1, wobei die Darstellung der betreffenden Amplituden (A, ΔA) eine mittlere Amplitude (A) und eine Differenzamplitude (ΔA) aufweist.
- Verfahren zum Codieren nach Anspruch 1, wobei die Darstellung der betreffenden Amplituden (A, ΔA) eine maximale Amplitude (A) und eine Differenzamplitude (ΔA) aufweist.
- Verfahren zum Codieren nach Anspruch 1, wobei nicht gemeinsame Frequenzen als gemeinsame Frequenzen codiert werden, wobei die Amplitudendarstellung eine Angabe umfasst zum Angeben des wenigstens einen Kanals, in dem die Frequenz nicht auftritt.
- Verfahren zum Codieren nach Anspruch 1, wobei zusätzlich zu den gemeinsamen Frequenzen, nicht gemeinsame Frequenzen unabhängig codiert werden.
- Verfahren nach Anspruch 5, wobei die nicht gemeinsamen Frequenzen in dem codierten Audiostrom in einem separaten Block gruppiert werden.
- Verfahren nach Anspruch 6, wobei die gemeinsamen Frequenzen gruppiert werden und in dem codierten Audiosignal vor dem Block nicht gemeinsamer Frequenzen eingeschlossen werden.
- Verfahren nach Anspruch 6, wobei die Parameter der sinusförmigen Anteile mit den gemeinsamen Frequenzen in einer Basisschicht eingeschlossen sind und die Parameter der Sinuskurven mit nicht gemeinsamen Frequenzen in einer Anreicherungsschicht eingeschlossen sind.
- Verfahren nach Anspruch 1, wobei das Verfahren den nachfolgenden Schritt umfasst: das Kombinieren der Leistungs- bzw. Energiedarstellung der wenigstens zwei Kanäle zum Erhalten einer gemeinsamen Darstellung und wobei der Schritt der Bestimmung der gemeinsamen Frequenzen auf Basis der gemeinsamen Darstellung durchgeführt wird.
- Verfahren nach Anspruch 9, wobei der Kombinierschritt das Hinzufügen von Leistungsspektren der wenigstens zwei Kanäle umfasst und wobei die gemeinsame Darstellung ein gemeinsames Leistungsspektrum ist.
- Verfahren nach Anspruch 1, wobei Frequenz- und Amplitudenparameter in einer Basisschicht vorgesehen sind und die Deltaamplitude in einer Anreicherungsschicht vorgesehen ist.
- Verfahren nach Anspruch 1, wobei die betreffenden Phasen der betreffenden Sinuskurven bei der gestimmten gemeinsamen Frequenz bestimmt werden und wobei eine Darstellung der betreffenden Phasen in dem codierten Audiosignal eingeschlossen ist.
- Verfahren nach Anspruch 12, wobei die Darstellung der betreffenden Phasen eine mittlere Phase und eine Differenzphase umfasst.
- Verfahren nach Anspruch 12, wobei die Darstellung der betreffenden Phasen eine Phase des Kanals mit einer größten Amplitude und einer Differenzphase umfasst.
- Verfahren nach Anspruch 12, wobei die Darstellung der betreffenden Phasen nur in dem Signal für Sinuskurven mit einer Frequenz bis zu einer bestimmten Schwellenfrequenz eingeschlossen sind.
- Verfahren nach Anspruch 15, wobei die bestimmte Schwellenfrequenz etwa 2 kHz beträgt.
- Verfahren nach Anspruch 12, wobei die Darstellung der betreffenden Phasen nur in dem Signal für Sinuskurven mit einer Amplitudendifferenz mit wenigstens einem der anderen Kanäle bis zu einer bestimmten Amplitudenschwelle eingeschlossen ist.
- Verfahren nach Anspruch 17, wobei die bestimmte Amplitudenschwelle 10 dB beträgt.
- Codierer (
11 ) zum Codieren eines wenigstens Zweikanal-Audiosignals (L,R), wobei der Codierer Folgendes umfasst: – Mittel (110 ) zum Bestimmen gemeinsamer Frequenzen (fcom) in den wenigstens zwei Kanälen (L,R) des Audiosignals, wobei die gemeinsamen Frequenzen in wenigstens zwei der wenigstens zwei Kanäle des Audiosignals auftreten, und – Mittel (111 ) zum Darstellen betreffender sinusförmiger Anteile in den betreffenden Kanälen mit einer bestimmten gemeinsamen Frequenz durch eine Darstellung der bestimmten gemeinsamen Frequenz (fcom) und durch eine Darstellung der betreffenden Amplituden (A, ΔA) der betreffenden sinusförmigen Anteile mit der bestimmten gemeinsamen Frequenz. - Anordnung (
1 ) zum Übertragen oder Aufzeichnen, wobei die Anordnung Folgendes umfasst: – eine Eingangseinheit (10 ) zum Empfangen eines wenigstens Zweikanal (L,R)-Audiosignals (S), – einen Codierer (11 ) nach Anspruch 19 zum Codieren des Audiosignals (S) zum Erhalten eines codierten Audiosignals ([S]), und – eine Ausgangseinheit zum Liefern des codierten Audiosignals ([S]). - Codiertes Audiosignal ([S]), das ein wenigstens Zweikanal-Audiosignal (L,R) darstellt, wobei das codierte Audiosignal Folgendes umfasst: – Darstellungen von gemeinsamen Frequenzen (fcom), wobei diese gemeinsamen Frequenzen Frequenzen darstellen, die in wenigstens zwei der wenigstens zwei Kanäle des Audiosignals (S) auftreten, und – für eine bestimmte gemeinsame Frequenz (fcom) eine Darstellung der betreffenden Amplituden (A,ΔA), die betreffende sinusförmige Anteile in den betreffenden Kanälen mit der bestimmten gemeinsamen Frequenz darstellen.
- Speichermedium (
2 ), auf dem ein Signal gespeichert ist, wie in Anspruch 21 beansprucht. - Verfahren zum Decodieren (
31 ) eines codierten Audiosignals ([S]), wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Empfangen (31 ) des codierten Audiosignals ([S]), das ein wenigstens Zweikanal-Audiosignal ((L,R) darstellt, wobei das codierte Audiosignal Darstellungen von gemeinsamen Frequenzen (fcom) aufweist, wobei diese gemeinsamen Frequenzen Frequenzen darstellen, die in wenigstens zwei der wenigstens zwei Kanäle des Audiosignals (S) auftreten, und für eine bestimmte gemeinsame Frequenz (fcom), eine Darstellung der betreffenden Amplituden (A,ΔA), die betreffende sinusförmige Komponenten in betreffenden Kanälen mit der bestimmten gemeinsamen Frequenz darstellen, und – das Erzeugen (31 ) der gemeinsamen Frequenzen mit den betreffenden Amplituden in den wenigstens zwei Kanälen (L,R) zum Erhalten eines decodierten Audiosignals (S'). - Decoder (
31 ) zum Decodieren eines codierten Audiosignals ([S]), wobei der Decoder Folgendes umfasst: – Mittel (31 ) zum Empfangen des codierten Audiosignals ([S]), das ein wenigstens Zweikanal-Audiosignal (L,R) aufweist, wobei das codierte Audiosignal Darstellungen gemeinsamer Frequenzen (fcom) aufweist, wobei diese gemeinsamen Frequenzen Frequenzen darstellen, die in wenigstens zwei der wenigstens zwei Kanäle des Audiosignals (S) auftreten, und für eine bestimmte gemeinsame Frequenz (fcom), eine Darstellung betreffender Amplituden (A, ΔA), die betreffende sinusförmige Anteile in den betreffenden Kanälen mit der bestimmten gemeinsamen Frequenz darstellen, und – Mittel (31 ) zum Erzeugen der gemeinsamen Frequenzen mit den betreffenden Amplituden in den wenigstens zwei Kanälen (L,R) zum Erhalten eines decodierten Audiosignals (S'). - Empfänger oder Wiedergabeanordnung (
3 ), wobei das Gerät Folgendes umfasst: – eine Eingangseinheit (30 ) zum Empfangen eines codierten Audiosignals ([S]), – einen Decoder (31 ) nach Anspruch 24 zum Decodieren des codierten Audiosignals ([S]) zum Erhalten eines decodierten Audiosignals (S'), und – eine Ausgangseinheit (32 ) zum Liefern des decodierten Audiosignals (S').
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02075639 | 2002-02-18 | ||
EP02075639 | 2002-02-18 | ||
PCT/IB2003/000108 WO2003069954A2 (en) | 2002-02-18 | 2003-01-17 | Parametric audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60303209D1 DE60303209D1 (de) | 2006-04-06 |
DE60303209T2 true DE60303209T2 (de) | 2006-08-31 |
Family
ID=27675723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60303209T Expired - Lifetime DE60303209T2 (de) | 2002-02-18 | 2003-01-17 | Parametrische audiocodierung |
Country Status (10)
Country | Link |
---|---|
US (1) | US20050078832A1 (de) |
EP (1) | EP1479071B1 (de) |
JP (1) | JP4347698B2 (de) |
KR (1) | KR20040080003A (de) |
CN (1) | CN1705980A (de) |
AT (1) | ATE315823T1 (de) |
AU (1) | AU2003201097A1 (de) |
DE (1) | DE60303209T2 (de) |
ES (1) | ES2255678T3 (de) |
WO (1) | WO2003069954A2 (de) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7583805B2 (en) | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
SE527866C2 (sv) * | 2003-12-19 | 2006-06-27 | Ericsson Telefon Ab L M | Kanalsignalmaskering i multikanalsaudiosystem |
US7835916B2 (en) | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
AU2012208987B2 (en) * | 2004-03-01 | 2012-12-20 | Dolby Laboratories Licensing Corporation | Multichannel Audio Coding |
CA2808226C (en) * | 2004-03-01 | 2016-07-19 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
ATE527654T1 (de) | 2004-03-01 | 2011-10-15 | Dolby Lab Licensing Corp | Mehrkanal-audiodecodierung |
US7805313B2 (en) | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
WO2006000842A1 (en) * | 2004-05-28 | 2006-01-05 | Nokia Corporation | Multichannel audio extension |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
JPWO2006059567A1 (ja) * | 2004-11-30 | 2008-06-05 | 松下電器産業株式会社 | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 |
EP1817767B1 (de) | 2004-11-30 | 2015-11-11 | Agere Systems Inc. | Parametrische raumtonkodierung mit objektbasierten nebeninformationen |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
US7761304B2 (en) | 2004-11-30 | 2010-07-20 | Agere Systems Inc. | Synchronizing parametric coding of spatial audio with externally provided downmix |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
DE602006002501D1 (de) * | 2005-03-30 | 2008-10-09 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
KR101251426B1 (ko) | 2005-06-03 | 2013-04-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법 |
EP1905008A2 (de) * | 2005-07-06 | 2008-04-02 | Koninklijke Philips Electronics N.V. | Parametrische multikanal-dekodierung |
EP1912206B1 (de) * | 2005-08-31 | 2013-01-09 | Panasonic Corporation | Stereokodiereinrichtung, stereodekodiereinrichtung und streokodierverfahren |
KR20080073925A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
KR20090008611A (ko) * | 2007-07-18 | 2009-01-22 | 삼성전자주식회사 | 오디오 신호의 인코딩 방법 및 장치 |
KR101346771B1 (ko) * | 2007-08-16 | 2013-12-31 | 삼성전자주식회사 | 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치 |
US8385556B1 (en) | 2007-08-17 | 2013-02-26 | Dts, Inc. | Parametric stereo conversion system and method |
KR101425354B1 (ko) * | 2007-08-28 | 2014-08-06 | 삼성전자주식회사 | 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치 |
KR101433701B1 (ko) | 2009-03-17 | 2014-08-28 | 돌비 인터네셔널 에이비 | 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
FR2966634A1 (fr) * | 2010-10-22 | 2012-04-27 | France Telecom | Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase |
US9601122B2 (en) | 2012-06-14 | 2017-03-21 | Dolby International Ab | Smooth configuration switching for multichannel audio |
WO2017064264A1 (en) * | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
EP3467824B1 (de) * | 2017-10-03 | 2021-04-21 | Dolby Laboratories Licensing Corporation | Verfahren und system zur codierung zwischen kanälen |
CN112216301B (zh) * | 2020-11-17 | 2022-04-29 | 东南大学 | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3732375A (en) * | 1969-01-24 | 1973-05-08 | Nippon Electric Co | Paired signal transmission system utilizing quadrature modulation |
US4124779A (en) * | 1977-09-12 | 1978-11-07 | Stephen Berens | Dual channel communications system particularly adapted for the AM broadcast band |
US4490840A (en) * | 1982-03-30 | 1984-12-25 | Jones Joseph M | Oral sound analysis method and apparatus for determining voice, speech and perceptual styles |
US4852175A (en) * | 1988-02-03 | 1989-07-25 | Siemens Hearing Instr Inc | Hearing aid signal-processing system |
US5031230A (en) * | 1988-10-24 | 1991-07-09 | Simulcomm Partnership | Frequency, phase and modulation control system which is especially useful in simulcast transmission systems |
US5341457A (en) * | 1988-12-30 | 1994-08-23 | At&T Bell Laboratories | Perceptual coding of audio signals |
CA2085887A1 (en) * | 1990-06-21 | 1991-12-22 | Kentyn Reynolds | Method and apparatus for wave analysis and event recognition |
JP3099892B2 (ja) * | 1990-10-19 | 2000-10-16 | リーダー電子株式会社 | ステレオ信号の位相関係判定に使用する方法及び装置 |
US5214708A (en) * | 1991-12-16 | 1993-05-25 | Mceachern Robert H | Speech information extractor |
DE4209544A1 (de) * | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
US5586126A (en) * | 1993-12-30 | 1996-12-17 | Yoder; John | Sample amplitude error detection and correction apparatus and method for use with a low information content signal |
WO1996032710A1 (en) * | 1995-04-10 | 1996-10-17 | Corporate Computer Systems, Inc. | System for compression and decompression of audio signals for digital transmission |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
GB2319379A (en) * | 1996-11-18 | 1998-05-20 | Secr Defence | Speech processing system |
JP3415398B2 (ja) * | 1997-08-07 | 2003-06-09 | パイオニア株式会社 | 音声信号処理装置 |
US6081777A (en) * | 1998-09-21 | 2000-06-27 | Lockheed Martin Corporation | Enhancement of speech signals transmitted over a vocoder channel |
US6463415B2 (en) * | 1999-08-31 | 2002-10-08 | Accenture Llp | 69voice authentication system and method for regulating border crossing |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
FI113147B (fi) * | 2000-09-29 | 2004-02-27 | Nokia Corp | Menetelmä ja signaalinkäsittelylaite stereosignaalien muuntamiseksi kuulokekuuntelua varten |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
-
2003
- 2003-01-17 CN CNA03804062XA patent/CN1705980A/zh active Pending
- 2003-01-17 KR KR10-2004-7012688A patent/KR20040080003A/ko not_active Application Discontinuation
- 2003-01-17 DE DE60303209T patent/DE60303209T2/de not_active Expired - Lifetime
- 2003-01-17 US US10/504,658 patent/US20050078832A1/en not_active Abandoned
- 2003-01-17 JP JP2003568933A patent/JP4347698B2/ja not_active Expired - Fee Related
- 2003-01-17 WO PCT/IB2003/000108 patent/WO2003069954A2/en active IP Right Grant
- 2003-01-17 EP EP03739586A patent/EP1479071B1/de not_active Expired - Lifetime
- 2003-01-17 AU AU2003201097A patent/AU2003201097A1/en not_active Abandoned
- 2003-01-17 ES ES03739586T patent/ES2255678T3/es not_active Expired - Lifetime
- 2003-01-17 AT AT03739586T patent/ATE315823T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20040080003A (ko) | 2004-09-16 |
JP4347698B2 (ja) | 2009-10-21 |
EP1479071B1 (de) | 2006-01-11 |
WO2003069954A3 (en) | 2003-11-13 |
ES2255678T3 (es) | 2006-07-01 |
CN1705980A (zh) | 2005-12-07 |
JP2005517987A (ja) | 2005-06-16 |
AU2003201097A8 (en) | 2003-09-04 |
AU2003201097A1 (en) | 2003-09-04 |
US20050078832A1 (en) | 2005-04-14 |
EP1479071A2 (de) | 2004-11-24 |
ATE315823T1 (de) | 2006-02-15 |
WO2003069954A2 (en) | 2003-08-21 |
DE60303209D1 (de) | 2006-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60303209T2 (de) | Parametrische audiocodierung | |
DE69927505T2 (de) | Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom | |
DE19730129C2 (de) | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals | |
DE69731677T2 (de) | Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung | |
EP0954909B1 (de) | Verfahren zum codieren eines audiosignals | |
EP1687809B1 (de) | Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür | |
DE60311794T2 (de) | Signalsynthese | |
DE602005006424T2 (de) | Stereokompatible mehrkanal-audiokodierung | |
DE602004007945T2 (de) | Codierung von audiosignalen | |
DE102004009954B4 (de) | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals | |
DE602006000239T2 (de) | Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter | |
DE602004002390T2 (de) | Audiocodierung | |
DE60306512T2 (de) | Parametrische beschreibung von mehrkanal-audio | |
DE60225276T2 (de) | Codierungsvorrichtung und -verfahren, decodierungsvorrichtung und -verfahren und programm | |
DE69810361T2 (de) | Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung | |
EP2240929B1 (de) | Vorrichtung und verfahren zum synchronisieren von mehrkanalerweiterungsdaten mit einem audiosignal und zum verarbeiten des audiosignals | |
DE4320990B4 (de) | Verfahren zur Redundanzreduktion | |
DE69333394T2 (de) | Hochwirksames Kodierverfahren und -gerät | |
EP1953739B1 (de) | Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal | |
EP2240928B1 (de) | Vorrichtung und verfahren zum berechnen eines fingerabdrucks eines audiosignals, vorrichtung und verfahren zum synchronisieren und vorrichtung und verfahren zum charakterisieren eines testaudiosignals | |
DE69826529T2 (de) | Schnelle datenrahmen-optimierung in einem audio-kodierer | |
EP2062254B1 (de) | Steganographie in digitalen signal-codierern | |
DE102005014477A1 (de) | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung | |
DE19811039A1 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
DE69932861T2 (de) | Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: IPG ELECTRONICS 503 LTD., ST. PETER PORT, GUER, GB |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: PATENTANWAELTE BRESSEL UND PARTNER, 12489 BERLIN |
|
R081 | Change of applicant/patentee |
Ref document number: 1479071 Country of ref document: EP Owner name: PENDRAGON WIRELESS LLC (A NEVADA MANAGED LIMIT, US Free format text: FORMER OWNER: IPG ELECTRONICS 503 LTD., ST. PETER PORT, GB Effective date: 20121213 |
|
R082 | Change of representative |
Ref document number: 1479071 Country of ref document: EP Representative=s name: PATENTANWAELTE BRESSEL UND PARTNER, DE Effective date: 20121213 |