DE60318835T2 - Parametrische darstellung von raumklang - Google Patents

Parametrische darstellung von raumklang Download PDF

Info

Publication number
DE60318835T2
DE60318835T2 DE2003618835 DE60318835T DE60318835T2 DE 60318835 T2 DE60318835 T2 DE 60318835T2 DE 2003618835 DE2003618835 DE 2003618835 DE 60318835 T DE60318835 T DE 60318835T DE 60318835 T2 DE60318835 T2 DE 60318835T2
Authority
DE
Germany
Prior art keywords
signal
spatial
parameter
parameters
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE2003618835
Other languages
English (en)
Other versions
DE60318835D1 (de
Inventor
Dirk J. Breebaart
Steven L. Van De Par
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29255420&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60318835(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60318835D1 publication Critical patent/DE60318835D1/de
Application granted granted Critical
Publication of DE60318835T2 publication Critical patent/DE60318835T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereo-Broadcasting Methods (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf die Codierung von Audiosignalen, insbesondere auf die Codierung von Mehrkanal-Audiosignalen.
  • Im Bereich der Audiocodierung ist es im Allgemeinen erwünscht, ein Audiosignal zu codieren, beispielsweise zum Reduzieren der Bitrate zur Kommunikation des Signals oder der Speicheranforderung zur Speicherung des Signals, ohne dass dabei die perzeptuelle Qualität des Audiosignals übermäßig beeinträchtigt wird. Dies ist ein wichtiger Punkt, wenn Audiosignale über Kommunikationskanäle begrenzter Kapazität übertragen werden müssen oder auf einem Speichermedium begrenzter Kapazität gespeichert werden müssen.
  • Bisherige Lösungen bei Audiocodierern die zur Reduktion der Bitrate von Stereo-Programmmaterial vorgeschlagen wurden, umfassen:
    • – "Intensitäts-Stereo". In diesem Algorithmus werden hohe Frequenzen (typischerweise über 5 kHz) durch ein einzelnes Audiosignal (d. h. Mono) dargestellt, und zwar kombiniert mit zeitvariablen und frequenzabhängigen Skalierungsfaktoren.
    • – "M/S Stereo". In diesem Algorithmus wird das Signal in ein Summensignal (oder Mittensignal oder gemeinsames Signal) und ein Differenzsignal (oder Nebensignal, oder nicht gemeinsames Signal) zerlegt. Diese Zerlegung wird manchmal mit einer Basisanteilanalyse oder zeitvariablen Skalierungsfaktoren kombiniert. Diese Signale werden danach unabhängig codiert, entweder durch einen Transformationscodierer oder durch einen Wellenformcodierer. Der Betrag an Informationsreduktion, erreicht durch diesen Algorithmus, ist stark abhängig von den räumlichen Eigenschaften des Quellenmaterials. Wenn beispielsweise das Quellenmaterial Mono ist, ist das Differenzsignal Null und kann abgelegt werden. Wenn aber die Korrelation des linken und des rechten Audiosignals niedrig ist (was oft der Fall ist), bietet dieses Schema nur wenig Vorteil.
  • Parametrische Beschreibungen von Audiosignalen sind in den letzten Jahren interessant geworden, insbesondere in dem Bereich der Audiocodierung. Es hat sich herausgestellt, dass Übertragung (quantisierter) Parameter, die Audiosignale beschreiben, nut wenig Übertragungskapazität erfordern um ein perzeptuell gleiches Signal am empfangenden Ende neu aufzubauen. Aktuelle parametrische Audiocodierer aber richten sich auf die Codierung von Monosignalen, und Stereosignale werden oft als doppelt mono verarbeitet.
  • Die Europäische Patentanmeldung EP 1 107 232 beschreibt ein Verfahren zum Codieren eines Stereosignals mit einem L und einem R Anteil, wobei das Stereosignal durch einen der Stereoanteile und die parametrische Informationserfassungsphase und Pegeldifferenzen des Audiosignals dargestellt wird. Beim Decoder wird der andere Stereoanteil auf Basis des codierten Stereoanteils und die parametrische Information wieder hergestellt.
  • Der Artikel "Efficient representation of spatial audio using perceptual parametrization" (Faller C u. a. "Proceedings of the 2001 IEEE Workshop an the Applications of Signal Processing to Audio and Acoustics") beschreibt die Erzeugung eines binauralen Signals durch räumliche Aufstellung der Quellen in einem monophonen Summensignal, wobei die Aufstellung auf einem Satz räumlicher Parameter in kritischen Bändern basiert. Der Artikel "Subband coding of stereophonic digital audio signals" (Van der Wall R G u. a., IEEE ICASSP 1991) beschreibt die Benutzung der Links-Rechtskorrelation in einem Teilbandcodec.
  • Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, das Problem der Lieferung einer verbesserten Audiocodierung zu lösen, wobei eine hohe perzeptuelle Qualität des wiederhergestellten Signals erhalten wird.
  • Das oben stehende und andere Probleme werden gelöst durch ein Verfahren zum Codieren eines Audiosignals, wie in Anspruch 1 definiert.
  • Der Erfinder hat erkannt, dass durch Codierung eines Mahrkanal-Audiosignals, wie eines Mono-Audiosignals und einer Anzahl räumlicher Attribute mit einem Maß der Gleichheit der entsprechenden Wellenformen, das Mehrkanalsignal mit einer hohen perzeptuellen Qualität wiederhergestellt werden kann. Es ist ein weiterer Vorteil der vorliegenden Erfindung, dass diese eine effiziente Codierung eines Mehrkanalsignals schafft, d. h. eines Signals mit wenigstens einem ersten und einem zweiten Kanal, beispielsweise eines Stereosignals, eines quadrophonischen Signals, usw.
  • Folglich werden nach einem Aspekt der vorliegenden Erfindung räumliche Attribute von Mehrkanal-Audiosignalen parameterisiert. Für allgemeine Audio-Codierungsapplikationen reduziert die Übertragung dieser Parameter in Kombination mit nur einem einzigen Mono-Audiosignal die Übertragungskapazität, die notwendig ist um das Stereosignal zu übertragen im vergleich zu Audiocodierern, welche die Kanäle unabhängig voneinander verarbeiten, wesentlich, während der ursprüngliche räumliche Eindruck beibe halten wird. Ein wichtiger Punkt ist, dass obschon Menschen Wellenformen eines das Gehör betreffenden Projektes zweimal empfangen (einmal im linken Ohr und einmal im rechten Ohr), wird nur ein einziges das Gehör betreffendes Objekt an einer bestimmten Stelle und mit einer bestimmten Größe (oder mit einer räumlichen Unschärfe) erfahren.
  • Deswegen scheint es nicht notwendig, Audiosignale als zwei oder mehr (unabhängige) Wellenformen zu beschreiben und es wäre besser, Mehrkanal-Audio als einen Satz das Gehör betreffender Objekte, mit je einer eigenen räumlichen Eigenschaft, zu beschreiben. Eine unmittelbar auftretende Schwierigkeit ist die Tatsache, dass es fast unmöglich ist, einzelne das Gehör betreffende Objekte automatisch von einem bestimmten Gebilde das Gehör betreffender Objekte, beispielsweise einer Musikaufzeichnung, zu trennen. Dieses Problem kann dadurch umgangen werden, dass das Programmmaterial nicht in einzelne das Gehör betreffende Objekte aufgeteilt wird, sondern dass stattdessen die räumlichen Parameter in einer Art und Weise beschrieben werden, welche die effektive (periphere) Verarbeitung des akustischen Systems ähnlich ist. Wenn die räumlichen Attribute ein Maß von Gleichheit/Ungleichheit der entsprechenden Wellenformen aufweisen, wird eine effiziente Codierung erreicht, während ein hoher Pegel der perzeptuellen Qualität beibehalten wird.
  • Insbesondere bezieht sich die hier präsentierte parametrische Beschreibung von Mehrkanal-Audio auf das von Breebaart u. a. präsentierte binaurale Verarbeitungsmodell. Dieses Modell bezweckt die Beschreibung der effektiven Signalverarbeitung des binauralen akustischen Systems. Für eine Beschreibung des binauralen Verarbeitungsmodells durch Breebaart u. a. siehe: Breebaart, j., van de Par, S und Kohlrausch, A. (2001a). "Binaural Processing model based an contralateral inhibition. I. Model setup." "J. Acoust. Soc. Am., 110, 1074–1088; Breebaart, J., van de Par, S. und Kohlrausch, A. (2001b). "Binaural Processing model based an contralateral inhibition. II. "Dependance an spectral Parameters", J. Acoust. Soc. Am., 110, 1089–1104; und Breebaart, j., van de Par, S. und Kohlrausch, A. (2001c). "Binaural Processing model based an contralateral inhibition III. Dependance an temporal Parameters", J. Acoust. Soc. Am., 110, 1105–1117. Nachstehend folgt ein kurzer Eindruck, als Hilfe zum Verständnis der vorliegenden Erfindung.
  • In einer bevorzugten Ausführungsform umfasst der Satz räumlicher Parameter wenigstens einen Ortsbestimmungshinweis. Wenn die räumlichen Attribute einen oder mehrere, vorzugsweise zwei Ortsbestimmungshinweise sowie ein Maß der Gleichheit/Un gleichheit der entsprechenden Wellenformen aufweisen, wird eine besonders effiziente Codierung erreicht, während ein besonders hoher Pegel der perzeptuellen Qualität beibehalten wird.
  • Der Term Ortungshinweis umfasst jeden geeigneten Parameter, der Information über die Ortsbestimmung von akustischen Objekten befördert, die zu dem Audiosignal beitragen, beispielsweise die Orientierung eines akustischen Objektes und/oder der Abstand von demselben.
  • In einer bevorzugten Ausführungsform der vorliegenden Erfindung umfasst der Satz räumlicher Parameter wenigstens zwei Ortsbestimmungshinweise, die eine Zwischenkanalpegeldifferenz (ILD) und eine Zwischenkanalzweitdifferenz (ITD) oder eine Zwischenkanalphasendifferenz (IPD) aufweisen. Interessant ist zu erwähnen, dass die Zwischenkanalpegeldifferenz und die Zwischenkanalzeitdifferenz als die wichtigsten Ortsbestimmungshinweise in der horizontalen Ebene betrachtet werden.
  • Das Maß der Gleichheit der Wellenformen, die dem ersten und dem zweiten Audiokanal entsprechen, entspricht einem Wert einer Kreuzkorrelationsfunktion bei einem Maximum der genannten Kreuzkorrelationsfunktion (auch als Kohärenz bekannt). Die maximale Zwischenkanalkreuzkorrelation ist stark relatiert an die perzeptuelle räumliche Diffusheit (oder Kompaktheit) einer Schallquelle, d. h. es wird zusätzliche Information geliefert, die nicht den oben genannten Ortsbestimmungshinweisen zugerechnet werden kann, wodurch ein Satz Parameter mit einem niedrigen Grad der Redundanz der dadurch beförderten Information geschaffen wird, wodurch auf diese Weise eine effiziente Codierung entsteht.
  • Nach einer bevorzugten Ausführungsform der vorliegenden Erfindung umfasst der Verfahrensschritt der Ermittlung eines Satzes räumlicher Parameter, hindeutend auf räumliche Eigenschaften, die Ermittlung eines Satzes räumlicher Parameter als eine Funktion der Zeit und der Frequenz.
  • Es ist eine Erkenntnis der vorliegenden Erfindung, dass es ausreicht, räumliche Attribute jedes beliebigen Mehrkanal-Audiosignals durch Spezifikation der ILD, der ITD (oder IPD) und der maximalen Korrelation als eine Funktion der Zeit und der Frequenz zu beschreiben.
  • Bei einer weiteren bevorzugten Ausführungsform der vorliegenden Erfindung umfasst der Verfahrensschritt der Ermittlung eines Satzes räumlicher Parameter, hin deutend auf räumliche Eigenschaften, Folgendes:
    • – das Aufteilen jedes der wenigstens zwei Eingangs-Audiokanäle in entsprechende Anzahlen Frequenzbänder,
    • – das für jedes der vielen Frequenzbänder Ermitteln des Satzes räumlicher Parameter, hindeutend auf räumliche Eigenschaften der wenigstens zwei Eingangs-Audiokanäle innerhalb des entsprechenden Frequenzbandes.
  • Folglich wird das eintreffende Audiosignal in verschiedene bandbegrenzte Signale aufgeteilt, die (vorzugsweise) linear in einem Abstand voneinander liegen, und zwar in einer ERB-Ratenskala. Vorzugsweise zeigen die Analysenfilter eine teilweise Überlappung in der Frequenz- und/oder Zeitdomäne. Die Bandbreite dieser Signale ist von der Mittenfrequenz abhängig, und zwar in Anlehnung an die ERB Rate. Daraufhin werden vorzugsweise für jedes Frequenzband die nachfolgenden Eigenschaften der eintreffenden Signale analysiert:
    • – Die Zwischenkanalpegeldifferenz, oder ILD, definiert durch die relativen Pegel des bandbegrenzten Signals, herrührend von dem linken und rechten Signal,
    • – Die Zwischenkanalzeitdifferenz (oder Phasendifferenz) (ITD oder IPD), definiert durch die Zwischenkanalverzögerung (oder Phasenverschiebung), entsprechend der Position der Spitze in der Zwischenkanalkreuzkorrelationsfunktion, und
    • – Die Gleichheit/Ungleichheit der Wellenformen, die nicht den ITD oder ILD zugerechnet werden kann, die durch die maximale Zwischenkanalkreuzkorrelation parameterisiert werden kann (d. h. der Wert der normalisierten Kreuzkorrelationsfunktion an der Stelle der maximalen Spitze, auch als Kohärenz bekannt).
  • Die drei oben beschriebenen Parameter variieren in der Zeit; da aber das binaurale akustische System sehr langsam in der Verarbeitung ist, ist die Aktualisierungsrate dieser Eigenschaften ziemlich niedrig (typischerweise einige Zehn Millisekunden).
  • Es kann an dieser Stelle vorausgesetzt werden, dass die oben genannten (langsam) in der Zeit variierenden Eigenschaften die einzigen räumlichen Signaleigenschaften sind, die das binaurale akustische System zur Verfügung hat, und dass aus diesen zeit- und frequenzabhängigen Parametern die wahrgenommene akustische Welt durch höhere Pegel des akustischen Systems neu konstruiert wird.
  • Ein wichtiger Punkt der Übertragung von Parameter ist die Genauigkeit der Parameterdarstellung (d. h. die Größe der Quantisierungsfehler), was unmittelbar mit der erforderlichen Übertragungskapazität zusammenhängt.
  • Nach wieder einer anderen bevorzugten Ausführungsform der vorliegenden Erfindung umfasst der Verfahrensschritt der Erzeugung eines codierten Signals, welches das Mono-Signal und den Satz quantisierter, räumlicher Parameter aufweist, die je einen entsprechenden Quantisierungsfehler in Bezug auf den entsprechenden ermittelten räumlichen Parameter einführen, wobei wenigstens einer der eingeführten Quantisierungsfehler derart gesteuert wird, dass er von einem Wert wenigstens eines der ermittelten räumlichen Parameter abhängig ist.
  • Folglich wird der durch die Quantisierung der Parameter eingeführte Quantisierungsfehler entsprechend der Empfindlichkeit des menschlichen Hörsystems für Änderungen in diesen Parameter gesteuert. Diese Empfindlichkeit ist stark abhängig von den Werten der Parameter selbst. Folglich wird durch eine derartige Steuerung, dass der Quantisierungsfehler von dem Wert der Parameter abhängig ist, eine verbesserte Codierung erzielt.
  • Es ist ein Vorteil der vorliegenden Erfindung, dass diese eine Entkopplung von Mono-Signalparametern und binauralen Signalparametern in Audiocodierern schafft. Folglich werden Schwiegigkeiten in Bezug auf Stereo-Audiocodierer weitgehend reduziert (wie die Hörbarkeit interaural nicht korrelierter Quantisierungsrauschanteile im Vergleich zu interaural korrelierten Quantisierungsrauschanteilen oder interauralen Phasenwidersprüchen in parametrischen Codierern, die in doppelter Mono-mode codieren).
  • Es ist ein weiterer Vorteil der vorliegenden Erfindung, dass eine starke Bitratenreduktion in Audiocodierern erreicht wird, und zwar wegen einer niedrigen Aktualisierungsrate und einer niedrigen Frequenzauflösung, erforderlich für die räumlichen Parameter. Die assoziierte Bitrate zum Codieren der räumlichen Parameter ist typischerweise 10 kBit/s oder weniger (siehe die nachstehend beschriebene Ausführungsform).
  • Es ist weiterhin ein Vorteil der vorliegenden Erfindung, dass sie auf einfache Art und Weise mit bestehenden Audiocodieren kombiniert werden kann. Das vorgeschlagene Schema erzeugt ein einziges Monosignal, das mit jeder beliebigen Codierungsstrategie codiert und decodiert werden kann. Nach monauraler Decodierung regeneriert das hier beschriebene System ein Stereo-Mehrkanalsignal mit den geeigneten räumlichen Attributen.
  • Der Satz räumlicher Parameter kann als Verbesserungsschicht in Audiocodierern verwendet werden. So wird beispielsweise ein Monosignal übertragen, wenn nur eine niedrige Bitrate erlaubt ist, während durch Einschließung der räumlichen Verbesserungsschicht der Decoder Stereo-Ton wiedergeben kann.
  • Wiedergabeschirm sei bemerkt, dass die vorliegende Erfindung sich nicht auf Stereosignale beschränkt, sondern auf jedes beliebige Mehrkanalsignal mit n Kanälen (n > 1) angewandt werden kann. Insbesondere kann die vorliegende Erfindung angewandt werden zum Erzeugen von n Kanälen aus einem Monosignal, wenn (n – 1) Sätze räumlicher Parameter übertragen werden. In diesem Fall beschreiben die räumlichen Parameter, wie die n verschiedenen Audiokanäle aus dem einzigen Monosignal gebildet werden können.
  • Es sei bemerkt, dass die Merkmale des oben und nachstehend beschriebenen Merkmale in Software implementiert und in einem Datenverarbeitungssystem oder in anderen Verarbeitungssystemen, verursacht durch die Durchführung von computerdurchführbaren Instruktionen durchgeführt werden können. Die Instruktionen können Programmcodemittel sein, die aus einem Speichermedium oder von einem anderen Computer über ein Computernetzwerk in einen Speicher, wie einen RAM, geladen sind. Auf alternative Weise können die beschriebenen Merkmale durch eine Hardware-Schaltung statt durch Software oder in Kombination mit Software, implementiert werden.
  • Die vorliegende Erfindung bezieht sich weiterhin auf einen Codierer zum Codieren eines Audiosignals, wie in Anspruch 8 definiert.
  • Es sei bemerkt, dass die oben genannten Mittel zum Erzeugen eines Monosignals, die Mittel zum Ermitteln eines Satzes räumlicher Parameter sowie Mittel zum Erzeugen eines codierten Signals durch jede beliebige geeignete Schaltungsanordnung oder Anordnung, wie beispielsweise durch programmierbare Allzweck- oder Spezialmikroprozessoren, implementiert werden können, wie digitale Signalprozessoren (DSP), Applikationsspezifische integrierte Schaltungen (ASIC), programmierbare logische Anordnungen (PLA), feldprogrammierbare Gatteranordnungen (FPGA), spezielle elektronische Schaltungsanordnungen usw. oder eine Kombination davon.
  • Die vorliegende Erfindung bezieht sich weiterhin auf eine Anordnung zum Liefern eines Audiosignals, wobei diese Anordnung Folgendes umfasst:
    • – einen Eingang zum Empfangen eines Audiosignals,
    • – einen Codierer, wie oben und nachstehend beschrieben, zum Codieren des Audiosignals zum Erhalten eines codierten Audiosignals, und
    • – einen Ausgang zum Liefern des codierten Audiosignals.
  • Die Anordnung kann jede beliebige elektronische Anordnung oder ein Teil einer derartigen Anordnung sein, wie eigenständige oder tragbare Computer, eigenständige oder tragbare Funkkommunikationsanordnungen oder andere Palmtop- oder tragbare Anordnungen, wie Mediaspieler, Aufzeichnungsanordnungen, usw. Der Ausdruck tragbare Funkkommunikationsanordnung umfasst alle Anordnungen, wie Mobiltelefone, Funkrufanordnungen, Kommunikatoren, d. h. elektronische Organizer, Smart Phones, PDAs, Palmtop-Computer, oder dergleichen.
  • Der Eingang kann jede beliebige geeignete Schaltungsanordnung oder Anordnung zum Empfangen eines Mehrkanalaudiosignals in analoger oder digitaler Form aufweisen, beispielsweise über eine verdrahtete Verbindung, wie einen Kabelstecker, über eine drahtlose Verbindung, beispielsweise ein Funksignal, oder auf eine andere Art und Weise.
  • Auf gleiche Weise kann der Ausgang jede beliebige geeignete Schaltungsanordnung oder Anordnung zum Liefern des codierten Signals aufweisen. Beispiele derartiger Ausgänge umfassen eine Netzwerkschnittstelle zum Liefern des Signals zu einem Computernetzwerk, wie ein LAN, ein Internet oder dergleichen, Kommunikationsschaltungen zur Übertragung des Signals über einen Kommunikationskanal, beispielsweise einen drahtlosen Kommunikationskanal usw. Bei anderen Ausführungsformen kann der Ausgang eine Anordnung zur Speicherung eines Signals auf einem Speichermedium aufweisen.
  • Die vorliegende Erfindung bezieht sich weiterhin auf ein codiertes Audiosignal, wie in Anspruch 10 definiert.
  • Die vorliegende Erfindung bezieht sich ferner auf ein Speichermedium, auf dem ein derartiges codiertes Signal gespeichert ist. In diesem Zusammenhang umfasst der Ausdruck Speichermedium ein Magnetband, eine optische Disk, eine digitale Videodisk (DVD), eine Kompaktdisk (CD oder CD-ROM), eine Minidisk, eine Festplatte, eine Floppy, einen ferroelektrischen Speicher, einen elektrisch löschbaren programmierbaren Festwertspeicher (EEPROM), eine Flash-Speicherkarte, einen EPROM, einen Festwertspeicher (ROM), einen statischen RAM (SRAM), einen dynamischen RAM (DRAM), einen ferro magnetischen Speicher, einen optischen Speicher, ladungsgekoppelte Anordnungen, Chipkarten, eine PCMCIA-Karte, usw.
  • Die vorliegende Erfindung bezieht sich ebenfalls auf ein Verfahren zum Decodieren eines codierten Audiosignals, wie in Anspruch 12 definiert.
  • Die vorliegende Erfindung bezieht sich auch auf einen Decoder zum decodieren eines codierten Audiosignals, wie in Anspruch 13 definiert.
  • Es sei bemerkt, dass die oben stehenden Mittel durch jede beliebige geeignete Schaltungsanordnung oder Anordnung implementiert werden können, beispielsweise durch programmierbare Allzweck- oder Spezialmikroprozessoren, digitale Signalprozessoren (DSP), applikationsspezifische integrierte Schaltungen (ASIC), programmierbare logische Anordnungen (PLA), feldprogrammierbare Gatteranordnungen (FPGA), spezielle elektronische Schaltungsanordnungen usw. oder eine Kombination davon.
  • Die vorliegende Erfindung bezieht sich weiterhin auf eine Anordnung zum Liefern eines decodierten Audiosignal, wobei diese Anordnung Folgendes umfasst:
    • – einen Eingang zum Empfangen eines codierten Audiosignals,
    • – einen Decoder, wie oben und nachstehend beschrieben, zum Decodieren des codierten Audiosignals zum Erhalten eines Mehrkanal-Ausgangssignals,
    • – einen Ausgang zum Liefern oder Wiedergeben des Mehrkanal-Ausgangssignals.
  • Die Anordnung kann jede beliebige elektronische Anordnung oder ein Teil davon sein, wie oben beschrieben.
  • Der Eingang kann jede beliebige geeignete Schaltungsanordnung oder Anordnung zum Empfangen eines codierten Audiosignals umfassen. Beispiele derartiger Eingänge umfassen eine Netzwerkschnittstelle zum Empfangen des Signals über ein Computernetzwerk, wie ein LAN, ein Internet, oder dergleichen, eine Kommunikationsschaltung zum Empfangen des Signals über einen Kommunikationskanal, beispielsweise einen drahtlosen Kommunikationskanal, usw. Bei anderen Ausführungsformen kann der Eingang eine Anordnung zum Auslesen eines Signals aus einem Speichermedium umfassen.
  • Auf gleiche Weise kann der Ausgang jede beliebige geeignete Schaltungsanordnung oder Anordnung zum Liefern eines Mehrkanalsignals in digitaler oder analoger Form umfassen.
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 eins Flussdiagramm eines Verfahrens zum Codieren eines Audiosignals nach einer Ausführungsform der vorliegenden Erfindung,
  • 2 ein schematisches Blockschaltbild eines Codierungssystems nach einer Ausführungsform der vorliegenden Erfindung,
  • 3 ein Filterverfahren zur Anwendung beim Synthetisieren des Audiosignals, und
  • 4 einen Dekorrelator zur Verwendung beim Synthetisieren des Audiosignals.
  • 1 zeigt ein Flussdiagramm eines Verfahrens zum Codieren eines Audiosignals nach einer Ausführungsform der vorliegenden Erfindung.
  • In einem Anfangsschritt S1 werden die eintreffenden Signale L und R in Bandpasssignale L und R aufgeteilt (vorzugsweise mit einer Bandbreite, die mit der Frequenz zunimmt), angegeben durch das Bezugszeichen 101, so dass die Parameter als eine Funktion der Zeit analysiert werden können. Ein mögliches Verfahren zur Zeit/Frequenzslicing ist die Anwendung von Zeitfensterung mit einem nachfolgenden Transformationsvorgang, es könnten aber auch zeitkontinuierliche Verfahren angewandt werden (beispielsweise Filterbanken). Die Zeit- und Frequenzauflösung dieses Prozesses wird vorzugsweise an das Signal angepasst; für Übergangssignale wird eine feine Zeitauflösung (in der Größenordnung von einigen Millisekunden) bevorzugt, während für Nichtübergangssignale eine feinere Frequenzauflösung und eine gröbere Zeitauflösung (in der Größenordnung von einigen Zehn Millisekunden) bevorzugt wird. Daraufhin wird in dem Schritt S2 die Pegeldifferenz (ILD) entsprechender Teilbandsignale ermittelt; in dem Schritt S3 wird die Zeitdifferenz (ITD oder IPD) entsprechender Teilbandsignale ermittelt; und in dem Schritt S4 wird der Betrag an Gleichheit oder Ungleichheit der Wellenformen, die nicht den ILD oder ITD zugerechnet werden kann, beschrieben. Die Analyse dieser Parameter wird untenstehend beschrieben.
  • Schritt S2: Analyse von ILD
  • Die ILD wird durch die Pegeldifferenz der Signale zu einem bestimmten Zeitpunkt für ein bestimmtes Frequenzband ermittelt. Ein Verfahren zum Ermitteln der ILD ist den Effektivwert (rms) des entsprechenden Frequenzbandes der beiden Eingangskanäle zu ermitteln und das Verhältnis dieser Effektivwerte (vorzugsweise ausgedrückt in dB) zu berechnen.
  • Schritt S3: Analyse der ITD
  • Die ITD werden durch die Zeit- oder Phasenausrichtung ermittelt, was die beste Übereinstimmung zwischen den Wellenformen der beiden Kanäle ergibt. Ein Verfahren zum Erhalten der ITD ist das Berechnen der Kreuzkorrelationsfunktion zwischen zwei entsprechenden Teilbandsignalen und das Suchen nach dem Maximum. Die Verzögerung, die mit diesem Maximum in der Kreuzkorrelationsfunktion übereinstimmt, kann als ITD Wert verwendet werden. Ein zweites Verfahren ist das Berechnen der Analysensignale des linken und des rechten Teilbandes (d. h. das Berechnen die Phasen- und Umhüllendenwerte) und das Anwenden der (mittleren) Phasendifferenz zwischen den Kanälen als IPD Parameter.
  • Schritt S4: Analyse der Korrelation
  • Die Korrelation wird dadurch erhalten, dass zunächst die ILD und die ITD gefunden werden, welche die beste Übereinstimmung zwischen den entsprechenden Teilbandsignalen ergibt und dass danach die Gleichheit der Wellenformen gemessen wird, und zwar nach Kompensation der ITD und/oder ILD. Auf diese Weise wird in diesem Bezugssystem die Korrelation als "die Gleichheit oder Ungleichheit entsprechender Teilbandsignale, die nicht ILD und/oder ITD zugerechnet werden kann" definiert. Ein geeignetes Maß für diesen Parameter ist der Maximalwert der Kreuzkorrelationsfunktion (d. h. das Maximum über einen Satz von Verzögerungen). Es könnten aber, nicht nach der vorliegenden Erfindung, auch andere Maße angewandt werden, wie die relative Energie des Differenzsignals nach der ILD- und/oder der ITD-Kompensation im vergleich zu dem Summensignal entsprechender Teilbänder (vorzugsweise auch ILD- und/oder ITD-kompensiert). Dieser Differenzparameter ist im Grunde eine lineare Transformation der (maximalen) Korrelation.
  • In den nachfolgenden Schritten S5, S6 und S7 werden die ermittelten Parameter quantisiert. Ein wichtiger Punkt der Übertragung von Parametern ist die Genauigkeit der Parameterdarstellung (d. h. die Größe der Quantisierungsfehler), die sich unmittelbar auf die erforderliche Übertragungskapazität bezieht. In diesem Abschnitt werden verschiedene Punkte in Bezug auf die Quantisierung der räumlichen Parameter beschrieben. Der Grund gedanke ist, dass die Quantisierungsfehler auf sog. "gerade sprürbare Differenzen" der räumlichen Ortsbestimmungshinweise basiert werden. Um deutlicher zu sein, der Quantisierungsfehler wird durch die Empfindlichkeit des menschlichen Hörsystems für Änderungen in den Parametern ermittelt. Da die Empfindlichkeit für Änderungen in den Parameter stark abhängig ist von den Werten der Parameter selber, werden die nachfolgenden Verfahren zum Ermitteln der diskreten Quantisierungsschritte angewandt.
  • Schritt S5: Quantisierung von ILD
  • Aus der psychoakustischen Forschung ist es bekannt, dass die Empfindlichkeit für Änderungen in der ILD von der ILD selbst abhängig ist. Wenn die ILD in dB ausgedrückt wird, können Abweichungen von etwa 1 dB von einem Bezugswert von 0 dB detektiert werden, während Änderungen in der Größenordnung von 3 dB erforderlich sind, wenn die Bezugspegeldifferenz 20 dB beträgt. Deswegen "können Quantisierungsfehler größer sein, wenn die Signale des linken und rechten Kanals eine größere Pegeldifferenz haben". Dies kann beispielsweise dadurch angewandt werden, dass zunächst die Pegeldifferenz zwischen den Kanälen gemessen wird, und dass danach eine nicht lineare (kompressive) Transformation der erhaltenen Pegeldifferenz und daraufhin ein linearer Quantisierungsprozess durchgeführt wird, oder dadurch, dass eine Nachschlagtabelle für die verfügbaren ILD Werte verwendet wird, die eine nicht lineare Verteilung haben. Die nachstehende Ausführungsform gibt ein Beispiel einer derartigen Nachschlagtabelle.
  • Schritt S6: Quantisierung der ITD
  • Die Empfindlichkeit für Änderungen in den ITD menschlicher Subjekte kann als eine konstante Phasenschwelle gekennzeichnet werden. Dies bedeutet in Termen von Verzögerungszeiten, dass die Quantisierungsschritte für die ITD mit der Frequenz abnehmen sollen. Auf alternative Weise sollen, wenn die ITD in der Form von Phasendifferenzen dargestellt wird, die Quantisierungsschritte unabhängig von der Frequenz sein. Ein Verfahren um dies zu implementieren ist, dass eine feste Phasendifferenz als Quantisierungsschritt genommen wird und dass die entsprechende Zeitverzögerung für jedes Frequenzband ermittelt wird. Dieser ITD Wert wird danach als Quantisierungsschritt angewandt. Ein anderes Verfahren ist, die Phasendifferenzen zu übertragen, die einem frequenzunabhängigen Quantisierungsschema folgen. Es ist auch bekannt, dass über einer be stimmten Frequenz das menschliche Hörsystem für ITD in den fein strukturierten Wellenformen nicht empfindlich ist. Dieses Phänomen kann dadurch ausgenutzt werden, dass nur ITD Parameter bis an eine bestimmte Frequenz (typischerweise 2 kHz) übertragen werden.
  • Ein drittes Verfahren zur Bitstromreduktion ist, dass ITD Quantisierungsschritte, die von der ILD und/oder den Korrelationsparametern desselben Teilbandes abhängig sind, einverleibt werden. Für große ILD können die ITD weniger genau codiert werden. Weiterhin ist es bekannt, dass, wenn die Korrelation sehr gering ist, die menschliche Empfindlichkeit für Änderungen in der ITD reduziert wird. Folglich können größere ITD Quantisierungsfehler angewandt werden, wenn die Korrelation gering ist. Ein extremes Beispiel dieser Idee ist, dass, wenn die Korrelation unterhalb einer bestimmten Schwelle liegt und/oder wenn die ILD für dasselbe Teilband groß genug ist (typischerweise etwa 20 dB) überhaupt keine ITD übertragen werden.
  • Schritt S7: Quantisierung der Korrelation
  • Der Quantisierungsfehler der Korrelation ist abhängig von (1) dem Korrelationswert selber und möglicherweise von (2) der ILD. Korrelationswerte nahe bei +1 werden mit einer hohen Genauigkeit codiert (d. h. mit einem kleinen Quantisierungsschritt), während Korrelationswerte nahe bei 0 mit einer geringen Genauigkeit codiert werden (d. h. mit einem großen Quantisierungsschritt). Ein Beispiel eines Satzes nicht linear verteilter Korrelationswerte ist in der Ausführungsform gegeben. Eine zweite Möglichkeit ist, für die Korrelation Quantisierungsschritte zu verwenden, die von der gemessenen ILD desselben Teilbandes abhängig sind: für große ILD (d. h. ein Kanal ist in Termen der Energie dominant), werden die Quantisierungsfehler in der Korrelation größer. Ein extremes Beispiel dieses Prinzips wäre, dass Korrelationswerte für ein bestimmtes Teilband überhaupt nicht übertragen werden, wenn der Absolutwert der ILD für dieses Teilband eine bestimmte Schwelle übersteigt.
  • In dem Schritt S8 wird ein Mono-Signal S aus den eintreffenden Audiosignalen, beispielsweise als ein Summensignal der eintreffenden Signalanteile, erzeugt, und zwar durch Ermittlung eines dominanten Signals, durch Erzeugung eines wesentlichen Anteilsignals aus den eintreffenden Signalanteilen, oder dergleichen. Dieser Prozess benutzt vorzugsweise die extrahierten räumlichen Parameter zum Erzeugen des Monosignals, d. h. dadurch, dass vor der Kombination unter Verwendung der ITD oder der IPD zunächst die Teilbandwellenformen ausgerichtet werden.
  • Zum Schluss wird in dem Schritt S9 ein codiertes Signal 102 aus dem Mono-Signal und den ermittelten Parametern erzeugt. Auf alternative Weise können das Summensignal und die räumlichen Parameter als einzelne Signale über dieselben oder verschiedene Kanäle übertragen werden.
  • Es sei bemerkt, dass das oben genannte Verfahren durch eine entsprechende Anordnung implementiert werden kann, beispielsweise als programmierbare Allzweck- oder Spezialmikroprozessoren, digitale Signalprozessoren (DSP), applikationsspezifische integrierte Schaltungen (ASIC), programmierbare logische Anordnungen (PLA), feldprogrammierbare Gatteranordnungen (FPGA), spezielle elektronische Schaltungsanordnungen usw. oder eine Kombination davon.
  • 2 zeigt ein schematisches Blockschaltbild eines Codierungssystems nach einer Ausführungsform der vorliegenden Erfindung. Das System umfasst einen Codierer 201 und einen entsprechenden Decoder 202. Der Codierer 201 empfängt ein Stereosignal mit zwei Komponenten L und R und erzeugt ein codiertes Signal 203 mit einem Summensignal S und mit räumlichen Parametern P, die dem Decoder 202 zugeführt werden. Das Signal 203 kann über jeden beliebigen geeigneten Kommunikationskanal 204 übertragen werden. Auf alternative oder zusätzliche Art und Weise kann das Signal auf einem entfernbaren Speichermedium 214, beispielsweise einer Speicherkarte, gespeichert werden, die von dem Codierer zu dem Decoder übertragen werden kann.
  • Der Codierer 201 umfasst Analysenmodule 205 und 206 zum Analysieren räumlicher Parameter der eintreffenden Signale L und R, vorzugsweise für jeden Zeit/Frequenzschlitz. Der Codierer umfasst weiterhin ein Parameterextraktionsmodul 207, das quantisierte räumliche Parameter erzeugt; und ein Kombiniermodul 208, das ein Summensignal (oder ein dominantes Signal) erzeugt, das aus einer bestimmten Kombination der wenigstens zwei Eingangssignale besteht. Der Codierer umfasst weiterhin ein Codierungsmodul 209, das ein resultierendes codiertes Signal 203 erzeugt, welches das Monosignal und die räumlichen Parameter umfasst. In einer Ausführungsform führt das Modul 209 weiterhin eine oder mehrere der nachfolgenden Funktionen durch: Bitratenzuordnung, Framing, verlustfreie Codierung usw.
  • Synthese (in dem Decoder 202) wird dadurch durchgeführt, dass die räumlichen Parameter dem Summensignal zugefügt werden, und zwar zum Erzeugen des linken und des rechten Ausgangssignals. Folglich umfasst der Decoder 202 ein Decodierungsmodul 210, das den invertierten Vorgang des Moduls 209 durchführt und das Summensignal S und die Parameter P aus dem codierten Signal 203 extrahiert. Der Decoder umfasst weiterhin ein Synthesemodul 211, das die Stereoanteile L und R aus dem Summensignal (oder dem dominanten Signal) und den räumlichen Parametern wiederherstellt.
  • In dieser Ausführungsform ist die räumliche Parameterbeschreibung mit einem monauralen (Einkanal) Audiocodierer kombiniert zum Codieren eines Stereo-Audiosignals. Es sei bemerkt, dass obschon die beschriebene Ausführungsform bei Stereosignalen funktioniert, die allgemeine Idee auf n-Kanal-Audiosignale, mit n > 1, angewandt werden kann.
  • In den Analysenmodulen 205 und 206 werden das linke und das rechte eintreffende Signal L und R in mehrere Zeitrahmen aufgeteilt (die beispielsweise je 2048 Abtastwerte bei einer Abtastrate von 44,1 kHz haben) und mit einem Quadratwurzel Hanning Fenster gefenstert. Daraufhin werden FFT berechnet. Die negativen FFT Frequenzen werden abgelegt und die resultierenden FFT werden in Gruppen (Teilbänder) von FFT Bins aufgeteilt. Die Anzahl FFT Bins, die in einem Teilband g kombiniert werden, ist von der Frequenz abhängig: bei höheren Frequenz werden mehr Bins kombiniert als bei niedrigeren Frequenzen. In einer Ausführungsform werden FFT Bins, die etwa 1,8 ERB ("Equivalent Rectangular Bandwidth") entsprechen, gruppiert, was zu 20 Teilbändern führt, um den ganzen hörbaren Frequenzbereich darzustellen. Die resultierende Anzahl FFT Bins S[g] jedes nachfolgenden Teilbandes (startend bei der niedrigsten Frequenz) ist:
    S = [4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
  • Auf diese Weise enthalten die ersten drei Teilbänder 4 FFT Bins, das vierte Teilband enthält 5 FFT Bins, usw. Für jedes Teilband werden die entsprechende ILD, ITD und die Korrelation (r) berechnet. Die ITD und die Korrelation werden einfach dadurch berechnet, dass alle FFT Bins, die zu anderen Gruppen gehören, auf Null gesetzt werden, dass die resultierenden (bandbegrenzten) FFT aus dem linken und dem rechten Kanal multipliziert werden, wonach eine invertierte FFT Transformation durchgeführt wird. Die resultierende Kreuzkorrelationsfunktion wird für eine Spitze innerhalb der Zwischenkanalverzögerung zwischen –64 und +63 Abtastwerten abgetastet. Die interne Verzögerung ent sprechend der Spitze wird als ITD Wert verwendet und der Wert der Kreuzkorrelationsfunktion bei dieser Spitze wird als die Zwischenkanalkorrelation dieses Teilbandes verwendet. Zum Schluss wird die ILD einfach dadurch berechnet, dass das Leistungsgewicht des linken und des rechten Kanals für jedes Teilband genommen wird.
  • In dem Kombiniermodul 208 werden das linke und das rechte Teilband nach einer Phasenkorrektur (zeitliche Ausrichtung) summiert. Diese Phasenkorrektur folgt aus der berechneten ITD für dieses Teilband und besteht aus der Verzögerung des Linkskanal-Teilbandes um ITD/2 und des Rechtskanal-Teilbandes um –ITD/2. Die Verzögerung wird in der Frequenzdomäne durchgeführt, und zwar durch eine geeignete Modifikation der Phasenwinkel jedes FFT Bins. Daraufhin wird das Summensignal dadurch berechnet, dass die phasenmodifizierten Versionen des linken und des rechten Signals addier werden. Zum Schluss wird zum Kompensieren nicht korrelierter oder korrelierter Addierung jedes Teilband des Summensignals mit sqrt(2/(1 + r)) multipliziert, wobei r die Korrelation des entsprechenden Teilbandes ist. Nötigenfalls kann das Summensignal in die Zeitdomäne umgewandelt werden, und zwar durch (1) Einfügung konjugierter Zahlen bei negativen Frequenzen, (2) durch inverse FFT, (3) durch Fensterung, und (4) durch Überlappung-Hinzufügung.
  • In dem Parameterextraktionsmodul 207 werden die räumlichen Parameter quantisiert. ILD (in dB) werden quantisiert zu dem meist nahe liegenden Wert aus dem nachfolgenden Satz I:
    I = [–19 –16 –13 –10 –8 –6 –4 –2 0 2 4 6 8 10 13 16 19]
  • ITD Quantisierungsschritte werden durch eine konstante Phasendifferenz in jedem Teilband von 0,1 rad ermittelt. Auf diese Weise wird für jedes Teilband die Zeitdifferenz, die dem Wert 0,1 rad der Mittenfrequenz des Teilbandes entspricht, als Quantisierungsschritt benutzt. Für Frequenzen über 2 kHz wird keine ITD Information übertragen.
  • Zwischenkanalkorrelationswerte r werden zu dem meist nahe liegenden Wert des nachfolgenden Gebildes R quantisiert:
    R = [1 0,95 0,9 0,82 0,75 0,6 0,3 0]
  • Dies kostet wieder 3 Bits je Korrelationswert.
  • Wenn der Absolutwert der (quantisierten) ILD des aktuellen Teilbandes 19 dB beträgt, werden keine ITD und Korrelationswerte für dieses Teilband übertragen. Wenn der (quantisierte) Korrelationswert eines bestimmten Teilbandes Null beträgt, wird kein ITD Wert für dieses Teilband übertragen.
  • Auf diese Weise erfordert jedes Frame maximal 233 Bits um die räumlichen Parameter zu übertragen. Mit einer Framelänge von 1024 Frames beträgt die maximale Bitrate zur Übertragung 10,25 kbit/s. Es sei bemerkt, dass durch Anwendung von Entropiecodierung oder differenzieller Codierung diese Bitrate weiter reduziert werden kann.
  • Der Decoder umfasst ein Synthesemodul 211, wobei das Stereosignal aus dem empfangenen Summensignal und den räumlichen Parameter synthetisiert wird. Folglich wird zwecks der vorliegenden Beschreibung vorausgesetzt, dass das Synthesemodul eine Frequenzdomänendarstellung des Summensignals, wie oben beschrieben, empfangt. Diese Darstellung kann durch Fensterung und durch FFT Vorgänge der Zeitdomänen-Wellenform erhalten werden. Erstens wird das Summensignal zu dem linken und rechten Ausgangssignal kopiert. Daraufhin wird die Korrelation zwischen dem linken und dem rechten Signal mit einem Dekorrelator modifiziert. In einer bevorzugten Ausführungsform wird ein Dekorrelator, wie nachstehend beschrieben, verwendet. Daraufhin wird jedes Teilband des linken Signals um –ITD/2 verzögert, und das rechte Signal wird um ITD/2 verzögert, was die (quantifizierte) ITD ergibt, entsprechend diesem Teilband. Zum Schluss werden das linke und das rechte Teilband entsprechend der ILD für dieses Teilband skaliert. In einer Ausführungsform wird die oben genannte Modifikation durch ein Filter durchgeführt, wie nachstehen Beschrieben wird. Um die Ausgangssignale in die Zeitdomäne umzuwandeln werden die nachfolgenden Verfahrensschritte durchgeführt:
    (1) das Einfügen konjugierter Zahlen bei negativen Frequenzen, (2) invertierte FTT, (3) Fensterung und (4) Überlappung-Addierung.
  • 3 zeigt ein Filterverfahren zur Anwendung beim Synthetisieren des Audiosignals. In einem Anfangsschritt 301 wird das eintreffende Audiosignal x(t) in eine Anzahl Frames segmentiert. Der Segmentierungsschritt 301 spaltet das Signal in Frames xn(t) einer geeigneten Länge auf, beispielsweise im Bereich von 500–5000 Abtastwerten, beispielsweise 1024 0der 2048 Abtastwerte.
  • Vorzugsweise wird die Segmentierung unter Anwendung von Überlappungsanalysen- und Synthesefensterfunktionen durchgeführt, wobei Artefakte unterdrückt werden, die an den Framerändern eingeführt werden können (siehe beispielsweise Princen, J. P. und Bradley, A. B.: "Analysis/synthesis filterbank design based an time domain alia sing cancellation", "IEEE transactions an Acoustics, Speech and Signal processing", Heft ASSP 34, 1986).
  • In dem Schritt 302 wird jedes der Frames xn(t) in die Frequenzdomäne transformiert, und zwar durch Anwendung einer Fourier Transformation, vorzugsweise als eine schnelle Fourier Transformation (FFT) implementiert. Die resultierende Frequenzdarstellung des n. Frames xn(t) umfasst eine Anzahl Frequenzanteile X(k, n), wobei der Parameter n die Framenummer und der Parameter k den Frequenzanteil oder das Frequenzbin angibt, entsprechend einer Frequenz ωk, wobei 0 < k < K. Im Allgemeinen sind die Frequenzdomänenanteile X(k, n) komplexe Zahlen.
  • In dem Schritt 303 wird das gewünschte Filter für das aktuelle Frame ermittelt, und zwar entsprechend den empfangenen zeitvariablen räumlichen Parameter. Das gewünschte Filter wird als gewünschte Filterantwort mit einem Satz von K komplexen Gewichtungsfaktoren F(k, n), wobei 0 < k < K, für das n. Frame ausgedrückt. Die Filterantwort F(k, n) kann durch zwei reelle Zahlen dargestellt werden, d. h. die Amplitude a(k, n) und die Phase φ(k, n) entsprechend F(k, n) = a(k, n)·exp[j φ(k, n)].
  • In der Frequenzdomäne sind die gefilterten Frequenzanteile Y(k, n) = F(k, n)·X(k, n), d. h. sie sind das Ergebnis einer Multiplikation der Frequenzanteile X(k, n) des Eingangssignals mit der Filterantwort F(k, n). Wie es dem Fachmann einleuchten dürfte, entspricht diese Multiplikation in der Frequenzdomäne einer Faltung des Eingangssignalframes xn(t) mit einem entsprechenden Filter fn(t).
  • In dem Schritt 304 wird die gewünschte Filterantwort F(k, n) vor Anwendung auf das aktuelle Frame X(k, n) modifiziert. Insbesondere wird die aktuelle anzuwendende Filterantwort F'(k, n) als eine Funktion der gewünschten Filterantwort F(k, n) und der Information 308 über vorhergehende Frames ermittelt. Vorzugsweise umfasst diese Information die aktuelle und/oder die gewünschte Filterantwort eines oder mehrerer vorhergehender Frames, und zwar entsprechend: F'(k, n) = a'(k, n)·exp[j φ'(k, n)] = Φ[F(k, n), F(k, n – 1), F(k, n – 2), ..., F'(k, n–1), F'(k, n–2), ...].
  • Folglich können dadurch, dass die wirkliche Filterantwort von der Historie vorhergehender Filterantworten abhängig gemacht wird, Artefakte, die durch Änderungen in der Filterantwort zwischen aufeinander folgenden Frames eingeführt wurden, auf effiziente Art und Weise unterdrückt werden. Vorzugsweise wird die aktuelle Form der Transformationsfunktion Φ selektiert um Überlappungs-Additionsartefakte, herrührend aus dynamisch variierenden Filterantworten, zu reduzieren.
  • So kann beispielsweise die Transformationsfunktion Φ eine Funktion einer einzigen vorhergehenden Antwortfunktion sein, beispielsweise. F'(k, n) = Φ1[F(k, n), F(k, n – 1)] oder F'(k, n) = Φ2[F(k, n), F'(k, n – 1)]. In einer anderen Ausführungsform kann die Transformationsfunktion einen fließenden Mittelwert über eine Anzahl vorhergehender Antwortfunktionen aufweisen, beispielsweise eine gefilterte Version vorhergehender Antwortfunktionen oder dergleichen. Bevorzugte Ausführungsformen der Transformationsfunktion Φ werden nachstehend detailliert beschrieben.
  • In dem Schritt 305 wird die aktuelle Filterantwort F'(k, n) auf das aktuelle Frame angewandt, und zwar durch Multiplikation der Frequenzanteile X(k, n) der aktuellen Frames des Eingangssignals mit den entsprechenden Filterantwortfaktoren F'(k, n) entsprechend Y(k, n) = F'(k, n)·X(k, n).
  • In dem Schritt 306 werden die resultierenden verarbeiteten Frequenzanteile Y(k, n) in die Zeitdomäne zurück transformiert, was zu gefilterten Frames yn(t) führt. Vorzugsweise wird die invertierte Transformation als eine invertierte schnelle Fourier Transformation (IFFT) implementiert.
  • Zum Schluss werden in dem Schritt 307 die gefilterten Frames zu einem gefilterten Signal y(t) neu kombiniert, und zwar durch ein Überlappungs-Addierungsverfahren. Eine effiziente Implementierung eines derartigen Verfahrens ist beschrieben in Bergmans, J. W. M.: "Digital baseband transmission and recording", Kluwer, 1996.
  • In einer Ausführungsform wird die Transformationsfunktion Φ des Schrittes 304 als einen Phasenänderungsbegrenzer zwischen dem aktuellen und dem vorhergehenden Frame implementiert. Nach dieser Ausführungsform wird die Phasenänderung δ(k) jedes Frequenzanteils F(k, n) im Vergleich zu der aktuellen Phasenmodifikation φ'(k, n – 1), angewandt auf den vorhergehenden Abtastwert des entsprechenden Frequenzanteils berechnet, d. h. δ(k) = φ(k, n) – φ'(k, n – 1).
  • Daraufhin wird der Phasenanteil des gewünschten Filters F(k, n) derart modifiziert, dass die Phasenänderung über Frames reduziert wird, wenn die Änderung zu Überlappungs-Additionsartefakten führen würde. Nach dieser Ausführungsform wird dies da durch erreicht, dass gewährleistet wird, dass die wirkliche Phasendifferenz eine vorbestimmte Schwelle c nicht übersteigt, beispielsweise durch einfache Beschneidung der Phasendifferenz, entsprechend:
    Figure 00200001
  • Der Schwellenwert c kann eine vorbestimmte Konstante sein, beispielsweise zwischen π/8 und π/3 rad. In einer Ausführungsform kann die Schwelle c nicht eine Konstante sein, sondern beispielsweise eine Funktion der Zeit, der Frequenz und/oder dergleichen. Weiterhin können als Alternative gegenüber der oben stehenden harten Grenze für die Phasenänderung andere Phasenänderungsbegrenzungsfunktionen angewandt werden.
  • Im Allgemeinen wird in der oben stehenden Ausführungsform die gewünschte Phasenänderung über aufeinander folgende Zeitframes für einzelne Frequenzanteile durch eine Eingangs-Ausgangsfunktion P(δ(k)) und die aktuelle Filterantwort F'(k, n) wird gegeben durch: F'(k, n) = F'(k, n – 1)·exp[j P(δ(k))]. (2)
  • Folglich wird nach dieser Ausführungsform eine Transformationsfunktion P der Phasenänderung über aufeinander folgende Zeitframes eingeführt.
  • In einer anderen Ausführungsform der Transformation der Filterantword wird die Phasenbegrenzungsprozedur durch eine geeignete Maßnahme der Tonalität angetrieben, beispielsweise ein Prädiktionsverfahren, wie nachstehend beschrieben. Dies hat den Vorteil, dass Phasensprünge zwischen aufeinander folgenden Frames, die in rauschartigen Signalen auftreten, von der Phasenänderungsbegrenzungsprozedur nach der vorliegenden Erfindung ausgeschlossen werden können. Dies ist ein Vorteil, da Begrenzung derartiger Phasensprünge in rauschartigen Signalen dazu (ihren würden, dass die rauschartigen Signale mehr tonal klingen, was oft als synthetisch oder metallisch erfahren wird.
  • Nach dieser Ausführungsform wird ein vorhergesagter Phasenfehler δ(k) φ(k, n) – φ(k, n – 1) – ωk·h berechnet. Hier bezeichnet ωk die Frequenz entsprechend dem k. Frequenzanteil und h bezeichnet die Sprunggröße in Abtastwerten. Hier bezieht sich der Term Sprunggröße auf die Differenz zwischen zwei benachbarten Fenstermitten, d. h. die Analysenlänge für symmetrische Fenster. Nachstehend wird vorausgesetzt, dass der oben stehende Fehler bis an das Intervall [–n, +n] eingewickelt ist.
  • Daraufhin wird eine Prädiktionsmaßnahme Pk für den Betrag der Phasenvorhersagbarkeit in dem k. Frequenz-Bin berechnet, und zwar entsprechend: to Pk = (π – |θ(k)|)/π ∈ [0, 1], wobei |·| den Absolutwert bezeichnet.
  • Folglich ergibt die oben stehende Maßnahme Pk einen Wert zwischen 0 und 1, entsprechend dem Betrag an Phasenvorhersagbarkeit in dem k. Frequenz-Bin. Wenn Pk nahe bei 1 ist, kann vorausgesetzt werden, dass das unterliegende Signal einen hohen Tonalitätsgrad hat, d. h. eine im Wesentlichen sinusförmige Wellenform. Für ein derartiges Signal sind Phasensprünge leicht wahrnehmbar, beispielsweise von einem Zuhörer eines Audiosignals. Folglich sollten Phasensprünge vorzugsweise in diesem Fall entfernt werden. Andererseits kann, wenn der Wert von Pk nahe bei 0 liegt, das unterliegende Signal als rauschbehaftet vorausgesetzt werden. Für geräuschvolle Signale lassen sich Phasensprünge nicht leicht erfahren und können deswegen erlaubt werden.
  • Auf entsprechende Weise wird die Phasenbegrenzungsfunktion angewandt, wenn Pk eine vorbestimmte Schwelle übersteigt, d. h. Pk > A, was zu der aktuellen Filterantwort F'(k, n) führt, und zwar entsprechend:
    Figure 00210001
  • Hier wird A durch die obere und untere Grenze von P begrenzt, wobei diese Grenzen +1 und 0 sind. Der genaue Wert von A ist von der wirklichen Implementierung abhängig. So kann beispielsweise A zwischen 0,6 und 0,9 selektiert werden.
  • Es dürfte einleuchten, dass auf alternative Weise jede andere beliebige geeignete Maßnahme zum Schätzen der Tonalität angewandt werden kann. In noch einer anderen Ausführungsform kann der oben beschriebene erlaubte Phasensprung c von einem geeigneten Maß der Tonalität abhängig gemacht werden, beispielsweise von dem oben genannten Maß Pk, wodurch größere Phasensprünge erlaubt werden, wenn Pk groß ist und umgekehrt.
  • 4 zeigt einen Dekorrelator zur Verwendung bei der Synthetisierung des Audiosignals. Der Dekorrelator umfasst ein Allpassfilter 401, welches das Mono-Signal x und einen Satz räumlicher Parameter P einschließlich der Zwischenkanal-Kreuzkorrelation r und einen Parameter, der für die Kanaldifferenz c indikativ ist, empfängt. Es sei bemerkt, dass der Parameter c mit der Zwischenkanalpegeldifferenz relatiert ist durch ILD = k·log(c), wobei k eine Konstante ist, d. h. ILD ist proportional zu dem Logarithmus von c.
  • Vorzugsweise umfasst das Allpassfilter eine frequenzabhängige Verzögerung, die eine relativ geringere Verzögerung bei den hohen Frequenzen als bei niedrigen Frequenz schafft. Dies kann dadurch erreicht werden, dass eine feste Verzögerung des Allpassfilters durch ein Allpassfilter mit einer einzigen Periode eines Schroeder-Phasenkomplexes ersetzt wird (siehe beispielsweise M. R. Schroeder: "Synthesis of low-peak-factor signals and binary sequences with low autocorrelation", "IEEE Transact. Inf. Theor., 16: 85–89, 1970). Der Dekorrelator umfasst weiterhin eine Analysierschaltung 402, welche die räumlichen Parameter von dem Decoder empfängt und die Zwischenkanalkreuzkorrelation r und die Kanaldifferenz c extrahiert. Die Schaltungsanordnung 402 ermittelt eine Mischmatrix M(α, β), wie nachstehend noch näher beschrieben wird. Die Anteile der Mischmatrix werden in die Transformationsschaltung 403 eingegeben, die weiterhin das Eingangssignal x und das gefilterte Signal H⊎x empfängt. Die Schaltungsanordnung 403 führt einen Mischvorgang durch, und zwar wie folgt:
    Figure 00220001
    was zu den Ausgangssignalen L und R führt.
  • Die Korrelation zwischen den Signalen L und R kann als einen Winkel α zwischen Vektoren ausgedrückt werden, die das L bzw. das R Signal darstellen, in einem Raum überspannt durch die Signale x und H⊎x, entsprechend r = cos(α). Folglich hat jedes beliebige Vektorpaar, das den richtigen Winkelabstand zeigt, die spezifizierte Korrelation.
  • Folglich kann eine Mischmatrix M, welche die Signale x und H⊎x in Signale L und R mit einer vorbestimmten Korrelation r transformiert, wie folgt ausgedrückt werden:
    Figure 00230001
  • Auf diese Weise ist der Betrag des allpassgefilterten Signals abhängig von der gewünschten Korrelation. Weiterhin ist die Energie des Allpass-Signalanteils in den beiden Ausgangskanälen die gleiche (aber mit einer 180° Phasenverschiebung). Es sei bemerkt, dass der Fall, in dem die Matrix M gegeben wird durch:
    Figure 00230002
    d. h. der Fall, in dem α = 90° entsprechend nicht korrelierten Ausgangssignalen (r = 0), entspricht einem Lauridsen Dekorrelator.
  • Um ein Problem mit der Matrix der Gleichung (5) zu illustrieren wird eine Situation mit einer extremen Amplitude, schwenkend in Richtung des linken Kanals vorausgesetzt, d. h. ein Fall, in dem ein bestimmtes Signal nur in dem linken Kanal vorhanden ist. Es wird weiterhin vorausgesetzt, dass die gewünschte Korrelation zwischen den Ausgängen Null ist. In diesem Fall ergibt der Ausgang des linken Kanals der Transformation der Gleichung (3) mit der Mischmatrix der Gleichung (5) Folgendes:
    L = 1/√2(x + H⊎x). Auf diese Weise besteht der Ausgang aus dem ursprünglichen Signal x kombiniert mit der allpassgefilterten Version H⊎x.
  • Dies ist aber eine unerwünschte Situation, da das Allpassfilter meistens die Perzeptionsqualität des Signals verschlechtert. Weiterhin führt das Addieren des ursprünglichen Signals zu dem gefilterten Signal zu Kammfiltereffekten, wie erfahrener Kolorierung des Ausgangssignals. In diesem vorausgesetzten Extremfall wäre die beste Lösung, dass das linke Ausgangssignal aus dem Eingangssignal bestehen würde. Auf diese Weise wäre die Korrelation zwischen den zwei Ausgangssignalen dennoch Null.
  • In Situationen mit mehr gemäßigten Pegeldifferenzen ist die bevorzugte Situation, dass der lautere Ausgangskanal relativ mehr von dem Originalsignal enthält und der leisere Ausgangskanal enthält relativ mehr von dem gefilterten Signal. Folglich wird im Allgemeinen bevorzugt, den Betrag des Originalsignals in den zwei Ausgängen zusammen zu maximieren und den Betrag des gefilterten Signals zu minimieren.
  • Nach dieser Ausführungsform wird dies durch Einführung einer anderen Mischmatrix mit einer zusätzlichen gemeinsamen Drehung erreicht:
    Figure 00240001
  • Hier ist β eine zusätzliche Drehung, und C ist eine Skalierungsmatrix, die gewährleistet, dass die relative Pegeldifferenz zwischen den Ausgangssignalen gleich c ist, d. h.:
    Figure 00240002
  • Das Einfügen der Matrix der Gleichung (6) in die Gleichung (3) ergibt die Ausgangssignale, die durch den Matrizierungsvorgang entsprechend dieser Ausführungsform erzeugt worden sind:
    Figure 00240003
  • Folglich haben die Ausgangssignale L und R dennoch eine Winkeldifferenz α, d. h. die Korrelation zwischen dem L und dem R Signal wird nicht durch die Skalierung der Signals L und R entsprechend der gewünschten Pegeldifferenz und die zusätzliche Drehung um einen Winkel β des L und des R Signals beeinträchtigt.
  • Wie oben erwähnt soll vorzugsweise der Betrag des ursprünglichen Signals x in dem summierten Ausgang von L und R maximiert werden. Diese Bedingung kann angewandt werden um den Winkel β zu ermitteln, und zwar entsprechend:
    Figure 00250001
    was die nachfolgende Bedingung ergibt:
    Figure 00250002
  • Zusammengefasst beschreibt die vorliegende Erfindung eine psychoakustisch motivierte parametrische Beschreibung der räumlichen Attribute von Mehrkanal-Audiosignalen. Diese parametrische Beschreibung ermöglicht eine starke Bitratenreduktion in Audiocodierern, da nur ein einziges Mono-Signal übertragen zu werden braucht, dies kombiniert mit (quantisierten) Parameter, welche die räumlichen Eigenschaften des Signals beschreiben. Der Decoder kann den ursprünglichen Betrag der Audiokanäle dadurch formen, dass die räumlichen Parameter angewandt werden. Für nahezu CD-Qualitäts-Stereoaudio scheint eine Bitrate, assoziiert mit diesen räumlichen Parametern von 10 kbit/s oder weniger ausreichend zum Reproduzieren des richtigen räumlichen Eindrucks an dem empfangenden Ende. Diese Bitrate kann dadurch weiter herunter skaliert werden, dass die spektrale und/oder zeitliche Auflösung der räumlichen Parameter reduziert und/oder die räumlichen Parameter unter Anwendung verlustfreier Kompressionsalgorithmen verarbeitet werden.
  • Es sei bemerkt, dass die oben genannten Ausführungsformen die vorliegende Erfindung illustrieren statt begrenzen, und dass der Fachmann imstande sein wird, im Rahmen der beiliegenden Patentansprüche viele alternative Ausführungsformen zu entwerfen.
  • So ist beispielsweise die vorliegende Erfindung primär im Zusammenhang mit einer Ausführungsform beschrieben worden, wobei die zwei Ortsbestimmungshinweise ILD und ITD/IPB verwendet werden. Bei alternativen Ausführungsformen können andere Ortsbestimmungshinweise angewandt werden. Weiterhin können in einer Ausführungsform die ILD, die ITD/IPD, und die Zwischenkanalkreuzkorrelation wie oben beschriebenen ermittelt werden, aber nur die Zwischenkanalkreuzkorrelation wird zusammen mit dem Monosignal übertragen, wodurch weiterhin die erforderliche Bandbreite/Speicherkapazität zur Übertragung/Speicherung des Audiosignals reduziert wird. Auf alternative Art und Weise kann die Zwischenkanalkreuzkorrelation und die ILD oder die ITD/TPD übertragen werden. Bei diesen Ausführungsformen wird das Signal aus dem Monosignal auf Basis nur der übertragenen Parameter synthetisiert.
  • In den Patentansprüchen sollen eingeklammerte Bezugszeichen nicht als den Anspruch begrenzend betrachtet werden. Das Wort "umfassen" schließt das Vorhandensein von Elementen oder Verfahrensschritten anders als diejenigen, die in einem Anspruch genannt sind, nicht aus. Das Wort "ein" vor einem Element schließt das Vorhandensein einer Anzahl derartiger Elemente nicht aus.
  • Die vorliegende Erfindung kann mit Hilfe von Hardware mit verschiedenen einzelnen Elementen, und mit Hilfe eines auf geeignete Art und weise programmierten Computers implementiert werden. In dem Anordnungsanspruch, in dem verschiedene Mittel nummeriert sind, können verschiedene dieser Mittel von ein und demselben Hardware-Item verkörpert werden. Die Tatsache, dass bestimmte Maßnahmen in unter einander verschiedenen Unteransprüchen genannt worden sind, gibt nicht an, das eine Kombination dieser Maßnahmen nicht mit Vorteil angewandt werden kann.

Claims (14)

  1. Verfahren zum Codieren eines Audiosignals, wobei das Verfahren Folgendes umfasst: – das Erzeugen (S8) eines Mono-Signals mit einer Kombination von wenigstens zwei Eingangs-Audiokanälen (L, R), – das Ermitteln (S2, S3, S4) eines Satzes räumlicher Parameter (ILD, ITD, C), hindeutend auf räumliche Eigenschaften der wenigstens zwei Eingangs-Audiokanäle, wobei der Satz räumlicher Parameter einen Parameter (C) aufweist, der ein Maß von Gleichheit von Wellenformen der wenigstens zwei Eingangs-Audiokanäle darstellt, – das Erzeugen (S5, S6, S7, S9) eines codierten Signals mit dem Mono-Signal und mit dem Satz räumlicher Parameter dadurch gekennzeichnet, dass das Maß von Gleichheit einem Wert einer Kreuzkorrelationsfunktion bei einem Maximum der genannten Kreuzkorrelationsfunktion entspricht.
  2. Verfahren nach Anspruch 1, wobei der Verfahrensschritt der Ermittlung eines Satzes räumlicher Parameter, hindeutend auf räumliche Eigenschaften, die Ermittlung eines Satzes räumlicher Parameter als eine Funktion der Zeit und der Frequenz umfasst.
  3. Verfahren nach Anspruch 2, wobei der Verfahrensschritt der Ermittlung eines Satzes räumlicher Parameter, hindeutend auf räumliche Eigenschaften Folgendes umfasst: – das Aufteilen jedes der wenigstens zwei Eingangs-Audiokanäle in entsprechende Anzahlen Frequenzbänder, – das für jedes der vielen Frequenzbänder Ermitteln des Satzes räumlicher Parameter, hindeutend auf räumliche Eigenschaften der wenigstens zwei Eingangs-Audiokanäle innerhalb des entsprechenden Frequenzbandes.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der Satz räumlicher Parameter wenigstens einen Ortsbestimmungshinweis aufweist.
  5. Verfahren nach Anspruch 4, wobei der Satz räumlicher Parameter wenigstens zwei Ortsbestimmungshinweise aufweist, die eine Zwischenkanalpegeldifferenz und eine selektierte Zwischenkanalzeitdifferenz oder eine Zwischenkanalphasendifferenz aufweist.
  6. Verfahren nach Anspruch 4 oder 5, wobei das Maß der Gleichheit Information aufweist, die nicht auf die Ortsbestimmungshinweise entfallen können.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei der Verfahrensschritt der Erzeugung eines codierten Signals, welches das Mono-Signal umfasst und den Satz räumlicher Parameter, die Erzeugung eines Satzes quantisierter räumlicher Parameter umfasst, die je einen entsprechenden Quantisierungsfehler gegenüber dem entsprechenden ermittelten räumlichen Parameter einführt, wobei wenigstens einer der eingeführten Quantisierungsfehler gesteuert wird um von einem Wert wenigstens eines der ermittelten räumlichen Parameter abhängig zu sein.
  8. Codierer zur Codierung eines Audiosignals, wobei der Codierer Folgendes umfasst: – Mittel zum Erzeugen eines Mono-Signals mit einer Kombination wenigstens zweier Eingangs-Audiosignale, – Mittel zum Ermitteln eines Satzes räumlicher Parameter, hinweisend auf räumliche Eigenschaften der wenigstens zwei Eingangs-Audiokanäle, wobei der Satz räumlicher Parameter einen Parameter aufweist, der ein Maß der Gleichheit von Wellenformen der wenigstens zwei Eingangs-Audiokanäle darstellt, und – Mittel zum Erzeugen eines codierten Signals mit dem Mono-Signal und dem Satz räumlicher Parameter, dadurch gekennzeichnet, dass das Maß der Gleichheit einem Wert einer Kreuzkorrelationsfunktion bei einem Maximum der genannten Kreuzkorrelationsfunktion entspricht.
  9. Anordnung zum Liefern eines Audiosignals, wobei diese Anordnung Folgendes umfasst: – einen Eingang zum Empfangen eines Audiosignals, – einen Codierer nach Anspruch 8 zum Codieren des Audiosignals zum Erhalten eines codierten Audiosignals, und – einen Ausgang zum Liefern des codierten Audiosignals.
  10. Codiertes Audiosignal, wobei das Signal Folgendes umfasst: – ein Mono-Signal mit einer Kombination wenigstens zweier Audiokanäle, und – einen Satz räumlicher Parameter, hindeutend auf räumliche Eigenschaften der wenigstens zwei Eingangs-Audiokanäle, wobei der Satz räumlicher Parameter einen Parameter aufweist, der ein Maß der Gleichheit von Wellenformen der wenigstens zwei Eingangs-Audiokanäle darstellt, dadurch gekennzeichnet, dass das Maß der Gleichheit einem Wert einer Kreuzkorrelationsfunktion bei einem Maximum der genannten Kreuzkorrelationsfunktion entspricht.
  11. Speichermedium, auf dem ein codiertes Signal nach Anspruch 10 gespeichert ist.
  12. Verfahren zum Decodieren eines codierten Audiosignals, wobei das Verfahren Folgendes umfasst: – das Erhalten (210) eines Mono-Signals (S) aus dem codierten Audiosignal (203), wobei das Mono-Signal eine Kombination wenigstens zweier Audiokanäle (L, R) aufweist, – das Erhalten (210) eines Satzes räumlicher Parameter (P) aus dem codierten Audiosignal, und – das Erzeugen (211) eines Mehrkanal-Ausgangssignals aus dem Mono-Signal und den räumlichen Parametern, wobei der Satz räumlicher Parameter einen Parameter aufweist, der ein Maß der Gleichheit von Wellenformen des Mehrkanal-Ausgangssignals darstellt, dadurch gekennzeichnet, dass das Maß der Gleichheit einem Wert einer Kreuzkorrelationsfunktion bei einem Maximum der genannten Kreuzkorrelationsfunktion des Mehrkanal-Ausgangssignals entspricht.
  13. Decoder (202) zum Decodieren eines codierten Audiosignals, wobei der Decoder Folgendes umfasst: – Mittel (210) zum Erhalten eines Mono-Signals aus dem codierten Audiosignal, wobei das Mono-Signal (S) eine Kombination wenigstens zweier Audiokanäle (L, R) aufweist, und – Mittel (210) zum Erhalten eines Satzes räumlicher Parameter (P) aus dem codierten Audiosignal, und – Mittel zum Erzeugen (211) eines Mehrkanal-Ausgangssignals aus dem Mono-Signal und den räumlichen Parameter, wobei der Satz räumlicher Parameter einen Parameter aufweist, der ein Maß der Gleichheit von Wellenformen des Mehrkanal-Ausgangssignals darstellt dadurch gekennzeichnet, dass das Maß der Gleichheit einem Wert einer Kreuzkorrelationsfunktion bei einem Maximum der genannten Kreuzkorrelationsfunktion des Mehrkanal-Ausgangssignals entspricht.
  14. Anordnung zum Liefern eines decodierten Audiosignals, wobei die Anordnung Folgendes umfasst: – einen Eingang zum Empfangen eines codierten Audiosignals, – eine Decoder nach Anspruch 13 zum Decodieren des codierten Audiosignals zum Erhalten eines Mehrkanal-Ausgangssignals, und – einen Ausgang zum Liefern oder Wiedergeben des Mehrkanal-Ausgangssignals.
DE2003618835 2002-04-22 2003-04-22 Parametrische darstellung von raumklang Expired - Lifetime DE60318835T2 (de)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP02076588 2002-04-22
EP02076588 2002-04-22
EP02077863 2002-07-12
EP02077863 2002-07-12
EP02079303 2002-10-14
EP02079303 2002-10-14
EP02079817 2002-11-20
EP02079817 2002-11-20
PCT/IB2003/001650 WO2003090208A1 (en) 2002-04-22 2003-04-22 pARAMETRIC REPRESENTATION OF SPATIAL AUDIO

Publications (2)

Publication Number Publication Date
DE60318835D1 DE60318835D1 (de) 2008-03-13
DE60318835T2 true DE60318835T2 (de) 2009-01-22

Family

ID=29255420

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60326782T Expired - Lifetime DE60326782D1 (de) 2002-04-22 2003-04-22 Dekodiervorrichtung mit Dekorreliereinheit
DE2003618835 Expired - Lifetime DE60318835T2 (de) 2002-04-22 2003-04-22 Parametrische darstellung von raumklang

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE60326782T Expired - Lifetime DE60326782D1 (de) 2002-04-22 2003-04-22 Dekodiervorrichtung mit Dekorreliereinheit

Country Status (11)

Country Link
US (3) US8340302B2 (de)
EP (2) EP1500084B1 (de)
JP (3) JP4714416B2 (de)
KR (2) KR101016982B1 (de)
CN (1) CN1307612C (de)
AT (2) ATE426235T1 (de)
AU (1) AU2003219426A1 (de)
BR (2) BR0304540A (de)
DE (2) DE60326782D1 (de)
ES (2) ES2300567T3 (de)
WO (1) WO2003090208A1 (de)

Families Citing this family (160)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
ES2280736T3 (es) * 2002-04-22 2007-09-16 Koninklijke Philips Electronics N.V. Sintetizacion de señal.
DE60326782D1 (de) * 2002-04-22 2009-04-30 Koninkl Philips Electronics Nv Dekodiervorrichtung mit Dekorreliereinheit
EP1606797B1 (de) 2003-03-17 2010-11-03 Koninklijke Philips Electronics N.V. Verarbeitung von mehrkanalsignalen
FR2853804A1 (fr) * 2003-07-11 2004-10-15 France Telecom Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US20070168183A1 (en) * 2004-02-17 2007-07-19 Koninklijke Philips Electronics, N.V. Audio distribution system, an audio encoder, an audio decoder and methods of operation therefore
DE102004009628A1 (de) 2004-02-27 2005-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Beschreiben einer Audio-CD und Audio-CD
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
CA2808226C (en) * 2004-03-01 2016-07-19 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
BRPI0509100B1 (pt) * 2004-04-05 2018-11-06 Koninl Philips Electronics Nv Codificador de multicanal operável para processar sinais de entrada, método paracodificar sinais de entrada em um codificador de multicanal
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1600791B1 (de) * 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Lokalisierung einer Schallquelle mittels binauraler Signale
EP1768107B1 (de) 2004-07-02 2016-03-09 Panasonic Intellectual Property Corporation of America Vorrichtung zum dekodieren von audiosignalen
WO2006006809A1 (en) 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
KR100663729B1 (ko) 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
KR100658222B1 (ko) * 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
TWI497485B (zh) 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US7630396B2 (en) 2004-08-26 2009-12-08 Panasonic Corporation Multichannel signal coding equipment and multichannel signal decoding equipment
CN101010724B (zh) * 2004-08-27 2011-05-25 松下电器产业株式会社 音频编码器
WO2006022124A1 (ja) 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオデコーダ、方法及びプログラム
BRPI0515128A (pt) 2004-08-31 2008-07-08 Matsushita Electric Ind Co Ltd aparelho de geração de sinal estéreo e método de geração de sinal estéreo
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
US8135136B2 (en) * 2004-09-06 2012-03-13 Koninklijke Philips Electronics N.V. Audio signal enhancement
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
US7860721B2 (en) 2004-09-17 2010-12-28 Panasonic Corporation Audio encoding device, decoding device, and method capable of flexibly adjusting the optimal trade-off between a code rate and sound quality
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
EP1817767B1 (de) * 2004-11-30 2015-11-11 Agere Systems Inc. Parametrische raumtonkodierung mit objektbasierten nebeninformationen
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7761304B2 (en) 2004-11-30 2010-07-20 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
JPWO2006059567A1 (ja) * 2004-11-30 2008-06-05 松下電器産業株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
BRPI0519454A2 (pt) * 2004-12-28 2009-01-27 Matsushita Electric Ind Co Ltd aparelho de codificaÇço reescalonÁvel e mÉtodo de codificaÇço reescalonÁvel
WO2006070757A1 (ja) 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (de) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametrische kombinierte Kodierung von Audio-Quellen
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
CN101147191B (zh) 2005-03-25 2011-07-13 松下电器产业株式会社 语音编码装置和语音编码方法
KR101271069B1 (ko) 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
CN101151659B (zh) * 2005-03-30 2014-02-05 皇家飞利浦电子股份有限公司 多通道音频编码器、设备、方法及其解码器、设备和方法
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
CN101176147B (zh) 2005-05-13 2011-05-18 松下电器产业株式会社 语音编码装置以及频谱变形方法
CN101185117B (zh) * 2005-05-26 2012-09-26 Lg电子株式会社 解码音频信号的方法和装置
WO2006126844A2 (en) 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
KR101251426B1 (ko) * 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
EP1905008A2 (de) * 2005-07-06 2008-04-02 Koninklijke Philips Electronics N.V. Parametrische multikanal-dekodierung
US7966190B2 (en) 2005-07-11 2011-06-21 Lg Electronics Inc. Apparatus and method for processing an audio signal using linear prediction
US8626503B2 (en) 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
KR101492826B1 (ko) * 2005-07-14 2015-02-13 코닌클리케 필립스 엔.브이. 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체
CN101248483B (zh) * 2005-07-19 2011-11-23 皇家飞利浦电子股份有限公司 多声道音频信号的生成
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
WO2007011157A1 (en) * 2005-07-19 2007-01-25 Electronics And Telecommunications Research Institute Virtual source location information based channel level difference quantization and dequantization method
WO2007013784A1 (en) * 2005-07-29 2007-02-01 Lg Electronics Inc. Method for generating encoded audio signal amd method for processing audio signal
JP2009503574A (ja) 2005-07-29 2009-01-29 エルジー エレクトロニクス インコーポレイティド 分割情報のシグナリング方法
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
EP1922722A4 (de) 2005-08-30 2011-03-30 Lg Electronics Inc Verfahren zur dekodierung eines tonsignals
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
EP1912206B1 (de) * 2005-08-31 2013-01-09 Panasonic Corporation Stereokodiereinrichtung, stereodekodiereinrichtung und streokodierverfahren
JP5053849B2 (ja) * 2005-09-01 2012-10-24 パナソニック株式会社 マルチチャンネル音響信号処理装置およびマルチチャンネル音響信号処理方法
CN101351839B (zh) * 2005-09-14 2012-07-04 Lg电子株式会社 解码音频信号的方法和装置
WO2007032648A1 (en) 2005-09-14 2007-03-22 Lg Electronics Inc. Method and apparatus for decoding an audio signal
WO2007037613A1 (en) * 2005-09-27 2007-04-05 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
WO2007043845A1 (en) * 2005-10-13 2007-04-19 Lg Electronics Inc. Method and apparatus for processing a signal
US8019611B2 (en) 2005-10-13 2011-09-13 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
WO2007046659A1 (en) * 2005-10-20 2007-04-26 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
KR100891688B1 (ko) 2005-10-26 2009-04-03 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US7760886B2 (en) 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
WO2007080212A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Controlling the decoding of binaural audio signals
DE602006001051T2 (de) * 2006-01-09 2009-07-02 Honda Research Institute Europe Gmbh Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen
EP1974344A4 (de) 2006-01-19 2011-06-08 Lg Electronics Inc Verfahren und anordnung zum kodieren eines signals
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
JP4966981B2 (ja) 2006-02-03 2012-07-04 韓國電子通信研究院 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置
CN101379553B (zh) * 2006-02-07 2012-02-29 Lg电子株式会社 用于编码/解码信号的装置和方法
JP5054035B2 (ja) 2006-02-07 2012-10-24 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
CA2636330C (en) 2006-02-23 2012-05-29 Lg Electronics Inc. Method and apparatus for processing an audio signal
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
JP2009532712A (ja) 2006-03-30 2009-09-10 エルジー エレクトロニクス インコーポレイティド メディア信号処理方法及び装置
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CA2648237C (en) 2006-04-27 2013-02-05 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
EP1853092B1 (de) 2006-05-04 2011-10-05 LG Electronics, Inc. Verbesserung von Stereo-Audiosignalen mittels Neuabmischung
EP1862813A1 (de) * 2006-05-31 2007-12-05 Honda Research Institute Europe GmbH Verfahren zur Kalkulation der Position einer Schallquelle für Online-Kalibrierung von Hörsignalen zu Standorttransformationen
EP2048658B1 (de) * 2006-08-04 2013-10-09 Panasonic Corporation Stereoaudio-kodierungseinrichtung, stereoaudio-dekodierungseinrichtung und verfahren dafür
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
WO2008039041A1 (en) 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101479787B (zh) * 2006-09-29 2012-12-26 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
EP2084901B1 (de) 2006-10-12 2015-12-09 LG Electronics Inc. Vorrichtung zum verarbeiten eines mischsignals und verfahren dafür
RU2413357C2 (ru) 2006-10-20 2011-02-27 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка динамических свойств аудио с использованием перенастройки
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
JP5450085B2 (ja) 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
KR101062353B1 (ko) 2006-12-07 2011-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
WO2008096313A1 (en) * 2007-02-06 2008-08-14 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
CN101627425A (zh) * 2007-02-13 2010-01-13 Lg电子株式会社 用于处理音频信号的装置和方法
CA2645915C (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP4277234B2 (ja) * 2007-03-13 2009-06-10 ソニー株式会社 データ復元装置、データ復元方法及びデータ復元プログラム
KR101100213B1 (ko) 2007-03-16 2011-12-28 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
EP2278582B1 (de) * 2007-06-08 2016-08-10 LG Electronics Inc. Verfahren und vorrichtung zum verarbeiten eines audiosignals
CN102436822B (zh) * 2007-06-27 2015-03-25 日本电气株式会社 信号控制装置及其方法
JP5363488B2 (ja) * 2007-09-19 2013-12-11 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・オーディオのジョイント強化
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
MX2010004220A (es) * 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
EP2214162A1 (de) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aufwärtsmischer, Verfahren und Computerprogramm zur Aufwärtsmischung eines Downmix-Tonsignals
ES2452569T3 (es) * 2009-04-08 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase
JP5678048B2 (ja) * 2009-06-24 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
CN102812511A (zh) * 2009-10-16 2012-12-05 法国电信公司 优化的参数立体声解码
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
CN102696070B (zh) * 2010-01-06 2015-05-20 Lg电子株式会社 处理音频信号的设备及其方法
JP5333257B2 (ja) 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
EP2532178A1 (de) * 2010-02-02 2012-12-12 Koninklijke Philips Electronics N.V. Raumklangwiedergabe
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
WO2011104146A1 (en) * 2010-02-24 2011-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
US9628930B2 (en) * 2010-04-08 2017-04-18 City University Of Hong Kong Audio spatial effect enhancement
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN102314882B (zh) * 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
BR112013004362B1 (pt) * 2010-08-25 2020-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para a geração de um sinal descorrelacionado utilizando informação de fase transmitida
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
US9299355B2 (en) 2011-08-04 2016-03-29 Dolby International Ab FM stereo radio receiver by using parametric stereo
BR122021018240B1 (pt) * 2012-02-23 2022-08-30 Dolby International Ab Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2717262A1 (de) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codierer, Decodierer und Verfahren für signalabhängige Zoomumwandlung beim Spatial-Audio-Object-Coding
US10219093B2 (en) * 2013-03-14 2019-02-26 Michael Luna Mono-spatial audio processing to provide spatial messaging
KR102268933B1 (ko) * 2013-03-15 2021-06-25 디티에스, 인코포레이티드 다수의 오디오 스템들로부터의 자동 다-채널 뮤직 믹스
EP3528249A1 (de) 2013-04-05 2019-08-21 Dolby International AB Stereoaudiocodierer und -decodierer
EP2987166A4 (de) * 2013-04-15 2016-12-21 Nokia Technologies Oy Bestimmer für mehrkanaligen audiosignalcodierermodus
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
KR101805327B1 (ko) 2013-10-21 2017-12-05 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
EP2963646A1 (de) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodierer und Verfahren zur Decodierung eines Audiosignals, Codierer und Verfahren zur Codierung eines Audiosignals
EP3165000A4 (de) * 2014-08-14 2018-03-07 Rensselaer Polytechnic Institute Binaural integrierter kreuzkorrelationsautokorrelationsmechanismus
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
PL3707706T3 (pl) * 2017-11-10 2021-11-22 Nokia Technologies Oy Określanie kodowania przestrzennego parametrów dźwięku i związane z tym dekodowanie
CN111065040A (zh) * 2020-01-03 2020-04-24 天域全感音科技有限公司 一种单声道音频信号处理装置及方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (nl) * 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JPH0454100A (ja) * 1990-06-22 1992-02-21 Clarion Co Ltd 音声信号補償回路
GB2252002B (en) * 1991-01-11 1995-01-04 Sony Broadcast & Communication Compression of video signals
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
GB2258781B (en) * 1991-08-13 1995-05-03 Sony Broadcast & Communication Data compression
FR2688371B1 (fr) * 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
JPH09274500A (ja) * 1996-04-09 1997-10-21 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化方法
DE19647399C1 (de) 1996-11-15 1998-07-02 Fraunhofer Ges Forschung Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
GB9726338D0 (en) 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
GB2353926B (en) 1999-09-04 2003-10-29 Central Research Lab Ltd Method and apparatus for generating a second audio signal from a first audio signal
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
DE60326782D1 (de) * 2002-04-22 2009-04-30 Koninkl Philips Electronics Nv Dekodiervorrichtung mit Dekorreliereinheit

Also Published As

Publication number Publication date
ES2300567T3 (es) 2008-06-16
DE60318835D1 (de) 2008-03-13
EP1500084B1 (de) 2008-01-23
EP1881486B1 (de) 2009-03-18
US20090287495A1 (en) 2009-11-19
EP1500084A1 (de) 2005-01-26
JP5101579B2 (ja) 2012-12-19
KR20100039433A (ko) 2010-04-15
KR20040102164A (ko) 2004-12-03
CN1647155A (zh) 2005-07-27
US8331572B2 (en) 2012-12-11
DE60326782D1 (de) 2009-04-30
US20130094654A1 (en) 2013-04-18
JP4714416B2 (ja) 2011-06-29
KR100978018B1 (ko) 2010-08-25
JP2005523480A (ja) 2005-08-04
JP2009271554A (ja) 2009-11-19
ATE385025T1 (de) 2008-02-15
ATE426235T1 (de) 2009-04-15
JP2012161087A (ja) 2012-08-23
US8340302B2 (en) 2012-12-25
EP1881486A1 (de) 2008-01-23
WO2003090208A1 (en) 2003-10-30
AU2003219426A1 (en) 2003-11-03
US20080170711A1 (en) 2008-07-17
CN1307612C (zh) 2007-03-28
BRPI0304540B1 (pt) 2017-12-12
US9137603B2 (en) 2015-09-15
BR0304540A (pt) 2004-07-20
ES2323294T3 (es) 2009-07-10
KR101016982B1 (ko) 2011-02-28
JP5498525B2 (ja) 2014-05-21

Similar Documents

Publication Publication Date Title
DE60318835T2 (de) Parametrische darstellung von raumklang
DE602004002390T2 (de) Audiocodierung
DE602005006385T2 (de) Vorrichtung und verfahren zum konstruieren eines mehrkanaligen ausgangssignals oder zum erzeugen eines downmix-signals
DE602004004168T2 (de) Kompatible mehrkanal-codierung/-decodierung
DE60311794T2 (de) Signalsynthese
DE602006000239T2 (de) Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter
DE69214523T2 (de) Dekodierer für variable anzahl von kanaldarstellungen mehrdimensionaler schallfelder
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE60306512T2 (de) Parametrische beschreibung von mehrkanal-audio
DE602004004818T2 (de) Audiosignalcodierung oder -decodierung
DE69331428T2 (de) Kodierung und Dekodierung digitaler Signale
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE69603166T2 (de) Verfahren und vorrichtung zur effizienten implementierung von einseitenband-filterbänken, die genaue werte der spektralen amplitude und phase erzeugen
EP1763870B1 (de) Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69323106T2 (de) Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen
DE602004007945T2 (de) Codierung von audiosignalen
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE602004005846T2 (de) Audiosignalgenerierung
DE69230308T2 (de) Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE60024729T2 (de) System und verfahren zum effizienten antialiasing im zeitbereich (tdac)
EP0642719B1 (de) Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer voneinander abhängiger kanäle
DE69823557T2 (de) Schnelle frequenztransformationstechnik für transform audio koder
DE69522883T2 (de) Vorrichtung zur bestimmung des signalspektrums eines digitalen breitbandsignals und zur ableitung einer bitzuweisungsinformation

Legal Events

Date Code Title Description
8364 No opposition during term of opposition