DE112021004444T5

DE112021004444T5 - Stereobasierte immersive codierung (stic)

Info

Publication number: DE112021004444T5
Application number: DE112021004444.3T
Authority: DE
Inventors: Frank Baumgarte
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-08-27
Filing date: 2021-08-20
Publication date: 2023-06-22
Also published as: US20230274747A1; CN115989682A; WO2022046533A1; GB2611733A

Abstract

Offenbart wird ein Audiocodec, der ein immersives Signal durch ein Zweikanalstereosignal, das ein Stereo-Rendern des immersiven Signals ist, und Richtungsparameter darstellt. Die Richtungsparameter können auf einem perzeptiven Modell basieren, das die Richtung virtueller Lautsprecherpaare beschreibt, um die wahrgenommene Position dominanter Klänge wiederherzustellen. Die Audioverarbeitung an dem Decodierer kann an dem Stereosignal in der Frequenzdomäne für mehrere Kanalpaare unter Verwendung von Zeit-Frequenz-Kacheln durchgeführt werden. Die räumliche Lokalisierung der Audiosignale kann einen Panning-Ansatz verwenden, indem Gewichtungen auf die Zeit-Frequenz-Kacheln des Stereosignals für jedes Ausgangskanalpaar angewendet werden. Die Gewichtungen für die Zeit-Frequenz-Kacheln können basierend auf den Richtungsparametern, einer Analyse des Stereosignals und dem Ausgangskanallayout abgeleitet werden. Die Gewichtungen können verwendet werden, um die Zeit-Frequenz-Kacheln unter Verwendung eines Dekorrelators adaptiv zu verarbeiten, um Spektralverzerrungen aus dem räumlichen Rendern zu reduzieren oder zu minimieren.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht den Vorteil der am 27. August 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/071,149 , deren Offenbarung hierin durch Verweis in Ihrer Gesamtheit aufgenommen wird.
GEBIET
Diese Offenbarung bezieht sich auf das Gebiet der Audiokommunikation; und insbesondere auf digitale Signalverarbeitungsverfahren, die dazu ausgelegt sind, einen immersiven Audioinhalt unter Verwendung von Stereosignalen zu liefern. Es werden auch andere Gesichtspunkte beschrieben.
HINTERGRUND
Unterhaltungselektronikvorrichtungen stellen digitale Audiocodier- und -decodierfähigkeiten von zunehmender Komplexität und Leistung bereit. Herkömmlicherweise wird der Audioinhalt hauptsächlich unter Verwendung eines Zweikanalstereoformats, das einen linken und einen rechten Audiokanal bereitstellt, erzeugt, verteilt und konsumiert. Neuere Marktentwicklungen zielen darauf ab, eine immersivere Hörererfahrung unter Verwendung von reicheren Audioformaten bereitzustellen, die Mehrkanalaudio, objektbasiertes Audio und/oder Ambisonics unterstützen, beispielsweise Dolby Atmos oder MPEG-H.
Der Lieferung immersiver Audioinhalte ist ein Bedarf nach einer größeren Bandbreite zugeordnet, d. h. eine erhöhte Datenrate für Streaming und Download verglichen mit Stereoinhalten. Wenn die Bandbreite begrenzt ist, werden Techniken gewünscht, um die Audiodatengröße zu reduzieren, während die bestmögliche Audioqualität beibehalten wird. Ein gemeinsamer Bandbreitenreduzierungsansatz in der perzeptiven Audiocodierung nutzt vorteilhaft die perzeptiven Eigenschaften des Hörens, um die Audioqualität beizubehalten. Zum Beispiel kann die Audiocodierung bei den niedrigsten Bitraten parametrische Ansätze vorteilhaft nutzen, die eine bitrateneffiziente Codierung bestimmter Klangmerkmale ermöglichen, sodass die Merkmale in dem Decodierer annähernd wiederhergestellt werden können. Beispiele für die parametrische Umgebungsaudiocodierung sind MPEG Surround oder Binaural Cue Coding (BCC), die räumliche Parameter verwenden können, um ein Mehrkanalaudiosignal von einem Monoaudiosignal wiederherzustellen. Um reichere und immersivere Audioinhalte unter Verwendung begrenzter Bandbreite zu liefern, sind andere Audiocodierungs- und -decodierungstechniken (Codec-Techniken) erwünscht.
KURZDARSTELLUNG
Offenbart werden Gesichtspunkte eines neuen immersiven Audiocodecs, der ein immersives Audioerlebnis basierend auf einem Zweikanalstereosignal und Richtungsparametern wiederherstellen kann. Das Stereosignal ist ein hochwertiges Stereo-Rendern des immersiven Audiosignals, und die Richtungsparameter können auf einem perzeptiven Modell basieren, das Parameter ableitet, die die wahrgenommene Richtung dominanter Klänge beschreiben. Das immersive Audiosignal kann Mehrkanalaudio, Audioobjekte oder übergeordnete Ambiosonics (HOA) einschließen, die ein Klangfeld basierend auf Kugelflächenfunktionen beschreiben. Wenn zum Beispiel das immersive Audiosignal ein Mehrkanaleingang von mehr als zwei Kanälen ist, kann er zu einem Stereosignal abwärtsgemischt werden. Wenn das immersive Audiosignal Audioobjekte oder HOA-Komponenten darstellt, können die Objekte oder HOA-Komponenten zu einem Stereosignal gerendert werden. Das Stereosignal und die Richtungsparameter können codiert und von einem Codierer an einen Decodierer zur Rekonstruktion und Wiedergabe übertragen werden.
An dem Decodierer kann das decodierte Stereosignal von der Zeitdomäne in die Frequenzdomäne umgewandelt werden und in Zeit-Frequenz-Kacheln geteilt werden. Die linken und rechten Signale der Zeit-Frequenz-Kacheln können parallel durch mehrere Verarbeitungseinheiten verarbeitet werden, wobei jede Verarbeitungseinheit einem Paar Wiedergabekanäle oder Lautsprecher zugeordnet ist. Gewichtungsfaktoren können auf die Kacheln angewendet werden, um die entsprechenden gewichteten Zeit-Frequenz-Kacheln für das Ausgangskanalpaar zu erzeugen. Angesichts des Wiedergabekanallayouts können die Gewichtungsfaktoren gesteuert werden, um eine wahrgenommene Richtung zu erzeugen, aus der das Audiosignal der Zeit-Frequenz-Kachel in dem Mehrkanalwiedergabesystem durch räumliches Rendering gehört wird. Die von dem Codierer kommend empfangenen Richtungsparameter können wahrgenommene Richtungen dominanter Klänge in den Teilbändern der Zeit-Frequenz-Kacheln darstellen und können von dem Decodierer verwendet werden, um die Gewichtungsfaktoren zu steuern.
In einem Gesichtspunkt kann der Decodierer die Gewichtungsfaktoren basierend auf einer Analyse des Stereosignals und der Richtungsparameter steuern, um die Korrelation zwischen Kanalpaaren zu reduzieren. Dekorrelation kann angewendet werden, um Kammfiltereffekte zu reduzieren, die große Bildverschiebungen in den wahrgenommenen Audiosignalen verursachen können, wenn sich der Hörer bewegt. Diese Effekte können in Audiosignalen mit glatter Hüllkurve und hohem Prädiktionsgewinn ausgeprägt sein. Der Decodierer kann das Stereosignal und die Richtungsparameter analysieren, um die Gewichtungsfaktoren für die Dekorrelation zu erzeugen und um die Menge an Dekorrelation für jede Zeit-Frequenz-Kachel zu schätzen. Um Verzerrungen aufgrund des räumlichen Renderns, wie instabile Bilder, die durch das Vorhandensein gleichzeitiger Quellen in verschiedenen Richtungen verursacht werden, oder die zeitliche Verwischung des Ansprechvorgangs durch Signale des Einschwingvorgangs abzuschwächen, kann der Decodierer die zeitliche Fluktuation der dominanten wahrgenommenen Richtung in den Teilbändern der Zeit-Frequenz-Kacheln schätzen, um die Erzeugung der Gewichtungsfaktoren zu steuern.
Nach dem Anwenden der Gewichtungsfaktoren auf die Zeit-Frequenz-Kacheln der Kanalpaare für das räumliche Rendern werden die gewichteten Zeit-Frequenz-Kacheln zusammengeführt, um die linken und rechten Signale jedes Kanalpaars von der Frequenzdomäne zurück in die Zeitdomäne umzuwandeln. Die Zeitdomänensignale für die Kanalpaare können kombiniert werden, um die Signale für die Lautsprecher des Mehrkanalwiedergabesystems zu erzeugen. In einem Gesichtspunkt kann das Stereosignal als Rückfallaudiosignal für Systeme verwendet werden, die nicht fähig sind, die Richtungsparameter zu decodieren, die nur ein Stereowiedergabesystem aufweisen, oder wo ein Stereosignal für eine Kopfhörerwiedergabe bevorzugt wird.
Vorteilhafterweise reduzieren Gesichtspunkte der Offenbarung die Anzahl der Audiokanäle, die auf zwei Kanäle übertragen werden, um Bitratenreduktion bereitzustellen. Für die Richtungsparameter verwendet sie nur eine geringe Menge an Seiteninformationen, die signifikant niedriger sind als die Bitrate, die für einen einzelnen Audiokanal benötigt wird. Die Signalverarbeitung wird basierend auf den Richtungsparametern und einer Analyse des Stereosignals durchgeführt, um Spektralverzerrungen aufgrund von räumlichem Rendern unter Verwendung von Techniken wie einem zeitlichen Glätten der Gewichtungsfaktoren und Dekorrelationen zu reduzieren oder zu minimieren. Die Audioqualität des immersiven Audioinhalts kann verbessert werden, während eine Bitratenreduktion erreicht wird.
In einem Gesichtspunkt wird ein Verfahren zum Codieren von Audioinhalt offenbart. Das Verfahren schließt ein Erzeugen eines Zweikanalstereosignals aus dem Audioinhalt wie ein immersives Audiosignal ein. Das Verfahren schließt auch ein Erzeugen von Richtungsparametern basierend auf dem Audioinhalt ein. Die Richtungsparameter beschreiben die optimale Richtung der virtuellen Lautsprecherpaare, um die wahrgenommene dominante Klangposition des Audioinhalts in mehreren Frequenzteilbändern wiederherzustellen. Das Verfahren schließt ferner ein Übertragen des Zweikanalstereosignals und der Richtungsparameter über einen Kommunikationskanal zu einer Decodierungsvorrichtung ein
In einem Gesichtspunkt wird ein Verfahren zum Decodieren von Audioinhalt offenbart. Das Verfahren schließt ein Empfangen eines Zweikanalstereosignals und von Richtungsparametern von einer Codierungsvorrichtung kommend ein. Die Richtungsparameter beschreiben die optimale Richtung der virtuellen Lautsprecherpaare, um die wahrgenommene dominante Klangposition des Audioinhalts wiederherzustellen, der durch das Zweikanalstereosignal in einer Anzahl von Frequenzteilbändern dargestellt wird. Das Verfahren schließt auch ein Erzeugen mehrerer Zeit-Frequenz-Kacheln für eine Anzahl von Kanalpaaren eines Wiedergabesystems aus dem Zweikanalstereosignal ein. Die mehreren Zeit-Frequenz-Kacheln stellen eine Frequenzdomänendarstellung jedes Kanals des Zweikanalstereosignals in mehreren Frequenzteilbändern dar. Das Verfahren schließt ferner ein Erzeugen von Gewichtungsfaktoren für die mehreren Zeit-Frequenz-Kacheln der mehreren Kanalpaare basierend auf den Richtungsparametern ein. Das Verfahren schließt ferner ein Anwenden der Gewichtungsfaktoren auf die mehreren Zeit-Frequenz-Kacheln ein, um die Zeit-Frequenz-Kacheln über die mehreren Kanalpaare des Wiedergabesystems räumlich zu rendern.
Die vorstehende Kurzdarstellung schließt keine erschöpfende Aufzählung aller Gesichtspunkte der vorliegenden Erfindung ein. Die Erfindung soll alle in die Praxis umsetzbaren Systeme und Verfahren aus allen geeigneten Kombinationen der oben zusammengefassten, verschiedenen Gesichtspunkte einschließen, ebenso wie solche, die in der nachstehenden detaillierten Beschreibung offenbart werden und die in den mit der Anmeldung eingereichten Ansprüchen ausdrücklich genannt sind. Solche Kombinationen weisen bestimmte Vorteile auf, die in der vorstehenden Kurzdarstellung nicht spezifisch angegeben sind.
Figurenliste
Verschiedene Gesichtspunkte der Offenbarung hier werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezüge gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Bezüge auf „einen“ Gesichtspunkt in dieser Offenbarung nicht notwendigerweise auf den gleichen Gesichtspunkt beziehen, und sie bedeuten mindestens einen. Außerdem kann der Kürze halber und zur Reduzierung der Gesamtzahl von Figuren eine gegebene Figur verwendet werden, um die Merkmale von mehr als einem Gesichtspunkt der Offenbarung zu veranschaulichen, und möglicherweise sind nicht alle Elemente in der Figur für einen gegebenen Gesichtspunkt erforderlich.

1 ist ein Funktionsblockdiagramm eines stereobasierten immersiven Audiocodierungssystems gemäß einem Gesichtspunkt der Offenbarung.
2 stellt eine Draufsicht auf ein Layout mit fünf Lautsprechern gemäß einem Gesichtspunkt der Offenbarung dar.
3 stellt Phantombildpositionen von wahrgenommenen Audioquellen aus einem Layout mit fünf Lautsprechern gemäß einem Gesichtspunkt der Offenbarung dar.
4 ist ein Funktionsblockdiagramm eines stereobasierten immersiven Audiocodierungssystems, das Verarbeitungsmodule einschließt, um Verzerrungen aus dem räumlichen Rendern gemäß einem Gesichtspunkt der Offenbarung zu reduzieren oder zu minimieren.
5 ist ein Funktionsblockdiagramm eines perzeptiven Modells des stereobasierten immersiven Audiocodierungssystems, das verwendet wird, um die Richtungsparameter gemäß einem Gesichtspunkt der Offenbarung zu schätzen.
6 ist ein Funktionsblockdiagramm eines perzeptiven Modells des stereobasierten immersiven Audiocodierungssystems, das verwendet wird, um die Richtungsparameter basierend auf einer kanalbasierten Eingabe gemäß einem Gesichtspunkt der Offenbarung zu schätzen.
7 stellt eine Verwendung eines virtuellen Kanalpaares für ein Objektrendern dar, wenn das perzeptive Modell des stereobasierten immersiven Audiocodierungssystems den Azimut/die Elevation des virtuellen Kanalpaares als Metadaten gemäß einem Gesichtspunkt der Offenbarung verwendet.
8 ist ein Funktionsblockdiagramm der Decodiererverarbeitung von Kanalpaaren des stereobasierten immersiven Audiocodierungssystems gemäß einem Gesichtspunkt der Offenbarung.
9 ist ein Funktionsblockdiagramm des Audioanalysemoduls des stereobasierten immersiven Audiocodierungssystems, das verwendet wird, um die Gewichtungsfaktoren gemäß einem Gesichtspunkt der Offenbarung anzupassen.
10 ist ein Funktionsblockdiagramm des Gewichtungssteuermoduls, das verwendet wird, um die Gewichtungsfaktoren für die Zeit-Frequenz-Kacheln gemäß einem Gesichtspunkt der Offenbarung zu erzeugen.
11 stellt ein Abwärtsmischen von Audiokanälen für mehrere Sektoren eines Layouts mit sieben Lautsprechern gemäß einem Gesichtspunkt der Offenbarung dar.
12 ist ein Funktionsblockdiagramm eines stereobasierten immersiven Audiocodierungssystems, das mehrere Segmente oder Sektoren eines Lautsprechersystems gemäß einem Gesichtspunkt der Offenbarung codiert und decodiert.
13 ist ein Funktionsblockdiagramm eines hybriden stereobasierten immersiven Audiocodierungssystems, das Einzelkanäle, wie einen Mittelkanal, codiert und decodiert, unabhängig von anderen Kanälen, die unter Verwendung des STIC-Systems codiert und decodiert werden, gemäß einem Gesichtspunkt der Offenbarung.
14 ist ein Flussdiagramm eines Verfahrens einer codiererseitigen Verarbeitung eines stereobasierten immersiven Audiocodierungssystems, um ein Stereosignal und Richtungsparameter aus einem immersiven Audiosignal gemäß einem Gesichtspunkt der Offenbarung zu erzeugen.
15 ist ein Flussdiagramm eines Verfahrens einer decodiererseitigen Verarbeitung eines stereobasierten immersiven Audiocodierungssystems, um ein immersives Audiosignal für ein Mehrkanalwiedergabesystem gemäß einem Gesichtspunkt der Offenbarung zu rekonstruieren.

DETAILLIERTE BESCHREIBUNG
Es ist wünschenswert, einen immersiven Audioinhalt über einen Übertragungskanal begrenzter Bandbreite von einer Audioquelle zu einem Wiedergabesystem bereitzustellen, während die bestmögliche Audioqualität beibehalten wird. Der immersive Audioinhalt kann Mehrkanalaudio, Audioobjekte oder räumliche Audiorekonstruktionen einschließen, die als Ambisonics bekannt sind, die ein Klangfeld basierend auf Kugelflächenfunktionen beschreiben, die verwendet werden können, um das Klangfeld für die Wiedergabe wiederherzustellen. Ambisonics können Kugelflächenfunktionen erster Ordnung oder höherer Ordnung einschließen, auch bekannt als Ambisonics höherer Ordnung (HOA). Der immersive Audioinhalt kann in einen Audioinhalt einer niedrigeren Bitrate gerendert werden, und die räumlichen Parameter können erzeugt werden, um die perzeptiven Eigenschaften des Gehörs vorteilhaft zu nutzen. Ein Codierer kann den Audioinhalt einer niedrigeren Bitrate und die räumlichen Parameter über den begrenzten Bandbreitenkanal übertragen, um zu ermöglichen, dass ein Decodierer die immersive Audioerfahrung rekonstruiert.
Systeme und Verfahren werden für eine immersive Audiocodierungstechnik offenbart, die eine immersive Audioerfahrung basierend auf einem Zweikanalstereosignal und Richtungsparametern wiederherstellt. Die Audioverarbeitung an dem Decodierer kann auf den linken und rechten Signalen des Stereosignals in der Frequenzdomäne für mehrere Kanalpaare unter Verwendung von Zeit-Frequenz-Kacheln durchgeführt werden. Die Richtungsparameter können die optimale Richtung der virtuellen Lautsprecherpaare angeben, um die wahrgenommene dominante Klangposition für die Zeit-Frequenz-Kacheln wiederherzustellen. Die räumliche Lokalisierung der decodierten Audiosignale kann einen Panning-Ansatz des Stereosignals in der Mittelebene zwischen Kanalpaaren eines Mehrkanalwiedergabesystems verwenden, indem Gewichtungsfaktoren auf die Zeit-Frequenz-Kacheln des Stereosignals für jedes Ausgangskanalpaar angewendet werden. Der Decodierer kann die Gewichtungsfaktoren für die Zeit-Frequenz-Kacheln basierend auf den Richtungsparametern ableiten, die die Richtungen des virtuellen Lautsprechers, eine Analyse des decodierten Stereosignals und das Ausgangskanallayout beschreiben. Die Gewichtungsfaktoren können verwendet werden, um die Zeit-Frequenz-Kacheln unter Verwendung eines Dekorrelierers adaptiv zu verarbeiten, um Spektralverzerrungen aus dem räumlichen Rendern der Codierungstechnik zu reduzieren oder zu minimieren.
In der folgenden Beschreibung werden zahlreiche spezifische Details dargelegt. Es versteht sich jedoch, dass Gesichtspunkte der vorliegenden Offenbarung auch ohne diese spezifischen Details umgesetzt werden können. In anderen Fällen wurden allgemein bekannte Schaltungen, Strukturen und Techniken nicht im Detail gezeigt, um das Verständnis dieser Beschreibung nicht zu erschweren.
Die hierin verwendete Terminologie dient lediglich dem Zweck des Beschreibens besonderer Gesichtspunkte und ist nicht als die Erfindung einschränkend zu verstehen. Raumbezogene Begriffe, wie „unter“, „unterhalb“, „untere/r/s“, „oberhalb“, „obere/r/s“ und dergleichen, können hierin zur einfachen Beschreibung verwendet werden, um die Beziehung eines Elements oder eines Merkmals zu einem weiteren Element, weiteren Elementen, einem weiteren Merkmal oder weiteren Merkmalen, wie in den Figuren veranschaulicht, zu beschreiben. Es versteht sich, dass die raumbezogenen Begriffe dazu gedacht sind, zusätzlich zu der in den Figuren dargestellten Ausrichtung verschiedene Ausrichtungen der Elemente oder Merkmale im Gebrauch oder Betrieb zu erfassen. Wenn zum Beispiel eine Vorrichtung, die mehrere Elemente in den Figuren enthält, umgedreht wird, würden Elemente, die als „unter“ oder „unterhalb von“ anderen Elementen oder Merkmalen beschrieben werden, dann „oberhalb“ der anderen Elemente oder Merkmale ausgerichtet sein. Somit kann der beispielhafte Begriff „unterhalb“ sowohl eine Ausrichtung oberhalb als auch unterhalb umschließen. Die Vorrichtung kann anders ausgerichtet sein (z. B. um 90 Grad gedreht oder in anderen Ausrichtungen), und die hierin verwendeten raumbezogenen Deskriptoren können entsprechend interpretiert werden.
Wie hierin verwendet, sollen die Singularformen „ein“, „eine/r/s“ und „der“, „die“, „das“ auch die Pluralformen einschließen, es sei denn, der Kontext gibt etwas anderes an. Es versteht sich ferner, dass die Begriffe „umfasst“ und/oder „umfassend“ das Vorhandensein von aufgeführten Merkmalen, Schritten, Vorgängen, Elementen oder Komponenten spezifizieren, aber das Vorhandensein oder die Hinzufügung von einem oder mehreren anderen Merkmalen, Schritten, Vorgängen, Elementen, Komponenten oder Gruppen davon nicht ausschließen.
Die Begriffe „oder“ und „und/oder“, wie hierin verwendet, sind als inklusiv oder ein Beliebiges oder eine beliebige Kombination bedeutend zu interpretieren. Daher bedeuten „A, B oder C“ oder „A, B und/oder C“ eines der Folgenden: A; B; C; A und B; A und C; B und C; A, B und C". Eine Ausnahme von dieser Definition tritt nur auf, wenn sich eine Kombination von Elementen, Funktionen, Schritten oder Aktionen auf irgendeine Weise inhärent gegenseitig ausschließt.
1 ist ein Funktionsblockdiagramm eines stereobasierten immersiven Codierungssystems (STIC) gemäß einem Gesichtspunkt der vorliegenden Offenbarung. Die Audioeingabe in das STIC-System kann verschiedene immersive Audioeingabeformate einschließen, wie Mehrkanalaudio, Audioobjekte, HOA. Es versteht sich, dass die HOA auch die Ambisonics erster Ordnung (FOA) einschließen können. Um die Datenbitrate zu reduzieren, kann ein Abwärtsmischer-/Renderermodul 105 die Audioeingabe in ein Zweikanalstereosignal reduzieren. Im Falle einer Mehrkanaleingabe können M Kanäle eines bekannten Eingangskanallayouts vorhanden sein, wie etwa ein 7.1.4-Layout (7 Lautsprecher in der Mittelebene, 4 Lautsprecher in der oberen Ebene, 1 Niederfrequenzeffekte-Lautsprecher (LFE-Lautsprecher)). Das Abwärtsmischer-/Renderermodul 105 kann den Mehrkanaleingang außer dem LFE-Kanal zu einem Stereosignal abwärtsmischen. Im Falle von Audioobjekten können alle M Objekte zuerst von dem Abwärtsmischer/Renderer 105 zu einem Stereosignal gerendert werden. Im Falle von HOA kann es M HOA-Komponenten geben, wobei M von der HOA-Ordnung abhängt. Der Abwärtsmischer/Renderer 105 kann das HOA-Signal zu einem Stereosignal rendern. Das Zweikanalstereosignal kann als die rechten und linken Kanalsignale bezeichnet werden.
Das Stereoaudiosignal kann durch den Codierer eines Audiocodecs 109 codiert werden, um die Audiobitrate zu reduzieren. Der Audiocodec 109 kann beliebige bekannte Codierungs- und Decodierungstechniken verwenden und wird nicht weiter ausgeführt. Ein Parametererzeugungsmodul 107 kann eine räumliche Bildparameterbeschreibung der Audioeingabe erzeugen. Die räumlichen Bildparameter werden von der Decodiererseite oder einem Empfänger des STIC-Systems verwendet, um den immersiven Audioinhalt aus dem Stereosignal zu rekonstruieren. In einem Gesichtspunkt können die räumlichen Bildparameter Parameter sein, die die optimale Richtung virtueller Lautsprecherpaare beschreiben, um die wahrgenommene Position dominanter Klänge wiederherzustellen. In einem Gesichtspunkt können die räumlichen Bildparameter vor der Übertragung codiert werden. Die Codiererseite oder ein Sender des STIC-Systems kann das codierte Stereosignal und die räumlichen Bildparameter über einen bandbreitenbegrenzten Kanal an die Decodiererseite übertragen. In einem Gesichtspunkt kann der bandbreitenbegrenzte Kanal ein drahtgebundenes oder ein drahtloses Kommunikationsmedium sein. In einem anderen Gesichtspunkt kann die Codiererseite das Stereosignal und die räumlichen Bildparameter codieren, um die Dateigröße für die Speicherung zu reduzieren oder zu minimieren. Die Decodiererseite kann später die gespeicherte Datei abrufen, die das codierte Stereosignal und die codierten räumlichen Bildparameter zum Decodieren und Wiedergeben enthält.
An der Decodiererseite kann das codierte Stereosignal durch den Decodierer des Audiocodecs 109 decodiert werden. Ein Zeit-Frequenz-Kachelteiler 111 kann das decodierte Stereosignal von der Zeitdomäne in die Frequenzdomäne umwandeln, wie durch Kurzzeit-Fourier-Transformation (STFT), um B Kacheln über die Frequenzdomäne zu erzeugen. Jede der B Kacheln kann ein Frequenzteilband des decodierten Stereosignals einer bestimmten Zeitdauer darstellen. Die Anzahl der Teilbänder B kann durch die gewünschte spektrale Auflösung bestimmt werden. In einem Gesichtspunkt kann jedes Teilband eine Gruppierung von mehreren Frequenzbereichen aus dem STFT einschließen. In einem Gesichtspunkt kann das decodierte Audiosignal in Blöcke fester Zeitdauer unterteilt werden, die auch als Frame-Größe bezeichnet werden, um durch die B Kacheln in der Frequenzdomäne dargestellt zu werden. Die Frequenzdomänendarstellung des Stereosignals kann in P parallele Verarbeitungspfad geteilt oder kopiert werden, wobei jeder Verarbeitungspfad einem Paar von Wiedergabekanälen oder Lautsprechern zugeordnet sein kann. Somit kann das Stereosignal in PxB Zeit-Frequenz-Kacheln geteilt werden, wobei jede Kachel ein Teilband der Frequenzdomänendarstellung des linken und rechten Kanals des Stereosignals einer Frame-Dauer für ein Paar von Wiedergabekanälen oder Lautsprechern darstellt.
Ein Zeit-Frequenz-Kachel-Gewichtungssteuermodul 115 kann die Gewichtungsfaktoren w(p, b) erzeugen, die auf die entsprechenden PxB Kacheln des Stereosignals angewendet werden, um die gewichteten Zeit-Frequenz-Kacheln für die P Ausgangskanalpaare zu erzeugen. Die Gewichtungsfaktoren w (p, b) steuern das räumliche Rendern, um eine wahrgenommene Richtung zu erzeugen, aus der das Audiosignal der Zeit-Frequenz-Kacheln in dem Mehrkanalwiedergabesystem bei dem gegebenen Wiedergabekanallayout gehört wird. Die von dem Codierer kommend empfangenen Richtungsparameter können die optimale Richtung der virtuellen Lautsprecherpaare darstellen, um die wahrgenommenen Positionen der dominanten Klänge in den Teilbändern der Zeit-Frequenz-Kacheln wiederherzustellen und können durch das Zeit-Frequenz-Kachel-Gewichtungssteuermodul 115 verwendet werden, um die Gewichtungsfaktoren w (p, b) zu steuern.
Ein Zeit-Frequenz-Kachelzusammenführermodul 113 kann die gewichteten PxB Zeit-Frequenz-Kacheln zusammenführen, um die linken und rechten Signale jedes Ausgangskanalpaares von der Frequenzdomäne zurück in die Zeitdomäne umzuwandeln. In einem Gesichtspunkt kann dieser Vorgang die Umkehrung des Vorgangs des Zeit-Frequenz-Kachelteilers 111 sein. Das Zeit-Frequenz-Kachelzusammenführermodul 113 kann die Zeitdomänensignale für die P Ausgangskanalpaare kombinieren, um die Audiosignale für die N Lautsprecher des Mehrkanalwiedergabesystems zu erzeugen. In einem Gesichtspunkt kann die Anzahl der Lautsprecher N nicht 2xP betragen.
2 stellt eine Draufsicht auf ein Layout mit fünf Lautsprechern (N = 5) eines Wiedergabesystems gemäß einem Gesichtspunkt der Offenbarung dar. 2 zeigt ein 5.0-Lautsprecherlayout, bei dem fünf Lautsprecher in der Mittelebene in einer kreisförmigen Anordnung in der horizontalen Ebene relativ zu einem in der Mitte befindlichen Hörer angelegt sind. Ein Kanalpaar, wie es hier verwendet wird, bezieht sich auf die Kanäle, die zwei Lautsprechern zugewiesen sind, die sich symmetrisch links und rechts relativ zu dem nach vorne weisenden Hörer befinden. Zum Beispiel gehören in 2 die den Lautsprechern mit p = 3 zugewiesenen Kanäle zu dem Kanalpaar 3. Um die Beschreibung zu vereinfachen, kann ein einzelner Lautsprecher, der sich in der Mittelebene befindet, zwei zugeordnete Kanäle aufweisen, die hinzugefügt werden, um das Lautsprechersignal bereitzustellen. Somit ist ein solcher Lautsprecher auch einem Kanalpaar zugeordnet (siehe zum Beispiel Lautsprecher mit p = 1 in 2).
Wenn die Gewichtungsfaktoren w (p, b) von 1 für alle Kanalpaare mit Ausnahme von p = 3 auf null gesetzt werden (z. B. wenn w (p, b) für p = 3 auf 1 gesetzt ist), wird das Audiosignal der Zeit-Frequenz-Kachel vollständig zu dem Kanalpaar 3 geleitet, wie durch die Pfeile in 2 gezeigt, und der Hörer wird Klang aus dieser Richtung lokalisieren. Die wahrgenommene Klangposition kann weiter manipuliert werden, indem Nicht-Null-Gewichtungsfaktoren mehr als einem Kanalpaar zugewiesen werden. Wenn zum Beispiel die Gewichtungsfaktoren für die Kanalpaare 2 und 3 den gleichen Wert aufweisen, wird der Klang irgendwo zwischen den Lautsprechern wahrgenommen, die diesen Kanalpaaren zugeordnet sind. Das heißt, die Quelllokalisierung in Stereoaudiosignalen basiert weitgehend auf dem sogenannten Phantombildphänomen.
3 stellt Phantombildpositionen von wahrgenommenen Audioquellen aus demselben Layout mit fünf Lautsprechern (N = 5) gemäß einem Gesichtspunkt der Offenbarung dar. Der p = 1 zugeordnete Lautsprecher ist nicht gezeigt, um manche in der Figur dargestellte Details nicht zu verdecken. Wenn in 3 der gleiche Klang von den zwei Lautsprechern des Kanalpaares 2 (p = 2) abgestrahlt wird, nimmt der Hörer ein Phantombild zwischen den zwei vorderen Lautsprechern wahr. In ähnlicher Weise wird, wenn nun das gleiche Klangsignal stattdessen von dem Paar 3 (p = 3) abgestrahlt wird, der Hörer das Phantombild zwischen den zwei Lautsprechern des Kanalpaares 3 wahrnehmen. Durch Manipulieren der Gewichtungsfaktoren für Kanalpaare 2 und 3 kann die Phantombildposition zu einer beliebigen Position zwischen den Lautsprecherpaaren verschoben werden.
Der gleiche Gewichtungsfaktor kann auf die linken und rechten Signale eines Kanalpaares angewendet werden. Das Phantombild bleibt dann an der gleichen wahrgenommenen lateralen Position wie in dem abwärtsgemischten Stereosignal. Da ein Dialog in Filmtonspuren oder der Leadsänger in einer Musikaufzeichnung häufig zur Mitte geschwenkt wird, kann es wichtig sein, die wahrgenommene Position eines solchen Hauptklangszenenelements aufrechtzuerhalten. Die räumliche Lokalisierung von Phantombildern des STIC-Systems schließt einen Panning-Ansatz des decodierten Stereosignals in der Mittelebene zwischen Kanalpaaren eines Mehrkanalwiedergabesystems ein. Das Panning kann über die Zeit und die Frequenz variieren, wie durch die kachelbasierte Verarbeitung unterstützt wird, die die Gewichtungsfaktoren w (p, b) und die räumlichen Bildparameter verwendet. Zum Beispiel können die Gewichtungsfaktoren w (p, b) basierend auf einer Analyse des decodierten Stereosignals und der Richtungsparameter abgeleitet werden, die Richtungen der virtuellen Lautsprecherpaare beschreiben, um den dominanten Klang in den Teilbändern des decodierten Stereosignals wiederherzustellen. In einem Gesichtspunkt können die Gewichtungsfaktoren w (p, b) verwendet werden, um die Zeit-Frequenz-Kacheln adaptiv zu verarbeiten, um Spektralverzerrungen aus der räumlichen Lokalisierung zu reduzieren oder zu minimieren.
Die Synthese von immersivem Audioinhalt aus einem Stereosignal unter Verwendung von Zeit-Frequenz-Kacheln, wie beschrieben, kann die gewünschte räumliche Lokalisierung erreichen, aber sie kann auch verschiedene Verzerrungen in die Audiowiedergabesignale einführen. Zum Beispiel kann ein instabiles Bild wahrgenommen werden, wenn gleichzeitige Quellen in verschiedenen Richtungen vorhanden sind. Verzerrungen können auch aufgrund des zeitlichen Verwischens der Ansprechvorgänge oder der Einschwingvorgänge in dem Stereosignal auftreten. Es können Kammfiltereffekte vorhanden sein, wenn hoch korrelierte Signale für mehrere Ausgangskanäle erzeugt werden. Solche Effekte können zu großen Bildverschiebungen führen, wenn sich der Hörer bewegt. Andere Verzerrungen können Färbeeffekte einschließen, wenn die relativen Größen der verschiedenen Frequenzkomponenten des Breitbandklangs geändert werden, oder die Lautstärkemodulation.
4 ist ein Funktionsblockdiagramm eines stereobasierten immersiven Audiocodierungssystems, das zusätzliche Verarbeitungsmodule einschließt, um Verzerrungen aus der räumlichen Lokalisierung zu reduzieren oder zu minimieren, um die Audioqualität gemäß einem Gesichtspunkt der Offenbarung zu verbessern. Der Abwärtsmischer/Renderer 105 und der Audiocodec 109 können die gleichen wie in 1 sein, und die Beschreibung dieser Module wird nicht wiederholt, um Kürze zu wahren.
Ein perzeptives Modell 117 leitet Parameter ab, die die optimale Richtung der virtuellen Lautsprecherpaare beschreiben, um die wahrgenommene Position dominanter Klänge des Audioeingangssignals wiederherzustellen. In einem Gesichtspunkt können die Richtungen der virtuellen Lautsprecherpaare für Frequenzteilbänder unter Verwendung von Zeit-Frequenz-Kacheln geschätzt werden. Die spektrale Auflösung der von dem perzeptiven Modell 117 für die Richtungsschätzung intern verwendeten Frequenzteilbänder kann unterschiedlich sein (z. B. höher) von denen, die von dem Zeit-Frequenz-Kachelteiler 111 für das decodierte Stereosignal verwendet werden. Das perzeptive Modell 117 kann die Richtungen der virtuellen Lautsprecherpaare, die für die internen Frequenzteilbänder geschätzt werden, auf die B Teilbänder des decodierten Stereosignals abbilden. Die Richtung der virtuellen Lautsprecherpaare für jedes der B Teilbänder kann als Azimut- und Elevationswinkel in Grad relativ zu der Standardhörerposition angegeben werden. Die Azimut- und Elevationswinkel können die optimale Position eines virtuellen Lautsprechersystems für das Wiederherstellen des dominanten Klangs an der ursprünglichen Position darstellen. Ein Parametercodec 119 kann die Richtungsparameter codieren, um die Datenrate für die Übertragung zu reduzieren. An der Decodiererseite kann der Decodierer des Parametercodecs 119 die empfangenen Parameter decodieren, um die Richtungsparameter an ein Gewichtungssteuermodul 123 zu senden. In einem Gesichtspunkt kann das decodierte Stereosignal als Rückfallaudiosignal für Systeme verwendet werden, die nicht fähig sind, die Richtungsparameter zu decodieren, die nur ein Stereowiedergabesystem aufweisen, oder wo ein Stereosignal für eine Kopfhörerwiedergabe bevorzugt wird.
5 ist ein Funktionsblockdiagramm eines perzeptiven Modells 117 des stereobasierten immersiven Audiocodierungssystems, das verwendet wird, um die Richtungsparameter gemäß einem Gesichtspunkt der Offenbarung zu schätzen. Ein dominantes Quellextraktionsmodul 1170 kann eine oder mehrere dominante Quellen und ihre Richtungen aus dem M Eingang extrahieren. Für die kanalbasierte Audioeingabe kann die Quellextraktion oder Strahlformung angewendet werden, um sich einem oder mehreren der dominantesten Kanalpaare und deren Richtungen anzunähern. Die Richtung kann zwischen den Kanalpaarrichtungen der dominantesten Kanalpaare interpoliert werden.
Ein Filterbank- oder Zeit-Frequenz-Umwandlungsmodul 1171 kann die eine oder die mehreren dominantesten Quellen von der Zeitdomäne in die Frequenzdomäne in eine Anzahl von Teilbändern umwandeln, wobei Techniken wie STFT verwendet werden. Die Auflösung der Teilbänder kann durch die Eigenschaften des Hörsystems bestimmt werden. Zum Beispiel kann die Auflösung bei hohen Frequenzen so gewählt werden, dass sie feiner ist, um eine ausreichende spektrale Auflösung zu unterstützen, um mehrere Quellen in unterschiedliche Richtungen zu trennen. In einem Gesichtspunkt kann jedes Teilband eine Gruppierung von mehreren Frequenzbereichen aus dem STFT einschließen. Wie erwähnt, kann die für die dominante Quellschätzung verwendete spektrale Auflösung höher sein (z. B. feiner) als die für die Zeit-Frequenz-Kacheln des decodierten Stereosignals. Die Anzahl der Teilbänder kann auch von der Zielbitrate für die Übertragung der Richtungsparameter abhängen, da die erforderliche Parameterdatenrate ungefähr proportional zu der Anzahl der Teilbänder ist.
Ein teilweise maskiertes Lautstärkemodul 1172 kann auf der Lautstärkeschätzung der Teilbänder der dominanten Quellen arbeiten, um die Maskierungseffekte zu berücksichtigen, wenn mehrere konkurrierende Quellen sich teilweise gegenseitig maskieren, um die dominante Quelle mit der größten Lautstärke zu erhalten. Das teilweise maskierte Lautstärkemodul 1172 kann die Maskierungseffekte durch Berücksichtigen der unterschiedlichen räumlichen Richtungen modellieren. Ein Codierungsbandabbildungsmodul 1173 kann den geschätzten Lautstärkewert in den Teilbändern auf die B Teilbänder der Zeit-Frequenz-Kacheln abbilden, die für das Stereosignal an der Decodiererseite verwendet werden sollen. Ein Richtungsschätzmodul 1174 kann die Richtung des virtuellen Lautsprecherpaares schätzen, um die dominante Klangposition in jedem Teilband als Azimut- und Elevationswinkel in Grad relativ zu der Standardhörerposition wiederherzustellen.
In der Praxis ist die beabsichtigte wahrgenommene Quellrichtung oft nur für objektbasiertes Audio mit den entsprechenden Metadaten genau bekannt. In einem Gesichtspunkt wird das Quellextraktionsmodul 1170 nicht verwendet, und die Richtungsschätzung basiert stattdessen auf den Metadaten und der Objektsignallautstärke nach dem Maskierungseffekt. Für Ambisonics kann die Quellextraktion oder Strahlformung angewendet werden, um die dominantesten Quellen und ihre Richtungen anzunähern.
6 ist ein Funktionsblockdiagramm eines perzeptiven Modells 117 des stereobasierten immersiven Audiocodierungssystems, das verwendet wird, um den dominanten Klang und seine zugeordnete Richtung des virtuellen Lautsprecherpaars basierend auf der kanalbasierten Eingabe gemäß einem Gesichtspunkt der Offenbarung zu schätzen. Wie in 5 kann ein Filterbank- oder Zeit-Frequenz-Umwandlungssmodul 1171 die M Eingangsquellen von der Zeitdomäne in die Frequenzdomäne in eine Anzahl von Teilbändern umwandeln.
Ein Lautstärkemodell 1175 kann an Lautstärkeschätzungen von jedem Eingangskanal arbeiten, um die Maskierungswirkung zu modellieren und die Richtungsschätzungen basierend auf dem Eingangskanallayout zu berücksichtigen. Das Lautstärkemodell 1175 kann eine Triangulation zwischen den Lautsprecherpositionen der zwei oder drei lautesten Kanäle durchführen, um Phantombilder zu berücksichtigen. Somit berücksichtigt die Richtungsschätzung das Eingangskanallayout. Das Schätzen der Richtung des virtuellen Lautsprecherpaars für den dominanten Klang unter Verwendung des kanalbasierten Eingabemodells von 6 kann recheneffizienter sein, aber potenziell weniger genau als das Quellextraktionsmodell von 5. Ein Codierungsbandabbildungsmodul 1173 kann den geschätzten Lautstärkewert in den Teilbändern auf die B Teilbänder des Stereosignals an der Codiererseite abbilden. Ein Richtungsschätzmodul 1176 kann die Richtung des virtuellen Lautsprecherpaars in jedem Teilband als Azimut- und Elevationswinkel in Grad relativ zu der Standardhörerposition basierend auf dem Eingangskanallayout schätzen.
Für objektbasiertes Audio wird seine Quellrichtung üblicherweise durch Metadaten gegeben. Objektmetadaten beschreiben üblicherweise Objektposition, -größe und andere Eigenschaften, die von einem Renderer, wie dem Renderer 105 von 4, verwendet werden können, um das gewünschte Quellobjektbild zu erreichen. Objekte, die sich innerhalb eines Segments der Kugel des Wiedergabekanallayouts befinden, können in ein Stereosignal gerendert werden, das an die Decodiererseite übertragen wird, wie in 4 gezeigt. Da die Objektpositionen bekannt sind, muss das perzeptive Modell 117 jedoch möglicherweise keine Quellrichtungen der Objekte schätzen. Stattdessen verwendet es den Azimut und die Elevation des virtuellen Kanalpaares, an das das Objekt oder die Objekte gerendert werden.
7 stellt die Verwendung eines virtuellen Kanalpaares für das Objektrendern dar, wenn das perzeptive Modell 117 des stereobasierten immersiven Audiocodierungssystems den Azimut/die Elevation des virtuellen Kanalpaares als Metadaten gemäß einem Gesichtspunkt der Offenbarung verwendet. 7 zeigt ein virtuelles Kanalpaar und zwei Audioobjekte, wie sie erscheinen, wenn das gerenderte Stereosignal mit dem virtuellen Kanalpaar wiedergegeben wird. Ein Objekt 1 ist eine Trockenpunktquelle, die durch Kopieren des Monoobjektsignals nur auf den rechten Kanal gerendert wird. Ein Objekt 2 wird gerendert, indem ein Nachhall hinzugefügt wird, um den wahrgenommenen Abstand und eine Dekorrelation zwischen dem linken und dem rechten Kanal zu erhöhen, und das Objekt wird nach rechts geschwenkt. Ein abwärtsgemischtes Signal wird durch Hinzufügen der zwei gerenderten Signale erzeugt.
Die STIC-Metadaten für die Quellrichtung sind der Azimut/die Elevation des virtuellen Kanalpaares. Diese Richtung unterscheidet sich in der Regel von den Objektmetadaten, da der Winkel des virtuellen Kanalpaares in der Regel verschieden von dem Quellwinkel des Phantombildes ist, das das virtuelle Kanalpaar erzeugt.
Objekte in dem gleichen Segment der Kugel können an verschiedene virtuelle Kanalpaare gerendert werden, um eine bessere räumliche Auflösung und optimierte STIC-Render-Qualität zu erreichen. Wenn mehrere virtuelle Kanalpaare verwendet werden, kann das perzeptive Modell 117, wie das Lautstärkemodell 1175 von 6, schätzen, welches virtuelle Kanalpaar in jeder Zeit-Frequenz-Kachel des decodierten Stereosignals dominant ist, indem die Lautstärke geschätzt wird, die jedes virtuelle Kanalpaar nach dem Maskierungseffekt erzeugt.
Für ein HOA-basiertes Signal können die primären dominanten Quellsignale und Richtungen durch die Einzelwertzerlegung (SVD) abgeleitet werden. Sie können dann durch das perzeptive Modell 117 in der gleichen Weise verarbeitet werden, wie Objektsignale, um die teilweise maskierte Lautstärke abzuleiten.
Unter erneuter Bezugnahme auf 4 kann das Gewichtungssteuermodul 123 die Gewichtungsfaktoren w_c und w_d erzeugen, die auf die entsprechenden PxB Kacheln des Stereosignals angewendet werden, um die gewichteten Zeit-Frequenz-Kacheln für die P Ausgangskanalpaare zu erzeugen. Das Gewichtungssteuermodul 123 kann das räumliche Rendern steuern, indem es die Gewichtungsfaktoren w_c und w_d für die PxB Kacheln basierend auf dem Wiedergabekanallayout, der Richtung des virtuellen Lautsprecherpaars für die dominanten Klänge und den Ergebnissen einer Analyse des decodierten Stereosignals, die von einem Audioanalysemodul 121 durchgeführt wird, erzeugt. Die Ausgabe des Zeit-Frequenz-Kachelteilers 111 ist in zwei Pfade unterteilt, von denen einer einen Dekorrelator aufweist, der den Gewichtungsfaktor w_d anwendet, um die Korrelation zwischen Kanalpaaren zu reduzieren. Dekorrelation kann angewendet werden, um Kammfiltereffekte zu reduzieren, die große Bildverschiebungen in den wahrgenommenen Audiosignalen verursachen können, wenn sich der Hörer bewegt. Die Menge an Dekorrelation kann durch das Verhältnis der Gewichtungsfaktoren w_c und w_d gesteuert werden
8 ist ein Funktionsblockdiagramm der Verarbeitung von Kanalpaaren des stereobasierten immersiven Audiocodierungssystems gemäß einem Gesichtspunkt der Offenbarung. Das decodierte abwärtsgemischte Stereosignal 801 kann in Frames partitioniert und durch den Zeit-Frequenz-Kachelteiler 111 verarbeitet werden, um die linken und rechten Signale von der Zeitdomäne in B Teilbänder in der Frequenzdomäne umzuwandeln. Die linken und rechten Signale 803 für die B Teilbänder werden in P parallele Verarbeitungseinheiten eingespeist, die P Paare von Ausgangskanälen darstellen. Jede Verarbeitungseinheit kann zwei Multiplizierer 830, einen Dekorrelator 832, einen Addierer 834 und ein Zeit-Frequenz-Kachelzusammenführermodul 836 enthalten. In einer Verarbeitungseinheit können die linken und rechten Signale 803 einer identischen Verarbeitung parallel für den linken und rechten Kanal des Paares unterzogen werden.
Die linken und rechten Signale 803 in jeder Verarbeitungseinheit sind in zwei Pfade unterteilt, einen Pfad multipliziert mit dem Gewichtungsfaktor w_c und einen zweiten Pfad, der ein Dekorrelatorpfad multipliziert mit dem Gewichtungsfaktor w_d ist. Die Gewichtungsfaktoren w_c und w_d für die P Paare von Ausgangskanälen können jeweils indiziert sein {w_c,1, w_c,2, ... w_c,P} und {w_d,1, w_d,2, ... w_d,P}. In einem Gesichtspunkt kann der gleiche Satz von {w_c,1, w_c,2, ... w_c,P} und {w_d,1, w_d,2, ... w_d,P} über alle B Teilbänder der Signale 803 angewendet werden. Die Ausgabe von dem Multiplizierer 830 für den Dekorrelatorpfad wird auf den Dekorrelator 125 angewendet. Der Dekorrelator 125 in jeder Verarbeitungseinheit filtert das w_d-gewichtete Signal der linken und rechten Signale, um das entsprechende Kanalpaar von allen anderen Kanalpaaren zu dekorrelieren, aber es ist nicht beabsichtigt, die Korrelation zwischen den linken und rechten Kanälen des Paares zu ändern. Die linken und rechten Signale des dekorrelierten Ausgangs 805 von dem Dekorrelator 125 wird mit den entsprechenden linken und rechten Signalen des unverarbeiteten Ausgangs 807 von dem w_c-gewichteten Pfad durch den Addierer 834 summiert, um das gewichtete Ausgangssignal 809 für das Kanalpaar zu erzeugen. Durch das gewichtete Addieren des dekorrelierten Ausgangs 805 und des unverarbeiteten Ausgangs 807 des Kanalpaares in dem Addierer 834 kann das Verhältnis der Gewichtungsfaktoren w_c und w_d für jedes Kanalpaar die Menge an Dekorrelation des gewichteten Ausgangssignals 809 für das Kanalpaar steuern.
Die Verarbeitungseinheit kann ein gewichtetes Addieren des dekorrelierten Ausgangs 805 und des unverarbeiteten Ausgangs 807 durchführen, um das gewichtete Ausgangssignal 809 für jedes der B Teilbänder zu erzeugen. Das Zeit-Frequenz-Kachelzusammenführermodul 113 wandelt das gewichtete Ausgangssignal 809 für die B Teilbänder jedes Kanalpaares von der Frequenzdomäne zurück zu der Zeitdomäne um, um das Kanalpaarsignal 811 zu erzeugen. Das Kanalpaarkombinierermodul 131 kombiniert das Kanalpaarsignal 811 aus den P Kanalpaaren des Ausgangskanallayouts, um die Audiosignale 813 für die N Lautsprecher des Wiedergabesystems zu erzeugen. In einem Gesichtspunkt kann N gleich 2xP sein und die linken und rechten Signale jedes Kanalpaarsignals 811 können die linken und rechten Lautsprecher des entsprechenden Kanalpaares ansteuern. In einem Gesichtspunkt können die linken und rechten Signale kombiniert werden, um einen einzelnen Lautsprecher anzusteuern.
Mathematisch für eine Implementierung der Verarbeitung auf der Basis von STFT dargestellt, wandelt der Zeit-Frequenz-Kachelteiler 111 die linken und rechten Kanalsignale des abwärtsgemischten Stereosignals 801, /_mix und r_mix, in die STFT-Darstellung um: $\begin{matrix} L_{m i x} (k) = S T F T (l_{m i x} (n)) \\ R_{m i x} (k) = S T F T (r_{m i x} (n)) \end{matrix}$
wobei n der Zeitdomänenprobenindex ist und k der STFT-Bereichsindex ist.
Das gewichtete Ausgangssignal 809 jedes Kanalpaares wird durch Addieren des dekorrelierten Ausgangs 805 und des unverarbeiteten Ausgangs 807 berechnet, um zu ergeben: $\begin{matrix} L_{o u t} (p, k) = w_{c} (p, b) L_{m i x} (k) + D e c o r r (w_{d} (p, b) L_{m i x} (k)) \\ R_{o u t} (p, k) = w_{c} (p, b) R_{m i x} (k) + D e c o r r (w_{d} (p, b) R_{m i x} (k)) \end{matrix}$
wobei p der Kanalpaarindex ist, b der Teilbandindex ist, w_c (p, b) die Gewichtungsfaktoren w_c ist und w_d (p, b) der Gewichtungsfaktor w_d für das Kanalpaar p und Teilband b ist. Jedes Teilband kann eine Gruppierung von STFT-Bereichen einschließen.
Das Zeit-Frequenz-Kachelzusammenführermodul 113 wandelt die komplexen STFT-Spektren des gewichteten Ausgangssignals 809 zurück zu der Zeitdomäne des Kanalpaarsignals 811 um: $\begin{matrix} l_{o u t} (p, n) = S T F T (- 1) (L_{o u t} (p, k)) \\ r_{o u t} (p, n) = S T F T (- 1) (R_{o u t} (p, k)) \end{matrix}$
Die Gewichtungsfaktoren w_c und w_d können berechnet werden durch: $w_{P a n} (p, b) = P a n n i n g W e i g h t (α, ε)$
$w (p, b, f) = (1 - w_{s m o o t h}) w_{P a n} (p, b) + w_{s m o o t h} w_{P a n} (p, b, f - 1)$
$w_{c} (p, b) = \sqrt{w_{c o r r}} w (p, b, f)$
$w_{d} (p, b) = \sqrt{1 - w_{c o r r}} w (p, b, f)$
wobei „PanningWeight()“ eine Funktion ist, um den Panning-Gewichtsfaktor w_Pan (p, b) für das Kanalpaar p und Teilband b basierend auf dem übertragenen Azimut α und der Elevation ε zu berechnen, wobei die Geometrie des Zielkanallayouts gegeben ist. In einem Gesichtspunkt können der Azimut α und die Elevation ε die des virtuellen Lautsprecherpaars einschließen, um die dominante Quelle wiederherzustellen, die von dem perzeptiven Modell 117 kommend empfangen wird. Zum Beispiel befindet sich der linke Lautsprecher des virtuellen Paares bei {-α, ε} und der rechte Lautsprecher bei {α, ε}. Um Spektralverzerrungen aufgrund von räumlichem Rendern zu reduzieren oder zu minimieren kann ein zeitliches Glätten der Gewichtungsfaktoren durchgeführt werden. w_smooth ist ein Glättungsfaktor, der von den Signaleigenschaften des abwärtsgemischten Signals 801 abhängen kann, zum Beispiel der Prädiktionsgewinn und der Stärke des Ansprechvorgangs aus der Signalanalyse, die durch das Audioanalysemodul 121 durchgeführt wird. In einem Gesichtspunkt kann w_smooth für alle P Kanalpaare und B Teilbänder gleich sein. Der Gewichtungskoeffizient w_corr steuert, wie viel Dekorrelation durch Steuern des Verhältnisses zwischen w_c(p, b) und w_d(p, b).angewendet wird. Die Gewichtungskoeffizienten w_corr können auch von dem Prädiktionsgewinn und der Stärke des Ansprechvorgangs des abwärtsgemischten Signals 801 abhängen. In einem Gesichtspunkt kann w_corr für alle P Kanalpaare und B Teilbänder gleich sein. Der Frame-Index f gibt den aktuellen STFT-Frame an. Ein Glätten von w(p, b,f) kann über die nachfolgenden Frames durchgeführt werden. In einem Gesichtspunkt können w_Pan(p, b), w(p,b,f), w_c(p,b) und w_d(p,b) unabhängig von den Teilbändern sein.
9 ist ein Funktionsblockdiagramm des Audioanalysemoduls 121 des stereobasierten immersiven Audiocodierungssystems, das verwendet wird, um die Gewichtungsfaktoren gemäß einem Gesichtspunkt der Offenbarung anzupassen. Jeder Kanal des decodierten Stereosignals, wie das abwärtsgemischte Stereosignal 801, kann in der Zeitdomäne durch einen Vorwärtsprädiktor 1211 verarbeitet werden. Der Vorwärtsprädiktor 1211 kann ein vorhergesagtes Signal 901 erzeugen, das von dem tatsächlichen decodierten Stereosignal subtrahiert wird, um ein Prädiktionsfehlersignal 903 zu erzeugen. Ein Prädiktionsgewinnsschätzer 1212 kann den Prädiktionsgewinn basierend auf der geschätzten Differenz des RMS-Pegels des decodierten Stereosignals und des Prädiktionsfehlersignals 903 schätzen. Parallel wertet ein Detektor für den Ansprechvorgang/Einschwingvorgang 1213 die Hüllkurve des decodierten Stereosignals aus, um die Stärke des Ansprechvorgangs zu schätzen. Das Maximum der Ergebnisse beider Kanäle wird zur weiteren Verarbeitung verwendet.
Die Prädiktionsgewinn ist eine Angabe der zeitlichen „Glätte“ des decodierten Audiosignals. Für ein Audiosignal mit hohem Prädiktionsgewinn kann ein besseres Glätten der Gewichtungsfaktoren erforderlich sein. Das zeitliche Glätten der Gewichtungsfaktoren w_c und w_d kann dann erhöht werden, und es kann mehr Dekorrelation angewendet werden. Wenn andererseits die Stärke des Ansprechvorgangs signifikant ist, kann ein zeitliches Glätten der Gewichtungsfaktoren w_c und w_d reduziert werden, und es kann weniger Dekorrelation angewendet werden. Wenn die Stärke des Ansprechvorgangs hoch ist, kann das Audiosignal einer Zeit-Frequenz-Kachel hauptsächlich auf ein einzelnes Wiedergabekanalpaar beschränkt sein, um zeitliches Verwischen und Spektralverzerrungen zu vermeiden. Somit können die Gewichtungsfaktoren w_c und w_d so eingeschränkt werden, dass nur ein Kanalpaar den Großteil der Signalenergie trägt, während alle anderen Kanalpaare vernachlässigbare Energie aufweisen. In einem Gesichtspunkt kann die Codiererseite die Signalanalyse an dem Stereosignal durchführen, um seine Stärke des Ansprechvorgangs und den Prädiktionsgewinn zu schätzen. Die Codiererseite kann Parameter, die der Stärke des Ansprechvorgangs und dem Prädiktionsgewinn des codierten Stereosignals entsprechen, an den Decodierer zur Verwendung wie beschrieben übertragen.
10 ist ein Funktionsblockdiagramm des Gewichtungssteuermoduls 123, das verwendet wird, um die Gewichtungsfaktoren für die Zeit-Frequenz-Kacheln gemäß einem Gesichtspunkt der Offenbarung zu erzeugen. Ein erstes Schätzermodul 1231 kann die zeitliche Fluktuation der Richtungsparameter für die Zeit-Frequenz-Kacheln schätzen. Ein zweites Schätzermodul 1232 kann eine anfängliche Schätzung der Parameter zum zeitlichen Glätten der Gewichtungsfaktoren, wie den Glättungsfaktor w_smooth in Gleichung 5, basierend auf der geschätzten zeitlichen Fluktuation der Richtungsparameter von dem ersten Schätzermodul 1231 berechnen. Ein Gewichtungsfaktorerzeugungsmodul 1233 kann die Gewichtungsfaktoren, wie w(p,b,f) der Gleichung 6 für die P Kanalpaare und B Teilbänder des Frames f, basierend auf der anfänglichen Schätzung des zeitlichen Glättungsparameters, dem Azimut α und der Elevation ε des virtuellen Lautsprecherpaares für die Teilbänder, die durch die Richtungsparameter empfangen werden, den Prädiktionsgewinn und die Stärke des Ansprechvorgangs aus dem Audioanalysemodul 121 und dem Wiedergabekanallayout erzeugen.
Ein Dekorrelationsschätzermodul 1234 kann steuern, wie viel Dekorrelation durch Erzeugen des Gewichtungskoeffizienten w_corr der Gleichungen 6 und 7 basierend auf dem Prädiktionsgewinn und der Stärke des Ansprechvorgangs wie beschrieben angewendet wird. Wie erwähnt, kann die Dekorrelation angewendet werden, um Kammfiltereffekte zu vermeiden, die zu großen Bildverschiebungen führen können, wenn sich der Hörer bewegt. Diese Wirkungen sind am deutlichsten in Signalen mit glatter Hüllkurve und hohem Prädiktionsgewinn ersichtlich. Beim Anwenden der Dekorrelation kann es jedoch auch zu einem erhöhten hörbaren Nachhall kommen, und Signalquellen können verglichen mit dem Eingangssignal weiter entfernt erscheinen.
Aufgrund der Modifikationen des wahrgenommenen Abstands und Nachhallens wird die Verwendung der Dekorrelation reduziert oder minimiert und nur bei Bedarf angewendet. Dies kann durch das Dekorrelationsschätzermodul 1234 unter Verwendung der Parameter des Prädiktionsgewinns und der Parameter der Stärke der Ansprechvorgangs erreicht werden, um die Dekorrelation durch die Erzeugung des Gewichtungskoeffizienten w_corr zu steuern. Der Gewichtungskoeffizient w_corr kann auf w(p,b,f) aus dem Gewichtungsfaktorerzeugungsmodul 1233 angewendet werden, um w_c(p, b) und w_d(p, b) der Gleichungen 6 und 7 zu erzeugen. Die Gewichtungsfaktoren w_c(p, b) und w_d(p, b) können verwendet werden, um die Zeit-Frequenz-Kacheln adaptiv zu verarbeiten, um Spektralverzerrungen aus der räumlichen Lokalisierung zu reduzieren oder zu minimieren.
Da der Gewichtungsfaktor w_d vor dem Dekorrelator 125 und nicht danach auf die Zeit-Frequenz-Kacheln angewendet wird, treten nur diejenigen Teile des decodierten Stereosignals, die dekorreliert werden müssen, in die Dekorrelation 125 ein. Wenn der Gewichtungsfaktor w_d nach dem Dekorrelator 125 und nicht davor angewendet werden würde, können lange Ansprechvorgänge, die keine Dekorrelation benötigen würden, vorübergehend in Teile des decodierten Stereosignals verteilt werden, die eine Dekorrelation benötigen, und somit zu Nachhallartefakten führen. Darüber hinaus kann die Verwendung des Dekorrelators 125 in jeder Zeit-Frequenz-Kachel durch Ausschließen des Ausgangskanalpaares mit der größten Energie aus der Dekorrelatorverarbeitung reduziert oder minimiert werden. Dies ist möglich, da dieses Kanalpaar nicht mit einem anderen Kanalpaar korreliert ist, das von dem Dekorrelator 125 verarbeitet wurde.
Die Gewichtungsfaktoren können ausgeglichen werden, sodass die Eingabesignallautstärke erhalten bleibt. In einem Gesichtspunkt kann als erste Näherung der RMS-Wert der Gewichtungsfaktoren für alle P Kanalpaare in einer Zeit-Frequenz-Kachel auf 1 gesetzt werden. Ein genauerer Lautstärkeabgleich und eine Verhinderung von Färbung kann möglich sein, indem ein frequenzabhängiger Exponent σ zwischen 1,0 und 2,0 für die Normalisierung verwendet wird, die kleinere Werte bei niedrigeren Frequenzen aufweist: ${(\sum_{p} [w_{c}^{σ} (p) + w_{d}^{σ} (p)])}^{1 / σ} = 1$
wobei w_c(p) und w_d(p) die w_c(p, b) und w_d(p, b) für ein spezifisches Teilband sind.
Das stereobasierte immersive Audiocodierungssystem von 4 basiert auf einer einzelnen Stereoabwärtsmischung des Audioinhalts. Das bedeutet zum Beispiel, dass jeder hintere Kanalinhalt mit dem vorderen Kanalinhalt gemischt werden kann, was wiederum zu einer unterschiedlichen Positionierung nach dem räumlichen Rendern führen kann, wenn sich die Signale in Zeit und Frequenz überschneiden. Zum Verbessern der Positionierungsgenauigkeit ist es möglich, mehrere Abwärtsmischungen zu verwenden, wobei jede Abwärtsmischung nur diejenigen Signale einschließt, die sich in einem Sektor der Kugel befinden, der durch die Abwärtsmischung dargestellt wird. Alle Sektoren können die gesamte Kugel abdecken, ohne sich zu überlappen.
11 stellt ein Abwärtsmischen von Audiokanälen für mehrere Sektoren eines Layouts mit sieben Lautsprechern gemäß einem Gesichtspunkt der Offenbarung dar. 11 zeigt ein Beispiel, bei dem zwei Abwärtsmischungen erzeugt werden, eine für die Kanäle in dem vorderen Sektor und eine für die Kanäle in dem hinteren Sektor eines 7.0-Layouts. Für Layouts mit Höhenkanälen wie 7.0.4 können die Höhenkanäle zum Beispiel den Sektoren unter Verwendung derselben Abbildung zugewiesen werden.
12 ist ein Funktionsblockdiagramm eines stereobasierten immersiven Audiocodierungssystems, das mehrere Segmente oder Sektoren eines Lautsprechersystems gemäß einem Gesichtspunkt der Offenbarung codiert und decodiert. Ein Segmentteilungsmodul 133 kann die Kugel des Kanallayouts in mehrere Segmente oder Sektoren aufteilen. Mehrere Instanzen des STIC-Systems von 1 werden verwendet, um die Signale zu codieren, die verschiedenen Segmenten der Kugel zugeordnet sind. Auf der Decodiererseite werden die Audioausgangssignale aus den verschiedenen Segmenten addiert, um die endgültige Audioausgabe des Wiedergabesystems zu erzeugen. In einem Gesichtspunkt können mehrere Instanzen des STIC-Systems von 4 verwendet werden, um Signale zu codieren und zu decodieren, die mehreren Segmenten zugeordnet sind. Im Allgemeinen können die Segmente eine beliebige Anzahl und beliebige Form aufweisen. Für kanalbasierte Audiosignale sind Segmente jedoch üblicherweise symmetrisch über die Mittelebene. Um einen guten Kompromiss zwischen Bitrate und Qualität zu erreichen, sollte die Anzahl der Segmente so klein wie möglich sein, aber groß genug, um die gewünschte Positionierungsgenauigkeit zu erreichen.
In einem Gesichtspunkt eines hybriden stereobasierten immersiven Audiocodierungssystems kann es vorteilhaft sein, einen Kanal, wie einen vorderen Mittelkanal, aus den verbleibenden Kanälen zu entfernen, wenn die STIC-Technik angewendet wird. Der vordere Mittelkanal kann unabhängig von dem STIC-System codiert, decodiert und zu den verbleibenden Kanälen hinzugefügt werden, die unter Verwendung des STIC-Systems von 4 gerendert werden. Diese Hybridkonfiguration kann das gerenderte Bild des vorderen Mittelkanals verbessern, was häufig für Dialog in Film- und TV-Inhalt verwendet wird.
13 ist ein Funktionsblockdiagramm eines hybriden stereobasierten immersiven Audiocodierungssystems, das Einzelkanäle, wie einen Mittelkanal, codiert und decodiert, unabhängig von anderen Kanälen, die unter Verwendung des STIC-Systems codiert und decodiert werden, gemäß einem Gesichtspunkt der Offenbarung. In einem Beispiel können die Eingangskanäle für ein Surround-Signal ein 5. 1-Layout aufweisen, einschließlich 2 Kanalpaaren (ein Paar linker und rechter Kanäle, ein Paar linker Surround- und rechter Surround-Kanäle) und zwei Einzelkanäle (Mitte und LFE).
Ein Kanalpaarextraktionsmodul 141 kann alle Kanalpaare, wie das Paar linker und rechter Kanäle und das Paar linker Surround- und rechter Surround-Kanäle zum Codieren durch das STIC-System der 1, 4 oder 12 extrahieren. Ein Einzelkanalextraktionsmodul 143 kann die Einzelkanäle wie Mitte und LFE, die unabhängig von dem STIC-System codiert werden sollen, extrahieren. In einem Gesichtspunkt kann ein Audiocodec 145 die extrahierten Einzelkanäle codieren. Informationen über das Vorhandensein und die Position der Einzelkanäle können den STIC-Parametern hinzugefügt werden, sodass der Decodierer die Kanäle ordnungsgemäß rendern kann.
Auf der Decodiererseite können die Einzelkanäle durch den Decodierer des Audiocodecs 145 decodiert werden. Ein Einzelkanalrenderer 147 kann die decodierten Einzelkanäle an das Ausgabelayout rendern, wie durch das Wiedergabekanallayout angegeben. Wenn zum Beispiel das Ausgabelayout eine Lautsprecherposition an der Position des Einzelkanals aufweist, wie z. B. ein vorderer Mittellautsprecher, kann der für den Mittelkanal decodierte Einzelkanal bis zu dem vorderen Mittellautsprecher weitergegeben werden. Andernfalls kann der decodierte Einzelkanal für den Mittelkanal an die nächsten verfügbaren Kanäle gerendert werden. In einem Gesichtspunkt kann eine virtuelle Klangquellenpositionierungstechnik wie das vektorbasierte Amplituden-Panning (VBAP) verwendet werden.
Ein Kanalzusammenführermodul 149 kann die gerenderten Einzelkanäle zu den Kanalpaaren hinzufügen, die durch das STIC-System gerendert werden, um die rekonstruierten Audiosignale zu erzeugen. Zum Beispiel kann das Kanalzusammenführermodul 149 das gerenderte Signal für den Einzelmittelkanal in den vorderen Mittelkanal leiten, wenn das Wiedergabekanallayout einen vorderen Mittelkanal aufweist, oder das Kanalzusammenführermodul 149 kann das Signal für den Einzelmittelkanal, der zu einem Kanalpaar gerendert wurde, zu den entsprechenden Kanalpaarsignalen hinzufügen, die von dem STIC-System gerendert wurden. In einem Gesichtspunkt können der eine oder die mehreren Einzelkanäle für den LFE an den einen oder die mehreren LFE-Kanäle des Wiedergabekanallayouts geleitet werden, wenn der eine oder die mehreren LFE-Kanäle vorhanden sind.
14 ist ein Flussdiagramm eines Verfahrens 1400 einer codiererseitigen Verarbeitung eines stereobasierten immersiven Audiocodierungssystems, um ein Stereosignal und Richtungsparameter aus einem immersiven Audiosignal gemäß einem Gesichtspunkt der Offenbarung zu erzeugen. Das Verfahren 1400 kann durch die Codiererseite des STIC-Systems von 1, 4, 12 oder 13 ausgeführt werden.
In Vorgang 1401 erzeugt das Verfahren 1400 ein Zweikanalstereosignal aus dem immersiven Audiosignal. Das immersive Audiosignal kann mehrere Audiokanäle eines Eingangskanallayouts, mehrere Audioobjekte oder HOA einschließen. In einem Gesichtspunkt kann ein Abwärtsmischmodul den Mehrkanaleingang in das Stereosignal abwärtsmischen, oder ein Renderermodul kann die mehreren Audioobjekte oder HOA an das Stereosignal rendern.
In Vorgang 1403 erzeugt das Verfahren 1400 Richtungsparameter basierend auf dem Audioinhalt, wobei die Richtungsparameter die optimalen Richtungen des virtuellen Lautsprecherpaars beschreiben, um die wahrgenommene dominante Klangposition des Audioinhalts in mehreren Frequenzteilbändern wiederherzustellen. Die Richtungen des virtuellen Lautsprecherpaars für jedes der Teilbänder können als Azimut- und Elevationswinkel in Grad relativ zu der Standardhörerposition angegeben werden.
In Vorgang 1405 überträgt das Verfahren 1400 das Zweikanalstereosignal und die Richtungsparameter über einen Kommunikationskanal zu einer Decodierungsvorrichtung. Der Kommunikationskanal kann bandbreitenbegrenzt sein. Die Bandbreitenanforderung der Richtungsparameter kann signifikant niedriger sein als die Bandbreitenanforderung für einen einzelnen Audiokanal des Stereosignals.
15 ist ein Flussdiagramm eines Verfahrens 1500 einer decodiererseitigen Verarbeitung eines stereobasierten immersiven Audiocodierungssystems, um ein immersives Audiosignal für ein Mehrkanalwiedergabesystem gemäß einem Gesichtspunkt der Offenbarung zu rekonstruieren. Das Verfahren 1500 kann durch die Decodiererseite des STIC-Systems von 1, 4, 12 oder 13 ausgeführt werden.
In Vorgang 1501 empfängt das Verfahren 1500 ein Zweikanalstereosignal und Richtungsparameter von einer Codierungsvorrichtung, wobei die Richtungsparameter die optimalen Richtungen des virtuellen Lautsprecherpaars beschreiben, um die wahrgenommene dominante Klangposition des Audioinhalts wiederherzustellen, der durch das Zweikanalstereosignal in einer Anzahl von Frequenzteilbändern dargestellt wird. Der Audioinhalt kann ein immersives Audiosignal mehrerer Kanäle sein.
In Vorgang 1503 erzeugt das Verfahren 1500 mehrere Zeit-Frequenz-Kacheln für eine Anzahl von Kanalpaaren eines Wiedergabesystems aus dem Zweikanalstereosignal, wobei die mehreren Zeit-Frequenz-Kacheln eine Frequenzdomänendarstellung jedes Kanals des Zweikanalstereosignals in mehreren Frequenzteilbändern darstellen. Die Anzahl der Teilbänder B kann durch die gewünschte spektrale Auflösung bestimmt werden. Das Zweikanalstereosignal kann in Frames unterteilt werden, um durch die Zeit-Frequenz-Kacheln dargestellt zu werden. Die Frequenzdomänendarstellung des Stereosignals kann in P parallele Verarbeitungspfad geteilt oder kopiert werden, wobei jeder Verarbeitungspfad jedem Kanalpaar des Wiedergabesystems zugeordnet werden kann.
In Vorgang 1505 erzeugt das Verfahren 1500 Gewichtungsfaktoren für die mehreren Zeit-Frequenz-Kacheln der mehreren Kanalpaare basierend auf den Richtungsparametern. In einem Gesichtspunkt können die Gewichtungsfaktoren basierend auf den Richtungen des virtuellen Lautsprecherpaars, um die wahrgenommene dominante Klangposition des Audioinhalts wiederherzustellen, der durch das Zweikanalstereosignal in den mehreren Frequenzteilbändern dargestellt wird, einer Analyse des Stereosignals und dem Ausgangskanallayout des Wiedergabeklangsystems erzeugt werden. In einem Gesichtspunkt können die Gewichtungsfaktoren gesteuert werden, um die Korrelation zwischen den Kanalpaaren zu reduzieren.
In Vorgang 1507 wendet das Verfahren 1500 die mehreren Gewichtungsfaktoren auf die mehreren Zeit-Frequenz-Kacheln an, um die Zeit-Frequenz-Kacheln über die mehreren Kanalpaare des Wiedergabesystems räumlich zu rendern. Die Gewichtungsfaktoren können verwendet werden, um die Zeit-Frequenz-Kacheln adaptiv zu verarbeiten, wie unter Verwendung eines Dekorrelators, um Spektralverzerrungen aus dem räumlichen Rendern zu reduzieren oder zu minimieren.
Ausführungsformen der hier beschriebenen stereobasierten immersiven Audiocodierungstechnik können in einem Datenverarbeitungssystem implementiert sein, zum Beispiel durch einen Netzwerkcomputer, einen Netzwerkserver, einen Tablet-Computer, ein Smartphone, einen Laptop-Computer, einen Desktop-Computer, andere Unterhaltungselektronikvorrichtungen oder andere Datenverarbeitungssysteme. Insbesondere handelt es sich bei den für das stereobasierte immersive Codierungssystem beschriebenen Vorgängen um digitale Signalverarbeitungsvorgänge, die von einem Prozessor durchgeführt werden, der in einem oder mehreren Speichern gespeicherte Anweisungen ausführt. Der Prozessor kann die gespeicherten Anweisungen aus den Speichern lesen und die Anweisungen ausführen, um die beschriebenen Vorgänge durchzuführen. Diese Speicher stellen Beispiele für maschinenlesbare, nichtflüchtige Speicherungsmedien dar, die Computerprogrammanweisungen speichern oder enthalten können, die, wenn sie ausgeführt werden, ein Datenverarbeitungssystem dazu veranlassen, das eine oder die mehreren hierin beschriebenen Verfahren durchzuführen. Bei dem Prozessor kann es sich um einen Prozessor einer lokalen Vorrichtung wie einem Smartphone, einen Prozessor in einem entfernten Server oder um ein verteiltes Verarbeitungssystem mit mehreren Prozessoren in der lokalen Vorrichtung und in dem entfernten Server handeln, deren jeweilige Speicher verschiedene Teile der Anweisungen enthalten, die zum Durchführen der beschriebenen Vorgänge erforderlich sind.
Auch wenn gewisse beispielhafte Fälle beschrieben und in den begleitenden Zeichnungen gezeigt wurden, versteht es sich, dass diese für die allgemeine Erfindung lediglich veranschaulichend und nicht einschränkend sind und dass diese Erfindung nicht auf die spezifischen gezeigten und beschriebenen Konstruktionen und Anordnungen beschränkt ist, da Fachleuten verschiedene andere Modifikationen einfallen können. Die Beschreibung ist somit als veranschaulichend anstatt einschränkend anzusehen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63071149 [0001]

Claims

Verfahren zum Codieren von Audioinhalt, wobei das Verfahren umfasst: Erzeugen, durch eine Codierungsvorrichtung, eines Zweikanalstereosignals aus dem Audioinhalt; Erzeugen, durch die Codierungsvorrichtung, von Richtungsparametern basierend auf dem Audioinhalt, wobei die Richtungsparameter virtuelle Lautsprecherpaarrichtungen beschreiben, um wahrgenommene dominante Klangpositionen des Audioinhalts in einer Vielzahl von Frequenzteilbändern wiederherzustellen; und Kommunizieren des Zweikanalstereosignals und der Richtungsparameter über einen Kommunikationskanal oder durch eine Speicherungsvorrichtung an einen Decodierer.
Verfahren nach Anspruch 1, wobei der Audioinhalt eines oder mehrere von einem Mehrkanalsignal, das einem Lautsprecherlayout zugeordnet ist, einer Vielzahl von Audioobjekten oder Ambisonics beliebiger Ordnung umfasst.
Verfahren nach Anspruch 1, wobei das Erzeugen der Richtungsparameter umfasst: Umwandeln, durch die Codierungsvorrichtung, des Audioinhalts, der durch ein Mehrkanalsignal bereitgestellt wird, das einem Lautsprecherlayout zugeordnet ist, in eine Vielzahl von Teilbändern einer Frequenzdomänendarstellung des Audioinhalts; Bestimmen, durch die Codierungsvorrichtung, einer größten Lautstärke des Audioinhalts unter Verwendung eines Lautstärkemaskierungsmodells für jedes der Vielzahl von Teilbändern basierend auf dem Lautsprecherlayout, das dem Mehrkanalsignal zugeordnet ist; und Erzeugen, durch die Codierungsvorrichtung, von Richtungen der virtuellen Lautsprecherpaare mit der größten Lautstärke des Audioinhalts für jedes der Vielzahl von Teilbändern als die wahrgenommenen dominanten Klangpositionen des Audioinhalts.
Verfahren nach Anspruch 1, wobei die Richtungsparameter einen Azimutwinkel und einen Elevationswinkel relativ zu einer Standardhörerposition der virtuellen Lautsprecherpaare umfassen, um die wahrgenommenen dominanten Klangpositionen für jedes der Vielzahl von Frequenzteilbändern wiederherzustellen.
Verfahren nach Anspruch 1, wobei das Erzeugen der Richtungsparameter umfasst: Rendern, durch die Codierungsvorrichtung, des Audioinhalts, der von einer Vielzahl von Audioobjekten bereitgestellt wird, an ein oder mehrere virtuelle Kanalpaare, um Bilder der Vielzahl von Audioobjekten zu erzeugen; Bestimmen, durch die Codierungsvorrichtung, einer größten Lautstärke der Bilder der Vielzahl von Audioobjekten, die durch das eine oder die mehreren virtuellen Kanalpaare erzeugt werden; und Erzeugen, durch die Codierungsvorrichtung, von Richtungen der virtuellen Lautsprecherpaare, die die größte Lautstärke der Bilder als die wahrgenommenen dominanten Klangpositionen des Audioinhalts erzeugen.
Verfahren nach Anspruch 1, ferner umfassend: Teilen des Audioinhalts in eine Vielzahl von Segmenten basierend auf einem Layout einer Vielzahl von Audioquellen, die den Audioinhalt bereitstellen, wobei das Erzeugen des Zweikanalstereosignals aus dem Audioinhalt umfasst: Erzeugen einer Vielzahl von Zweikanalstereosignalen, die jeweils dem Audioinhalt in der Vielzahl von Segmenten entsprechen; wobei das Erzeugen der Richtungsparameter umfasst: Erzeugen einer Vielzahl von Richtungsparametern, die jeweils dem Audioinhalt in der Vielzahl von Segmenten entsprechen, wobei jeder der Vielzahl von Richtungsparametern die Richtungen der virtuellen Lautsprecherpaare beschreibt, um die wahrgenommenen dominanten Klangpositionen des Audioinhalts in einem entsprechenden der Vielzahl von Segmenten in einer Vielzahl von Frequenzteilbändern wiederherzustellen, und wobei das Kommunizieren des Zweikanalstereosignals und der Richtungsparameter: Kommunizieren der Vielzahl von Zweikanalstereosignalen und der Vielzahl von Richtungsparametern über den Kommunikationskanal oder durch die Speicherungsvorrichtung an den Decodierer.
Verfahren nach Anspruch 1, ferner umfassend: Analysieren des Zweikanalstereosignals, um Inhaltsanalyseparameter zu erzeugen; und Kommunizieren der Inhaltsanalyseparameter an den Decodierer.
Verfahren nach Anspruch 7, wobei die Inhaltsanalyseparameter Parameter umfassen, die einen Prädiktionsgewinn und eine Stärke eines Ansprechvorgangs des Stereosignals darstellen.
System, das konfiguriert ist, um Audioinhalt zu codieren, wobei das System umfasst: einen Speicher, der konfiguriert ist, um Anweisungen zu speichern; einen Prozessor, der mit dem Speicher gekoppelt und konfiguriert ist, um die in dem Speicher gespeicherten Anweisungen auszuführen zum: Erzeugen eines Zweikanalstereosignals aus dem Audioinhalt; Erzeugen von Richtungsparametern basierend auf dem Audioinhalt, wobei die Richtungsparameter Richtungen virtueller Lautsprecherpaare beschreiben, um wahrgenommene dominante Klangpositionen des Audioinhalts in einer Vielzahl von Frequenzteilbändern wiederherzustellen; und Kommunizieren des Zweikanalstereosignals und der Richtungsparameter über einen Kommunikationskanal oder durch eine Speicherungsvorrichtung an einen Decodierer.
System nach Anspruch 9, wobei der Audioinhalt eines oder mehrere von einem Mehrkanalsignal, das einem Lautsprecherlayout zugeordnet ist, einer Vielzahl von Audioobjekten oder Ambisonics beliebiger Ordnung umfasst.
System nach Anspruch 9, wobei zum Erzeugen der Richtungsparameter der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Umwandeln des Audioinhalts, der durch ein Mehrkanalsignal bereitgestellt wird, das einem Lautsprecherlayout zugeordnet ist, in eine Vielzahl von Teilbändern einer Frequenzdomänendarstellung des Audioinhalts; Bestimmen einer größten Lautstärke des Audioinhalts unter Verwendung eines Lautstärkemaskierungsmodells für jedes der Vielzahl von Teilbändern basierend auf dem Lautsprecherlayout, das dem Mehrkanalsignal zugeordnet ist; und Erzeugen von Richtungen der virtuellen Lautsprecherpaare mit der größten Lautstärke des Audioinhalts für jedes der Vielzahl von Teilbändern als die wahrgenommenen dominanten Klangpositionen des Audioinhalts.
System nach Anspruch 9, wobei die Richtungsparameter einen Azimutwinkel und einen Elevationswinkel relativ zu einer Standardhörerposition der virtuellen Lautsprecherpaare umfassen, um die wahrgenommenen dominanten Klangpositionen für jedes der Vielzahl von Frequenzteilbändern wiederherzustellen.
System nach Anspruch 9, wobei zum Erzeugen der Richtungsparameter der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Rendern des Audioinhalts, der von einer Vielzahl von Audioobjekten bereitgestellt wird, an ein oder mehrere virtuelle Kanalpaare, um Bilder der Vielzahl von Audioobjekten zu erzeugen; Bestimmen einer größten Lautstärke der Bilder der Vielzahl von Audioobjekten, die durch das eine oder die mehreren virtuellen Kanalpaare erzeugt werden; und Erzeugen von Richtungen der virtuellen Lautsprecherpaare, die die größte Lautstärke der Bilder als die wahrgenommenen dominanten Klangpositionen des Audioinhalts erzeugen.
System nach Anspruch 9, wobei der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Teilen des Audioinhalts in eine Vielzahl von Segmenten basierend auf einem Layout einer Vielzahl von Audioquellen, die den Audioinhalt bereitstellen, wobei, um das Zweikanalstereosignal aus dem Audioinhalt zu erzeugen, der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Erzeugen einer Vielzahl von Zweikanalstereosignalen, die jeweils dem Audioinhalt in der Vielzahl von Segmenten entsprechen; wobei der Prozessor zum Erzeugen der Richtungsparameter ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Erzeugen einer Vielzahl von Richtungsparametern, die jeweils dem Audioinhalt in der Vielzahl von Segmenten entsprechen, wobei jeder der Vielzahl von Richtungsparametern die Richtungen der virtuellen Lautsprecherpaare beschreibt, um die wahrgenommenen dominanten Klangpositionen des Audioinhalts in einem entsprechenden der Vielzahl von Segmenten in einer Vielzahl von Frequenzteilbändern wiederherzustellen, und wobei, um das Zweikanalstereosignal und die Richtungsparameter zu kommunizieren, der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Kommunizieren der Vielzahl von Zweikanalstereosignalen und der Vielzahl von Richtungsparametern über den Kommunikationskanal oder durch die Speicherungsvorrichtung an den Decodierer.
System nach Anspruch 9, wobei der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Analysieren des Zweikanalstereosignals, um Inhaltsanalyseparameter zu erzeugen; und Kommunizieren der Inhaltsanalyseparameter an den Decodierer.
System nach Anspruch 15, wobei die Inhaltsanalyseparameter Parameter umfassen, die einen Prädiktionsgewinn und eine Stärke eines Ansprechvorgangs des Stereosignals darstellen.
Verfahren zum Decodieren von Audioinhalt, wobei das Verfahren umfasst: Empfangen, durch eine Decodierungsvorrichtung, eines Zweikanalstereosignals und von Richtungsparametern von einer Codierungsvorrichtung, wobei die Richtungsparameter Richtungen virtueller Lautsprecherpaare beschreiben, um wahrgenommene dominante Klangpositionen des Audioinhalts, die durch das Zweikanalstereosignal dargestellt werden, in einer Vielzahl von Frequenzteilbändern wiederherzustellen; Erzeugen, durch die Decodierervorrichtung, einer Vielzahl von Zeit-Frequenz-Kacheln für eine Vielzahl von Kanalpaaren eines Wiedergabesystems aus dem Zweikanalstereosignal, wobei die Vielzahl von Zeit-Frequenz-Kacheln eine Frequenzdomänendarstellung jedes Kanals des Zweikanalstereosignals in der Vielzahl von Frequenzteilbändern darstellen; Erzeugen einer Vielzahl von Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren basierend auf den Richtungsparametern; und Anwenden der Vielzahl von Gewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln, um die Zeit-Frequenz-Kacheln räumlich über die Vielzahl von Kanalpaaren des Wiedergabesystems zu rendern.
Verfahren nach Anspruch 17, wobei das Anwenden der Vielzahl von Gewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln umfasst: Anwenden der Vielzahl von Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren auf beide Kanäle einer entsprechenden der Vielzahl von Zeit-Frequenz-Kacheln und der Vielzahl von Kanalpaaren, um die wahrgenommenen dominanten Klangrichtungen des Audioinhalts für die Vielzahl von Frequenzteilbändern über die Vielzahl von Kanalpaaren des Wiedergabesystems wiederherzustellen.
Verfahren nach Anspruch 17, wobei die Vielzahl von Gewichtungsfaktoren eine Vielzahl von Dekorrelationsgewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren umfasst, und wobei das Anwenden der Vielzahl von Gewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln umfasst: Anwenden der Vielzahl von Dekorrelationsgewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren auf eine entsprechende der Vielzahl von Zeit-Frequenz-Kacheln und die Vielzahl von Kanalpaaren, um eine Korrelation zwischen der Vielzahl von Kanalpaaren zu reduzieren.
Verfahren nach Anspruch 17, wobei das Erzeugen der Vielzahl von Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren umfasst: Erzeugen von Eigenschaften des Zweikanalstereosignals; und Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals, einem Layout der Vielzahl von Kanalpaaren des Wiedergabesystems und den Richtungsparametern, die Richtungen des virtuellen Lautsprecherpaars beschreiben, um die wahrgenommenen dominanten Klangpositionen des Audioinhalts in der Vielzahl von Frequenzteilbändern wiederherzustellen.
Verfahren nach Anspruch 20, wobei das Erzeugen der Eigenschaften des Zweikanalstereosignals umfasst: Analysieren des Zweikanalstereosignals, um einen Prädiktionsgewinn basierend auf einer Vorwärtsprädiktion des Zweikanalstereosignals zu erzeugen, wobei der Prädiktionsgewinn eine zeitliche Glätte des Zweikanalstereosignals misst; und Analysieren des Zweikanalstereosignals, um eine Stärke eines Ansprechvorgangs zu erzeugen, wobei die Stärke des Ansprechvorgangs eine Stärke des Ansprechvorgangs des Zweikanalstereosignals schätzt.
Verfahren nach Anspruch 21, wobei das Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals umfasst: Steuern der Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für eines der Kanalpaare, um einen Großteil der Signalenergie des Zweikanalstereosignals zu tragen, wenn die Stärke des Ansprechvorgangs stark ist.
Verfahren nach Anspruch 21, wobei das Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals umfasst: Erzeugen einer Vielzahl von Dekorrelationsgewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren basierend auf dem Prädiktionsgewinn und der Stärke des Ansprechvorgangs, wobei die Vielzahl von Dekorrelationsgewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren angewendet werden, um eine Korrelation zwischen der Vielzahl von Kanalpaaren zu reduzieren.
Verfahren nach Anspruch 20, wobei das Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals, des Layouts der Vielzahl von Kanalpaaren des Wiedergabesystems und der Richtungsparameter umfasst: Schätzen von zeitlichen Schwankungen der Richtungsparameter in der Vielzahl von Frequenzteilbändern; und Bestimmen eines Glättungsfaktors, um die Vielzahl von Gewichtungsfaktoren zeitlich zu glätten, basierend auf den geschätzten zeitlichen Schwankungen der Richtungsparameter.
Verfahren nach Anspruch 20, wobei das Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals, des Layouts der Vielzahl von Kanalpaaren des Wiedergabesystems und der Richtungsparameter umfasst: Steuern der Vielzahl von Gewichtungsfaktoren für die Vielzahl von Kanalpaaren, um die Signalenergie des Zweikanalstereosignals über die Vielzahl von Kanalpaaren zu verteilen, um ein wahrgenommenes Bild des Audioinhalts räumlich zu positionieren.
System, das konfiguriert ist, um Audioinhalt zu decodieren, wobei das System umfasst: einen Speicher, der konfiguriert ist, um Anweisungen zu speichern; einen Prozessor, der mit dem Speicher gekoppelt und konfiguriert ist, um die in dem Speicher gespeicherten Anweisungen auszuführen zum: Empfangen eines Zweikanalstereosignals und von Richtungsparametern von einer Codierungsvorrichtung kommend, wobei die Richtungsparameter Richtungen virtueller Lautsprecherpaare beschreiben, um wahrgenommene dominante Klangpositionen des Audioinhalts, der durch das Zweikanalstereosignal dargestellt wird, in einer Vielzahl von Frequenzteilbändern wiederherzustellen; Erzeugen einer Vielzahl von Zeit-Frequenz-Kacheln für eine Vielzahl von Kanalpaaren eines Wiedergabesystems aus dem Zweikanalstereosignal, wobei die Vielzahl von Zeit-Frequenz-Kacheln die Frequenzdomänendarstellung jedes Kanals des Zweikanalstereosignals in der Vielzahl von Frequenzteilbändern darstellt; Erzeugen einer Vielzahl von Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren basierend auf den Richtungsparametern; und Anwenden der Vielzahl von Gewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln, um die Zeit-Frequenz-Kacheln räumlich über die Vielzahl von Kanalpaaren des Wiedergabesystems zu rendern.
System nach Anspruch 26, wobei zum Anwenden der Vielzahl von Gewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Anwenden der Vielzahl von Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren auf beide Kanäle einer entsprechenden der Vielzahl von Zeit-Frequenz-Kacheln und der Vielzahl von Kanalpaaren, um die wahrgenommenen dominanten Klangrichtungen des Audioinhalts für die Vielzahl von Frequenzteilbändern über die Vielzahl von Kanalpaaren des Wiedergabesystems wiederherzustellen.
System nach Anspruch 26, wobei die Vielzahl von Gewichtungsfaktoren eine Vielzahl von Dekorrelationsgewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren umfasst, und wobei zum Anwenden der Vielzahl von Gewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Anwenden der Vielzahl von Dekorrelationsgewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren auf eine entsprechende der Vielzahl von Zeit-Frequenz-Kacheln und die Vielzahl von Kanalpaaren, um eine Korrelation zwischen der Vielzahl von Kanalpaaren zu reduzieren.
System nach Anspruch 26, wobei zum Erzeugen einer Vielzahl von Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Erzeugen von Eigenschaften des Zweikanalstereosignals; und Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals, einem Layout der Vielzahl von Kanalpaaren des Wiedergabesystems und den Richtungsparametern, die die Richtungen virtueller Lautsprecher beschreiben, um die wahrgenommenen dominanten Klangpositionen des Audioinhalts in der Vielzahl von Frequenzteilbändern wiederherzustellen.
System nach Anspruch 29, wobei zum Erzeugen von Eigenschaften des Zweikanalstereosignals der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Analysieren des Zweikanalstereosignals, um einen Prädiktionsgewinn basierend auf einer Vorwärtsprädiktion des Zweikanalstereosignals zu erzeugen, wobei der Prädiktionsgewinn eine zeitliche Glätte des Zweikanalstereosignals misst; und Analysieren des Zweikanalstereosignals, um eine Stärke eines Ansprechvorgangs zu erzeugen, wobei die Stärke des Ansprechvorgangs eine Stärke des Ansprechvorgangs des Zweikanalstereosignals schätzt.
System nach Anspruch 30, wobei zum Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Steuern der Gewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für eines der Kanalpaare, um einen Großteil der Signalenergie des Zweikanalstereosignals zu tragen, wenn die Stärke des Ansprechvorgangs stark ist.
System nach Anspruch 30, wobei zum Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals der Prozessor ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Erzeugen einer Vielzahl von Dekorrelationsgewichtungsfaktoren für die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren basierend auf dem Prädiktionsgewinn und der Stärke des Ansprechvorgangs, wobei die Vielzahl von Dekorrelationsgewichtungsfaktoren auf die Vielzahl von Zeit-Frequenz-Kacheln für die Vielzahl von Kanalpaaren angewendet werden, um eine Korrelation zwischen der Vielzahl von Kanalpaaren zu reduzieren.
System nach Anspruch 29, wobei der Prozessor zum Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals, dem Layout der Vielzahl von Kanalpaaren des Wiedergabesystems und den Richtungsparametern ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Schätzen von zeitlichen Schwankungen der Richtungsparameter in der Vielzahl von Frequenzteilbändern; und Bestimmen eines Glättungsfaktors, um die Vielzahl von Gewichtungsfaktoren zeitlich zu glätten, basierend auf den geschätzten zeitlichen Schwankungen der Richtungsparameter.
System nach Anspruch 29, wobei der Prozessor zum Erzeugen der Vielzahl von Gewichtungsfaktoren basierend auf den Eigenschaften des Zweikanalstereosignals, dem Layout der Vielzahl von Kanalpaaren des Wiedergabesystems und den Richtungsparametern ferner die in dem Speicher gespeicherten Anweisungen ausführt zum: Steuern der Vielzahl von Gewichtungsfaktoren für die Vielzahl von Kanalpaaren, um die Signalenergie des Zweikanalstereosignals über die Vielzahl von Kanalpaaren zu verteilen, um ein wahrgenommenes Bild des Audioinhalts räumlich zu positionieren.