-
QUERVERWEIS ZU VERWANDTEN ANMELDUNGEN
-
Diese Anmeldung beansprucht den Vorteil der Priorität gegenüber der am 2. Juli 2018 eingereichten vorläufigen US-Patentanmeldung Nr.
62/693,246 , auf die hiermit durch Verweis aufgenommen wird.
-
TECHNISCHES GEBIET
-
Das vorliegende Dokument betrifft immersive Audiosignale, die Schallfelddarstellungssignale umfassen können, insbesondere Ambisonics-Signale. Insbesondere betrifft das vorliegende Dokument ein Bereitstellen eines Codierers und eines entsprechenden Decodierers, die ermöglichen, dass immersive Audiosignale auf bitrateneffiziente Weise und/oder mit hoher Wahrnehmungsqualität übertragen und/oder gespeichert werden.
-
HINTERGRUND
-
Der Schall oder das Schallfeld in der Hörumgebung eines Hörers, der an einer Hörposition platziert ist, kann unter Verwendung eines Ambisonics-Signals beschrieben werden. Das Ambisonics-Signal kann als ein Mehrkanalaudiosignal angesehen werden, wobei jeder Kanal einem bestimmten Richtungsmuster des Schallfelds an der Hörposition des Hörers entspricht. Ein Ambisonics-Signal kann unter Verwendung eines dreidimensionalen (3D) kartesischen Koordinatensystems beschrieben werden, wobei der Ursprung des Koordinatensystems der Hörposition entspricht, wobei die x-Achse nach vorne zeigt, die y-Achse nach links zeigt und die Z-Achse nach oben zeigt.
-
Durch Erhöhen der Anzahl von Audiosignalen oder -kanälen und durch Erhöhen der Anzahl entsprechender Richtungsmuster (und entsprechender Schwenkfunktionen) kann die Genauigkeit, mit der ein Schallfeld beschrieben wird, erhöht werden. Um ein Beispiel zu nennen, ein Ambisonics-Signal erster Ordnung umfasst 4 Kanäle oder Wellenformen, nämlich einen W-Kanal, der eine ungerichtete Komponente des Schallfelds anzeigt, einen X-Kanal, der das Schallfeld mit einem Dipolrichtungsmuster beschreibt, das der x-Achse entspricht, einen Y-Kanal, der das Schallfeld mit einem Dipolrichtungsmuster beschreibt, das der y-Achse entspricht, und einen Z-Kanal, der das Schallfeld mit einem Dipolrichtungsmuster beschreibt, das der z-Achse entspricht. Ein Ambisonics-Signal zweiter Ordnung umfasst 9 Kanäle, einschließlich der 4 Kanäle des Ambisonics-Signals erster Ordnung (auch als das B-Format bezeichnet) plus 5 zusätzliche Kanäle für verschiedene Richtungsmuster. Im Allgemeinen umfasst ein Ambisonics-Signal L-ter Ordnung (L+1)2 Kanäle, einschließlich der L2-Kanäle der Ambisonics-Signale (L-1)-ter Ordnung plus [(L +1)2-L2] zusätzliche Kanäle für zusätzliche Richtungsmuster (wenn ein 3D-Ambisonics-Format verwendet wird). Ambisonics-Signale L-ter Ordnung für L>1 können als Ambisonics-Signale höherer Ordnung (HOA-Signale) bezeichnet werden.
-
Ein HOA-Signal kann verwendet werden, um ein 3D-Schallfeld unabhängig von einer Anordnung von Lautsprechern zu beschreiben, die zur Wiedergabe des HOA-Signals verwendet wird. Beispielanordnungen von Lautsprechern umfassen Kopfhörer oder eine oder mehrere Anordnungen von Lautsprechern oder eine Wiedergabeumgebung virtueller Realität. Daher kann es vorteilhaft sein, einer Audiowiedergabe ein HOA-Signal bereitzustellen, damit sich die Audiowiedergabe flexibel an verschiedene Anordnungen von Lautsprechern anpassen kann.
-
Schallfelddarstellungssignale (SR-Signale), wie beispielsweise Ambisonics-Signale, können mit Audioobjekten und/oder Mehrkanalsignalen (Bettsignalen) ergänzt werden, um ein immersives Audiosignal (lA-Signal) bereitzustellen. Das vorliegende Dokument befasst sich mit dem technischen Problem des Übertragens und/oder Speicherns von IA-Signalen mit hoher Wahrnehmungsqualität auf bandbreiteneffiziente Weise. Das technische Problem wird durch die unabhängigen Ansprüche gelöst. Bevorzugte Beispiele sind in den abhängigen Ansprüchen beschrieben.
-
KURZDARSTELLUNG
-
Gemäß einem Aspekt wird ein Verfahren zum Codieren eines Mehrkanaleingangssignals beschrieben. Das Mehrkanaleingangssignal kann Teil eines immersiven Audiosignals (lA-Signals) sein. Das Mehrkanaleingangssignal kann ein Schallfelddarstellungssignal (SR-Signal) umfassen, insbesondere ein Ambisonics-Signal erster oder höherer Ordnung. Das Verfahren umfasst ein Bestimmen einer Mehrzahl von Abwärtsmischkanalsignalen aus dem Mehrkanaleingangssignal. Des Weiteren umfasst das Verfahren ein Durchführen einer Energieverdichtung der der Mehrzahl von Abwärtsmischkanalsignalen, um eine Mehrzahl von verdichteten Kanalsignalen bereitzustellen. Außerdem umfasst das Verfahren ein Bestimmen gemeinsamer Codierungsmetadaten (insbesondere Metadaten zur Rekonstruktion räumlicher Audioauflösung, SPAR-Metadaten) basierend auf der Mehrzahl von verdichteten Kanalsignalen und basierend auf dem Mehrkanaleingangssignal, wobei die gemeinsamen Codierungsmetadaten derart sind, dass sie ein Aufwärtsmischen der Mehrzahl von verdichteten Kanalsignalen zu einer Annäherung des Mehrkanaleingangssignals ermöglichen. Das Verfahren umfasst weiter ein Codieren der Mehrzahl von verdichteten Kanalsignalen und der gemeinsamen Codierungsmetadaten.
-
Gemäß einem weiteren Aspekt wird ein Verfahren zum Bestimmen eines rekonstruierten Mehrkanalsignals aus codierten Audiodaten, die eine Mehrzahl von rekonstruierten Kanalsignalen anzeigen, und aus codierten Metadaten, die gemeinsame Codierungsmetadaten anzeigen, beschrieben. Das Verfahren umfasst ein Decodieren der codierten Audiodaten, um die Mehrzahl von rekonstruierten Kanalsignalen bereitzustellen, und ein Decodieren der codierten Metadaten, um die gemeinsamen Codierungsmetadaten bereitzustellen. Des Weiteren umfasst das Verfahren ein Bestimmen des rekonstruierten Mehrkanalsignals aus der Mehrzahl von rekonstruierten Kanalsignalen unter Verwendung der gemeinsamen Codierungsmetadaten.
-
Gemäß einem weiteren Aspekt wird ein Softwareprogramm beschrieben. Das Softwareprogramm kann zur Ausführung auf einem Prozessor und zum Durchführen der in diesem Dokument beschriebenen Verfahrensschritte, wenn es auf dem Prozessor ausgeführt wird, angepasst sein.
-
Gemäß einem anderen Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein Softwareprogramm umfassen, das zur Ausführung auf einem Prozessor und zum Durchführen der in diesem Dokument beschriebenen Verfahrensschritte, wenn es auf dem Prozessor ausgeführt wird, angepasst ist.
-
Gemäß einem weiteren Aspekt wird ein Computerprogrammprodukt beschrieben. Das Computerprogramm kann ausführbare Anweisungen zum Durchführen der in diesem Dokument beschriebenen Verfahrensschritte, wenn es auf einem Computer ausgeführt wird, umfassen.
-
Gemäß einem anderen Aspekt wird eine Codiereinheit oder Codiervorrichtung zum Codieren eines Mehrkanaleingangssignals und/oder eines immersiven Audiosignals (IA-Signals) beschrieben. Die Codiereinheit ist konfiguriert, um eine Mehrzahl von Abwärtsmischkanalsignalen aus dem Mehrkanaleingangssignal zu bestimmen. Des Weiteren ist die Codiereinheit konfiguriert, um eine Energieverdichtung der Mehrzahl von Abwärtsmischkanalsignalen durchzuführen, um eine Mehrzahl von verdichteten Kanalsignalen bereitzustellen. Außerdem ist die Codiereinheit konfiguriert, um gemeinsame Codierungsmetadaten basierend auf der Mehrzahl von verdichteten Kanalsignalen und basierend auf dem Mehrkanaleingangssignal zu bestimmen, wobei die gemeinsamen Codierungsmetadaten derart sind, dass sie ein Aufwärtsmischen der Mehrzahl von verdichteten Kanalsignalen zu einer Annäherung des Mehrkanaleingangssignals ermöglichen. Die Codiereinheit ist weiter konfiguriert, um die Mehrzahl von verdichteten Kanalsignalen und die gemeinsamen Codierungsmetadaten zu codieren.
-
Gemäß einem anderen Aspekt wird eine Decodiereinheit oder Decodiervorrichtung zum Bestimmen eines rekonstruierten Mehrkanalsignals aus codierten Audiodaten, die eine Mehrzahl von rekonstruierten Kanalsignalen anzeigen, und aus codierten Metadaten, die gemeinsame Codierungsmetadaten anzeigen, beschrieben. Die Decodiereinheit ist konfiguriert, um die codierten Audiodaten zu decodieren, um die Mehrzahl von rekonstruierten Kanalsignalen bereitzustellen, und um die codierten Metadaten zu decodieren, um die gemeinsamen Codierungsmetadaten bereitzustellen. Des Weiteren ist die Decodiereinheit konfiguriert, um das rekonstruierte Mehrkanalsignal aus der Mehrzahl von rekonstruierten Kanalsignalen unter Verwendung der gemeinsamen Codierungsmetadaten zu bestimmen.
-
Es ist zu beachten, dass die in der vorliegenden Patentanmeldung beschriebenen Verfahren, Vorrichtungen und Systeme einschließlich ihrer bevorzugten Ausführungsformen allein oder in Kombination mit den anderen in diesem Dokument offenbarten Verfahren, Vorrichtungen und Systemen verwendet werden können. Des Weiteren können alle Aspekte der in der vorliegenden Patentanmeldung beschriebenen Verfahren, Vorrichtungen und Systeme beliebig kombiniert werden. insbesondere können die Merkmale der Ansprüche auf beliebige Weise miteinander kombiniert werden.
-
Figurenliste
-
Die Erfindung wird nachstehend auf beispielhafte Weise unter Bezugnahme auf die beigefügten Zeichnungen erläutert, wobei
- 1 ein beispielhaftes Codierungssystem zeigt;
- 2 eine beispielhafte Codiereinheit zum Codieren eines immersiven Audiosignals zeigt;
- 3 eine andere beispielhafte Decodiereinheit zum Decodieren eines immersiven Audiosignals zeigt;
- 4 eine beispielhafte Codiereinheit und eine beispielhafte Decodiereinheit zum Codieren und Decodieren eines immersiven Audiosignals zeigt;
- 5 eine beispielhafte Codiereinheit und eine beispielhafte Decodiereinheit mit Modusumschaltung zeigt;
- 6 ein beispielhaftes Rekonstruktionsmodul zeigt;
- 7 ein Flussdiagramm eines beispielhaften Verfahrens zum Codieren eines immersiven Audiosignals zeigt; und
- 8 ein Flussdiagramm eines beispielhaften Verfahrens zum Decodieren von Daten, die ein immersives Audiosignal anzeigen, zeigt.
-
DETAILLIERTE BESCHREIBUNG
-
Wie vorstehend beschrieben, betrifft das vorliegende Dokument eine effiziente Codierung von immersiven Audiosignalen (lA-Signalen), wie beispielsweise Ambisonics-Signalen erster Ordnung (FOA-Signale) oder HOA-Signalen, Mehrkanal- und/oder Objektaudiosignalen, wobei insbesondere auf FOA- oder HOA-Signale hierin allgemeiner als Schallfelddarstellungssignale (SR-Signale) Bezug genommen wird.
-
Wie in dem einleitenden Abschnitt beschrieben, kann ein SR-Signal eine relativ hohe Anzahl von Kanälen oder Wellenformen umfassen, wobei sich die verschiedenen Kanäle auf verschiedene Schwenkfunktionen und/oder auf verschiedene Richtungsmuster beziehen. Um ein Beispiel zu nennen, ein 3D-FOA-Signal L-ter Ordnung oder ein HOA-Signal umfasst (L+1)2 Kanäle. Ein SR-Signal kann in verschiedenen Formaten dargestellt werden.
-
Ein Schallfeld kann als aus einem oder mehreren akustischen Ereignissen zusammengesetzt angesehen werden, die von beliebigen Richtungen um die Hörposition herum ausgehen. Infolgedessen können die Orte des einen oder der mehreren akustischen Ereignisse auf der Oberfläche einer Kugel definiert werden (wobei sich die Hör- oder Bezugsposition in dem Zentrum der Kugel befindet).
-
Ein Schallfeldformat, wie beispielsweise FOA oder Ambisonics höherer Ordnung (HOA), ist derart definiert, dass das Schallfeld über beliebige Lautsprecheranordnungen (d.h. beliebige Wiedergabesysteme) wiedergegeben werden kann. Wiedergabesysteme (wie beispielsweise das Dolby-Atmos-System) sind jedoch typischerweise in dem Sinne eingeschränkt, dass die möglichen Höhen der Lautsprecher auf eine definierte Anzahl von Ebenen festgelegt sind (z.B. eine Ebene auf Ohrhöhe (horizontal), eine Decke oder eine obere Ebene und/oder ein Boden oder eine untere Ebene). Daher kann der Begriff eines idealen sphärischen Schallfelds zu einem Schallfeld geändert werden, das aus akustischen Objekten zusammengesetzt ist, die sich in verschiedenen Ringen auf verschiedenen Höhen auf der Oberfläche einer Kugel befinden (ähnlich den gestapelten Ringen, die einen Bienenstock bilden).
-
Wie in 1 gezeigt, umfasst ein Audiocodierungssystem 100 eine Codiereinheit 110 und eine Decodiereinheit 120. Die Codiereinheit 110 kann konfiguriert sein, um einen Bitstrom 101 zur Übertragung an die Decodiereinheit 120 basierend auf einem Eingangssignal 111 zu erzeugen, wobei das Eingangssignal 111 ein immersives Audiosignal umfassen kann (das z.B. für Anwendungen der virtuellen Realität (VR-Anwendungen) verwendet wird). Das immersive Audiosignal kann ein SR-Signal, ein Mehrkanalsignal (Bettsignal) und/oder eine Mehrzahl von Objekten (jedes Objekt umfasst ein Objektsignal und Objektmetadaten) umfassen. Die Decodiereinheit 120 kann konfiguriert sein, um ein Ausgangssignal 121 basierend auf dem Bitstrom 101 bereitzustellen, wobei das Ausgangssignal 121 ein rekonstruiertes immersives Audiosignal umfassen kann.
-
2 veranschaulicht eine beispielhafte Codiereinheit 110, 200. Die Codiereinheit 200 kann konfiguriert sein, um ein Eingangssignal 111 zu codieren, wobei das Eingangssignal 111 ein immersives Audioeingangssignal (lA-Eingangssignal) 111 sein kann. Das IA-Eingangssignal 111 kann ein Mehrkanaleingangssignal 201 umfassen. Das Mehrkanaleingangssignal 201 kann ein SR-Signal und ein oder mehrere Objektsignale umfassen. Des Weiteren können Objektmetadaten 202 für die Mehrzahl von Objektsignalen als Teil des IA-Eingangssignals 111 bereitgestellt werden. Das IA-Eingangssignal 111 kann von einer Inhaltsaufnahmemaschine bereitgestellt werden, wobei eine Inhaltsaufnahmemaschine konfiguriert sein kann, um Objekte und/oder oder SR-Signale von (komplexen) VR-Inhalten abzuleiten.
-
Die Codiereinheit 200 umfasst ein Abwärtsmischmodul 210, das konfiguriert ist, um das Mehrkanaleingangssignal 201 auf eine Mehrzahl von Abwärtsmischkanalsignalen 203 abwärtszumischen. Die Mehrzahl von Abwärtsmischkanalsignalen 203 kann einem SR-Signal entsprechen, insbesondere einem Ambisonics-Signal erster Ordnung (FOA-Signal). Das Abwärtsmischen kann in der Teilbanddomäne oder der QMF-Domäne (z.B. unter Verwendung von 10 oder mehr Teilbändern) durchgeführt werden.
-
Die Codiereinheit 200 umfasst weiter ein gemeinsames Codierungsmodul 230 (insbesondere ein SPAR-Modul), das konfiguriert ist, um gemeinsame Codierungsmetadaten 205 (insbesondere SPAR-Metadaten, Metadaten zur Rekonstruktion räumlicher Audioauflösung) zu bestimmen, die konfiguriert sind, um das Mehrkanaleingangssignal 201 aus der Mehrzahl von Abwärtsmischkanalsignalen 203 zu rekonstruieren. Das gemeinsame Codierungsmodul 230 kann konfiguriert sein, um die gemeinsamen Codierungsmetadaten 205 in der Teilbanddomäne zu bestimmen.
-
Zum Bestimmen der gemeinsamen Codierungsmetadaten 205 kann die Mehrzahl von Abwärtsmischkanalsignalen 203 in die Teilbanddomäne transformiert und/oder innerhalb der Teilbanddomäne verarbeitet werden. Des Weiteren kann das Mehrkanaleingangssignal 201 in die Teilbanddomäne transformiert werden. Anschließend können gemeinsame Codierungsmetadaten 205 auf einer Basis pro Teilband bestimmt werden, insbesondere derart, dass durch Aufwärtsmischen eines Teilbandsignals der Mehrzahl von Abwärtsmischkanalsignalen 203 unter Verwendung der gemeinsamen Codierungsmetadaten 205 eine Annäherung eines Teilbandsignals des Mehrkanaleingangssignals 201 wird erhalten. Die gemeinsamen Codierungsmetadaten 205 für die verschiedenen Teilbänder können zur Übertragung an die entsprechende Decodiereinheit 120 in den Bitstrom 101 eingefügt werden.
-
Zusätzlich kann die Codiereinheit 200 ein Codierungsmodul 240 umfassen, das konfiguriert ist, um ein Wellenformcodieren der Mehrzahl von Abwärtsmischkanalsignalen 203 durchzuführen, wodurch codierte Audiodaten 206 bereitgestellt werden. Jedes der Abwärtsmischkanalsignale 203 kann unter Verwendung eines Monowellenformcodierers codiert werden (z.B. 3 GPP EVS-Codieren), wodurch ein effizientes Codieren ermöglicht wird. Weitere Beispiele zum Codieren der Mehrzahl von Abwärtsmischkanalsignalen 203 sind MPEG AAC, MPEG HE-AAC und andere MPEG Audio-Codecs, 3GPP-Codecs, Dolby Digital/Dolby Digital Plus (AC-3, eAC-3), Opus, LC-3 und ähnliche Codecs. Als ein weiteres Beispiel können Codierungswerkzeuge, die in dem AC-4-Codec enthalten sind, auch konfiguriert sein, um die Operationen der Codiereinheit 200 auszuführen.
-
Des Weiteren kann das Codierungsmodul 240 konfiguriert sein, um ein Entropiecodieren der gemeinsamen Codierungsmetadaten (d.h. der SPAR-Metadaten) 205 und der Objektmetadaten 202 durchzuführen, wodurch codierte Metadaten 207 bereitgestellt werden. Die codierten Audiodaten 206 und die codierten Metadaten 207 können in den Bitstrom 101 eingefügt werden.
-
3 zeigt eine beispielhafte Decodiereinheit 120, 350. Die Decodiereinheit 120, 350 kann einen Empfänger beinhalten, der den Bitstrom 101 empfängt, der die codierten Audiodaten 206 und die codierten Metadaten 207 beinhalten kann. Die Decodiereinheit 120, 350 kann einen Prozessor und/oder einen Demultiplexer beinhalten, der die codierten Audiodaten 206 und die codierten Metadaten 207 aus dem Bitstrom 101 demultiplext. Die Decodiereinheit 350 umfasst ein Decodiermodul 360, das konfiguriert ist, um eine Mehrzahl von rekonstruierten Kanalsignalen 314 aus den codierten Audiodaten 206 abzuleiten. Das Decodiermodul 360 kann weiter konfiguriert sein, um die gemeinsamen Codierungsmetadaten 205 und die Objektmetadaten 202 aus den codierten Metadaten 207 abzuleiten.
-
Zusätzlich umfasst die Decodiereinheit 350 ein Rekonstruktionsmodul 370, das konfiguriert ist, um ein rekonstruiertes Mehrkanalsignal 311 aus den gemeinsamen Codierungsmetadaten 205 und aus der Mehrzahl von rekonstruierten Kanalsignalen 314 abzuleiten. Die gemeinsamen Codierungsmetadaten 205 können die zeit- und/oder frequenzvariierenden Elemente einer Aufwärtsmischmatrix übermitteln, was ein Rekonstruieren des Mehrkanalsignals 311 aus der Mehrzahl von rekonstruierten Kanalsignalen 314 ermöglicht. Der Aufwärtsmischprozess kann in der QMF-Teilbanddomäne (Quadraturspiegelfilter-Teilbanddomäne) ausgeführt werden. Alternativ kann eine andere Zeit-/Frequenztransformation, insbesondere eine Transformation auf Basis von FFT (schneller Fourier Transformation), verwendet werden, um den Aufwärtsmischprozess durchzuführen. Im Allgemeinen kann eine Transformation angewendet werden, die eine frequenzselektive Analyse und (Aufwärtsmisch-) Verarbeitung ermöglicht. Der Aufwärtsmischprozess kann auch Dekorrelatoren beinhalten, die eine verbesserte Rekonstruktion der Kovarianz des rekonstruierten Mehrkanalsignals 311 ermöglichen, wobei die Dekorrelatoren durch zusätzliche gemeinsame Codierungsmetadaten 205 gesteuert werden können.
-
Das rekonstruierte Mehrkanalsignal 311 kann ein als rekonstruiertes SR-Signal bekanntes Signal und ein oder mehrere rekonstruierte Objektsignale umfassen. Das rekonstruierte Mehrkanalsignal 311 und die Objektmetadaten können ein rekonstruiertes IA-Signal 121 bilden. Das rekonstruierte lA-Signal 121 kann zur Lautsprecherwiedergabe 330, zur Kopfhörerwiedergabe 331 und/oder zur SR-Wiedergabe 332 verwendet werden.
-
4 veranschaulicht eine Codiereinheit 200 und eine Decodiereinheit 350. Die Codiereinheit 200 umfasst die im Zusammenhang mit 2 beschriebenen Komponenten. Des Weiteren umfasst die Codiereinheit 200 ein Energieverdichtungsmodul 420, das konfiguriert ist, um die Energie der Mehrzahl von Abwärtsmischkanalsignalen 203 auf einen oder mehrere Abwärtsmischkanalsignale 203 zu konzentrieren. Das Energieverdichtungsmodul 420 kann die Abwärtsmischkanalsignale 203 transformieren, um eine Mehrzahl von verdichteten Kanalsignalen 404 bereitzustellen. Die Transformation kann derart durchgeführt werden, dass eines oder mehrere der verdichteten Kanalsignale 404 weniger Energie aufweisen als die entsprechenden ein oder mehrere Abwärtsmischkanalsignale 203.
-
Um ein Beispiel zu nennen, die Mehrzahl von Abwärtsmischkanalsignalen 203 kann ein W-Kanalsignal, ein X-Kanalsignal, ein Y-Kanalsignal und ein Z-Kanalsignal umfassen. Die Mehrzahl von verdichteten Kanalsignalen 404 kann das W-Kanalsignal, ein X'-Kanalsignal, ein Y'-Kanalsignal und ein Z'-Kanalsignal umfassen. Das X'-Kanalsignal, das Y'-Kanalsignal und das Z'-Kanalsignal können bestimmt werden, sodass das X'-Kanalsignal weniger Energie als das X-Kanalsignal aufweist, sodass das Y'-Kanalsignal weniger Energie als das Y-Kanalsignal aufweist und/oder sodass das Z'-Kanalsignal weniger Energie als das Z-Kanalsignal aufweist.
-
Das Energieverdichtungsmodul 420 kann konfiguriert sein, um eine Energieverdichtung unter Verwendung einer Vorhersageoperation durchzuführen. insbesondere kann eine erste Teilmenge der Mehrzahl von Abwärtsmischkanalsignalen 203 (z.B. des X-Kanalsignals, des Y-Kanalsignals und des Z-Kanalsignals) aus einer zweiten Teilmenge der Mehrzahl von Abwärtsmischkanalsignalen 203 (z.B. des W-Kanalsignals) vorhergesagt werden. Die Energieverdichtung kann das Subtrahieren einer skalierten Version von einem der Abwärtsmischkanalsignale 203 (z.B. dem W-Kanalsignal) von den anderen Abwärtsmischkanalsignalen 203 (z.B. dem X-Kanalsignal, dem Y-Kanalsignal und/oder dem Z-Kanalsignal) umfassen. Der Skalierungsfaktor kann bestimmt werden, sodass die Energie der anderen Abwärtsmischkanalsignale 203 reduziert wird, insbesondere minimiert.
-
Durch Durchführen einer Energieverdichtung kann die Effizienz zum Codieren der Mehrzahl von verdichteten Kanalsignalen 404 im Vergleich zum Codieren der Mehrzahl von Abwärtsmischkanalsignalen 203 erhöht werden. Die Codiereinheit 200 ist konfiguriert, um zum Durchführen der Inversen der Energieverdichtungsoperation die Metadaten implizit in die gemeinsamen Codierungsmetadaten 205 einzufügen. Infolgedessen wird ein effizientes Codieren als lA-Eingangssignal 111 erreicht.
-
Wie vorstehend beschrieben, umfasst die Decodiereinheit ein Rekonstruktionsmodul 370. 6 veranschaulicht ein beispielhaftes Rekonstruktionsmodul 370. Das Rekonstruktionsmodul 370 nimmt als Eingang die Mehrzahl von rekonstruierten Kanalsignalen 314 (die z.B. ein Ambisonics-Signal erster Ordnung bilden können). Ein erster Mischer 611 kann konfiguriert sein, um die Mehrzahl von rekonstruierten Kanalsignalen 314 (z.B. die vier Kanalsignale) auf eine erhöhte Anzahl von Signalen (z.B. elf Signale, die ein Ambisonics-Signal 2-ter Ordnung und zwei Objektsignale darstellen) aufwärts zu mischen. Der erste Mischer 611 ist von den gemeinsamen Codierungsmetadaten 205 abhängig.
-
Das Rekonstruktionsmodul 370 kann Dekorrelatoren 601, 602 umfassen, die konfiguriert sind, um zwei Signale aus dem W-Kanalsignal zu erzeugen, die in einem zweiten Mischer 612 verarbeitet werden, um eine erhöhte Anzahl von Signalen (z.B. elf Signale) zu erzeugen. Der zweite Mischer 612 ist von den gemeinsamen Codierungsmetadaten 205 abhängig. Der Ausgang des ersten Mischers 611 und der Ausgang des zweiten Mischers 612 werden summiert, um das rekonstruierte Mehrkanalsignal 311 bereitzustellen.
-
Wie vorstehend angegeben, können die gemeinsamen Codierungs- oder SPAR-Metadaten 205 aus Daten zusammengesetzt sein, die die Koeffizienten von Aufwärtsmischmatrizen darstellen, die von dem ersten Mischer 611 und von dem zweiten Mischer 612 verwendet werden. Die Mischer 611, 612 können in der Teilbanddomäne (insbesondere in die QMF-Domäne) arbeiten. In diesem Fall umfassen die gemeinsamen Codierungs- oder SPAR-Metadaten 205 Daten, die die Koeffizienten von Aufwärtsmischmatrizen darstellen, die von dem ersten Mischer 611 und von dem zweiten Mischer 612 für eine Mehrzahl von verschiedenen Teilbändern (z.B. 10 oder mehr Teilbänder) verwendet werden.
-
5 zeigt eine Codiereinheit 200, die zwei Zweige zum Codieren eines Mehrkanaleingangssignals 201 und zum Codieren von Objektmetadaten 202 (die ein IA-Eingangssignal 111 bilden) umfasst. Der obere Zweig entspricht dem Codierschema, das im Zusammenhang mit 4 beschrieben wurde. In dem unteren Zweig ist die gemeinsame Codiereinheit 230 modifiziert, um Metadaten 205 zu bestimmen, was ermöglicht, dass die Mehrzahl von Abwärtsmischkanalsignalen 203 aus der Mehrzahl von Kanalsignalen 404 rekonstruiert werden kann. Daher zeigen die Metadaten 205 den Vorhersager (insbesondere den einen oder die mehreren Skalierungsfaktoren) an, der verwendet wurde, um die Mehrzahl von verdichteten Kanalsignalen 404 aus der Mehrzahl von Abwärtsmischkanalsignalen 203 zu erzeugen. In einer Variante können Metadaten 205 direkt von dem Energieverdichtungsmodul 220 bereitgestellt werden (ohne dass das gemeinsame Codierungsmodul 230 verwendet werden muss).
-
Die Codiereinheit 200 von 5 umfasst ein Modusumschaltmodul 500, das konfiguriert ist, um zwischen einem ersten Modus (entsprechend dem oberen Zweig) und einem zweiten Modus (entsprechend dem unteren Zweig) umzuschalten. Der erste Modus kann verwendet werden, um eine hohe Wahrnehmungsqualität bei einer erhöhten Bitrate bereitzustellen, und der zweite Modus kann verwendet werden, um eine reduzierte Wahrnehmungsqualität bei einer reduzierten Bitrate bereitzustellen. Das Modusumschaltmodul 500 kann konfiguriert sein, um in Abhängigkeit von dem Status eines Übertragungsnetzwerks zwischen dem ersten Modus und dem zweiten Modus umzuschalten.
-
Des Weiteren zeigt 5 eine entsprechende Decodiereinheit 350, die konfiguriert ist, um ein Decodieren gemäß einem ersten Modus (oberer Zweig) und gemäß einem zweiten Modus (unterer Zweig) durchzuführen. Ein Modusumschaltmodul 550 kann konfiguriert sein, um zu bestimmen, welcher Modus von der Codiereinheit 200 verwendet wurde (z.B. auf einer Rahmen-für-Rahmen-Basis). Wenn der erste Modus verwendet wurde, dann können das rekonstruierte Mehrkanalsignal 311 und die Objektmetadaten 202 bestimmt werden (wie im Zusammenhang von 4 beschrieben). Wenn andererseits der zweite Modus verwendet wurde, dann kann eine Mehrzahl von rekonstruierten Abwärtsmischkanalsignalen 513 (entsprechend der Mehrzahl von Abwärtsmischkanalsignalen 203) von der Decodiereinheit 350 bestimmt werden.
-
Daher wird eine Codiereinheit 200 beschrieben, die ein Abwärtsmischmodul 210 umfasst, das konfiguriert ist, um die Objekte und ein HOA-Eingangssignal 111 zu verarbeiten, um ein Ausgangssignal 203 zu erzeugen, das eine reduzierte Anzahl von Kanälen aufweist, zum Beispiel ein Ambisonics-Signal erster Ordnung (FOA-Signal). Das SPAR-Codiermodul 230 erzeugt Metadaten (d.h. SPAR-Metadaten) 205, die anzeigen, wie die ursprünglichen Eingänge 111, 201 (z.B. Objektsignale plus HOA) aus dem FOA-Signal 203 regeneriert werden können. Ein Satz von EVS-Codierern 240 kann das 4-Kanal-FOA-Signal 203. nehmen und kann codierte Audiodaten 206 erzeugen, die in einen Bitstrom 101 eingefügt werden sollen, der dann von einem Satz von EVS-Decodierern 360 decodiert wird, um ein vierkanaliges FOA-Signal 314 zu erzeugen. Die SPAR-Metadaten 205 können als (Entropie) codierte Metadaten 207 innerhalb des Bitstroms 101 zu dem Decodierer 360 bereitgestellt werden. Das Rekonstruktionsmodul 370 regeneriert anschließend einen Ausgang 121, der aus Audioobjekten und einem HOA-Signal besteht.
-
Das von dem Abwärtsmischmodul 210 erzeugte Signal 203 mit niedriger Auflösung kann durch eine WXYZ-Energieverdichtungstransformation (in Modul 420) modifiziert werden, die ein Ausgangssignal 404 erzeugt, das im Vergleich zu dem Ausgang des Abwärtsmischmoduls 210 eine geringere Zwischenkanalkorrelation aufweist. Der Zweck des Energieverdichtungsfilters 420 besteht darin, die Energie in den XYZ-Kanälen zu reduzieren, sodass der W-Kanal mit einer höheren Bitrate codiert werden kann und die X'Y'Z'-Kanäle mit niedriger Energie mit niedrigeren Bitraten codiert werden können. Auf diese Weise werden die Codierungsartefakte effektiver maskiert, sodass die Audioqualität verbessert wird.
-
Zusätzlich oder alternativ zur Durchführung einer Vorhersage kann die Energieverdichtung eine Karhonen-Loeve-Transformation (KLT), eine Hauptkomponentenanalysetransformation (PCA-Transformation) und/oder eine Singulärwertzerlegungstransformation (SVD-Transformation) verwenden. Insbesondere kann ein Energieverdichtungsfilter 420 verwendet werden, der einen Aufhellungsfilter, eine KLT, eine PCA-Transformation und/oder eine SVD-Transformation umfasst. Der Aufhellungsfilter kann unter Verwendung des vorstehend erwähnten Vorhersageschemas implementiert werden. Insbesondere kann der Energieverdichtungsfilter 420 eine Kombination eines Aufhellungsfilters und einer KLT, PCA- und/oder SVD-Transformation umfassen, wobei die letztere in Reihe mit dem Aufhellungsfilter angeordnet ist. Die KLT, PCA- und/oder SVD-Transformation kann auf die X-, Y-, Z-Kanäle angewendet werden, insbesondere auf die Vorhersage-Residuen.
-
7 zeigt ein Flussdiagramm eines beispielhaften Verfahrens 700 zum Codieren eines Mehrkanaleingangssignals 201. Insbesondere betrifft das Verfahren 700 ein Codieren eines lA-Signals, das ein Mehrkanaleingangssignal 201 umfasst. Das Mehrkanaleingangssignal 201 kann ein Schallfelddarstellungssignal (SR-Signal) umfassen. Insbesondere kann das Mehrkanaleingangssignal 201 eine Kombination aus einem SR-Signal (z.B. einem HOA-Signal, insbesondere einem Ambisonics-Signal zweiter Ordnung) und einem oder mehreren (insbesondere zwei) Objektsignalen von einem oder mehreren Audioobjekten 303 umfassen.
-
Das Verfahren 700 umfasst das Bestimmen 701 einer Mehrzahl von Abwärtsmischkanalsignalen 203 aus dem Mehrkanaleingangssignal 201. Die Mehrzahl von Abwärtsmischkanalsignalen 203 kann eine reduzierte Anzahl von Kanälen im Vergleich zu dem Mehrkanaleingangssignal 201 umfassen. Wie vorstehend angegeben kann das Mehrkanaleingangssignal 201 ein SR-Signal, insbesondere ein Ambisonics-Signal L-ter Ordnung, mit L≥1, und ein oder mehrere Objektsignale von einem oder mehreren Audioobjekten 303 umfassen. Die Mehrzahl von Abwärtsmischkanalsignalen 203 kann durch Abwärtsmischen des Mehrkanaleingangssignals 201 auf ein SR-Signal, insbesondere ein Ambisonics-Signal K-ter Ordnung, mit L≥K, bestimmt werden. Daher kann die Mehrzahl von Abwärtsmischkanalsignalen 203 ein SR-Signal sein, insbesondere ein Ambisonics-Signal der K-ter Ordnung.
-
Insbesondere kann das Bestimmen 701 der Mehrzahl von Abwärtsmischkanalsignalen 203 das Mischen des einen oder der mehreren Objektsignale von einem oder mehreren Audioobjekten 303 (des Mehrkanaleingangssignals 201) mit dem SR-Signal des Mehrkanaleingangssignals 201 (oder mit einer abwärtsgemischten Version des SR-Signals) umfassen. Das Mischen (insbesondere das Schwenken) kann in Abhängigkeit von den Objektmetadaten 202 von dem einen oder den mehreren Audioobjekten 303 durchgeführt werden, wobei die Objektmetadaten 202 von einem Audioobjekt 303 eine räumliche Position des Audioobjekts 303 anzeigen. Ein Abwärtsmischen des SR-Signals kann das Entfernen der [(L + 1)2-L2] zusätzlichen Kanäle aus einem SR-Signal L-ter Ordnung umfassen, wodurch ein SR-Signal (L-1)-ter Ordnung bereitgestellt wird.
-
In einem bevorzugten Beispiel bildet die Mehrzahl von Abwärtsmischkanalsignalen 203 ein Ambisonics-Signal erster Ordnung, insbesondere in einem B-Format oder in einem A-Format. Das SR-Signal des Mehrkanaleingangssignals 201 kann ein Ambisonics-Signal zweiter Ordnung (oder höher) sein.
-
Des Weiteren umfasst das Verfahren 700 ein Durchführen 702 einer Energieverdichtung der Mehrzahl von Abwärtsmischkanalsignalen 203, um eine Mehrzahl von verdichteten Kanalsignalen 404 bereitzustellen. Die Anzahl der Kanäle der Mehrzahl von Abwärtsmischkanalsignalen 203 und die Mehrzahl von verdichteten Kanalsignalen 404 können gleich sein. Insbesondere kann die Mehrzahl von verdichteten Kanalsignalen 404 ein Ambisonics-Signal erster Ordnung bilden oder in einem Format eines Ambisonics-Signals erster Ordnung vorliegen, insbesondere in einem B-Format oder in einem A-Format.
-
Eine Energieverdichtung kann derart durchgeführt werden, dass die Zwischenkanalkorrelation zwischen den verschiedenen Kanalsignalen 203 reduziert wird. Insbesondere kann die Mehrzahl von verdichteten Kanalsignalen 404 eine geringere Zwischenkanalkorrelation aufweisen als die Mehrzahl von Abwärtsmischkanalsignalen 203. Alternativ oder zusätzlich kann eine Energieverdichtung derart durchgeführt werden, dass die Energie eines verdichteten Kanalsignals geringer als oder gleich der Energie eines entsprechenden Abwärtsmischkanalsignals ist. Diese Bedingung kann für jeden Kanal erfüllt werden.
-
Das Durchführen 702 einer Energieverdichtung kann ein Vorhersagen eines ersten Abwärtsmischkanalsignals 203 (z.B. eines X-, Y- oder Z-Kanals) aus einem zweiten Abwärtsmischkanalsignal (z.B. eines W-Kanals) umfassen, um ein erstes vorhergesagtes Kanalsignal bereitzustellen. Das erste vorhergesagte Kanalsignal kann von dem ersten Abwärtsmischkanalsignal 203 subtrahiert werden (oder umgekehrt), um ein erstes verdichtetes Kanalsignal 404 bereitzustellen.
-
Das Vorhersagen eines ersten Abwärtsmischkanalsignals 203 aus einem zweiten Abwärtsmischkanalsignal 203 kann das Bestimmen eines Skalierungsfaktors zum Skalieren des zweiten Abwärtsmischkanalsignals 203 umfassen. Der Skalierungsfaktor kann bestimmt werden, so dass die Energie des ersten verdichteten Kanalsignals 404 im Vergleich zu der Energie des ersten Abwärtsmischkanalsignals 203 reduziert wird und/oder sodass die Energie des ersten verdichteten Kanalsignals 404 minimiert wird. Das erste vorhergesagte Kanalsignal kann dann dem zweiten Abwärtsmischkanalsignal 203 entsprechen, das gemäß dem Skalierungsfaktor skaliert wurde. Für verschiedene Kanäle können verschiedene Skalierungsfaktoren bestimmt werden.
-
Insbesondere (im Fall eines Ambisonics-Signals erster Ordnung) kann das Durchführen 702 einer Energieverdichtung ein Vorhersagen eines X-Kanalsignals, eines Y-Kanalsignals und eines Z-Kanalsignals aus einem W-Kanalsignal der Mehrzahl von Abwärtsmischkanalsignalen 203 umfassen, um ein vorhergesagtes X-Kanalsignal, ein vorhergesagtes Y-Kanalsignal bzw. ein vorhergesagtes Z-Kanalsignal bereitzustellen. Das vorhergesagte X-Kanalsignal kann von dem X-Kanalsignal..subtrahiert werden (oder umgekehrt), um ein X'-Kanalsignal der Mehrzahl von verdichteten Kanalsignalen 404 zu bestimmen. Das vorhergesagte Y-Kanalsignal kann von dem Y-Kanalsignal subtrahiert werden (oder umgekehrt), um ein Y'-Kanalsignal der Mehrzahl von verdichteten Kanalsignalen 404 zu bestimmen. Das vorhergesagte Z-Kanalsignal kann von dem Z-Kanalsignal subtrahiert werden (oder umgekehrt), um ein Z'-Kanalsignal der Mehrzahl von verdichteten Kanalsignalen 404 zu bestimmen. Des Weiteren kann das W-Kanalsignal der Mehrzahl von Abwärtsmischkanalsignalen 203 als das W-Kanalsignal der Mehrzahl von verdichteten Kanalsignalen 404 verwendet werden.
-
Infolgedessen kann die Energie aller Kanäle (außer einem, d.h. dem W-Kanal) reduziert werden, wodurch eine effizientes Codieren der Mehrzahl von verdichteten Kanalsignalen 404 ermöglicht wird. Das Verfahren 700 kann weiter ein Bestimmen 703 gemeinsamer Codierungsmetadaten (hier auch als SPAR-Metadaten bezeichnet) 205 basierend auf der Mehrzahl von verdichteten Kanalsignalen 404 und basierend auf dem Mehrkanaleingangssignal 201 umfassen. Die gemeinsamen Codierungsmetadaten 205 können derart bestimmt werden, dass die gemeinsamen Codierungsmetadaten 205 ein Aufwärtsmischen der Mehrzahl von verdichteten Kanalsignalen 404 zu einer Annäherung des Mehrkanaleingangssignals 201 ermöglichen. Durch Verwendung der Mehrzahl von verdichteten Kanalsignalen 404 zum Bestimmen der gemeinsamen Codierungsmetadaten wird der Prozess des Invertierens der Energieverdichtung automatisch in die gemeinsamen Codierungsmetadaten 205 eingeschlossen (ohne dass zusätzliche Metadaten speziell zum Invertieren des Energieverdichtungsvorgangs bereitgestellt werden müssen).
-
Die gemeinsamen Codierungsmetadaten 205 können Aufwärtsmischdaten umfassen, insbesondere eine oder mehrere Aufwärtsmischmatrizen, die das Aufwärtsmischen der Mehrzahl von verdichteten Kanalsignalen 404 zu einer Annäherung des Mehrkanaleingangssignals 201 ermöglichen. Die Annäherung des Mehrkanaleingangssignals 201 umfasst die gleiche Anzahl von Kanälen wie das Mehrkanaleingangssignal 201. Des Weiteren können die gemeinsamen Codierungsmetadaten 205 Dekorrelationsdaten umfassen, die die Rekonstruktion einer Kovarianz des Mehrkanaleingangssignals 201 ermöglichen.
-
Die gemeinsamen Codierungsmetadaten 205 können für eine Mehrzahl von verschiedenen Teilbändern des Mehrkanaleingangssignals 201 bestimmt werden (z.B. für 10 oder mehr Teilbänder, insbesondere innerhalb der QMF-Domäne). Durch Bereitstellen gemeinsamer Codierungsmetadaten 205 für verschiedene Teilbänder (d.h. innerhalb verschiedener Frequenzbänder) kann eine präzise Aufwärtsmischoperation durchgeführt werden.
-
Zusätzlich umfasst das Verfahren 700 ein Codieren 704 der Mehrzahl von verdichteten Kanalsignalen 404 und der gemeinsamen Codierungsmetadaten 205 (auch als SPAR-Metadaten bekannt). Das Codieren 704 der Mehrzahl von verdichteten Kanalsignalen 404 kann ein Durchführen eines Wellenformcodierens (insbesondere EVS-Codieren) von jedem einzelnen der Mehrzahl von verdichteten Kanalsignalen 404 umfassen, insbesondere unter Verwendung eines Monocodierers für jedes verdichtete Kanalsignal 404. Alternativ oder zusätzlich können die gemeinsame Codierungsmetadaten 205 unter Verwendung eines Entropiecodierers codiert werden. Wie vorstehend angegeben, kann das Mehrkanaleingangssignal 201 ein oder mehrere Objektsignale von einem oder mehreren Audioobjekten 303 umfassen. In solchen Fällen kann das Verfahren 700 ein Codieren, insbesondere unter Verwendung eines Entropiecodierers, der Objektmetadaten 202 für das eine oder die mehreren Audioobjekte 303 umfassen.
-
Das Verfahren 700 ermöglicht, dass ein Mehrkanaleingangssignal 201, das ein SR-Signal und/oder ein oder mehrere Audioobjektsignale anzeigen kann, auf eine bitrateneffiziente Weise codiert wird, während es einem Decodierer ermöglicht, das Mehrkanaleingangssignal 201 mit hoher Wahrnehmungsqualität zu rekonstruieren.
-
Das Bestimmen der gemeinsamen Codierungsmetadaten 205 basierend auf der Mehrzahl von verdichteten Kanalsignalen 404 und basierend auf dem Mehrkanaleingangssignal 201 kann einem ersten Modus zum Codieren des Mehrkanaleingangssignals 201 entsprechen.
-
Alternativ oder zusätzlich zur Verwendung einer Vorhersage kann das Durchführen 702 einer Energieverdichtung ein Anwenden einer Karhonen-Loeve-Transformation, einer Hauptkomponentenanalysetransformation und/oder einer Singulärwertzerlegungstransformation auf zumindest einen Teil der Mehrzahl von Abwärtsmischkanalsignalen 203 umfassen. Dadurch kann die Codierungseffizienz der Mehrzahl von verdichteten Kanalsignalen 404 weiter erhöht werden.
-
Insbesondere können eine Karhonen-Loeve-Transformation, eine Hauptkomponentenanalysetransformation und/oder eine Singulärwertzerlegungstransformation auf verdichtete Kanalsignale 404 angewendet werden, die Vorhersage-Residuen entsprechen, die basierend auf einem zweiten Abwärtsmischkanalsignal 203 (insbesondere basierend auf dem W-Kanalsignal) abgeleitet wurden. Mit anderen Worten, eine Karhonen-Loeve-Transformation, eine Hauptkomponentenanalysetransformation und/oder eine Singulärwertzerlegungstransformation können auf die Vorhersage-Residuen angewendet werden.
-
Wie vorstehend angegeben, können im Zusammenhang mit der Vorhersage ein X'-Kanalsignal, ein Y'-Kanalsignal und ein Z'-Kanalsignal basierend auf dem W-Kanalsignal einer Mehrzahl von Abwärtsmischkanalsignalen 203, die ein Ambisonics-Signal bilden, abgeleitet werden. Insbesondere kann das X'-Kanalsignal dem X-Kanalsignal minus einer Vorhersage des X-Kanalsignals, die auf dem W-Kanalsignal basiert, entsprechen. Auf die gleiche Weise kann das Y'-Kanalsignal dem Y-Kanalsignal minus einer Vorhersage des Y-Kanalsignals, die auf dem W-Kanalsignal basiert, entsprechen. Auf die gleiche Weise kann das Z'-Kanalsignal dem Z-Kanalsignal minus einer Vorhersage des Z-Kanalsignals, die auf dem W-Kanalsignal basiert, entsprechen. Die Mehrzahl der verdichteten Kanalsignale 404 kann basierend auf dem W-Kanalsignal, dem X'-Kanalsignal, dem Y'-Kanalsignal und dem Z'-Kanalsignal bestimmt werden oder diesen entsprechen.
-
Um die Codierungseffizienz der Mehrzahl von verdichteten Kanalsignalen 404 weiter zu erhöhen, können eine Karhonen-Loeve-Transformation, eine Hauptkomponentenanalysetransformation und/oder eine Singulärwertzerlegungstransformation auf das X'-Kanalsignal, das Y'-Kanalsignal und das Z'-Kanalsignal verwendet werden, um ein X''-Kanalsignal, ein Y''-Kanalsignal und ein Z''-Kanalsignal bereitzustellen. Die Mehrzahl von verdichteten Kanalsignalen 404 kann dann basierend auf dem W-Kanalsignal, dem X''-Kanalsignal, dem Y''-Kanalsignal und dem Z''-Kanalsignal bestimmt werden.
-
In einem zweiten Modus können die gemeinsamen Codierungsmetadaten 205 basierend auf der Mehrzahl von verdichteten Kanalsignalen 404 und basierend auf der Mehrzahl von Abwärtsmischkanalsignalen 203 bestimmt werden. Die gemeinsamen Codierungsmetadaten 205 können bestimmt werden, sodass die gemeinsamen Codierungsmetadaten 205 ein Rekonstruieren der Mehrzahl von Abwärtsmischkanalsignalen 203 aus der Mehrzahl von verdichteten Kanalsignalen 404 ermöglichen. Insbesondere können die gemeinsamen Codierungsmetadaten 205 bestimmt werden, sodass die gemeinsamen Codierungsmetadaten 205 (nur) die Energieverdichtungsoperation umkehren oder invertieren (ohne eine Aufwärtsmischoperation durchzuführen). Der zweite Modus kann zum Reduzieren der Bitrate (bei reduzierter Wahrnehmungsqualität) verwendet werden.
-
Wie vorstehend angegeben, kann das Mehrkanaleingangssignal 201 ein SR-Signal und ein oder mehrere Objektsignale umfassen. Der erste Modus und der zweite Modus können die Rekonstruktion eines SR-Signals (basierend auf der Mehrzahl von verdichteten Kanalsignalen 404) ermöglichen. Daher kann das gesamte Hörerlebnis eines Zuhörers beibehalten werden (selbst wenn der zweite Modus verwendet wird).
-
Das Mehrkanaleingangssignal 201 kann eine Sequenz von Rahmen umfassen. Die in diesem Dokument beschriebene Verarbeitung kann für jeden Rahmen der Sequenz von Rahmen rahmenweise durchgeführt werden. Insbesondere kann das Verfahren 700 für jeden Rahmen der Sequenz von Rahmen ein Bestimmen umfassen, ob der erste Modus oder der zweite Modus verwendet werden soll. Auf diese Weise kann das Codieren schnell an sich ändernde Bedingungen eines Übertragungsnetzes angepasst werden.
-
Das Verfahren 700 kann das Erzeugen eines Bitstroms 101 basierend auf codierten Audiodaten 206, die durch Codieren 704 der Mehrzahl von verdichteten Kanalsignalen 404 abgeleitet wurden, und basierend auf codierten Metadaten 207, die durch Codieren 704 der gemeinsamen Codierungsmetadaten 205 abgeleitet wurden, umfassen. Des Weiteren kann das Verfahren 700 ein Einfügen einer Anzeige in den Bitstrom 101 umfassen, die anzeigt, ob der zweite Modus oder der erste Modus verwendet wurde. Die Anzeige kann auf einer Rahmen-für-Rahmen-Basis eingefügt werden. Infolgedessen wird es einer entsprechende Decodiereinheit 350 ermöglicht, die ein Decodieren zuverlässig anzupassen.
-
8 zeigt ein Flussdiagramm eines beispielhaften Verfahrens 800 zum Bestimmen eines rekonstruierten Mehrkanalsignals 311 aus codierten Audiodaten 206, die eine Mehrzahl von rekonstruierten Kanalsignalen 314 anzeigen, und aus codierten Metadaten 207, die gemeinsame Codierungsmetadaten 205 anzeigen. Das Verfahren 800 kann ein Extrahieren der codierten Audiodaten 206 und der codierten Metadaten 207 aus einem Bitstrom 101 umfassen.
-
Des Weiteren kann das Verfahren 800 ein Decodieren 801 der codierten Audiodaten 206, um die Mehrzahl von rekonstruierten Kanalsignalen 314 bereitzustellen, und ein Decodieren der codierten Metadaten 207, um die gemeinsamen Codierungsmetadaten 205 bereitzustellen, umfassen. In einem bevorzugten Beispiel bildet die Mehrzahl von rekonstruierten Kanalsignalen 203 ein Ambisonics-Signal erster Ordnung, insbesondere in einem B-Format oder in einem A-Format.
-
Das Decodieren 801 der codierten Audiodaten 206 kann ein Wellenformdecodieren von jedem einzelnen der Mehrzahl von rekonstruierten Kanalsignalen 314 umfassen, insbesondere unter Verwendung eines Monodecodierers (z.B. eines EVS-Decodierers) für jedes rekonstruierte Kanalsignal 314. Die codierten Metadaten 207 können unter Verwendung eines Entropiedecodierers decodiert werden.
-
Des Weiteren umfasst das Verfahren 800 ein Bestimmen 802 des rekonstruierten Mehrkanalsignals 311 aus der Mehrzahl von rekonstruierten Kanalsignalen 314 unter Verwendung der gemeinsamen Codierungsmetadaten 205, wobei das rekonstruierte Mehrkanalsignal 311 ein rekonstruiertes Schallfelddarstellungssignal (SR-Signal) umfassen kann. Insbesondere entspricht das rekonstruierte Mehrkanalsignal 311 einer Annäherung oder einer Rekonstruktion des Mehrkanaleingangssignals 201. Das rekonstruierte Mehrkanalsignal 311 und die Objektmetadaten 202 können zusammen ein rekonstruiertes immersives Audiosignal (lA-Signal) 121 bilden.
-
Zusätzlich kann das Verfahren 800 eine Wiedergabe des rekonstruierten Mehrkanalsignals 311 (typischerweise in Verbindung mit den Objektmetadaten 202) umfassen. Die Wiedergabe kann unter Verwendung von Kopfhörerwiedergabe, Lautsprecherwiedergabe und/oder Schallfeldwiedergabe durchgeführt werden. Infolgedessen wird eine flexibles Wiedergabe von räumlichen Audioinhalten ermöglicht (insbesondere für VR-Anwendungen).
-
Wie vorstehend angegeben, können die gemeinsamen Codierungsmetadaten 205 Aufwärtsmischdaten umfassen, insbesondere eine oder mehrere Aufwärtsmischmatrizen, die das Aufwärtsmischen der Mehrzahl von rekonstruierten Kanalsignalen 404 zu dem rekonstruierten Mehrkanalsignal 311 ermöglichen. Des Weiteren können die gemeinsamen Codierungsmetadaten 205 Dekorrelationsdaten umfassen, die die Erzeugung eines rekonstruierten Mehrkanalsignals 311, das eine vorbestimmte Kovarianz aufweist, ermöglichen. Die gemeinsamen Codierungsmetadaten 205 können verschiedene Metadaten für verschiedene Teilbänder des rekonstruierten Mehrkanalsignals 311 umfassen.. Infolgedessen kann eine genaue Rekonstruktion des Mehrkanaleingangssignals 201 erreicht werden.
-
Bei dem entsprechenden Codierer 200 kann eine Energieverdichtung auf die Mehrzahl von Abwärtsmischkanalsignalen 304 angewendet worden sein. Die Energieverdichtung kann unter Verwendung einer Vorhersage und/oder unter Verwendung einer Karhonen-Loeve-Transformation, einer Hauptkomponentenanalysetransformation und/oder einer Singulärwertzerlegungstransformation durchgeführt worden sein. Die gemeinsamen Codierungsmetadaten 205 können so sein, dass sie zusätzlich zu dem Aufwärtsmischen implizit eine Inverse der Energieverdichtungsoperation durchführen. insbesondere können die gemeinsamen Codierungsmetadaten 205 so sein, dass sie zusätzlich implizit eine Inverse der Vorhersageoperation und/oder eine Inverse der Karhonen-Loeve-Transformation, der Hauptkomponentenanalysetransformation und/oder der Singulärwertzerlegungstransformation durchführen.
-
Mit anderen Worten, die gemeinsamen Codierungsmetadaten 205 können konfiguriert sein, um das Aufwärtsmischen der Mehrzahl von rekonstruierten Kanalsignalen 404 zu dem rekonstruierten Mehrkanalsignal 311 zu ermöglichen und um (implizit) eine inverse Energieverdichtungsoperation an der Mehrzahl von rekonstruierten Kanalsignalen 314 durchzuführen. Insbesondere können die gemeinsamen Codierungsmetadaten 205 konfiguriert sein, um (implizit) eine inverse Vorhersageoperation (invers zu der von dem Codierer 200 durchgeführten Vorhersageoperation) an zumindest einigen der Mehrzahl von rekonstruierten Kanalsignalen 314 durchzuführen. Alternativ oder zusätzlich können die gemeinsamen Codierungsmetadaten 205 konfiguriert sein, um zumindest eine Inverse einer Karhonen-Loeve-Transformation, einer Hauptkomponentenanalysetransformation und/oder einer Singulärwertzerlegungstransformation (invers zu der von dem Codierer 200 durchgeführten Transformation) an zumindest einigen der Mehrzahl von rekonstruierten Kanalsignalen 314 durchzuführen. Infolgedessen kann ein besonders effizientes Codierungsschema bereitgestellt werden.
-
Das rekonstruierte Mehrkanalsignal 311 kann ein oder mehrere rekonstruierte Objektsignale von einem oder mehreren Audioobjekten 303 (zusätzlich zu dem SR-Signal, z.B. einem FOA- oder einem HOA-Signal) umfassen. Das Verfahren 800 kann ein Decodieren, insbesondere unter Verwendung eines Entropiedecodierers, von Objektmetadaten 202 für das eine oder die mehreren Audioobjekte 303 aus den codierten Metadaten 207 umfassen. Infolgedessen können das eine oder die mehreren Objekte 303 auf präzise Weise wiedergegeben werden.
-
Wie vorstehend angegeben, kann die Mehrzahl von rekonstruierten Kanalsignalen 314 ein SR-Signal, insbesondere ein Ambisonics-Signal K-ter Ordnung, mit K≥1 (insbesondere K=1) bilden. Andererseits kann das rekonstruierte Mehrkanalsignal 311 das rekonstruierte SR-Signal, insbesondere ein Ambisonics-Signal L-ter Ordnung, mit L≥K (insbesondere L=K oder L=K+1), und ein oder mehrere (z.B. n=2) rekonstruierte Objektsignale von einem oder mehreren Audioobjekten 303 umfassen. Das rekonstruierte Mehrkanalsignal 311 kann durch Aufwärtsmischen der Mehrzahl von rekonstruierten Kanalsignalen 314 unter Verwendung der gemeinsamen Codierungsmetadaten 205 bestimmt werden, wodurch ein rekonstruiertes Mehrkanalsignal 311 mit im Wesentlichen räumlichen akustischen Ereignissen bereitgestellt wird.
-
Wie vorstehend angegeben, kann die Verwendung von Aufwärtsmischen einem ersten Modus entsprechen (für eine hohe Wahrnehmungsqualität). In dem ersten Modus umfassen die gemeinsamen Objektmetadaten 205 Aufwärtsmischdaten zum Ermöglichen der Aufwärtsmischoperation. In dem zweiten Modus kann das rekonstruierte Mehrkanalsignal 311 die gleiche Anzahl von Kanälen umfassen wie die Mehrzahl von rekonstruierten Kanalsignalen 314 (sodass keine Aufwärtsmischoperation erforderlich ist).
-
In dem zweiten Modus können die gemeinsamen Codierungsmetadaten 205 Vorhersagedaten (z.B. einen oder mehrere Skalierungsfaktoren) umfassen, die konfiguriert sind, um Energie unter den verschiedenen rekonstruierten Kanalsignalen 314 umzuverteilen. Des Weiterern kann in dem zweiten Modus 802 das Bestimmen des rekonstruierten Mehrkanalsignals 311 ein Umverteilen von Energie unter den verschiedenen rekonstruierten Kanalsignalen 314 unter Verwendung der Vorhersagedaten umfassen. Insbesondere kann die Inverse der vorstehend erwähnten Energieverdichtungsoperation unter Verwendung der gemeinsamen Codierungsmetadaten 205 durchgeführt werden. Infolgedessen kann die Mehrzahl von Abwärtsmischkanalsignalen 203 auf eine effiziente und präzise Weise rekonstruiert werden.
-
Wie vorstehend beschrieben, kann die Energieverdichtungsoperation, die während dem Codieren durchgeführt wird, ein Anwenden einer Karhonen-Loeve-Transformation, einer Hauptkomponentenanalysetransformation und/oder einer Singulärwertzerlegungstransformation auf zumindest einige der Mehrzahl von Abwärtsmischkanalsignalen 203 umfassen. Die gemeinsamen Codierungsmetadaten 205 können Transformationsdaten umfassen, die es einem Decodierer 350 ermöglichen, die Inverse der Karhonen-Loeve-Transformation, der Hauptkomponentenanalysetransformation und/oder der Singulärwertzerlegungstransformation durchzuführen. Mit anderen Worten, die Transformationsdaten zeigen eine Inverse einer Karhonen-Loeve-Transformation, einer Hauptkomponentenanalysetransformation und/oder einer Singulärwertzerlegungstransformation an, die auf zumindest einige der Mehrzahl von rekonstruierten Kanalsignalen 314 zum Bestimmen des rekonstruierten Mehrkanalsignals 311 angewendet werden soll. Infolgedessen kann die Mehrzahl von Abwärtsmischkanalsignalen 203 auf eine effiziente und präzise Weise rekonstruiert werden.
-
Wie vorstehend angegeben, kann das rekonstruierte Mehrkanaleingangssignal 311 eine Sequenz von Rahmen umfassen. Das Verfahren 800 kann für jeden Rahmen der Sequenz von Rahmen ein Bestimmen umfassen, ob der zweite Modus verwendet werden soll oder nicht. Zu diesem Zweck kann eine Anzeige aus dem Bitstrom 101 extrahiert werden, die anzeigt, ob der zweite Modus verwendet werden soll.
-
Verschiedene beispielhafte Ausführungsformen der vorliegenden Erfindung können in Hardware oder Spezialschaltungen, Software, Logik oder einer beliebigen Kombination davon implementiert sein. Einige Aspekte können in Hardware implementiert sein, während andere Aspekte in Firmware oder Software implementiert sein können, die von einer Steuerung, einem Mikroprozessor oder einem anderen Computergerät ausgeführt werden kann. Im Allgemeinen wird die vorliegende Offenbarung so verstanden, dass sie auch eine Vorrichtung umfasst, die zum Durchführen der vorstehend beschriebenen Verfahren geeignet ist, zum Beispiel eine Vorrichtung (räumliche Wiedergabevorrichtung), die einen Speicher und einem an den Speicher gekoppelten Prozessor aufweist, wobei der Prozessor konfiguriert ist, um Anweisungen auszuführen und Verfahren gemäß Ausführungsformen der Offenbarung durchführen.
-
Während verschiedene Aspekte der beispielhaften Ausführungsformen der vorliegenden Erfindung als Blockdiagramme, Flussdiagramme oder unter Verwendung einer anderen bildlichen Darstellung veranschaulicht und beschrieben werden, versteht es sich, dass die hierin beschriebenen Blöcke, Vorrichtungen, Systeme, Techniken oder Verfahren implementiert werden können in Hardware, Software, Firmware, Spezialschaltungen oder Logik, Allzweckhardware oder Steuerung oder anderen Computergeräten oder einer Kombination davon, als nicht einschränkende Beispiele.
-
Zusätzlich können verschiedene in den Flussdiagrammen gezeigte Blöcke als Verfahrensschritte und/oder als Operationen angesehen werden, die aus der Operation von Computerprogrammcode resultieren, und/oder als eine Mehrzahl von gekoppelten Logikschaltungselementen, die zur Ausführung der zugehörigen Funktion(en) konstruiert sind. Zum Beispiel beinhalten Ausführungsformen der vorliegenden Erfindung ein Computerprogrammprodukt, das ein Computerprogramm umfasst, das greifbar auf einem maschinenlesbaren Medium verkörpert ist, wobei das Computerprogramm Programmcodes enthält, die konfiguriert sind, um die vorstehend beschriebenen Verfahren auszuführen.
-
Im Zusammenhang mit der Offenbarung kann ein maschinenlesbares Medium ein beliebiges greifbares Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem Anweisungsausführungssystem, -vorrichtung oder -gerät enthalten oder speichern kann. Das maschinenlesbare Medium kann ein maschinenlesbares Signalmedium oder ein maschinenlesbares Speichermedium sein. Ein maschinenlesbares Medium kann ein elektronisches, magnetisches, optisches, elektromagnetisches, infrarotes oder Halbleitersystem, -vorrichtung oder-gerät oder eine beliebige geeignete Kombination der vorgenannten beinhalten, ist aber nicht darauf beschränkt. Spezifischere Beispiele des maschinenlesbaren Speichermediums würden eine elektrische Verbindung, die einen oder mehrere Drähte aufweist, eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM oder Flash-Speicher), eine optische Faser, einen tragbaren Compact-Disc-Nur-Lese-Speicher (CD-ROM), eine optische Speichervorrichtung, eine magnetische Speichervorrichtung oder eine beliebige geeignete Kombination der vorgenannten beinhalten.
-
Computerprogrammcode zum Ausführen von Verfahren der vorliegenden Erfindung kann in einer beliebigen Kombination von einer oder mehreren Programmiersprachen geschrieben sein. Diese Computerprogrammcodes können einem Prozessor eines Allzweckcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, sodass die Programmcodes, wenn sie von dem Prozessor des Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, bewirken, dass Funktionen/Operationen, die in den Flussdiagrammen und/oder Blockdiagrammen spezifiziert sind, implementiert werden. Der Programmcode kann vollständig auf einem Computer, teilweise auf dem Computer, als ein eigenständiges Softwarepaket, teilweise auf dem Computer und teilweise auf einem entfernten Computer oder vollständig auf dem entfernten Computer oder Server ausgeführt werden.
-
Weiter, während Operationen in einer bestimmten Reihenfolge dargestellt sind, sollte dies nicht so verstanden werden, dass dies erfordert, dass solche Operationen in der bestimmten gezeigten Reihenfolge oder in sequentieller Reihenfolge ausgeführt werden oder dass alle veranschaulichten Operationen ausgeführt werden, um wünschenswerte Ergebnisse zu erzielen. Unter bestimmten Umständen können Multitasking und Parallelverarbeitung vorteilhaft sein. Ebenso, während in den obigen Erörterungen mehrere spezifische Implementierungsdetails enthalten sind, sollten diese nicht als Einschränkungen des Umfangs einer Erfindung oder dessen, was beansprucht werden kann, ausgelegt werden, sondern als Beschreibungen von Merkmalen, die für bestimmte Ausführungsformen bestimmter Erfindungen spezifisch sein können. Bestimmte Merkmale, die in dieser Beschreibung im Zusammenhang mit getrennten Ausführungsformen beschrieben sind, können auch in Kombination in einer einzelnen Ausführungsform implementiert werden. Umgekehrt können verschiedene Merkmale, die im Zusammenhang mit einer einzelnen Ausführungsform beschrieben werden, auch in mehreren Ausführungsformen separat oder in einer geeigneten Unterkombination implementiert werden.
-
Es ist anzumerken, dass die Beschreibung und die Zeichnungen lediglich die Prinzipien der vorgeschlagenen Verfahren und Vorrichtungen veranschaulichen. Es versteht sich daher, dass Fachleute in der Lage sein werden, verschiedene Anordnungen zu entwickeln, die, obwohl hier nicht explizit beschrieben oder gezeigt, die Prinzipien der Erfindung verkörpern und in deren Geist und Umfang enthalten sind. Des Weiteren sind alle hierin aufgeführten Beispiele hauptsächlich ausdrücklich nur für pädagogische Zwecke gedacht, um dem Leser das Verständnis der Prinzipien der vorgeschlagenen Verfahren und Vorrichtungen und der Konzepte zu erleichtern, die von den Erfindern zur Förderung des Standes der Technik beigetragen wurden, und sind als ohne Beschränkung auf solche speziell genannten Beispiele und Bedingungen zu verstehen. Darüber hinaus sollen alle hierin enthaltenen Aussagen, in denen Prinzipien, Aspekte und Ausführungsformen der Erfindung sowie spezifische Beispiele dafür aufgeführt sind, Äquivalente davon umfassen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-