DE112021005067T5

DE112021005067T5 - Codec mit hierarchischer räumlicher auflösung

Info

Publication number: DE112021005067T5
Application number: DE112021005067.2T
Authority: DE
Inventors: Dipanjan Sen; Moo Young Kim; Frank Baumgarte; Sina Zamani; Aram Lindahl
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-09-25
Filing date: 2021-08-31
Publication date: 2023-08-17
Also published as: WO2022066370A1; US20230360661A1; CN116324978A

Abstract

Offenbart wird ein Codec mit hierarchischer räumlicher Auflösung, der die Darstellungen von immersivem Audioinhalt adaptiv anpasst, während sich die Zielbandbreite zum Liefern des Audioinhalts ändert. Der Audioinhalt kann durch eine adaptive Anzahl von Inhaltstypen, wie Kanälen/Objekten, Ambisonics höherer Ordnung (HOA), dargestellt und durch Techniken der adaptiven räumlichen Codierung codiert werden, um die Zielbitrate eines Übertragungskanals oder eines Benutzers zu unterstützen. Techniken der adaptiven räumlichen Codierung können räumliche Kanal-/Objekt-Codierungstechniken, um eine adaptive Anzahl von Kanälen/Objekten zu erzeugen, und Techniken der adaptiven räumlichen HOA-Codierung oder HOA-Komprimierung, um eine adaptive Ordnung der HOA zu erzeugen, einschließen. Die Adaption kann abhängig von der Zielbitrate, die mit einer gewünschten Qualität verbunden ist, und einer Analyse, die die Priorität der Kanäle, Objekte und der HOA bestimmt, sein. Kanäle/Objekte mit hoher Priorität können in einen Bitstrom mit hoher Qualität codiert werden, während Kanäle/Objekte mit niedriger Priorität als HOA umgewandelt und codiert werden können.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung 60 beansprucht den Vorteil der am 25. September 2020 eingereichten vorläufigen US-Patentanmeldung Nr. 63/083,788 , deren Offenbarung hierin durch Verweis in ihrer Gesamtheit aufgenommen wird.
GEBIET
Diese Offenbarung bezieht sich auf das Gebiet der Audiokommunikation und insbesondere auf digitale Signalverarbeitungsverfahren, die ausgelegt sind, einen immersiven Audioinhalt unter Verwendung von Techniken der adaptiven räumlichen Codierung zu liefern. Es werden auch andere Gesichtspunkte beschrieben.
STAND DER TECHNIK
Unterhaltungselektronikvorrichtungen stellen digitale Audiocodier- und -decodierfähigkeiten von zunehmender Komplexität und Leistung bereit. Herkömmlicherweise wird der Audioinhalt hauptsächlich unter Verwendung eines Zweikanalstereoformats, das einen linken und einen rechten Audiokanal bereitstellt, erzeugt, verteilt und konsumiert. Neuere Marktentwicklungen zielen darauf ab, eine immersivere Hörererfahrung unter Verwendung von reicheren Audioformaten bereitzustellen, die Mehrkanalaudio, objektbasiertes Audio und/oder Ambisonics unterstützen, beispielsweise Dolby Atmos oder MPEG-H.
Die Bereitstellung von immersivem Audioinhalt ist mit einem Bedarf an einer größeren Bandbreite, d. h. einer erhöhten Datenrate für Streamen und Download im Vergleich zu der für Stereoinhalt, verbunden. Wenn die Bandbreite begrenzt ist, werden Techniken gewünscht, um die Audiodatengröße zu reduzieren, während die bestmögliche Audioqualität beibehalten wird. Ein gemeinsamer Bandbreitenreduzierungsansatz bei der Wahrnehmungsaudiocodierung nutzt die Wahrnehmungseigenschaften des Hörens, um die Audioqualität aufrechtzuerhalten. Zum Beispiel können räumliche Codierer, die unterschiedlichen Inhaltstypen, wie Mehrkanal-Audio, Audioobjekten oder Ambisonics höherer Ordnung (HOA), entsprechen, eine bitrateneffiziente Codierung bestimmter Schallmerkmale unter Verwendung von räumlichen Parametern ermöglichen, sodass die Merkmale in dem Decodierer ungefähr nachgebildet werden können. Räumliche Codierer, die unterschiedliche Punkte entlang der Kompromisskurve der räumlichen Auflösung gegenüber Bandbreitenanforderungen darstellen, können derart ausgewählt werden, dass sie für eine Zielbandbreite geeignet sind. In einigen Techniken kann eine Audioszene vorbestimmt werden, um durch Mehrkanal-Audio/Audioobjekte mit höherer Bandbreite oder ein Stereosignal mit niedrigerer Bandbreite dargestellt zu werden. Um einen umfassenderen und immersiveren Audioinhalt unter Verwendung begrenzter Bandbreite zu liefern, sind andere Audiocodier- und -decodiertechniken (Codec-Techniken) erwünscht.
KURZDARSTELLUNG
Offenbart werden Gesichtspunkte eines Codecs mit hierarchischer räumlicher Auflösung, der die Darstellungen von immersivem Audioinhalt adaptiv anpasst, während sich die Bandbreite eines Kanals zum Liefern des immersiven Audioinhalts ändert. Audioszenen des immersiven Audioinhalts können durch eine adaptive Anzahl von Inhaltstypen dargestellt werden, die durch Techniken der adaptiven räumlichen Codierung und Basisliniencodierung codiert sind, und adaptive Kanalkonfigurationen dargestellt werden, um die Zielbitrate eines Übertragungskanals oder eines Benutzers zu unterstützen. Zum Beispiel kann eine Audioszene durch eine adaptive Anzahl von Kanälen, eine adaptive Anzahl von Objekten, eine adaptive Ordnung von Ambisonics höherer Ordnung (HOA) oder eine adaptive Anzahl anderer Schallfelddarstellungen dargestellt werden. Die HOA beschreibt ein Schallfeld basierend auf sphärischen Oberwellen. Die unterschiedlichen Inhaltstypen weisen unterschiedliche Bandbreitenanforderungen und entsprechend eine unterschiedliche Audioqualität auf, wenn sie am Decodierer neu erstellt werden. Techniken der adaptiven räumlichen Codierung können Techniken der adaptiven räumlichen Kanal- und Objektcodierung, um die adaptive Anzahl von Kanälen und Objekten zu erzeugen, und Techniken der adaptiven räumlichen HOA-Codierung oder HOA-Komprimierung, um die adaptive Ordnung der HOA zu erzeugen, einschließen. Die Adaption kann abhängig von der Zielbitrate, die mit einer gewünschten Qualität verbunden ist, und einer Analyse, die die Priorität der Kanäle, Objekte und der HOA bestimmt, sein. Die Zielbitrate kann sich dynamisch basierend auf dem Kanalzustand oder der Bitratenanforderung eines oder mehrerer Benutzer ändern. Die Prioritätsentscheidungen können basierend auf der räumlichen Ausprägung der Szenenelemente des Schallfelds, die durch die Kanäle, Objekte und HOA dargestellt werden, vorgenommen werden.
In einem Gesichtspunkt arbeitet ein Kanal- und Objektprioritätsentscheidungsmodul auf den Kanälen des Mehrkanal-Audios und der Audioobjekte, um eine Prioritätsrangfolge der Kanäle und Objekte an den räumlichen Codierer bereitzustellen. Basierend auf der Prioritätsrangfolge und der Zielbitrate kann ein räumlicher Kanal- und Objektcodierer nur die Kanäle und Objekte mit hoher Priorität codieren, um Bitströme mit hoher Qualität mit hoher räumlicher Auflösung zu erzeugen. Die verbleibenden Kanäle und Objekte mit niedriger Priorität können in einen Inhaltstyp mit niedrigerer Qualität, wie HOA, umgewandelt werden und durch einen räumlichen HOA-Codierer räumlich codiert werden, um Bitströme niedrigerer Qualität mit niedrigerer räumlicher Auflösung zu erzeugen, die eine niedrigere Bandbreite erfordern. Um sich an eine noch niedrigere Zielbitrate anzupassen, können einige oder alle Kanäle und Objekte mit niedriger Priorität in einen Qualitätsinhaltstyp mit noch niedrigerer Qualität, wie ein Zweikanal-Stereosignal, gerendert werden, das eine noch niedrigere Bandbreite erfordert. Die Fähigkeit zu adaptivem Codieren des Codecs mit hierarchischer räumlicher Auflösung ermöglicht, die gleiche Audioszene durch unterschiedliche Inhaltstypen gemäß der Zielbitrate darzustellen, zum Beispiel durch Umwandeln einiger der Objekte in HOA und Codieren der umgewandelten Objekte in die HOA-Domäne gemäß der Zielbitrate.
In einem Gesichtspunkt arbeitet ein HOA-Prioritätsentscheidungsmodul an dem HOA-Inhalt, um eine Prioritätsrangfolge der HOA an den räumlichen HOA-Codierer bereitzustellen. Basierend auf der Prioritätsrangfolge und der Zielbitrate kann der räumliche HOA-Codierer nur die HOA mit hoher Priorität codieren, um Bitströme mit hoher Qualität mit hoher räumlicher Auflösung zu erzeugen. Die verbleibende HOA mit niedriger Priorität kann in einen Inhaltstyp mit niedrigerer Qualität, wie ein Zweikanal-Stereosignal, das eine niedrigere Bandbreite erfordert, gerendert werden. Eine Hierarchie von räumlichen Codierern kann somit adaptiv eine Mischung von Bitströmen von Audioinhaltstypen unterschiedlicher Qualitäten und unterschiedlicher Bandbreitenanforderung erzeugen, wenn sich die Zielbitrate ändert.
In einem Gesichtspunkt wandelt ein oder ein Satz von räumlichen Codierern und Basisliniencodierern selektive Szenenelemente der Kanäle, Objekte, HOA und eine andere Schallfelddarstellung, wie Zweikanal-Stereosignale und Sprache, einer Audioszene um, um einen Satz von Bitströmen unterschiedlicher Audioqualitäten an einem Satz von Bitraten zu erzeugen. Der Satz von Bitströmen kann in Echtzeit oder offline erzeugt werden. Basierend auf der Zielbitrate eines Endbenutzers werden verschiedene Szenenelemente der Kanal- und Objektbitströme, HOA-Bitströme, Stereosignalbitströme und Sprachbitströme adaptiv ausgewählt und an den Endbenutzer übertragen.
In einem Gesichtspunkt kann die Hierarchie von räumlichen Codierern für die Peer-to-Peer-Audiosignalübertragung adaptiv einen Transportstrom mit einer anderen Mischung von Kanälen, Objekten, HOA und anderen Szenenelementen erzeugen, wenn sich die Zielbitrate des Benutzers ändert. Die Mischung der unterschiedlichen Audioinhaltstypen kann in Echtzeit oder offline erzeugt werden.
In einem Gesichtspunkt wird ein Verfahren zum Codieren von Audioinhalt offenbart. Das Verfahren schließt das Empfangen von Audioinhalt ein. Der Audioinhalt wird durch eine Anzahl von Inhaltstypen dargestellt, einschließlich eines ersten Inhaltstyps und eines zweiten Inhaltstyps. Der erste Inhaltstyp kann eine Anzahl von Szenenelementen einschließen. Das Verfahren schließt auch das Bestimmen der Prioritäten der Szenenelemente des ersten Inhaltstyps ein. Basierend auf den bestimmten Prioritäten der Szenenelemente und einer Zielbitrate der Übertragung des Audioinhalts codiert das Verfahren eine adaptive Anzahl der Szenenelemente des ersten Inhaltstyps in einen ersten Inhaltsstrom. Das Verfahren codiert ferner die verbleibenden Szenenelemente des ersten Inhaltstyps, die Szenenelemente sind, die nicht in den ersten Inhaltsstrom codiert wurden, in einen zweiten Inhaltsstrom basierend auf der Zielbitrate. Der zweite Inhaltsstrom stellt eine räumliche Codierung des zweiten Inhaltstyps dar. Das Verfahren erzeugt ferner einen Transportstrom, der den ersten Inhaltsstrom und den zweiten Inhaltsstrom zur Übertragung basierend auf der Zielbitrate einschließt.
Die vorstehende Zusammenfassung schließt keine erschöpfende Aufzählung aller Gesichtspunkte der vorliegenden Erfindung ein. Die Erfindung soll alle in die Praxis umsetzbaren Systeme und Verfahren aus allen geeigneten Kombinationen der oben zusammengefassten, verschiedenen Gesichtspunkte einschließen, ebenso wie solche, die in der nachstehenden ausführlichen Beschreibung offenbart werden und die in den mit der Anmeldung eingereichten Ansprüchen ausdrücklich genannt sind. Solche Kombinationen weisen bestimmte Vorteile auf, die in der vorstehenden Kurzdarstellung nicht spezifisch angegeben sind.
Figurenliste
Verschiedene Gesichtspunkte der Offenbarung hierhin werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezüge gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Verweise auf „einen“ Gesichtspunkt in dieser Offenbarung nicht notwendigerweise auf den gleichen Gesichtspunkt beziehen, und sie bedeuten mindestens einen. Außerdem kann der Kürze halber und zur Reduzierung der Gesamtzahl von Figuren eine gegebene Figur verwendet werden, um die Merkmale von mehr als einem Gesichtspunkt der Offenbarung zu veranschaulichen, und möglicherweise sind nicht alle Elemente in der Figur für einen gegebenen Gesichtspunkt erforderlich.

1 ist ein Funktionsblockdiagramm eines Codecs mit hierarchischer räumlicher Auflösung, der die Codierung von immersivem Audioinhalt adaptiv anpasst, wenn sich die Zielbitrate ändert, gemäß einem Gesichtspunkt der Offenbarung.
2 stellt den Codec mit hierarchischer räumlicher Auflösung, der Audioszenen in Echtzeit codiert, um einen Satz möglicher Audiobitströme für einen Satz von Bitraten zu erzeugen, sodass die möglichen Audiobitströme ausgewählt werden können, um sich an sich ändernde Zielbitraten eines oder mehrerer Benutzer anzupassen, gemäß einem Gesichtspunkt der Offenbarung dar.
3 stellt den Codec mit hierarchischer räumlicher Auflösung, der Audioszenen offline codiert, um einen Satz von möglicher Audiobitströme für einen Satz von Bitraten zum Speichern in einer Datei zu erzeugen, die gelesen werden kann, um die Transportströme an sich ändernde Zielbitraten eines oder mehrerer Benutzer anzupassen, gemäß einem Gesichtspunkt der Offenbarung dar.
4 stellt den Codec mit hierarchischer räumlicher Auflösung, der adaptiv Audioszenen in Echtzeit codiert, um einen Transportstrom in einer Peer-to-Peer-Übertragung zu erzeugen, der sich an sich ändernde Zielbitraten eines Benutzers anpasst, gemäß einem Gesichtspunkt der Offenbarung dar.
5 ist ein Flussdiagramm eines Verfahrens zum adaptiven Anpassen des Codierens von Audioinhalt, um eine Hierarchie von Inhaltstypen zu erzeugen, wenn sich die Zielbitrate ändert, gemäß einem Gesichtspunkt der Offenbarung.

DETAILLIERTE BESCHREIBUNG
Es ist wünschenswert, immersiven Audioinhalt über einen Übertragungskanal von einer Audioquelle zu einem Wiedergabesystem bereitzustellen, während die bestmögliche Audioqualität beibehalten wird. Wenn sich die Bandbreite des Übertragungskanals aufgrund sich ändernder Kanalzustände oder einer sich ändernden Zielbitrate des Wiedergabesystems ändert, kann die Codierung des immersiven Audioinhalts angepasst werden, um den Kompromiss zwischen Audiowiedergabequalität und der Bandbreite zu verbessern. Der immersive Audioinhalt kann Mehrkanal-Audio, Audioobjekte oder räumliche Audiorekonstruktionen, die als Ambisonics bekannt sind, die ein Schallfeld basierend auf sphärischen Oberwellen beschreiben, die verwendet werden können, um das Schallfeld zur Wiedergabe neu zu erstellen, einschließen. Ambisonics können sphärische Oberwellen erster Ordnung oder höherer Ordnung einschließen, die auch als Ambisonics höherer Ordnung (HOA) bekannt sind. Der immersive Audioinhalt kann adaptiv in Audioinhalt unterschiedlicher Bitraten und räumlicher Auflösung in Abhängigkeit von der Zielbitrate und Prioritätsrangfolge der Kanäle, Objekte und HOA codiert werden. Der adaptiv codierte Audioinhalt und seine Metadaten können über den Übertragungskanal übertragen werden, um einem oder mehreren Decodierern mit sich ändernden Zielbitraten zu ermöglichen, das immersive Audioerlebnis durch räumliches Decodieren und Rendern des adaptiv codierten Audioinhalts mit Hilfe der Metadaten zu rekonstruieren.
Systeme und Verfahren werden für eine immersive Audiocodierungstechnik offenbart, die die Anzahl von Kanälen, die Anzahl von Audioobjekten, die Ordnung von HOA oder eine andere Schallfelddarstellung von Audioszenen von immersivem Audioinhalt adaptiv anpasst, um sich ändernden Zielbitraten von Decodierern oder einer Übertragungskanalbandbreite Rechnung zu tragen. Die Schallfelddarstellung der Audioszenen kann adaptiv unter Verwendung eines Codecs mit hierarchischer räumlicher Auflösung codiert werden, der die räumliche Codierungsauflösung oder Komprimierung der Kanäle, Objekte, HOA usw. und die Quantisierung der Metadaten adaptiv anpasst. Die Adaption kann von der Zielbitrate und einer Analyse, die die Priorität der Kanäle, Objekte, HOA usw. bestimmt, abhängen. Die Prioritätsentscheidungen können basierend auf der räumlichen Ausprägung von Szenenelementen der Schallfelddarstellung vorgenommen werden, sodass Szenenelemente mit höherer Priorität codiert werden, um eine höhere Qualität der Schallfelddarstellung aufrechtzuerhalten, während verbleibende Szenenelemente mit niedriger Qualität umgewandelt und in eine niedrigere Qualität der Schallfelddarstellung codiert werden können. Vorteilhafterweise kann die Codierungstechnik für die hierarchische räumliche Auflösung eine Verschlechterung der Audioqualität von Transportströmen reduzieren, wenn die Zielbitraten von Decodierern schwanken, um das immersive Audioerlebnis aufrechtzuerhalten.
In der folgenden Beschreibung werden zahlreiche spezifische Details dargelegt. Es versteht sich jedoch, dass Gesichtspunkte der vorliegenden Offenbarung auch ohne diese spezifischen Details umgesetzt werden können. In anderen Fällen wurden allgemein bekannte Schaltungen, Strukturen und Techniken nicht im Detail gezeigt, um das Verständnis dieser Beschreibung nicht zu erschweren.
Die hierin verwendete Terminologie dient lediglich dem Zweck der Beschreibung besonderer Gesichtspunkte und ist nicht als Einschränkung der Erfindung zu verstehen. Raumbezogene Begriffe, wie „unter“, „unterhalb“, „untere/r/s“, „oberhalb“, „obere/r/s“ und dergleichen, können hierin zur einfachen Beschreibung verwendet werden, um die Beziehung eines Elements oder eines Merkmals zu einem weiteren Element, weiteren Elementen, einem weiteren Merkmal oder weiteren Merkmalen, wie in den Figuren veranschaulicht, zu beschreiben. Es versteht sich, dass die raumbezogenen Begriffe dazu dienen, zusätzlich zu der in den Figuren dargestellten Ausrichtung verschiedene Ausrichtungen der Elemente oder Merkmale im Gebrauch oder Betrieb zu erfassen. Wenn zum Beispiel eine Vorrichtung, die mehrere Elemente in den Figuren enthält, umgedreht wird, würden Elemente, die als „unter“ oder „unterhalb von“ anderen Elementen oder Merkmalen beschrieben werden, dann „oberhalb“ der anderen Elemente oder Merkmale ausgerichtet sein. Somit kann der beispielhafte Begriff „unterhalb“ sowohl eine Ausrichtung oberhalb als auch unterhalb umschließen. Die Vorrichtung kann anders ausgerichtet sein (z. B. um 90 Grad gedreht oder in anderen Ausrichtungen), und die hierin verwendeten raumbezogenen Deskriptoren können entsprechend interpretiert werden.
Wie hierin verwendet, sollen die Singularformen „ein“, „eine/r/s“ und „der“, „die“, „das“ auch die Pluralformen einschließen, es sei denn, der Kontext gibt etwas anderes an. Es versteht sich ferner, dass die Begriffe „umfasst“ und/oder „umfassend“ das Vorhandensein von aufgeführten Merkmalen, Schritten, Vorgängen, Elementen und/oder Komponenten spezifizieren, aber das Vorhandensein oder die Hinzufügung von einem oder mehreren anderen Merkmalen, Schritten, Vorgängen, Elementen, Komponenten und/oder Gruppen davon nicht ausschließen.
Die Begriffe „oder“ und „und/oder“, wie hierin verwendet, sind als inklusiv oder ein Beliebiges oder eine beliebige Kombination bedeutend zu interpretieren. Daher bedeuten „A, B oder C“ oder „A, B und/oder C“ eines der Folgenden: A; B; C; A und B; A und C; B und C; A, B und C”. Eine Ausnahme von dieser Definition tritt nur auf, wenn sich eine Kombination von Elementen, Funktionen, Schritten oder Aktionen auf irgendeine Weise inhärent gegenseitig ausschließt.
1 ist ein Funktionsblockdiagramm eines Codecs mit hierarchischer räumlicher Auflösung, der die Codierung von immersivem Audioinhalt adaptiv anpasst, wenn sich die Zielbitrate ändert, gemäß einem Gesichtspunkt der Offenbarung. Der immersive Audioinhalt 111 kann verschiedene Eingabeformate für immersives Audio einschließen, die auch als Schallfelddarstellungen bezeichnet werden, wie Mehrkanal-Audio, Audioobjekte, HOA, Dialog und dergleichen. Bei einer Mehrkanaleingabe können M Kanäle eines bekannten Eingabekanallayouts vorhanden sein, wie ein 7.1.4-Layout (7 Lautsprecher in der Mittelebene, 4 Lautsprecher in der oberen Ebene, 1 Niederfrequenzeffekt-Lautsprecher (LFE-Lautsprecher). Es versteht sich, dass die HOA auch Ambisonics erster Ordnung (FOA) einschließen kann. In der folgenden Beschreibung der Techniken der adaptiven Codierung können Audioobjekte ähnlich wie Kanäle behandelt werden, und zur Vereinfachung können Kanäle und Objekte im Betrieb des Codecs mit hierarchischer räumlicher Auflösung zusammen gruppiert werden.
Audioszenen des immersiven Audioinhalts 111 können durch eine Anzahl von Kanälen/Objekten 150, HOA 154 und Dialog 158 dargestellt werden, die von Kanal-/Objekt-Metadaten 151, HOA-Metadaten 155 bzw. Dialog-Metadaten 159 begleitet werden. Metadaten können verwendet werden, um Eigenschaften des zugehörigen Schallfelds, wie die Layout-Konfiguration oder Richtparameter der zugehörigen Kanäle oder Standorte, Größen, Richtung oder räumliche Bildparameter der zugehörigen Objekte oder HOA zu beschreiben, um einen Renderer zu unterstützen, um das gewünschte Quellbild zu erreichen oder die wahrgenommenen Standorte dominanter Schalle neu zu erstellen. Um dem Codec mit hierarchischer räumlicher Auflösung zu ermöglichen, den Kompromiss zwischen räumlicher Auflösung und der Zielbitrate zu verbessern, können die Kanäle/Objekte und die HOA in eine derartige Rangfolge gebracht werden, dass höherrangige Kanäle/Objekte und HOA räumlich codiert werden, um eine Schallfelddarstellung mit höherer Qualität aufrechtzuerhalten, während niedrigerrangige Kanäle/Objekte und HOA umgewandelt und in eine Schallfelddarstellung niedrigerer Qualität räumlich codiert werden können, wenn die Zielbitrate abnimmt.
Ein Kanal-/Objekt-Prioritätsentscheidungsmodul 121 kann die Kanäle/Objekte 150 und Kanal-/Objekt-Metadaten 151 der Audioszenen empfangen, um eine Prioritätsrangfolge 162 der Kanäle/Objekte 150 bereitzustellen. In einem Gesichtspunkt kann die Prioritätsrangfolge 162 basierend auf der räumlichen Ausprägung der Kanäle und Objekte, wie der Position, Richtung, Bewegung, Dichte usw., der Kanäle/Objekte 150 bestimmt werden. Zum Beispiel können Kanäle/Objekte mit größerer Bewegung nahe der wahrgenommenen Position des dominanten Schalls räumlich ausgeprägter sein und somit höher als Kanäle/Objekte mit weniger Bewegung weg von der wahrgenommenen Position des dominanten Schalls eingestuft werden. Um die Verschlechterung der Gesamtaudioqualität der Kanäle/Objekte zu reduzieren, wenn die Zielbitrate reduziert wird, kann Audioqualität, die als die räumliche Auflösung der höherrangigen Kanäle/Objekte ausgedrückt wird, aufrechterhalten werden, während diejenige der niedrigerrangigen Kanäle/Objekte reduziert werden kann. In einem Gesichtspunkt können die Kanal-/Objekt-Metadaten 151 Informationen bereitstellen, um das Kanal-ZObjekt-Prioritätsentscheidungsmodul 121 beim Bestimmen der Prioritätsrangfolge 162 zu führen. Zum Beispiel können die Kanal-/Objekt-Metadaten 151 Prioritätsmetadaten zum Bringen in eine Rangfolge bestimmter Kanäle/Objekte 150 enthalten, wie sie durch eine menschliche Eingabe bereitgestellt werden. In einem Gesichtspunkt können die Kanäle/Objekte 150 und Kanal-/Objekt-Metadaten 151 das Kanal-/ObjektPrioritätsentscheidungsmodul 121 als Kanäle/Objekte 160 bzw. Kanal-/Objekt-Metadaten 161 passieren.
Ein räumlicher Kanal-/Objekt-Codierer 131 kann die Kanäle/Objekte 160 und die Kanal-/Objekt-Metadaten 161 räumlich basierend auf der Kanal-/Objektprioritätsrangfolge 162 und der Zielbitrate 190 codieren, um den Kanal-/Objekt-Audiostrom 180 und die zugehörigen Metadaten 181 zu erzeugen. Zum Beispiel können für die höchste Zielbitrate alle Kanäle/Objekte 160 und die Metadaten 161 räumlich in den Kanal-/Objekt-Audiostrom 180 und die Kanal-/Objekt-Metadaten 181 codiert werden, um die höchste Audioqualität des resultierenden Transportstroms bereitzustellen. Die Zielbitrate kann durch den Kanalzustand des Übertragungskanals oder die Zielbitrate der Decodiervorrichtung bestimmt werden. In einem Gesichtspunkt kann der räumliche Kanal-/Objekt-Codierer 131 die Kanäle/Objekte 160 in den Frequenzbereich umwandeln, um die räumliche Codierung durchzuführen. Die Anzahl von Frequenzteilbändern und die Quantisierung der codierten Parameter können in Abhängigkeit von der Zielbitrate 190 angepasst werden. In einem Gesichtspunkt kann der räumliche Kanal-/ObjektCodierer 131 die Kanäle/Objekte 160 und die Metadaten 161 clustern, um einer reduzierten Zielbitrate 190 Rechnung zu tragen.
In einem Gesichtspunkt können, wenn die Zielbitrate 190 reduziert wird, die Kanäle/Objekte 160 und die Metadaten 161, die einen Rang mit niedrigerer Priorität aufweisen, in einen anderen Inhaltstyp umgewandelt und räumlich mit einem anderen Codierer codiert werden, um einen Transportstrom mit niedrigerer Qualität zu erzeugen. Der räumliche Kanal-/Objekt-Codierer 131 kann diese niederrangigen Kanäle/Objekte nicht codieren, die als Kanäle/Objekte mit niedriger Priorität 170 und zugehörigen Metadaten 171 ausgegeben werden. Ein HOA-Umwandlungsmodul 123 kann die Kanäle/Objekte mit niedriger Priorität 170 und die zugehörigen Metadaten 171 in HOA 152 und zugehörige Metadaten 153 umwandeln. Während die Zielbitrate 190 progressiv reduziert wird, können progressiv mehr der Kanäle/Objekte 160 und der Metadaten 161 ausgehend vom niedrigsten Prioritätsrang 162 als die Kanäle/Objekt mit niedriger Priorität 170 und die zugehörigen Metadaten 171 ausgegeben werden, um in die HOA 152 und die zugehörigen Metadaten 153 umgewandelt zu werden. Die HOA 152 und die zugehörigen Metadaten 153 können räumlich codiert werden, um einen Transportstrom mit niedrigerer Qualität im Vergleich zu einem Transportstrom zu erzeugen, der alle Kanäle/Objekte 160 vollständig codiert, aber den Vorteil hat, dass eine niedrigere Bitrate und eine niedrigere Übertragungsbandbreite erforderlich ist.
Es kann mehrere Ebenen der Hierarchie geben, um die Kanäle/Objekte 160 in einen anderen Inhaltstyp umzuwandeln und zu codieren, um niedrigeren Zielbitraten Rechnung zu tragen. In einem Gesichtspunkt können einige der Kanäle/Objekte mit niedriger Priorität 170 und der zugehörigen Metadaten 171 mit parametrischer Codierung, wie einem stereo-basierten immersiven Codierungs-Codierer (STIC-Codierer) 137, codiert werden. Der STIC-Codierer 137 kann einen Zweikanal-Stereoaudiostrom 186 aus einem immersiven Audiosignal, wie durch Abwärtsmischen von Kanälen oder Rendern von Objekten oder HOA zu einem Stereosignal, rendern. Der STIC-Codierer 137 kann auch Metadaten 187 basierend auf einem Wahrnehmungsmodell erzeugen, das Parameter ableitet, die die wahrgenommene Richtung dominanter Schalle beschreiben. Durch Umwandeln und Codieren einiger der Kanäle/Objekte in den Stereoaudiostrom 186 anstelle von HOA kann einer weiteren Reduzierung der Bitrate Rechnung getragen werden, wenn auch in einem Transportstrom mit niedrigerer Qualität. Während der STIC-Codierer 137 als Kanäle, Objekte oder HOA in den Zweikanal-Stereoaudiostrom 186 rendernd beschrieben ist, ist der STIC-Codierer 137 diesbezüglich nicht beschränkt und kann die Kanäle, Objekte oder HOA in einen Audiostrom von mehr als zwei Kanälen rendern.
In einem Gesichtspunkt können bei einer mittleren Zielbitrate einige der Kanäle/Objekte mit niedriger Priorität 170 mit dem niedrigsten Prioritätsrang und ihre zugehörigen Metadaten 171 in den Stereoaudiostrom 186 und die zugehörigen Metadaten 187 codiert werden. Der bzw. das verbleibende Kanal/Objekt mit niedriger Priorität 170 mit einem Rang mit höherer Priorität und ihre zugehörigen Metadaten können in die HOA 152 und zugehörige Metadaten 153 umgewandelt werden, die mit anderen HOA 154 und zugehörigen Metadaten 155 von dem immersiven Audioinhalt 111 priorisiert und in einen HOA-Audiostrom 184 und die zugehörigen Metadaten 185 codiert werden können. Die verbleibenden Kanäle/Objekte 160 mit dem höchsten Prioritätsrang und ihre Metadaten werden in den Kanal-/Objekt-Audiostrom 180 und die zugehörigen Metadaten 181 codiert. In einem Gesichtspunkt können bei der niedrigsten Zielbitrate alle der Kanäle/Objekte 160 in den Stereoaudiostrom 186 und die zugehörigen Metadaten codiert werden, wobei keine codierten Kanäle, Objekte oder HOA im Transportstrom verbleiben. Ähnlich wie die Kanäle/Objekte können die HOA auch so in eine Rangfolge gebracht werden, dass höherrangige HOA räumlich codiert werden, um die Schallfelddarstellung mit höherer Qualität der HOA aufrechtzuerhalten, während niedrigerrangige HOA in eine Schallfelddarstellung mit niedrigerer Qualität, wie ein Stereosignal, gerendert werden.
Ein HOA-Prioritätsentscheidungsmodul 125 kann die HOA 154 und die zugehörigen Metadaten 155 der Schallfelddarstellung der Audioszenen aus dem immersiven Audioinhalt 111 sowie die umgewandelten HOA 152, die aus den Kanälen/Objekten mit niedriger Priorität 170 und den zugehörigen Metadaten 153 umgewandelt wurden, empfangen, um eine Prioritätsrangfolge 166 zwischen den HOA bereitzustellen. In einem Gesichtspunkt kann die Prioritätsrangfolge basierend auf der räumlichen Ausprägung der HOA bestimmt werden, wie der Position, Richtung, Bewegung, Dichte usw. der HOA. Um die Verschlechterung der Gesamtaudioqualität der HOA zu reduzieren, wenn die Zielbitrate reduziert wird, kann die Audioqualität der höherrangigen HOA aufrechterhalten werden, während die der niedrigerrangigen HOA reduziert werden kann. In einem Gesichtspunkt können die HOA-Metadaten 155 Informationen bereitstellen, um das HOA-Prioritätsentscheidungsmodul 125 beim Bestimmen der HOA-Prioritätsrangfolge 166 zu führen. Das HOA-Prioritätsentscheidungsmodul 125 kann die HOA 154 aus dem immersiven Audioinhalt 111 und die umgewandelten HOA 152, die aus den Kanälen/Objekten mit niedriger Priorität 170 umgewandelt wurden, kombinieren, um die HOA 164 zu erzeugen, sowie die zugehörigen Metadaten der kombinierten HOA kombinieren, um die HOA-Metadaten 165 zu erzeugen.
Ein hierarchischer räumlicher HOA-Codierer 135 kann die HOA 164 und die HOA-Metadaten 165 basierend auf der HOA-Prioritätsrangfolge 166 und der Zielbitrate 190 räumlich codieren, um den HOA-Audiostrom 184 und die zugehörigen Metadaten 185 zu erzeugen. Zum Beispiel können für eine hohe Zielbitrate alle der HOA 164 und der HOA-Metadaten 165 räumlich in den HOA-Audiostrom 184 und die HOA-Metadaten 184 codiert werden, um einen Transportstrom mit hoher Qualität bereitzustellen. In einem Gesichtspunkt kann der hierarchische räumliche HOA-Codierer 135 die HOA 164 in den Frequenzbereich umwandeln, um die räumliche Codierung durchzuführen. Die Anzahl von Frequenzteilbändern und die Quantisierung der codierten Parameter können in Abhängigkeit von der Zielbitrate 190 angepasst werden. In einem Gesichtspunkt kann der hierarchische räumliche HOA-Codierer 135 die HOA 164 und die HOA-Metadaten 165 clustern, um einer reduzierten Zielbitrate 190 Rechnung zu tragen. In einem Gesichtspunkt kann der hierarchische räumliche HOA-Codierer 135 Kompressionstechniken durchführen, um eine adaptive Ordnung der HOA 164 zu erzeugen.
In einem Gesichtspunkt können, wenn die Zielbitrate 190 reduziert wird, die HOA 164 und die Metadaten 165, die einen Rang mit niedrigerer Priorität aufweisen, als ein Stereosignal codiert werden. Der hierarchische räumliche HOA-Codierer 135 kann diese niederrangigen HOA nicht codieren, die als HOA 174 mit niedriger Priorität und zugehörige Metadaten 175 ausgegeben werden. Während die Zielbitrate 190 progressiv reduziert wird, können progressiv mehr der HOA 164 und der HOA-Metadaten 165 ausgehend vom niedrigsten Prioritätsrang 166 als die HOA mit niedriger Priorität 174 und die zugehörigen Metadaten 175 ausgegeben werden, die in den Stereoaudiostrom 186 und die zugehörigen Metadaten 187 codiert werden sollen. Der Stereoaudiostrom 186 und die zugehörigen Metadaten 187 erfordert eine niedrigere Bitrate und eine niedrigere Übertragungsbandbreite im Vergleich zu einem Transportstrom, der alle der HOA 164 vollständig codiert, wenn auch bei einer niedrigeren Audioqualität. Somit kann, wenn die Zielbitrate 190 reduziert wird, ein Transportstrom für eine Audioszene eine größere Mischung einer Hierarchie von Inhaltstypen niedrigerer Audioqualität aufweisen. In einem Gesichtspunkt kann die hierarchische Mischung der Inhaltstypen adaptiv Szene für Szene, Frame für Frame oder Paket für Paket geändert werden. Vorteilhafterweise passt der Codec mit hierarchischer räumlicher Auflösung die hierarchische Codierung des immersiven Audioinhalts adaptiv an, um eine sich ändernde Mischung von Kanälen, Objekten, HOA und Stereosignalen basierend auf der Zielbitrate und der Prioritätsrangfolge von Szenenelementen der Schallfelddarstellung zu erzeugen, um den Kompromiss zwischen Audioqualität und der Zielbitrate zu verbessern.
In einem Gesichtspunkt können Audioszenen des immersiven Audioinhalts 111 Dialog 158 und zugehörige Metadaten 159 enthalten. Ein räumlicher Dialog-Codierer 139 kann den Dialog 158 und die zugehörigen Metadaten 159 basierend auf der Zielbitrate 190 codieren, um einen Strom von Sprache 188 und Sprachmetadaten 189 zu erzeugen. In einem Gesichtspunkt kann der räumliche Dialog-Codierer 139 den Dialog 158 in einen Sprachstrom 188 von zwei Kanälen codieren, wenn die Zielbitrate 190 hoch ist. Wenn die Zielbitrate 190 reduziert wird, kann der Dialog 158 in einen Sprachstrom 188 eines Kanals codiert werden.
Ein Basisliniencodierer 141 kann den Kanal-/Objekt-Audiostrom 180, HOA-Audiostrom 184 und Stereoaudiostrom 186 basierend auf der Zielbitrate 190 in einen Audiostrom 191 codieren. Der Basisliniencodierer 141 kann beliebige bekannte Codierungstechniken verwenden. In einem Gesichtspunkt kann der Basisliniencodierer 141 die Rate und die Quantisierung der Codierung an die Zielbitrate 190 anpassen. Ein Sprachcodierer 143 kann den Sprachstrom 188 für den Audiostrom 191 separat codieren. Die Kanal/Metadaten 181, HOA-Metadaten 185, Stereo-Metadaten 187 und die Sprachmetadaten 189 können zu einem einzelnen Transportkanal des Audiostroms 191 kombiniert werden. Der Audiostrom 191 kann über einen Übertragungskanal übertragen werden, um einem oder mehreren Decodierern zu ermöglichen, den immersiven Audioinhalt 111 zu rekonstruieren. Der Audiostrom 191 wird auch als Transportstrom bezeichnet.
2 stellt den Codec mit hierarchischer räumlicher Auflösung, der Audioszenen in Echtzeit codiert, um einen Satz von möglichen Audiobitströmen 203 für einen Satz von Zielbitraten zu erzeugen, sodass die möglichen Audiobitströme 203 ausgewählt werden können, um sich an sich ändernde Zielbitraten eines oder mehrerer Benutzer anzupassen, gemäß einem Gesichtspunkt der Offenbarung dar. Ein Satz von Codierern 201 kann den Satz von möglichen Audiobitströmen 203 bereitstellen. Jeder mögliche Audiobitstrom kann den Kanal-/Objekt-Audiostrom 180, HOA-Strom 184, Stereoaudiostrom 186, Sprachstrom 188 und Metadaten einschließen, wie in 1 für eine mögliche Zielbitrate beschrieben.
Das Spektrum möglicher Zielbitraten ist mit höchster, hoher, hoch-mittlerer, mittlerer, niedrig-mittlerer, niedriger und niedrigster in abnehmender Ordnung bezeichnet. In einem Gesichtspunkt kann das Spektrum von Zielbitraten diskrete Werte von 1 Mbit/s (Megabits pro Sekunde), 768 Kbit/s (Kilobits pro Sekunde), 512 Kbit/s, 384 Kbit/s, 256 Kbit/s, 128 Kbit/s und 64 Kbit/s einschließen. Der Satz von Codierern 201 kann einen separaten Audiocodierer einschließen, der den Codec mit hierarchischer räumlicher Auflösung von 1 für jede der möglichen Zielbitraten einschließen kann. Der Satz von Codierern 201 ist diesbezüglich jedoch nicht beschränkt. In einem Gesichtspunkt kann ein einzelner Codec mit hierarchischer räumlicher Auflösung mit hoher Rate zeitlich gemultiplext werden, um den Satz von möglichen Audiobitströmen 203 für alle der möglichen Zielbitraten zu erzeugen.
Wie gezeigt, kann ein Audiocodierer für die höchste Zielbitrate einen möglichen Bitstrom erzeugen, der den Kanal-/Objekt-Audiostrom 180 einschließt, der L1-Kanäle/-Objekte des immersiven Audioinhalts 111, jedoch keine Audioströme für HOA, Stereosignal oder Sprache codiert. In einem anderen Beispiel kann der mögliche Bitstrom für die höchste Zielbitrate einen HOA-Audiostrom 184 einschließen, der eine Ordnung von HOA, einen Stereoaudiostrom 186 und/oder einen Sprachstrom 188 codiert. Wird eine Stufe in dem Spektrum von Zielbitraten auf die hohe Zielbitrate heruntergegangen, können einige der L1-Kanäle/-Objekte, die einen Rang niedrigerer Priorität aufweisen, in einen HOA-Audiostrom 184 der Ordnung M1 umgewandelt und codiert werden, wobei der Kanal-/Objekt-Audiostrom 180 belassen wird, um L2-Kanäle/-Objekte mit höherer Priorität zu codieren. Wird eine weitere Stufe auf die hoch-mittlere Zielbitrate heruntergegangen, wird die Anzahl von Kanälen/Objekten in dem Kanal-/Objekt-Audiostrom 180 zu L3 konsolidiert, wobei L3 kleiner als L2 ist. Wird eine weitere Stufe auf die mittlere Zielbitrate heruntergegangen, wird die Ordnung von HOA in dem HOA-Audiostrom 184 in M2 konsolidiert, wobei M2 kleiner als M1 ist.
Wird weiter auf die mittel-niedrige Zielbitrate heruntergegangen, werden einige der L3-Kanäle/-Objekte, die einen Rang niedrigerer Priorität aufweisen, in HOA umgewandelt und codiert, wobei der Kanal-/Objekt-Audiostrom 180 belassen wird, um L4-Kanäle/- Objekte mit höherer Priorität zu codieren. Die zusätzlichen umgewandelten HOA werden mit den vorhandenen HOA der Ordnung M2 priorisiert, was dazu führt, dass einige der HOA, die einen Rang mit niedrigerer Priorität aufweisen, in den Stereoaudiostrom 186 codiert werden. Der HOA-Audiostrom 184 bleibt bei der Ordnung M2, um HOA mit höherem Prioritätsrang zu codieren. Der Stereoaudiostrom 186 ist mit N1 Kanälen gezeigt, um zu zeigen, dass er nicht auf zwei Kanäle beschränkt ist. Die Audioströme für die mittel-niedrige Zielbitrate schließt auch den Sprachstrom 188 ein.
Wird weiter auf die niedrige Zielbitrate heruntergegangen, werden einige der L4-Kanäle/- Objekte, die einen Rang niedrigerer Priorität aufweisen, in HOA umgewandelt und codiert, wobei ein Kanal-/Objekt-Audiostrom 180 belassen wird, um L5-Kanäle/-Objekte mit höherer Priorität zu codieren. Die zusätzlichen umgewandelten HOA werden mit den vorhandenen HOA der Ordnung M2 priorisiert und die Ordnung der HOA werden konsolidiert, um den HOA-Audiostrom 184 bei der Ordnung M2 aufrechtzuerhalten.
Für die niedrigste Zielbitrate werden alle Kanäle/Objekte in HOA umgewandelt und codiert. Die zusätzlichen umgewandelten HOA sowie die vorhandenen HOA der Ordnung M2 werden in den Stereoaudiostrom 186 von zwei Kanälen codiert. Es gibt keinen Kanal-/Objekt-Audiostrom 180 oder HOA-Strom 184. Es ist zu beachten, dass die möglichen Bitströme für alle Zielbitraten einen Metadatentransportstrom aufweisen. In einem Gesichtspunkt kann der Satz von Codierern ferner den Satz von möglichen Audiobitströmen 203 unter Verwendung des Basisliniencodierers 141 basierend auf dem Spektrum von Zielbitraten codieren.
Ein statistisches Multiplexmodul 205 wählt einen möglichen Bitstrom aus, der den Kanal-/Objekt-Audiostrom 180, HOA-Strom 184, Stereoaudiostrom 186, Sprachstrom 188 und Metadatentransportstrom basierend auf der Zielbitrate 190 für jeden Benutzer einschließen kann, um den Transportstrom adaptiv zu erzeugen. Die Zielbitrate 190 für einen Benutzer kann sich Szene für Szene, Frame für Frame oder Paket für Paket adaptiv ändern. Zum Beispiel kann für die Paketanpassung, wenn die Zielbitrate 190 für einen Benutzer die höchste ist, das Paket des Transportstroms für den Benutzer einen Kanal-/Objekt-Audiostrom 180 einschließen, der L1-Kanäle/-Objekte und den Metadatentransportstrom codiert. Wenn sich die Zielbitrate für den Benutzer auf mittel ändert, kann sich das Paket des Transportstroms für den Benutzer in einen Kanal-/Objekt-Audiostrom 180 ändern, der L3-Kanäle/-Objekte, einen HOA-Audiostrom 184 der Ordnung M2 und den Metadatentransportstrom codiert. Wenn sich die Zielbitrate für den Benutzer auf niedrig ändert, kann sich das Paket des Transportstroms für den Benutzer in einen Kanal-/Objekt-Audiostrom 180 ändern, der L5-Kanäle/-Objekte, einen HOA-Audiostrom 184 der Ordnung M2, einen Stereoaudiostrom 186 von N1 Kanälen, einen Sprachstrom 188 und den Metadatentransportstrom codiert. Die Transportströme für mehrere Benutzer, wie der Transportstrom 210 für den Benutzer A, der Transportstrom 212 für den Benutzer B und der Transportstrom 214 für den Benutzer C können individuell auf die Zielbitrate 190 jedes Benutzers zugeschnitten werden, um Live-Streaming des immersiven Audioinhalts 111 bereitzustellen.
3 stellt den Codec mit hierarchischer räumlicher Auflösung, der Audioszenen offline codiert, um einen Satz von möglichen Audiobitströmen 203 für einen Satz von Bitraten zum Speichern in einer Datei zu erzeugen, die gelesen werden kann, um die Transportströme an sich ändernde Zielbitraten eines oder mehrerer Benutzer anzupassen, gemäß einem Gesichtspunkt der Offenbarung dar. Wie in 2 kann ein Satz von Codierern 201 den Satz von möglichen Audiobitströmen 203 bereitstellen. Jeder mögliche Audiobitstrom kann den Kanal-/Objekt-Audiostrom 180, HOA-Strom 184, Stereoaudiostrom 186, Sprachstrom 188 und Metadaten einschließen, die aus dem immersiven Audioinhalt 111 für eine mögliche Zielbitrate codiert sind.
Anstelle eines Live-Streamings des immersiven Audioinhalts 111 kann jedoch der Satz von möglichen Audiobitströmen 203 offline erzeugt und in einer Bitstrom-Manifestdatei 207 gespeichert werden. Wenn ein Benutzer bereit ist, den immersiven Audioinhalt 111 zu streamen, kann das Modul für statistisches Multiplexen 205 die Bitstrom-Manifestdatei 207 lesen, um einen möglichen Bitstrom auszuwählen, der den Kanal-/Objekt-Audiostrom 180, HOA-Strom 184, Stereoaudiostrom 186, Sprachstrom 188 und Metadatentransportstrom basierend auf der Zielbitrate 190 für den Benutzer einschließen kann, um den Transportstrom adaptiv zu erzeugen. Die Transportströme für mehrere Benutzer, wie der Transportstrom 210 für den Benutzer A, der Transportstrom 212 für den Benutzer B und der Transportstrom 214 für den Benutzer C, können individuell auf die Zielbitrate 190 jedes Benutzers zugeschnitten werden.
4 stellt den Codec mit hierarchischer räumlicher Auflösung, der adaptiv Audioszenen in Echtzeit codiert, um einen Transportstrom in einer Peer-to-Peer-Übertragung zu erzeugen, der sich an sich ändernde Zielbitraten eines Benutzers anpasst, gemäß einem Gesichtspunkt der Offenbarung dar. Anstatt einen Satz von möglichen Bitströmen für ein Spektrum von Zielbitraten wie in 2 und 3 zu erzeugen, codiert ein räumlicher und Basisliniencodierer 301, wie der Codec mit hierarchischer räumlicher Auflösung von 1, den immersiven Audioinhalt 111 in einen Transportstrom, der den Kanal-/Objekt-Audiostrom 180, HOA-Strom 184, Stereoaudiostrom 186, Sprachstrom 188 und Metadatentransportstrom einschließen kann, um sich an die Zielbitrate 190 eines Benutzers in Echtzeit anzupassen. In einem Gesichtspunkt können die codierten Audioströme offline erzeugt, in einer Datei gespeichert und zu einem späteren Zeitpunkt abgerufen werden, um sich an die Zielbitrate des Benutzers anzupassen.
Der räumliche und Basisliniencodierer 301 kann die codierten Audioströme an die Zielbitrate 190 des Benutzers basierend auf Paketen, Frames oder Audioszenen anpassen. Wenn zum Beispiel jedes Paket vier Frames in Paket 1 einschließt, wenn die Zielbitrate 190 die höchste ist, kann das Paket des Transportstroms für den Benutzer einen Kanal-/Objekt-Audiostrom 180 einschließen, der L1-Kanäle/-Objekte und den Metadatentransportstrom für vier Frames codiert. Bei Paket 2 kann, wenn die Zielbitrate hoch-mittel ist, das Paket des Transportstroms für den Benutzer in einen Kanal-/Objekt-Audiostrom 180 wechseln, der L3-Kanäle/-Objekte, einen HOA-Audiostrom 184 der Ordnung M1 und den Metadatentransportstrom für vier Frames codiert. Bei Paket 3 kann, wenn die Zielbitrate die niedrigste ist, das Paket des Transportstroms für den Benutzer in einen Stereoaudiostrom 186 von zwei Kanälen, einen Sprachstrom 188 eines Kanals und den Metadatentransportstrom für vier Frames wechseln.
5 ist ein Flussdiagramm eines Verfahrens 500 zum adaptiven Anpassen des Codierens von Audioinhalt, um eine Hierarchie von Inhaltstypen zu erzeugen, wenn sich die Zielbitrate ändert, gemäß einem Gesichtspunkt der Offenbarung. Das Verfahren 500 kann durch den Codec mit hierarchischer räumlicher Auflösung von 1, 2, 3 oder 4 in die Praxis umgesetzt werden.
Im Vorgang 501 empfängt das Verfahren 500 Audioinhalt. Der Audioinhalt wird durch eine Anzahl von Inhaltstypen dargestellt, einschließlich eines ersten Inhaltstyps und eines zweiten Inhaltstyps. Der erste Inhaltstyp kann eine Anzahl von Szenenelementen einschließen. In einem Gesichtspunkt kann der erste Inhaltstyp Kanäle/Objekte einschließen, und der zweite Inhaltstyp kann HOA einschließen. Die Anzahl von Szenenelementen kann die Anzahl von Kanälen oder Objekten darstellen.
Im Vorgang 503 bestimmt das Verfahren 500 die Prioritäten der Szenenelemente des ersten Inhaltstyps. In einem Gesichtspunkt können die Prioritäten der Szenenelemente des ersten Inhaltstyps basierend auf der räumlichen Ausprägung der Szenenelemente in eine Rangfolge gebracht werden.
Im Vorgang 505 codiert das Verfahren 500 eine adaptive Anzahl der Szenenelemente des ersten Inhaltstyps in einen ersten Inhaltsstrom basierend auf den Prioritäten der Szenenelemente und einer Zielbitrate der Übertragung des Audioinhalts. Die Anzahl von Szenenelementen des ersten Inhaltstyps, die in den ersten Inhaltsstrom codiert sind, kann sich ändern, wenn sich die Zielbitrate ändert.
Im Vorgang 507 codiert das Verfahren 500 die verbleibenden Szenenelemente des ersten Inhaltstyps, die Szenenelemente sind, die nicht in den ersten Inhaltsstrom codiert wurden, in einen zweiten Inhaltsstrom basierend auf der Zielbitrate. Der zweite Inhaltsstrom stellt eine räumliche Codierung des zweiten Inhaltstyps dar. Die Anzahl von Szenenelementen des zweiten Inhaltstyps, die in den zweiten Inhaltsstrom codiert sind, kann sich ändern, wenn sich die Zielbitrate ändert.
Im Vorgang 509 erzeugt das Verfahren 500 einen Transportstrom, der den ersten Inhaltsstrom und den zweiten Inhaltsstrom zur Übertragung basierend auf der Zielbitrate einschließt.
Ausführungsformen des hierin beschriebenen Codecs mit hierarchischer räumlicher Auflösung können in einem Datenverarbeitungssystem implementiert sein, zum Beispiel durch einen Netzwerkcomputer, einen Netzwerkserver, einen Tablet-Computer, ein Smartphone, einen Laptop-Computer, einen Desktop-Computer, andere Unterhaltungselektronikvorrichtungen oder andere Datenverarbeitungssysteme. Insbesondere sind die Vorgänge, die für den Codec mit hierarchischer räumlicher Auflösung beschrieben sind, um Audioszenen gemäß sich ändernden Zielbitraten adaptiv zu codieren, digitale Signalverarbeitungsvorgänge, die von einem Prozessor durchgeführt werden, der Anweisungen ausführt, die in einem oder mehreren Speichern gespeichert sind. Der Prozessor kann die gespeicherten Anweisungen aus den Speichern lesen und die Anweisungen ausführen, um die beschriebenen Vorgänge durchzuführen. Diese Speicher stellen Beispiele für maschinenlesbare, nichtflüchtige Speichermedien dar, die Computerprogrammanweisungen speichern oder enthalten können, die, wenn sie ausgeführt werden, ein Datenverarbeitungssystem dazu veranlassen, das eine oder die mehreren hierin beschriebenen Verfahren durchzuführen. Bei dem Prozessor kann es sich um einen Prozessor einer lokalen Vorrichtung, wie eines Smartphones, einen Prozessor in einem entfernten Server oder um ein verteiltes Verarbeitungssystem mit mehreren Prozessoren in der lokalen Vorrichtung und im entfernten Server handeln, deren jeweilige Speicher verschiedene Teile der Anweisungen enthalten, die zum Durchführen der beschriebenen Vorgänge erforderlich sind.
Die hierin beschriebenen Prozesse und Blöcke sind nicht auf die beschriebenen spezifischen Beispiele beschränkt und sind nicht auf die spezifischen Reihenfolgen beschränkt, die als Beispiele hierin verwendet werden. Vielmehr kann jeder der Verarbeitungsblöcke neu geordnet, kombiniert oder entfernt werden, parallel oder seriell durchgeführt werden, wie es erforderlich ist, um die oben dargelegten Ergebnisse zu erzielen. Die Verarbeitungsblöcke, die mit dem Implementieren des Audioverarbeitungssystems verbunden sind, können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, die auf einem nichttransitorischen computerlesbaren Speichermedium gespeichert sind, um die Funktionen des Systems durchzuführen. Das gesamte Audioverarbeitungssystem oder ein Teil davon kann als Speziallogikschaltlogik (z. B. ein FPGA (Field-Programmable Gate Array) und/oder ein ASIC (Application-Specific Integrated Circuit)) implementiert sein. Das gesamte Audiosystem oder ein Teil davon kann unter Verwendung einer elektronischen Hardwareschaltlogik implementiert werden, die elektronische Vorrichtungen, wie mindestens eines von einem Prozessor, einem Speicher, einer programmierbaren Logikvorrichtung oder einem Logikgatter, einschließt. Ferner können Prozesse in jeder Kombination von Hardwarevorrichtungen und Softwarekomponenten implementiert werden.
Auch wenn gewisse beispielhafte Fälle beschrieben und in den begleitenden Zeichnungen gezeigt wurden, versteht es sich, dass diese für die allgemeine Erfindung lediglich veranschaulichend und nicht einschränkend sind und dass diese Erfindung nicht auf die spezifischen gezeigten und beschriebenen Konstruktionen und Anordnungen beschränkt ist, da Fachleuten verschiedene andere Modifikationen einfallen können. Die Beschreibung ist somit als veranschaulichend anstatt einschränkend anzusehen.
Um das Patentamt und alle Leser von Patenten, die basierend auf dieser Anmeldung erteilt werden, bei der Auslegung der beiliegenden Ansprüche zu unterstützen, möchten die Anmelder darauf hinweisen, dass sie sich bei keinem der beiliegenden Ansprüche oder Anspruchselemente auf die Anwendung von 35 U.S.C. 112(f) berufen möchten, es sei denn, die Begriffe „Mittel für“ oder „Schritt für“ werden ausdrücklich in dem bestimmten Anspruch verwendet.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63083788 [0001]

Claims

Verfahren zum Codieren von Audioinhalt, wobei das Verfahren umfasst: Empfangen, von einer Codiervorrichtung, des Audioinhalts, wobei der Audioinhalt durch eine Vielzahl von Inhaltstypen dargestellt wird, wobei ein erster Inhaltstyp eine Vielzahl von Szenenelementen einschließt; Bestimmen von Prioritäten der Vielzahl von Szenenelementen des ersten Inhaltstyps, Codieren einer adaptiven Anzahl der Vielzahl von Szenenelementen des ersten Inhaltstyps in einen ersten Inhaltsstrom basierend auf den Prioritäten der Vielzahl von Szenenelementen und einer Zielbitrate zum Übertragen des Audioinhalts; Codieren in einen zweiten Inhaltsstrom, basierend auf der Zielrate und Prioritäten von Szenenelementen des zweiten Inhaltstyps, verbleibender Szenenelemente des ersten Inhaltstyps, die nicht zum Codieren in den ersten Inhaltsstrom ausgewählt sind, wobei der zweite Inhaltsstrom die Codierung eines zweiten Inhaltstyps darstellt; und Erzeugen eines Transportstroms, der den ersten Inhaltsstrom und den zweiten Inhaltsstrom zur Übertragung basierend auf der Zielbitrate einschließt.
Verfahren nach Anspruch 1, wobei der erste Inhaltstyp eine höhere Qualität der Schallfelddarstellung des Audioinhalts als der zweite Inhaltstyp aufweist.
Verfahren nach Anspruch 1, wobei eine Bitrate zum Unterstützen einer Übertragung des ersten Inhaltstyps höher als eine Bitrate zum Unterstützen einer Übertragung des zweiten Inhaltstyps ist.
Verfahren nach Anspruch 1 oder 3, wobei das Bestimmen der Prioritäten der Vielzahl von Szenenelementen des ersten Inhaltstyps umfasst: Erzeugen einer Prioritätsrangfolge der Vielzahl von Szenenelementen des ersten Inhaltstyps basierend auf einer räumlichen Ausprägung der Vielzahl von Szenenelementen, wobei ein Szenenelement mit einer höheren räumlichen Ausprägung eine höhere Qualität der Schallfelddarstellung als ein Szenenelement mit einer niedrigeren räumlichen Ausprägung aufweist.
Verfahren nach Anspruch 1 oder 3, wobei das Codieren der adaptiven Anzahl der Vielzahl von Szenenelementen des ersten Inhaltstyps in den ersten Inhaltsstrom umfasst: Auswählen der adaptiven Anzahl der Szenenelemente basierend auf den ausgewählten Szenenelementen mit höheren Prioritäten als die Prioritäten der verbleibenden Szenenelemente des ersten Inhaltstyps, die nicht zum Codieren in den ersten Inhaltsstrom ausgewählt sind, wenn sich die Zielbitrate ändert.
Verfahren nach Anspruch 1, wobei das Codieren in den zweiten Inhaltsstrom, basierend auf der Zielrate und Prioritäten von Szenenelementen des zweiten Inhaltstyps, der verbleibenden Szenenelemente des ersten Inhaltstyps, die nicht zum Codieren in den ersten Inhaltsstrom ausgewählt sind, umfasst: Umwandeln der verbleibenden Szenenelemente des ersten Inhaltstyps in Szenenelemente des zweiten Inhaltstyps und Codieren der umgewandelten Szenenelemente kombiniert mit Szenenelementen des zweiten Inhaltstyps, die von dem Audioinhalt empfangen werden, um den zweiten Inhaltsstrom basierend auf der Zielbitrate zu erzeugen.
Verfahren nach Anspruch 6, wobei das Codieren der umgewandelten Szenenelemente kombiniert mit Szenenelementen des zweiten Inhaltstyps, die von dem Audioinhalt empfangen werden, umfasst: Bestimmen von Prioritäten einer Vielzahl von Szenenelementen des zweiten Inhaltstyps, die die umgewandelten Szenenelemente und die Szenenelemente des zweiten Inhaltstyps, die von dem Audioinhalt empfangen werden, einschließt; Codieren einer adaptiven Anzahl der Vielzahl von Szenenelementen des zweiten Inhaltstyps in den zweiten Inhaltsstrom basierend auf den Prioritäten der Vielzahl von Szenenelementen des zweiten Inhaltstyps und der Zielbitrate; Codieren in einen dritten Inhaltsstrom, basierend auf der Zielbitrate, verbleibender Szenenelemente des zweiten Inhaltstyps, die nicht zum Codieren in den zweiten Inhaltsstrom ausgewählt sind, wobei der dritte Inhaltsstrom die Codierung eines dritten Inhaltstyps darstellt; und Erzeugen des Transportstroms, um den dritten Inhaltsstrom einzuschließen.
Verfahren nach Anspruch 6 oder 7, wobei der erste Inhaltstyp eine höhere Qualität der Schallfelddarstellung des Audioinhalts als der zweite Inhaltstyp aufweist und der zweite Inhaltstyp eine höhere Qualität der Schallfelddarstellung des Audioinhalts als der dritte Inhaltstyp aufweist.
Verfahren nach Anspruch 6 oder 7, wobei eine Bitrate zum Unterstützen einer Übertragung des ersten Inhaltstyps höher als eine Bitrate zum Unterstützen einer Übertragung des zweiten Inhaltstyps ist und die Bitrate zum Unterstützen einer Übertragung des zweiten Inhaltstyps höher als eine Bitrate zum Unterstützen einer Übertragung des dritten Inhaltstyps ist.
Verfahren nach Anspruch 6 oder 7, wobei das Bestimmen der Prioritäten der Vielzahl von Szenenelementen des zweiten Inhaltstyps umfasst: Erzeugen einer Prioritätsrangfolge der Vielzahl von Szenenelementen des zweiten Inhaltstyps basierend auf einer räumlichen Ausprägung der Vielzahl von Szenenelementen, wobei ein Szenenelement mit einer höheren räumlichen Ausprägung eine höhere Qualität der Schallfelddarstellung als ein Szenenelement mit einer niedrigeren räumlichen Ausprägung aufweist.
Verfahren nach Anspruch 6 oder 7, wobei das Codieren der adaptiven Anzahl der Vielzahl von Szenenelementen des zweiten Inhaltstyps in den zweiten Inhaltsstrom umfasst: Auswählen der adaptiven Anzahl der Szenenelemente des zweiten Inhaltstyps basierend auf den ausgewählten Szenenelementen mit höheren Prioritäten als die Prioritäten der verbleibenden Szenenelemente des zweiten Inhaltstyps, die nicht zum Codieren in den zweiten Inhaltsstrom ausgewählt sind, wenn sich die Zielbitrate ändert.
Verfahren nach Anspruch 1 oder 7, wobei das Codieren in den zweiten Inhaltsstrom basierend auf der Zielbitrate der verbleibenden Szenenelemente des ersten Inhaltstyps, die nicht zum Codieren in den ersten Inhaltsstrom ausgewählt sind, umfasst: Umwandeln einer ersten Teilmenge der verbleibenden Szenenelemente des ersten Inhaltstyps in Szenenelemente des zweiten Typs; Codieren der umgewandelten Szenenelemente in den zweiten Inhaltsstrom basierend auf der Zielbitrate; Codieren in einen dritten Inhaltsstrom, basierend auf der Zielbitrate, einer zweiten Teilmenge der verbleibenden Szenenelemente des ersten Inhaltstyps, die nicht in Szenenelemente des zweiten Typs umgewandelt werden, wobei der dritte Inhaltsstrom die Codierung eines dritten Inhaltstyps darstellt; und Erzeugen des Transportstroms, um den dritten Inhaltsstrom einzuschließen.
Verfahren nach Anspruch 1 oder 7, wobei das Erzeugen des Transportstroms umfasst: Durchführen einer Basisliniencodierung und einer räumlichen Codierung des ersten Inhaltsstroms und des zweiten Inhaltsstroms basierend auf der Zielbitrate.
Verfahren nach Anspruch 1 oder 7, wobei der Audioinhalt Sprachdialog als einen der Inhaltstypen umfasst, wobei das Verfahren ferner umfasst: Codieren des Sprachdialogs in einen Sprachstrom basierend auf der Zielbitrate und Erzeugen des Transportstroms, um den Sprachstrom einzuschließen.
Verfahren nach Anspruch 1 oder 7, wobei der erste Inhaltstyp Metadaten zugeordnet ist, die Eigenschaften der Vielzahl von Szenenelementen des ersten Inhaltstyps beschreiben, wobei das Codieren der adaptiven Anzahl der Vielzahl von Szenenelementen des ersten Inhaltstyps in den ersten Inhaltsstrom umfasst: Codieren der Metadaten, die der adaptiven Anzahl der Vielzahl von Szenenelementen zugeordnet sind, in Metadaten des ersten Inhaltsstroms basierend auf der Zielbitrate, wobei das Codieren in den zweiten Inhaltsstrom basierend auf der Zielbitrate der verbleibenden Szenenelemente des ersten Inhaltstyps umfasst: Codieren der Metadaten, die den verbleibenden Szenenelementen zugeordnet sind, in Metadaten des zweiten Inhaltsstroms basierend auf der Zielbitrate, und wobei das Erzeugen des Transportstroms umfasst: Kombinieren der Metadaten des ersten Inhaltsstroms und der Metadaten des zweiten Inhaltsstroms in einen Metadatentransportstrom basierend auf der Zielbitrate.
Verfahren nach Anspruch 15, wobei die Metadaten, die dem ersten Inhaltstyp zugeordnet sind, Metadaten umfassen, um die Codiervorrichtung beim Bestimmen der Prioritäten der Vielzahl von Szenenelementen des ersten Inhaltstyps zu unterstützen und eine Decodiervorrichtung beim räumlichen Decodieren und Rendern der Vielzahl von Szenenelementen des ersten Inhaltstyps zu unterstützen.
Verfahren nach Anspruch 1 oder 7, wobei das Codieren der adaptiven Anzahl der Vielzahl von Szenenelementen des ersten Inhaltstyps in den ersten Inhaltsstrom umfasst: Erzeugen einer Vielzahl von ersten möglichen Inhaltsströmen basierend auf den Prioritäten der Vielzahl der Szenenelemente und einer Vielzahl von Zielbitraten, wobei die Vielzahl von ersten möglichen Inhaltsströmen eine adaptive Anzahl der Szenenelemente des ersten Inhaltstyps codiert, wobei das Codieren in den zweiten Inhaltsstrom basierend auf der Zielbitrate der verbleibenden Szenenelemente des ersten Inhaltstyps, die nicht zum Codieren in den ersten Inhaltsstrom ausgewählt sind, umfasst: Erzeugen einer Vielzahl von zweiten möglichen Inhaltsströmen basierend auf der Vielzahl von Zielbitraten, wobei die Vielzahl von zweiten möglichen Inhaltsströmen eine adaptive Anzahl von Szenenelementen des zweiten Inhaltstyps codiert, die die verbleibenden Szenenelemente des ersten Inhaltstyps einschließt, die in Szenenelemente des zweiten Typs kombiniert mit Szenenelementen des zweiten Inhaltstyps, die von dem Audioinhalt empfangen werden, umgewandelt werden, und wobei das Erzeugen des Transportstroms umfasst: Auswählen eines der Vielzahl von ersten möglichen Inhaltsströmen und eines der Vielzahl von zweiten möglichen Inhaltsströmen für den Transportstrom basierend auf der Zielbitrate eines Benutzers.
Verfahren nach Anspruch 17, ferner umfassend: Speichern, in einer Datei, der Vielzahl von ersten möglichen Inhaltsströmen und der Vielzahl von zweiten möglichen Inhalts strömen, und wobei das Erzeugen des Transportstroms umfasst: Auswählen, aus der Datei, eines der Vielzahl von ersten möglichen Inhaltsströmen und eines der Vielzahl von zweiten möglichen Inhaltsströmen für den Transportstrom basierend auf der Zielbitrate eines Benutzers.
Verfahren nach Anspruch 1 oder 7, wobei das Codieren der adaptiven Anzahl der Vielzahl von Szenenelementen des ersten Inhaltstyps in den ersten Inhaltsstrom umfasst: Erzeugen des ersten Inhaltsstroms, um eine adaptive Anzahl der Szenenelemente des ersten Inhaltstyps basierend auf den Prioritäten der Vielzahl der Szenenelemente und während sich die Zielbitrate eines Benutzers ändert zu codieren; und wobei das Codieren in den zweiten Inhaltsstrom basierend auf der Zielbitrate der verbleibenden Szenenelemente des ersten Inhaltstyps, die nicht zum Codieren in den ersten Inhaltsstrom ausgewählt sind, umfasst: Erzeugen des zweiten Inhaltsstroms, um, während sich die Zielbitrate des Benutzers ändert, eine adaptive Anzahl von Szenenelementen des zweiten Inhaltstyps zu codieren, die die verbleibenden Szenenelemente des ersten Inhaltstyps einschließt, die in Szenenelemente des zweiten Typs umgewandelt werden, die mit Szenenelementen des zweiten Inhaltstyps kombiniert sind, die von dem Audioinhalt empfangen werden.
Verfahren nach Anspruch 1 oder 7, wobei der erste Inhaltstyp Audiokanäle oder Audioobjekte umfasst, wobei die Vielzahl von Szenenelementen des ersten Inhaltstyps eine Vielzahl von Audiokanälen oder eine Vielzahl von Audioobjekten umfasst und wobei der zweite Inhaltstyp Ambisonics höherer Ordnung (HOA) umfasst.
System, das konfiguriert ist, um Audioinhalt zu codieren, wobei das System umfasst: einen Speicher, der konfiguriert ist, um Anweisungen zu speichern; einen Prozessor, der mit dem Speicher gekoppelt und konfiguriert ist, um die in dem Speicher gespeicherten Anweisungen auszuführen zum: Empfangen des Audioinhalts, wobei der Audioinhalt durch eine Vielzahl von Inhaltstypen dargestellt wird, wobei ein erster Inhaltstyp eine Vielzahl von Szenenelementen einschließt; Bestimmen von Prioritäten der Vielzahl von Szenenelementen des ersten Inhaltstyps, Codieren einer adaptiven Anzahl der Vielzahl von Szenenelementen des ersten Inhaltstyps in einen ersten Inhaltsstrom basierend auf den Prioritäten der Vielzahl von Szenenelementen und einer Zielbitrate zum Übertragen des Audioinhalts; Codieren, in einen zweiten Inhaltsstrom basierend auf der Zielbitrate, verbleibender Szenenelemente des ersten Inhaltstyps, die nicht zum Codieren in den ersten Inhaltsstrom ausgewählt sind, wobei der zweite Inhaltsstrom das Codieren eines zweiten Inhaltstyps darstellt; und Erzeugen eines Transportstroms, der den ersten Inhaltsstrom und den zweiten Inhaltsstrom zur Übertragung basierend auf der Zielbitrate einschließt.