DE102023209009A1 - Objektaudiocodierung - Google Patents

Objektaudiocodierung Download PDF

Info

Publication number
DE102023209009A1
DE102023209009A1 DE102023209009.0A DE102023209009A DE102023209009A1 DE 102023209009 A1 DE102023209009 A1 DE 102023209009A1 DE 102023209009 A DE102023209009 A DE 102023209009A DE 102023209009 A1 DE102023209009 A1 DE 102023209009A1
Authority
DE
Germany
Prior art keywords
audio
ambisonics
metadata
time
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102023209009.0A
Other languages
English (en)
Inventor
Sina Zamani
Moo Young Kim
Dipanjan Sen
Sang Uk Ryu
Juha O. MERIMAA
Symeon DELIKARIS MANIAS
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of DE102023209009A1 publication Critical patent/DE102023209009A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

In einem Gesichtspunkt schließt ein computerimplementiertes Verfahren Erhalten von Objektaudio und Metadaten, die das Objektaudio räumlich beschreiben, Umwandeln des Objektaudios in Ambisonics-Audio der Zeit-Frequenz-Domäne basierend auf den Metadaten und Codieren des Ambisonics-Audios der Zeit-Frequenz-Domäne und eines Teilsatzes der Metadaten als einen oder mehrere Bitströme, die in einem computerlesbaren Speicher gespeichert oder an eine entfernte Vorrichtung übertragen werden sollen, ein.

Description

  • GEBIET
  • Diese Offenbarung bezieht sich auf Techniken in der digitalen Audiosignalverarbeitung und insbesondere zum Codieren oder Decodieren von Objektaudio in einer Ambisonics-Domäne.
  • STAND DER TECHNIK
  • Eine Verarbeitungsvorrichtung, wie ein Computer, ein Smartphone, ein Tablet-Computer oder eine tragbare Vorrichtung, kann Audio an einen Benutzer ausgeben. Zum Beispiel kann ein Computer eine Audioanwendung, wie eine Filmwiedergabe, eine Musikwiedergabe, eine Konferenzanwendung, einen Telefonanruf, einen Wecker, ein Spiel, eine Benutzerschnittstelle, einen Webbrowser oder eine andere Anwendung starten, die Audioinhalte einschließt, die über Lautsprecher an einen Benutzer wiedergegeben werden. Einige Audioinhalte können eine Audioszene mit räumlichen Qualitäten einschließen.
  • Ein Audiosignal kann ein analoges oder digitales Signal einschließen, das über Zeit und Frequenz variiert, um einen Ton oder ein Klangfeld darzustellen. Das Audiosignal kann verwendet werden, um einen akustischen Empfänger (z. B. einen Lautsprecher) anzusteuern, der den Ton oder das Klangfeld repliziert. Audiosignale können eine Vielzahl von Formaten aufweisen. Traditionelles kanalbasiertes Audio wird mit Blick auf eine Hörvorrichtung aufgezeichnet, zum Beispiel hat ein 5.1 Heimkino fünf Lautsprecher und einen Subwoofer, die in zugewiesenen Standorten platziert sind. Objektaudio codiert Audioquellen als „Objekte“. Jedes Objekt kann zugehörige Metadaten aufweisen, die räumliche Informationen über das Objekt beschreiben. Ambisonics ist ein Vollsphären-Surround-Sound-Format, das Klang in der horizontalen Ebene abdeckt, sowie Tonquellen oberhalb und unterhalb des Hörers. Mit Ambisonics wird ein Klangfeld in sphärische harmonische Komponenten zerlegt.
  • KURZDARS TELLUNG
  • In einigen Gesichtspunkten schließt ein computerimplementiertes Verfahren Erhalten von Objektaudio und das Objektaudio räumlich beschreibende Metadaten; Umwandeln des Objektaudios in Ambisonics-Audio der Zeit-Frequenz-Domäne basierend auf den Metadaten; und Codieren des Ambisonics-Audios der Zeit-Frequenz-Domäne und eines Teilsatzes der Metadaten als einen oder mehrere Bitströme, die in einem computerlesbaren Speicher gespeichert oder an eine entfernte Vorrichtung übertragen werden sollen, ein.
  • In einigen Beispielen schließt das Ambisonics-Audio der Zeit-Frequenz-Domäne eine Vielzahl von Zeit-Frequenz-Kacheln ein, wobei jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln Audio in einem Teilband einer Ambisonics-Komponente darstellt. Jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln kann einen Abschnitt der Metadaten einschließen, der einen entsprechenden Abschnitt des Objektaudios in der Kachel räumlich beschreibt. Das Ambisonics-Audio der Zeit-Frequenz-Domäne kann einen Satz der Vielzahl von Zeit-Frequenz-Kacheln einschließen, der einem Audiorahmen des Objektaudios entspricht.
  • In einigen Gesichtspunkten schließt ein computerimplementiertes Verfahren Decodieren eines oder mehrerer Bitströme, um ein Ambisonics-Audio der Zeit-Frequenz-Domäne und Metadaten zu erhalten; Extrahieren von Objektaudio aus dem Ambisonics-Audio der Zeit-Frequenz-Domäne unter Verwendung der Metadaten, die das Objektaudio räumlich beschreiben; und Rendern des Objektaudios mit den Metadaten basierend auf einem gewünschten Ausgabelayout ein. In einigen Beispielen wird das Objektaudio unter Verwendung der Metadaten direkt aus dem Ambisonics-Audio der Zeit-Frequenz-Domäne extrahiert. In anderen Beispielen schließt Extrahieren des Objektaudios Umwandeln des Ambisonics-Audio der Zeit-Frequenz-Domäne in Ambisonics-Audio der Zeitdomäne und Extrahieren des Objektaudios von dem Ambisonics-Audio der Zeitdomäne unter Verwendung der Metadaten ein.
  • In einigen Gesichtspunkten schließt ein computerimplementiertes Verfahren Erhalten von Objektaudio und das Objektaudio räumlich beschreibenden Metadaten; Umwandeln des Objektaudios in Ambisonics-Audio basierend auf den Metadaten; Codieren, in einem ersten Bitstrom, des Ambisonics-Audios (z. B. als Ambisonics-Audio der Zeit-Frequenz-Domäne); und Codieren, in einem zweiten Bitstrom, einer Teilmenge der Metadaten ein. Die Teilmenge der Metadaten kann von einem Decodierer verwendet werden, um das Ambisonics-Audio zurück in das Objektaudio umzuwandeln.
  • In einigen Gesichtspunkten schließt ein computerimplementiertes Verfahren Decodieren eines ersten Bitstroms, um Ambisonics-Audio (z. B. als Ambisonics-Audio der Zeit-Frequenz-Domäne) zu erhalten; Decodieren eines zweiten Bitstroms, um Metadaten zu erhalten; Extrahieren von Objektaudios aus dem Ambisonics-Audio unter Verwendung der Metadaten, die das Objektaudio räumlich beschreiben; und Rendern des Objektaudios mit den Metadaten basierend auf einem gewünschten Ausgabelayout ein.
  • In einigen Gesichtspunkten schließt ein computerimplementiertes Verfahren Umwandeln des Objektaudios in Ambisonics-Audio der Zeit-Frequenz-Domäne basierend auf das Objektaudio räumlich beschreibenden Metadaten, wobei das Objektaudio einer ersten Priorität zugeordnet ist; Umwandeln eines zweiten Objektaudios in Ambisonics-Audio der Zeitdomäne, wobei das zweite Objektaudio einer zweiten Priorität zugeordnet ist, die sich von der ersten Priorität unterscheidet; Codieren des Ambisonics-Audios der Zeit-Frequenz-Domäne als einen ersten Bitstrom; Codieren der Metadaten als einen zweiten Bitstrom; und Codieren des Ambisonics-Audios der Zeitdomäne als einen dritten Bitstrom ein. Die erste Priorität kann eine höhere Priorität als die zweite Priorität sein. Das Ambisonics-Audio der Zeitdomäne kann mit einer geringeren Auflösung als das Ambisonics-Audio der Zeit-Frequenz-Domäne codiert sein.
  • Gesichtspunkte der vorliegenden Offenbarung können von einer Verarbeitungsvorrichtung oder einer Verarbeitungslogik durchgeführt werden, die Hardware (z. B. Schaltlogik, dedizierte Logik, programmierbare Logik, einen Prozessor, eine Verarbeitungsvorrichtung, eine zentrale Verarbeitungseinheit (CPU), ein System-on-Chip (SoC), maschinenlesbarer Speicher usw.), Software (z. B. maschinenlesbare Anweisungen, die von Verarbeitungslogik gespeichert oder ausgeführt werden) oder eine Kombination davon umfassen kann.
  • Die vorstehende Kurzdarstellung schließt keine vollständige Liste aller Gesichtspunkte der vorliegenden Offenbarung ein. Die Offenbarung soll alle in die Praxis umsetzbaren Systeme und Verfahren aus allen geeigneten Kombinationen der oben zusammengefassten, verschiedenen Gesichtspunkte einschließen, ebenso wie solche, die in der nachstehenden detaillierten Beschreibung offenbart werden und die in den Ansprüchen ausdrücklich genannt sind. Solche Kombinationen können bestimmte Vorteile aufweisen, die in der obigen Kurzdarstellung nicht spezifisch angegeben sind.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Verschiedene Gesichtspunkte der Offenbarung hierhin werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezüge gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Verweise auf „einen“ Gesichtspunkt in dieser Offenbarung nicht notwendigerweise auf den gleichen Gesichtspunkt beziehen, und sie bedeuten mindestens einen. Außerdem kann der Kürze halber und zur Reduzierung der Gesamtzahl von Figuren eine gegebene Figur verwendet werden, um die Merkmale von mehr als einem Gesichtspunkt der Offenbarung zu veranschaulichen, und möglicherweise sind nicht alle Elemente in der Figur für einen gegebenen Gesichtspunkt erforderlich.
    • 1 veranschaulicht ein beispielhaftes System zum Codieren von Objektaudio mit einem Ambisonics-Audioformat der Zeit-Frequenz-Domäne gemäß einigen Gesichtspunkten.
    • 2 veranschaulicht ein beispielhaftes System zum Codieren von Objektaudio mit einem Ambisonics-Audioformat der Zeit-Frequenz-Domäne und einem Ambisonics-Audioformat der Zeitdomäne gemäß einigen Gesichtspunkten.
    • 3 veranschaulicht ein beispielhaftes System zum Codieren von Objektaudio in einer Ambisonics-Domäne unter Verwendung von Metadaten gemäß einigen Gesichtspunkten.
    • 4 veranschaulicht ein beispielhaftes System zum Codieren von Objektaudio in einer Ambisonics-Domäne basierend auf Priorität gemäß einigen Gesichtspunkten.
    • 5 zeigt ein Beispiel von Ambisonics-Audio der Zeit-Frequenz-Domäne gemäß einigen Gesichtspunkten.
    • 6 veranschaulicht ein Beispiel eines Audioverarbeitungssystems gemäß einigen Gesichtspunkten.
  • DETAILLIERTE BESCHREIBUNG
  • Menschen können den Standort eines Schalls schätzen, indem sie die Schallungen mit ihren beiden Ohren analysieren. Dies ist als binaurales Hören bekannt, und das menschliche Hörsystem kann die Schallrichtungen unter Verwendung der Art, wie sich Schall um unsere Körper herum beugt und von diesen reflektiert und mit unseren Ohrmuscheln wechselwirkt. Diese räumlichen Hinweise können künstlich erzeugt werden, indem Raumfilter wie kopfbezogene Übertragungsfunktionen (HRTFs) oder kopfbezogene Impulsantworten (HRIRs) auf Audiosignale angewendet werden. HRTFs werden in der Frequenzdomäne angewendet und HRIRs werden in der Zeitdomäne angewendet.
  • Die räumlichen Filter können künstlich räumliche Hinweise in das Audio vermitteln, die den Beugungen, Verzögerungen und Reflexionen ähneln, die natürlich durch unsere Körpergeometrie und Ohrmuscheln verursacht werden. Das räumlich gefilterte Audio kann durch ein räumliches Audioreproduktionssystem (einem Renderer) erzeugt und durch Kopfhörer ausgegeben werden. Räumliches Audio kann für die Wiedergabe gerendert werden, sodass das Audio wahrgenommen wird, als habe es räumliche Qualitäten, zum Beispiel von einer Stelle über, unten oder seitlich von einem Hörer stammend.
  • Das räumliche Audio kann visuellen Komponenten entsprechen, die zusammen ein audiovisuelles Werk bilden. Ein audiovisuelles Werk kann einer Anwendung, einer Benutzerschnittstelle, einem Film, einer Live-Show, einer Sportveranstaltung, einem Spiel, einem Konferenzanruf oder einer anderen audiovisuellen Erfahrung zugeordnet sein. In einigen Beispielen kann das audiovisuelle Werk integraler Bestandteil einer Umgebung der erweiterten Realität (XR) sein und Tonquellen des audiovisuellen Werks können einem oder mehreren virtuellen Objekten in der XR-Umgebung entsprechen. Eine XR-Umgebung kann Inhalte gemischter Realität (mixed reality, MR), Inhalte augmentierter Realität (AR), Inhalte virtueller Realität (VR) und/oder dergleichen einschließen. Mit einem XR-System können einige der physischen Bewegungen einer Person oder deren Darstellungen verfolgt werden, und als Reaktion darauf können Eigenschaften von virtuellen Objekten, die in der XR-Umgebung simuliert werden, auf eine Weise angepasst werden, die mit mindestens einem physikalischen Gesetz übereinstimmt. Zum Beispiel kann das XR-System die Bewegung eines Kopfes eines Benutzers erkennen und den grafischen Inhalt und den akustischen Inhalt anpassen, der dem Benutzer ähnlich präsentiert wird, wie solche Ansichten und Geräusche sich in einer physischen Umgebung verändern würden. In einem weiteren Beispiel kann das XR-System eine Bewegung einer elektronischen Vorrichtung erkennen, die die XR-Umgebung präsentiert (z. B. ein Mobiltelefon, ein Tablet, ein Laptop oder dergleichen), und als Reaktion darauf grafischen Inhalt und akustischen Inhalt, der dem Benutzer präsentiert werden, auf ähnliche Weise anpassen, wie sich solche Ansichten und Geräusche in einer physischen Umgebung verändern würden. In einigen Ausführungsformen kann das XR-System eine oder mehrere Eigenschaften des grafischen Inhalts als Reaktion auf andere Eingänge, wie eine Darstellung physischer Bewegungen (z. B. Sprachbefehle) anpassen.
  • Viele individuelle Arten von elektronischen Systemen können es einem Benutzer ermöglichen, mit einer XR-Umgebung zu interagieren und/oder sie zu erfassen. Eine nicht abschließende Liste von Beispielen schließt Headup-Displays (HUDs), am Kopf tragbare Systeme, projektionsbasierte Systeme, Fenster oder Fahrzeugwindschutzscheiben mit integrierter Anzeigefähigkeit, als Linsen ausgebildete Displays, die auf den Augen der Benutzer platziert werden sollen (z. B. Kontaktlinsen), Telefone als Kopfhörer/Ohrhörer, Eingabesysteme mit oder ohne haptische Rückmeldung (z. B. tragbare oder handgeführte Steuerungen), Lautsprecher-Arrays, Smartphones, Tablets und Desktop/Laptop-Computer, ein. Ein am Kopf tragbares System kann einen oder mehrere Lautsprecher und ein opakes Display aufweisen. Andere am Kopf tragbare Systeme können dazu konfiguriert sein, ein externes opakes Display (z. B. ein Smartphone) aufzunehmen. Das am Kopf tragbare System kann einen oder mehrere Bildsensoren enthalten, um Bilder und/oder Videoaufnahmen der physischen Umgebung aufzunehmen, und/oder ein oder mehrere Mikrofone, um Audioaufnahmen der physischen Umgebung aufzunehmen. Ein am Kopf tragbares System kann anstelle eines opaken Displays ein transparentes oder durchscheinendes Display aufweisen. Das transparente oder durchscheinende Display kann ein Medium aufweisen, durch das Licht auf die Augen eines Benutzers gerichtet wird. Das Display kann verschiedene Anzeigetechnologien verwenden, wie uLED, OLED, LED, Flüssigkristall auf Silizium, Laser-Scanning-Lichtquelle, digitale Lichtprojektion oder Kombinationen davon. Für das Medium können ein optischer Wellenleiter, ein optischer Reflektor, ein Hologrammmedium, ein optischer Kombinator, Kombinationen davon oder andere ähnliche Technologien verwendet werden. In einigen Implementierungen kann das transparente oder durchscheinende Display selektiv gesteuert werden, um opak zu werden. Projektionsbasierte Systeme können eine retinale Projektionstechnologie nutzen, die Bilder auf die Netzhaut eines Benutzers projiziert. Projektionssysteme können auch so konfiguriert sein, dass sie virtuelle Objekte in die physische Umgebung (z. B. als Hologramm oder auf eine physische Oberfläche) projizieren. Immersive Erfahrungen wie eine XR-Umgebung oder andere Audiowerke können räumliches Audio einschließen.
  • Räumliche Audiowiedergabe kann die Spatialisierung von Tonquellen in einer Szene einschließen. Die Szene kann eine dreidimensionale Darstellung sein, die eine Position jeder Tonquelle einschließen kann. In einer immersiven Umgebung kann ein Benutzer in einigen Fällen in der Lage sein, sich in der Szene zu bewegen und zu interagieren. Jede Tonquelle in einer Szene kann durch ein Objekt in Objektaudio gekennzeichnet sein.
  • Objektaudio oder objektbasiertes Audio kann ein oder mehrere Audiosignale und Metadaten einschließen, die jedem der Objekte zugeordnet sind. Metadaten können definieren, ob das Audiosignal ein Objekt ist (z. B. eine Tonquelle) oder nicht, und räumliche Informationen wie eine absolute Position des Objekts, eine relative Richtung von einem Zuhörer zu dem Objekt, eine Entfernung von dem Objekt zu dem Zuhörer oder andere räumliche Informationen oder eine Kombination davon einschließen. Die Metadaten können auch andere Audioinformationen einschließen. Jedes Audiosignal mit räumlichen Informationen kann als ein ,Objekt' oder eine Tonquelle in einer Audioszene behandelt und gemäß einem gewünschten Ausgabelayout gerendert werden.
  • Ein Renderer kann ein Objekt unter Verwendung seiner räumlichen Informationen rendern, um ihm räumliche Hinweise in dem resultierenden räumlichen Audio zu verleihen, um dem Eindruck zu vermitteln, dass das Objekt einen Ort aufweist, der den räumlichen Informationen entspricht. Zum Beispiel kann ein Objekt, das einen Vogel darstellt, räumliche Informationen aufweisen, die anzeigen, dass sich der Vogel weit über der rechten Seite des Benutzers befindet. Das Objekt kann mit räumlichen Hinweisen gerendert werden, sodass das resultierende räumliche Audiosignal diesen Eindruck vermittelt, wenn es durch einen Lautsprecher (z. B. durch einen linken und rechten Lautsprecher eines Kopfhörers) ausgegeben wird. Ferner können sich durch Ändern der räumlichen Informationen der Metadaten im Laufe der Zeit Objekte in einer Audioszene bewegen.
  • Ambisonics bezieht sich auf eine Technik zum Aufzeichnen, Mischen und Wiedergeben von dreidimensionalem 360-Grad-Audio in der horizontalen und/oder in der vertikalen Ebene. Ambisonics behandelt eine Audioszene als 360-Grad-Klangsphäre, die aus unterschiedlichen Richtungen um ein Zentrum herum kommt. Ein Beispiel für ein Ambisonics-Format ist B-Format, das Ambisonics erster Ordnung einschließen kann, die aus vier Audiokomponenten bestehen - W, X, Y und Z. Jede Komponente kann eine andere sphärische Oberschwingung oder eine andere Mikrofonpolarisationscharakteristik darstellen, die in eine bestimmte Richtung zeigt, wobei jede Polarisationscharakteristik an einem Mittelpunkt der Sphäre verbunden ist.
  • Ambisonics hat ein inhärent hierarchisches Format. Jede zunehmende Reihenfolge (z. B. erste Ordnung, zweite Ordnung, dritte Ordnung und so weiter) erhöht eine räumliche Auflösung, wenn sie an einen Zuhörer wiedergegeben wird. Ambisonics kann mit nur dem Ambisonics der niedrigeren Ordnung formatiert werden, wie mit der ersten Ordnung, W, X, Y und Z. Dieses Format stellt, obwohl es einen Footprint mit niedriger Bandbreite aufweist, eine geringe räumliche Auflösung bereit. Ambisonics-Komponenten von wesentlich höherer Ordnung werden in der Regel für eine hochauflösende immersive räumliche Audioerfahrung angewendet.
  • Ambisonics-Audio kann auf höhere Ordnungen erweitert werden, was die Qualität oder Auflösung der Lokalisierung erhöht. Mit Erhöhen jeder Ordnung werden zusätzliche Ambisonics-Komponenten eingeführt. Zum Beispiel werden 5 neue Komponenten in Ambisonics-Audio für Ambisonics-Audio der zweiten Ordnung eingeführt. Für Ambisonics-Audio der dritten Ordnung werden 7 zusätzliche Komponenten eingeführt und so weiter. Bei herkömmlichem Ambisonics-Audio (das hierin als Zeitdomänen-Ambisonics bezeichnet werden kann) kann dies bewirken, dass der Footprint oder die Größe der Audioinformationen wächst, was schnell auf Bandbreitenbeschränkungen stoßen kann. Daher kann einfaches Umwandeln von Objektaudios in Ambisonics-Audio auf Bandbreitenbeschränkungen stoßen, um eine gewünschte räumliche Auflösung zu erfüllen, wenn die Ordnung des Ambisonics-Audios hoch ist.
  • Gesichtspunkte der vorliegenden Offenbarung beschreiben ein Verfahren oder eine Vorrichtung (z. B. einen Codierer oder Decodierer), das bzw. die Objektaudio in einer Ambisonics-Audiodomäne codieren und decodieren kann. Metadaten können verwendet werden, um zwischen Objektaudio und einer Ambisonics-Audiodarstellung des Objektaudios abzubilden, um den codierten Footprint des Objektaudios zu reduzieren.
  • In einigen Gesichtspunkten wird das Objektaudio als Ambisonics-Audio der Zeit-Frequenz-Domäne (TF) codiert. In einigen Gesichtspunkten wird in der Decodierstufe das Objektaudio als TF-Ambisonics-Audio decodiert und zurück in Objektaudio umgewandelt. In einigen Beispielen wird das Ambisonics-Audio der Zeit-Frequenz-Domäne direkt in Objektaudio decodiert. In anderen Beispielen wird die das Ambisonics-Audio der Zeit-Frequenz-Domäne in Ambisonics-Audio der Zeitdomäne (TD) und dann in Objektaudio umgewandelt.
  • In einigen Gesichtspunkten wird das Objektaudio als TD-Ambisonics-Audio codiert, und Metadaten werden in einem separaten Bitstrom codiert. Ein Decodierer kann die Objektmetadaten verwenden, um das TD-Ambisonics-Audio zurück in Objektaudio umzuwandeln.
  • In einigen Gesichtspunkten wird Objektaudio entweder als TF-Ambisonics-Audio oder TD-Ambisonics-Audio codiert, basierend auf einer Priorität des Objektaudios. Objekte, die einer hohen Priorität zugeordnet sind, können als TF-Ambisonics-Audio codiert werden, und Objekte, die nicht einer hohen Priorität zugeordnet sind, können als TD-Ambisonics-Audio codiert werden.
  • Beim Decodierer kann das Objektaudio nach dem Extrahieren des Objektaudios aus dem empfangenen Ambisonics-Audio gemäß einem gewünschten Ausgabelayout gerendert werden. In einigen Beispielen kann das Objektaudio spatialisiert und kombiniert werden, um binaurales Audio zu bilden, das einen linken Audiokanal und einen rechten Audiokanal einschließen kann. Der linke und der rechte Audiokanal können verwendet werden, um einen im linken Ohr getragenen Lautsprecher und einen im rechten Ohr getragenen Lautsprecher anzusteuern. In anderen Beispielen kann das Objektaudio gemäß einem Lautsprecher-Layout (z. B. 5,1, 6,1, 7,1 usw.) gerendert werden.
  • 1 veranschaulicht ein beispielhaftes System 100 zum Codieren von Objektaudio mit einem Ambisonics-Audioformat der Zeit-Frequenz-Domäne gemäß einigen Gesichtspunkten. Einige Gesichtspunkte des Systems können als ein Codierer 138 durchgeführt werden, und andere Gesichtspunkte des Systems können als Decodierer 140 durchgeführt werden. Der Codierer 138 kann eine oder mehrere Verarbeitungsvorrichtungen einschließen, die die beschriebenen Vorgänge durchführen. In ähnlicher Weise kann der Decodierer 140 eine oder mehrere Verarbeitungsvorrichtungen einschließen, die die beschriebenen Vorgänge durchführen. Der Codierer 138 und der Decodierer 140 können kommunikativ über ein Computernetzwerk gekoppelt sein, das eine drahtgebundene oder drahtlose Kommunikationshardware (z. B. einen Sender und Empfänger) einschließen kann.
  • Der Codierer 138 und der Decodierer 140 können über ein oder mehrere Netzwerkkommunikationsprotokolle kommunizieren, wie ein IEEE 702 basiertes Protokoll und/oder ein anderes Netzwerkkommunikationsprotokoll.
  • Bei Codierer 138 werden Objektaudio 102 und Metadaten 104, die das Objektaudio 102 räumlich beschreiben, durch den Codierer 138 erhalten. Das Objektaudio 102 kann ein oder mehrere Objekte wie Objekt 1, Objekt 2 usw. einschließen. Jedes Objekt kann eine Tonquelle in einer Klangszene darstellen. Die Objektmetadaten 104 können Informationen einschließen, die jedes Objekt spezifisch und individuell beschreiben.
  • Der Codierer 138 kann Objektaudio 102 und Objektmetadaten 104 als digitale Daten erhalten. In einigen Beispielen kann der Codierer 138 das Objektaudio 102 und Metadaten 104 basierend auf dem Erfassen von Klängen in einer physischen Umgebung mit Mikrofonen erzeugen. In anderen Beispielen kann der Codierer 138 das Objektaudio 102 und die Metadaten 104 von einer anderen Vorrichtung (z. B. einer Codierungsvorrichtung, einer Erfassungsvorrichtung oder einer Zwischenvorrichtung) erhalten.
  • Das Objektaudio 102 kann in Ambisonics-Audio der Zeit-Frequenz-Domäne (TF) 142 umgewandelt werden. Zum Beispiel kann bei Ambisonics-Wandlerblock 106 das Objektaudio 102 basierend auf den Objektmetadaten 104 in Ambisonics-Audio des Zeitbereichs (TD) 132 umgewandelt werden. TD-Ambisonics-Audio kann ein Audiosignal für jede Ambisonics-Komponente des TD-Ambisonics-Audios einschließen, die mit der Zeit variiert. TD-Ambisonics-Audio kann als traditionelles Ambisonics-Audio oder Ambisonics einer höheren Ordnung (HOA) verstanden werden. Bei Block 108 kann das TD-Ambisonics-Audio 132 in das TF-Ambisonics-Audio 142 umgewandelt werden. TF-Ambisonics-Audio 142 kann das TD-Ambisonics-Audio 132 und das Objektaudio 102 mit einer Vielzahl von Zeit-Frequenz-Kacheln kennzeichnen. Wie weiter in anderen Abschnitten beschrieben, kann jede Kachel eine Ambisonics-Komponente, ein Teilband und einen Zeitbereich des Objektaudios 102 und TD-Ambisonics-Audios 132 eindeutig kennzeichnen.
  • Bei Block 108 und Block 110 können das TFA-Ambisonics-Audio 142 und eine Teilmenge 134 der Metadaten 104 als ein bzw. mehrere Bitströme (z. B. Bitstrom 128 und Bitstrom 130) codiert werden. Die Bitströme 128 und 130 können in einem computerlesbaren Speicher gespeichert und/oder an eine entfernte Vorrichtung, wie zum Beispiel einen Decodierer 140 oder eine Zwischenvorrichtung, übertragen werden, die Daten an den Decodierer 140 weiterleiten kann.
  • Das TF-Ambisonics-Audio 142 kann eine Vielzahl von Zeit-Frequenz-Kacheln einschließen, wobei jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln Audio in einem Teilband einer Ambisonics-Komponente darstellt. Jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln kann einen Abschnitt der Metadaten 104 einschließen, der einen entsprechenden Abschnitt des Objektaudios in der Kachel räumlich beschreibt. Ferner kann das TFA-Ambisonics-Audio 142 einen Satz der Vielzahl von Zeit-Frequenz-Kacheln einschließen, der einem Audiorahmen des Objektaudios entspricht. Ein Beispiel von TF-Ambisonics-Audio ist in 5 gezeigt.
  • Bei Block 106 von 1 kann das Umwandeln des Objektaudios 102 in das TF-Ambisonics-Audio das Umwandeln des Objektaudios 102 in TD-Ambisonics-Audio 132 und das Codieren des Ambisonics-Audios der Zeitdomäne 132 als das TF-Ambisonics-Audio 142, unter Verwendung der Objektmetadaten 104 oder einer Teilmenge 134 der Objektmetadaten einschließen.
  • Das TF-Ambisonics-Audio 142 kann eine komprimierte (Bitraten-reduzierte) Version des TD-Ambisonics-Audios 132 sein. Das TD-Ambisonics-Audio 132 und TF-Ambisonics-Audio 142 können eine Komponente von Ambisonics höherer Ordnung (HOA-Komponente) einschließen. Zum Beispiel kann bei Block 106 das Objektaudio 102 in TD-Ambisonics umgewandelt werden, das Ambisonics-Komponenten der ersten Ordnung, Ambisonics-Komponenten der zweiten Ordnung und Ambisonics-Komponenten der dritten Ordnung einschließen kann. Jede Komponente über die erste Ordnung hinaus kann als HOA-Komponente und Ambisonics-Audio verstanden werden, wobei mehr als eine Ordnung als Audio von Ambisonics einer höheren Ordnung (HOA) bezeichnet werden kann.
  • Die Metadaten 104 und ihre Teilmenge 134 können räumliche Informationen eines Objekts wie eine Richtung, einen Abstand und/oder eine Position einschließen. In einigen Beispielen können die Richtung, der Abstand, die Position oder andere räumliche Informationen relativ zu einer Zuhörerposition definiert werden. Die Metadaten können andere Informationen über das Objekt einschließen, wie die Lautstärke, einen Objekttyp oder andere Informationen, die für das Objekt spezifisch sein können.
  • Am Ambisonics-Decodierblock 112 des Decodierers 140 werden ein oder mehrere Bitströme wie Bitströme 128 und 130 decodiert, um TF-Ambisonics-Audio 124 und Metadaten 136 zu erhalten. Das TF-Ambisonics-Audio 124 kann gleich dem TF-Ambisonics-Audio 142 sein, das bei Codierer 138 codiert wurde. In ähnlicher Weise können die Metadaten 136 die gleichen wie die Teilmenge 134 sein, die bei Codierer 138 codiert wurde.
  • Bei Block 114 kann der Bitstrom 130 decodiert werden, um Metadaten 136 zu erhalten. Metadaten 136 können die gleichen wie die Teilmenge 134 sein, die durch Codierer 138 in den Bitstrom 130 codiert wurde. Die Metadaten 136 können eine quantisierte Version von Objektmetadaten 104 sein. Die Metadaten 136 können mindestens eines von einem Abstand oder einer Richtung umfassen, die einem Objekt des Objektaudios zugeordnet ist. In einigen Beispielen beschreiben die Metadaten 136 jedes Objekt in dem Objektaudio 126 räumlich.
  • Bei Block 116 kann das Objektaudio 126 unter Verwendung der Metadaten 136, die das Objektaudio räumlich beschreiben, aus dem TF-Ambisonics-Audio 124 extrahiert werden. Dieses Objektaudio 126 kann eine quantisierte Version des Objektaudios 102 sein.
  • Die Quantisierung kann als der Prozess des Beschränkens einer Eingabe von einem kontinuierlichen oder anderweitig großen Satz von Werten (wie den realen Zahlen) auf einen diskreten Satz (wie die ganzen Zahlen) bezeichnet werden. Quantisiertes Objektaudio 126 kann eine gröbere Darstellung (z. B. weniger Audioauflösung) als das ursprüngliche Objektaudio 102 einschließen. Dies kann eine downgesampelte Version eines Audiosignals eines Objekts oder eine Version einschließen, die eine geringere Granularität in der Amplitude oder Phase des Audiosignals aufweist. In ähnlicher Weise kann eine quantisierte Version der Metadaten eine reduzierte Version mit weniger oder gröberen Informationen (z. B. geringere räumliche Auflösung) als die ursprünglichen Objektmetadaten 104 sein.
  • In einigen Gesichtspunkten wird, wie in 1 gezeigt, das Objektaudio 126 direkt aus dem TF-Ambisonics-Audio 124 unter Verwendung der Metadaten extrahiert. Zum Beispiel wird das TF-Ambisonics-Audio 124 nicht zuerst in TD-Ambisonics-Audio umgewandelt (im Gegensatz zum Beispiel in 2). Extrahieren des Objektaudios bei Block 116 kann Referenzieren der in jeder Kachel des TF-Ambisonics-Audios 124 enthaltenen Metadateninformationen einschließen, um das relevante Audiosignal für jedes Objekt zu extrahieren und die Richtung von Metadaten 136 mit jedem Objekt neu zu verknüpfen, um das Objektaudio 126 zu rekonstruieren. Somit kann das resultierende Objektaudio 126 jedes Objekt aus dem Objektaudio 102 sowie eine Richtung und/oder einen Abstand für jedes Objekt einschließen.
  • Bei einem Block, der als Objektrenderer 118 markiert ist, kann das Objektaudio 126 basierend auf einem gewünschten Ausgabelayout 120 mit den Metadaten 136 gerendert werden. Das gewünschte Ausgabelayout 120 kann abhängig von der Wiedergabevorrichtung und der Konfiguration der Lautsprecher 122 Variieren, die ein Layout mit mehreren Lautsprechern wie 5,1, 6,1, 7,1 usw., einen Kopfhörer, eine am Kopf getragene Vorrichtung oder ein anderes Audiowiedergabeausgangsformat einschließen können. Die resultierenden Audiokanäle 144, die durch Objektrenderer 118 erzeugt werden, können verwendet werden, um Lautsprecher 122 anzusteuern, um eine Klangszene auszugeben, die die des ursprünglichen Objektaudios 102 repliziert.
  • Zum Beispiel kann das gewünschte Ausgabelayout 120 ein Layout mit mehreren Lautsprechern mit voreingestellten Positionen von Lautsprecherkanälen (z. B. Mitte, vorne links, vorne rechts oder andere Lautsprecherkanäle eines Surround-Sound-Audioformats) einschließen. Die Objektaudiosignale können in die Audiokanäle gemäß einem Rendering-Algorithmus kombiniert oder gemischt werden, der jedes der Objektaudiosignale gemäß den in den Objektmetadaten enthaltenen räumlichen Informationen an diesen voreingestellten Orten verteilt.
  • In anderen Beispielen kann das gewünschte Ausgabelayout 120 ein am Kopf getragenes Lautsprecherlayout einschließen, das binaurales Audio ausgibt. In einem solchen Fall kann der Objektrenderer 118 einen binauralen Renderer einschließen, der HRTFs oder HRIRs gemäß den räumlichen Informationen (z. B. Richtung und Entfernung), die in Metadaten des Objektaudios 126 und/oder den Metadaten 136 enthalten sind, auf das Objektaudio 126 anwenden kann. Die resultierenden linken und rechten Audiokanäle können räumliche Hinweise einschließen, wie von den HRTFs oder HRIRs verliehen werden, um Audio über linke und rechte im Ohr getragene Lautsprecher an einen Hörer räumlich auszugeben. Im Ohr getragene Lautsprecher können am, über oder im Ohr eines Benutzers getragen werden.
  • Auf diese Weise kann das Objektaudio von einem und in ein Ambisonics-Audioformat umgewandelt werden, wobei die Objektmetadaten verwendet werden, um das Objektaudio zu codieren, zu decodieren und zu rendern. Am Codierer 138 kann jede Zeit-Frequenz-Kachel (TF-Kachel) durch einen Satz (oder mehrere Sätze) des Audiosignals und der Metadaten dargestellt werden. Die Metadaten können eine Richtung, eine Entfernung oder andere Audio- oder räumliche Informationen oder eine Kombination davon einschließen. Die Audiosignale des Objektaudios 102 und der Metadaten 104 können als ein Bitstrom 128 wie TF-Ambisonics-Audio codiert und übertragen werden, zusammen mit einer Teilmenge 134 der ursprünglichen Objektmetadaten 104, die als Bitstrom 130 codiert und übertragen werden können.
  • Am Decodierer 140 werden ein Satz (oder mehrere Sätze) des Objektaudios und Metadaten für jede TF-Kachel rekonstruiert. Bei Block 114 kann eine quantisierte Version der Objektmetadaten rekonstruiert werden. In ähnlicher Weise kann eine quantisierte Version der Objektaudiosignale bei Block 116 unter Verwendung des Satzes (oder mehrerer Sätze) des Audiosignals und Metadaten für jede TF-Kachel extrahiert werden. Objektrenderer 118 kann die Lautsprecher- oder Kopfhörerausgabe basierend auf dem quantisierten Objektaudio 126, den quantisierten Metadaten 136 und dem gewünschten Ausgabelayout 120 oder anderen Ausgabekanallayoutinformationen synthetisieren.
  • In einigen Gesichtspunkten kann ein Verfahren mit verschiedenen beschriebenen Gesichtspunkten durchgeführt werden, wie in Bezug auf 1. Das Verfahren kann durch Verarbeitungslogik eines Codierers 138 oder eines Decodierers 140, einer anderen Audioverarbeitungsvorrichtung oder einer Kombination davon durchgeführt werden. Verarbeitungslogik kann Hardware (z. B. Schaltlogik, dedizierte Logik, programmierbare Logik, einen Prozessor, eine Verarbeitungsvorrichtung, eine zentrale Verarbeitungseinheit (CPU), ein System-on-Chip (SoC) usw.), Software (z. B. Anweisungen, die auf einer Verarbeitungsvorrichtung laufen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon einschließen.
  • Obwohl spezifische Funktionsblöcke („Blöcke“) in dem Verfahren beschrieben sind, sind solche Blöcke Beispiele. Das heißt, Gesichtspunkte sind gut dazu geeignet, verschiedene andere Blöcke oder Varianten der Blöcke, die in dem Verfahren angeben sind, durchzuführen. Es versteht sich, dass die Blöcke in dem Verfahren in einer Reihenfolge durchgeführt werden können, die anders als präsentiert ist, und dass möglicherweise nicht alle der Blöcke in dem Verfahren durchgeführt werden.
  • In einem Verfahren kann die Verarbeitungslogik Objektaudio 102 und Metadaten 104 erhalten, die das Objektaudio räumlich beschreiben. Die Verarbeitungslogik kann das Objektaudio 102 in Ambisonics-Audio der Zeit-Frequenz-Domäne 142 basierend auf der Teilmenge 134 oder den Metadaten 104 (z. B. bei Blöcken 106 und 108) umwandeln. Die Verarbeitungslogik kann das Ambisonics-Audio der Zeit-Frequenz-Domäne 142 und eine Teilmenge 134 der Metadaten 104 als einen oder mehrere Bitströme (z. B. 128 und 130) codieren, die in einem computerlesbaren Speicher gespeichert oder an eine entfernte Vorrichtung wie einen Decodierer 140 oder eine Zwischenvorrichtung übertragen werden sollen.
  • In einem anderen Verfahren kann die Verarbeitungslogik einen oder mehrere Bitströme (z. B. 128 und 130) decodieren, um ein Ambisonics-Audio der Zeit-Frequenz-Domäne 124 und Metadaten 136 zu erhalten. Die Verarbeitungslogik kann Objektaudio 126 aus dem Ambisonics-Audio der Zeit-Frequenz-Domäne 124 unter Verwendung der Metadaten 136 extrahieren, die das Objektaudio 126 räumlich beschreiben. Die Verarbeitungslogik kann das Objektaudio 126 mit den Metadaten 136 basierend auf einem gewünschten Ausgabelayout 120 rendern. Das Objektaudio 126 kann direkt aus dem Ambisonics-Audio der Zeit-Frequenz-Domäne 124 (z. B. bei Block 116) unter Verwendung der Metadaten 136 extrahiert werden.
  • 2 veranschaulicht ein beispielhaftes System 200 zum Codieren von Objektaudio mit einem Ambisonics-Audioformat der Zeit-Frequenz-Domäne und einem Ambisonics-Audioformat der Zeitdomäne gemäß einigen Gesichtspunkten. Einige Gesichtspunkte können als ein Codierer 244 durchgeführt werden und andere Gesichtspunkte können als ein Decodierer 242 durchgeführt werden.
  • Der Codierer 244 kann anderen Beispielen eines Codierers wie Codierer 138 entsprechen, wie in Bezug auf 1 beschrieben. Zum Beispiel kann der Codierer 244 Objektaudio 202 und Metadaten 204 erhalten, die das Objektaudio 202 räumlich beschreiben. Bei Block 206 und 208 kann der Codierer 244 das Objektaudio 202 basierend auf den Metadaten 204 und dessen Teilmenge 234 in TF-Ambisonics-Audio 246 umwandeln. Bei den Blöcken 208 und 210 werden das TFA-Ambisonics-Audio 246 und ein Teilsatz 234 der Metadaten 204 als ein oder mehrere Bitströme (z. B. 228 und 230) codiert, die in einem computerlesbaren Speicher gespeichert oder an eine entfernte Vorrichtung übertragen werden sollen.
  • Der Decodierer 242 kann anderen Beispielen eines Decodierers wie dem Decodierer 140 entsprechen. Zusätzlich zu den in Bezug auf Decodierer 140 und 1 erörterten Blöcken kann der Decodierer 242 auch einen Ambisonics-Decodierer der Zeitdomäne 238 einschließen. Der Decodierer 242 kann einen oder mehrere Bitströme wie Bitstrom 228 und Bitstrom 230 decodieren, um eine TF-Ambisonics-Audio 224 bzw. Metadaten 236 zu erhalten. TF-Ambisonics-Audio 224 kann dem TF-Ambisonics-Audio 246 entsprechen oder gleich diesem sein. Der Decodierer 242 kann Objektaudio 226 aus dem TF-Ambisonics-Audio 224 unter Verwendung der Metadaten 236 extrahieren, die das Objektaudio 226 räumlich beschreiben. Der Decodierer 242 kann das Objektaudio 226 mit den Metadaten 236 basierend auf einem gewünschten Ausgabelayout 220 rendern.
  • Wie in diesem Beispiel gezeigt, kann Extrahieren des Objektaudios 226 das Umwandeln von TF-Ambisonics-Audio 224 in TD-Ambisonics-Audio 240 am Decodierer 238 einschließen. Das Objektaudio 226 wird unter Verwendung der Metadaten 236 aus dem TD-Ambisonics-Audio 240 bei Block 216 extrahiert. Das TD-Ambisonics-Audio kann eine Vielzahl von Komponenten einschließen, wobei jede Komponente einer einzigartigen Polarisationscharakteristik entspricht. Je nach Auflösung kann die Anzahl der Komponenten variieren. Die Komponenten können jeweils ein Audiosignal einschließen, das sich im Laufe der Zeit ändert. Das TD-Ambisonics-Audio 240 kann auch als Ambisonics-Audio oder herkömmliches Ambisonics bezeichnet werden. TD-Ambisonics kann nicht Zeit-Frequenz-Kacheln wie TF-Ambisonics-Audio 246 und 224 einschließen.
  • Ein Satz (oder mehrere Sätze) des Audiosignals jedes Objekts und Metadaten für jede TF-Kachel können rekonstruiert werden (z. B. bei den Blöcken 212 bzw. 214). Diese können verwendet werden, um das TD-Ambisonics-Audio 240 zu rekonstruieren. Das TD-Ambisonics-Audio 240 kann TD-Ambisonics-Audio 232 entsprechen. Bei Block 214 können Metadaten 236 rekonstruiert werden, die eine quantisierte Version der Objektmetadaten 204 sein können. In ähnlicher Weise kann bei Block 216 eine quantisierte Version des ursprünglichen Objektaudios 202, das markierte Objektaudio 226, unter Verwendung des TD-Ambisonics-Audio 240 und der Metadaten 236 extrahiert werden. Der Objektrenderer 218 kann eine Lautsprecher- oder Kopfhörerausgabe (z. B. Ausgabeaudiokanäle) basierend auf dem Objektaudio 226, Metadaten 236 und Kanalinformationen des gewünschten Ausgangslayouts 220 synthetisieren. Die resultierenden Ausgabeaudiokanäle können verwendet werden, um Lautsprecher 222 zu veranlassen, dem Ausgangskanallayout zu entsprechen.
  • In einigen Gesichtspunkten kann ein Verfahren mit verschiedenen beschriebenen Gesichtspunkten durchgeführt werden, wie in Bezug auf 2. Das Verfahren kann durch Verarbeitungslogik eines Codierers 244 oder eines Decodierers 242, einer anderen Audioverarbeitungsvorrichtung oder einer Kombination davon durchgeführt werden. Verarbeitungslogik kann Hardware (z. B. Schaltlogik, dedizierte Logik, programmierbare Logik, einen Prozessor, eine Verarbeitungsvorrichtung, eine zentrale Verarbeitungseinheit (CPU), ein System-on-Chip (SoC) usw.), Software (z. B. Anweisungen, die auf einer Verarbeitungsvorrichtung laufen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon einschließen.
  • Obwohl spezifische Funktionsblöcke („Blöcke“) in dem Verfahren beschrieben sind, sind solche Blöcke Beispiele. Das heißt, Gesichtspunkte sind gut dazu geeignet, verschiedene andere Blöcke oder Varianten der Blöcke, die in dem Verfahren angeben sind, durchzuführen. Es versteht sich, dass die Blöcke in dem Verfahren in einer Reihenfolge durchgeführt werden können, die anders als präsentiert ist, und dass möglicherweise nicht alle der Blöcke in dem Verfahren durchgeführt werden.
  • In einem Verfahren kann die Verarbeitungslogik einen oder mehrere Bitströme (z. B. 228 und 230) decodieren, um ein Ambisonics-Audio der Zeit-Frequenz-Domäne 224 und Metadaten 236 zu erhalten. Die Verarbeitungslogik kann Objektaudio 226 aus dem Ambisonics-Audio der Zeit-Frequenz-Domäne 224 unter Verwendung der Metadaten 236 extrahieren, die das Objektaudio 226 räumlich beschreiben. Extrahieren des Objektaudios 226 kann Umwandeln des Ambisonics-Audio der Zeit-Frequenz-Domäne 224 in Ambisonics-Audio der Zeitdomäne oder TD-Ambisonics-Audio 240 (z. B. am Decodierer 238) und Extrahieren des Objektaudios 226 aus dem TD-Ambisonics Audio 240 unter Verwendung der Metadaten 236 einschließen. Die Verarbeitungslogik kann das Objektaudio 226 mit den Metadaten 236 basierend auf einem gewünschten Ausgabelayout 220 rendern.
  • 3 veranschaulicht ein beispielhaftes System zum Codieren von Objektaudio in einer Ambisonics-Domäne unter Verwendung von Metadaten gemäß einigen Gesichtspunkten. Einige Gesichtspunkte können als ein Codierer 340 durchgeführt werden und andere Gesichtspunkte können als Decodierer 342 durchgeführt werden. Der Codierer 340 kann gemeinsame Merkmale mit anderen hierin beschriebenen Codierern teilen. In ähnlicher Weise kann der Decodierer 342 gemeinsame Merkmale mit anderen hierin beschriebenen Decodierern teilen.
  • In dem System 300 wird das Objektaudio 302 in Ambisonics (z. B. HOA) umgewandelt. Das System 300 codiert, decodiert und rendert das Objektaudio unter Verwendung von Objektmetadaten 304. HOA, das von dem Objektaudio umgewandelt wird, wird unter Verwendung der Objektmetadaten 304 codiert/decodiert/gerendert.
  • Am Codierer 340 werden ein oder mehrere Bitströme (z. B. 332 und 334) für HOA und eine Teilmenge der ursprünglichen Objektmetadaten erzeugt und an den Decodierer 342 übertragen. Am Decodierer 342 kann eine quantisierte Version von HOA rekonstruiert werden und eine quantisierte Version der Objektmetadaten kann rekonstruiert werden. Eine quantisierte Version der Objektaudiosignale kann unter Verwendung des rekonstruierten HOA und der rekonstruierten Metadaten extrahiert werden. Der Objektrenderer 318 kann die Audiokanäle 330 (Kopfhörerausgabe oder Lautsprecherausgabe) basierend auf den extrahierten Objektaudiosignalen, den rekonstruierten Metadaten und den Kanallayoutinformationen des gewünschten Ausgabelayouts 320 synthetisieren.
  • Insbesondere kann der Codierer 340 Objektaudio 302 und Objektmetadaten 304 erhalten, die das Objektaudio 302 räumlich beschreiben. Das Objektaudio 302 kann als ursprüngliches Objektaudio bezeichnet werden, und die Objektmetadaten 304 können als ursprüngliche Objektmetadaten bezeichnet werden.
  • Bei Block 306 kann der Codierer 340 das Objektaudio 302 basierend auf den Objektmetadaten 304 in Ambisonics-Audio (z. B. HOA) umwandeln. Die Objektmetadaten 304 können räumliche Informationen wie eine relative Richtung und einen Abstand zwischen dem Objekt und einem Zuhörer beschreiben. Bei Ambisonics-Wandlerblock 306 kann ein Audiosignal eines Objektaudios 302 an jede Ambisonics-Komponente übertragen werden, indem die akustische Energie des Audiosignals des Objekts, wie durch die Metadaten beschrieben, auf das eindeutige Muster jeder Komponente räumlich abgebildet wird. Dies kann für jedes Objekt des Objektaudios 302 durchgeführt werden, was zu Ambisonics-Audio 338 führt. Ambisonics-Audio 338 kann als Ambisonics-Audio der Zeitdomäne bezeichnet werden. Abhängig von der Verteilung von Audioobjekten in einer Audioszene können eine oder mehrere der Komponenten von TD-Ambisonics-Audio 338 Audiobeiträge von mehreren Objekten in Objektaudio 302 aufweisen. Somit kann der Codierer 340 die Metadaten 304 anwenden, um jedes Objekt des Objektaudios 302 auf jede Komponente des resultierenden Ambisonics-Audios 338 abzubilden. Dieser Prozess kann auch in anderen Beispielen durchgeführt werden, um Objektaudio in TD-Ambisonics-Audio umzuwandeln.
  • Bei Block 308 wird das Ambisonics-Audio 338 in einem ersten Bitstrom 332 als Ambisonics-Audio (z. B. TD-Ambisonics-Audio) codiert. Bei Block 310 wird eine Teilmenge 336 der Metadaten 304 in einem zweiten Bitstrom 334 codiert. Metadaten 304 oder ihre Teilmenge 336 oder beide können mindestens eines von einem Abstand oder einer Richtung einschließen, der bzw. die spezifisch einem Objekt des Objektaudios zugeordnet ist. Andere räumliche Informationen können ebenfalls eingeschlossen sein.
  • Die Teilmenge der Metadaten kann von einer nachgelagerten Vorrichtung (z. B. Decodierer 342) verwendet werden, um das Ambisonics-Audio in 332 zurück in das Objektaudio 302 (oder eine quantisierte Version des Objektaudios) umzuwandeln. In einigen Beispielen sind Bitströme 332 und 334 separate Bitströme. In anderen Beispielen können die Bitströme kombiniert werden (z. B. durch Multiplexen oder einen anderen Vorgang).
  • Ein Decodierer 342 kann einen oder mehrere Bitströme wie Bitstrom 332 und Bitstrom 334 erhalten. Bei Block 312 kann ein erster Bitstrom 332 decodiert werden, um Ambisonics-Audio 324 zu erhalten. Ambisonics-Audio 324 kann dem Ambisonics-Audio 338 entsprechen oder gleich diesem sein. In einigen Beispielen kann der Decodierer 342 den Bitstrom 332 decodieren, um eine quantisierte Version des Ambisonics-Audios 338 zu rekonstruieren.
  • Bei Block 314 kann der Decodierer 342 einen zweiten Bitstrom 334 decodieren, um Metadaten 326 zu erhalten. Diese Metadaten können der Metadatenteilmenge 336 entsprechen oder gleich wie diese sein. In einigen Gesichtspunkten wird eine quantisierte Version der Metadatenteilmenge 336 rekonstruiert.
  • Bei Block 316 wird das Objektaudio 328 unter Verwendung der das Objektaudio 328 räumlich beschreibenden Metadaten 326 aus dem Ambisonics-Audio 324 extrahiert. Extrahieren des Objektaudios 328 kann Extrahieren akustischer Energie von jeder Komponente des Ambisonics-Audios 324 gemäß den in den Metadaten 326 angegebenen Raumpositionen einschließen, um jedes Objekt zu rekonstruieren, das in den Metadaten 326 angegeben ist. Das Objektaudio 328 kann direkt aus dem Ambisonics-Audio 324 (z. B. TD-Ambisonics-Audio) unter Verwendung der Metadaten 326 extrahiert werden. Dieser Extraktionsprozess kann anderen Beispielen entsprechen. Das Objektaudio 328 kann eine quantisierte Version des Objektaudios 302 sein.
  • Bei dem Block, der als Objektrenderer 318 markiert ist, kann das Objektaudio 328 basierend auf einem gewünschten Ausgabelayout 320 mit den Metadaten gerendert werden. Das Objektaudio 328 kann einzelne Audiosignale für jedes Objekt einschließen, sowie Metadaten 326, die Abschnitte aufweisen können, die jedem entsprechenden der einzelnen Audiosignale zugeordnet oder für dieses spezifisch sind.
  • Die resultierenden Audiokanäle 330 können verwendet werden, um Lautsprecher 322 anzusteuern, um Schall auszugeben, der der ursprünglichen Audioszene, die durch das ursprüngliche Objektaudio 302 und die ursprünglichen Objektmetadaten 304 gekennzeichnet ist, angenähert ist oder mit ihr übereinstimmt.
  • In zahlreichen beschriebenen Beispielen können Codierdaten als ein Bitstrom das Durchführen eines oder mehrerer Codierungsalgorithmen einschließen, die die Daten gemäß einem definierten digitalen Format in den Bitstrom packen. In ähnlicher Weise kann Decodieren von Daten wie Ambisonics-Audio und Metadaten von einem Bitstrom Anwenden eines oder mehrerer Decodierungsalgorithmen einschließen, um die Daten gemäß dem definierten digitalen Format zu entpacken.
  • In einigen Gesichtspunkten kann ein Verfahren mit verschiedenen beschriebenen Gesichtspunkten durchgeführt werden, wie in Bezug auf 3. Das Verfahren kann durch Verarbeitungslogik eines Codierers 340 oder eines Decodierers 342, einer anderen Audioverarbeitungsvorrichtung oder einer Kombination davon durchgeführt werden. Verarbeitungslogik kann Hardware (z. B. Schaltlogik, dedizierte Logik, programmierbare Logik, einen Prozessor, eine Verarbeitungsvorrichtung, eine zentrale Verarbeitungseinheit (CPU), ein System-on-Chip (SoC) usw.), Software (z. B. Anweisungen, die auf einer Verarbeitungsvorrichtung laufen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon einschließen.
  • Obwohl spezifische Funktionsblöcke („Blöcke“) in dem Verfahren beschrieben sind, sind solche Blöcke Beispiele. Das heißt, Gesichtspunkte sind gut dazu geeignet, verschiedene andere Blöcke oder Varianten der Blöcke, die in dem Verfahren angeben sind, durchzuführen. Es versteht sich, dass die Blöcke in dem Verfahren in einer Reihenfolge durchgeführt werden können, die anders als präsentiert ist, und dass möglicherweise nicht alle der Blöcke in dem Verfahren durchgeführt werden.
  • In einem Verfahren kann die Verarbeitungslogik Objektaudio 302 und Metadaten 304 erhalten, die das Objektaudio 302 räumlich beschreiben. Die Verarbeitungslogik kann das Objektaudio 302 basierend auf den Metadaten 304 in Ambisonics-Audio 338 umwandeln. Die Verarbeitungslogik kann in einem ersten Bitstrom 332 das Ambisonics-Audio 338 codieren. Die Verarbeitungslogik kann in einem zweiten Bitstrom 334 die Metadaten 304 oder ihre Teilmenge 336 codieren.
  • In einem anderen Verfahren kann die Verarbeitungslogik einen ersten Bitstrom 332 decodieren, um Ambisonics-Audio 324 zu erhalten. Die Verarbeitungslogik kann einen zweiten Bitstrom 334 decodieren, um Metadaten 326 zu erhalten. Die Verarbeitungslogik kann unter Verwendung der Metadaten 326, die das Objektaudio 324 räumlich beschreiben, ein Objektaudio 328 aus dem Ambisonics-Audio 324 extrahieren. Die Verarbeitungslogik kann das Objektaudio 328 mit den Metadaten 326 basierend auf einem gewünschten Ausgabelayout 320 rendern.
  • In einigen Beispielen können Objekte mit einer höheren Priorität als ein erstes Ambisonics-Audio codiert werden. Objekte ohne die höhere Priorität können als ein zweites Ambisonics-Audio mit niedrigerer Ordnung als das erste Ambisonics-Audio codiert werden. Das erste Ambisonics-Audio kann mit dem Bitstrom 332 codiert werden, und das zweite Ambisonics-Audio kann mit einem dritten Bitstrom (nicht gezeigt) codiert werden. Die prioritätsbasierte Codierung wird weiter in Bezug auf 4 beschrieben.
  • 4 veranschaulicht ein beispielhaftes System 400 zum Codieren von Objektaudio in einer Ambisonics-Domäne basierend auf Priorität gemäß einigen Gesichtspunkten. Einige Gesichtspunkte können als ein Codierer 456 durchgeführt werden und andere Gesichtspunkte können als Decodierer 458 durchgeführt werden. Der Codierer 456 kann gemeinsame Merkmale mit anderen hierin beschriebenen Codierern teilen. In ähnlicher Weise kann der Decodierer 458 gemeinsame Merkmale mit anderen hierin beschriebenen Decodierern teilen.
  • Das System 400 kann eine gemischte Domäne der Objektcodierung einschließen. Das Objektaudio kann Objekte mit unterschiedlicher Priorität aufweisen. Objekte mit einer ersten Prioritätsstufe (z. B. einer höheren Priorität) können als TF-Ambisonics-Audio umgewandelt, codiert und decodiert werden. Objekte mit einer zweiten Prioritätsstufe (z. B. einer niedrigeren Priorität) können als TD-Ambisonics (z. B. HOA) umgewandelt, codiert und decodiert werden. Unabhängig von der Prioritätsstufe können die Objekte an dem Decodierer rekonstruiert und summiert werden, um endgültige Lautsprecher- oder Kopfhörer-Ausgabesignale zu erzeugen. Objekte mit niedrigerer Priorität können in eine HOA mit niedriger Auflösung umgewandelt werden (z. B. mit niedrigerer Ordnung, z. B. bis zu Ambisonics der ersten Ordnung). Objekte höherer Priorität können eine HOA mit niedriger Auflösung aufweisen (z. B. Ambisonics 6. Ordnung).
  • Bei Codierer 456 kann das Objektaudio 402 erhalten werden. Das Objektaudio 402 kann einer ersten Priorität (z. B. P1) zugeordnet sein. In einigen Beispielen kann das Objektaudio 402 auf der Basis von Metadaten 436, die das Objektaudio räumlich beschreiben. in TF-Ambisonics-Audio 460 umgewandelt werden Zum Beispiel kann bei Block 406 das Objektaudio 402 in TD-Ambisonics-Audio 438 umgewandelt werden, und dann kann bei Block 408 das TD-Ambisonics-Audio in TF-Ambisonics-Audio 460 umgewandelt werden.
  • Bei Block 444 kann das zweite Objektaudio 440 in das TD-Ambisonics-Audio 448 umgewandelt werden. Der zweite Objektaudio 440 kann einer zweiten Priorität zugeordnet sein, die sich von der ersten Priorität unterscheidet. Zum Beispiel kann die erste Priorität des Objektaudios 402 eine höhere Priorität als die zweite Priorität des Objektaudios 440 aufweisen. Die Priorität kann durch einen Wert (z. B. eine Nummer) oder spezifizierten Typen gekennzeichnet sein.
  • Das Objektaudio 402 und das Objektaudio 440 können Teil desselben Objektaudios sein (z. B. von derselben Audioszene). In einigen Beispielen kann eine Audioszene eine Priorität für jedes Objekt angeben, wie während des Authorings der Audioszene bestimmt wird. Ein Audio-Authoring-Tool kann die Priorität oder einen Typ des Objekts in die Metadaten einbetten. Ein Decodierer kann die Priorität jedes Objekts in den entsprechenden Metadaten jedes Objekts erhalten oder die Priorität von dem Typ ableiten, der dem Objekt zugeordnet ist.
  • Bei Block 408 kann das TF-Ambisonics-Audio 460 als ein erster Bitstrom 432 codiert werden. In anderen Beispielen kann der Codierer 456 anstelle der Umwandlung in TF Ambisonics-Audio das TD-Ambisonics-Audio 438 als den ersten Bitstrom 432 codieren. Bei Block 410 können die Metadaten 436, die dem ersten Objektaudio 402 zugeordnet sind, als ein zweiter Bitstrom 434 codiert werden. Bei Block 446 kann das TD-Ambisonics-Audio 448 als ein dritter Bitstrom 462 codiert werden. In einigen Beispielen werden als Reaktion darauf, dass die Priorität des Objektaudios 440 und seine entsprechenden Metadaten 442 einen Schwellenwert nicht erfüllen (z. B. eine niedrige Priorität angeben), die Objektmetadaten 442 nicht codiert oder an den Decodierer 458 übertragen.
  • In einigen Beispielen kann der Codierer 456 eine Priorität jedes Objekts im Objektaudio bestimmen. Wenn die Priorität einen Schwellenwert erfüllt (z. B. eine hohe Priorität angibt), kann das Objekt als ein erstes TF-Ambisonics-Audio oder ein erstes TD-Ambisonics-Audio codiert werden. Wenn die Priorität einen Schwellenwert nicht erfüllt, kann das Objekt als ein zweites TD-Ambisonics-Audio oder ein zweites TD-Ambisonics-Audio mit einer niedrigeren Ordnung als das erste TF-Ambisonics-Audio oder das erste TD-Ambisonics-Audio oder beides codiert werden. Auf diese Weise können Objekte mit niedrigerer Priorität mit geringerer räumlicher Auflösung codiert werden. Objekte mit höherer Priorität können als TF-Ambisonics-Audio oder TD-Ambisonics-Audio mit einer höheren Ordnung und höheren Auflösung codiert werden.
  • Bei Block 412 kann der Decodierer 458 einen ersten Bitstrom 432 decodieren, um TF-Ambisonics-Audio 460 (oder TD-Ambisonics-Audio 438) zu erhalten. Bei Block 414 wird ein zweiter Bitstrom 434 decodiert, um Metadaten 426 zu erhalten. Metadaten 426 können Metadaten 436 entsprechen. Metadaten 426 können die gleichen wie Metadaten 436 oder eine quantisierte Version von Metadaten 426 sein.
  • Bei Block 450 wird ein dritter Bitstrom 462 decodiert, um TD-Ambisonics-Audio 464 zu erhalten. TD-Ambisonics-Audio 464 kann dem TD-Ambisonics-Audio 448 entsprechen oder gleich diesem sein.
  • Bei Block 416 wird das Objektaudio 428 von dem Audio 424 umgewandelt, das TF-Ambisonics-Audio oder TD-Ambisonics-Audio sein kann. Der Decodierer 458 kann die Metadaten 426 verwenden, die das Objektaudio räumlich beschreiben, um das Objektaudio 428 zu extrahieren, wie in anderen Abschnitten beschrieben.
  • Der Decodierer 458 kann eine Vielzahl von Ausgangsaudiokanälen 468 basierend auf dem Objektaudio 428 und dem TD-Ambisonics-Audio 464 erzeugen. Das Erzeugen der Vielzahl von Ausgangsaudiokanälen 468 kann das Rendern des Objektaudios 428 am Objektrenderer-Block 418 und das Rendern des TF-Ambisonics-Audios 464 am TD Ambisonics-Renderer 454 einschließen. Das gerenderte Objektaudio 430 und das gerenderte Ambisonics-Audio 466 können bei Block 452 in jeweilige Ausgangsaudiokanäle 468 kombiniert (z. B. summiert) werden, um die Vielzahl von Audiokanälen 468 zu erzeugen. Das Objektaudio 430 und das TF-Ambisonics-Audio 466 können basierend auf einem gemeinsamen gewünschten Ausgabelayout 420 gerendert werden.
  • Die Ausgangsaudiokanäle 468 können verwendet werden, um Lautsprecher 422 anzusteuern. Die Lautsprecher 422 können integraler Bestandteil des Decodierers 458 sein. In anderen Beispielen können die Lautsprecher 422 integraler Bestandteil von einer oder mehreren entfernten Wiedergabevorrichtung sein. Zum Beispiel kann jeder der Lautsprecher 422 ein unabhängiger Lautsprecher sein. In einem anderen Beispiel kann jeder der Lautsprecher 422 ein integraler Bestandteil einer gemeinsamen Wiedergabevorrichtung, wie eines Lautsprecher-Arrays, einer Kopfhörereinrichtung oder einer anderen Wiedergabevorrichtung, sein.
  • In einigen Gesichtspunkten kann ein Verfahren mit verschiedenen beschriebenen Gesichtspunkten durchgeführt werden, wie in Bezug auf 4. Das Verfahren kann durch Verarbeitungslogik eines Codierers 456 oder eines Decodierers 458, einer anderen Audioverarbeitungsvorrichtung oder einer Kombination davon durchgeführt werden. Verarbeitungslogik kann Hardware (z. B. Schaltlogik, dedizierte Logik, programmierbare Logik, einen Prozessor, eine Verarbeitungsvorrichtung, eine zentrale Verarbeitungseinheit (CPU), ein System-on-Chip (SoC) usw.), Software (z. B. Anweisungen, die auf einer Verarbeitungsvorrichtung laufen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon einschließen.
  • Obwohl spezifische Funktionsblöcke („Blöcke“) in dem Verfahren beschrieben sind, sind solche Blöcke Beispiele. Das heißt, Gesichtspunkte sind gut dazu geeignet, verschiedene andere Blöcke oder Varianten der Blöcke, die in dem Verfahren angeben sind, durchzuführen. Es versteht sich, dass die Blöcke in dem Verfahren in einer Reihenfolge durchgeführt werden können, die anders als präsentiert ist, und dass möglicherweise nicht alle der Blöcke in dem Verfahren durchgeführt werden.
  • In einem Verfahren kann die Verarbeitungslogik das Objektaudio 402 basierend auf Metadaten 436, die das Objektaudio 402 räumlich beschreiben, in TF-Domänen-Ambisonics-Audio 460 umwandeln, wobei das Objektaudio 402 einer ersten Priorität zugeordnet ist. Die Verarbeitungslogik kann das zweite Objektaudio 440 in TD-Ambisonics-Audio 448 umwandeln, wobei das zweite Objektaudio einer zweiten Priorität zugeordnet ist, die sich von der ersten Priorität unterscheidet.
  • Die Verarbeitungslogik kann das TF-Ambisonics-Audio 460 als einen ersten Bitstrom 432 codieren. Alternativ kann die Verarbeitungslogik TD-Ambisonics-Audio 438 (von dem Objektaudio 402 umgewandelt) als den ersten Bitstrom 432 codieren. Die Verarbeitungslogik codiert die Metadaten 404 als einen zweiten Bitstrom 434. Die Verarbeitungslogik kann das TD-Ambisonics-Audio 448 (von dem Objektaudio 440 codiert) als einen dritten Bitstrom 462 codieren. Die erste Priorität kann höher als die zweite Priorität sein.
  • In einem anderen Verfahren kann die Verarbeitungslogik einen ersten Bitstrom 432 decodieren, um TF-Ambisonics-Audio zu erhalten, das TF-Ambisonics-Audio 460 entsprechen kann. Alternativ kann die Verarbeitungslogik den ersten Bitstrom 432 decodieren, um TD-Ambisonics-Audio zu erhalten, das TD-Ambisonics-Audio 438 entsprechen kann. Dies kann davon abhängen, ob der Codierer 456 den ersten Bitstrom 432 als TF-Ambisonics-Audio oder TD-Ambisonics-Audio codiert hat. Das resultierende decodierte Audio 424 kann dem Objektaudio 402 entsprechen, das einer ersten Priorität zugeordnet sein kann. Die Verarbeitungslogik kann einen zweiten Bitstrom 434 decodieren, um Metadaten 426 zu erhalten. Metadaten 426 können Objektmetadaten 436 entsprechen, die dem Objektaudio 402 zugeordnet sein können. Die Verarbeitungslogik kann einen dritten Bitstrom 462 decodieren, um TD-Ambisonics-Audio 464 zu erhalten. TD-Ambisonics-Audio 464 kann dem Objektaudio 440 entsprechen, das einer zweiten Priorität zugeordnet sein kann, die sich von der ersten Priorität unterscheiden kann. Die Verarbeitungslogik kann Objektaudio 428 von Audio 424 extrahieren, das TFA-Ambisonics-Audio oder TD-Ambisonics-Audio sein kann, unter Verwendung der Metadaten 426, die das Objektaudio 428 räumlich beschreiben. Die Verarbeitungslogik kann eine Vielzahl von Ausgangsaudiokanälen 468 basierend auf dem Objektaudio 428 (das der ersten Priorität zugeordnet ist) und dem TD-Ambisonics-Audio 464 (das der zweiten Priorität zugeordnet ist) erzeugen.
  • In einigen Gesichtspunkten können mehrere Prioritätsebenen unterstützt werden. Zum Beispiel können Objekte mit Priorität 1 (der niedrigsten Priorität) als ein erstes Ambisonics-Audio codiert werden. Objekte mit Priorität 3 (einer höhere Priorität) können mit einem zweiten Ambisonics-Audio mit höherer Ordnung als das erste Ambisonics-Audio codiert werden. Objekte mit Priorität 5 (höher als Priorität 1 und 3) können als ein drittes Ambisonics-Audio mit höherer Ordnung als das erste Ambisonics-Audio und das zweite Ambisonics-Audio codiert werden und so weiter.
  • 5 zeigt ein Beispiel von Ambisonics-Audio der Zeit-Frequenz-Domäne gemäß einigen Gesichtspunkten. Das TF Ambisonics-Audio kann verschiedenen der beschriebenen Beispiele entsprechen. Das Ambisonics-Audio der Zeit-Frequenz-Domäne (TF-Domäne) kann die Zeit-Frequenz-Kachelung herkömmlichen Ambisonics-Audios einschließen, die als Zeitdomänen-Ambisonics-Audio bezeichnet werden können. Das Ambisonics-Audio der Zeit-Frequenz-Domäne kann dem Objektaudio 512 entsprechen oder dieses kennzeichnen.
  • Das Objektaudio 512 kann eine Vielzahl von Rahmen wie Rahmen 508, Rahmen 510 und so weiter einschließen. Jeder Rahmen kann einen zeitlich variierenden Block jedes Audiosignals jedes Objekts und Metadaten jedes Objekts einschließen. Zum Beispiel kann eine Sekunde Audio in ,X' Rahmen geteilt werden. Das Audiosignal jedes Objekts sowie die Metadaten für jedes Objekt können sich im Laufe der Zeit ändern (z. B. von einem Rahmen zu einem anderen).
  • Traditionell schließt Ambisonics-Audio wie HOA eine Vielzahl von Komponenten ein, wobei jede dieser Komponenten eine einzigartige Polarisationscharakteristik und Richtung eines Mikrofons darstellen kann. Die Anzahl der Komponenten nimmt zu, wenn die Ordnung des Ambisonics-Audioformats zunimmt. Je höher also die Ordnung, desto höher ist die räumliche Auflösung des Ambisonics-Audios. Beispielsweise weist B-Format-Ambisonics (mit bis zu einer dritten Ordnung) 16 Komponenten auf, die jeweils eine Polarisationscharakteristik und eine Richtung aufweisen, die einzigartig ist. Das Audiosignal jeder Komponente kann im Laufe der Zeit variieren. Als solches kann das herkömmliche Ambisonics-Audioformat als in der Zeitdomäne vorliegend oder Ambisonics-Audio der Zeitdomäne (TD) bezeichnet werden.
  • Wie in zahlreichen Beispielen beschrieben, kann herkömmliches Ambisonics-Audio in Zeit-Frequenz-Ambisonics-Audio umgewandelt werden, das Metadaten des Objektaudios unter Verwendung der Zeit-Frequenz-Analyse einschließen. Eine Zeit-Frequenz-Darstellung kennzeichnet ein Zeitdomänensignal im Verlauf der Zeit und der Frequenz. Jede Kachel kann ein Teilband oder einen Frequenzbereich darstellen. Die Verarbeitungslogik kann TF-Ambisonics-Audio erzeugen, indem sie das Objektaudio 512 unter Verwendung von Objektmetadaten (z. B. Metadaten 516, 520) in TD-Ambisonics umwandelt. Die Verarbeitungslogik kann eine Kachelfrequenzanalyse durchführen, um die Komponenten des TD-Ambisonics-Audios in Kacheln zu unterteilen und die räumlichen Informationen der Metadaten in jeder Kachel einzubetten, je nachdem, welche Objekte zu dieser Kachel beitragen. Das TFA-Ambisonics-Audio kann zurück zu Objektaudio umgewandelt werden, indem dieselben räumlichen Informationen oder eine Teilmenge der räumlichen Informationen verwendet werden bzw. wird, um den umgekehrten Vorgang durchzuführen.
  • TF-Ambisonics-Audio kann eine Vielzahl von Zeit-Frequenz-Kacheln wie 502a, 502b, 502c, 502d, 502e, 502f, 502g und so weiter einschließen. Jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln kann Audio in einem Teilband einer Ambisonics-Komponente darstellen. Die TF-Kachel 502a kann Audio in einem Teilband, das von Frequenz A bis Frequenz B in der Komponente A reicht, darstellen. Das Audio in Kachel 502a kann einen Beitrag von Audio von jedem der Objekte 514 darstellen, wie räumlich von der Polarisationscharakteristik und der Richtung der Komponente A in diesem Teilband (von Frequenz A bis Frequenz B) aufgenommen. Jede Kachel kann Beiträge von verschiedenen Kombinationen von Objekten aufweisen, je nachdem, wie die Objekte räumlich in dem Klangfeld relativ zur Komponente verteilt sind, und je nach akustischer Energie des Objekts.
  • Zum Beispiel kann die Kachel 502b Beiträge von einem oder mehreren von Objekten 514 einschließen. Die Fliese 502e kann einen Beitrag von einem bestimmten Satz von Objekten 514 aufweisen. Einige Kacheln haben möglicherweise keinen Beitrag von Objekten. In diesem Beispiel können die Kacheln 502a-502e in Komponente A unterschiedliche Frequenzbereiche aufweisen. Jede Komponente wie Komponente A, Komponente B und so weiter kann ihren eigenen Satz von Kacheln aufweisen. Zum Beispiel können Kachel 502f und Kachel 502e dasselbe Frequenzband abdecken, aber für unterschiedliche Komponenten.
  • Ferner kann jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln einen Abschnitt der Metadaten einschließen, der einen entsprechenden Abschnitt des Objektaudios in der Kachel räumlich beschreibt. Wenn zum Beispiel Kachel 502f Beiträge von einem oder mehreren von Objekten 514 (z. B. einen zwitschernden Vogel) einschließt, können Metadaten 516, die dem zwitschernden Vogel entsprechen, in Kachel 502f mit dem Audiobeitrag des zwitschernden Vogels eingeschlossen sein. Die Metadaten können das Objekt (z. B. mit einer Objekt-ID) identifizieren und/oder räumliche Informationen des Vogels bereitstellen. Dies kann das Abbilden von TF-Ambisonics-Audio zurück auf das Objektaudio verbessern.
  • Ferner kann das TD-Ambisonics-Audio einen Satz der Vielzahl von Zeit-Frequenz-Kacheln einschließen, der einem Audiorahmen des Objektaudios entspricht. Der Satz von Kacheln kann jedes der Teilbänder und jede der Komponenten des TF-Ambisonics-Audio abdecken. Zum Beispiel kann ein Satz 504 von Zeit-Frequenz-Kacheln eine Kachel für jedes Teilband für jede Komponente einschließen. Der Satz kann einem Abschnitt oder einem Rahmen von Objektaudio 512 entsprechen oder ihn charakterisieren, wie Rahmen 508. Ein weiterer Satz 506 von Zeit-Frequenz-Kacheln kann einem nachfolgenden Abschnitt des Objektaudios 512 entsprechen oder ihn charakterisieren (z. B. am nächsten Rahmen 510). Der Satz 506 kann Kacheln aufweisen, die jeweils jedes der gleichen Teilbänder und Komponenten wie vorherige Sätze abdecken. Zum Beispiel kann Kachel 502g dasselbe Teilband und dieselbe Komponente wie Kachel 502a in dem Satz 504 abdecken. Somit kann jeder Satz eine zeitliche Dimension darstellen, und jede Kachel in einem Satz kann eine andere Komponente oder ein anderes Teilband darstellen.
  • Zum Beispiel können in dem Satz 504 das Objekt x und das Objekt y zu Audio in Teilband 1, Komponente A, beitragen. In Kachel 502a kann Objektaudio von Objekt x und Objekt y in dem Audiosignal von 502a dargestellt sein, zusammen mit Metadaten 516, die Objekt x und Objekt y identifizieren und räumlich beschreiben. In dem (Kachel-) Satz 506 kann Kachel 502g auch Teilband 1, Komponente A darstellen, aber eine andere Zeit des Objektaudios 512 kennzeichnen.
  • Ferner können sich die Objektbeiträge in jeder Kachel aufgrund von Änderungen des Audiosignals des Objekts im Laufe der Zeit oder der Position jedes Objekts oder beidem von einem Satz zu einem anderen ändern. Wenn zum Beispiel Objekt y leiser würde oder sich vom Rahmen 508 zu Rahmen 510 bewegen wurde, dann enthält Kachel 502g möglicherweise Objekt x, aber nicht Objekt y oder weniger von Objekt y. Metadaten 516, 520 können sich von Rahmen zu Rahmen ändern, um die Veränderung der räumlichen Informationen jedes Objekts im Laufe der Zeit darzustellen. In ähnlicher Weise können das Objekt 514 und das Objekt 518 von Rahmen zu Rahmen ändern, um die Veränderung eines Audiosignals eines Objekts im Laufe der Zeit darzustellen.
  • 6 veranschaulicht ein Beispiel eines Audioverarbeitungssystems 600 gemäß einigen Gesichtspunkten. Das Audioverarbeitungssystem kann als Codierer und/oder Decodierer fungieren, wie in den zahlreichen Beispielen beschrieben. Das Audioverarbeitungssystem kann eine elektronische Vorrichtung sein, wie zum Beispiel ein Desktopcomputer, ein Tabletcomputer, ein Smartphone, ein Computerlaptop, ein intelligenter Lautsprecher, ein Medienwiedergabegerät, ein Haushaltsgerät, eine Kopfhörerset, eine am Kopf montierte Anzeige (HMD), eine intelligente Brille, ein Infotainmentsystem für ein Automobil oder ein anderes Fahrzeug oder eine andere Rechenvorrichtung. Das System kann dazu konfiguriert sein, das Verfahren und die Prozesse, die in der vorliegenden Offenbarung beschrieben sind, durchzuführen.
  • Obwohl verschiedene Komponenten eines Audioverarbeitungssystems gezeigt sind, die in Kopfhörer, Lautsprechersysteme, Mikrofonarrays und Unterhaltungssysteme integriert sein können, ist diese Veranschaulichung lediglich ein Beispiel einer bestimmten Implementierung der Arten von Komponenten, die in dem Audioverarbeitungssystem vorliegen können. Es ist nicht beabsichtigt, dass dieses Beispiel eine bestimmte Architektur oder Art und Weise eines Miteinanderverbindens der Komponenten darstellen, da solche Details für die Gesichtspunkte hierin nicht relevant sind. Es versteht sich auch, dass andere Arten von Audioverarbeitungssystemen, die weniger oder mehr Komponenten als gezeigt aufweisen, auch verwendet werden können. Demgemäß sind die hierin beschriebenen Prozesse nicht auf eine Verwendung mit der gezeigten Hardware und Software beschränkt.
  • Das Audioverarbeitungssystem kann einen oder mehrere Busse 616 einschließen, die dazu dienen, die verschiedenen Komponenten des Systems miteinander zu verbinden. Ein oder mehrere Prozessoren 602 sind an den Bus gekoppelt, wie aus dem Stand der Technik bekannt ist. Der/die Prozessor(en) kann/können Mikroprozessoren oder Spezialprozessoren, ein System-on-Chip (SOC), eine Zentraleinheit, eine Grafikverarbeitungseinheit, ein Prozessor, der durch eine anwendungsspezifische integrierte Schaltung (ASIC) erzeugt wird, oder Kombinationen davon sein. Der Speicher 608 kann einen Festwertspeicher (ROM), einen flüchtigen Speicher und einen nichtflüchtigen Speicher oder Kombinationen davon einschließen, die unter Verwendung von Techniken, die aus dem Stand der Technik bekannt sind, an den Bus gekoppelt sind. Die Sensoren 614 können eine IMU und/oder eine oder mehrere Kameras (z. B. eine RGB-Kamera, eine RGBD-Kamera, Tiefenkamera usw.) oder andere hierin beschriebene Sensoren einschließen. Das Audioverarbeitungssystem kann ferner eine Anzeige 612 (z. B. eine HMD oder eine Touchscreenanzeige) einschließen.
  • Der Speicher 608 kann mit dem Bus verbunden sein und kann einen DRAM, ein Festplattenlaufwerk oder einen Flash-Speicher oder ein magnetisches optisches Laufwerk oder einen magnetischen Speicher oder ein optisches Laufwerk oder andere Arten von Speichersystemen einschließen, die Daten beibehalten, auch nachdem die Stromversorgung des Systems entfernt wurde. In einem Gesichtspunkt ruft der Prozessor 602 Computerprogrammanweisungen ab, die in einem maschinenlesbaren Speichermedium (Speicher) gespeichert sind, und führt jene Anweisungen aus, um hierin beschriebene Vorgänge eines Codierers oder Decodierers durchzuführen.
  • Audiohardware, obwohl nicht gezeigt, kann an den einen oder die mehreren Busse gekoppelt sein, um Audiosignale zu empfangen, die von Lautsprechern 606 zu verarbeiten und auszugeben sind. Audiohardware kann Digital-Analog- und/oder Analog-DigitalWandler einschließen. Audiohardware kann außerdem Audioverstärker und Filter einschließen. Die Audiohardware kann auch eine Schnittstelle mit Mikrofonen 604 (z. B. Mikrofonanordnungen) bilden, um Audiosignale (egal, ob analog oder digital) zu empfangen, sie gegebenenfalls zu digitalisieren und die Signale dem Bus zu kommunizieren.
  • Das Kommunikationsmodul 610 kann mit entfernten Vorrichtungen und Netzwerken über eine drahtgebundene oder drahtlose Schnittstelle kommunizieren. Zum Beispiel kann ein Kommunikationsmodul über bekannte Technologien, wie TCP/IP, Ethernet, WLAN, 3G, 4G, 5G, Bluetooth, ZigBee oder andere äquivalente Technologien, kommunizieren. Das Kommunikationsmodul kann drahtgebundene oder drahtlose Sender und Empfänger einschließen, die mit vernetzten Vorrichtungen, wie Servern (z. B. der Cloud), und/oder anderen Vorrichtungen, wie entfernten Lautsprechern und entfernten Mikrofonen, kommunizieren (z. B. Daten empfangen und senden) können.
  • Es versteht sich, dass die hierin offenbarten Gesichtspunkte einen Speicher nutzen können, der vom System entfernt ist, wie eine Netzwerkspeichervorrichtung, die über eine Netzwerkschnittstelle, wie eine Modem- oder Ethernet-Schnittstelle, mit dem Audioverarbeitungssystem gekoppelt ist. Die Busse können miteinander über verschiedene Brücken, Steuerungen und/oder Adapter verbunden sein, wie aus dem Stand der Technik gut bekannt ist. In einem Gesichtspunkt kann/können eine oder mehrere Netzwerkvorrichtung(en) an den Bus gekoppelt sein. Die Netzvorrichtung(en) kann/können drahtgebundene Netzwerkvorrichtungen (z. B. Ethernet) oder drahtlose Netzwerkvorrichtungen (z. B. Wi-Fi, Bluetooth) sein. Unter einigen Gesichtspunkten können verschiedene beschriebene Gesichtspunkte (z. B. Simulation, Analyse, Schätzung, Modellierung, Objekterkennung usw.) von einem vernetzten Server in Kommunikation mit der Erfassungsvorrichtung durchgeführt werden.
  • Verschiedene hierin beschriebene Gesichtspunkte können mindestens teilweise in Software ausgeführt sein. Das heißt, die Techniken können in einem Audioverarbeitungssystem als Reaktion darauf ausgeführt werden, dass sein Prozessor eine Sequenz von Anweisungen ausführt, die in einem Speichermedium, wie einem nichttransitorischen maschinenlesbaren Speichermedium (z. B. DRAM oder Flash-Speicher), enthalten sind. Unter verschiedenen Gesichtspunkten kann die festverdrahtete Schaltung in Kombination mit Softwareanweisungen verwendet werden, um die hierin beschriebenen Techniken zu implementieren. Somit sind die Techniken nicht auf spezifische Kombination von Hardwareschaltlogik und Software oder auf eine bestimmte Quelle für die Anweisungen, die durch das Audioverarbeitungssystem ausgeführt werden, beschränkt.
  • In der Beschreibung wird bestimmte Terminologie verwendet, um Merkmale verschiedener Gesichtspunkte zu beschreiben. Zum Beispiel können in bestimmten Situationen die Begriffe „Decodierer“, „Codierer“, „Wandler“, „Renderer“, „Extraktion“, „Kombinator“, „Einheit“, „System“, „Vorrichtung“, „Filter“, „Block“, „Komponente“ für Hardware und/oder Software repräsentativ sein, die konfiguriert ist, um einen oder mehrere Prozesse oder Funktionen durchzuführen. Zum Beispiel schließen Beispiele für „Hardware“ eine integrierte Schaltung, wie einen Prozessor (z. B. einen digitalen Signalprozessor, einen Mikroprozessor, eine anwendungsspezifische integrierte Schaltung, eine Mikrosteuerung usw.) ein, sind aber nicht darauf beschränkt oder begrenzt. Somit können unterschiedliche Kombinationen von Hardware und/oder Software implementiert werden, um die Prozesse oder Funktionen, die durch die obigen Begriffe beschrieben sind, durchzuführen, wie sie von einem Fachmann verstanden werden. Selbstverständlich kann die Hardware alternativ als endlicher Automat oder sogar kombinatorische Logik implementiert sein. Ein Beispiel für „Software“ schließt ausführbaren Code in Form einer Anwendung, eines Applets, einer Routine oder sogar einer Reihe von Anweisungen ein. Wie oben erwähnt, kann die Software auf jeder Art von maschinenlesbarem Medium gespeichert sein.
  • Einige Abschnitte der vorhergehenden detaillierten Beschreibungen wurden in Form von Algorithmen und symbolischen Darstellungen von Vorgängen an Datenbits innerhalb eines Computerspeichers dargestellt. Diese algorithmischen Beschreibungen und Darstellungen stellen die Wege dar, die von Fachleuten auf dem Gebiet der Audioverarbeitung verwendet werden, um anderen Fachleuten die Substanz ihrer Arbeit am effektivsten zu vermitteln. Ein Algorithmus wird hier als eine selbstständige Folge von Vorgängen betrachtet, die zu einem gewünschten Ergebnis führen. Bei den Vorgängen handelt es sich um diejenigen, die physische Bearbeitungen physischer Quantitäten erfordern. Es ist jedoch zu beachten, dass alle diese und ähnliche Begriffen den entsprechenden physischen Quantitäten zuzuordnen sind und lediglich praktische, auf diese Quantitäten angewandte Kennzeichnungen darstellen. Sofern nicht speziell anders angegeben als anhand der vorstehenden Erörterung ersichtlich, ist zu ersehen, dass sich innerhalb der Beschreibung Erörterungen, die Begriffe, wie die in den nachstehenden Ansprüchen dargelegten nutzen, auf die Aktion und Prozesse eines Audioverarbeitungssystems oder einer ähnlichen elektronischen Vorrichtung beziehen, das/die Daten, die als physische (elektronische) Quantitäten innerhalb der Register und Speicher des Systems dargestellt werden, bearbeitet und in andere Daten umwandelt, die gleichermaßen als physische Quantitäten innerhalb der Systemspeicher oder -register oder anderen solchen Informationsspeicher-, -übertragungs- oder -anzeigevorrichtungen dargestellt werden.
  • Die hierin beschriebenen Prozesse und Blöcke sind nicht auf die beschriebenen spezifischen Beispiele beschränkt und sind nicht auf die spezifischen Reihenfolgen beschränkt, die als Beispiele hierin verwendet werden. Vielmehr kann jeder der Verarbeitungsblöcke neu geordnet, kombiniert oder entfernt werden, parallel oder seriell durchgeführt werden, wie es erwünscht ist, um die oben dargelegten Ergebnisse zu erzielen. Die Verarbeitungsblöcke, die mit dem Implementieren des Audioverarbeitungssystems verbunden sind, können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, die auf einem nichttransitorischen computerlesbaren Speichermedium gespeichert sind, um die Funktionen des Systems durchzuführen. Das gesamte Audioverarbeitungssystem oder ein Teil davon kann als Speziallogikschaltlogik (z. B. ein FPGA (Field-Programmable Gate Array) und/oder ein ASIC (Application-Specific Integrated Circuit)) implementiert sein. Das gesamte Audiosystem oder ein Teil davon kann unter Verwendung einer elektronischen Hardwareschaltlogik implementiert werden, die elektronische Vorrichtungen, wie mindestens eines von einem Prozessor, einem Speicher, einer programmierbaren Logikvorrichtung oder einem Logikgatter, einschließt. Ferner können Prozesse in jeder Kombination von Hardwarevorrichtungen und Softwarekomponenten implementiert werden.
  • Gemäß manchen Gesichtspunkten kann dieser Offenbarung zum Beispiel die Sprache „mindestens eines von [Element A] und [Element B]“ einschließen. Diese Sprache kann sich auf eines oder mehrere der Elemente beziehen. Zum Beispiel kann sich „mindestens eines von A und B“ auf „A“, „B“ oder „A und B“ beziehen. Speziell kann sich „mindestens eines von A und B“ auf „mindestens eines von A und mindestens eines von B“ oder „mindestens von entweder A oder B“ beziehen. Gemäß manchen Gesichtspunkten kann diese Offenbarung zum Beispiel die Sprache „[Element A], [Element B] und/oder [Element C]“ einschließen. Diese Sprache kann sich auf eines der Elemente oder jede Kombination davon beziehen. Zum Beispiel kann sich „A, B und/oder C“ auf „A“, „B“, „C“, „A und B“, „A und C, „B und C“ oder „A, B und C“ beziehen.
  • Auch wenn bestimmte Gesichtspunkte beschrieben und in den begleitenden Zeichnungen gezeigt worden sind, versteht es sich, dass solche Gesichtspunkte lediglich veranschaulichend und nicht begrenzend sind, und dass die Offenbarung nicht auf die gezeigten und beschriebenen spezifischen Konstruktionen und Anordnungen beschränkt ist, da den Fachleuten verschiedene andere Modifikationen einfallen können.
  • Um das Patentamt und alle Leser von Patenten, die basierend auf dieser Anmeldung erteilt werden, bei der Auslegung der beiliegenden Ansprüche zu unterstützen, möchten die Anmelder darauf hinweisen, dass sie sich bei keinem der beiliegenden Ansprüche oder Anspruchselemente auf die Anwendung von 35 U.S.C. 112(f) berufen möchten, es sei denn, die Begriffe „Mittel für“ oder „Schritt für“ werden ausdrücklich in dem bestimmten Anspruch verwendet.
  • Es versteht sich, dass die Verwendung persönlich identifizierbarer Informationen Datenschutzvorschriften und -praktiken folgen sollte, von denen anerkannt wird, dass sie Industrie- oder behördliche Anforderungen zur Wahrung des Datenschutzes von Benutzern erfüllen oder darüber hinausgehen. Insbesondere sollten personenbezogene Daten so verwaltet und gehandhabt werden, dass das Risiko eines unbeabsichtigten oder unbefugten Zugriffs oder einer unbefugten Nutzung minimiert wird, und die Art der genehmigten Nutzung sollte den Benutzern klar angezeigt werden.

Claims (20)

  1. Computerimplementiertes Verfahren, umfassend: Erhalten von Objektaudio und Metadaten, die das Objektaudio räumlich beschreiben; Umwandeln des Objektaudios in Ambisonics-Audio der Zeit-Frequenz-Domäne basierend auf den Metadaten; und Codieren des Ambisonics-Audios der Zeit-Frequenz-Domäne und eines Teilsatzes der Metadaten als einen oder mehrere Bitströme, die in einem computerlesbaren Speicher gespeichert oder an eine entfernte Vorrichtung übertragen werden sollen.
  2. Verfahren nach Anspruch 1, wobei das Ambisonics-Audio der Zeit-Frequenz-Domäne eine Vielzahl von Zeit-Frequenz-Kacheln einschließt, wobei jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln Audio in einem Teilband einer Ambisonics-Komponente darstellt.
  3. Verfahren nach Anspruch 2, wobei jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln einen Abschnitt der Metadaten einschließt, der einen entsprechenden Abschnitt des Objektaudios in der Kachel räumlich beschreibt.
  4. Verfahren nach Anspruch 3, wobei das Ambisonics-Audio der Zeit-Frequenz-Domäne einen Satz der Vielzahl von Zeit-Frequenz-Kacheln einschließt, der einem Audiorahmen des Objektaudios entspricht.
  5. Verfahren nach Anspruch 1, wobei Umwandeln des Objektaudios in das Ambisonics-Audio der Zeit-Frequenz-Domäne Umwandeln des Objektaudios in Ambisonics-Audio der Zeitdomäne und Codieren von Ambisonics-Audio der Zeitdomäne als das Ambisonics-Audio der Zeit-Frequenz-Domäne einschließt.
  6. Verfahren nach Anspruch 5, wobei die Ambisonics-Audio der Zeit-Frequenz-Domäne eine komprimierte Version des Ambisonics-Audios der Zeitdomäne ist.
  7. Verfahren nach Anspruch 1, wobei das Ambisonics-Audio der Zeit-Frequenz-Domäne eine Komponente von Ambisonics höherer Ordnung (HOA) einschließt.
  8. Verfahren nach Anspruch 1, wobei die Metadaten eine Richtung einschließen, die einem Objekt des Objektaudios zugeordnet ist.
  9. Verfahren nach Anspruch 8, wobei die Metadaten einen Abstand einschließen, der einem Objekt in dem Objektaudio zugeordnet ist.
  10. Verarbeitungsvorrichtung, die konfiguriert ist zum: Erhalten von Objektaudio und Metadaten, die das Objektaudio räumlich beschreiben; Umwandeln des Objektaudios in Ambisonics-Audio der Zeit-Frequenz-Domäne basierend auf den Metadaten; Codieren des Ambisonics-Audios der Zeit-Frequenz-Domäne und eines Teilsatzes der Metadaten als einen oder mehrere Bitströme; und Übertragen des einen oder der mehreren Bitströme an eine entfernte Vorrichtung.
  11. Computerimplementiertes Verfahren, umfassend Decodieren eines oder mehrerer Bitströme, um ein Ambisonics-Audio der Zeit-Frequenz-Domäne und Metadaten zu erhalten, Extrahieren von Objektaudio aus dem Ambisonics-Audio der Zeit-Frequenz-Domäne unter Verwendung der Metadaten, die das Objektaudio räumlich beschreiben; und Rendern des Objektaudios mit den Metadaten basierend auf einem gewünschten Ausgabelayout ein.
  12. Verfahren nach Anspruch 11, wobei das Objektaudio unter Verwendung der Metadaten direkt aus dem Ambisonics-Audio der Zeit-Frequenz-Domäne extrahiert wird.
  13. Verfahren nach Anspruch 11, wobei Extrahieren des Objektaudios Umwandeln des Ambisonics-Audio der Zeit-Frequenz-Domäne in Ambisonics-Audio der Zeitdomäne und Extrahieren des Objektaudios von dem Ambisonics-Audio der Zeitdomäne unter Verwendung der Metadaten einschließt.
  14. Verfahren nach Anspruch 11, wobei das Ambisonics-Audio der Zeit-Frequenz-Domäne eine Vielzahl von Zeit-Frequenz-Kacheln einschließt, wobei jede Kachel der Vielzahl von Zeit-Frequenz-Kacheln Audio in einem Teilband einer Ambisonics-Komponente darstellt und jede Kachel einen Abschnitt der Metadaten einschließt, die einen entsprechenden Abschnitt des Objektaudios in der Kachel räumlich beschreiben.
  15. Verfahren nach Anspruch 14, wobei das Ambisonics-Audio der Zeit-Frequenz-Domäne einen Satz der Vielzahl von Zeit-Frequenz-Kacheln einschließt, der einem Audiorahmen des Objektaudios entspricht.
  16. Verfahren nach Anspruch 11, wobei das Objektaudio eine quantisierte Version einer ursprünglichen Version des Objektaudios ist.
  17. Verfahren nach Anspruch 16, wobei die Metadaten eine quantisierte Version einer ursprünglichen Version der Metadaten umfassen, die der ursprünglichen Version des Objektaudios zugeordnet ist.
  18. Verfahren nach Anspruch 11, wobei die Metadaten mindestens einen Abstand oder eine Richtung umfassen, der oder die einem Objekt des Objektaudios zugeordnet ist.
  19. Verfahren nach Anspruch 11, wobei das Objektaudio als eine Vielzahl von Audiokanälen gerendert wird, die dem gewünschten Ausgabelayout entsprechen, das ein Layout mit mehreren Lautsprechern ist.
  20. Verfahren nach Anspruch 11, wobei das Objektaudio als ein binaurales Audio gerendert wird, das dem gewünschten Ausgabelayout entspricht, das ein Layout eines am Kopf getragenen Lautsprechers ist.
DE102023209009.0A 2022-09-21 2023-09-15 Objektaudiocodierung Pending DE102023209009A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263376523P 2022-09-21 2022-09-21
US202263376520P 2022-09-21 2022-09-21
US63,376,523 2022-09-21
US63/376,520 2022-09-21

Publications (1)

Publication Number Publication Date
DE102023209009A1 true DE102023209009A1 (de) 2024-03-21

Family

ID=90062139

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102023209009.0A Pending DE102023209009A1 (de) 2022-09-21 2023-09-15 Objektaudiocodierung

Country Status (2)

Country Link
US (2) US20240098444A1 (de)
DE (1) DE102023209009A1 (de)

Also Published As

Publication number Publication date
US20240098444A1 (en) 2024-03-21
US20240096335A1 (en) 2024-03-21

Similar Documents

Publication Publication Date Title
DE60304358T2 (de) Verfahren zur verarbeitung von audiodateien und erfassungsvorrichtung zur anwendung davon
US9646620B1 (en) Method and device for processing audio signal
EP0667063B1 (de) Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle
EP3069530B1 (de) Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets
DE69933659T2 (de) Verfahren und system zur räumlichen kodierung mit niedriger bitrate
DE112020002355T5 (de) Audioverarbeitung
EP3044972B1 (de) Vorrichtung, verfahren und computerprogramm zur dekorrelation von lautsprechersignalen
WO2006094635A1 (de) Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms
KR20140128564A (ko) 음상 정위를 위한 오디오 시스템 및 방법
DE102016101316B4 (de) Informationsverarbeitungsverfahren und elektronisches Gerät
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
DE112021003592T5 (de) Informationsverarbeitungsvorrichtung, Ausgabesteuerverfahren und Programm
US11930337B2 (en) Audio encoding with compressed ambience
DE102014006997A1 (de) Verfahren, Vorrichtung und Erzeugnis für drahtlose immersive Audioübertragung
DE102022123713A1 (de) Bestimmen einer virtuellen hörumgebung
DE102019128856A1 (de) Verfahren und system für immersives virtual reality (vr) streaming mit reduzierter audiolatenz
DE102019135690A1 (de) Verfahren und Vorrichtung zur Audiosignalverarbeitung für binaurale Virtualisierung
DE102023209009A1 (de) Objektaudiocodierung
DE112019006727T5 (de) Audiosystem, audiowiedergabeeinrichtung, servereinrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm
EP3595334A2 (de) Verfahren zur audio-wiedergabe in einem hörgerät
DE3737873C2 (de) Verwendung von Hörsprechgarnituren zur Verbesserung der Sprachverständlichkeit in störschallerfüllter Umgebung
DE102023209196A1 (de) Verfahren und system zum effizienten codieren von szenenpositionen
DE102023209048A1 (de) Verfahren und system zum verlagern von lautstärkeanpassungen von audiokomponenten
DE102024114813A1 (de) Metadaten für räumliches audio-rendering
CN117750293A (zh) 对象音频编码

Legal Events

Date Code Title Description
R012 Request for examination validly filed