EP3487189B1

EP3487189B1 - Vorrichtung und verfahren für bildschirmbezogene audioobjekt-neuabbildung

Info

Publication number: EP3487189B1
Application number: EP18248305.7A
Authority: EP
Inventors: Simone Neukam; Jan Plogsties; Sascha Dick; Johannes Hilpert; Julien Robilliard; Achim Kuntz; Andreas HÖLZER
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-03-26
Filing date: 2015-03-25
Publication date: 2023-05-24
Anticipated expiration: 2035-03-25
Also published as: PL3123741T3; BR112016022045A2; CN106463128B; JP6734343B2; MX2016012286A; BR112016022045B1; CN111276153A; US20170011751A1; MY184715A; ES2953685T3; US20190139562A1; PT3487189T; SG11201607953TA; ES2723965T3; EP3123741A1; US20210065729A1; MX355455B; RU2683380C2; CN106463128A; AU2015238354B2

Claims

Eine Vorrichtung zum Erzeugen von Lautsprechersignalen, die folgende Merkmale aufweist:
einen Objektmetadatenprozessor (110) und

einen Objektaufbereiter (120),

wobei der Objektaufbereiter (120) ausgebildet ist, um ein Audioobjekt zu empfangen,

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um Metadaten zu empfangen, die eine Anzeige dessen aufweisen, ob das Audioobjekt von einer Größe eines Bildschirms abhängig ist, und ferner eine erste Position des Audioobjekts aufweisen,

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um eine zweite Position des Audioobjekts abhängig von der ersten Position des Audioobjekts und abhängig von der Größe des Bildschirms zu berechnen, wenn in den Metadaten angezeigt wird, dass das Audioobjekt von der Größe des Bildschirms abhängt,

wobei der Objektaufbereiter (120) ausgebildet ist, um die Lautsprechersignale abhängig von dem Audioobjekt und abhängig von Positionsinformationen zu erzeugen,

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um die erste Position des Audioobjekts als die Positionsinformation in den Objektaufbereiter (120) zuzuführen, wenn in den Metadaten angezeigt wird, dass das Audioobjekt nicht von der Größe des Bildschirms abhängt, und

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts als die Positionsinformation in den Objektaufbereiter (120) zuzuführen, wenn in den Metadaten angezeigt wird, dass das Audioobjekt von der Größe des Bildschirms abhängt,

wobei die erste Position zumindest einen ersten Azimut und eine erste Höhe anzeigt, wobei die zweite Position zumindest einen zweiten Azimut und eine zweite Höhe anzeigt,

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts abhängig von einer ersten linearen Abbildungsfunktion und/oder einer zweiten linearen Abbildungsfunktion zu berechnen, wobei die erste lineare Abbildungsfunktion definiert ist, um einen ersten Azimutwert auf einen zweiten Azimutwert abzubilden, wobei die zweite lineare Abbildungsfunktion definiert ist, um einen ersten Höhenwert auf einen zweiten Höhenwert abzubilden.
Eine Vorrichtung gemäß Anspruch 1, bei der der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts nicht zu berechnen, wenn in den Metadaten angezeigt wird, dass das Audioobjekt nicht von der Größe des Bildschirms abhängt.
Eine Vorrichtung gemäß Anspruch 1 oder 2, bei der der Objektaufbereiter (120) ausgebildet ist, um nicht zu bestimmen, ob die Positionsinformation die erste Position des Audioobjekts oder die zweite Position des Audioobjekts ist.
Eine Vorrichtung gemäß einem der vorherigen Ansprüche, bei der der Objektaufbereiter (120) ausgebildet ist, um die Lautsprechersignale weiter abhängig von der Anzahl der Lautsprecher einer Wiedergabeumgebung zu erzeugen.
Eine Vorrichtung gemäß Anspruch 4, bei der der Objektaufbereiter (120) ausgebildet ist, um die Lautsprechersignale ferner abhängig von einer Lautsprecherposition jedes der Lautsprecher der Wiedergabeumgebung zu erzeugen.
Eine Vorrichtung gemäß einem der vorherigen Ansprüche, bei der der Objektmetadatenprozessor (110) ausgebildet ist, und die zweite Position des Audioobjekts abhängig von der ersten Position des Audioobjekts und abhängig von der Größe des Bildschirms zu berechnen, wenn in den Metadaten angezeigt wird, dass das Audioobjekt von der Größe des Bildschirms abhängt, wobei die erste Position die erste Position in einem dreidimensionalen Raum anzeigt, und wobei die zweite Position die zweite Position in dem dreidimensionalen Raum anzeigt.
Eine Vorrichtung gemäß Anspruch 6, bei der der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts abhängig von der ersten Position des Audioobjekts und abhängig von der Größe des Bildschirms zu berechnen, wenn in den Metadaten angezeigt wird, dass das Audioobjekt von der Größe des Bildschirms abhängt, wobei die erste Position einen ersten Azimut, eine erste Höhe und eine erste Entfernung anzeigt, und wobei die zweite Position einen zweiten Azimut, eine zweite Höhe und eine zweite Entfernung anzeigt.
Eine Vorrichtung gemäß einem der vorherigen Ansprüche,
bei der der Objektmetadatenprozessor (110) ausgebildet ist, um die Metadaten zu empfangen, die eine Anzeige dessen, ob das Audioobjekt von der Größe des Bildschirms abhängt, als eine erste Anzeige aufweisen und ferner eine zweite Anzeige aufweisen, wenn das Audioobjekt von der Größe des Bildschirms abhängt, wobei die zweite Anzeige anzeigt, ob das Audioobjekt ein Bildschirm-Objekt ist, und

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts abhängig von der ersten Position des Audioobjekts und abhängig von der Größe des Bildschirms derart zu berechnen, dass die zweite Position einen ersten Wert auf einem Bildschirmbereich des Bildschirms einnimmt, wenn die zweite Anzeige anzeigt, dass das Audioobjekt ein Bildschirm-Objekt ist.
Eine Vorrichtung gemäß Anspruch 8, bei der der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts abhängig von der ersten Position des Audioobjekts und abhängig von der Größe des Bildschirms derart zu berechnen, dass die zweite Position einen zweiten Wert annimmt, was entweder auf dem Bildschirmbereich liegt oder nicht auf dem Bildschirmbereich liegt, wenn die zweite Anzeige anzeigt, dass das Audioobjekt kein Bildschirm-Objekt ist.
Eine Vorrichtung gemäß einem der Ansprüche 1 bis 7,
bei der der Objektmetadatenprozessor (110) ausgebildet ist, um die Metadaten zu empfangen, die die Anzeige dessen, ob das Audioobjekt von der Größe des Bildschirms abhängt, als eine erste Anzeige aufweisen und ferner eine zweite Anzeige aufweisen, wenn das Audioobjekt von der Größe des Bildschirms abhängt, wobei die zweite Anzeige anzeigt, ob das Audioobjekt ein Bildschirm-Objekt ist,

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts abhängig von der ersten Position des Audioobjekts, abhängig von der Größe des Bildschirms und abhängig von einer ersten Abbildungskurve als Abbildungskurve zu berechnen, wenn die zweite Anzeige anzeigt, dass das Audioobjekt ein Bildschirm-Objekt ist, wobei die erste Abbildungskurve eine Abbildung von ursprünglichen Objektpositionen in einem ersten Wertintervall auf neu abgebildete Objektpositionen in einem zweiten Wertintervall definiert, und

wobei der Objektmetadatenprozessor (110) ausgebildet ist, um die zweite Position des Audioobjekts abhängig von der ersten Position des Audioobjekts, abhängig von der Größe des Bildschirms und abhängig von einer zweiten Abbildungskurve als Abbildungskurve zu berechnen, wenn die zweite Anzeige anzeigt, dass das Audioobjekt kein Bildschirm-Objekt ist, wobei die zweite Abbildungskurve eine Abbildung ursprünglicher Objektpositionen in dem ersten Wertintervall auf neu abgebildete Objektpositionen in einem dritten Wertintervall definiert, und wobei das zweite Wertintervall durch das dritte Wertintervall beinhaltet ist, und wobei das zweite Wertintervall kleiner ist als das dritte Wertintervall.
Eine Vorrichtung gemäß Anspruch 10,
bei der sowohl das erste Wertintervall als auch das zweite Wertintervall als auch das dritte Wertintervall ein Wertintervall von Azimutwinkeln ist oder

wobei sowohl das erste Wertintervall als auch das zweite Wertintervall als auch das dritte Wertintervall ein Wertintervall von Höhenwinkeln ist.
Eine Vorrichtung gemäß einem der vorherigen Ansprüche,
wobei $φ_{left}^{nominal}$
eine Links-Azimut-Bildschirm-Randreferenz anzeigt,

wobei $φ_{right}^{nominal}$
eine Rechts-Azimut- Bildschirm-Randreferenz anzeigt,

wobei $θ_{top}^{nominal}$
eine Obere-Höhe- Bildschirm-Randreferenz anzeigt,

wobei $θ_{bottom}^{nominal}$
eine Untere-Höhe- Bildschirm-Randreferenz anzeigt,

wobei $φ_{left}^{repro}$
einen Links-Azimut- Bildschirm-Rand des Bildschirms anzeigt,

wobei $φ_{right}^{repro}$
einen Rechts-Azimut- Bildschirm-Rand des Bildschirms anzeigt,

wobei $θ_{top}^{repro}$
einen Obere-Höhe- Bildschirm-Rand des Bildschirms anzeigt,

wobei $θ_{bottom}^{repro}$
einen Untere-Höhe- Bildschirm-Rand des Bildschirms anzeigt,

wobei ϕ den ersten Azimutwinkel anzeigt,

wobei ϕ' den zweiten Azimutwinkel anzeigt,

wobei θ den ersten Höhenwert anzeigt,

wobei θ' den zweiten Höhenwert anzeigt,

wobei der zweite Azimutwert ϕ' aus einer ersten Abbildung des ersten Azimutwerts ϕ gemäß der ersten linearen Abbildungsfunktion gemäß folgender Gleichung resultiert: $φ' = {\begin{cases} \frac{φ_{right}^{repro} + 180 °}{φ_{right}^{nominal} + 180 °} \cdot (φ + 180 °) - 180 ° & f ü r & - 180 ° \leq φ < φ_{right}^{nominal} \\ \frac{φ_{left}^{repro} - φ_{right}^{repro}}{φ_{left}^{nominal} - φ_{right}^{nominal}} \cdot (φ - φ_{right}^{nominal}) + φ_{right}^{repro} & f ü r & φ_{right}^{nominal} \leq φ < φ_{left}^{nominal} \\ \frac{180 ° - φ_{left}^{repro}}{180 ° - φ_{left}^{nominal}} \cdot (φ - φ_{left}^{nominal}) + φ_{left}^{repro} & f ü r & φ_{left}^{nominal} \leq φ < 180 ° \end{cases}$

und

wobei der zweite Höhenwert θ' aus einer zweiten Abbildung des ersten Höhenwerts θ gemäß der zweiten linearen Abbildungsfunktion gemäß folgender Gleichung resultiert: $θ' = {\begin{cases} \frac{θ_{bottom}^{repro} + 90 °}{θ_{bottom}^{nominal} + 90 °} \cdot (θ + 90 °) - 90 ° & f ü r & - 90 ° \leq θ < θ_{bottom}^{nominal} \\ \frac{θ_{top}^{repro} - θ_{bottom}^{repro}}{θ_{top}^{nominal} - θ_{bottom}^{nominal}} \cdot (θ - θ_{bottom}^{nominal}) + θ_{bottom}^{repro} & f ü r & θ_{bottom}^{nominal} \leq θ < θ_{top}^{nominal} \\ \frac{90 ° - θ_{top}^{repro}}{90 ° - θ_{top}^{nominal}} \cdot (θ - θ_{top}^{nominal}) + θ_{top}^{repro} & f ü r & θ_{top}^{nominal} \leq θ < 90 ° \end{cases}$
Eine Decodierervorrichtung, die folgende Merkmale aufweist:
einen ersten Decodierer (910) für vereinheitlichte Sprach- und Audiodecodierung zum Decodieren eines Bitstroms, um einen oder mehr Audioeingangskanäle zu erhalten, um ein oder mehr Eingangsaudioobjekte zu erhalten, um komprimierte Objektmetadaten zu erhalten und um einen oder mehr Transportkanäle zu erhalten,

einen zweiten Decodierer (915) zur räumlichen Audioobjektdecodierung zum Decodieren des einen oder der mehr Transportkanäle, um eine erste Gruppe eines oder mehrerer aufbereiteter Audioobjekte zu erhalten,

eine Vorrichtung (917) gemäß einem der vorherigen Ansprüche, wobei die Vorrichtung folgende Merkmale aufweist:
einen dritten Decodierer, der ein Objektmetadatendecodierer (918) ist, der der Objektmetadatenprozessor (110) der Vorrichtung gemäß einem der vorherigen Ansprüche ist, und der zum Decodieren der komprimierten Objektmetadaten implementiert ist, um unkomprimierte Metadaten zu erhalten,

und

den Objektaufbereiter (920; 120) der Vorrichtung gemäß einem der vorherigen Ansprüche zum Aufbereiten des einen oder der mehr Eingangsaudioobjekte abhängig von den unkomprimierten Metadaten, um eine zweite Gruppe eines oder mehrerer aufbereiteter Audioobjekte zu erhalten,

einen Formatumwandler (922) zum Umwandeln des einen oder der mehr Audioeingangskanäle, um einen oder mehr umgewandelte Kanäle zu erhalten, und

einen Mischer (930) zum Mischen des einen oder der mehr Audioobjekte der ersten Gruppe eines oder mehrerer aufbereiteter Audioobjekte, des einen oder der mehr Audioobjekte der zweiten Gruppe eines oder mehrerer aufbereiteter Audioobjekte und des einen oder der mehr umgewandelten Kanäle, um einen oder mehrere decodierte Audiokanäle zu erhalten.
Ein Verfahren zum Erzeugen von Lautsprechersignalen, das folgende Schritte aufweist:
Empfangen eines Audioobjekts,

Empfangen von Metadaten, die eine Anzeige dessen aufweisen, ob das Audioobjekt von einer Größe eines Bildschirms abhängt, und die ferner eine erste Position des Audioobjekts aufweisen,

Berechnen einer zweiten Position des Audioobjekts abhängig von der ersten Position des Audioobjekts und abhängig von der Größe des Bildschirms, wenn in den Metadaten angezeigt wird, dass das Audioobjekt von der Größe des Bildschirms abhängt,

Erzeugen der Lautsprechersignale abhängig von dem Audioobjekt und abhängig von Positionsinformationen,

wobei die Positionsinformation die erste Position des Audioobjekts ist, wenn in den Metadaten angezeigt wird, dass das Audioobjekt nicht von der Größe des Bildschirms abhängt, und

wobei die Positionsinformation die zweite Position des Audioobjekts ist, wenn in den Metadaten angezeigt wird, dass das Audioobjekt von der Größe des Bildschirms abhängt,

wobei das Berechnen der zweiten Position des Audioobjekts abhängig von der ersten Position des Audioobjekts und abhängig von der Größe des Bildschirms ausgeführt wird, wenn in den Metadaten angezeigt wird, dass das Audioobjekt von der Größe des Bildschirms abhängt, wobei die erste Position zumindest einen ersten Azimut und eine erste Höhe anzeigt, wobei die zweite Position zumindest einen zweiten Azimut und eine zweite Höhe anzeigt,

wobei das Berechnen der zweiten Position des Audioobjekts abhängig von einer ersten linearen Abbildungsfunktion und/oder einer zweiten linearen Abbildungsfunktion ausgeführt wird, wobei die erste lineare Abbildungsfunktion definiert ist, um einen ersten Azimutwert auf einen zweiten Azimutwert abzubilden, wobei die zweite lineare Abbildungsfunktion definiert ist, um einen ersten Höhenwert auf einen zweiten Höhenwert abzubilden.
Ein Computerprogramm zum Implementieren des Verfahrens gemäß Anspruch 14, wenn dasselbe auf einem Computer oder Signalprozessor ausgeführt wird.