ES2723965T3 - Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla - Google Patents

Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla Download PDF

Info

Publication number
ES2723965T3
ES2723965T3 ES15716439T ES15716439T ES2723965T3 ES 2723965 T3 ES2723965 T3 ES 2723965T3 ES 15716439 T ES15716439 T ES 15716439T ES 15716439 T ES15716439 T ES 15716439T ES 2723965 T3 ES2723965 T3 ES 2723965T3
Authority
ES
Spain
Prior art keywords
screen
audio
metadata
audio object
indicates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15716439T
Other languages
English (en)
Inventor
Simone Füg
Jan Plogsties
Sascha Dick
Johannes Hilpert
Julien Robilliard
Achim Kuntz
Andreas Hölzer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2723965T3 publication Critical patent/ES2723965T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4516Management of client data or end-user data involving client characteristics, e.g. Set-Top-Box type, software version or amount of memory available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Stereophonic System (AREA)

Abstract

Un aparato para generar señales de altavoces, que comprende: un procesador de metadatos de objeto (110), y un renderizador de objetos (120), en el que el renderizador de objetos (120) está configurado para recibir un objeto de audio, en el que el procesador de metadatos de objetos (110) está configurado para recibir metadatos, que comprenden una indicación de si el objeto de audio tiene relación con la pantalla, y que además comprenden una primera posición del objeto de audio, en el que el procesador de metadatos de objetos (110) está configurado para calcular una segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, si en los metadatos se indica que el objeto de audio tiene relación con la pantalla, en el que el renderizador de objetos (120) está configurado para generar las señales de altavoces dependiendo del objeto de audio y dependiendo de información de posición, en el que el procesador de metadatos de objetos (110) está configurado para alimentar la primera posición del objeto de audio como información sobre la posición al renderizador de objetos (120), si en los metadatos se indica que el objeto de audio no está relacionado con el tamaño de la pantalla, y en el que el procesador de metadatos de objetos (110) está configurado para alimentar la segunda posición del objeto de audio como información sobre la posición al renderizador de objetos (120), si en los metadatos se indica que el objeto de audio tiene relación con el tamaño de la pantalla, en el que la primera posición indica un primer azimut, una primera elevación y una primera distancia, en el que la segunda posición indica un segundo azimut, una segunda elevación y una segunda distancia, en el que el procesador de metadatos de objeto (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de al menos una de una primera función de mapeo lineal y una segunda función de mapeo lineal, en el que la primera función de mapeo lineal se define para mapear un primer valor de azimut a un segundo valor de azimut, en el que la segunda función de mapeo lineal se define para mapear un primer valor de elevación a un segundo valor de elevación.

Description

DESCRIPCIÓN
Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla
[0001] La presente invención se relaciona con el procesamiento de señales de audio, en particular, con un aparato y un procedimiento para el remapeo de objetos de audio y, más específicamente, con un aparato y un procedimiento para el remapeo de objetos de audio relacionado con la pantalla.
[0002] Con el creciente consumo de contenido de multimedia en la vida diaria, la demanda de soluciones multimedia sofisticadas aumenta constantemente. En este contexto, la integración del contenido visual y de audio desempeña un papel importante. Sería ventajoso un ajuste óptimo del contenido multimedia audiovisual a la configuración de reproducción audiovisual existente.
[0003] En el estado de la técnica, se conocen los objetos de audio. Los objetos de audio se pueden considerar, por ejemplo, como pistas de sonido con metadatos asociados. Los metadatos pueden describir, por ejemplo, las características de los datos de audio no procesados, por ejemplo, la posición de reproducción deseada o el nivel de volumen. Una ventaja del audio basado en objetos es que se puede reproducir un movimiento predefinido mediante un proceso de renderización especial del lado de la reproducción de la mejor manera posible para todas las disposiciones de altavoces para la reproducción.
[0004] Se pueden emplear metadatos geométricos para definir dónde se debe renderizar un objeto de audio, por ejemplo, los ángulos del azimut o elevación o las posiciones absolutas con respecto a un punto de referencia, por ejemplo, el oyente. Los metadatos son almacenados o transmitidos junto con las señales de audio de objetos.
[0005] En el contexto de MPEG-H, en la 105a reunión de MPEG el grupo de audio revisó los requisitos y los plazos de diferentes normas de aplicación (MPEG = Moving Picture Experts Group, Grupo de expertos en imágenes en movimiento). Según esa revisión, sería esencial cumplir con ciertos puntos de tiempo y requisitos específicos para un sistema de transmisión de la próxima generación. Según eso, un sistema debería poder aceptar objetos de audio en la entrada del codificador. Además, el sistema debería admitir la señalización, transmisión y renderización de objetos de audio y debería habilitar el control de los objetos por el usuario, por ejemplo, para la mejora de diálogos, pistas de lenguajes alternativos y lenguaje de descripción de audio.
[0006] En el estado de la técnica, se han dado a conocer diferentes conceptos. Según una primera técnica anterior, presentada en “Method and apparatus for playback of a higher-order ambisonics audio signa!" (véase [1]), se adapta la reproducción del audio orientado al campo del sonido espacial a sus objetos visibles asociados mediante la aplicación de un proceso de distorsión espacial (warping). En esa técnica anterior, el decodificador deforma el campo sonoro de tal manera que todos los objetos sonoros en la dirección de la pantalla se compriman o estiren según la relación de los tamaños de las pantallas pretendidas y de referencia. Se incluye la posibilidad de codificar y transmitir el tamaño de referencia (o el ángulo de visualización desde una posición de escucha de referencia) de la pantalla empleada en la producción del contenido en forma de metadatos junto con el contenido. Por otro lado, se presume un tamaño de pantalla de referencia fijo al codificar y decodificar, y el decodificador conoce el tamaño real de la pantalla objetivo. En esta técnica anterior, el decodificador distorsiona el campo sonoro de tal manera que todos los objetos sonoros en la dirección de la pantalla se compriman o estiren según la relación del tamaño de la pantalla pretendida y el tamaño de la pantalla de referencia. Se utilizan las denominadas funciones de warping o por lineal por segmentos de a dos segmentos (“two-segment piecewise linear”). El estiramiento se limita a las posiciones angulares de los elementos sonoros. En esa técnica anterior, en el caso de las pantallas centradas la definición de la función de distorsión o warping es similar a la definición de la función de mapeo correspondiente al remapeo relacionado con la pantalla. El primero y tercer segmentos de la función de mapeo lineal segmentario de tres segmentos se podrían definir como la función lineal segmentaria de dos segmentos. Sin embargo, con esa técnica anterior, la aplicación se limita a HOA (señales HOA = ambisonics de orden superior) (orientado al campo sonoro) en el dominio espacial. Además, la función de distorsión sólo depende de la relación entre la pantalla de referencia y la pantalla de reproducción, y no se presenta definición alguna respecto de las pantallas no centradas.
[0007] En otra técnica anterior, “Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition“ (véase [2]), se describe un procedimiento para adaptar la posición de una fuente de sonido a la reproducción de vídeo. La posición de reproducción de la fuente de sonido se determina de forma individual por cada objeto sonoro dependiendo de la dirección y la distancia hasta el punto de referencia y de los parámetros de la cámara. Esa técnica anterior también describe una pantalla con un tamaño de referencia fijo presunto. Se lleva a cabo el escalado lineal de todos los parámetros de posición (en coordenadas cartesianas) para adaptar la escena a una pantalla de reproducción que es más pequeña o más grande que la pantalla de referencia. Sin embargo, según esa técnica anterior, la incorporación de parámetros físicos de la cámara y de proyección es compleja, y no siempre se dispone de esos parámetros. Además, el procedimiento de esa técnica anterior funciona con coordenadas cartesianas (x,y,z), por lo que no sólo la posición sino también la distancia de un objeto cambia con el escalado de la escena. Además, esta técnica anterior no es aplicable a la adaptación de la posición del objeto con respecto a los cambios de tamaño relativo de la pantalla (ángulo de apertura, ángulo de visualización) en las coordenadas angulares.
[0008] En una técnica anterior adicional, “ Verfahren zur Audiocodierung’’ (véase [3]), se describe un procedimiento que incluye una transmisión del ángulo de visualización horizontal y vertical en curso (variable en el tiempo) en el flujo de datos (ángulo de visualización de referencia, en relación con la posición del oyente en la escena original). Del lado de la reproducción, se analiza el tamaño y la posición de la reproducción y se optimiza la reproducción de los objetos de audio en forma individual para equipararlos a la pantalla de referencia. En otra técnica anterior, “Acoustical Zooming Based on a parametric Sound Field Representaron" (véase [4]), se describe un procedimiento que proporciona la renderización de audio que sigue el movimiento de la escena visual (“zoom acústico”). El proceso de zoom acústico (acercamiento-alejamiento) se define como desplazamiento de la posición de grabación virtual. El modelo de escena para el algoritmo de zooming coloca todas las fuentes de sonido en un círculo con un radio fijo, aunque arbitrario. Sin embargo, el procedimiento de esa técnica anterior actúa en el dominio de los parámetros DirAC, se cambian la distancia y los ángulos (dirección de llegada), la función de mapeo no es lineal y depende de un factor/parámetro de zoom y no se admiten las pantallas no centradas. En otro documento de la técnica anterior US 2012183162 se describe el procedimiento para la reproducción de sonido localizado para audio inmersivo, comprendiendo el procedimiento: recibir una señal de audio que contiene un primer objeto de audio; acceder a los metadatos asociados con el primer objeto de audio para determinar una primera ubicación perceptual y una segunda ubicación perceptual, los metadatos que incluyen un tamaño de imagen de audio y una posición de imagen de audio; presentar el primer objeto de audio con al menos un primer transductor y un segundo transductor; utilizando la presentación factores de peso para colocar el primer objeto de audio en la primera ubicación perceptual; y mover la presentación del primer objeto de audio a la segunda ubicación perceptual mediante el ajuste de los factores de peso para el segundo transductor y un tercer transductor. El objetivo de la presente invención es proporcionar conceptos mejorados para la integración de contenido multimedia audiovisual empleando configuraciones de reproducción multimedia existentes. El objetivo de la presente invención se resuelve mediante un aparato según la reivindicación 1, mediante un dispositivo decodificador según la reivindicación 13, mediante un procedimiento según la reivindicación 14 y mediante un programa informático según la reivindicación 15.
[0009] La invención se define en las reivindicaciones independientes 1, 13 y 14. Las formas de realización preferidas se definen en las reivindicaciones dependientes correspondientes.
[0010] A continuación se describen las formas de realización de la presente invención con más detalle con referencia a las figuras, en las cuales:
fig. 1 es un aparato para generar señales de altavoces según una forma de realización,
fig. 2 ilustra un renderizador de objetos según una forma de realización,
fig. 3 ilustra un procesador de metadatos de objeto según una forma de realización,
fig. 4 ilustra el remapeo del azimut según las formas de realización,
fig. 5 ilustra el remapeo de la elevación según las formas de realización,
fig. 6 ilustra el remapeo del azimut según algunas formas de realización,
fig. 7 ilustra el remapeo de la elevación según otras formas de realización,
fig. 8 ilustra una vista general de un codificador de audio 3D,
fig. 9 ilustra una vista general de un decodificador de audio 3D según una forma de realización,
fig. 10 ilustra una estructura de un conversor de formato,
fig. 11 ilustra la renderización de audio basado en objetos según una forma de realización,
fig. 12 ilustra un pre-procesador de metadatos de objeto según una forma de realización,
fig. 13 ilustra el remapeo del azimut según una forma de realización,
fig. 14 ilustra el remapeo de los ángulos de elevación según una forma de realización,
fig. 15 ilustra el remapeo de los ángulos azimutales según una forma de realización,
fig. 16 ilustra el remapeo de la elevación según otras formas de realización, y
fig. 17 ilustra el remapeo de la elevación según otras formas de realización.
[0011] fig. 1 ilustra un aparato para el remapeo de objetos de audio según una forma de realización. El aparato comprende un procesador de metadatos de objeto 110 y un renderizador de objetos 120.
[0012] El renderizador de objetos 120 está configurado para recibir un objeto de audio.
[0013] El procesador de metadatos de objetos 110 está configurado para recibir metadatos, que comprenden una indicación de si el objeto de audio tiene relación con la pantalla, y que además comprende una primera posición del objeto de audio. Además, el procesador de metadatos de objetos 110 está configurado para calcular una segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de una pantalla, si en los metadatos se indica que el objeto de audio tiene relación con la pantalla.
[0014] El renderizador de objetos 120 está configurado para generar las señales de altavoces dependiendo del objeto de audio y dependiendo de información de posición.
[0015] El procesador de metadatos de objetos 110 está configurado para alimentar la primera posición del objeto de audio como información sobre la posición al renderizador de objetos 120, si en los metadatos se indica que el objeto de audio no está relacionado con la pantalla.
[0016] Además, el procesador de metadatos de objetos 110 está configurado para alimentar la segunda posición del objeto de audio como información sobre la posición al renderizador de objetos 120, si en los metadatos se indica que el objeto de audio tiene relación con la pantalla.
[0017] Según una forma de realización, el procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para no calcular la segunda posición del objeto de audio, si en los metadatos se indica que el objeto de audio no está relacionado con la pantalla.
[0018] En una forma de realización, el renderizador de objetos 120 puede estar configurado, por ejemplo, para no determinar si información sobre la posición es la primera posición del objeto de audio o la segunda posición del objeto de audio.
[0019] Según una forma de realización, el renderizador de objetos 120 puede estar configurado, por ejemplo, para generar las señales de altavoces dependiendo además del número de los altavoces de un entorno de reproducción.
[0020] En una forma de realización, el renderizador de objetos 120 puede estar configurado, por ejemplo, para generar las señales de altavoces dependiendo además de una posición de altavoces de cada uno de los altavoces del entorno de reproducción.
[0021] Según una forma de realización, el procesador de metadatos de objetos 110 está configurado para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, si en los metadatos se indica que el objeto de audio tiene relación con la pantalla, donde la primera posición indica la primera posición en un espacio tridimensional, y donde la segunda posición indica la segunda posición en el espacio tridimensional.
[0022] En una forma de realización, el procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, si en los metadatos se indica que el objeto de audio tiene relación con la pantalla, donde la primera posición indica un primer azimut, una primera elevación y una primera distancia, y donde la segunda posición indica un segundo azimut, una segunda elevación y una segunda distancia.
[0023] Según una forma de realización, el procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para recibir los metadatos, que comprenden la indicación de si el objeto de audio tiene relación con la pantalla como una primera indicación, y que además comprende una segunda indicación, si el objeto de audio tiene relación con la pantalla, indicando dicha segunda indicación si el objeto de audio es un objeto en pantalla. El procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, de tal manera que la segunda posición asuma un primer valor en un área de pantalla de la pantalla, si la segunda indicación indica que el objeto de audio es un objeto en pantalla.
[0024] En una forma de realización, el procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, de tal manera que la segunda posición asuma un segundo valor, que está en el área de pantalla o no está en el área de pantalla, si la segunda indicación indica que el objeto de audio no es un objeto en pantalla.
[0025] Según una forma de realización, el procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para recibir los metadatos, que comprenden la indicación de si el objeto de audio tiene relación con la pantalla como primera indicación, y que además comprende una segunda indicación, donde si el objeto de audio tiene relación con la pantalla, dicha segunda indicación indica si el objeto de audio es un objeto en pantalla. El procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio, dependiendo del tamaño de la pantalla, y dependiendo de una primera curva de mapeo como curva de mapeo, si la segunda indicación indica que el objeto de audio es un objeto en pantalla, donde la primera curva de mapeo define el mapeo de las posiciones originales de los objetos en un primer intervalo de valores con las posiciones remapeadas de los objetos en un segundo intervalo de valores. Además, el procesador de metadatos de objetos 110 puede estar configurado, por ejemplo, para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio, dependiendo del tamaño de la pantalla, y dependiendo de una segunda curva de mapeo como curva de mapeo si la segunda indicación indica que el objeto de audio no es un objeto en pantalla, donde la segunda curva de mapeo define el mapeo de las posiciones originales de los objetos en el primer intervalo de valores con las posiciones remapeadas de los objetos en un tercer intervalo de valores, y donde dicho segundo intervalo de valores está comprendido en el tercer intervalo de valores, y donde dicho segundo intervalo de valores es menor que dicho tercer intervalo de valores.
[0026] En una forma de realización, cada uno del primer intervalo de valores y el segundo intervalo de valores y el tercer intervalo de valores puede ser, por ejemplo, un intervalo de valores de ángulos azimutales, o cada uno del primer intervalo de valores y el segundo intervalo de valores y el tercer intervalo de valores puede ser, por ejemplo, un intervalo de valores de ángulos de elevación.
[0027] A continuación se describen formas de realización específicas de la presente invención y las características opcionales de una pluralidad de formas de realización de la presente invención.
[0028] Podría haber objetos de audio (señal de audio asociada a una posición en el espacio 3D, por ejemplo, el azimut, la elevación y la distancia dados) que no están destinados a una posición fija, sino cuya posición debería cambiar con el tamaño de una pantalla en la configuración de reproducción.
[0029] Si se señaliza un objeto como relacionado con la pantalla (por ejemplo, por medio de una bandera en los metadatos), su posición se remapea/recalcula con respecto al tamaño de la pantalla según una regla específica.
[0030] La fig. 2 ilustra un renderizador de objetos según una forma de realización.
[0031] Como introducción, se señala lo siguiente:
En los formatos de audio basado en objetos se almacenan o transmiten metadatos junto con las señales de objeto. Los objetos de audio se renderizan del lado de la reproducción empleando los metadatos e información acerca del entorno de reproducción. Esa información es por ejemplo el número de altavoces o el tamaño de la pantalla.
Tabla 1: Eem lo de metadatos:
Figure imgf000005_0001
Figure imgf000006_0001
[0032] En el caso de los objetos se pueden utilizar metadatos geométricos para definir de qué manera se deben renderizar, por ejemplo los ángulos de azimut o elevación o las posiciones absolutas con respecto a un punto de referencia, por ejemplo el oyente. El renderizador calcula las señales de altavoces sobre la base de los datos geométricos y los altavoces disponibles y su posición.
[0033] Las formas de realización según la presente invención surgen de lo anterior de la siguiente manera.
[0034] Para controlar la renderización relacionada con la pantalla, un campo de metadatos adicional controla la manera de interpretar los metadatos geométricos:
Si se ajusta el campo a OFF (apagado), el renderizador interpreta por los metadatos geométricos que debe computar las señales de altavoces.
[0035] Si se ajusta el campo a ON (encendido) los metadatos geométricos son mapeados de los datos nominales con otros valores. El remapeo se realiza sobre los metadatos geométricos, de tal manera que el renderizador que sigue el procesador de metadatos de objetos desconoce el pre-procesamiento de los metadatos de objeto y opera sin cambios. En las siguientes tablas se presentan ejemplos de dichos campos de metadatos.
Tabla 2: Ejemplo de metadatos para controlar la renderización relacionada con la pantalla y su significado:
AzimuthScreenRelated Se ajusta el azimut al tamaño de la pantalla
ElevationScreenRelated Se ajusta la elevación al tamaño de la pantalla
isScreenRelatedObject Se remapea el azimut y la elevación para renderizar objetos en relación con la pantalla
isOnScreenObject Se relaciona la señal de objeto con un objeto colocado en pantalla
[0036] Además, se podría enviar el tamaño nominal de pantalla o el tamaño de la pantalla utilizado durante la producción del contenido de audio como información de metadatos.
| NominalScreenSize | tamaño de pantalla utilizado durante la producción del contenido de audio [0037] La siguiente tabla presenta un ejemplo de cómo se deben codificar esos metadatos de manera eficiente.
____________ Tabla 3 — Sintaxis de ObjectMetadataConfigQ según una forma de realización:____________ Sintaxis_________________________________________________________ N.° de bits Mnemónica ObjectMetadataConfig()
{
hasScreenRelatedObjects; 1 bslbf
si( hasScreenRelatedObjects ) {
para ( o = 1; o <= num_objects; o++ ) {
1
Figure imgf000007_0001
hasOnScreenObjects Esta bandera especifica si hay presencia de objetos relacionados con la pantalla.
isScreenRelatedObject Esta bandera define si la posición de un objeto está relacionada con la pantalla (la posición debe ser renderizada de manera diferente, de tal manera que se remapee su posición, aunque de todos modos puede contener todos los valores angulares válidos.
isOnScreenObject Esta bandera define que el correspondiente objeto está “onscreen” (en pantalla). Los objetos donde esta bandera es igual a 1 deben ser renderizados de modo diferente, de tal manera que su posición sólo pueda asumir valores en el área de pantalla. De conformidad con una alternativa, no se utiliza la bandera, sino que se define un ángulo de la pantalla de referencia. Si isScreenRelativeObject=1 entonces todos los ángulos se consideran con respecto a este ángulo de referencia. Podría haber otros casos de uso cuando es necesario saber que el objeto de audio está en pantalla.
[0038] Cabe señalar, con respecto a isScreenRelativeObject, que según una forma de realización, hay dos posibilidades: el remapeo de la posición, aunque de todos modos puede asumir todos los valores (relacionados con la pantalla) y el remapeo de tal modo que sólo pueda contener valores que estén en área de pantalla (en pantalla).
[0039] El remapeo se realiza en un procesador de metadatos de objeto que tiene en cuenta el tamaño de pantalla local y ejecuta el mapeo de los metadatos geométricos.
[0040] La fig. 3 ilustra un procesador de metadatos de objeto según una forma de realización.
[0041] En cuando a la modificación de los metadatos geométricos relacionados con la pantalla, se dice lo siguiente.
[0042] Dependiendo de la información isScreenRelativeObject e isOnScreenObject hay dos posibilidades de señalización de los elementos de audio relacionados con la pantalla:
a) Elementos de audio relativos a la pantalla
b) Elementos de audio en pantalla
[0043] En ambos casos, los datos de posición de los elementos de audio son remapeados por el procesador de metadatos de objetos. Se aplica una curva que mapea los ángulos azimutales y de elevación originales de la posición con un azimut remapeado y un ángulo de elevación remapeado
[0044] La referencia es el tamaño de pantalla nominal en los metadatos o un tamaño de pantalla por defecto presunto.
[0045] Por ejemplo, se puede utilizar un ángulo de visualización definido en ITU-R REC-BT.2022 (Condiciones de visualización generales para la evaluación subjetiva de la calidad de imágenes de televisión SDTV y HDTV en pantallas de panel plano).
[0046] La diferencia entre los dos tipos de relación con la pantalla es la definición de la curva de remapeo.
[0047] En el caso a) el azimut remapeado puede asumir valores de entre -180° y 180° y la elevación remapeada puede asumir valores de entre -90° y 90°. La curva se define de tal manera que los valores de azimut entre un azimut del borde izquierdo por defecto y un azimut del borde derecho por defecto se mapeen (compriman o expandan) con el intervalo entre el borde izquierdo dado de la pantalla y el borde derecho dado de la pantalla (y de manera consiguiente en el caso de la elevación). Los demás valores de azimut y elevación se comprimen o expanden de manera correspondiente, de tal manera que se cubra el intervalo total de los valores.
[0048] La fig.4 ilustra el remapeo del azimut según las formas de realización.
[0049] En el caso b) el azimut y la elevación remapeados sólo pueden asumir valores que describen posiciones en el área de pantalla (Azimut(borde izquierdo de la pantalla) Azimut(remapeo) Azimut(borde derecho de la pantalla) y Elevación(borde inferior de la pantalla) Elevación(remapeo) Elevación(borde superior de la pantalla)).
[0050] Hay diferentes posibilidades de tratar los valores fuera de estos intervalos. Podrían ser mapeados con los bordes de la pantalla de tal manera que todos los objetos entre -180° de azimut y el borde izquierdo de la pantalla terminen en el borde izquierdo de la pantalla y todos los objetos entre el borde derecho de la pantalla y 180° de azimut terminen a la derecha de la pantalla. Otra posibilidad consiste en mapear los valores del hemisferio posterior con el hemisferio anterior. En el hemisferio izquierdo se mapean entonces las posiciones entre -180° Azimut(borde izquierdo de la pantalla) y Azimut(borde izquierdo de la pantalla) con el borde izquierdo de la pantalla. Los valores entre -180° y -180° Azimut(borde izquierdo de la pantalla) se mapean con los valores entre 0° y Azimut(borde izquierdo de la pantalla). De la misma manera se trata el hemisferio derecho y los ángulos de elevación.
[0051] La fig. 5 ilustra el remapeo de la elevación según las formas de realización.
[0052] Los puntos -x1 y x2 (que podrían ser diferentes o iguales a x1) de la curva en que el gradiente cambia pueden ser fijados en valores por defecto (tamaño de pantalla asumido por defecto posición) o pueden estar presentes en los metadatos (por ejemplo, por el productor, que podría poner ahí entonces el tamaño de pantalla de la producción).
[0053] También existen funciones de mapeo posibles que no consisten en segmentos lineales sino que, por el contrario, son curvos.
[0054] Otros metadatos podrían controlar la forma de remapeo, por ejemplo, definiendo desviaciones o coeficientes no lineales para dar cuenta del comportamiento de paneo o la resolución de la audición.
[0055] También se podría señalizar la manera de ejecutar el mapeo, por ejemplo, “proyectando” todos los objetos destinados para la parte posterior de la pantalla.
[0056] Tales procedimientos de mapeo alternativos están enumerados en las siguientes figuras.
[0057] En ellas, la fig. 6 ilustra el remapeo del azimut según las formas de realización.
[0058] La fig. 7 ilustra el remapeo de la elevación según las formas de realización.
[0059] En lo que respecta al comportamiento de un tamaño de pantalla desconocido:
si no se da el tamaño de pantalla de reproducción,
- se asume entonces un tamaño de pantalla por defecto, o bien
- no se aplica mapeo alguno, incluso si un objeto está marcado como relacionado con la pantalla o en pantalla.
[0060] Volviendo a la fig. 4, en otra forma de realización, en el caso b) el azimut y la elevación remapeados sólo pueden asumir valores que describen posiciones en el área de pantalla (Azimut(borde izquierdo de la pantalla) < Azimut(remapeo) < Azimut(borde derecho de la pantalla) y Elevación(borde inferior de la pantalla) < Elevación(remapeada) < Elevación(borde superior de la pantalla)). Hay diferentes posibilidades para tratar los valores fuera de estos intervalos: en algunas formas de realización, podrían ser mapeados con los bordes de la pantalla de tal manera que todos los objetos entre 180° de azimut y el borde izquierdo de la pantalla terminen en el borde izquierdo de la pantalla y todos los objetos entre el borde derecho de la pantalla y -180° de azimut terminen en el borde derecho de la pantalla. Otra posibilidad consiste en mapear los valores del hemisferio posterior con el hemisferio anterior.
[0061] En el hemisferio izquierdo entonces, se mapean las posiciones entre 180° - de Azimut(borde izquierdo de la pantalla) y Azimut(borde izquierdo de la pantalla) con el borde izquierdo de la pantalla. Los valores entre 180° y 180° - Azimut(borde izquierdo de la pantalla) se mapean con los valores entre 0° y Azimut(borde izquierdo de la pantalla). El hemisferio derecho y los ángulos de elevación son tratados de la misma manera.
[0062] La fig. 16 ilustra una figura similar a la fig. 5. En las formas de realización ilustradas por la fig. 16, en ambos diagramas, se expone un intervalo de valores en el eje de las abscisas de -90° a 90° y un intervalo de valores en el eje de las ordenadas de -90° a 90°.
[0063] La fig. 17 ilustra una figura similar a la fig. 7. En las formas de realización ilustrada por la fig. 17, en ambos diagramas, se expone un intervalo de valores en el eje de las abscisas de -90° a 90° y un intervalo de valores en el eje de las ordenadas de -90° a 90°.
[0064] En lo sucesivo, se describen otras formas de realización de la invención y características opcionales de otras formas de realización con referencia a la fig. 8 - fig. 15.
[0065] Según algunas formas de realización, el remapeo de elementos relacionados con la pantalla sólo se puede procesar, por ejemplo, si el flujo de bits contiene elementos relacionados con la pantalla (bandera isScreenRelativeObject == 1 con respecto al menos a un elemento de audio) que estén acompañados por datos OAM (datos OAM = metadatos de objetos asociados) y si se señaliza el decodificador el tamaño de pantalla local a través de la interfaz LocalScreenSize().
[0066] Los datos geométricos de posición (los datos OAM antes de que haya tenido lugar alguna modificación de la posición) pueden ser, por ejemplo, mapeados con un rango diferente de valores mediante la definición y uso de una función de mapeo. El remapeo puede cambiar, por ejemplo, los datos geométricos de posición como paso de procesamiento previo a la renderización por lo que el renderizador no tiene conocimiento del remapeo y opera sin cambios.
[0067] Para el remapeo se puede tomar en cuenta, por ejemplo, el tamaño de pantalla de una pantalla de referencia nominal (utilizada en el proceso de mezcla y monitoreo) y/o la información de tamaño de pantalla en el recinto de la reproducción.
[0068] Si no se da ningún tamaño de pantalla nominal de referencia, se pueden utilizar, por ejemplo, los valores de referencia por defecto, por ejemplo presumiendo una pantalla de 4k y una distancia de visualización óptima.
[0069] En caso de no darse ningún tamaño de pantalla local, entonces por ejemplo no se aplica el remapeo.
[0070] Se pueden definir dos funciones de mapeo lineal, por ejemplo, para el remapeo de los valores de elevación y azimut:
Los bordes de la pantalla del tamaño de pantalla nominal pueden estar dados, por ejemplo, por:
iwmttuü nrnmnal j^nonui-Tl ¿jntunnuü
supsnar ' Atener
[0071] Los bordes de la pantalla de reproducción se pueden abreviar, por ejemplo, de la siguiente manera:
Q v c y r o Q r e p r Q
Figure imgf000009_0001
sup. 9 '¡nf.
[0072] El remapeo de los datos de posición por azimut y elevación se pueden definir, por ejemplo, por las siguientes funciones de mapeo lineal:
Figure imgf000010_0001
[0073] La fig. 13 ilustra una función de remapeo de los datos de posición según una forma de realización. En particular, en la fig. 13, se ilustra una función de mapeo para el mapeo del azimut. En la fig. 13, la curva se define de tal manera que los valores de azimut entre el azimut de borde izquierdo nominal de referencia y el azimut de borde derecho nominal de referencia se mapean (comprimen o expanden) con el intervalo entre el borde izquierdo de la pantalla local dado y el borde derecho de la pantalla local dado. Los demás valores de azimut se comprimen o expanden de modo correspondiente, de tal manera que se cubra la totalidad del intervalo de valores.
[0074] El azimut remapeado puede asumir valores, por ejemplo, de entre -180° y 180° y la elevación remapeada puede asumir valores, por ejemplo, de entre -90° y 90°.
[0075] Según una forma de realización, por ejemplo, si la bandera isScreenRelativeObject es ajustada a cero, no se aplica el remapeo de los elementos relacionados con la pantalla para el correspondiente elemento y el renderizador utiliza directamente los datos geométricos de posición (datos OAM más el cambio de posición por la interactividad del usuario) para computar las señales de reproducción.
[0076] Según algunas formas de realización, las posiciones de todos los elementos relacionados con la pantalla pueden ser, por ejemplo, remapeadas según el tamaño de la pantalla de reproducción como adaptación al recinto de la reproducción. Por ejemplo, si no se proporciona información sobre el tamaño de la pantalla de reproducción o no existe ningún elemento relacionado con la pantalla, no se aplica el remapeo.
[0077] El remapeo se puede definir, por ejemplo, por funciones de mapeo lineal que tienen en cuenta la información sobre el tamaño de la pantalla de reproducción en el recinto de la reproducción e información de tamaño de la pantalla de una pantalla de referencia, por ejemplo, usada en el proceso de mezcla y monitoreo.
[0078] En la fig. 13 se ilustra una función de mapeo del azimut según una forma de realización. En dicha fig.
13, se ilustra una función de mapeo de los ángulos azimutales. Como en la fig. 13, se puede definir de tal manera, por ejemplo, que se mapeen los valores de azimut entre el borde izquierdo y el borde derecho de la pantalla de referencia (se compriman o expandan) con el intervalo entre el borde izquierdo y el borde derecho de la pantalla de reproducción. Los demás valores de azimut se comprimen o expanden de tal manera que se cubra el intervalo total de valores.
[0079] De manera correspondiente, se puede definir una función de mapeo de la elevación, por ejemplo, (véase la fig. 14). El procesamiento relacionado con la pantalla puede tomar en cuenta asimismo, por ejemplo, un área de zooming (acercamiento o alejamiento) en el contenido de vídeo de alta resolución. El procesamiento relacionado con la pantalla puede definirse sólo, por ejemplo, con respecto a los elementos que van acompañados por datos dinámicos de posición y están marcados como relacionados con la pantalla.
[0080] A continuación se presenta una reseña general de sistema de un sistema de códec de audio 3D. Las formas de realización de la presente invención pueden ser utilizadas en ese tipo de sistema de códec de audio 3D. El sistema de códec de audio 3D se puede basar, por ejemplo, en un Códec de MPEG-D USAC para la codificación de señales de canales y objetos.
[0081] Según las formas de realización, para aumentar la eficiencia para la codificación de una gran cantidad de objetos, se ha adaptado la tecnología de MPEG SAOC (SAOC = Spatial Audio Object Coding, Codificación de Objetos de Audio Espacial). Por ejemplo, según algunas formas de realización, tres tipos de renderizadores pueden ejecutar, por ejemplo, las tareas de renderización de objetos a canales, renderización de canales a auriculares o renderización de canales a una configuración de altavoces diferente.
[0082] Cuando se transmiten explícitamente señales de objeto o se codifican paramétricamente empleando SAOC, la información de Metadatos de Objeto correspondiente se comprime y multiplexa en el flujo de bits de audio 3D.
[0083] La fig. 8 y la fig. 9 muestran los diferentes bloques algorítmicos del sistema de Audio 3D. En particular, la fig. 8 ilustra una vista general de un codificador de audio 3D. La fig. 9 ilustra una vista general de un decodificador de audio 3D según una forma de realización.
[0084] Se describen ahora las posibles formas de realización de los módulos de la fig. 8 y la fig. 9.
[0085] En la fig. 8, se ilustra un prerenderizador 810 (al que también se hace referencia como mezclador). En la configuración de la fig. 8, el prerenderizador 810 (mezclador) es opcional. El prerenderizador 810 también se puede utilizar de manera opcional para convertir una escena de entrada de Canal Objeto en una escena de canal antes de la codificación. Funcionalmente, el prerenderizador 810 del lado del codificador puede estar relacionado, por ejemplo, con la funcionalidad del renderizador/mezclador de objetos 920 del lado del decodificador, que se describe a continuación. La prerenderización de objetos garantiza una entropía de la señal determinística en la entrada del codificador que es básicamente independiente del número de señales de objeto activas de forma simultánea. Con la prerenderización de objetos, no es necesaria la transmisión de metadatos de objeto. Se renderizan las señales de objeto a la Disposición de Canales que el codificador está configurado para usar. Las ponderaciones de los objetos por cada canal se obtienen de los metadatos de objeto asociados (OAM).
[0086] El códec núcleo correspondiente a las señales de canales de los altavoces, las señales de objeto discretas, las señales de mezcla descendente de objetos y las señales prerenderizadas se basa en la tecnología MPEG-D USAC (Códec de Núcleo de USAC). El codificador de USAC 820 (por ejemplo, ilustrado en la fig. 8) trata la codificación de la multitud de señales mediante la creación de información de mapeo de canales y objetos basada en la información geométrica y semántica del canal de entrada y la asignación de objetos. Esta información de mapeo describe, cómo se mapean los canales de entrada y objetos con los Elementos de Canales de USAC (CPEs, SCEs, LFEs) y cómo se transmite la información correspondiente al decodificador.
[0087] Todas las cargas útiles adicionales como datos o metadatos de objeto de SAOC han sido pasadas por elementos de extensión y se pueden considerar, por ejemplo, en el control de la tasa del codificador de USAC.
[0088] La codificación de objetos es posible de diferentes maneras, dependiendo de los requisitos de tasa/distorsión y los requerimientos de interactividad del renderizador. Las siguientes variantes de codificación de objetos son posibles:
- Objetos prerenderizados: las señales de objeto son prerenderizadas y mezcladas con las señales de canales 22.2 antes de la codificación. La cadena de codificación subsiguiente ve señales de canales 22.2.
- Formas de onda de objetos discretos: los objetos son suministrados como formas de onda monofónicas al codificador de USAC 820. El codificador de USAC 820 utiliza elementos de canales únicos SCEs para transmitir los objetos además de las señales de canal. Los objetos decodificados son renderizados y mezclados del lado del receptor. Se transmite la información comprimida de metadatos de objeto al receptor/renderizador de forma paralela. - Formas de onda paramétricas de objetos: las propiedades de los objetos y su relación entre sí se describen por medio de parámetros de SAOC. La mezcla descendente de las señales de objeto es codificada con USAC por el codificador de USAC 820. La información paramétrica se transmite de forma paralela. Se elige el número de canales de mezcla descendente según el número de objetos y de la tasa de datos general. Se transmite la información comprimida de metadatos de objeto al renderizador SAOc .
[0089] Del lado del decodificador, un codificador USAC 910 lleva a cabo la decodificación según USAC.
[0090] Además, según las formas de realización, se presenta un dispositivo decodificador, véase la fig. 9. El dispositivo decodificador comprende un decodificador USAC 910 para decodificar un flujo de bits a fin de obtener uno o más canales de entrada de audio, para obtener uno o más objetos de audio, para obtener metadatos de objeto comprimidos y para obtener uno o más canales de transporte para SAOC.
[0091] Además, el dispositivo decodificador comprende un decodificador SAOC 915 para decodificar dichos uno o más canales de transporte para SAOC para obtener un primer grupo de uno o más objetos de audio renderizados.
[0092] Además, el dispositivo decodificador comprende un aparato 917 según las formas de realización anteriormente descritas con respecto a las fig. 1 a 7 o como se describe más adelante con respecto a las fig. 11 a 15. El aparato 917 comprende un decodificador de metadatos de objetos 918 que es, por ejemplo, el procesador de metadatos de objetos 110 del aparato de la fig. 1, y que está implementado para decodificar los metadatos de objeto comprimidos para obtener metadatos no comprimidos.
[0093] Además, el aparato 917 según las formas de realización anteriormente descritas comprende un renderizador de objetos 920 que es, por ejemplo, el renderizador de objetos 120 del aparato de la fig. 1, para renderizar dichos uno o más objetos de audio de entrada dependiendo de los metadatos no comprimidos para obtener un segundo grupo de uno o más objetos de audio renderizados.
[0094] Por añadidura, el dispositivo decodificador comprende un conversor de formato 922 para convertir dichos uno o más canales de entrada de audio para obtener uno o más canales convertidos.
[0095] Además, el dispositivo decodificador comprende un mezclador 930 para mezclar dichos uno o más objetos de audio del primer grupo de uno o más objetos de audio renderizados, dichos uno o más objetos de audio del segundo grupo de uno o más objetos de audio renderizados y dichos uno o más canales convertidos para obtener uno o más canales de audio decodificados.
[0096] En la fig. 9 se ilustra una forma de realización específica de un dispositivo decodificador. El codificador SAOC 815 (el codificador SAOC 815 es opcional, véase la fig. 8) y el decodificador SAOC 915 (véase la fig. 9) para las señales de objeto se basan en la tecnología de MPEG SAOC. El sistema tiene la capacidad de recrear, modificar y renderizar un número de objetos de audio basándose en un número menor de canales transmitidos y datos paramétricos adicionales (OLDs, IOCs, DMGs) (OLD = object level difference (diferencia de nivel de los objetos), IOC = inter object correlation (correlación entre los objetos), DMG = downmix gain (ganancia de mezcla descendente)). Los datos paramétricos adicionales exhiben una tasa de datos significativamente más baja que la necesaria para transmitir todos los objetos de forma individual, lo que confiere mucha eficiencia a la codificación.
[0097] El codificador SAOC 815 toma como entrada señales de objeto/canales como formas de onda monofónicas y emite la información paramétrica (que está incluida en el flujo de bits de audio 3D) y los canales de transporte para SAOC (que se codifican empleando elementos de canales únicos y se transmiten).
[0098] El decodificador SAOC 915 reconstruye las señales de objeto/canales procedentes de los canales de transporte para SAOC decodificados e información paramétrica y genera la escena de audio de salida basándose en la disposición de la reproducción, en la información descomprimida de metadatos de objeto y opcionalmente en la información de interacción con el usuario.
[0099] En lo que respecta al códec de metadatos de objeto, por cada objeto, los metadatos asociados que especifican la posición geométrica y la expansión del objeto en el espacio 3D son codificados de manera eficiente mediante la cuantificación de las propiedades del objeto en tiempo y espacio, por ejemplo, por medio del codificador de metadatos 818 de la fig. 8. Los metadatos de objeto comprimidos cOAM (cOAM = metadatos de objeto de audio comprimidos) son transmitidos al receptor en forma de información lateral. En el receptor, los cOAM son decodificados por el decodificador de metadatos 918.
[0100] Por ejemplo, en la fig. 9, el decodificador de metadatos 918 puede implementar por ejemplo, un procesador de metadatos de objeto según una de las formas de realización anteriormente descritas.
[0101] Un renderizador de objetos, por ejemplo, el renderizador de objetos 920 de la fig. 9, utiliza los metadatos de objeto comprimidos para generar formas de onda de objetos según el formato de reproducción dado. Se renderiza cada objeto a ciertos canales de salida según sus metadatos. La salida de este bloque es el resultado de la suma de los resultados parciales.
[0102] Por ejemplo, en la fig. 9, el renderizador de objetos 920 puede ser implementado, por ejemplo, según una de las formas de realización anteriormente descritas.
[0103] En la fig. 9, el decodificador de metadatos 918 puede ser implementado, por ejemplo, en forma procesador de metadatos de objeto descrito según una de las formas de realización anteriormente descritas o las formas de realización descritas a continuación, en referencia a las fig. 1 a 7, y las fig. 11 a 15, y el renderizador de objetos 920 puede ser implementado, por ejemplo, como el renderizador de objetos descrito según una de las formas de realización anteriormente descritas o las formas de realización descritas a continuación, en referencia a las fig. 1 a 7, y de la fig. 11 a la fig. 15. El decodificador de metadatos 918 y el renderizador de objetos 920 pueden implementar, en conjunto, por ejemplo, un aparato 917 para generar señales de altavoces como el descrito anteriormente o según se describe más adelante en referencia a las fig. 1 a 7, y de la fig. 11 a la fig. 15.
[0104] Si se decodifica tanto contenido basado en canales como objetos discretos/paramétricos, se mezclan las formas de onda basadas en canales y las formas de onda de objetos renderizados antes de emitir las formas de onda resultantes, por ejemplo, mediante el mezclador 930 de la fig. 9 (o antes de alimentarlas a un módulo postprocesador como el renderizador binaural o el módulo renderizador de altavoces).
[0105] Un módulo renderizador binaural 940, puede producir, por ejemplo, una mezcla descendente binaural del material de audio multicanal, de tal manera que cada canal de entrada esté representado por una fuente de sonido virtual. El procesamiento se lleva a cabo trama por trama en el dominio QMF La binauralización se puede basar, por ejemplo, en respuestas al impulso medidas del recinto binaural.
[0106] Un renderizador de altavoces 922 puede realizar la conversión, por ejemplo, entre la configuración de canales transmitida y el formato de reproducción deseado. Por consiguiente, a continuación se le denomina conversor de formato 922. El conversor de formato 922 realiza conversiones para reducir los números de canales de salida, por ejemplo, genera mezclas descendentes. El sistema genera automáticamente matrices optimizadas de mezcla descendente correspondientes a la combinación dada de formatos de entrada y salida y aplica estas matrices en un proceso de mezcla descendente. El conversor de formato 922 admite las configuraciones normales de altavoces, así como configuraciones aleatorias con posiciones de altavoces que no son las estándar.
[0107] La fig. 10 ilustra una estructura de un conversor de formato. La fig. 10 ilustra un configurador de mezcla descendente 1010 y un procesador de mezcla descendente para procesar la mezcla descendente en el dominio QMF (dominio QMF = quadrature mirror filter domain (dominio de filtros espejo en cuadratura).
[0108] Según algunas formas de realización, el renderizador de objetos 920 puede estar configurado para realizar el remapeo de objetos de audio relacionado con la pantalla descrito con respecto a una de la pluralidad de formas de realización anteriormente descritas en referencia a la fig. 1 - fig. 7, o descritas con respecto a una de la pluralidad de formas de realización que se describen a continuación en referencia a la fig. 11 - fig. 15.
[0109] A continuación se describen otras formas de realización y conceptos de las formas de realización de la presente invención.
[0110] Según algunas formas de realización, el control de los objetos por el usuario puede emplear, por ejemplo, metadatos descriptivos, por ejemplo, información acerca de la existencia de un objeto dentro del flujo de bits y las propiedades de alto nivel de los objetos y puede emplear, por ejemplo, metadatos restrictivos, por ejemplo, información sobre cómo la interacción es posible o es habilitada por el creador de contenidos.
[0111] Según algunas formas de realización, la señalización, transmisión y renderización de objetos de audio pueden emplear, por ejemplo, metadatos de posición, metadatos estructurales, por ejemplo, el agrupamiento y jerarquía de los objetos, la capacidad de renderizar a un canal específico y para señalizar el contenido del canal en forma de objetos y medios para adaptar la escena de los objetos al tamaño de la pantalla.
[0112] Las formas de realización incluyen nuevos campos de metadatos además de la posición geométrica ya definida y el nivel del objeto en el espacio 3D.
[0113] Si se reproduce una escena de audio basado en objetos en diferentes configuraciones de reproducción, según algunas formas de realización, las posiciones de las fuentes de sonido renderizadas pueden ser, por ejemplo, escaladas automáticamente a la dimensión de la reproducción. En caso de presentarse contenido audiovisual, la renderización normal de los objetos de audio a la reproducción puede llevar, por ejemplo, a una violación de la coherencia audiovisual posicional como las ubicaciones de las fuentes de sonido y la posición de lo que originó visualmente el sonido, por ejemplo, ya puede no ser coherente.
[0114] Para evitar este efecto, se puede emplear, por ejemplo, una posibilidad que consiste en señalizar que los objetos de audio no están destinados a una posición fija en el espacio 3D, sino cuya posición debe cambiar con el tamaño de una pantalla en la configuración de reproducción. Según algunas formas de realización, un tratamiento especial de estos objetos de audio y una definición correspondiente a un algoritmo de escalado de escenas pueden dar lugar, por ejemplo, a una experiencia más inmersiva ya que la reproducción se puede optimizar, por ejemplo, respecto de las características locales del entorno de reproducción.
[0115] En algunas formas de realización, un renderizador o un módulo de preprocesamiento puede tomar en cuenta, por ejemplo, el tamaño de la pantalla local en el recinto de la reproducción y de esa manera puede, por ejemplo, preservar la relación entre audio y vídeo en el contexto de una película o un juego. En esas formas de realización, la escena de audio puede ser escalada automáticamente entonces, por ejemplo, según la configuración de reproducción, de tal manera que las posiciones de los elementos visuales y la posición de una fuente de sonido correspondiente coincidan. Se puede mantener, por ejemplo, la coherencia audiovisual posicional para pantallas con variación de tamaño.
[0116] Por ejemplo, según las formas de realización, el diálogo y la voz pueden ser percibidos, por ejemplo, desde la dirección de alguien que habla en la pantalla independientemente del tamaño de la pantalla de reproducción. Esto es posible entonces para fuentes fijas, así como en el caso de fuentes en movimiento en que las trayectorias del sonido y el movimiento de los elementos visuales tienen que corresponder.
[0117] Para controlar la renderización relacionada con la pantalla, se introduce un campo de metadatos adicional que permite marcar los objetos como relacionados con la pantalla. Si el objeto está marcado como relacionado con la pantalla, sus metadatos de posición geométrica se remapean con otros valores antes de la renderización. Por ejemplo, la fig. 13 ilustra un ejemplo de función de (re)mapeo correspondiente a los ángulos azimutales.
[0118] Entre otras cosas, algunas formas de realización pueden lograr, por ejemplo, una sencilla función de mapeo que se define por actuar en el dominio angular (azimut, elevación).
[0119] Además, algunas formas de realización pueden logar, por ejemplo, que la distancia de los objetos no cambie; no se lleva a cabo ningún alejamiento ni acercamiento (“zooming”) ni movimiento virtual hacia la pantalla o alejándose de la pantalla, sino un escalado sólo de la posición de los objetos.
[0120] Además, algunas formas de realización pueden manipular, por ejemplo, pantallas de reproducción no centradas ( | j q ,ro| y/o|é?Upro| ) ya que la función de mapeo no sólo se basa en la relación de pantalla, sino que toma en cuenta el azimut y elevación de los bordes de la pantalla
[0121] Además, algunas formas de realización pueden definir, por ejemplo, funciones de mapeo especiales para los objetos en pantalla. Según algunas formas de realización, las funciones de mapeo correspondientes al azimut y elevación pueden ser independientes, por ejemplo, por lo que se las puede elegir para remapear sólo los ángulos azimutales o de elevación.
[0122] A continuación se proporcionan otras formas de realización.
[0123] La fig. 11 ilustra la renderización del audio basado en objetos según una forma de realización. Los objetos de audio pueden ser renderizados, por ejemplo, del lado de la reproducción empleando los metadatos e información acerca del entorno de reproducción. Dicha información consiste, por ejemplo, en el número de altavoces o el tamaño de la pantalla. El renderizador 1100 puede calcular, por ejemplo, las señales de altavoces sobre la base de los datos geométricos y los altavoces disponibles y sus posiciones.
[0124] Se describe ahora un (pre)procesador de metadatos de objetos 1210 según una forma de realización con referencia a la fig. 12.
[0125] En la fig. 12, el procesador de metadatos de objetos 1210 está configurado para llevar a cabo el remapeo que tiene en cuenta el tamaño de pantalla local y realiza el mapeo de los metadatos geométricos.
[0126] Los datos de posición de los objetos relacionados con la pantalla son remapeados por el procesador de metadatos de objetos 1210. Se puede aplicar una curva, por ejemplo, que mapea los ángulos azimutales y de elevación originales de la posición con un azimut remapeado y un ángulo de elevación remapeado.
[0127] Se puede emplear el tamaño de pantalla de una pantalla nominal de referencia, por ejemplo, para el proceso de mezclado y monitoreo, y se puede tomar en cuenta la información de tamaño de la pantalla local en el recinto de la reproducción, por ejemplo, para el remapeo.
[0128] Se puede transmitir el tamaño de pantalla de referencia, al que se hace referencia como tamaño de pantalla de producción, por ejemplo, en los metadatos.
[0129] En algunas formas de realización, si no se da el tamaño de pantalla nominal, se puede presumir, por ejemplo, un tamaño de pantalla por defecto.
[0130] Por ejemplo, se puede utilizar un ángulo de visualización definido en ITU-R REC-BT.2022 (véase: General viewing conditions for subjective assessment of quality of SDTV y HDTV television pictures on flat panel displays).
[0131] En algunas formas de realización, se pueden definir, por ejemplo, dos funciones de mapeo lineal para el remapeo de los valores de elevación y azimut.
[0132] A continuación se describe la modificación de los metadatos geométricos relacionados con la pantalla según algunas formas de realización en referencia a la fig. 13 - fig. 15.
[0133] El azimut remapeado puede asumir valores de entre -180° y 180° y la elevación remapeada puede asumir valores de entre -90° y 90°. La curva de mapeo se define, en general, de tal manera que se mapeen (compriman o expandan) los valores de azimut entre un azimut de borde izquierdo por defecto y un azimut de borde derecho por defecto con el intervalo entre el borde izquierdo dado de la pantalla y el borde derecho dado de la pantalla (y, en consecuencia, en el caso de la elevación). Los demás valores de azimut y elevación se comprimen o expanden de modo correspondiente, de tal manera que se cubra la totalidad del intervalo de valores.
[0134] Como ya se ha descrito anteriormente, los bordes de pantalla del tamaño de pantalla nominal pueden estar dados, por ejemplo, por:
Figure imgf000015_0001
[0135] Los bordes de la pantalla de reproducción se pueden abreviar, por ejemplo, de la siguiente manera:
,-repro ,-repro s\repro sirepro
r izq . r d e r . 5 q sup. 5 q inf.
[0136] El remapeo de los datos de posición de azimut y elevación se puede definir, por ejemplo, por las siguientes funciones de mapeo lineal:
Figure imgf000015_0002
[0137] La función de mapeo correspondiente al azimut está ilustrada en la fig. 13 y la función de mapeo correspondiente a la elevación está ilustrada en la fig. 14.
[0138] Los puntos
Figure imgf000015_0003
de las curvas en que los cambios de gradiente se pueden establecer como valores por defecto (tamaño de pantalla normal presunto por defecto y posición de pantalla normal presunta por defecto), o pueden estar presentes en los metadatos (por ejemplo, introducidos por el productor, que en ese caso podría poner el tamaño de pantalla de producción/monitoreo ahí).
[0139] Con respecto a la definición de metadatos de objeto para el remapeo relacionado con la pantalla, para controlar la renderización relacionada con la pantalla, se define una bandera de metadatos adicional denominada “isScreenRelativeObject”. Esta bandera puede definir, por ejemplo, si un objeto de audio debe ser procesado/renderizado en relación con el tamaño de la pantalla de reproducción local.
[0140] Si hay elementos relacionados con la pantalla presentes en la escena de audio, se ofrece la posibilidad, en ese caso, de incluir la información de tamaño de la pantalla de una pantalla nominal de referencia que ha sido utilizada para mezclar y monitorear (tamaño de pantalla utilizado durante la producción del contenido de audio).
T l 4 — in xi M nfi n n f rm r liz i n:
Figure imgf000016_0005
____________________________________________________________ hasScreenRelativeObjectsEsta bandera especifica si hay objetos relacionados con la pantalla presentes.
hasScreenSize Esta bandera especifica si se define un tamaño de pantalla nominal. La definición se realiza mediante la visualización de los ángulos correspondientes a los bordes de la pantalla. En caso de que hasScreenSize sea cero, se utilizan como defecto los siguientes valores:
Figure imgf000016_0001
inf
bsScreenSizeAz Este campo define el azimut correspondiente a los bordes izquierdo y derecho de la pantalla:
Figure imgf000016_0002
bsScreenSizeTopEl Este campo define la elevación correspondiente al borde superior de la pantalla:
Figure imgf000016_0003
bsScreenSizeBottomEl Este campo define la elevación correspondiente al borde inferior de la pantalla:
Figure imgf000016_0004
isScreenRelativeObject Esta bandera define si la posición de un objeto está relacionada con la pantalla (la posición debe ser renderizada de manera diferente, de tal manera que se remapee su posición, aunque de todas maneras puede contener todos los valores angulares válidos).
[0141] Según una forma de realización, si no se da el tamaño de la pantalla de reproducción, se presume un tamaño de pantalla de reproducción por defecto o no se aplica mapeo, aunque un objeto esté marcado como relacionado con la pantalla.
[0142] Algunas de las formas de realización admiten variaciones posibles.
[0143] En algunas formas de realización, se emplean funciones de mapeo no lineales. Estas funciones de mapeo posibles no consisten en segmentos lineales, sino que por el contrario, son curvos. En algunas formas de realización, hay metadatos adicionales que controlan la manera de remapear, por ejemplo, definiendo desviaciones o coeficientes no lineales para dar cuenta del comportamiento de paneo o la resolución de la audición.
[0144] Algunas formas de realización efectúan un procesamiento independiente del azimut y la elevación. El azimut y la elevación podrían ser marcados y procesados independientemente en relación con la pantalla. La Tabla 5 ilustra la sintaxis de ObjectMetadataConfig() según esa forma de realización.
T l : in xi M nfi n n f rm r liz i n:
Figure imgf000017_0002
___________________________________________________________
[0145] Algunas formas de realización emplean una definición de objetos en pantalla. Se puede distinguir entre objetos relacionados con la pantalla y objetos en pantalla. Entonces una sintaxis posible podría ser la siguiente de la tabla 6:
Tabla 6 — Sintaxis de ObjectMetadataConfigQ según una forma de realización:
Figure imgf000017_0003
____________________________________________________________
hasOnScreenObjects Esta bandera especifica si hay presencia de objetos relacionados con la pantalla.
isScreenRelatedObject Esta bandera define si la posición de un objeto se relaciona con la pantalla (la posición debe ser renderizada de manera diferente, de tal manera que su posición se remapee, aunque de todas maneras contenga todos los valores angulares válidos).
isOnScreenObject Esta bandera define si el objeto correspondiente es “onscreen” (en pantalla). Los objetos respecto de los cuales esta bandera es igual a 1 deben ser renderizados de manera diferente, de tal manera que su posición sólo pueda asumir valores en el área de pantalla.
[0146] En el caso de los objetos en pantalla, el azimut y la elevación remapeados sólo pueden asumir valores que describan posiciones en el área de pantalla
Figure imgf000017_0001
[0147] Según algunas formas de realización, hay diferentes posibilidades para tratar los valores fuera de estos intervalos. Se podrían mapear con los bordes de la pantalla. En el hemisferio izquierdo entonces, las posiciones entre 180° y 180° -
Figure imgf000018_0001
se mapean con el borde izquierdo de la pantalla . El hemisferio derecho y los ángulos de elevación se tratan de la misma manera (función de mapeo sin guiones 1510 de la fig. 15).
[0148] Otra posibilidad ofrecida por algunas de las formas de realización consiste en mapear los valores del hemisferio posterior con el hemisferio anterior. Los valores entre 180° y 180° - se mapean con los valores entre 0° 'yjlZq™ . El hemisferio derecho y los ángulos de elevación se tratan de la misma manera (función de mapeo con guiones 1520 de la fig. 15).
[0149] La fig. 15 ilustra el remapeo de los ángulos azimutales (objetos en pantalla) según estas formas de realización.
[0150] La elección del comportamiento deseado podría ser señalizada mediante metadatos adicionales (por ejemplo, una bandera para “proyectar” todos los objetos en pantalla destinados a la parte posterior ([180° y 180° -] y [-180° y -180° - j “ mmal ] sobre la pantalla).
[0151] Aunque se han descrito algunos aspectos en el contexto de un aparato, es obvio que estos aspectos también representan una descripción del procedimiento correspondiente, en el cual un bloque o dispositivo corresponde a una etapa del procedimiento o a una característica de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente.
[0152] La señal descompuesta de la invención puede ser almacenada en un medio digital o se puede transmitir por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cables tal como Internet.
[0153] Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales de control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se ejecute el procedimiento respectivo.
[0154] Algunas formas de realización según la invención comprenden un soporte de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema informático programable de tal manera que se ejecute uno de los procedimientos descritos en esta invención.
[0155] En general, las formas de realización de la presente invención pueden ser implementadas en forma de producto de programa informático con un código de programa, donde el código de programa cumple la función de ejecutar uno de los procedimientos al ejecutarse el programa informático en un ordenador. El código de programa puede ser almacenado, por ejemplo, en un soporte legible por una máquina.
[0156] Otras formas de realización comprenden el programa informático para ejecutar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por una máquina.
[0157] En otras palabras, una forma de realización del procedimiento de la invención consiste, por lo tanto, en un programa informático que consta de un código de programa para realizar uno de los procedimientos descritos en esta invención al ejecutarse el programa informático en un ordenador.
[0158] Otra forma de realización de los procedimientos de la invención consiste, por lo tanto, en un soporte de datos (o medio de almacenamiento digital, o medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para ejecutar uno de los procedimientos descritos en esta invención.
[0159] Otra forma de realización del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para ejecutar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo, por Internet.
[0160] Otra forma de realización comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para ejecutar uno de los procedimientos descritos en esta invención.
[0161] Otra forma de realización comprende un ordenador en el que se ha instalado el programa informático para ejecutar uno de los procedimientos descritos en esta invención.
[0162] En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de puertas programables en el campo) para ejecutar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas formas de realización, una matriz de puertas programables en el campo puede cooperar con un microprocesador para ejecutar uno de los procedimientos descritos en esta invención. Por lo general, los procedimientos son ejecutados preferentemente por cualquier aparato de hardware.
[0163] Las formas de realización anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y detalles descritos en esta invención serán evidentes para las personas expertas en la técnica. Por lo tanto, sólo es intención limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a modo de descripción y explicación de las formas de realización presentadas en esta invención.
[0164]
Bibliografía
[1] “Method and apparatus for playback of a higher-order ambisonics audio signal”, Solicitud de patente número EP20120305271
[2] “Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition“, Solicitud de patente número WO2004073352A1
[3] “Verfahren zur Audiocodierung”, Solicitud de patente número EP20020024643
[4 ] “Acoustical Zooming Based on a Parametric Sound Field Representation” http://www.aes.org/tmpFiles/elib/20140814/15417.pdf

Claims (15)

REIVINDICACIONES
1. Un aparato para generar señales de altavoces, que comprende:
un procesador de metadatos de objeto (110), y
un renderizador de objetos (120),
en el que el renderizador de objetos (120) está configurado para recibir un objeto de audio,
en el que el procesador de metadatos de objetos (110) está configurado para recibir metadatos, que comprenden una indicación de si el objeto de audio tiene relación con la pantalla, y que además comprenden una primera posición del objeto de audio,
en el que el procesador de metadatos de objetos (110) está configurado para calcular una segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, si en los metadatos se indica que el objeto de audio tiene relación con la pantalla,
en el que el renderizador de objetos (120) está configurado para generar las señales de altavoces dependiendo del objeto de audio y dependiendo de información de posición,
en el que el procesador de metadatos de objetos (110) está configurado para alimentar la primera posición del objeto de audio como información sobre la posición al renderizador de objetos (120), si en los metadatos se indica que el objeto de audio no está relacionado con el tamaño de la pantalla, y
en el que el procesador de metadatos de objetos (110) está configurado para alimentar la segunda posición del objeto de audio como información sobre la posición al renderizador de objetos (120), si en los metadatos se indica que el objeto de audio tiene relación con el tamaño de la pantalla,
en el que la primera posición indica un primer azimut, una primera elevación y una primera distancia, en el que la segunda posición indica un segundo azimut, una segunda elevación y una segunda distancia,
en el que el procesador de metadatos de objeto (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de al menos una de una primera función de mapeo lineal y una segunda función de mapeo lineal, en el que la primera función de mapeo lineal se define para mapear un primer valor de azimut a un segundo valor de azimut, en el que la segunda función de mapeo lineal se define para mapear un primer valor de elevación a un segundo valor de elevación.
2. Un aparato según la reivindicación 1, en el que el procesador de metadatos de objetos (110) está configurado para no calcular la segunda posición del objeto de audio, si en los metadatos se indica que el objeto de audio no está relacionado con el tamaño de la pantalla.
3. Un aparato según la reivindicación 1 o 2, en el que el renderizador de objetos (120) está configurado para no determinar si información sobre la posición es la primera posición del objeto de audio o la segunda posición del objeto de audio.
4. Un aparato según una de las reivindicaciones anteriores, en el que el renderizador de objetos (120) está configurado para generar las señales de altavoces dependiendo además del número de los altavoces de un entorno de reproducción.
5. Un aparato según la reivindicación 4, en el que el renderizador de objetos (120) está configurado para generar las señales de altavoces dependiendo además de una posición de altavoces de cada uno de los altavoces del entorno de reproducción.
6. Un aparato según una de las reivindicaciones anteriores, en el que el procesador de metadatos de objetos (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, si en los metadatos se indica que el objeto de audio tiene relación con el tamaño de la pantalla, en el que la primera posición indica la primera posición en un espacio tridimensional, y en el que la segunda posición indica la segunda posición en el espacio tridimensional.
7. Un aparato según la reivindicación 6, en el que el procesador de metadatos de objetos (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, si en los metadatos se indica que el objeto de audio tiene relación con el tamaño de la pantalla, en el que la primera posición indica un primer azimut, una primera elevación y una primera distancia, y en el que la segunda posición indica un segundo azimut, una segunda elevación y una segunda distancia.
8. Un aparato según una de las reivindicaciones anteriores,
en el que el procesador de metadatos de objetos (110) está configurado para recibir los metadatos que comprenden la indicación de si el objeto de audio tiene relación con el tamaño de la pantalla como una primera indicación, y que además comprenden una segunda indicación de si el objeto de audio tiene relación con el tamaño de la pantalla, indicando dicha segunda indicación si el objeto de audio es un objeto en pantalla y
en el que el procesador de metadatos de objetos (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, por lo que la segunda posición asume un primer valor en un área de pantalla de la pantalla, si la segunda indicación indica que el objeto de audio es un objeto en pantalla.
9. Un aparato según la reivindicación 8, en el que el procesador de metadatos de objetos (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo del tamaño de la pantalla, por lo que la segunda posición asume un segundo valor, que está en el área de pantalla o no está en el área de pantalla, si la segunda indicación indica que el objeto de audio no es un objeto en pantalla.
10. Un aparato según una de las reivindicaciones 1 a 7,
en el que el procesador de metadatos de objetos (110) está configurado para recibir los metadatos que comprenden la indicación de si el objeto de audio tiene relación con el tamaño de la pantalla como una primera indicación, y que además comprende una segunda indicación de si el objeto de audio tiene relación con el tamaño de la pantalla, indicando dicha segunda indicación si el objeto de audio es un objeto en pantalla,
en el que el procesador de metadatos de objetos (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio, dependiendo del tamaño de la pantalla, y dependiendo de una primera curva de mapeo como curva de mapeo, si la segunda indicación indica que el objeto de audio es un objeto en pantalla, en el que la primera curva de mapeo define un mapeo de las posiciones originales de los objetos en un primer intervalo de valores con las posiciones remapeadas de los objetos en un segundo intervalo de valores y
en el que el procesador de metadatos de objetos (110) está configurado para calcular la segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio, dependiendo del tamaño de la pantalla, y dependiendo de una segunda curva de mapeo como curva de mapeo, si la segunda indicación indica que el objeto de audio no es un objeto en pantalla, en el que la segunda curva de mapeo define un mapeo de las posiciones originales de los objetos en el primer intervalo de valores con las posiciones remapeadas de los objetos en un tercer intervalo de valores, y en el que dicho segundo intervalo de valores está comprendido en el tercer intervalo de valores, y en el que dicho segundo intervalo de valores es menor que dicho tercer intervalo de valores.
11. Un aparato según la reivindicación 10,
en el que cada uno del primer intervalo de valores y el segundo intervalo de valores y el tercer intervalo de valores es un intervalo de valores de ángulos azimutales o
en el que cada uno del primer intervalo de valores y el segundo intervalo de valores y el tercer intervalo de valores es un intervalo de valores de ángulos de elevación.
12. Un aparato según una de las reivindicaciones anteriores,
en el , que (pu nqominal indica una referencia al borde de pantalla del azimut izquierdo,
en el que ^ “ minaI indica una referencia al borde de pantalla del azimut derecho,
en el que 6 y io min al
s up. indica una referencia al borde de pantalla de elevación superior,
en el que indica una referencia al borde de pantalla de elevación inferior,
en el que (p]^'0 indica un borde azimutal izquierdo de la pantalla,
en el que ^ indica un borde azimutal derecho de la pantalla,
Q r e p r o
en el que ^ indica un borde de elevación superior de la pantalla,
QTcpru
en el que ñf. indica un borde de elevación inferior de la pantalla,
en el que ^ indica el primer valor de azimut,
en el que ^ indica el segundo valor de azimut,
en el que 6 indica el primer valor de elevación,
en el que d indica el segundo valor de elevación,
en el que el segundo valor de azimut ^ resulta de un primer mapeo del primer valor de azimut ^ según la primera función de mapeo lineal según
Figure imgf000022_0001
y
en el que el segundo valor de elevación 6 resulta de un segundo mapeo del primer valor de elevación O según la segunda función de mapeo lineal según
Figure imgf000022_0002
13. Un dispositivo decodificador que comprende:
un primer decodificador (910) para discurso unificado y decodificación de audio para decodificar un flujo de bits para obtener uno o más canales de entrada de audio, para obtener uno o más objetos de audio de entrada, para obtener metadatos de objeto comprimidos y para obtener uno o más canales de transporte,
un segundo decodificador (915) para la decodificación de objetos de audio espacial para decodificar dichos uno o más canales de transporte a fin de obtener un primer grupo de uno o más objetos de audio renderizados, un aparato (917) según una de las reivindicaciones anteriores, en el que el aparato comprende
un tercer decodificador que es un decodificador de metadatos de objetos (918), que es el procesador de metadatos de objetos (110) del aparato según una de las reivindicaciones anteriores, y que es implementado para decodificar los metadatos de objeto comprimidos para obtener metadatos no comprimidos y
el renderizador de objetos (920; 120) del aparato según una de las reivindicaciones anteriores, para renderizar dichos uno o más objetos de audio de entrada dependiendo de los metadatos no comprimidos para obtener un segundo grupo de uno o más objetos de audio renderizados,
un conversor de formato (922) para convertir dichos uno o más canales de entrada de audio para obtener uno o más canales convertidos y
un mezclador (930) para mezclar dichos uno o más objetos de audio del primer grupo de uno o más objetos de audio renderizados, dichos uno o más objetos de audio del segundo grupo de uno o más objetos de audio renderizados y dichos uno o más canales convertidos para obtener uno o más canales de audio decodificados.
14. Un procedimiento para generar señales de altavoces, que comprende:
recibir un objeto de audio,
recibir metadatos que comprenden una indicación de si el objeto de audio tiene relación con el tamaño de la pantalla, y que además comprenden una primera posición del objeto de audio,
calcular una segunda posición del objeto de audio dependiendo de la primera posición del objeto de audio y dependiendo de un tamaño de una pantalla, si en los metadatos se indica que el objeto de audio tiene relación con el tamaño de la pantalla,
generar las señales de altavoces dependiendo del objeto de audio y dependiendo de información de posición, en el que la información sobre la posición es la primera posición del objeto de audio, si en los metadatos se indica que el objeto de audio no está relacionado con el tamaño de la pantalla y
en el que la información sobre la posición es la segunda posición del objeto de audio, si en los metadatos se indica que el objeto de audio tiene relación con el tamaño de la pantalla,
en el que el cálculo de la segunda posición del objeto de audio se realiza en función de la primera posición del objeto de audio y en función del tamaño de la pantalla, si el objeto de audio se indica en los metadatos como dependiente del tamaño de la pantalla, en el que la primera posición indica un primer azimut, una primera elevación y una primera distancia,
en el que la segunda posición indica un segundo azimut, una segunda elevación y una segunda distancia, en el que el cálculo de la segunda posición del objeto de audio se realiza dependiendo de al menos una de una primera función de mapeo lineal y una segunda función de mapeo lineal, en el que la primera función de mapeo lineal se define para mapear un primer valor de azimut a un segundo valor de azimut, en el que la segunda función de mapeo lineal se define para asignar un primer valor de elevación a un segundo valor de elevación.
15. Un programa informático para implementar el procedimiento de la reivindicación 14 al ejecutarse en un ordenador o un procesador de señales.
ES15716439T 2014-03-26 2015-03-25 Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla Active ES2723965T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14161819 2014-03-26
EP14196769.5A EP2928216A1 (en) 2014-03-26 2014-12-08 Apparatus and method for screen related audio object remapping
PCT/EP2015/056417 WO2015144766A1 (en) 2014-03-26 2015-03-25 Apparatus and method for screen related audio object remapping

Publications (1)

Publication Number Publication Date
ES2723965T3 true ES2723965T3 (es) 2019-09-04

Family

ID=52015948

Family Applications (2)

Application Number Title Priority Date Filing Date
ES15716439T Active ES2723965T3 (es) 2014-03-26 2015-03-25 Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla
ES18248305T Active ES2953685T3 (es) 2014-03-26 2015-03-25 Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES18248305T Active ES2953685T3 (es) 2014-03-26 2015-03-25 Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla

Country Status (19)

Country Link
US (4) US10192563B2 (es)
EP (4) EP2928216A1 (es)
JP (4) JP6422995B2 (es)
KR (1) KR101920356B1 (es)
CN (2) CN111276153B (es)
AR (1) AR099835A1 (es)
AU (1) AU2015238354B2 (es)
BR (1) BR112016022045B1 (es)
CA (1) CA2943570C (es)
ES (2) ES2723965T3 (es)
FI (1) FI3487189T3 (es)
MX (1) MX355455B (es)
MY (1) MY184715A (es)
PL (2) PL3487189T3 (es)
PT (2) PT3123741T (es)
RU (1) RU2683380C2 (es)
SG (1) SG11201607953TA (es)
TW (1) TWI595785B (es)
WO (1) WO2015144766A1 (es)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
CN115243075A (zh) 2014-10-10 2022-10-25 索尼公司 再现装置和再现方法
US9940937B2 (en) * 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CN107615767B (zh) 2015-06-02 2021-05-25 索尼公司 发送装置、发送方法、媒体处理装置、媒体处理方法以及接收装置
US10356547B2 (en) * 2015-07-16 2019-07-16 Sony Corporation Information processing apparatus, information processing method, and program
DE102015220595A1 (de) * 2015-10-22 2017-04-27 Robert Bosch Gmbh Batteriezelle mit teilweise flexibel formbarer Wandung
EP3378240B1 (en) 2015-11-20 2019-12-11 Dolby Laboratories Licensing Corporation System and method for rendering an audio program
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
KR102358283B1 (ko) * 2016-05-06 2022-02-04 디티에스, 인코포레이티드 몰입형 오디오 재생 시스템
CN109313904B (zh) 2016-05-30 2023-12-08 索尼公司 视频音频处理设备和方法以及存储介质
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
JP7143843B2 (ja) * 2017-04-13 2022-09-29 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
CN110537373B (zh) * 2017-04-25 2021-09-28 索尼公司 信号处理装置和方法以及存储介质
WO2019013400A1 (ko) * 2017-07-09 2019-01-17 엘지전자 주식회사 비디오 화면 줌에 연동되는 오디오 출력 방법 및 출력 장치
CN111133775B (zh) * 2017-09-28 2021-06-08 株式会社索思未来 音响信号处理装置以及音响信号处理方法
WO2019149337A1 (en) * 2018-01-30 2019-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs
CN111801952A (zh) * 2018-03-08 2020-10-20 索尼公司 信息处理装置、信息处理方法、信息处理系统和程序
WO2019199040A1 (ko) * 2018-04-10 2019-10-17 가우디오랩 주식회사 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
SG11202012259RA (en) * 2018-07-04 2021-01-28 Sony Corp Information processing device and method, and program
GB2577698A (en) * 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
WO2021186104A1 (en) * 2020-03-16 2021-09-23 Nokia Technologies Oy Rendering encoded 6dof audio bitstream and late updates
US11743670B2 (en) * 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
GB202118094D0 (en) * 2021-12-14 2022-01-26 Nokia Technologies Oy A method and apparatus for AR scene modification

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
DE10154932B4 (de) 2001-11-08 2008-01-03 Grundig Multimedia B.V. Verfahren zur Audiocodierung
US7606372B2 (en) * 2003-02-12 2009-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for determining a reproduction position
DE10305820B4 (de) 2003-02-12 2006-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition
US7548657B2 (en) * 2005-06-25 2009-06-16 General Electric Company Adaptive video compression of graphical user interfaces using application metadata
JP5174527B2 (ja) * 2008-05-14 2013-04-03 日本放送協会 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
US8639368B2 (en) 2008-07-15 2014-01-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
WO2011020067A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. System for adaptively streaming audio objects
MX2012003785A (es) * 2009-09-29 2012-05-22 Fraunhofer Ges Forschung Decodificador de señal de audio, codificador de señal de audio, metodo para proveer una representacion de señal de mezcla ascendente, metodo para proveer una representacion de señal de mezcla descendente, programa de computadora y cadena de bits usando un valor de parametro de correlacion-inter-objeto-comun.
CN116390017A (zh) * 2010-03-23 2023-07-04 杜比实验室特许公司 音频再现方法和声音再现系统
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
JP5820487B2 (ja) * 2011-03-18 2015-11-24 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオコンテントを表すビットストリームのフレームにおけるフレーム要素位置決め
HUE054452T2 (hu) * 2011-07-01 2021-09-28 Dolby Laboratories Licensing Corp Rendszer és eljárás adaptív hangjel elõállítására, kódolására és renderelésére
KR102394141B1 (ko) * 2011-07-01 2022-05-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2637327A1 (en) 2012-03-09 2013-09-11 Harman International Industries Ltd. Audio mixing console with lighting control and method of mixing by means of a mixing console
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
WO2014032709A1 (en) * 2012-08-29 2014-03-06 Huawei Technologies Co., Ltd. Audio rendering system
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping

Also Published As

Publication number Publication date
US11900955B2 (en) 2024-02-13
BR112016022045B1 (pt) 2022-09-27
RU2016141642A (ru) 2018-04-26
AU2015238354B2 (en) 2018-11-08
US20190139562A1 (en) 2019-05-09
AU2015238354A1 (en) 2016-11-10
US10192563B2 (en) 2019-01-29
PT3123741T (pt) 2019-06-04
BR112016022045A2 (es) 2017-08-22
CA2943570A1 (en) 2015-10-01
RU2683380C2 (ru) 2019-03-28
PL3487189T3 (pl) 2023-09-18
EP3487189B1 (en) 2023-05-24
US10854213B2 (en) 2020-12-01
CN111276153A (zh) 2020-06-12
US20210065729A1 (en) 2021-03-04
CN106463128B (zh) 2020-02-21
AR099835A1 (es) 2016-08-24
CA2943570C (en) 2019-12-17
KR20160140784A (ko) 2016-12-07
CN106463128A (zh) 2017-02-22
ES2953685T3 (es) 2023-11-15
TW201603584A (zh) 2016-01-16
WO2015144766A1 (en) 2015-10-01
EP3487189A1 (en) 2019-05-22
KR101920356B1 (ko) 2018-11-21
EP2928216A1 (en) 2015-10-07
SG11201607953TA (en) 2016-10-28
MX2016012286A (es) 2016-11-30
PL3123741T3 (pl) 2019-08-30
EP4254988A3 (en) 2023-11-01
CN111276153B (zh) 2024-03-29
JP6734343B2 (ja) 2020-08-05
EP3123741B1 (en) 2019-02-20
MX355455B (es) 2018-04-18
FI3487189T3 (fi) 2023-08-11
JP6422995B2 (ja) 2018-11-14
JP2023175947A (ja) 2023-12-12
MY184715A (en) 2021-04-19
TWI595785B (zh) 2017-08-11
US20170011751A1 (en) 2017-01-12
US20230162749A1 (en) 2023-05-25
JP2020182227A (ja) 2020-11-05
JP2017513390A (ja) 2017-05-25
US11527254B2 (en) 2022-12-13
RU2016141642A3 (es) 2018-04-26
JP2019036987A (ja) 2019-03-07
EP4254988A2 (en) 2023-10-04
EP3123741A1 (en) 2017-02-01
PT3487189T (pt) 2023-08-29

Similar Documents

Publication Publication Date Title
ES2723965T3 (es) Aparato y procedimiento para el remapeo de objetos de audio relacionado con la pantalla
JP7116144B2 (ja) 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
ES2871224T3 (es) Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo