ES2956362T3 - Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores - Google Patents

Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores Download PDF

Info

Publication number
ES2956362T3
ES2956362T3 ES20209268T ES20209268T ES2956362T3 ES 2956362 T3 ES2956362 T3 ES 2956362T3 ES 20209268 T ES20209268 T ES 20209268T ES 20209268 T ES20209268 T ES 20209268T ES 2956362 T3 ES2956362 T3 ES 2956362T3
Authority
ES
Spain
Prior art keywords
audio
data
interaction
audio data
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20209268T
Other languages
English (en)
Inventor
Stephan Schreiner
Simone NEUKAM
Harald Fuchs
Jan Plogsties
Stefan Döhla
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2956362T3 publication Critical patent/ES2956362T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video stream to a specific local network, e.g. a Bluetooth® network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44227Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

Procesador de datos de audio, que comprende: una interfaz de receptor para recibir datos de audio codificados y metadatos relacionados con los datos de audio codificados; un analizador de metadatos para analizar los metadatos para determinar una posibilidad de manipulación de datos de audio; una interfaz de interacción para recibir una entrada de interacción y para generar, a partir de la entrada de interacción, datos de control de interacción relacionados con la posibilidad de manipulación de datos de audio; y un generador de flujo de datos para obtener los datos de control de interacción y los datos de audio codificados y los metadatos y para generar un flujo de datos de salida, comprendiendo el flujo de datos de salida los datos de audio codificados, al menos una parte de los metadatos, y los datos de control de interacción. . (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores
[0001] La presente invención se refiere a un procesador de datos de audio para procesar datos de audio en paquetes, un procedimiento para procesar datos de audio en paquetes y un programa informático para llevar a cabo el procedimiento de procesamiento de datos de audio en paquetes.
[0002] En instalaciones de aparatos electrónicos para Consumidores domésticos (CE), la funcionalidad se reparte entre varios dispositivos conectados por medio de interfaces normalizadas. Además, con frecuencia los equipos (de alta calidad) están construidos no solo formando un único dispositivo, sino que se dispone de sofisticados dispositivos únicos (considérense los receptores digitales externos, equipos de televisión, Receptores AVR). Estos dispositivos se comunican a través de interfaces normalizadas (tales como HDMI).
[0003] Mientras un primer dispositivo extrae los flujos deseados y ofrece todas las interfaces al usuario, con frecuencia un segundo dispositivo realiza la decodificación en “modo esclavo” sin interfaz alguna para el usuario. Cuando llega el momento de la interacción y control del decodificador por el usuario, es esencial transferir esta información del usuario desde el dispositivo #1 al dispositivo #2 en esta situación.
[0004] Por ejemplo, como se ilustra en la figura 9, a menudo un programa de televisión es recibido por un primer dispositivo tal como un receptor digital externo, que selecciona el canal de transmisión apropiado y extrae los flujos elementales pertinentes que contienen la esencia codificada buscada. Estos flujos extraídos pueden ser alimentados a un segundo dispositivo tal como un Receptor de Audio-Vídeo para su reproducción. La transmisión entre estos dos dispositivos se puede realizar transmitiendo una representación decodificada/descomprimida (audio PCM), o en una representación codificada, especialmente si se aplican restricciones de ancho de banda a la línea de interconexión utilizada.
[0005] Además, como la selección de los flujos deseados y/o, opcionalmente, la interacción con el usuario se realiza en el dispositivo #1 (por ejemplo, el receptor digital externo), en la mayoría de los casos solo este dispositivo ofrece una interfaz de control al usuario. El segundo dispositivo (por ejemplo, el Receptor de A/V) solo presenta una interfaz de configuración a la que habitualmente el usuario solo accede una vez al configurar el sistema y actúa en “modo esclavo” durante los períodos de operación normal.
[0006] Los esquemas modernos de códec de audio no solo admiten la codificación de señales de audio, sino que también ofrecen un medio para la interactividad con el usuario a fin de adaptar la reproducción y renderización del audio a las preferencias del oyente. El flujo de datos de audio consiste en un número de señales de audio codificadas, por ejemplo señales de canales u objetos de audio, e información de metadatos adjunta que describe cómo estas señales de audio forman una escena de audio que se renderiza a los altavoces.
[0007] Los ejemplos de objetos de audio son:
• diálogo en diferentes idiomas,
• diálogo adicional como descripción de audio, o
• fondo de música y efectos.
[0008] Los ejemplos de información de metadatos son:
• el nivel de volumen por defecto de cada señal de objeto (es decir, con qué volumen se debe mezclar para formar la señal mixta para la presentación al altavoz),
• la posición espacial por defecto (es decir, dónde debe ser renderizada),
• información, si se admite la interacción del usuario con respecto a un objeto específico, o
• información sobre cómo se permite interactuar al usuario, por ejemplo niveles de volumen mínimo/máximo o restricciones sobre las posiciones a las cuales el usuario puede redirigir los objetos.
• clasificación y/o descripción de los objetos de audio
[0009] En la técnica anterior, dicha interactividad del usuario puede proporcionarse en el lado del codificador, que también puede denominarse autoría. Por ejemplo, el documento US-2014/119-581-A1 describe una herramienta de autoría. Un autor, o creador de contenido, puede editar los metadatos asociados con los datos de audio. Dicha edición de los metadatos se realiza en el lado del codificador, de modo que los metadatos editados se transmiten del codificador al decodificador.
[0010] El documento Simone Füg y col.: "Object Interaction Use Cases and Technology" 108. MPEG Meeting; 31-3-2014 - 4-4-2014; Valencia; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), núm. m33224, del 27 de marzo de 2014 (2014-03-27), XP030061676 describe una autoría en el lado del codificador. Describe una posibilidad de interacción del usuario adicional en el lado del decodificador implementando un procesador de metadatos de objetos en el decodificador.
[0011] El documento Stephan Schreiner y col.: "Proposed MPEG-H 3D Audio stream format", 108. MPEG Meeting; 31-3-2014 - 4-4-2014; Valencia; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), núm. m33190, del 26 de marzo de 2014 (2014-03-26), XP030061642 describe una posibilidad de incrustar la carga útil de datos de audio codificados y los datos de configuración asociados en un flujo de transporte de sincronización automática. Para mejorar la sincronización del flujo de transporte, los paquetes de flujo de sincronización se pueden incrustar con mayor frecuencia y también se pueden usar paquetes de desfase de sincronización adicionales.
[0012] Para lograr la interactividad del usuario, es necesario que los decodificadores/renderizadores de audio (por ejemplo, el dispositivo #2) presenten una interfaz adicional (de entrada o interacción) para información de control para la interacción del usuario pretendida.
[0013] Por otro lado, también podría ser conveniente implementar el control del usuario para la selección de objetos de audio y la manipulación en el dispositivo #1 y alimentar estos datos al dispositivo #2 cuando se implementa la decodificación y renderización en el dispositivo #2 y no en el dispositivo #1.
[0014] Sin embargo, la transmisión de esos datos es restringida debido a que las conexiones normalizadas existentes no admiten la transmisión de datos de control del usuario ni/o información del renderizador.
[0015] Por otro lado, la selección de flujos y la interacción del usuario antes descritas con respecto al dispositivo #1, y la decodificación antes descrita con respecto al dispositivo #2 pueden ser procesadas por dos componentes funcionales separados contenidos dentro del mismo dispositivo y con las mismas restricciones a la transmisión de datos entre ambos componentes, es decir, que solo se dispone de una interfaz para datos codificados y datos de interacción del usuario, preferentemente la interfaz de interacción del dispositivo #1, y se puede omitir a la vez una segunda interfaz para datos de interacción del usuario, es decir, una interfaz habitualmente proporcionada por el dispositivo #2. Aunque tanto el dispositivo #1 como el dispositivo #2 están contenidos o implementados dentro del mismo dispositivo (hardware), esto lleva a la misma situación descrita con respecto al caso de los dispositivos #1 y #2 separados.
[0016] En consecuencia, un objetivo de la presente invención es mejorar los procesadores de datos de audio existentes para datos de audio en paquetes de tal manera que un usuario pueda manipular elementos de audio, como los objetos de audio, externamente desde un decodificador, en particular, sin la necesidad de implementar nuevos canales para los datos de interacción del usuario en interconexiones ya existentes.
[0017] Para obtener el caso de uso descrito y a fin de superar las limitaciones antes descritas, se propone incrustar los datos de información de control del usuario, o los datos de interacción en general, como una porción de datos adicional en el flujo de datos de audio aun codificados sin tener que decodificar el flujo de datos de audio codificados. De ese modo, el esfuerzo de implementación se traslada al propio códec.
[0018] En términos generales, el primer dispositivo puede ser configurado en forma de procesador de datos de audio para procesar datos de audio en paquetes, comprendiendo el procesador de datos de audio: una interfaz de receptor para recibir datos de audio codificados que comprenden elementos de audio y metadatos relacionados con los elementos de audio; un analizador de metadatos para analizar los metadatos para determinar una posibilidad de manipulación de datos de audio de los elementos de audio; una interfaz de interacción para recibir una entrada de interacción y para generar, a partir de la entrada de interacción, datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio externamente desde un decodificador, donde desde la interfaz de interacción un usuario puede seleccionar y manipular los elementos de audio para adaptar la presentación de audio a sus preferencias personales; y un generador de flujos de datos para obtener los datos de control de la interacción y los datos de audio codificados y los metadatos y para generar un flujo de datos de salida, comprendiendo el flujo de datos de salida los datos de audio aun codificados, los metadatos, y los datos de control de la interacción añadidos. Se definen otras formas de realización preferidas en las reivindicaciones dependientes y otras independientes que se adjuntan.
[0019] Los datos de audio codificados pueden comprender objetos de audio codificados separados, donde al menos una porción de los metadatos está asociada a un objeto de audio correspondiente, donde el analizador de metadatos está configurado para analizar la porción correspondiente a los objetos de audio codificados a fin de determinar, con respecto al menos a un objeto de audio, la posibilidad de manipulación de objetos, donde la interfaz de interacción está configurada para generar, con respecto al al menos un objeto de audio codificado, los datos de control de la interacción a partir de la entrada de interacción relacionada con el al menos un objeto de audio codificado. De esa manera, los objetos de audio pueden ser fácil y directamente manipulados dentro de sus correspondientes posibilidades de manipulación de objetos almacenadas dentro de los metadatos mediante el uso de los respectivos datos de control de la interacción.
[0020] La interfaz de interacción puede estar configurada para presentar, a un usuario, la posibilidad de manipulación de datos de audio derivada de los metadatos por el analizador de metadatos, y para recibir, del usuario, una entrada del usuario con respecto a la manipulación de datos específica de la posibilidad de manipulación de datos. Esto puede representar una manera práctica de ofrecer una interfaz del usuario a un usuario para interactuar con el dispositivo de la invención, por ejemplo para manipular objetos de audio, preferentemente externamente desde un decodificador.
[0021] El generador de flujos de datos puede estar configurado para procesar un flujo de datos que comprende los datos de audio codificados y los metadatos recibidos por la interfaz de receptor sin decodificar los datos de audio codificados, o para copiar los datos de audio codificados y al menos una porción de los metadatos sin cambios en el flujo de datos de salida, donde el generador de flujos de datos está configurado para añadir una porción adicional de datos que contiene los datos de control de la interacción a los datos de audio codificados y/o los metadatos contenidos en el flujo de datos de salida. Esto proporciona la ventaja de una menor complejidad, ya que no es necesario que el procesador de datos de audio decodifique las señales de audio. Solo necesita analizar los metadatos y reescribirlos en la parte de metadatos del flujo de datos de audio codificados.
[0022] El generador de flujos de datos puede estar configurado para generar, en el flujo de datos de salida, los datos de control de la interacción en el mismo formato que los metadatos. De esa manera, se puede integrar ventajosamente cualquier dato de control de la interacción al flujo de datos de salida.
[0023] El generador de flujos de datos puede estar configurado para asociar, con los datos de control de la interacción, un identificador en el flujo de datos de salida, siendo el identificador diferente de un identificador asociado a los metadatos. La ventaja de utilizar un identificador diferente para los metadatos manipulados es que se podría habilitar un decodificador remoto para identificar la interacción en virtud del flujo de datos manipulados recibido mientras se reciben también los datos originales.
[0024] El generador de flujos de datos puede estar configurado para añadir, a los datos de control de la interacción, datos de firma, indicando los datos de firma información sobre una aplicación, un dispositivo o un usuario que realiza una interacción, por ejemplo una manipulación de datos de audio o el suministro de la entrada del usuario. Mediante el transporte de los datos originales y los manipulados, es posible un reinicio de los metadatos. Una firma en los metadatos permite rastrear el origen de la manipulación.
[0025] El analizador de metadatos puede estar configurado para identificar una posibilidad de deshabilitación con respecto a uno o más objetos de audio representados por los datos de audio codificados, donde la interfaz de interacción está configurada para recibir una información de deshabilitación correspondiente al uno o más objetos de audio, y donde el generador de flujos de datos está configurado para marcar el uno o más objetos de audio como deshabilitados en los datos de control de la interacción o para eliminar el uno o más objetos de audio deshabilitados de los datos de audio codificados de manera que el flujo de datos de salida no incluya datos de audio codificados correspondientes al uno o más objetos de audio deshabilitados. Por consiguiente, el flujo de datos se puede adaptar a aquellos objetos de audio que estén disponibles en realidad o en el momento, de tal manera que se pueda reducir el contenido de datos total de un flujo de bits en curso.
[0026] El generador de flujos de datos puede estar configurado para generar de manera dinámica el flujo de datos de salida, donde en respuesta a una nueva entrada de interacción, los datos de control de la interacción se actualicen para coincidir con la nueva entrada de interacción, y donde el generador de flujos de datos está configurado para incluir los datos de control de la interacción actualizados en el flujo de datos de salida. De esa manera, se puede enviar un flujo de datos con información en tiempo real. Dicho de otro modo, se puede actualizar y procesar la entrada de interacción referente a cualquier valor de objeto de audio específico de manera expeditiva, preferentemente en tiempo real.
[0027] La interfaz de receptor puede estar configurada para recibir un flujo de datos de audio principales que comprende los datos de audio codificados y metadatos relacionados con los datos de audio codificados, y para recibir asimismo datos de audio opcionales que comprenden un objeto de audio opcional, donde los metadatos relacionados con dicho objeto de audio opcional están contenidos en dicho flujo de datos de audio principales. Con esta configuración, el procesador de datos de audio puede fusionar los datos de audio codificados del objeto de audio opcional seleccionado con el flujo de datos de audio principales dando lugar a un flujo de datos de audio completo de salida generado por el generador de flujos de datos. De esa manera, posteriormente o a petición también se pueden proporcionar a un usuario objetos de audio opcionales.
[0028] El analizador de metadatos puede estar configurado para determinar la posibilidad de manipulación de audio correspondiente a un objeto de audio faltante que no está incluido en los datos de audio codificados, donde la interfaz de interacción está configurada para recibir una entrada de interacción correspondiente al objeto de audio faltante, y donde la interfaz de receptor está configurada para solicitar datos de audio correspondientes al objeto de audio faltante a un proveedor de datos de audio o para recibir los datos de audio correspondientes al objeto de audio faltante de un subflujo diferente contenido en un flujo de transmisión o una conexión por protocolo de Internet. De esa manera, un dispositivo o un usuario puede manipular de antemano un objeto de audio adicional que opcionalmente está disponible, es decir, cuando falta en realidad. A continuación, se puede solicitar, entonces, el objeto de audio adicional a través de Internet u otro flujo de transmisión.
[0029] El generador de flujos de datos puede estar configurado para asignar, en el flujo de datos de salida, un tipo de paquetes adicional a los datos de control de la interacción, siendo el tipo de paquetes adicional diferente de los tipos de paquetes correspondientes a los datos de audio codificados y los metadatos, o donde el generador de flujos de datos está configurado para añadir, incorporándolos al flujo de datos de salida, datos de relleno de un tipo de paquetes de datos de relleno, donde una cantidad de datos de relleno se determina sobre la base de la demanda de tasa de datos determinada por una interfaz de salida del procesador de datos de audio. De esa manera, solo es necesario asignar un tipo de paquetes adicional para lograr el transporte de los metadatos manipulados o datos de control de la interacción, respectivamente. Además, puede ser necesario que el procesador de datos de audio añada datos de relleno adicionales a un flujo de transmisión de datos subsiguiente para cumplir con el requisito dado de tasa de datos normalmente más elevada correspondiente a ese vínculo. Estos datos de relleno pueden no contener información alguna y lo más probable es que sean ignorados por el decodificador.
[0030] El procesador de datos de audio puede ser implementado en forma de dispositivo separado, donde la interfaz de receptor puede conformar una entrada al dispositivo separado a través de una conexión por cable o inalámbrica, donde el procesador de datos de audio puede comprender además una interfaz de salida conectada al generador de flujos de datos, estando la interfaz de salida configurada para emitir el flujo de datos de salida, donde la interfaz de salida lleva a cabo una salida del dispositivo y comprende una interfaz inalámbrica o un conector por cable. De esa manera, se puede proporcionar una conectividad sencilla, por ejemplo dentro de una red.
[0031] La presente invención se puede realizar además mediante un procedimiento para procesar datos de audio en paquetes, comprendiendo el procedimiento: recibir datos de audio codificados que comprenden elementos de audio y metadatos relacionados con los elementos de audio; analizar los metadatos para determinar una posibilidad de manipulación de datos de audio de los elementos de audio; recibir una entrada de interacción y generar, a partir de la entrada de interacción, datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio externamente desde un decodificador, donde mediante dicha entrada de interacción un usuario puede seleccionar y manipular los elementos de audio para adaptar la presentación de audio a sus preferencias personales; y obtener los datos de control de la interacción y los datos de audio codificados y los metadatos y generar un flujo de datos de salida, comprendiendo el flujo de datos de salida los datos de audio codificados, los metadatos y los datos de control de la interacción añadidos.
[0032] La presente invención se puede realizar además mediante un programa informático para llevar a cabo, cuando se ejecuta en un ordenador o un procesador, el procedimiento de procesamiento de datos de audio antes mencionado.
[0033] La presente invención se puede realizar además por medio de las siguientes formas de realización:
La posibilidad de manipulación de datos de audio puede ser seleccionada de un grupo que comprende al menos una de una selección de un objeto, una selección entre varios idiomas, una selección de objetos de audio adicionales opcionales, una manipulación de objetos, un cambio de volumen de uno o más objetos, un cambio de posición de los objetos, como mover un comentario adicional de un altavoz central a un altavoz derecho o a una posición arbitraria entre ambos, una selección de opciones preestablecidas, en lugar de la selección y manipulación de cada objeto por separado, donde se selecciona una opción preestablecida de los metadatos, donde una opción preestablecida es una preselección de objetos recomendados por un creador de contenidos para una aplicación específica o una situación de uso específica, donde una opción preestablecida contiene una combinación de objetos con, por ejemplo, diferentes niveles de volumen, posiciones y datos de compresión de sonoridad/rango dinámico en comparación con una presentación por defecto.
[0034] El generador de flujos de datos puede estar configurado para generar los datos de control de la interacción como información independiente o como información dependiente, donde la información dependiente depende de los metadatos y da lugar, si se aplica a los datos de audio decodificados, junto con los metadatos, a una manipulación de datos definida por la entrada de interacción.
[0035] Los datos de audio codificados pueden comprender objetos de audio opcionales y los metadatos pueden comprender metadatos correspondientes a los objetos de audio opcionales, donde la interfaz de receptor puede estar configurada para recibir además un flujo de datos de audio principales que consta de datos de audio principales, donde el generador de flujos de datos puede estar configurado para generar el flujo de datos de salida de tal manera que el flujo de datos de salida comprenda adicionalmente los datos de audio principales.
[0036] El generador de flujos de datos puede estar configurado para añadir datos de protección contra errores al flujo de datos de salida y para asignar un tipo de paquetes adicional a los datos de protección contra errores, donde el generador de flujos de datos está configurado para derivar los datos de protección contra errores de los datos de audio codificados, los metadatos o los datos de control de la interacción.
[0037] El generador de flujos de datos puede estar configurado para generar el flujo de datos de salida en forma de flujo de datos para el flujo continuo o en forma de archivo basado en contenedores en un formato de archivo tal como el formato de archivos ISO MPEG-4.
[0038] También se sugiere que el procesador de datos de audio no tenga la funcionalidad de decodificar los datos de audio codificados.
[0039] El procesador de datos de audio puede ser implementado en un receptor digital externo, un aparato de televisión o un grabador-receptor de audio/vídeo.
[0040] El procesador de datos de audio puede comprender además una interfaz de salida para transmitir el flujo de datos de salida a un dispositivo adicional a través de una conexión HDMI.
[0041] El procesador de datos de audio también se puede proporcionar, es decir, integrar o implementar, junto con un decodificador dentro del mismo dispositivo (hardware). Por ejemplo, el procesador de datos de audio y un decodificador se pueden proporcionar juntos dentro de un televisor, un receptor digital externo, un receptor de A/V, o similar. El procesador de datos de audio y el decodificador se pueden comunicar por medio de estructuras de buses de datos internos. Esa configuración se puede desear especialmente en dispositivos de TV que comprenden soluciones de Sistemas basados en Chips (del inglés System-on-Chip (SoC)).
[0042] En consecuencia o de forma alternativa, el procesador de datos de audio puede ser implementado como un componente funcional independiente y separado en el mismo dispositivo de manera similar al caso descrito anteriormente con respecto al caso de un dispositivo separado, con la única diferencia de que la interfaz de salida realiza una salida del procesador de datos de audio en una conexión interna del dispositivo, por ejemplo utilizando un bus de datos interno.
[0043] Con respecto a las características antes citadas, el procesador de datos de audio según la invención es capaz de proporcionar una fácil interacción con un dispositivo o un usuario mientras que, al mismo tiempo, proporciona una configuración de dispositivo sencilla, preferentemente empleando instalaciones existentes.
[0044] Además, el procesador de datos de audio según la invención otorga una solución al problema antes citado incluyendo una interacción con dispositivos o interacción con el usuario como datos de interacción adicionales dentro del flujo de bits de audio. Mediante la implementación de las características anteriormente descritas, las implementaciones del decodificador pueden requerir solo una interfaz que tome tanto los datos de representación codificados como los datos de control de la interacción. Puede no ser necesario que las interconexiones ya existentes implementen nuevos canales para la información de control, sino que el esfuerzo de implementación se traslade al códec en sí. En configuraciones complejas, también se garantiza que la información de control de la interacción esté estrechamente vinculada a la esencia codificada y, por lo tanto, no se pueda perder al alimentarla a través de varias etapas de procesamiento.
[0045] En los dibujos se muestran ejemplos de las formas de realización según la presente invención y se explicarán a continuación, donde:
La fig. 1 muestra un procesador de datos de audio según la presente invención,
La fig. 2 muestra un procedimiento para procesar datos de audio según la invención,
La fig. 3 muestra un ejemplo de datos de audio codificados y metadatos relacionados,
La fig. 4 muestra un ejemplo de procesamiento de flujos de entrada y salida,
La fig. 5 muestra un ejemplo adicional de procesamiento de flujos de entrada y salida,
La fig. 6 muestra un procesador de datos de audio que procesa datos de audio opcionales,
La fig. 7 muestra un procesador de datos de audio que ha sido implementado en forma de dispositivo separado, La fig. 8 muestra un ejemplo de caso de uso con un primer dispositivo y un segundo dispositivo, y
La fig. 9 muestra un ejemplo de situación con un receptor digital externo y un Receptor de Audio-Vídeo.
[0046] En la totalidad de este documento, y en particular en la siguiente descripción, se utiliza el término “interacción” en el sentido de una interacción realizada por un usuario o una interacción realizada por un dispositivo, así como una interacción en general, es decir, una interacción en el sentido habitual. Dicho de otro modo, “interacción” se puede referir a una “interacción del usuario” o a una “interacción del dispositivo”, o a una interacción en general. En ciertas partes de la descripción, los términos “usuario” e “interacción” se utilizan como sinónimos. Por ejemplo, una interfaz del usuario se puede utilizar de manera equivalente en el sentido de una interfaz de interacción y viceversa.
[0047] Además, un “usuario” puede ser un usuario humano o un usuario máquina, como por ejemplo un dispositivo (hardware) o un dispositivo implementado por software.
[0048] Además, la interfaz del usuario puede estar presente como una configuración preestablecida específica del dispositivo que, de forma exclusiva o además de la entrada del usuario, puede controlar la manipulación de datos.
[0049] La figura 1 muestra un procesador de datos de audio 1 según la presente invención. El procesador de datos de audio 1 comprende una interfaz de receptor 2 para recibir un flujo de entrada codificado 15 que comprende datos de audio codificados 3 y metadatos 4. Los metadatos 4 están asociados a los datos de audio codificados 3, cuya relación se indica por medio de la flecha 110. Por ejemplo, los datos de audio codificados 3 pueden contener objetos de audio mientras que los metadatos 4 pueden contener información adicional sobre las posibilidades de manipulación de dichos objetos de audio.
[0050] El procesador de datos de audio 1 comprende además un analizador de metadatos 5 para analizar los metadatos 4 a fin de determinar una posibilidad de manipulación de datos de audio. Por ejemplo, un nivel de volumen regulable, una posición espacial regulable o un idioma seleccionable puede representar una posibilidad de manipulación de datos de audio de un objeto de audio.
[0051] Asimismo, el procesador de datos de audio 1 comprende una interfaz de interacción 6 para recibir una entrada de interacción 7. La interfaz de interacción 6 está configurada además para generar datos de control de la interacción 8 sobre la base de la entrada de interacción 7. Dichos datos de control de la interacción 8 están asociados a la posibilidad de manipulación de datos de audio antes citada. Por ejemplo, un usuario puede interactuar con el dispositivo regulando el nivel de volumen o la posición espacial de un objeto de audio, o seleccionando un idioma por medio de la interfaz de interacción 6. En este caso, la interfaz de interacción 6 es una interfaz del usuario 6 que puede generar datos de control del usuario 8 correspondientes, es decir, relacionados con la elección del usuario.
[0052] Además o por otro lado, la interfaz de interacción 6 puede ser una interfaz de interacción (específica) de un dispositivo 6. En este caso, la interfaz de interacción del dispositivo 6 está configurada para generar datos de control de la interacción del dispositivo 8 sobre la base de la entrada de interacción del dispositivo 7. Por ejemplo, podría haber un dispositivo tal como un auricular o similar conectado a la interfaz de interacción 6. La conexión entre el auricular y la interfaz de interacción 6 puede ser detectada por el procesador de audio y, por consiguiente, se puede considerar como entrada de interacción 7. De esa manera, al conectarse el auricular, la interfaz de interacción 6 proporciona datos de control de la interacción específicos para auriculares 8, como la manipulación de objetos de audio, por ejemplo una reducción automática del volumen, un idioma preseleccionado o un ajuste de la configuración de hardware.
[0053] Dicho de otro modo, en lugar de una interacción del usuario manual, la interfaz de interacción 6 selecciona automáticamente los objetos o los ajustes sobre la base de la detección de ciertos dispositivos. La interfaz de interacción 6 genera datos de control de la interacción específicos del dispositivo 8.
[0054] El procesador de datos de audio 1 comprende además un generador de flujos de datos 9. El generador de flujos de datos 9 obtiene los datos de control de la interacción 8, los datos de audio codificados 3 y los metadatos 4. El generador de flujos de datos 9 está configurado para generar un flujo de datos de salida 10 que comprende los datos de control de la interacción 8, los datos de audio codificados 3 y los metadatos 4 antes citados.
[0055] La figura 2 muestra un procedimiento correspondiente para procesar datos de audio según la presente invención.
[0056] En la etapa 201 se reciben datos de audio codificados 3 y metadatos relacionados 4.
[0057] En la etapa 202 se analizan los metadatos 4 para determinar una posibilidad de manipulación de datos de audio.
[0058] En la etapa 203 se recibe una entrada de interacción, donde se generan datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio a partir de dicha entrada de interacción en la etapa 204.
[0059] En la etapa 205 se obtienen los datos de control de la interacción y los datos de audio codificados y los metadatos, y se genera un flujo de datos de salida, donde dicho flujo de datos de salida comprende los datos de audio codificados, los metadatos y los datos de control de la interacción.
[0060] Con referencia a la figura 3, los datos de audio codificados 3 comprenden objetos de audio codificados 11, 12 separados. Además, al menos una porción 13, 14 de los metadatos 4 está asociada (según lo indican las flechas 110, 120) a un objeto de audio 11, 12 correspondiente. Por ejemplo, la porción 'MD1' 13 de los metadatos 4 está asociada al objeto de audio codificado 'AO1' 11 correspondiente, mientras que la porción 'MD2' 14 de los metadatos 4 está asociada a un objeto de audio codificado 'AO2' 12 correspondiente.
[0061] El analizador de metadatos 5 está configurado para analizar la porción 13, 14 correspondiente a los objetos de audio codificados 11, 12 a fin de determinar la posibilidad de manipulación de objetos de al menos uno de dichos objetos de audio 11, 12. Dicho de otro modo, el analizador de metadatos 5 analiza los metadatos 13, 14 correspondientes a los objetos de audio 11, 12 respectivos para determinar la posibilidad de manipulación de objetos de audio para cada objeto de audio 11, 12. Por ejemplo, el analizador de metadatos 5 determina que el objeto de audio 'AO1' 11 puede comprender un nivel de volumen regulable. El analizador de metadatos 5 puede presentar esta potencial capacidad de regulación del nivel de volumen (posibilidad de manipulación de objetos de audio) a un usuario a través de la interfaz del usuario 6.
[0062] La interfaz del usuario 6 está configurada para generar, con respecto al al menos un objeto de audio 11, 12, los datos de control del usuario 8 a partir de la entrada del usuario 7 relacionada con el al menos un objeto de audio codificado 11, 12. Por ejemplo, el usuario puede desear regular el nivel de volumen del objeto de audio 'AO1' 11 y de esa manera proporciona la entrada 7 respectiva a través de la interfaz del usuario 6. La interfaz del usuario 6 genera datos de control del usuario 8 respectivos que contienen la información de que el usuario desea regular el nivel de volumen del objeto de audio 'AO1' 11, y en qué medida desea hacerlo.
[0063] En consecuencia, la interfaz del usuario 6 está configurada para presentar a un usuario la posibilidad de manipulación de objetos de audio de un objeto de audio 11, 12 derivada de los metadatos 4 por el analizador de metadatos 5. La interfaz del usuario 6 está configurada a su vez para recibir una entrada de usuario 7 del usuario con respecto a la manipulación de datos específica (por ejemplo, un nivel de volumen específico o un idioma específico) de la posibilidad de manipulación de datos (por ejemplo, un rango de regulación del nivel de volumen o una serie de idiomas disponibles).
[0064] Con referencia a la figura 1 y a la figura 9, el generador de flujos de datos 9 está configurado para procesar un flujo de datos 15 que comprende los datos de audio codificados 3 y los metadatos 4 recibidos por la interfaz de receptor 2 sin decodificar los datos de audio codificados 3. Por ejemplo, suponiendo que un procesador de datos de audio 1 según la invención está implementado en un receptor digital externo 19, 26, éste puede enviar un flujo de datos de salida 10, 32 a un receptor de Audio-Vídeo externo 28, 33 que comprende un decodificador. En este caso, el flujo de datos de salida 10, 32 aún puede estar codificado, ya que la decodificación no será ejecutada por el receptor digital externo 19, 26 sino por el receptor de Audio-Vídeo 28, 33.
[0065] Alternativamente, el generador de flujos de datos 9 está configurado para copiar los datos de audio codificados 3 y los metadatos 4 sin cambios en el flujo de datos de salida 10.
[0066] En todo caso, el generador de flujos de datos 9 está configurado para añadir una porción adicional de datos que contiene los datos de control de la interacción 8 a los datos de audio codificados 3 y/o a los metadatos 4 en el flujo de datos de salida 10, como se puede ver en la figura 4.
[0067] Con referencia a la figura 5, el generador de flujos de datos 9 está configurado a su vez para fusionar dos flujos de entrada 15a, 15b para formar un flujo de salida común 10, donde una porción adicional de datos que contiene los datos de control de la interacción 8 se añade a los datos de audio codificados 3 y/o a los metadatos 4 en el flujo de datos de salida 10.
[0068] Preferentemente, el generador de flujos de datos 9 está configurado para generar, en el flujo de datos de salida 10, los datos de control de la interacción 8 en el mismo formato que los metadatos 4. De esa manera, se pueden combinar fácilmente los datos de control de la interacción 8 con los metadatos 4 disponibles.
[0069] Si, como se ha mencionado anteriormente, el generador de flujos de datos 9 copia los metadatos 4, los metadatos originales 4 pueden permanecer en el flujo de salida 10 además de todo metadato manipulado que contiene datos de control de la interacción 8 adicionales para objetos de audio 11, 12 respectivos. Tanto los metadatos originales como los manipulados pueden ser enviados a un decodificador 28, 33 para permitir que el decodificador 28, 33 identifique las diferencias como resultado de la interacción (usuario) y obtenga toda la información acerca de los valores por defecto pretendidos por el creador de contenidos, o bien calcule el resultado de la interacción (usuario) de los metadatos originales 4 y los metadatos manipulados 4' (o los datos de control de la interacción 8).
[0070] También con referencia a la figura 1, el generador de flujos de datos 9 está configurado para generar de manera dinámica el flujo de datos de salida 10. Cada vez que un usuario o un dispositivo proporciona una nueva entrada de interacción 7 a la interfaz de interacción 6, los datos de control de la interacción 8 se actualizan como corresponda para coincidir con dicha nueva entrada de interacción 7. El generador de flujos de datos 9 incluye estos datos de control de la interacción 8 actualizados en el flujo de datos de salida 10.
[0071] La figura 6 ilustra un procesador de datos de audio 1 según la invención, donde se procesa información de audio opcional. Como se puede ver, el flujo de datos de entrada 15 es un flujo de datos de audio principales que comprende datos de audio codificados 3 y metadatos 4 relacionados. Asimismo, la interfaz de receptor 2 recibe además datos de audio opcionales 16 que comprenden un objeto de audio opcional 17.
[0072] Sin embargo, los metadatos relacionados con dicho objeto de audio opcional adicional 'AOx' 17, es decir, la información con respecto a las posibilidades de manipulación de dicho objeto de audio opcional 'AOx' 17, están contenidos en el flujo de datos de audio principales 15. De esa manera, se conoce el objeto de audio 17 pero no está presente y, por lo tanto, es opcional.
[0073] Por ejemplo, el usuario escucha una orquesta que contiene batería, cuerdas y un piano. Opcionalmente se pueden añadir instrumentos de viento. Si el oyente desea añadir ahora un instrumento de viento, puede hacerlo añadiendo un instrumento de viento opcional, por ejemplo una trompeta, como objeto de audio opcional 17. Como las posibilidades de manipulación correspondientes a dicha trompeta ya están contenidas dentro de los metadatos 4 del flujo de datos de audio principales 15, el usuario tiene la posibilidad de manipular la trompeta ahora añadida según sus deseos.
[0074] También con referencia a la figura 6, dicho objeto de audio adicional 'AOx' 17 puede ser un objeto de audio faltante que no está incluido en los datos de audio codificados 3 y/o en los metadatos 4. De esa manera, no se conoce el objeto de audio 17 y por lo tanto falta.
[0075] En este caso, la interfaz de receptor 2 está configurada para solicitar datos de audio 16 pertenecientes a dicho objeto de audio 17 faltante a un proveedor de datos de audio 35. La interfaz de receptor 2 está configurada también para recibir dichos datos de audio 16 de un subflujo diferente contenido en un flujo de transmisión 36. La interfaz de receptor 2 está configurada a su vez para obtener dichos datos de audio 16 de Internet 37 por medio de una conexión por protocolo de Internet.
[0076] Por ejemplo, un usuario que está viendo una película puede optar por un idioma específico de la serie de idiomas disponible que contiene, por ejemplo, inglés, alemán y francés. Se conoce un cuarto idioma, pero no está presente y, por lo tanto, falta. Sin embargo, un cuarto idioma se puede proporcionar posteriormente a través de Internet, por ejemplo.
[0077] Con referencia a la figura 4 y a la figura 5 de nuevo, el flujo de datos de entrada 15 y el flujo de datos de salida 10 pueden estar disponibles generalmente en una estructura de paquetes. Por ejemplo, el transporte de audio MPEG-H a través de interfaces en serie está definido por la sintaxis de transporte MHAS (véase la sección 13 de N14459 (ISO/IEC 23008-3 Committee Draft Text) [1]). Esta sintaxis está definida en forma de paquetes.
[0078] Por lo tanto, para lograr el transporte de los metadatos manipulados 4 o los datos de control de la interacción 8, solo es necesario asignar un tipo de paquetes adicional para la nueva información de control.
[0079] Además, un primer dispositivo 'dispositivo #1' 19 que comprende el procesador de datos de audio 1 podría querer añadir datos de relleno 18 adicionales a un flujo de transmisión 10 subsiguiente para satisfacer el requisito de tasa de datos dado, habitualmente mucho más elevada, para ese vínculo. Estos datos de relleno 18 pueden no contener información alguna y se espera que sean ignorados por un segundo dispositivo que recibe el flujo de salida manipulado 10. Para lograr esto, se puede asignar un tipo de paquetes de datos adicional.
[0080] Además, como la capa de transporte de los flujos entrantes al 'dispositivo #1' 19 puede tener su propia protección contra errores, aunque el vínculo saliente no ofrece dicha capa de seguridad, el dispositivo #1 puede añadir paquetes de datos que contienen datos de verificación de paridad. Estos pueden ser añadidos a los flujos de MHAS como un tipo de paquetes adicional.
[0081] Además, como la capa de transporte puede transportar datos adicionales como información lateral, estos paquetes de datos también pueden estar contenidos en el flujo de audio MHAS como otro tipo de paquetes. Un ejemplo de estos datos son los descriptores contenidos en el flujo de Transporte y Programa de MPEG-2.
[0082] Otro ejemplo de almacenamiento de datos de audio codificados es el formato de archivos ISO mp4. Como ocurre con el formato de flujos, también es posible en el caso de un formato de archivos leer, manipular y reescribir los metadatos en el archivo o almacenar los datos de control del usuario además de los metadatos originales sin cambiar los datos de señal de audio codificados.
Referencias
[0083]
[1] ISO N14459 (ISO/IEC 23008-3 Committee Draft Text)
[2] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”
[3] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 -Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
[0084] Con referencia, ahora, a la figura 7, el procesador de datos de audio 1 se implementa en forma de dispositivo separado 'dispositivo #1' 19. En dicho dispositivo separado 19, la interfaz de receptor 2 forma una entrada 20 al dispositivo separado 19 a través de una conexión por cable 21 o una conexión inalámbrica 22.
[0085] El procesador de datos de audio 1 comprende además una interfaz de salida 23 que está conectada al generador de flujos de datos 9 y proporciona una salida para el dispositivo 19. Además, la interfaz de salida 23 está configurada para emitir el flujo de datos de salida 10 a través de una interfaz inalámbrica 24 o un conector por cable 25.
[0086] Se pueden describir más maneras de poner en práctica la invención, a modo de ejemplo, en una situación en la que se dispone de dos dispositivos separados. Un primer dispositivo 'dispositivo #1' comprende el procesador de datos de audio según la invención. Un segundo dispositivo 'dispositivo #2' recibe los datos de audio procesados, aunque aún codificados, del 'dispositivo #1' para decodificar dichos datos de audio.
[0087] Como se puede apreciar en las figuras 8 y 9, el primer dispositivo 19, 26 recibe un flujo de entrada 15 que comprende datos de audio codificados 3 y metadatos 4 relacionados. El primer dispositivo 19, 26 lee la información de metadatos 4 del flujo entrante de datos de audio 15 o del flujo de transporte y deja intactos los datos de señal de audio codificados 3. El primer dispositivo 19, 26 analiza los metadatos 4 y presenta información acerca de los objetos a la aplicación, por ejemplo en la interfaz de interacción 6, incluyendo las restricciones a la manipulación de objetos que forman parte de los metadatos 4.
[0088] Desde la interfaz de aplicación o interacción 6 un usuario puede seleccionar y manipular los objetos para adaptar la presentación de audio a sus preferencias personales:
• Selección de objetos: por ejemplo, seleccionar uno de varios idiomas, seleccionar objetos de audio adicionales opcionales, etc.
• Manipulación de objetos: por ejemplo, cambio de volumen de los objetos, cambio de la posición de los objetos, como el desplazamiento de un comentario adicional desde el altavoz central al altavoz derecho o una posición arbitraria entre estos,
• Selección de opciones preestablecidas: en lugar de seleccionar y manipular cada objeto por separado, el usuario también puede seleccionar una opción preestablecida de los metadatos. Una opción preestablecida es una preselección de objetos recomendada por el creador de contenidos para aplicaciones o situaciones de uso específicas. Una opción preestablecida puede contener una combinación de objetos con, por ejemplo, datos de compresión de niveles de volumen, posiciones y sonoridad/rango dinámico diferentes en comparación con la presentación por defecto.
[0089] En la etapa siguiente, el primer dispositivo 19, 26 almacena la información acerca de la interactividad del usuario (datos de control de la interacción 8) en los flujos de datos de audio codificados 10, 32. El primer dispositivo 19, 26 puede escribir los valores cambiados o la cantidad de manipulación, por ejemplo los valores de desplazamiento y el factor de multiplicación de nuevo en la parte de los metadatos 4 o una parte especializada del flujo de datos de audio codificados de manera que la salida del primer dispositivo 19, 26 sea, una vez más, un flujo de audio codificado 10, 32 válido.
[0090] El primer dispositivo 19, 26 puede usar un identificador, etiqueta o tipo de paquetes diferente para encapsular los metadatos manipulados o los datos de control del usuario 8, respectivamente. Los metadatos originales 4 pueden permanecer en el flujo de salida 10, 32 además de los metadatos manipulados. Se utiliza un identificador, etiqueta o tipo de paquetes diferente para los metadatos manipulados o los datos de control de la interacción 8, respectivamente, para habilitar al segundo dispositivo 28, 33 para identificar si los metadatos 4 han sido manipulados anteriormente. Los metadatos originales 4 permanecen en el flujo 10, 32 para permitir que el segundo dispositivo 28, 33 identifique las diferencias como resultado de la interacción del usuario o del dispositivo y para obtener toda la información acerca de los valores por defecto pretendidos por el creador de contenidos, o bien para calcular el resultado de la interacción del usuario o del dispositivo a partir de los metadatos originales 4 y los metadatos manipulados (o los datos de control del usuario 8).
[0091] Como parte de los metadatos manipulados, los datos de firma pueden estar incluidos en los metadatos 4. La firma puede contener información acerca de la aplicación, el dispositivo o el usuario que manipuló los metadatos 4.
[0092] Los objetos de audio que no son seleccionados por el usuario pueden ser marcados como deshabilitados en los metadatos 4 o los datos de control de la interacción 8, o alternativamente, la parte de audio codificada de estos objetos puede ser eliminada del flujo de audio 10.
[0093] El proceso de interactividad del usuario o del dispositivo puede ser dinámico, es decir, que cada vez que el usuario o el dispositivo cambia los ajustes para la selección y manipulación, el primer dispositivo 19, 26 escribe esos valores cambiados de nuevo en la parte de metadatos 4 del flujo de datos de audio codificados 10.
[0094] También es posible que el segundo dispositivo 28, 33 manipule a su vez los metadatos 4, ya sea debido a un proceso automático (por ejemplo, para adaptar la escena de audio a la situación de escucha) o a una interfaz de interacción adicional. En este caso, el segundo dispositivo 28, 33 puede reescribir los valores manipulados en el flujo de datos de audio codificados 10, por ejemplo sobrescribiendo los valores escritos por el primer dispositivo 19, 26.
[0095] Con referencia, de nuevo, a la figura 6, se describe una manera adicional de llevar a cabo la invención a modo de ejemplo en un denominado Caso de uso híbrido.
[0096] Los datos de audio codificados 3 de los objetos de audio opcionales 17 seleccionados pueden no formar parte del flujo de datos de audio principales 15, sino que pueden ser distribuidos utilizando otros canales de transporte. Por ejemplo, el flujo de datos de audio principales 15 es distribuido en un canal de transmisión, mientras que los datos de audio codificados 3 de los objetos de audio opcionales 17 son distribuidos bajo demanda a través de una conexión IP 37.
[0097] Los metadatos completos 4 correspondientes a todos los objetos están incluidos en el flujo de datos de audio principales 15 de tal manera que toda la información con respecto a la interacción y la selección de objetos esté disponible en el primer dispositivo 19. Por lo tanto, el proceso de interacción y almacenamiento de los datos de control de la interacción 8 al flujo 10 es idéntico al caso anteriormente descrito.
[0098] Si un usuario selecciona un objeto 17 y los datos de audio codificados 3 no son parte del flujo de datos de audio principales 15, el primer dispositivo 19 puede recibir los datos de audio codificados 3 de este objeto 17 a través de una conexión de datos diferente de la utilizada para el flujo de datos de audio principales 15, por ejemplo un subflujo diferente 36 dentro del flujo de transmisión o una conexión IP 37.
[0099] En el siguiente paso, el primer dispositivo 19 fusiona los datos de audio codificados 3 del objeto seleccionado 17 en el flujo de datos de audio principales 15, dando como resultado un flujo de datos de audio completo 10 para ser distribuido, a su vez, al segundo dispositivo 33.
[0100] Además, se propone una posibilidad de transportar los datos de interacción 8 incrustados en un flujo de bits MPEG-H 10 apropiado.
[0101] Como se puede ver en la figura 9, los sistemas multimedia avanzados con frecuencia no integran toda la funcionalidad deseada a un dispositivo único, sino que más bien implementan diferentes componentes funcionales en dispositivos especializados tales como receptores digitales externos 26, un aparato de televisión 27 o un receptor AVR 28, por ejemplo. Estos dispositivos se comunican a través de interfaces normalizadas tales como HDMI.
[0102] Sin embargo, también es posible que al menos el procesador de datos de audio y un decodificador estén integrados en un dispositivo único. El procesador de datos de audio puede ser proporcionado, es decir, integrado o implementado, junto con un decodificador dentro del mismo dispositivo (hardware). Por ejemplo, el procesador de datos de audio y un decodificador se pueden proporcionar en conjunto dentro de un televisor, un receptor digital externo, un receptor A/V, o similar. El procesador de datos de audio y el decodificador se pueden comunicar a través de estructuras de buses de datos internos. Esa configuración puede ser particularmente deseada en dispositivos de televisión que comprenden soluciones de Sistema en Chip (SoC).
[0103] En consecuencia o de forma alternativa, el procesador de datos de audio puede ser implementado como un componente funcional independiente y separado en el mismo dispositivo de manera similar al caso descrito anteriormente con respecto al caso de dos dispositivos separados, con la única diferencia de que la interfaz de salida realiza una salida del procesador de datos de audio en una conexión interna del dispositivo, por ejemplo utilizando un bus de datos interno.
[0104] Un caso de uso de reproducción de contenido de MPEG-H con múltiples dispositivos participantes es el caso en que un programa de televisión es recibido por un primer dispositivo 19 tal como un receptor digital externo (STB) 26, que selecciona el canal de transmisión apropiado y extrae los flujos elementales pertinentes que contienen la esencia codificada buscada. En este caso habitualmente también se implementa la interacción, es decir, el control del usuario para la selección de elementos de audio e interacción/manipulación.
[0105] El decodificador MPEG-H 31 puede no estar ubicado en el STB 26 sino, por el contrario, en el receptor de audio y vídeo (AVR) 28. Este caso de uso está ilustrado en la figura 9.
[0106] En este caso, es necesario alimentar los flujos extraídos al AVR 28 para la reproducción; la transmisión entre estos dos dispositivos 26, 28 se puede lograr ya sea transmitiendo una representación decodificada/ descomprimida (PCM con audio), o, especialmente si se aplican restricciones de ancho de banda a la línea de interconexión utilizada, en una representación codificada.
[0107] El AVR 28 solo proporciona entonces una interfaz de configuración a la que habitualmente el usuario accede solo una vez al configurar el sistema y actúa en “modo esclavo” en los períodos de operación normal.
[0108] Como la interacción tiene lugar en el STB (el dispositivo #1) 26 y la decodificación y renderización son implementadas en el AVR (el dispositivo #2) 28, es inevitable poder enviar al usuario información de interactividad del STB 26 al AVR 28.
[0109] Para lograr el caso de uso descrito y para superar las limitaciones descritas, se propone incluir datos de información de interacción 8 en los flujos de datos de audio codificados 10, como se puede ver en la figura 8.
[0110] El primer dispositivo 19 lee la información de metadatos 4 de la mpegh3daConfig() del flujo entrante de datos de audio 15 o a través de una señalización fuera de banda tal como los Descriptores de MPEG-2 TS. A continuación analiza los metadatos de elementos de audio 4 y presenta información acerca de los objetos en la interfaz de interacción 6, incluyendo las restricciones a la manipulación de objetos que forman parte de los metadatos 4. Desde la interfaz de interacción 6 el usuario puede seleccionar y manipular el elemento de audio para adaptar la presentación de audio a sus preferencias personales. Los “datos de interacción del usuario” describen la selección y manipulación de los objetos.
[0111] En el siguiente paso, el primer dispositivo 19 escribe estos datos en el flujo de datos de audio MHAS 32 utilizando un nuevo MHASPacketType. La salida del primer dispositivo 19 es, de nuevo, un flujo de audio codificado 10, 32 válido. Los metadatos originales 4 presentes en la mpegh3daConfig() y en los datos de señal de audio codificados 3 no se modifican.
[0112] La presencia de un paquete de este MHASPacketType habilita al segundo dispositivo 28, 33 para identificar que se ha producido una interacción (del usuario). Los metadatos originales 4 se mantienen en el flujo 10, 32 para permitir que el segundo dispositivo 10, 33 obtenga toda la información acerca de los valores por defecto, pretendidos por el creador de contenidos.
[0113] Los elementos de audio que no son seleccionados por el usuario pueden ser marcados como deshabilitados en los metadatos 4, o alternativamente se puede eliminar del flujo de audio 10 la parte de audio codificada 3 de los objetos.
[0114] El proceso de interacción, es decir, la interactividad del dispositivo o bien del usuario, puede ser dinámico, es decir, que cada vez que un usuario o un dispositivo cambia los ajustes para la selección y manipulación, el primer dispositivo 19, 26 escribe esos valores cambiados de nuevo en la parte específica del flujo de datos de audio codificados 10.
Extensión MHAS
[0115] El transporte de Audio MPEG-H a través de interfaces en serie está definido por la sintaxis de transporte de MHAS (véase la sección 13 de N14459 (ISO/IEC 23008-3 Committee Draft Text) [1]). Esta sintaxis se define en forma de paquetes. Por lo tanto, para lograr el transporte de los datos de interacción del usuario, solo se necesita asignar un tipo de paquetes adicional para la nueva información de control:
Tabla 1 — Sintaxis de MHASPacketPa load
Figure imgf000014_0001
Tabla 2 — Valor de MHASPacketT e
Figure imgf000014_0002
PACTYP_USERINTERACTION
[0116] La MHASPacketType PACTYP_JSERINTERACTION se puede utilizar para alimentar los datos de interacción de los elementos al decodificador.
[0117] Para este tipo de paquetes, MHASPacketLabel tiene el mismo valor que para el paquete de MHASPacketType PACTYP_MPEGH3DACFG, al cual hacen referencia los datos de interacción (usuario) 8.
Sintaxis
[0118] El elemento de sintaxis mpegh3daElementInteraction() (véase [2]) de la interfaz para interacción del usuario es reutilizado para llevar los datos de interacción (usuario) 8 contenidos en el flujo de bits 10.
Referencias
[0119]
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, “Normative Interface for User Interaction”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, 2-3 de junio de 2014, París, Francia
[0120] Además, se propone una posible sintaxis para una interfaz normativa para la interactividad con el usuario.
[0121] Se propone extraer la interfaz para el control de la interacción de la interfaz para el control de la renderización. A continuación, el elemento de sintaxis mpegh3daAudioRendering() define los parámetros de renderización y un elemento de sintaxis recientemente definido mpegh3daElementInteraction() contiene la información que se necesita para la interacción (usuario).
Definición del Elemento de sintaxis mpegh3daElementInteraction()
[0122] El elemento de sintaxis mpegh3daElementInteraction() proporciona una interfaz para cualquier posible interacción (usuario). Se definen dos modos de interacción.
[0123] El primero es un modo de interacción avanzada, en el cual se puede señalizar la interacción para cada grupo de elementos que está presente en la escena de audio. Este modo habilita al usuario para elegir libremente (dentro de las restricciones de las definiciones de los grupos de conmutación) qué grupos reproducir y para interactuar con todos ellos (dentro de los rangos y restricciones dados).
[0124] El segundo modo es un modo de interacción básica, en el que el usuario podría elegir una de las GroupPresets definidas (del elemento de sintaxis mae_AudioSceneInfo(), véase 14.2 de [1]) como opción preestablecida. Seguidamente se define el estado activo-inactivo de los grupos a los que se hace referencia en las condiciones de las GroupPresets elegidas y no puede ser cambiado por el usuario. El usuario solo puede cambiar el estado activo-inactivo de los demás grupos y las posiciones y ganancias de todos los grupos según las concesiones y rangos definidos.
[0125] Se distinguen cuatro modificaciones de elementos diferentes:
- Interactividad de Activación/Desactivación: se activa o desactiva un grupo de elementos (Nota editorial:
anteriormente llamada “cambio de objeto” [4])
- Interactividad de posiciones: se cambian las posiciones de un grupo de elementos (azimut, elevación y distancia, nota editorial: anteriormente llamada “cambio de posición” [4])
- Interactividad de ganancia: se cambia el nivel/ganancia de un grupo de elementos (Nota editorial:
anteriormente llamada “cambio de ganancia” [4])
- Interactividad por CABLE: una salida de CABLE es una salida arbitraria además de los altavoces conectados.
Se enruta el contenido de audio de los elementos de un grupo hacia una salida de cable, por ejemplo un contenido para personas con discapacidad auditiva o una pista de idioma adicional.
[0126] Todas las modificaciones se definen en un nivel de grupos de elementos, puesto que los grupos reúnen elementos relacionados que solo deben ser manipulados de forma conjunta.
[0127] Se introduce una firma para señalizar, por ejemplo, en qué dispositivo ha tenido lugar la interactividad.
Tabla 3a Sintaxis de m e h3daElementInteraction
Figure imgf000016_0001
_____________________________________________________________
eiJ nteractionSignatureDataLength Este campo define la longitud de la siguiente firma de interacción en Byte. ei_InteractionSignatureDataType Este campo define el tipo de firma. Los siguientes valores son posibles:
[0128] En la tabla 3b se expone una forma de realización adicional de mpegh3daElementInteraction():
Tabla 3b Sintaxis de m e h3daElementInteraction
Figure imgf000016_0002
__________________________________________________________
T l 4 V l r i In r i n n rD T
Figure imgf000016_0004
ei_InteractionSignatureData Este campo contiene una firma que define quién originó los datos de interacción.
[0129] En la tabla 4b se expone una forma de realización adicional de eiJnteractionSignatureDataType:
T l 4 V l r n r i n i n r D T
Figure imgf000016_0003
ei_InteractionSignatureData Este campo contiene una firma que define quién ha originado los datos de interacción.
hasLocalZoomAreaSize Indicador que define si hay información acerca del tamaño del área de zoom local. Si este indicador está habilitado, se aplica el Remapeo de Objetos para Zooming (acercamiento-alejamiento).
Tabla 5 Sintaxis de ElementInteractionData
Figure imgf000017_0001
________________________________________________________________
ei_interactionMode Indicador que define si se ha elegido el tipo de interacción avanzada o el modo de interacción básica.
ei_numGroups Este campo contiene el número de grupos en la escena de audio.
ei_groupPresetID Este campo contiene un groupPresetID que se define en la escena de audio. Esta ID refleja la elección preestablecida del usuario.
T l in xi i r In r iv
Figure imgf000017_0002
_______________________________________________________
ei_groupID GroupID correspondiente al grupo en curso del cual se describe la interacción.
ei_routeToWIRE Este campo define si el contenido de audio del grupo debe ser enrutado hacia una salida de CABLE.
ei_routeToWireID ID de la salida de CABLE hacia donde se debe enrutar el grupo.
ei onOff Define el estado activo-inactivo del grupo actual. En el caso de elegirse el modo de interacción básica (interacción en GroupPresets), este valor tiene que ser idéntico al estado activo-inactivo definido del grupo con ei_groupID si este grupo forma parte de las condiciones de la GroupPreset elegida con ei_groupPresetID. En el modo de interacción básica no se permite señalizar aquí un estado activo-inactivo diferente. El estado activo-inactivo de todos los grupos que no forman parte de las condiciones de la GroupPreset elegida, se podría señalizar el estado activo-inactivo de manera arbitraria.
ei_changePosition Este indicador define si la posición de los elementos del grupo se ha modificado.
ei azOffset El cambio de azimut se da como desplazamiento. Este campo puede asumir valores entre (continuación)
AzOffset=-180° y AzOffset=180°: AzOffset = 1.5 • (ei_azOffset - 128) AzOffset = min (max (AzOffset, -180), 180);
ei_elOffset El cambio de azimut se da como desplazamiento. Este campo puede asumir valores entre ElOffset=-90° y ElOffset=90°: ElOffset = 3 • (ei_elOffset - 32) ElOffset = min (max (ElOffset, -90), 90);
ei distFact La interacción de distancia se da en términos de factor de multiplicación. El campo puede asumir valores entre 0 y 15 para dar lugar a DistFactor entre 0,00025 y 8: DistFactor = 2((ei_distFactorr-8)-4) DistFactor = min(max (DistFactor, 0,00025), 8);
ei_changeGain Este indicador define si se ha cambiado la ganancia/nivel de los elementos del grupo. ei_gain Este campo define una ganancia adicional de los miembros del grupo en curso. El campo puede asumir valores entre 0 y 127 que representan valores de ganancia de entre Gain = -63 dB y Gain = 31 dB en pasos de 1 dB, con Gain [dB] = ei_gain - 64 Gain [dB] = min(max (Gain, -63), 31); Si ei_gain se ajusta a 0, Gain se debe ajustar a menos infinito dB.
[0130] En la tabla 6b se presenta una forma de realización adicional de ei_GroupInteractivityStatus():
T l in xi i r In r iv
Figure imgf000018_0001
_______________________________________________________
[0131] Los datos de interacción se definen según los campos de Elementos de audio de metadatos (véase 14.2 de [1]). En la definición de elementos de audio de metadatos, el rango de interactividad para la interactividad de ganancia se da en dB, los rangos de interactividad correspondientes a azimut y elevación se dan en términos de valores de desplazamiento mínimo y máximo (con la misma resolución que aquí: 1,5° en el caso del azimut y 3° en el caso de la elevación) y los rangos correspondientes a la distancia se dan en términos de factores de multiplicación. Por lo tanto, la interfaz se define de manera similar.
[0132] En el caso de la interacción del usuario, todos los cambios posibles (Activación/Desactivación, ganancia, posición, CABLE) correspondientes a todos los grupos de elementos están señalizados dentro de un elemento de sintaxis ElementInteraction() en lugar de usarse una repetición de un elemento de sintaxis por cada tipo de interacción y cada grupo o elemento.
[0133] La salida de CABLE también se define con respecto a los grupos que se desactivan, puesto que solo entonces es posible enrutar las pistas de idioma alternativos a una salida de CABLE. La posible lógica de grupo de conmutación violada tiene que ser tratada en el decodificador.
[0134] El tipo de contenidos (canal, objeto, HOA) que se había propuesto anteriormente en [4] es eliminado aquí. Ya es conocido implícitamente por la groupID, puesto que cada grupo de elementos tiene un signalGroupType (Canales, Objetos, SAOC, HOA) que define el tipo de contenido de las señales y se señaliza en el elemento de sintaxis Signals3d()).
Interacción básica por medio de GroupPresets
[0135] Si se establece el modo de interacción básica, el usuario puede elegir una de las GroupPresets definidas (del elemento de sintaxis mae_AudioSceneInfo() groupCollection, propuesto como tecnología posible en w14464 [7]).
[0136] Las condiciones de la opción preestablecida elegida definen el estado activo-inactivo de los grupos de referencia. El usuario no debe poder modificar el estado activo-inactivo de estos grupos.
[0137] El campo correspondiente ei_onOff del elemento de sintaxis ei_GroupInteractivityStatus [2] tiene que reflejar la condición establecida en la groupPreset elegida para todos los grupos a los que se hace referencia en las condiciones de la groupPreset elegida.
[0138] El estado activo-inactivo de todos los demás grupos puede ser elegido por el usuario.
Conclusión
[0139] Esta contribución propone una definición correspondiente a una interfaz para la interacción con el usuario. Se proporciona una definición de interfaz que da lugar a dos modos de interacción diferentes (básica y avanzada). Se propone adoptar la interfaz propuesta al CD.
Referencias
[0140]
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, “Rendering Interfaces to MPEG-H and Unification of Loudspeaker Signaling”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, 2-3 de junio de 2014, París, Francia
[3] ISO/IEC JTC1/SC29/WG11 N14463, “Normative Interface for Binaural Data”, abril de 2014, Valencia, España [4] ISO/IEC JTC1/SC29/WG11 M33134, “3D Audio Decoder Interfaces”, abril de 2014, Valencia, España (Aportación de Philips)
[5] ISO/IEC JTC1/SC29/WG11 M31427, “Thoughts on binaural parameterization of MPEG codecs”, octubre de 2013, Ginebra, Suiza (Aportación de Orange)
[6] ISO/IEC JTC1/SC29/WG11 M30249, “BRIR interface format: update and implementation”, julio de 2013, Viena, Austria (Aportación de Philips)
[7] ISO/IEC JTC1/SC29/WG11 N14464 “Candidate Technologies for 3D Audio”
[0141] Además, la sección 13 del texto de ISO/IEC 23008-3 CD [1] define la sintaxis de MHAS que se debe utilizar para encapsular las cargas útiles de Audio 3D de MPEG-H en los flujos (tiempo real). Con este documento se proponen capacidades adicionales para habilitar un uso fiable de MHAS en otros sistemas de transporte aparte del flujo de transporte de MPEG-2.
Filldata (Datos de relleno)
[0142] Ciertos canales de transmisión solo pueden ser operados a una tasa de bits instantánea constante. Para lograr esto, se propone un tipo de paquetes de datos de relleno para poder llenar el flujo de MHAS hasta obtener una tasa de bits determinada.
CRC
[0143] La capa de flujo de transporte MPEG-2 [2] se hace cargo de la protección del flujo elemental MHAS encapsulado. De esa manera se puede identificar la pérdida o corrupción de datos en la transmisión.
[0144] Por otra parte, las interfaces en serie comunes (por ejemplo, AES/EBU, S/PDIF, [3], [4], [5]) no ofrecen una protección suficiente contra errores. Se propone un tipo de paquetes CRC opcional para habilitar la detección de errores si se utiliza MHAS en tales interfaces.
Encapsulación de descriptores
[0145] Se utilizan flujos de MHAS para transportar audio codificado a y desde los codificadores/decodificadores (continuación)
de flujos de transporte MPEG-2. Se propone transportar información de descriptores relacionada en un tipo de paquetes MHAS adicional.
Tabla 7 — Sintaxis de MHASPacketPa load
Figure imgf000020_0001
Tabla 8a — Valor de MHASPacketT e
Figure imgf000020_0002
(continuación)
Figure imgf000021_0001
[0146] En la tabla 8b se detalla una forma de realización adicional de MHASPacketType:
Tabla 8b — Valor de MHASPacketT e
Figure imgf000021_0002
mhasParity16Data un campo de 16 bits que contiene el valor CRC que produce una salida de cero de los 16 registros en el decodificador con el polinomio:
X 16 + X 15 + X 5 + 1
y el estado inicial del registro de desplazamiento de 0xFFFF.
mhasParity32Data un campo de 32 bits que contiene el valor CRC que produce una salida de cero de los 32 registros en el decodificador con el polinomio:
X 32 + X 26 + X 23 + X 22 + X 16 + X 12 + X 11 + X 10 + X 8 + X 7 + X 5 + X 4 + X 2 + X 1
y el estado inicial del registro de desplazamiento de 0xFFFFFFFF. mhas_fill_data_byte elementos de datos de 8 bits, no se aplican restricciones
Marcador de Acceso Aleatorio / Reproducción Inmediata
[0147] Cuando el primer marker_byte de la carga útil del paquete es “0x02”, el siguiente paquete del tipo PACTYP_MPEG3DAFRAME con idéntica etiqueta MHASPacketLabel es codificado siguiendo las reglas establecidas en la sección 5.5.5 “Audio Preroll”.
Marcador de límites de programa
[0148] Cuando el primer marker_byte de la carga útil del paquete es “0x03”, se produce un límite de programa en este punto temporal y todos los paquetes siguientes pertenecen a un nuevo programa.
PSCTYP_CRC16 y PACTYP_CRC32
[0149] Se puede utilizar el MHASPacketType PACTYP_CRC16 y PACTYP_CRC32 para la detección de errores en el paquete anterior MHAS estableciendo MHASPacketLabel en el mismo valor. Seguirá directamente al paquete MHAS al que se refiere su valor CRC. Esto puede ser ventajoso cuando se transporta un flujo MHAS por un canal proclive a errores.
[0150] El procedimiento de detección de errores utiliza uno del generador de polinomios y estados de registro de desplazamiento asociados según lo definido respecto a mhasParity16Data o mhasParity32Data respectivamente.
[0151] Los bits incluidos en la verificación de CRC son la MHASPacketPayload() completa para el paquete MHAS asociado seguido de las palabras mhasParity16Data o mhasParity32Data respectivamente.
[0152] En caso de no haber error alguno, cada una de las salidas del registro de desplazamiento tiene que ser cero. En el codificador CRC el campo de datos mhasParity16Data / mhasParity32Data es codificado con un valor de tal forma que esto se garantice.
PACTYP_FILLDATA
[0153] El MHASPacketType PACTYP_FILLDATA ofrece la posibilidad de añadir datos de relleno para regular la tasa de bits instantánea. Esto puede ser deseable en ciertas aplicaciones en tiempo real utilizando un canal de transmisión de tasa constante.
[0154] Como los paquetes de este tipo no están asociados a ciertos datos de carga útil, MHASPacketLabel se ajusta a 0.
[0155] Se espera que el decodificador pase por alto los datos transmitidos en paquetes del tipo PACTYP_FILLDATA. Además, a las herramientas intermedias de procesamientos de flujos de MHAS se les permite eliminar dichos paquetes del flujo.
[0156] Se permite ajustar MHASPacketLength a 0. Esto da un tamaño mínimo de paquete de 2 bytes.
PACTYP_DESCRIPTOR
[0157] El PACTYP_DESCRIPTOR se puede utilizar para incorporar descriptores MPEG-2 TS/PS a flujos MHAS. Los datos transportados como mhas_descriptor_data_byte tienen la misma sintaxis y semántica que las definidas con respecto al descriptor() de ISO/IEC 13818-1.
[0158] Para este tipo de paquetes y en el caso de los descriptores transmitidos en el primer bucle de descriptores de TS_program_map_section() (véase ISO/IEC 13818-1), MHASPacketLabel se ajusta a 0.
[0159] Para este tipo de paquetes y para los descriptores asignados a un flujo elemental (es decir, el segundo bucle de descriptores de la TS_program_map_section()), MHASPacketLabel se ajusta al mismo valor que el PACTYPE_CONFIG del flujo elemental asociado.
Referencias
[0160]
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] ISO/IEC 13818-1:2013, Information technology — Generic Coding of moving pictures and associated audio information: Systems
[3] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”
[4] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 -Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
[5] SMPTE 2041: Format for Non-PCM Audio y Data in AES-3 - MPEG-4 AAC and HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers
[0161] Aunque la presente invención se ha descrito en el contexto de diagramas de bloques en los que los bloques representan componentes de hardware reales o lógicos, la presente invención también puede ser implementada por un procedimiento implementado por ordenador. En este último caso, los bloques representan pasos correspondientes del procedimiento, donde estos pasos representan las funcionalidades realizadas por bloques lógicos o físicos de hardware correspondientes.
[0162] Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, en el cual un bloque o dispositivo corresponde a un paso del procedimiento o a una característica de un paso del procedimiento. De manera análoga, los aspectos descritos en el contexto de un paso del procedimiento también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente. Algunos o todos los pasos del procedimiento pueden ser ejecutados por (o utilizando) un aparato de hardware, como por ejemplo un microprocesador, un ordenador programable o un circuito electrónico. En algunas formas de realización, uno o más de los pasos más importantes del procedimiento pueden ser ejecutados por ese tipo de aparato.
[0163] La señal de la invención transmitida o codificada puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como Internet.
[0164] Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales de control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se lleve a cabo el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0165] Algunas formas de realización según la invención comprenden un portador de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema informático programable, de tal manera que se lleve a cabo uno de los procedimientos descritos en esta invención.
[0166] En general, las formas de realización de la presente invención pueden ser implementadas en forma de producto de programa informático con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los procedimientos al ejecutarse el producto de programa informático en un ordenador. El código de programa puede ser almacenado, por ejemplo, en un portador legible por máquina.
[0167] Otras formas de realización comprenden el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención, almacenado en un portador legible por máquina.
[0168] Dicho de otro modo, una forma de realización del procedimiento de la invención consiste, por lo tanto, en un programa informático que consta de un código de programa para llevar a cabo uno de los procedimientos descritos en esta invención, al ejecutarse el programa informático en un ordenador.
[0169] Una forma de realización adicional del procedimiento de la invención consiste, por lo tanto, en un portador de datos (o un medio de almacenamiento no transitorio como un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. El portador de datos, el medio de almacenamiento digital o el medio grabado son por lo general tangibles y/o no transitorios.
[0170] Una forma de realización adicional del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo a través de Internet.
[0171] Una forma de realización adicional comprende un medio de procesamiento, por ejemplo un ordenador o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los procedimientos descritos en esta invención.
[0172] Una forma de realización adicional comprende un ordenador en el que se ha instalado el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención.
[0173] Una forma de realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, por vía electrónica u óptica) un programa informático para llevar a cabo uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.
[0174] En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables en el campo) para llevar a cabo algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas formas de realización, una matriz de puertas programables en el campo puede cooperar con un microprocesador para llevar a cabo uno de los procedimientos descritos en esta invención. Por lo general, los procedimientos se llevan a cabo preferentemente mediante cualquier aparato de hardware.
[0175] Las formas de realización anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención serán evidentes para otras personas expertas en la materia. Por lo tanto, solo se pretende limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a modo de descripción y explicación de las formas de realización de esta invención.

Claims (17)

REIVINDICACIONES
1. Procesador de datos de audio (1) para procesar datos de audio en paquetes, comprendiendo el procesador de datos de audio (1):
una interfaz de receptor (2) para recibir datos de audio codificados (3) que comprenden elementos de audio (11, 12) y metadatos (4) relacionados con los elementos de audio (11, 12);
un analizador de metadatos (5) para analizar los metadatos (4) para determinar una posibilidad de manipulación de datos de audio de los elementos de audio (11, 12);
una interfaz de interacción (6) para recibir una entrada de interacción (7) y para generar, a partir de la entrada de interacción (7), datos de control de la interacción (8) relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio (11, 12) externamente desde un decodificador;
donde desde la interfaz de interacción (6) un usuario puede seleccionar y manipular los elementos de audio (11, 12) para adaptar la presentación de audio a sus preferencias personales; y
un generador de flujos de datos (9) para obtener los datos de control de la interacción (8) y los datos de audio codificados (3) y los metadatos (4) y para generar un flujo de datos de salida (10), siendo el flujo de datos de salida (10) de nuevo un flujo de audio codificado válido que comprende los datos de audio aun codificados (3), los metadatos (4), y los datos de control de la interacción (8) añadidos.
2. El procesador de datos de audio (1) según la reivindicación 1, donde la interfaz de interacción (6) proporciona dos modos de interacción,
donde un primer modo de interacción es un modo de interacción avanzada que se señaliza para cada grupo de elementos de audio que está presente en una escena de audio para habilitar al usuario para elegir libremente qué grupos de elementos de audio reproducir y para interactuar con todos ellos, y
donde un segundo modo es un modo de interacción básica que comprende Group Presets, para habilitar al usuario para elegir una de las Group Presets como opción preestablecida,
donde los grupos de elementos de audio reúnen elementos de audio relacionados que serán manipulados de forma conjunta.
3. El procesador de datos de audio según la reivindicación 2,
donde las Group Presets comprenden al menos una de:
• una interactividad de Activación/Desactivación, donde se activa o desactiva un grupo de elementos; • una interactividad de posiciones, donde se cambian las posiciones de un grupo de elementos;
• una interactividad de ganancia, donde se cambia el nivel o ganancia de un grupo de elementos;
• una interactividad por CABLE, donde se enruta el contenido de audio de los elementos de un grupo hacia una salida de CABLE.
4. Procesador de datos de audio (1) según cualquiera de las reivindicaciones 1 a 3, donde los datos de audio codificados (3) comprenden objetos de audio codificados (11; 12) separados, donde al menos una porción (13; 14) de los metadatos (4) está asociada a un objeto de audio (11; 12) correspondiente,
donde el analizador de metadatos (5) está configurado para analizar la porción (13; 14) correspondiente para los objetos de audio codificados (11; 12) para determinar, para al menos un objeto de audio (11), la posibilidad de manipulación de objetos,
donde la interfaz de interacción (6) está configurada para generar, para el al menos un objeto de audio codificado (11), los datos de control de la interacción (8) a partir de la entrada de interacción (7) relacionada con el al menos un objeto de audio codificado (11).
5. Procesador de datos de audio (1) según cualquiera de las reivindicaciones 1 a 4, donde la interfaz de interacción (6) está configurada para presentar, a un usuario, la posibilidad de manipulación de datos de audio derivada de los metadatos (4) por el analizador de metadatos (5), y para recibir, del usuario, una entrada del usuario (7) con respecto a la manipulación de datos específica de la posibilidad de manipulación de datos.
6. Procesador de datos de audio según una de las reivindicaciones anteriores,
donde el generador de flujos de datos (9) está configurado para procesar un flujo de datos (15) que comprende los datos de audio codificados (3) y los metadatos (4) recibidos por la interfaz de receptor (2) sin decodificar los datos de audio codificados (3),
o para copiar los datos de audio codificados (3) y los metadatos (4) sin cambios en el flujo de datos de salida (10), y
donde el generador de flujos de datos (9) está configurado para añadir una porción de datos adicional que contiene los datos de control de la interacción (8) a los datos de audio codificados (3) y/o los metadatos (4) contenidos en el flujo de datos de salida (10).
7. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,
donde el generador de flujos de datos (9) está configurado para generar, en el flujo de datos de salida (10), los datos de control de la interacción (8) en el mismo formato que los metadatos (4).
8. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,
donde el generador de flujos de datos (9) está configurado para asociar, con los datos de control de la interacción (8), un identificador en el flujo de datos de salida (10), siendo el identificador diferente de un identificador asociado a los metadatos (4).
9. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,
donde el generador de flujos de datos (9) está configurado para añadir, a los datos de control de la interacción (8), datos de firma, indicando los datos de firma información acerca de una aplicación, un dispositivo o un usuario que lleva a cabo una manipulación de datos de audio o que proporciona la entrada de interacción.
10. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,
donde el analizador de metadatos (5) está configurado para identificar una posibilidad de deshabilitación para uno o más objetos de audio (11, 12) representados por los datos de audio codificados (3),
donde la interfaz de interacción (6) está configurada para recibir una información de deshabilitación para el uno o más objetos de audio (11, 12), y
donde el generador de flujos de datos (9) está configurado para marcar el uno o más objetos de audio (11, 12) como deshabilitados en los datos de control de la interacción (8) o para eliminar el uno o más objetos de audio (11, 12) deshabilitados de los datos de audio codificados (3) de manera que el flujo de datos de salida (10) no incluya datos de audio codificados (3) correspondientes al uno o más objetos de audio (11, 12) deshabilitados.
11. Procesador de datos de audio (1) según una de las reivindicaciones anteriores, donde el generador de flujos de datos (9) está configurado para generar de manera dinámica el flujo de datos de salida (10), donde en respuesta a una nueva entrada de interacción (7), los datos de control de la interacción (8) se actualizan para coincidir con la nueva entrada de interacción (7), y donde el generador de flujos de datos (9) está configurado para incluir los datos de control de la interacción (8) actualizados en el flujo de datos de salida (10).
12. Procesador de datos de audio (1) según una de las reivindicaciones anteriores, donde la interfaz de receptor (2) está configurada para recibir un flujo de datos de audio principales (15) que comprende los datos de audio codificados (3) y metadatos (4) relacionados con los datos de audio codificados (3), y para recibir asimismo datos de audio opcionales (16) que comprenden un objeto de audio opcional (17),
donde los metadatos (4) relacionados con dicho objeto de audio opcional (17) están contenidos en dicho flujo de datos de audio principales (15).
13. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,
donde el analizador de metadatos (5) está configurado para determinar la posibilidad de manipulación de audio para un objeto de audio opcional (17) que no está incluido en los datos de audio codificados (3),
donde la interfaz de interacción (6) está configurada para recibir una entrada de interacción (7) correspondiente al objeto de audio opcional (17), y
donde la interfaz de receptor (2) está configurada para solicitar datos de audio (16) para el objeto de audio opcional (17) de un proveedor de datos de audio (35) o para recibir los datos de audio (16) para el objeto de audio opcional (17) de un subflujo diferente contenido en un flujo de transmisión (36) o una conexión por protocolo de Internet (37).
14. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,
donde el generador de flujos de datos (9) está configurado para asignar, en el flujo de datos de salida (10), un tipo de paquetes adicional a los datos de control de la interacción (8), siendo el tipo de paquetes adicional diferente de los tipos de paquetes correspondientes a los datos de audio codificados (3) y los metadatos (4), o donde el generador de flujos de datos (9) está configurado para añadir, en el flujo de datos de salida (10), datos de relleno (18) en un tipo de paquetes de datos de relleno, donde se determina una cantidad de datos de relleno (18) en base a un requisito de tasa de datos determinada por una interfaz de salida del procesador de datos de audio.
15. Procesador de datos de audio (1) según una de las reivindicaciones anteriores que se implementa en forma de un primer dispositivo separado (19) que está separado de un segundo dispositivo (28) que está configurado para recibir los datos de audio procesados, pero aun codificados, del primer dispositivo (19) para decodificar dichos datos de audio, donde la interfaz de receptor (2) forma una entrada (20) al primer dispositivo separado (19) a través de una conexión por cable (21) o inalámbrica (22), donde el procesador de datos de audio (1) comprende además una interfaz de salida (23) conectada al generador de flujos de datos (9), estando la interfaz de salida (23) configurada para emitir el flujo de datos de salida (10), donde la interfaz de salida (23) lleva a cabo una salida del primer dispositivo separado (19) y comprende una interfaz inalámbrica (24) o un conector por cable (25).
16. Procedimiento para procesar datos de audio en paquetes, comprendiendo el procedimiento:
recibir datos de audio codificados (3) que comprenden elementos de audio (11, 12) y metadatos (4) relacionados con los elementos de audio (11, 12);
analizar los metadatos (4) para determinar una posibilidad de manipulación de datos de audio de los elementos de audio (11, 12);
recibir una entrada de interacción (7) y generar, a partir de la entrada de interacción (7), datos de control de la interacción (8) relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio (11, 12) externamente desde un decodificador;
donde mediante dicha entrada de interacción (7) un usuario puede seleccionar y manipular los elementos de audio (11, 12) para adaptar la presentación de audio a sus preferencias personales; y
obtener los datos de control de la interacción (8) y los datos de audio codificados (3) y los metadatos (4) y generar un flujo de datos de salida (10), siendo el flujo de datos de salida (10) de nuevo un flujo de audio codificado válido que comprende los datos de audio aun codificados (3), los metadatos (4) y los datos de control de la interacción (8) añadidos.
17. Programa informático para llevar a cabo, cuando se ejecuta en un ordenador o un procesador, el procedimiento de procesar datos de audio según la reivindicación 16.
ES20209268T 2014-05-28 2015-03-27 Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores Active ES2956362T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP14170416 2014-05-28

Publications (1)

Publication Number Publication Date
ES2956362T3 true ES2956362T3 (es) 2023-12-20

Family

ID=50884250

Family Applications (3)

Application Number Title Priority Date Filing Date
ES19163481T Active ES2883498T3 (es) 2014-05-28 2015-03-27 Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores
ES20209268T Active ES2956362T3 (es) 2014-05-28 2015-03-27 Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores
ES15713461T Active ES2739886T3 (es) 2014-05-28 2015-03-27 Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES19163481T Active ES2883498T3 (es) 2014-05-28 2015-03-27 Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES15713461T Active ES2739886T3 (es) 2014-05-28 2015-03-27 Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores

Country Status (19)

Country Link
US (4) US10674228B2 (es)
EP (4) EP4236331A3 (es)
JP (1) JP6371416B2 (es)
KR (1) KR101967810B1 (es)
CN (2) CN110177297B (es)
AR (6) AR100623A1 (es)
AU (1) AU2015266343B2 (es)
BR (1) BR112016027639B1 (es)
CA (1) CA2950197C (es)
ES (3) ES2883498T3 (es)
MX (1) MX359385B (es)
MY (1) MY174199A (es)
PL (3) PL3149955T3 (es)
PT (2) PT3522554T (es)
RU (1) RU2653858C1 (es)
SG (1) SG11201609920SA (es)
TW (1) TWI587283B (es)
WO (1) WO2015180866A1 (es)
ZA (1) ZA201608160B (es)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101048935B (zh) 2004-10-26 2011-03-23 杜比实验室特许公司 控制音频信号的单位响度或部分单位响度的方法和设备
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
WO2013173080A1 (en) 2012-05-18 2013-11-21 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
RU2665873C1 (ru) 2013-01-21 2018-09-04 Долби Лэборетериз Лайсенсинг Корпорейшн Оптимизация громкости и динамического диапазона через различные устройства воспроизведения
BR122016011963B1 (pt) 2013-01-21 2022-02-08 Dolby Laboratories Licensing Corporation Codificador e decodificador de áudio com sonoridade de programa e metadados de limite
JP6250071B2 (ja) 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
WO2014165304A1 (en) 2013-04-05 2014-10-09 Dolby Laboratories Licensing Corporation Acquisition, recovery, and matching of unique information from file-based media for automated file detection
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP3044876B1 (en) 2013-09-12 2019-04-10 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
JP6506764B2 (ja) 2013-09-12 2019-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
CN110808723B (zh) 2014-05-26 2024-09-17 杜比实验室特许公司 音频信号响度控制
CN111951814A (zh) * 2014-09-04 2020-11-17 索尼公司 传输设备、传输方法、接收设备以及接收方法
EP4092670A1 (en) * 2014-09-30 2022-11-23 Sony Group Corporation Transmitting device, transmission method, receiving device, and receiving method
ES2916254T3 (es) 2014-10-10 2022-06-29 Dolby Laboratories Licensing Corp Sonoridad de programa basada en la presentación, independiente de la transmisión
TWI631835B (zh) * 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
JP6699564B2 (ja) * 2015-02-10 2020-05-27 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2016129981A1 (ko) 2015-02-13 2016-08-18 삼성전자 주식회사 미디어 데이터를 송수신하는 방법 및 장치
US11223857B2 (en) * 2015-06-02 2022-01-11 Sony Corporation Transmission device, transmission method, media processing device, media processing method, and reception device
JP6308311B2 (ja) * 2015-06-17 2018-04-11 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10027994B2 (en) * 2016-03-23 2018-07-17 Dts, Inc. Interactive audio metadata handling
US10492016B2 (en) * 2016-09-29 2019-11-26 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same
MX2019008250A (es) 2017-01-10 2019-09-13 Fraunhofer Ges Forschung Decodificador de audio, codificador de audio, metodo para proveer una se?al de audio decodificada, metodo para proveer una se?al de audio codificada, flujo de audio, proveedor de flujos de audio y programa de computacion que utiliza un identificador de flujo.
US11595774B2 (en) 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
US11895369B2 (en) 2017-08-28 2024-02-06 Dolby Laboratories Licensing Corporation Media-aware navigation metadata
CN108122558B (zh) * 2017-12-22 2020-12-29 深圳国微技术有限公司 一种latm aac音频流的实时转容实现方法及装置
US11232805B2 (en) 2018-02-22 2022-01-25 Dolby International Ab Method and apparatus for processing of auxiliary media streams embedded in a MPEGH 3D audio stream
WO2019203627A1 (ko) * 2018-04-20 2019-10-24 엘지전자 주식회사 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
CN108521584B (zh) * 2018-04-20 2020-08-28 广州虎牙信息科技有限公司 互动信息处理方法、装置、主播侧设备和介质
CN117376505A (zh) 2018-05-07 2024-01-09 苹果公司 用于查看实况视频馈送和录制视频的用户界面
EP3841571B1 (en) 2018-08-21 2023-03-22 Dolby International AB Methods, apparatuses and systems for generation and processing of immediate playout frames (ipfs)
CN113508399A (zh) * 2019-03-15 2021-10-15 杜比国际公司 用于更新神经网络的方法和装置
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
CN110413253A (zh) * 2019-08-02 2019-11-05 北京清流鼎点科技有限公司 音频设备控制方法和装置、音频设备及存储介质
CN114303190A (zh) * 2019-08-15 2022-04-08 杜比国际公司 用于生成和处理经修改的音频比特流的方法和设备
KR102253524B1 (ko) * 2019-09-02 2021-05-20 네이버 주식회사 라우드니스 정규화 방법 및 시스템
EP4062649A2 (en) * 2019-11-20 2022-09-28 Dolby International AB Methods and devices for personalizing audio content
CN114115787A (zh) * 2020-09-01 2022-03-01 瑞昱半导体股份有限公司 用于音频传输界面上进行数据传输的信号传输方法与装置
EP4189682A1 (en) 2020-09-05 2023-06-07 Apple Inc. User interfaces for managing audio for media items
CN114650456B (zh) * 2020-12-17 2023-07-25 深圳Tcl新技术有限公司 一种音频描述符的配置方法、系统、存储介质及配置设备
KR20230021508A (ko) * 2021-08-05 2023-02-14 삼성전자주식회사 전자 장치 및 전자 장치의 멀티미디어 재생 방법
EP4322536A1 (en) 2021-08-05 2024-02-14 Samsung Electronics Co., Ltd. Electronic device and method for multimedia playback in electronic device
WO2023126528A1 (en) * 2021-12-30 2023-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-device and multi-user personalized and interactive audio through social media metadata
US11785285B1 (en) * 2022-05-20 2023-10-10 Lenbrook Industries Limited Audio video receiver (AVR) architecture

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6642966B1 (en) * 2000-11-06 2003-11-04 Tektronix, Inc. Subliminally embedded keys in video for synchronization
US7546173B2 (en) 2003-08-18 2009-06-09 Nice Systems, Ltd. Apparatus and method for audio content analysis, marking and summing
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4229058B2 (ja) * 2004-12-10 2009-02-25 ヤマハ株式会社 端末装置および記録媒体
RU2393556C2 (ru) * 2005-01-28 2010-06-27 Панасоник Корпорейшн Носитель записи, устройство воспроизведения и способы записи и воспроизведения
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
KR100749503B1 (ko) * 2005-08-29 2007-08-14 엠텍비젼 주식회사 프로세서와 오디오 입출력 제어기가 데이터 메모리를공유하는 방법 및 이를 위한 장치
FR2910586B1 (fr) * 2006-12-22 2009-02-06 Vernet Sa Vanne thermostatique de regulation d'un fluide, circuit de liquide de refroidissement incorporant une telle vanne et procede de fabrication d'une telle vanne.
US8175289B2 (en) * 2008-03-13 2012-05-08 Gordon Raymond L Digital audio distribution network
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5698156B2 (ja) * 2009-06-09 2015-04-08 トムソン ライセンシングThomson Licensing 復号装置、復号方法、および編集装置
TWI431611B (zh) * 2009-10-20 2014-03-21 Dolby Int Ab 用以基於下混信號表示型態提供上混信號表示型態之裝置、用以提供表示多聲道音訊信號的位元串流之裝置、使用失真控制發訊之方法、電腦程式與位元串流
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
US9258665B2 (en) * 2011-01-14 2016-02-09 Echostar Technologies L.L.C. Apparatus, systems and methods for controllable sound regions in a media room
KR101843834B1 (ko) * 2011-07-01 2018-03-30 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
US9373334B2 (en) * 2011-11-22 2016-06-21 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
JP6015085B2 (ja) * 2012-04-13 2016-10-26 船井電機株式会社 音声信号出力機器
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP6085029B2 (ja) * 2012-08-31 2017-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
BR122016011963B1 (pt) * 2013-01-21 2022-02-08 Dolby Laboratories Licensing Corporation Codificador e decodificador de áudio com sonoridade de programa e metadados de limite
RU2678323C2 (ru) * 2014-03-18 2019-01-28 Конинклейке Филипс Н.В. Потоки данных элементов аудиовизуального контента
US9971319B2 (en) * 2014-04-22 2018-05-15 At&T Intellectual Property I, Lp Providing audio and alternate audio simultaneously during a shared multimedia presentation
WO2015177224A1 (en) * 2014-05-21 2015-11-26 Dolby International Ab Configuring playback of audio via a home audio playback system

Also Published As

Publication number Publication date
MX2016015388A (es) 2017-02-22
US20220286756A1 (en) 2022-09-08
AR125775A2 (es) 2023-08-16
US12035018B2 (en) 2024-07-09
PT3149955T (pt) 2019-08-05
KR101967810B1 (ko) 2019-04-11
AR125776A2 (es) 2023-08-16
ES2883498T3 (es) 2021-12-07
ZA201608160B (en) 2017-08-30
TWI587283B (zh) 2017-06-11
EP4236331A3 (en) 2023-10-18
CN106537929B (zh) 2019-07-09
EP3800898C0 (en) 2023-07-19
US20200314505A1 (en) 2020-10-01
PT3522554T (pt) 2021-01-06
AU2015266343A8 (en) 2017-02-16
KR20170023870A (ko) 2017-03-06
BR112016027639A2 (es) 2017-08-22
EP3800898A1 (en) 2021-04-07
US11743553B2 (en) 2023-08-29
TW201610983A (zh) 2016-03-16
ES2739886T3 (es) 2020-02-04
PL3800898T3 (pl) 2023-12-27
EP3522554A1 (en) 2019-08-07
CN110177297B (zh) 2021-12-24
MX359385B (es) 2018-09-25
SG11201609920SA (en) 2016-12-29
CN106537929A (zh) 2017-03-22
AR125774A2 (es) 2023-08-16
MY174199A (en) 2020-03-13
JP6371416B2 (ja) 2018-08-08
US20230396856A1 (en) 2023-12-07
EP3522554B1 (en) 2020-12-02
EP3800898B1 (en) 2023-07-19
AR125773A2 (es) 2023-08-16
CA2950197C (en) 2019-01-15
JP2017523638A (ja) 2017-08-17
PL3149955T3 (pl) 2019-10-31
AU2015266343A1 (en) 2017-01-19
BR112016027639B1 (pt) 2023-11-14
RU2653858C1 (ru) 2018-05-15
US11381886B2 (en) 2022-07-05
WO2015180866A1 (en) 2015-12-03
EP4236331A2 (en) 2023-08-30
AR100623A1 (es) 2016-10-19
CA2950197A1 (en) 2015-12-03
EP3149955B1 (en) 2019-05-01
AR125772A2 (es) 2023-08-16
US10674228B2 (en) 2020-06-02
PL3522554T3 (pl) 2021-06-14
US20170223429A1 (en) 2017-08-03
EP3149955A1 (en) 2017-04-05
CN110177297A (zh) 2019-08-27
AU2015266343B2 (en) 2018-03-15

Similar Documents

Publication Publication Date Title
ES2956362T3 (es) Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores
ES2970490T3 (es) Optimización de la transmisión de audio para aplicaciones de realidad virtual
KR101800604B1 (ko) 오브젝트 기반 오디오의 상호 작용적 렌더링을 위한 방법들 및 시스템들
ES2461184T3 (es) Proveedor de flujo de transporte, proveedor de señal DAB, analizador de flujo de transporte, receptor DAB, procedimiento, programa informática y señal de flujo de transporte
BR112020007617A2 (pt) método e equipamento para uso e entrega eficaz de mensagens de áudio para experiência de alta qualidade
KR20210024131A (ko) 적응 스트리밍 정렬을 위한 프레임 변환
BR122020016999B1 (pt) Método de geração de um fluxo de dados do item de conteúdo audiovisual, e aparelho para gerar um fluxo de dados do item de conteúdo audiovisual