ES2956362T3

ES2956362T3 - Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores

Info

Publication number: ES2956362T3
Application number: ES20209268T
Authority: ES
Inventors: Stephan Schreiner; Simone NEUKAM; Harald Fuchs; Jan Plogsties; Stefan Döhla
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-05-28
Filing date: 2015-03-27
Publication date: 2023-12-20
Anticipated expiration: 2035-03-27
Also published as: MX2016015388A; US20220286756A1; AR125775A2; US12035018B2; PT3149955T; KR101967810B1; AR125776A2; ES2883498T3; ZA201608160B; TWI587283B; EP4236331A3; CN106537929B; EP3800898C0; US20200314505A1; PT3522554T; AU2015266343A8; KR20170023870A; BR112016027639A2; EP3800898A1; US11743553B2

Abstract

Procesador de datos de audio, que comprende: una interfaz de receptor para recibir datos de audio codificados y metadatos relacionados con los datos de audio codificados; un analizador de metadatos para analizar los metadatos para determinar una posibilidad de manipulación de datos de audio; una interfaz de interacción para recibir una entrada de interacción y para generar, a partir de la entrada de interacción, datos de control de interacción relacionados con la posibilidad de manipulación de datos de audio; y un generador de flujo de datos para obtener los datos de control de interacción y los datos de audio codificados y los metadatos y para generar un flujo de datos de salida, comprendiendo el flujo de datos de salida los datos de audio codificados, al menos una parte de los metadatos, y los datos de control de interacción. . (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores

[0001] La presente invención se refiere a un procesador de datos de audio para procesar datos de audio en paquetes, un procedimiento para procesar datos de audio en paquetes y un programa informático para llevar a cabo el procedimiento de procesamiento de datos de audio en paquetes.

[0002] En instalaciones de aparatos electrónicos para Consumidores domésticos (CE), la funcionalidad se reparte entre varios dispositivos conectados por medio de interfaces normalizadas. Además, con frecuencia los equipos (de alta calidad) están construidos no solo formando un único dispositivo, sino que se dispone de sofisticados dispositivos únicos (considérense los receptores digitales externos, equipos de televisión, Receptores AVR). Estos dispositivos se comunican a través de interfaces normalizadas (tales como HDMI).

[0003] Mientras un primer dispositivo extrae los flujos deseados y ofrece todas las interfaces al usuario, con frecuencia un segundo dispositivo realiza la decodificación en “modo esclavo” sin interfaz alguna para el usuario. Cuando llega el momento de la interacción y control del decodificador por el usuario, es esencial transferir esta información del usuario desde el dispositivo #1 al dispositivo #2 en esta situación.

[0004] Por ejemplo, como se ilustra en la figura 9, a menudo un programa de televisión es recibido por un primer dispositivo tal como un receptor digital externo, que selecciona el canal de transmisión apropiado y extrae los flujos elementales pertinentes que contienen la esencia codificada buscada. Estos flujos extraídos pueden ser alimentados a un segundo dispositivo tal como un Receptor de Audio-Vídeo para su reproducción. La transmisión entre estos dos dispositivos se puede realizar transmitiendo una representación decodificada/descomprimida (audio PCM), o en una representación codificada, especialmente si se aplican restricciones de ancho de banda a la línea de interconexión utilizada.

[0005] Además, como la selección de los flujos deseados y/o, opcionalmente, la interacción con el usuario se realiza en el dispositivo #1 (por ejemplo, el receptor digital externo), en la mayoría de los casos solo este dispositivo ofrece una interfaz de control al usuario. El segundo dispositivo (por ejemplo, el Receptor de A/V) solo presenta una interfaz de configuración a la que habitualmente el usuario solo accede una vez al configurar el sistema y actúa en “modo esclavo” durante los períodos de operación normal.

[0006] Los esquemas modernos de códec de audio no solo admiten la codificación de señales de audio, sino que también ofrecen un medio para la interactividad con el usuario a fin de adaptar la reproducción y renderización del audio a las preferencias del oyente. El flujo de datos de audio consiste en un número de señales de audio codificadas, por ejemplo señales de canales u objetos de audio, e información de metadatos adjunta que describe cómo estas señales de audio forman una escena de audio que se renderiza a los altavoces.

[0007] Los ejemplos de objetos de audio son:

• diálogo en diferentes idiomas,

• diálogo adicional como descripción de audio, o

• fondo de música y efectos.

[0008] Los ejemplos de información de metadatos son:

• el nivel de volumen por defecto de cada señal de objeto (es decir, con qué volumen se debe mezclar para formar la señal mixta para la presentación al altavoz),

• la posición espacial por defecto (es decir, dónde debe ser renderizada),

• información, si se admite la interacción del usuario con respecto a un objeto específico, o

• información sobre cómo se permite interactuar al usuario, por ejemplo niveles de volumen mínimo/máximo o restricciones sobre las posiciones a las cuales el usuario puede redirigir los objetos.

• clasificación y/o descripción de los objetos de audio

[0009] En la técnica anterior, dicha interactividad del usuario puede proporcionarse en el lado del codificador, que también puede denominarse autoría. Por ejemplo, el documento US-2014/119-581-A1 describe una herramienta de autoría. Un autor, o creador de contenido, puede editar los metadatos asociados con los datos de audio. Dicha edición de los metadatos se realiza en el lado del codificador, de modo que los metadatos editados se transmiten del codificador al decodificador.

[0010] El documento Simone Füg y col.: "Object Interaction Use Cases and Technology" 108. MPEG Meeting; 31-3-2014 - 4-4-2014; Valencia; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), núm. m33224, del 27 de marzo de 2014 (2014-03-27), XP030061676 describe una autoría en el lado del codificador. Describe una posibilidad de interacción del usuario adicional en el lado del decodificador implementando un procesador de metadatos de objetos en el decodificador.

[0011] El documento Stephan Schreiner y col.: "Proposed MPEG-H 3D Audio stream format", 108. MPEG Meeting; 31-3-2014 - 4-4-2014; Valencia; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), núm. m33190, del 26 de marzo de 2014 (2014-03-26), XP030061642 describe una posibilidad de incrustar la carga útil de datos de audio codificados y los datos de configuración asociados en un flujo de transporte de sincronización automática. Para mejorar la sincronización del flujo de transporte, los paquetes de flujo de sincronización se pueden incrustar con mayor frecuencia y también se pueden usar paquetes de desfase de sincronización adicionales.

[0012] Para lograr la interactividad del usuario, es necesario que los decodificadores/renderizadores de audio (por ejemplo, el dispositivo #2) presenten una interfaz adicional (de entrada o interacción) para información de control para la interacción del usuario pretendida.

[0013] Por otro lado, también podría ser conveniente implementar el control del usuario para la selección de objetos de audio y la manipulación en el dispositivo #1 y alimentar estos datos al dispositivo #2 cuando se implementa la decodificación y renderización en el dispositivo #2 y no en el dispositivo #1.

[0014] Sin embargo, la transmisión de esos datos es restringida debido a que las conexiones normalizadas existentes no admiten la transmisión de datos de control del usuario ni/o información del renderizador.

[0015] Por otro lado, la selección de flujos y la interacción del usuario antes descritas con respecto al dispositivo #1, y la decodificación antes descrita con respecto al dispositivo #2 pueden ser procesadas por dos componentes funcionales separados contenidos dentro del mismo dispositivo y con las mismas restricciones a la transmisión de datos entre ambos componentes, es decir, que solo se dispone de una interfaz para datos codificados y datos de interacción del usuario, preferentemente la interfaz de interacción del dispositivo #1, y se puede omitir a la vez una segunda interfaz para datos de interacción del usuario, es decir, una interfaz habitualmente proporcionada por el dispositivo #2. Aunque tanto el dispositivo #1 como el dispositivo #2 están contenidos o implementados dentro del mismo dispositivo (hardware), esto lleva a la misma situación descrita con respecto al caso de los dispositivos #1 y #2 separados.

[0016] En consecuencia, un objetivo de la presente invención es mejorar los procesadores de datos de audio existentes para datos de audio en paquetes de tal manera que un usuario pueda manipular elementos de audio, como los objetos de audio, externamente desde un decodificador, en particular, sin la necesidad de implementar nuevos canales para los datos de interacción del usuario en interconexiones ya existentes.

[0017] Para obtener el caso de uso descrito y a fin de superar las limitaciones antes descritas, se propone incrustar los datos de información de control del usuario, o los datos de interacción en general, como una porción de datos adicional en el flujo de datos de audio aun codificados sin tener que decodificar el flujo de datos de audio codificados. De ese modo, el esfuerzo de implementación se traslada al propio códec.

[0018] En términos generales, el primer dispositivo puede ser configurado en forma de procesador de datos de audio para procesar datos de audio en paquetes, comprendiendo el procesador de datos de audio: una interfaz de receptor para recibir datos de audio codificados que comprenden elementos de audio y metadatos relacionados con los elementos de audio; un analizador de metadatos para analizar los metadatos para determinar una posibilidad de manipulación de datos de audio de los elementos de audio; una interfaz de interacción para recibir una entrada de interacción y para generar, a partir de la entrada de interacción, datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio externamente desde un decodificador, donde desde la interfaz de interacción un usuario puede seleccionar y manipular los elementos de audio para adaptar la presentación de audio a sus preferencias personales; y un generador de flujos de datos para obtener los datos de control de la interacción y los datos de audio codificados y los metadatos y para generar un flujo de datos de salida, comprendiendo el flujo de datos de salida los datos de audio aun codificados, los metadatos, y los datos de control de la interacción añadidos. Se definen otras formas de realización preferidas en las reivindicaciones dependientes y otras independientes que se adjuntan.

[0019] Los datos de audio codificados pueden comprender objetos de audio codificados separados, donde al menos una porción de los metadatos está asociada a un objeto de audio correspondiente, donde el analizador de metadatos está configurado para analizar la porción correspondiente a los objetos de audio codificados a fin de determinar, con respecto al menos a un objeto de audio, la posibilidad de manipulación de objetos, donde la interfaz de interacción está configurada para generar, con respecto al al menos un objeto de audio codificado, los datos de control de la interacción a partir de la entrada de interacción relacionada con el al menos un objeto de audio codificado. De esa manera, los objetos de audio pueden ser fácil y directamente manipulados dentro de sus correspondientes posibilidades de manipulación de objetos almacenadas dentro de los metadatos mediante el uso de los respectivos datos de control de la interacción.

[0020] La interfaz de interacción puede estar configurada para presentar, a un usuario, la posibilidad de manipulación de datos de audio derivada de los metadatos por el analizador de metadatos, y para recibir, del usuario, una entrada del usuario con respecto a la manipulación de datos específica de la posibilidad de manipulación de datos. Esto puede representar una manera práctica de ofrecer una interfaz del usuario a un usuario para interactuar con el dispositivo de la invención, por ejemplo para manipular objetos de audio, preferentemente externamente desde un decodificador.

[0021] El generador de flujos de datos puede estar configurado para procesar un flujo de datos que comprende los datos de audio codificados y los metadatos recibidos por la interfaz de receptor sin decodificar los datos de audio codificados, o para copiar los datos de audio codificados y al menos una porción de los metadatos sin cambios en el flujo de datos de salida, donde el generador de flujos de datos está configurado para añadir una porción adicional de datos que contiene los datos de control de la interacción a los datos de audio codificados y/o los metadatos contenidos en el flujo de datos de salida. Esto proporciona la ventaja de una menor complejidad, ya que no es necesario que el procesador de datos de audio decodifique las señales de audio. Solo necesita analizar los metadatos y reescribirlos en la parte de metadatos del flujo de datos de audio codificados.

[0022] El generador de flujos de datos puede estar configurado para generar, en el flujo de datos de salida, los datos de control de la interacción en el mismo formato que los metadatos. De esa manera, se puede integrar ventajosamente cualquier dato de control de la interacción al flujo de datos de salida.

[0023] El generador de flujos de datos puede estar configurado para asociar, con los datos de control de la interacción, un identificador en el flujo de datos de salida, siendo el identificador diferente de un identificador asociado a los metadatos. La ventaja de utilizar un identificador diferente para los metadatos manipulados es que se podría habilitar un decodificador remoto para identificar la interacción en virtud del flujo de datos manipulados recibido mientras se reciben también los datos originales.

[0024] El generador de flujos de datos puede estar configurado para añadir, a los datos de control de la interacción, datos de firma, indicando los datos de firma información sobre una aplicación, un dispositivo o un usuario que realiza una interacción, por ejemplo una manipulación de datos de audio o el suministro de la entrada del usuario. Mediante el transporte de los datos originales y los manipulados, es posible un reinicio de los metadatos. Una firma en los metadatos permite rastrear el origen de la manipulación.

[0025] El analizador de metadatos puede estar configurado para identificar una posibilidad de deshabilitación con respecto a uno o más objetos de audio representados por los datos de audio codificados, donde la interfaz de interacción está configurada para recibir una información de deshabilitación correspondiente al uno o más objetos de audio, y donde el generador de flujos de datos está configurado para marcar el uno o más objetos de audio como deshabilitados en los datos de control de la interacción o para eliminar el uno o más objetos de audio deshabilitados de los datos de audio codificados de manera que el flujo de datos de salida no incluya datos de audio codificados correspondientes al uno o más objetos de audio deshabilitados. Por consiguiente, el flujo de datos se puede adaptar a aquellos objetos de audio que estén disponibles en realidad o en el momento, de tal manera que se pueda reducir el contenido de datos total de un flujo de bits en curso.

[0026] El generador de flujos de datos puede estar configurado para generar de manera dinámica el flujo de datos de salida, donde en respuesta a una nueva entrada de interacción, los datos de control de la interacción se actualicen para coincidir con la nueva entrada de interacción, y donde el generador de flujos de datos está configurado para incluir los datos de control de la interacción actualizados en el flujo de datos de salida. De esa manera, se puede enviar un flujo de datos con información en tiempo real. Dicho de otro modo, se puede actualizar y procesar la entrada de interacción referente a cualquier valor de objeto de audio específico de manera expeditiva, preferentemente en tiempo real.

[0027] La interfaz de receptor puede estar configurada para recibir un flujo de datos de audio principales que comprende los datos de audio codificados y metadatos relacionados con los datos de audio codificados, y para recibir asimismo datos de audio opcionales que comprenden un objeto de audio opcional, donde los metadatos relacionados con dicho objeto de audio opcional están contenidos en dicho flujo de datos de audio principales. Con esta configuración, el procesador de datos de audio puede fusionar los datos de audio codificados del objeto de audio opcional seleccionado con el flujo de datos de audio principales dando lugar a un flujo de datos de audio completo de salida generado por el generador de flujos de datos. De esa manera, posteriormente o a petición también se pueden proporcionar a un usuario objetos de audio opcionales.

[0028] El analizador de metadatos puede estar configurado para determinar la posibilidad de manipulación de audio correspondiente a un objeto de audio faltante que no está incluido en los datos de audio codificados, donde la interfaz de interacción está configurada para recibir una entrada de interacción correspondiente al objeto de audio faltante, y donde la interfaz de receptor está configurada para solicitar datos de audio correspondientes al objeto de audio faltante a un proveedor de datos de audio o para recibir los datos de audio correspondientes al objeto de audio faltante de un subflujo diferente contenido en un flujo de transmisión o una conexión por protocolo de Internet. De esa manera, un dispositivo o un usuario puede manipular de antemano un objeto de audio adicional que opcionalmente está disponible, es decir, cuando falta en realidad. A continuación, se puede solicitar, entonces, el objeto de audio adicional a través de Internet u otro flujo de transmisión.

[0029] El generador de flujos de datos puede estar configurado para asignar, en el flujo de datos de salida, un tipo de paquetes adicional a los datos de control de la interacción, siendo el tipo de paquetes adicional diferente de los tipos de paquetes correspondientes a los datos de audio codificados y los metadatos, o donde el generador de flujos de datos está configurado para añadir, incorporándolos al flujo de datos de salida, datos de relleno de un tipo de paquetes de datos de relleno, donde una cantidad de datos de relleno se determina sobre la base de la demanda de tasa de datos determinada por una interfaz de salida del procesador de datos de audio. De esa manera, solo es necesario asignar un tipo de paquetes adicional para lograr el transporte de los metadatos manipulados o datos de control de la interacción, respectivamente. Además, puede ser necesario que el procesador de datos de audio añada datos de relleno adicionales a un flujo de transmisión de datos subsiguiente para cumplir con el requisito dado de tasa de datos normalmente más elevada correspondiente a ese vínculo. Estos datos de relleno pueden no contener información alguna y lo más probable es que sean ignorados por el decodificador.

[0030] El procesador de datos de audio puede ser implementado en forma de dispositivo separado, donde la interfaz de receptor puede conformar una entrada al dispositivo separado a través de una conexión por cable o inalámbrica, donde el procesador de datos de audio puede comprender además una interfaz de salida conectada al generador de flujos de datos, estando la interfaz de salida configurada para emitir el flujo de datos de salida, donde la interfaz de salida lleva a cabo una salida del dispositivo y comprende una interfaz inalámbrica o un conector por cable. De esa manera, se puede proporcionar una conectividad sencilla, por ejemplo dentro de una red.

[0031] La presente invención se puede realizar además mediante un procedimiento para procesar datos de audio en paquetes, comprendiendo el procedimiento: recibir datos de audio codificados que comprenden elementos de audio y metadatos relacionados con los elementos de audio; analizar los metadatos para determinar una posibilidad de manipulación de datos de audio de los elementos de audio; recibir una entrada de interacción y generar, a partir de la entrada de interacción, datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio externamente desde un decodificador, donde mediante dicha entrada de interacción un usuario puede seleccionar y manipular los elementos de audio para adaptar la presentación de audio a sus preferencias personales; y obtener los datos de control de la interacción y los datos de audio codificados y los metadatos y generar un flujo de datos de salida, comprendiendo el flujo de datos de salida los datos de audio codificados, los metadatos y los datos de control de la interacción añadidos.

[0032] La presente invención se puede realizar además mediante un programa informático para llevar a cabo, cuando se ejecuta en un ordenador o un procesador, el procedimiento de procesamiento de datos de audio antes mencionado.

[0033] La presente invención se puede realizar además por medio de las siguientes formas de realización:

La posibilidad de manipulación de datos de audio puede ser seleccionada de un grupo que comprende al menos una de una selección de un objeto, una selección entre varios idiomas, una selección de objetos de audio adicionales opcionales, una manipulación de objetos, un cambio de volumen de uno o más objetos, un cambio de posición de los objetos, como mover un comentario adicional de un altavoz central a un altavoz derecho o a una posición arbitraria entre ambos, una selección de opciones preestablecidas, en lugar de la selección y manipulación de cada objeto por separado, donde se selecciona una opción preestablecida de los metadatos, donde una opción preestablecida es una preselección de objetos recomendados por un creador de contenidos para una aplicación específica o una situación de uso específica, donde una opción preestablecida contiene una combinación de objetos con, por ejemplo, diferentes niveles de volumen, posiciones y datos de compresión de sonoridad/rango dinámico en comparación con una presentación por defecto.

[0034] El generador de flujos de datos puede estar configurado para generar los datos de control de la interacción como información independiente o como información dependiente, donde la información dependiente depende de los metadatos y da lugar, si se aplica a los datos de audio decodificados, junto con los metadatos, a una manipulación de datos definida por la entrada de interacción.

[0035] Los datos de audio codificados pueden comprender objetos de audio opcionales y los metadatos pueden comprender metadatos correspondientes a los objetos de audio opcionales, donde la interfaz de receptor puede estar configurada para recibir además un flujo de datos de audio principales que consta de datos de audio principales, donde el generador de flujos de datos puede estar configurado para generar el flujo de datos de salida de tal manera que el flujo de datos de salida comprenda adicionalmente los datos de audio principales.

[0036] El generador de flujos de datos puede estar configurado para añadir datos de protección contra errores al flujo de datos de salida y para asignar un tipo de paquetes adicional a los datos de protección contra errores, donde el generador de flujos de datos está configurado para derivar los datos de protección contra errores de los datos de audio codificados, los metadatos o los datos de control de la interacción.

[0037] El generador de flujos de datos puede estar configurado para generar el flujo de datos de salida en forma de flujo de datos para el flujo continuo o en forma de archivo basado en contenedores en un formato de archivo tal como el formato de archivos ISO MPEG-4.

[0038] También se sugiere que el procesador de datos de audio no tenga la funcionalidad de decodificar los datos de audio codificados.

[0039] El procesador de datos de audio puede ser implementado en un receptor digital externo, un aparato de televisión o un grabador-receptor de audio/vídeo.

[0040] El procesador de datos de audio puede comprender además una interfaz de salida para transmitir el flujo de datos de salida a un dispositivo adicional a través de una conexión HDMI.

[0041] El procesador de datos de audio también se puede proporcionar, es decir, integrar o implementar, junto con un decodificador dentro del mismo dispositivo (hardware). Por ejemplo, el procesador de datos de audio y un decodificador se pueden proporcionar juntos dentro de un televisor, un receptor digital externo, un receptor de A/V, o similar. El procesador de datos de audio y el decodificador se pueden comunicar por medio de estructuras de buses de datos internos. Esa configuración se puede desear especialmente en dispositivos de TV que comprenden soluciones de Sistemas basados en Chips (del inglés System-on-Chip (SoC)).

[0042] En consecuencia o de forma alternativa, el procesador de datos de audio puede ser implementado como un componente funcional independiente y separado en el mismo dispositivo de manera similar al caso descrito anteriormente con respecto al caso de un dispositivo separado, con la única diferencia de que la interfaz de salida realiza una salida del procesador de datos de audio en una conexión interna del dispositivo, por ejemplo utilizando un bus de datos interno.

[0043] Con respecto a las características antes citadas, el procesador de datos de audio según la invención es capaz de proporcionar una fácil interacción con un dispositivo o un usuario mientras que, al mismo tiempo, proporciona una configuración de dispositivo sencilla, preferentemente empleando instalaciones existentes.

[0044] Además, el procesador de datos de audio según la invención otorga una solución al problema antes citado incluyendo una interacción con dispositivos o interacción con el usuario como datos de interacción adicionales dentro del flujo de bits de audio. Mediante la implementación de las características anteriormente descritas, las implementaciones del decodificador pueden requerir solo una interfaz que tome tanto los datos de representación codificados como los datos de control de la interacción. Puede no ser necesario que las interconexiones ya existentes implementen nuevos canales para la información de control, sino que el esfuerzo de implementación se traslade al códec en sí. En configuraciones complejas, también se garantiza que la información de control de la interacción esté estrechamente vinculada a la esencia codificada y, por lo tanto, no se pueda perder al alimentarla a través de varias etapas de procesamiento.

[0045] En los dibujos se muestran ejemplos de las formas de realización según la presente invención y se explicarán a continuación, donde:

La fig. 1 muestra un procesador de datos de audio según la presente invención,

La fig. 2 muestra un procedimiento para procesar datos de audio según la invención,

La fig. 3 muestra un ejemplo de datos de audio codificados y metadatos relacionados,

La fig. 4 muestra un ejemplo de procesamiento de flujos de entrada y salida,

La fig. 5 muestra un ejemplo adicional de procesamiento de flujos de entrada y salida,

La fig. 6 muestra un procesador de datos de audio que procesa datos de audio opcionales,

La fig. 7 muestra un procesador de datos de audio que ha sido implementado en forma de dispositivo separado, La fig. 8 muestra un ejemplo de caso de uso con un primer dispositivo y un segundo dispositivo, y

La fig. 9 muestra un ejemplo de situación con un receptor digital externo y un Receptor de Audio-Vídeo.

[0046] En la totalidad de este documento, y en particular en la siguiente descripción, se utiliza el término “interacción” en el sentido de una interacción realizada por un usuario o una interacción realizada por un dispositivo, así como una interacción en general, es decir, una interacción en el sentido habitual. Dicho de otro modo, “interacción” se puede referir a una “interacción del usuario” o a una “interacción del dispositivo”, o a una interacción en general. En ciertas partes de la descripción, los términos “usuario” e “interacción” se utilizan como sinónimos. Por ejemplo, una interfaz del usuario se puede utilizar de manera equivalente en el sentido de una interfaz de interacción y viceversa.

[0047] Además, un “usuario” puede ser un usuario humano o un usuario máquina, como por ejemplo un dispositivo (hardware) o un dispositivo implementado por software.

[0048] Además, la interfaz del usuario puede estar presente como una configuración preestablecida específica del dispositivo que, de forma exclusiva o además de la entrada del usuario, puede controlar la manipulación de datos.

[0049] La figura 1 muestra un procesador de datos de audio 1 según la presente invención. El procesador de datos de audio 1 comprende una interfaz de receptor 2 para recibir un flujo de entrada codificado 15 que comprende datos de audio codificados 3 y metadatos 4. Los metadatos 4 están asociados a los datos de audio codificados 3, cuya relación se indica por medio de la flecha 110. Por ejemplo, los datos de audio codificados 3 pueden contener objetos de audio mientras que los metadatos 4 pueden contener información adicional sobre las posibilidades de manipulación de dichos objetos de audio.

[0050] El procesador de datos de audio 1 comprende además un analizador de metadatos 5 para analizar los metadatos 4 a fin de determinar una posibilidad de manipulación de datos de audio. Por ejemplo, un nivel de volumen regulable, una posición espacial regulable o un idioma seleccionable puede representar una posibilidad de manipulación de datos de audio de un objeto de audio.

[0051] Asimismo, el procesador de datos de audio 1 comprende una interfaz de interacción 6 para recibir una entrada de interacción 7. La interfaz de interacción 6 está configurada además para generar datos de control de la interacción 8 sobre la base de la entrada de interacción 7. Dichos datos de control de la interacción 8 están asociados a la posibilidad de manipulación de datos de audio antes citada. Por ejemplo, un usuario puede interactuar con el dispositivo regulando el nivel de volumen o la posición espacial de un objeto de audio, o seleccionando un idioma por medio de la interfaz de interacción 6. En este caso, la interfaz de interacción 6 es una interfaz del usuario 6 que puede generar datos de control del usuario 8 correspondientes, es decir, relacionados con la elección del usuario.

[0052] Además o por otro lado, la interfaz de interacción 6 puede ser una interfaz de interacción (específica) de un dispositivo 6. En este caso, la interfaz de interacción del dispositivo 6 está configurada para generar datos de control de la interacción del dispositivo 8 sobre la base de la entrada de interacción del dispositivo 7. Por ejemplo, podría haber un dispositivo tal como un auricular o similar conectado a la interfaz de interacción 6. La conexión entre el auricular y la interfaz de interacción 6 puede ser detectada por el procesador de audio y, por consiguiente, se puede considerar como entrada de interacción 7. De esa manera, al conectarse el auricular, la interfaz de interacción 6 proporciona datos de control de la interacción específicos para auriculares 8, como la manipulación de objetos de audio, por ejemplo una reducción automática del volumen, un idioma preseleccionado o un ajuste de la configuración de hardware.

[0053] Dicho de otro modo, en lugar de una interacción del usuario manual, la interfaz de interacción 6 selecciona automáticamente los objetos o los ajustes sobre la base de la detección de ciertos dispositivos. La interfaz de interacción 6 genera datos de control de la interacción específicos del dispositivo 8.

[0054] El procesador de datos de audio 1 comprende además un generador de flujos de datos 9. El generador de flujos de datos 9 obtiene los datos de control de la interacción 8, los datos de audio codificados 3 y los metadatos 4. El generador de flujos de datos 9 está configurado para generar un flujo de datos de salida 10 que comprende los datos de control de la interacción 8, los datos de audio codificados 3 y los metadatos 4 antes citados.

[0055] La figura 2 muestra un procedimiento correspondiente para procesar datos de audio según la presente invención.

[0056] En la etapa 201 se reciben datos de audio codificados 3 y metadatos relacionados 4.

[0057] En la etapa 202 se analizan los metadatos 4 para determinar una posibilidad de manipulación de datos de audio.

[0058] En la etapa 203 se recibe una entrada de interacción, donde se generan datos de control de la interacción relacionados con la posibilidad de manipulación de datos de audio a partir de dicha entrada de interacción en la etapa 204.

[0059] En la etapa 205 se obtienen los datos de control de la interacción y los datos de audio codificados y los metadatos, y se genera un flujo de datos de salida, donde dicho flujo de datos de salida comprende los datos de audio codificados, los metadatos y los datos de control de la interacción.

[0060] Con referencia a la figura 3, los datos de audio codificados 3 comprenden objetos de audio codificados 11, 12 separados. Además, al menos una porción 13, 14 de los metadatos 4 está asociada (según lo indican las flechas 110, 120) a un objeto de audio 11, 12 correspondiente. Por ejemplo, la porción 'MD1' 13 de los metadatos 4 está asociada al objeto de audio codificado 'AO1' 11 correspondiente, mientras que la porción 'MD2' 14 de los metadatos 4 está asociada a un objeto de audio codificado 'AO2' 12 correspondiente.

[0061] El analizador de metadatos 5 está configurado para analizar la porción 13, 14 correspondiente a los objetos de audio codificados 11, 12 a fin de determinar la posibilidad de manipulación de objetos de al menos uno de dichos objetos de audio 11, 12. Dicho de otro modo, el analizador de metadatos 5 analiza los metadatos 13, 14 correspondientes a los objetos de audio 11, 12 respectivos para determinar la posibilidad de manipulación de objetos de audio para cada objeto de audio 11, 12. Por ejemplo, el analizador de metadatos 5 determina que el objeto de audio 'AO1' 11 puede comprender un nivel de volumen regulable. El analizador de metadatos 5 puede presentar esta potencial capacidad de regulación del nivel de volumen (posibilidad de manipulación de objetos de audio) a un usuario a través de la interfaz del usuario 6.

[0062] La interfaz del usuario 6 está configurada para generar, con respecto al al menos un objeto de audio 11, 12, los datos de control del usuario 8 a partir de la entrada del usuario 7 relacionada con el al menos un objeto de audio codificado 11, 12. Por ejemplo, el usuario puede desear regular el nivel de volumen del objeto de audio 'AO1' 11 y de esa manera proporciona la entrada 7 respectiva a través de la interfaz del usuario 6. La interfaz del usuario 6 genera datos de control del usuario 8 respectivos que contienen la información de que el usuario desea regular el nivel de volumen del objeto de audio 'AO1' 11, y en qué medida desea hacerlo.

[0063] En consecuencia, la interfaz del usuario 6 está configurada para presentar a un usuario la posibilidad de manipulación de objetos de audio de un objeto de audio 11, 12 derivada de los metadatos 4 por el analizador de metadatos 5. La interfaz del usuario 6 está configurada a su vez para recibir una entrada de usuario 7 del usuario con respecto a la manipulación de datos específica (por ejemplo, un nivel de volumen específico o un idioma específico) de la posibilidad de manipulación de datos (por ejemplo, un rango de regulación del nivel de volumen o una serie de idiomas disponibles).

[0064] Con referencia a la figura 1 y a la figura 9, el generador de flujos de datos 9 está configurado para procesar un flujo de datos 15 que comprende los datos de audio codificados 3 y los metadatos 4 recibidos por la interfaz de receptor 2 sin decodificar los datos de audio codificados 3. Por ejemplo, suponiendo que un procesador de datos de audio 1 según la invención está implementado en un receptor digital externo 19, 26, éste puede enviar un flujo de datos de salida 10, 32 a un receptor de Audio-Vídeo externo 28, 33 que comprende un decodificador. En este caso, el flujo de datos de salida 10, 32 aún puede estar codificado, ya que la decodificación no será ejecutada por el receptor digital externo 19, 26 sino por el receptor de Audio-Vídeo 28, 33.

[0065] Alternativamente, el generador de flujos de datos 9 está configurado para copiar los datos de audio codificados 3 y los metadatos 4 sin cambios en el flujo de datos de salida 10.

[0066] En todo caso, el generador de flujos de datos 9 está configurado para añadir una porción adicional de datos que contiene los datos de control de la interacción 8 a los datos de audio codificados 3 y/o a los metadatos 4 en el flujo de datos de salida 10, como se puede ver en la figura 4.

[0067] Con referencia a la figura 5, el generador de flujos de datos 9 está configurado a su vez para fusionar dos flujos de entrada 15a, 15b para formar un flujo de salida común 10, donde una porción adicional de datos que contiene los datos de control de la interacción 8 se añade a los datos de audio codificados 3 y/o a los metadatos 4 en el flujo de datos de salida 10.

[0068] Preferentemente, el generador de flujos de datos 9 está configurado para generar, en el flujo de datos de salida 10, los datos de control de la interacción 8 en el mismo formato que los metadatos 4. De esa manera, se pueden combinar fácilmente los datos de control de la interacción 8 con los metadatos 4 disponibles.

[0069] Si, como se ha mencionado anteriormente, el generador de flujos de datos 9 copia los metadatos 4, los metadatos originales 4 pueden permanecer en el flujo de salida 10 además de todo metadato manipulado que contiene datos de control de la interacción 8 adicionales para objetos de audio 11, 12 respectivos. Tanto los metadatos originales como los manipulados pueden ser enviados a un decodificador 28, 33 para permitir que el decodificador 28, 33 identifique las diferencias como resultado de la interacción (usuario) y obtenga toda la información acerca de los valores por defecto pretendidos por el creador de contenidos, o bien calcule el resultado de la interacción (usuario) de los metadatos originales 4 y los metadatos manipulados 4' (o los datos de control de la interacción 8).

[0070] También con referencia a la figura 1, el generador de flujos de datos 9 está configurado para generar de manera dinámica el flujo de datos de salida 10. Cada vez que un usuario o un dispositivo proporciona una nueva entrada de interacción 7 a la interfaz de interacción 6, los datos de control de la interacción 8 se actualizan como corresponda para coincidir con dicha nueva entrada de interacción 7. El generador de flujos de datos 9 incluye estos datos de control de la interacción 8 actualizados en el flujo de datos de salida 10.

[0071] La figura 6 ilustra un procesador de datos de audio 1 según la invención, donde se procesa información de audio opcional. Como se puede ver, el flujo de datos de entrada 15 es un flujo de datos de audio principales que comprende datos de audio codificados 3 y metadatos 4 relacionados. Asimismo, la interfaz de receptor 2 recibe además datos de audio opcionales 16 que comprenden un objeto de audio opcional 17.

[0072] Sin embargo, los metadatos relacionados con dicho objeto de audio opcional adicional 'AOx' 17, es decir, la información con respecto a las posibilidades de manipulación de dicho objeto de audio opcional 'AOx' 17, están contenidos en el flujo de datos de audio principales 15. De esa manera, se conoce el objeto de audio 17 pero no está presente y, por lo tanto, es opcional.

[0073] Por ejemplo, el usuario escucha una orquesta que contiene batería, cuerdas y un piano. Opcionalmente se pueden añadir instrumentos de viento. Si el oyente desea añadir ahora un instrumento de viento, puede hacerlo añadiendo un instrumento de viento opcional, por ejemplo una trompeta, como objeto de audio opcional 17. Como las posibilidades de manipulación correspondientes a dicha trompeta ya están contenidas dentro de los metadatos 4 del flujo de datos de audio principales 15, el usuario tiene la posibilidad de manipular la trompeta ahora añadida según sus deseos.

[0074] También con referencia a la figura 6, dicho objeto de audio adicional 'AOx' 17 puede ser un objeto de audio faltante que no está incluido en los datos de audio codificados 3 y/o en los metadatos 4. De esa manera, no se conoce el objeto de audio 17 y por lo tanto falta.

[0075] En este caso, la interfaz de receptor 2 está configurada para solicitar datos de audio 16 pertenecientes a dicho objeto de audio 17 faltante a un proveedor de datos de audio 35. La interfaz de receptor 2 está configurada también para recibir dichos datos de audio 16 de un subflujo diferente contenido en un flujo de transmisión 36. La interfaz de receptor 2 está configurada a su vez para obtener dichos datos de audio 16 de Internet 37 por medio de una conexión por protocolo de Internet.

[0076] Por ejemplo, un usuario que está viendo una película puede optar por un idioma específico de la serie de idiomas disponible que contiene, por ejemplo, inglés, alemán y francés. Se conoce un cuarto idioma, pero no está presente y, por lo tanto, falta. Sin embargo, un cuarto idioma se puede proporcionar posteriormente a través de Internet, por ejemplo.

[0077] Con referencia a la figura 4 y a la figura 5 de nuevo, el flujo de datos de entrada 15 y el flujo de datos de salida 10 pueden estar disponibles generalmente en una estructura de paquetes. Por ejemplo, el transporte de audio MPEG-H a través de interfaces en serie está definido por la sintaxis de transporte MHAS (véase la sección 13 de N14459 (ISO/IEC 23008-3 Committee Draft Text) [1]). Esta sintaxis está definida en forma de paquetes.

[0078] Por lo tanto, para lograr el transporte de los metadatos manipulados 4 o los datos de control de la interacción 8, solo es necesario asignar un tipo de paquetes adicional para la nueva información de control.

[0079] Además, un primer dispositivo 'dispositivo #1' 19 que comprende el procesador de datos de audio 1 podría querer añadir datos de relleno 18 adicionales a un flujo de transmisión 10 subsiguiente para satisfacer el requisito de tasa de datos dado, habitualmente mucho más elevada, para ese vínculo. Estos datos de relleno 18 pueden no contener información alguna y se espera que sean ignorados por un segundo dispositivo que recibe el flujo de salida manipulado 10. Para lograr esto, se puede asignar un tipo de paquetes de datos adicional.

[0080] Además, como la capa de transporte de los flujos entrantes al 'dispositivo #1' 19 puede tener su propia protección contra errores, aunque el vínculo saliente no ofrece dicha capa de seguridad, el dispositivo #1 puede añadir paquetes de datos que contienen datos de verificación de paridad. Estos pueden ser añadidos a los flujos de MHAS como un tipo de paquetes adicional.

[0081] Además, como la capa de transporte puede transportar datos adicionales como información lateral, estos paquetes de datos también pueden estar contenidos en el flujo de audio MHAS como otro tipo de paquetes. Un ejemplo de estos datos son los descriptores contenidos en el flujo de Transporte y Programa de MPEG-2.

[0082] Otro ejemplo de almacenamiento de datos de audio codificados es el formato de archivos ISO mp4. Como ocurre con el formato de flujos, también es posible en el caso de un formato de archivos leer, manipular y reescribir los metadatos en el archivo o almacenar los datos de control del usuario además de los metadatos originales sin cambiar los datos de señal de audio codificados.

Referencias

[0083]

[1] ISO N14459 (ISO/IEC 23008-3 Committee Draft Text)

[2] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”

[3] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 -Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"

[0084] Con referencia, ahora, a la figura 7, el procesador de datos de audio 1 se implementa en forma de dispositivo separado 'dispositivo #1' 19. En dicho dispositivo separado 19, la interfaz de receptor 2 forma una entrada 20 al dispositivo separado 19 a través de una conexión por cable 21 o una conexión inalámbrica 22.

[0085] El procesador de datos de audio 1 comprende además una interfaz de salida 23 que está conectada al generador de flujos de datos 9 y proporciona una salida para el dispositivo 19. Además, la interfaz de salida 23 está configurada para emitir el flujo de datos de salida 10 a través de una interfaz inalámbrica 24 o un conector por cable 25.

[0086] Se pueden describir más maneras de poner en práctica la invención, a modo de ejemplo, en una situación en la que se dispone de dos dispositivos separados. Un primer dispositivo 'dispositivo #1' comprende el procesador de datos de audio según la invención. Un segundo dispositivo 'dispositivo #2' recibe los datos de audio procesados, aunque aún codificados, del 'dispositivo #1' para decodificar dichos datos de audio.

[0087] Como se puede apreciar en las figuras 8 y 9, el primer dispositivo 19, 26 recibe un flujo de entrada 15 que comprende datos de audio codificados 3 y metadatos 4 relacionados. El primer dispositivo 19, 26 lee la información de metadatos 4 del flujo entrante de datos de audio 15 o del flujo de transporte y deja intactos los datos de señal de audio codificados 3. El primer dispositivo 19, 26 analiza los metadatos 4 y presenta información acerca de los objetos a la aplicación, por ejemplo en la interfaz de interacción 6, incluyendo las restricciones a la manipulación de objetos que forman parte de los metadatos 4.

[0088] Desde la interfaz de aplicación o interacción 6 un usuario puede seleccionar y manipular los objetos para adaptar la presentación de audio a sus preferencias personales:

• Selección de objetos: por ejemplo, seleccionar uno de varios idiomas, seleccionar objetos de audio adicionales opcionales, etc.

• Manipulación de objetos: por ejemplo, cambio de volumen de los objetos, cambio de la posición de los objetos, como el desplazamiento de un comentario adicional desde el altavoz central al altavoz derecho o una posición arbitraria entre estos,

• Selección de opciones preestablecidas: en lugar de seleccionar y manipular cada objeto por separado, el usuario también puede seleccionar una opción preestablecida de los metadatos. Una opción preestablecida es una preselección de objetos recomendada por el creador de contenidos para aplicaciones o situaciones de uso específicas. Una opción preestablecida puede contener una combinación de objetos con, por ejemplo, datos de compresión de niveles de volumen, posiciones y sonoridad/rango dinámico diferentes en comparación con la presentación por defecto.

[0089] En la etapa siguiente, el primer dispositivo 19, 26 almacena la información acerca de la interactividad del usuario (datos de control de la interacción 8) en los flujos de datos de audio codificados 10, 32. El primer dispositivo 19, 26 puede escribir los valores cambiados o la cantidad de manipulación, por ejemplo los valores de desplazamiento y el factor de multiplicación de nuevo en la parte de los metadatos 4 o una parte especializada del flujo de datos de audio codificados de manera que la salida del primer dispositivo 19, 26 sea, una vez más, un flujo de audio codificado 10, 32 válido.

[0090] El primer dispositivo 19, 26 puede usar un identificador, etiqueta o tipo de paquetes diferente para encapsular los metadatos manipulados o los datos de control del usuario 8, respectivamente. Los metadatos originales 4 pueden permanecer en el flujo de salida 10, 32 además de los metadatos manipulados. Se utiliza un identificador, etiqueta o tipo de paquetes diferente para los metadatos manipulados o los datos de control de la interacción 8, respectivamente, para habilitar al segundo dispositivo 28, 33 para identificar si los metadatos 4 han sido manipulados anteriormente. Los metadatos originales 4 permanecen en el flujo 10, 32 para permitir que el segundo dispositivo 28, 33 identifique las diferencias como resultado de la interacción del usuario o del dispositivo y para obtener toda la información acerca de los valores por defecto pretendidos por el creador de contenidos, o bien para calcular el resultado de la interacción del usuario o del dispositivo a partir de los metadatos originales 4 y los metadatos manipulados (o los datos de control del usuario 8).

[0091] Como parte de los metadatos manipulados, los datos de firma pueden estar incluidos en los metadatos 4. La firma puede contener información acerca de la aplicación, el dispositivo o el usuario que manipuló los metadatos 4.

[0092] Los objetos de audio que no son seleccionados por el usuario pueden ser marcados como deshabilitados en los metadatos 4 o los datos de control de la interacción 8, o alternativamente, la parte de audio codificada de estos objetos puede ser eliminada del flujo de audio 10.

[0093] El proceso de interactividad del usuario o del dispositivo puede ser dinámico, es decir, que cada vez que el usuario o el dispositivo cambia los ajustes para la selección y manipulación, el primer dispositivo 19, 26 escribe esos valores cambiados de nuevo en la parte de metadatos 4 del flujo de datos de audio codificados 10.

[0094] También es posible que el segundo dispositivo 28, 33 manipule a su vez los metadatos 4, ya sea debido a un proceso automático (por ejemplo, para adaptar la escena de audio a la situación de escucha) o a una interfaz de interacción adicional. En este caso, el segundo dispositivo 28, 33 puede reescribir los valores manipulados en el flujo de datos de audio codificados 10, por ejemplo sobrescribiendo los valores escritos por el primer dispositivo 19, 26.

[0095] Con referencia, de nuevo, a la figura 6, se describe una manera adicional de llevar a cabo la invención a modo de ejemplo en un denominado Caso de uso híbrido.

[0096] Los datos de audio codificados 3 de los objetos de audio opcionales 17 seleccionados pueden no formar parte del flujo de datos de audio principales 15, sino que pueden ser distribuidos utilizando otros canales de transporte. Por ejemplo, el flujo de datos de audio principales 15 es distribuido en un canal de transmisión, mientras que los datos de audio codificados 3 de los objetos de audio opcionales 17 son distribuidos bajo demanda a través de una conexión IP 37.

[0097] Los metadatos completos 4 correspondientes a todos los objetos están incluidos en el flujo de datos de audio principales 15 de tal manera que toda la información con respecto a la interacción y la selección de objetos esté disponible en el primer dispositivo 19. Por lo tanto, el proceso de interacción y almacenamiento de los datos de control de la interacción 8 al flujo 10 es idéntico al caso anteriormente descrito.

[0098] Si un usuario selecciona un objeto 17 y los datos de audio codificados 3 no son parte del flujo de datos de audio principales 15, el primer dispositivo 19 puede recibir los datos de audio codificados 3 de este objeto 17 a través de una conexión de datos diferente de la utilizada para el flujo de datos de audio principales 15, por ejemplo un subflujo diferente 36 dentro del flujo de transmisión o una conexión IP 37.

[0099] En el siguiente paso, el primer dispositivo 19 fusiona los datos de audio codificados 3 del objeto seleccionado 17 en el flujo de datos de audio principales 15, dando como resultado un flujo de datos de audio completo 10 para ser distribuido, a su vez, al segundo dispositivo 33.

[0100] Además, se propone una posibilidad de transportar los datos de interacción 8 incrustados en un flujo de bits MPEG-H 10 apropiado.

[0101] Como se puede ver en la figura 9, los sistemas multimedia avanzados con frecuencia no integran toda la funcionalidad deseada a un dispositivo único, sino que más bien implementan diferentes componentes funcionales en dispositivos especializados tales como receptores digitales externos 26, un aparato de televisión 27 o un receptor AVR 28, por ejemplo. Estos dispositivos se comunican a través de interfaces normalizadas tales como HDMI.

[0102] Sin embargo, también es posible que al menos el procesador de datos de audio y un decodificador estén integrados en un dispositivo único. El procesador de datos de audio puede ser proporcionado, es decir, integrado o implementado, junto con un decodificador dentro del mismo dispositivo (hardware). Por ejemplo, el procesador de datos de audio y un decodificador se pueden proporcionar en conjunto dentro de un televisor, un receptor digital externo, un receptor A/V, o similar. El procesador de datos de audio y el decodificador se pueden comunicar a través de estructuras de buses de datos internos. Esa configuración puede ser particularmente deseada en dispositivos de televisión que comprenden soluciones de Sistema en Chip (SoC).

[0103] En consecuencia o de forma alternativa, el procesador de datos de audio puede ser implementado como un componente funcional independiente y separado en el mismo dispositivo de manera similar al caso descrito anteriormente con respecto al caso de dos dispositivos separados, con la única diferencia de que la interfaz de salida realiza una salida del procesador de datos de audio en una conexión interna del dispositivo, por ejemplo utilizando un bus de datos interno.

[0104] Un caso de uso de reproducción de contenido de MPEG-H con múltiples dispositivos participantes es el caso en que un programa de televisión es recibido por un primer dispositivo 19 tal como un receptor digital externo (STB) 26, que selecciona el canal de transmisión apropiado y extrae los flujos elementales pertinentes que contienen la esencia codificada buscada. En este caso habitualmente también se implementa la interacción, es decir, el control del usuario para la selección de elementos de audio e interacción/manipulación.

[0105] El decodificador MPEG-H 31 puede no estar ubicado en el STB 26 sino, por el contrario, en el receptor de audio y vídeo (AVR) 28. Este caso de uso está ilustrado en la figura 9.

[0106] En este caso, es necesario alimentar los flujos extraídos al AVR 28 para la reproducción; la transmisión entre estos dos dispositivos 26, 28 se puede lograr ya sea transmitiendo una representación decodificada/ descomprimida (PCM con audio), o, especialmente si se aplican restricciones de ancho de banda a la línea de interconexión utilizada, en una representación codificada.

[0107] El AVR 28 solo proporciona entonces una interfaz de configuración a la que habitualmente el usuario accede solo una vez al configurar el sistema y actúa en “modo esclavo” en los períodos de operación normal.

[0108] Como la interacción tiene lugar en el STB (el dispositivo #1) 26 y la decodificación y renderización son implementadas en el AVR (el dispositivo #2) 28, es inevitable poder enviar al usuario información de interactividad del STB 26 al AVR 28.

[0109] Para lograr el caso de uso descrito y para superar las limitaciones descritas, se propone incluir datos de información de interacción 8 en los flujos de datos de audio codificados 10, como se puede ver en la figura 8.

[0110] El primer dispositivo 19 lee la información de metadatos 4 de la mpegh3daConfig() del flujo entrante de datos de audio 15 o a través de una señalización fuera de banda tal como los Descriptores de MPEG-2 TS. A continuación analiza los metadatos de elementos de audio 4 y presenta información acerca de los objetos en la interfaz de interacción 6, incluyendo las restricciones a la manipulación de objetos que forman parte de los metadatos 4. Desde la interfaz de interacción 6 el usuario puede seleccionar y manipular el elemento de audio para adaptar la presentación de audio a sus preferencias personales. Los “datos de interacción del usuario” describen la selección y manipulación de los objetos.

[0111] En el siguiente paso, el primer dispositivo 19 escribe estos datos en el flujo de datos de audio MHAS 32 utilizando un nuevo MHASPacketType. La salida del primer dispositivo 19 es, de nuevo, un flujo de audio codificado 10, 32 válido. Los metadatos originales 4 presentes en la mpegh3daConfig() y en los datos de señal de audio codificados 3 no se modifican.

[0112] La presencia de un paquete de este MHASPacketType habilita al segundo dispositivo 28, 33 para identificar que se ha producido una interacción (del usuario). Los metadatos originales 4 se mantienen en el flujo 10, 32 para permitir que el segundo dispositivo 10, 33 obtenga toda la información acerca de los valores por defecto, pretendidos por el creador de contenidos.

[0113] Los elementos de audio que no son seleccionados por el usuario pueden ser marcados como deshabilitados en los metadatos 4, o alternativamente se puede eliminar del flujo de audio 10 la parte de audio codificada 3 de los objetos.

[0114] El proceso de interacción, es decir, la interactividad del dispositivo o bien del usuario, puede ser dinámico, es decir, que cada vez que un usuario o un dispositivo cambia los ajustes para la selección y manipulación, el primer dispositivo 19, 26 escribe esos valores cambiados de nuevo en la parte específica del flujo de datos de audio codificados 10.

Extensión MHAS

[0115] El transporte de Audio MPEG-H a través de interfaces en serie está definido por la sintaxis de transporte de MHAS (véase la sección 13 de N14459 (ISO/IEC 23008-3 Committee Draft Text) [1]). Esta sintaxis se define en forma de paquetes. Por lo tanto, para lograr el transporte de los datos de interacción del usuario, solo se necesita asignar un tipo de paquetes adicional para la nueva información de control:

Tabla 1 — Sintaxis de MHASPacketPa load

Tabla 2 — Valor de MHASPacketT e

PACTYP_USERINTERACTION

[0116] La MHASPacketType PACTYP_JSERINTERACTION se puede utilizar para alimentar los datos de interacción de los elementos al decodificador.

[0117] Para este tipo de paquetes, MHASPacketLabel tiene el mismo valor que para el paquete de MHASPacketType PACTYP_MPEGH3DACFG, al cual hacen referencia los datos de interacción (usuario) 8.

Sintaxis

[0118] El elemento de sintaxis mpegh3daElementInteraction() (véase [2]) de la interfaz para interacción del usuario es reutilizado para llevar los datos de interacción (usuario) 8 contenidos en el flujo de bits 10.

Referencias

[0119]

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] FhG, “Normative Interface for User Interaction”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, 2-3 de junio de 2014, París, Francia

[0120] Además, se propone una posible sintaxis para una interfaz normativa para la interactividad con el usuario.

[0121] Se propone extraer la interfaz para el control de la interacción de la interfaz para el control de la renderización. A continuación, el elemento de sintaxis mpegh3daAudioRendering() define los parámetros de renderización y un elemento de sintaxis recientemente definido mpegh3daElementInteraction() contiene la información que se necesita para la interacción (usuario).

Definición del Elemento de sintaxis mpegh3daElementInteraction()

[0122] El elemento de sintaxis mpegh3daElementInteraction() proporciona una interfaz para cualquier posible interacción (usuario). Se definen dos modos de interacción.

[0123] El primero es un modo de interacción avanzada, en el cual se puede señalizar la interacción para cada grupo de elementos que está presente en la escena de audio. Este modo habilita al usuario para elegir libremente (dentro de las restricciones de las definiciones de los grupos de conmutación) qué grupos reproducir y para interactuar con todos ellos (dentro de los rangos y restricciones dados).

[0124] El segundo modo es un modo de interacción básica, en el que el usuario podría elegir una de las GroupPresets definidas (del elemento de sintaxis mae_AudioSceneInfo(), véase 14.2 de [1]) como opción preestablecida. Seguidamente se define el estado activo-inactivo de los grupos a los que se hace referencia en las condiciones de las GroupPresets elegidas y no puede ser cambiado por el usuario. El usuario solo puede cambiar el estado activo-inactivo de los demás grupos y las posiciones y ganancias de todos los grupos según las concesiones y rangos definidos.

[0125] Se distinguen cuatro modificaciones de elementos diferentes:

- Interactividad de Activación/Desactivación: se activa o desactiva un grupo de elementos (Nota editorial:

anteriormente llamada “cambio de objeto” [4])

- Interactividad de posiciones: se cambian las posiciones de un grupo de elementos (azimut, elevación y distancia, nota editorial: anteriormente llamada “cambio de posición” [4])

- Interactividad de ganancia: se cambia el nivel/ganancia de un grupo de elementos (Nota editorial:

anteriormente llamada “cambio de ganancia” [4])

- Interactividad por CABLE: una salida de CABLE es una salida arbitraria además de los altavoces conectados.

Se enruta el contenido de audio de los elementos de un grupo hacia una salida de cable, por ejemplo un contenido para personas con discapacidad auditiva o una pista de idioma adicional.

[0126] Todas las modificaciones se definen en un nivel de grupos de elementos, puesto que los grupos reúnen elementos relacionados que solo deben ser manipulados de forma conjunta.

[0127] Se introduce una firma para señalizar, por ejemplo, en qué dispositivo ha tenido lugar la interactividad.

Tabla 3a Sintaxis de m e h3daElementInteraction

_____________________________________________________________

eiJ nteractionSignatureDataLength Este campo define la longitud de la siguiente firma de interacción en Byte. ei_InteractionSignatureDataType Este campo define el tipo de firma. Los siguientes valores son posibles:

[0128] En la tabla 3b se expone una forma de realización adicional de mpegh3daElementInteraction():

Tabla 3b Sintaxis de m e h3daElementInteraction

__________________________________________________________

T l 4 V l r i In r i n n rD T

ei_InteractionSignatureData Este campo contiene una firma que define quién originó los datos de interacción.

[0129] En la tabla 4b se expone una forma de realización adicional de eiJnteractionSignatureDataType:

T l 4 V l r n r i n i n r D T

ei_InteractionSignatureData Este campo contiene una firma que define quién ha originado los datos de interacción.

hasLocalZoomAreaSize Indicador que define si hay información acerca del tamaño del área de zoom local. Si este indicador está habilitado, se aplica el Remapeo de Objetos para Zooming (acercamiento-alejamiento).

Tabla 5 Sintaxis de ElementInteractionData

________________________________________________________________

ei_interactionMode Indicador que define si se ha elegido el tipo de interacción avanzada o el modo de interacción básica.

ei_numGroups Este campo contiene el número de grupos en la escena de audio.

ei_groupPresetID Este campo contiene un groupPresetID que se define en la escena de audio. Esta ID refleja la elección preestablecida del usuario.

T l in xi i r In r iv

_______________________________________________________

ei_groupID GroupID correspondiente al grupo en curso del cual se describe la interacción.

ei_routeToWIRE Este campo define si el contenido de audio del grupo debe ser enrutado hacia una salida de CABLE.

ei_routeToWireID ID de la salida de CABLE hacia donde se debe enrutar el grupo.

ei onOff Define el estado activo-inactivo del grupo actual. En el caso de elegirse el modo de interacción básica (interacción en GroupPresets), este valor tiene que ser idéntico al estado activo-inactivo definido del grupo con ei_groupID si este grupo forma parte de las condiciones de la GroupPreset elegida con ei_groupPresetID. En el modo de interacción básica no se permite señalizar aquí un estado activo-inactivo diferente. El estado activo-inactivo de todos los grupos que no forman parte de las condiciones de la GroupPreset elegida, se podría señalizar el estado activo-inactivo de manera arbitraria.

ei_changePosition Este indicador define si la posición de los elementos del grupo se ha modificado.

ei azOffset El cambio de azimut se da como desplazamiento. Este campo puede asumir valores entre (continuación)

AzOffset=-180° y AzOffset=180°: AzOffset = 1.5 • (ei_azOffset - 128) AzOffset = min (max (AzOffset, -180), 180);

ei_elOffset El cambio de azimut se da como desplazamiento. Este campo puede asumir valores entre ElOffset=-90° y ElOffset=90°: ElOffset = 3 • (ei_elOffset - 32) ElOffset = min (max (ElOffset, -90), 90);

ei distFact La interacción de distancia se da en términos de factor de multiplicación. El campo puede asumir valores entre 0 y 15 para dar lugar a DistFactor entre 0,00025 y 8: DistFactor = 2((ei_distFactorr-8)-4) DistFactor = min(max (DistFactor, 0,00025), 8);

ei_changeGain Este indicador define si se ha cambiado la ganancia/nivel de los elementos del grupo. ei_gain Este campo define una ganancia adicional de los miembros del grupo en curso. El campo puede asumir valores entre 0 y 127 que representan valores de ganancia de entre Gain = -63 dB y Gain = 31 dB en pasos de 1 dB, con Gain [dB] = ei_gain - 64 Gain [dB] = min(max (Gain, -63), 31); Si ei_gain se ajusta a 0, Gain se debe ajustar a menos infinito dB.

[0130] En la tabla 6b se presenta una forma de realización adicional de ei_GroupInteractivityStatus():

T l in xi i r In r iv

_______________________________________________________

[0131] Los datos de interacción se definen según los campos de Elementos de audio de metadatos (véase 14.2 de [1]). En la definición de elementos de audio de metadatos, el rango de interactividad para la interactividad de ganancia se da en dB, los rangos de interactividad correspondientes a azimut y elevación se dan en términos de valores de desplazamiento mínimo y máximo (con la misma resolución que aquí: 1,5° en el caso del azimut y 3° en el caso de la elevación) y los rangos correspondientes a la distancia se dan en términos de factores de multiplicación. Por lo tanto, la interfaz se define de manera similar.

[0132] En el caso de la interacción del usuario, todos los cambios posibles (Activación/Desactivación, ganancia, posición, CABLE) correspondientes a todos los grupos de elementos están señalizados dentro de un elemento de sintaxis ElementInteraction() en lugar de usarse una repetición de un elemento de sintaxis por cada tipo de interacción y cada grupo o elemento.

[0133] La salida de CABLE también se define con respecto a los grupos que se desactivan, puesto que solo entonces es posible enrutar las pistas de idioma alternativos a una salida de CABLE. La posible lógica de grupo de conmutación violada tiene que ser tratada en el decodificador.

[0134] El tipo de contenidos (canal, objeto, HOA) que se había propuesto anteriormente en [4] es eliminado aquí. Ya es conocido implícitamente por la groupID, puesto que cada grupo de elementos tiene un signalGroupType (Canales, Objetos, SAOC, HOA) que define el tipo de contenido de las señales y se señaliza en el elemento de sintaxis Signals3d()).

Interacción básica por medio de GroupPresets

[0135] Si se establece el modo de interacción básica, el usuario puede elegir una de las GroupPresets definidas (del elemento de sintaxis mae_AudioSceneInfo() groupCollection, propuesto como tecnología posible en w14464 [7]).

[0136] Las condiciones de la opción preestablecida elegida definen el estado activo-inactivo de los grupos de referencia. El usuario no debe poder modificar el estado activo-inactivo de estos grupos.

[0137] El campo correspondiente ei_onOff del elemento de sintaxis ei_GroupInteractivityStatus [2] tiene que reflejar la condición establecida en la groupPreset elegida para todos los grupos a los que se hace referencia en las condiciones de la groupPreset elegida.

[0138] El estado activo-inactivo de todos los demás grupos puede ser elegido por el usuario.

Conclusión

[0139] Esta contribución propone una definición correspondiente a una interfaz para la interacción con el usuario. Se proporciona una definición de interfaz que da lugar a dos modos de interacción diferentes (básica y avanzada). Se propone adoptar la interfaz propuesta al CD.

Referencias

[0140]

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] FhG, “Rendering Interfaces to MPEG-H and Unification of Loudspeaker Signaling”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, 2-3 de junio de 2014, París, Francia

[3] ISO/IEC JTC1/SC29/WG11 N14463, “Normative Interface for Binaural Data”, abril de 2014, Valencia, España [4] ISO/IEC JTC1/SC29/WG11 M33134, “3D Audio Decoder Interfaces”, abril de 2014, Valencia, España (Aportación de Philips)

[5] ISO/IEC JTC1/SC29/WG11 M31427, “Thoughts on binaural parameterization of MPEG codecs”, octubre de 2013, Ginebra, Suiza (Aportación de Orange)

[6] ISO/IEC JTC1/SC29/WG11 M30249, “BRIR interface format: update and implementation”, julio de 2013, Viena, Austria (Aportación de Philips)

[7] ISO/IEC JTC1/SC29/WG11 N14464 “Candidate Technologies for 3D Audio”

[0141] Además, la sección 13 del texto de ISO/IEC 23008-3 CD [1] define la sintaxis de MHAS que se debe utilizar para encapsular las cargas útiles de Audio 3D de MPEG-H en los flujos (tiempo real). Con este documento se proponen capacidades adicionales para habilitar un uso fiable de MHAS en otros sistemas de transporte aparte del flujo de transporte de MPEG-2.

Filldata (Datos de relleno)

[0142] Ciertos canales de transmisión solo pueden ser operados a una tasa de bits instantánea constante. Para lograr esto, se propone un tipo de paquetes de datos de relleno para poder llenar el flujo de MHAS hasta obtener una tasa de bits determinada.

CRC

[0143] La capa de flujo de transporte MPEG-2 [2] se hace cargo de la protección del flujo elemental MHAS encapsulado. De esa manera se puede identificar la pérdida o corrupción de datos en la transmisión.

[0144] Por otra parte, las interfaces en serie comunes (por ejemplo, AES/EBU, S/PDIF, [3], [4], [5]) no ofrecen una protección suficiente contra errores. Se propone un tipo de paquetes CRC opcional para habilitar la detección de errores si se utiliza MHAS en tales interfaces.

Encapsulación de descriptores

[0145] Se utilizan flujos de MHAS para transportar audio codificado a y desde los codificadores/decodificadores (continuación)

de flujos de transporte MPEG-2. Se propone transportar información de descriptores relacionada en un tipo de paquetes MHAS adicional.

Tabla 7 — Sintaxis de MHASPacketPa load

Tabla 8a — Valor de MHASPacketT e

(continuación)

[0146] En la tabla 8b se detalla una forma de realización adicional de MHASPacketType:

Tabla 8b — Valor de MHASPacketT e

mhasParity16Data un campo de 16 bits que contiene el valor CRC que produce una salida de cero de los 16 registros en el decodificador con el polinomio:

^{X 16 + X 15 + X 5 +} 1

y el estado inicial del registro de desplazamiento de 0xFFFF.

mhasParity32Data un campo de 32 bits que contiene el valor CRC que produce una salida de cero de los 32 registros en el decodificador con el polinomio:

^{X 32 + X 26 + X 23 + X 22 + X 16 + X 12 + X 11 + X 10 + X 8 + X 7 + X 5 + X 4 + X 2 + X} 1

y el estado inicial del registro de desplazamiento de 0xFFFFFFFF. mhas_fill_data_byte elementos de datos de 8 bits, no se aplican restricciones

Marcador de Acceso Aleatorio / Reproducción Inmediata

[0147] Cuando el primer marker_byte de la carga útil del paquete es “0x02”, el siguiente paquete del tipo PACTYP_MPEG3DAFRAME con idéntica etiqueta MHASPacketLabel es codificado siguiendo las reglas establecidas en la sección 5.5.5 “Audio Preroll”.

Marcador de límites de programa

[0148] Cuando el primer marker_byte de la carga útil del paquete es “0x03”, se produce un límite de programa en este punto temporal y todos los paquetes siguientes pertenecen a un nuevo programa.

PSCTYP_CRC16 y PACTYP_CRC32

[0149] Se puede utilizar el MHASPacketType PACTYP_CRC16 y PACTYP_CRC32 para la detección de errores en el paquete anterior MHAS estableciendo MHASPacketLabel en el mismo valor. Seguirá directamente al paquete MHAS al que se refiere su valor CRC. Esto puede ser ventajoso cuando se transporta un flujo MHAS por un canal proclive a errores.

[0150] El procedimiento de detección de errores utiliza uno del generador de polinomios y estados de registro de desplazamiento asociados según lo definido respecto a mhasParity16Data o mhasParity32Data respectivamente.

[0151] Los bits incluidos en la verificación de CRC son la MHASPacketPayload() completa para el paquete MHAS asociado seguido de las palabras mhasParity16Data o mhasParity32Data respectivamente.

[0152] En caso de no haber error alguno, cada una de las salidas del registro de desplazamiento tiene que ser cero. En el codificador CRC el campo de datos mhasParity16Data / mhasParity32Data es codificado con un valor de tal forma que esto se garantice.

PACTYP_FILLDATA

[0153] El MHASPacketType PACTYP_FILLDATA ofrece la posibilidad de añadir datos de relleno para regular la tasa de bits instantánea. Esto puede ser deseable en ciertas aplicaciones en tiempo real utilizando un canal de transmisión de tasa constante.

[0154] Como los paquetes de este tipo no están asociados a ciertos datos de carga útil, MHASPacketLabel se ajusta a 0.

[0155] Se espera que el decodificador pase por alto los datos transmitidos en paquetes del tipo PACTYP_FILLDATA. Además, a las herramientas intermedias de procesamientos de flujos de MHAS se les permite eliminar dichos paquetes del flujo.

[0156] Se permite ajustar MHASPacketLength a 0. Esto da un tamaño mínimo de paquete de 2 bytes.

PACTYP_DESCRIPTOR

[0157] El PACTYP_DESCRIPTOR se puede utilizar para incorporar descriptores MPEG-2 TS/PS a flujos MHAS. Los datos transportados como mhas_descriptor_data_byte tienen la misma sintaxis y semántica que las definidas con respecto al descriptor() de ISO/IEC 13818-1.

[0158] Para este tipo de paquetes y en el caso de los descriptores transmitidos en el primer bucle de descriptores de TS_program_map_section() (véase ISO/IEC 13818-1), MHASPacketLabel se ajusta a 0.

[0159] Para este tipo de paquetes y para los descriptores asignados a un flujo elemental (es decir, el segundo bucle de descriptores de la TS_program_map_section()), MHASPacketLabel se ajusta al mismo valor que el PACTYPE_CONFIG del flujo elemental asociado.

Referencias

[0160]

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] ISO/IEC 13818-1:2013, Information technology — Generic Coding of moving pictures and associated audio information: Systems

[3] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”

[4] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 -Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"

[5] SMPTE 2041: Format for Non-PCM Audio y Data in AES-3 - MPEG-4 AAC and HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers

[0161] Aunque la presente invención se ha descrito en el contexto de diagramas de bloques en los que los bloques representan componentes de hardware reales o lógicos, la presente invención también puede ser implementada por un procedimiento implementado por ordenador. En este último caso, los bloques representan pasos correspondientes del procedimiento, donde estos pasos representan las funcionalidades realizadas por bloques lógicos o físicos de hardware correspondientes.

[0162] Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, en el cual un bloque o dispositivo corresponde a un paso del procedimiento o a una característica de un paso del procedimiento. De manera análoga, los aspectos descritos en el contexto de un paso del procedimiento también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente. Algunos o todos los pasos del procedimiento pueden ser ejecutados por (o utilizando) un aparato de hardware, como por ejemplo un microprocesador, un ordenador programable o un circuito electrónico. En algunas formas de realización, uno o más de los pasos más importantes del procedimiento pueden ser ejecutados por ese tipo de aparato.

[0163] La señal de la invención transmitida o codificada puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como Internet.

[0164] Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales de control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se lleve a cabo el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.

[0165] Algunas formas de realización según la invención comprenden un portador de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema informático programable, de tal manera que se lleve a cabo uno de los procedimientos descritos en esta invención.

[0166] En general, las formas de realización de la presente invención pueden ser implementadas en forma de producto de programa informático con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los procedimientos al ejecutarse el producto de programa informático en un ordenador. El código de programa puede ser almacenado, por ejemplo, en un portador legible por máquina.

[0167] Otras formas de realización comprenden el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención, almacenado en un portador legible por máquina.

[0168] Dicho de otro modo, una forma de realización del procedimiento de la invención consiste, por lo tanto, en un programa informático que consta de un código de programa para llevar a cabo uno de los procedimientos descritos en esta invención, al ejecutarse el programa informático en un ordenador.

[0169] Una forma de realización adicional del procedimiento de la invención consiste, por lo tanto, en un portador de datos (o un medio de almacenamiento no transitorio como un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. El portador de datos, el medio de almacenamiento digital o el medio grabado son por lo general tangibles y/o no transitorios.

[0170] Una forma de realización adicional del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo a través de Internet.

[0171] Una forma de realización adicional comprende un medio de procesamiento, por ejemplo un ordenador o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los procedimientos descritos en esta invención.

[0172] Una forma de realización adicional comprende un ordenador en el que se ha instalado el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención.

[0173] Una forma de realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, por vía electrónica u óptica) un programa informático para llevar a cabo uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.

[0174] En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables en el campo) para llevar a cabo algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas formas de realización, una matriz de puertas programables en el campo puede cooperar con un microprocesador para llevar a cabo uno de los procedimientos descritos en esta invención. Por lo general, los procedimientos se llevan a cabo preferentemente mediante cualquier aparato de hardware.

[0175] Las formas de realización anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención serán evidentes para otras personas expertas en la materia. Por lo tanto, solo se pretende limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a modo de descripción y explicación de las formas de realización de esta invención.

Claims

REIVINDICACIONES

1. Procesador de datos de audio (1) para procesar datos de audio en paquetes, comprendiendo el procesador de datos de audio (1):

una interfaz de receptor (2) para recibir datos de audio codificados (3) que comprenden elementos de audio (11, 12) y metadatos (4) relacionados con los elementos de audio (11, 12);

un analizador de metadatos (5) para analizar los metadatos (4) para determinar una posibilidad de manipulación de datos de audio de los elementos de audio (11, 12);

una interfaz de interacción (6) para recibir una entrada de interacción (7) y para generar, a partir de la entrada de interacción (7), datos de control de la interacción (8) relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio (11, 12) externamente desde un decodificador;

donde desde la interfaz de interacción (6) un usuario puede seleccionar y manipular los elementos de audio (11, 12) para adaptar la presentación de audio a sus preferencias personales; y

un generador de flujos de datos (9) para obtener los datos de control de la interacción (8) y los datos de audio codificados (3) y los metadatos (4) y para generar un flujo de datos de salida (10), siendo el flujo de datos de salida (10) de nuevo un flujo de audio codificado válido que comprende los datos de audio aun codificados (3), los metadatos (4), y los datos de control de la interacción (8) añadidos.

2. El procesador de datos de audio (1) según la reivindicación 1, donde la interfaz de interacción (6) proporciona dos modos de interacción,

donde un primer modo de interacción es un modo de interacción avanzada que se señaliza para cada grupo de elementos de audio que está presente en una escena de audio para habilitar al usuario para elegir libremente qué grupos de elementos de audio reproducir y para interactuar con todos ellos, y

donde un segundo modo es un modo de interacción básica que comprende Group Presets, para habilitar al usuario para elegir una de las Group Presets como opción preestablecida,

donde los grupos de elementos de audio reúnen elementos de audio relacionados que serán manipulados de forma conjunta.

3. El procesador de datos de audio según la reivindicación 2,

donde las Group Presets comprenden al menos una de:

• una interactividad de Activación/Desactivación, donde se activa o desactiva un grupo de elementos; • una interactividad de posiciones, donde se cambian las posiciones de un grupo de elementos;

• una interactividad de ganancia, donde se cambia el nivel o ganancia de un grupo de elementos;

• una interactividad por CABLE, donde se enruta el contenido de audio de los elementos de un grupo hacia una salida de CABLE.

4. Procesador de datos de audio (1) según cualquiera de las reivindicaciones 1 a 3, donde los datos de audio codificados (3) comprenden objetos de audio codificados (11; 12) separados, donde al menos una porción (13; 14) de los metadatos (4) está asociada a un objeto de audio (11; 12) correspondiente,

donde el analizador de metadatos (5) está configurado para analizar la porción (13; 14) correspondiente para los objetos de audio codificados (11; 12) para determinar, para al menos un objeto de audio (11), la posibilidad de manipulación de objetos,

donde la interfaz de interacción (6) está configurada para generar, para el al menos un objeto de audio codificado (11), los datos de control de la interacción (8) a partir de la entrada de interacción (7) relacionada con el al menos un objeto de audio codificado (11).

5. Procesador de datos de audio (1) según cualquiera de las reivindicaciones 1 a 4, donde la interfaz de interacción (6) está configurada para presentar, a un usuario, la posibilidad de manipulación de datos de audio derivada de los metadatos (4) por el analizador de metadatos (5), y para recibir, del usuario, una entrada del usuario (7) con respecto a la manipulación de datos específica de la posibilidad de manipulación de datos.

6. Procesador de datos de audio según una de las reivindicaciones anteriores,

donde el generador de flujos de datos (9) está configurado para procesar un flujo de datos (15) que comprende los datos de audio codificados (3) y los metadatos (4) recibidos por la interfaz de receptor (2) sin decodificar los datos de audio codificados (3),

o para copiar los datos de audio codificados (3) y los metadatos (4) sin cambios en el flujo de datos de salida (10), y

donde el generador de flujos de datos (9) está configurado para añadir una porción de datos adicional que contiene los datos de control de la interacción (8) a los datos de audio codificados (3) y/o los metadatos (4) contenidos en el flujo de datos de salida (10).

7. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,

donde el generador de flujos de datos (9) está configurado para generar, en el flujo de datos de salida (10), los datos de control de la interacción (8) en el mismo formato que los metadatos (4).

8. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,

donde el generador de flujos de datos (9) está configurado para asociar, con los datos de control de la interacción (8), un identificador en el flujo de datos de salida (10), siendo el identificador diferente de un identificador asociado a los metadatos (4).

9. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,

donde el generador de flujos de datos (9) está configurado para añadir, a los datos de control de la interacción (8), datos de firma, indicando los datos de firma información acerca de una aplicación, un dispositivo o un usuario que lleva a cabo una manipulación de datos de audio o que proporciona la entrada de interacción.

10. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,

donde el analizador de metadatos (5) está configurado para identificar una posibilidad de deshabilitación para uno o más objetos de audio (11, 12) representados por los datos de audio codificados (3),

donde la interfaz de interacción (6) está configurada para recibir una información de deshabilitación para el uno o más objetos de audio (11, 12), y

donde el generador de flujos de datos (9) está configurado para marcar el uno o más objetos de audio (11, 12) como deshabilitados en los datos de control de la interacción (8) o para eliminar el uno o más objetos de audio (11, 12) deshabilitados de los datos de audio codificados (3) de manera que el flujo de datos de salida (10) no incluya datos de audio codificados (3) correspondientes al uno o más objetos de audio (11, 12) deshabilitados.

11. Procesador de datos de audio (1) según una de las reivindicaciones anteriores, donde el generador de flujos de datos (9) está configurado para generar de manera dinámica el flujo de datos de salida (10), donde en respuesta a una nueva entrada de interacción (7), los datos de control de la interacción (8) se actualizan para coincidir con la nueva entrada de interacción (7), y donde el generador de flujos de datos (9) está configurado para incluir los datos de control de la interacción (8) actualizados en el flujo de datos de salida (10).

12. Procesador de datos de audio (1) según una de las reivindicaciones anteriores, donde la interfaz de receptor (2) está configurada para recibir un flujo de datos de audio principales (15) que comprende los datos de audio codificados (3) y metadatos (4) relacionados con los datos de audio codificados (3), y para recibir asimismo datos de audio opcionales (16) que comprenden un objeto de audio opcional (17),

donde los metadatos (4) relacionados con dicho objeto de audio opcional (17) están contenidos en dicho flujo de datos de audio principales (15).

13. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,

donde el analizador de metadatos (5) está configurado para determinar la posibilidad de manipulación de audio para un objeto de audio opcional (17) que no está incluido en los datos de audio codificados (3),

donde la interfaz de interacción (6) está configurada para recibir una entrada de interacción (7) correspondiente al objeto de audio opcional (17), y

donde la interfaz de receptor (2) está configurada para solicitar datos de audio (16) para el objeto de audio opcional (17) de un proveedor de datos de audio (35) o para recibir los datos de audio (16) para el objeto de audio opcional (17) de un subflujo diferente contenido en un flujo de transmisión (36) o una conexión por protocolo de Internet (37).

14. Procesador de datos de audio (1) según una de las reivindicaciones anteriores,

donde el generador de flujos de datos (9) está configurado para asignar, en el flujo de datos de salida (10), un tipo de paquetes adicional a los datos de control de la interacción (8), siendo el tipo de paquetes adicional diferente de los tipos de paquetes correspondientes a los datos de audio codificados (3) y los metadatos (4), o donde el generador de flujos de datos (9) está configurado para añadir, en el flujo de datos de salida (10), datos de relleno (18) en un tipo de paquetes de datos de relleno, donde se determina una cantidad de datos de relleno (18) en base a un requisito de tasa de datos determinada por una interfaz de salida del procesador de datos de audio.

15. Procesador de datos de audio (1) según una de las reivindicaciones anteriores que se implementa en forma de un primer dispositivo separado (19) que está separado de un segundo dispositivo (28) que está configurado para recibir los datos de audio procesados, pero aun codificados, del primer dispositivo (19) para decodificar dichos datos de audio, donde la interfaz de receptor (2) forma una entrada (20) al primer dispositivo separado (19) a través de una conexión por cable (21) o inalámbrica (22), donde el procesador de datos de audio (1) comprende además una interfaz de salida (23) conectada al generador de flujos de datos (9), estando la interfaz de salida (23) configurada para emitir el flujo de datos de salida (10), donde la interfaz de salida (23) lleva a cabo una salida del primer dispositivo separado (19) y comprende una interfaz inalámbrica (24) o un conector por cable (25).

16. Procedimiento para procesar datos de audio en paquetes, comprendiendo el procedimiento:

recibir datos de audio codificados (3) que comprenden elementos de audio (11, 12) y metadatos (4) relacionados con los elementos de audio (11, 12);

analizar los metadatos (4) para determinar una posibilidad de manipulación de datos de audio de los elementos de audio (11, 12);

recibir una entrada de interacción (7) y generar, a partir de la entrada de interacción (7), datos de control de la interacción (8) relacionados con la posibilidad de manipulación de datos de audio para manipular los elementos de audio (11, 12) externamente desde un decodificador;

donde mediante dicha entrada de interacción (7) un usuario puede seleccionar y manipular los elementos de audio (11, 12) para adaptar la presentación de audio a sus preferencias personales; y

obtener los datos de control de la interacción (8) y los datos de audio codificados (3) y los metadatos (4) y generar un flujo de datos de salida (10), siendo el flujo de datos de salida (10) de nuevo un flujo de audio codificado válido que comprende los datos de audio aun codificados (3), los metadatos (4) y los datos de control de la interacción (8) añadidos.

17. Programa informático para llevar a cabo, cuando se ejecuta en un ordenador o un procesador, el procedimiento de procesar datos de audio según la reivindicación 16.