ES2624419T3

ES2624419T3 - Sistema y procedimiento para optimizar la sonoridad y el rango dinámico a través de diferentes dispositivos de reproducción

Info

Publication number: ES2624419T3
Application number: ES14703670.1T
Authority: ES
Inventors: Jeffrey Riedmiller; Scott Gregory NORCROSS; Karl Jonas Roeden
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-01-21
Filing date: 2014-01-15
Publication date: 2017-07-14
Anticipated expiration: 2034-01-15
Also published as: BR122020007931B1; KR20170001717A; RU2018128291A3; RU2631139C2; HK1213374A1; US20220019404A1; JP6680858B2; JP2022166331A; KR102473260B1; KR102194120B1; EP2946469B1; RU2665873C1; US9841941B2; JP2023175019A; US20240103801A1; JP2016507779A; CN104937844B; JP2021089444A; BR112015017064B1; RU2018128291A

Abstract

Un procedimiento, que comprende: recibir, en un flujo de bits que comprende datos de audio, metadatos asociados con los datos de audio; analizar los metadatos en el flujo de bits para determinar si un parámetro de la sonoridad para un primer grupo de dispositivos de reproducción de audio (510, 512, 514, 516) está disponible en el flujo de bits; sensible para determinar que el parámetro está presente en el primer grupo, utilizando el parámetro y los datos de audio para mezclar el audio; y sensible para determinar que el parámetro de la sonoridad no está presente en el primer grupo, analizar una o más características del primer grupo, y determinar el parámetro basado en una o más características, en donde una o más características comprenden niveles de ganancia para diferentes perfiles de los datos de audio.

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Sistema y procedimiento para optimizar la sonoridad y el rango dinamico a traves de diferentes dispositivos de reproduccion.

Referencia cruzada a las aplicaciones relacionadas

Esta solicitud reivindica prioridad a la solicitud de patente provisional de los Estados Unidos n.° 61/754.882

presentada el 21 de enero de 2013; a la solicitud de patente provisional de los Estados Unidos n.° 61/809.250

presentada el 5 de abril de 2013; y a la solicitud de patente provisional de los Estados Unidos n.° 61/824.010

presentada el 16 de mayo de 2013.

Campo de la invencion

Una o mas realizaciones se refieren, en general, al procesamiento de senales de audio, y mas espedficamente al procesamiento de flujos de bits de datos de audio con metadatos indicativos de las caractensticas de sonoridad y de rango dinamico del contenido de audio basadas en entornos y dispositivos de reproduccion.

Antecedentes

El objeto tratado en la seccion de antecedentes no debe ser asumido como tecnica anterior unicamente como resultado de su mencion en la seccion de antecedentes. De forma similar, no debe asumirse que haya sido reconocido previamente en la tecnica anterior un problema mencionado en la seccion de antecedentes o asociado con el objeto de la seccion de antecedentes. El objeto en la seccion de antecedentes unicamente representa diferentes enfoques, que en sf mismos tambien pueden ser invenciones.

El rango dinamico de una senal de audio es, en general, la relacion entre los valores mas grandes y mas pequenos posibles del sonido integrado en la senal, y habitualmente se mide como un valor de decibelio (en base 10). En muchos sistemas de procesamiento de audio, el control de rango dinamico (o compresion de rango dinamico, DRC) se utiliza para reducir el nivel de sonidos fuertes y/o amplificar el nivel de sonidos bajos para ajustarse a una fuente de rango dinamico amplio contenido en un rango dinamico registrado mas estrecho que puede ser almacenado y reproducido con mayor facilidad mediante equipos electronicos. Para contenido audio/visual (AV), se puede usar un nivel de referencia de dialogo para definir el punto "nulo" para compresion a traves del mecanismo de la DRC. La DRC actua para realzar el contenido por debajo del nivel de referencia del dialogo y recortar el contenido por encima del nivel de referencia.

En un sistema de codificacion de audio conocido, se usan metadatos asociados con la senal de audio para establecer el nivel de DRC basado en el tipo y uso pretendido del contenido. El modo DRC establece la cantidad de compresion aplicada a la senal de audio y define el nivel de referencia de salida del decodificador. Tales sistemas pueden estar limitados a dos ajustes del nivel de DRC que estan programados en el codificador y ser seleccionados por el usuario. Por ejemplo, un valor de dialnorm (dialogo normalizado) de -31 dB (Lmea) se utiliza tradicionalmente para el contenido que se reproduce en un AVR o dispositivos con capacidad de rango dinamico completo y se utiliza un valor de dialnorm de -20 dB (RF) para el contenido reproducido en aparatos de television o dispositivos similares. Este tipo de sistema permite que un unico flujo de bits de audio se utilice en dos comunes pero muy diferentes escenarios de reproduccion a traves del uso de dos diferentes conjuntos de metadatos de DRC. Sin embargo, estos sistemas estan limitados a los valores de dialnorm preestablecidos y no estan optimizados para su reproduccion en la amplia variedad de los diferentes dispositivos de reproduccion y entornos de audicion que ahora son posibles gracias a la llegada de medios digitales y tecnologfa de transmision por Internet.

En los actuales sistemas de codificacion de audio basados en metadatos, un flujo de datos de audio puede incluir tanto contenido de audio (p. ej., uno o mas canales de contenido de audio) como metadatos indicativos de al menos una caractenstica del contenido de audio. Por ejemplo, en un flujo de bits AC-3 hay varios parametros de metadatos de audio que estan espedficamente destinados a ser utilizados para cambiar el sonido del programa enviado a un entorno de audicion. Uno de los parametros de metadatos es el parametro dialnorm, que indica el nivel medio de la sonoridad del dialogo (o sonoridad media del contenido) que se produce en un programa de audio, y se utiliza para determinar el nivel de la senal de reproduccion de audio.

Durante la reproduccion de un flujo de bits que comprende una secuencia de diferentes segmentos de programa de audio (teniendo cada uno un parametro dialnorm diferente), un decodificador AC-3 utiliza el parametro dialnorm de cada segmento para realizar un tipo de procesamiento de la sonoridad que modifica el nivel de reproduccion del segmento o sonoridad, de manera que la sonoridad percibida del dialogo del segmento este en un nivel constante. Cada segmento de audio codificado (elemento) en una secuencia de elementos de audio codificados tendna (en general) un parametro dialnorm diferente, y el decodificador escalana el nivel de cada uno de los elementos de modo que el nivel de reproduccion o sonoridad del dialogo para cada elemento sea el mismo o muy similar, aunque esto puede requerir la aplicacion de diferentes cantidades de ganancia a los diferentes elementos durante la reproduccion.

En algunas realizaciones, el parametro dialnorm es establecido por un usuario, y no se genera automaticamente,

5

10

15

20

25

30

35

40

45

50

55

aunque existe un valor de dialnorm por defecto si el usuario no establece ningun valor. Por ejemplo, un creador de contenidos puede realizar mediciones de la sonoridad con un dispositivo externo a un codificador AC-3 y luego transferir el resultado (indicativo de la sonoridad del dialogo hablado de un programa de audio) al codificador para establecer el valor de dialnorm. De ese modo, existe confianza en el creador del contenido para establecer correctamente el parametro dialnorm.

Hay varias razones diferentes por las que el parametro dialnorm en un flujo de bits AC-3 puede ser incorrecto. En primer lugar, cada codificador AC-3 tiene un valor de dialnorm por defecto que se utiliza durante la generacion del flujo de bits si el creador de contenido no establece un valor de dialnorm. Este valor por defecto puede ser sustancialmente diferente del nivel real de sonoridad del dialogo del audio. En segundo lugar, incluso si un creador de contenido mide la sonoridad y establece el valor de dialnorm en estos terminos, un algoritmo de medida o medidor de la sonoridad se puede haber utilizado de modo que no se ajusta al procedimiento de medicion de la sonoridad recomendado, dando como resultado un valor de dialnorm incorrecto. En tercer lugar, incluso si se ha creado un flujo de bits AC-3 con el valor de dialnorm medido y ajustado correctamente por el creador de contenido, se puede haber cambiado a un valor incorrecto por un modulo intermedio durante la transmision y/o almacenamiento del flujo de bits. Por ejemplo, no es infrecuente en las aplicaciones de difusion de television para los flujos de bits AC-3 que se decodifiquen, se modifiquen y luego se vuelvan a codificar utilizando informacion de metadatas de dialnorm incorrectos. De ese modo, un valor de dialnorm incluido en un flujo de bits AC-3 puede ser incorrecto o inexacto y, por lo tanto, puede tener un impacto negativo en la calidad de la experiencia de audicion.

Ademas, el parametro dialnorm no indica el estado de procesamiento de la sonoridad de los datos de audio correspondientes (p. ej., que tipo (o tipos) de procesamiento de la sonoridad que se ha realizado sobre los datos de audio). Ademas, los sistemas de la sonoridad y DRC actualmente desplegados, como los sistemas en Dolby Digital (DD) y sistemas Dolby Digital Plus (DD+), fueron disenados para mezclar el contenido AV en la sala de estar de un consumidor o en un cine. Para adaptar dicho contenido para su reproduccion en otros entornos y equipos de audicion (p. ej., un dispositivo movil), debe aplicarse un posprocesamiento "a ciegas" en el dispositivo de reproduccion para adaptar el contenido AV a ese entorno de audicion. En otras palabras, un posprocesador (o un decodificador) asume que el nivel de la sonoridad del contenido recibido esta en un nivel particular (p. ej., -31 o -20 dB) y el posprocesador fija el nivel a un nivel objetivo fijado predeterminado adecuado para un dispositivo en particular. Si el nivel de la sonoridad asumido o el nivel objetivo predeterminado son incorrectos, el posprocesamiento puede tener el resultado opuesto al pretendido; es decir, el posprocesamiento puede hacer que el audio de salida sea menos deseable para un usuario.

Las realizaciones descritas no se limitan a su uso con un flujo de bits AC-3, un flujo de bits E-AC-3 o un flujo de bits Dolby E, sin embargo, por comodidad, tales flujos de bits se trataran conjuntamente con un sistema que incluye los metadatos del estado de procesamiento de la sonoridad. Dolby, Dolby Digital, Dolby Digital Plus y Dolby E son marcas registradas de Dolby Laboratories Licensing Corporation . Dolby Laboratories ofrece aplicaciones propias de AC-3 y de E-AC-3 conocidas como Dolby Digital y Dolby Digital Plus, respectivamente.

En la publicacion de solicitud de patente de Estados Unidos numero US 2006/0002572 A1, una senal codificada transmite informacion de audio codificada y metadatos que pueden usarse para controlar la sonoridad y el rango dinamico de la informacion de audio durante su reproduccion. Si los valores de estos parametros de metadatos se establecen incorrectamente, pueden producirse fluctuaciones molestas en la sonoridad durante la reproduccion. Este problema se supera detectando los valores de parametros de metadatos incorrectos en la senal y reemplazando los valores incorrectos por valores corregidos.

Breve sumario de realizaciones

Las realizaciones se dirigen a un procedimiento segun se expone en la reivindicacion 1.

Las realizaciones se dirigen ademas a un aparato tal como el expuesto en la reivindicacion 8.

Las realizaciones se dirigen todavfa ademas a un medio legible por ordenador como el expuesto en la reivindicacion 7.

Breve descripcion de los dibujos

En los dibujos siguientes, numeros de referencia similares se utilizan para referirse a elementos similares. Aunque las figuras siguientes representan varios ejemplos, las aplicaciones descritas en el presente documento no se limitan a los ejemplos representados en las figuras.

La Fig. 1 es un diagrama de bloques de una realizacion de un sistema de procesamiento de audio configurado para realizar la optimizacion de la sonoridad y el rango dinamico, en algunas realizaciones.

La Fig. 2 es un diagrama de bloques de un codificador para uso en el sistema de la Fig. 1, en algunas realizaciones.

La Fig. 3 es un diagrama de bloques de un decodificador para uso en el sistema de la Fig. 1, en algunas realizaciones.

5

10

15

20

25

30

35

40

45

La Fig. 4 es un diagrama de una trama del AC-3, que incluye los segmentos en los que esta dividida.

La Fig. 5 es un diagrama del segmento de Informacion de la Sincronizacion (SI) de una trama del AC-3, que incluye

los segmentos en los que esta dividido.

La Fig. 6 es un diagrama del segmento de la Informacion de Flujo de Bits (BSI) de una trama AC-3, que incluye los segmentos en los que esta dividido.

La Fig. 7 es un diagrama de una trama del E-AC-3, que incluye los segmentos en los que esta dividida.

La Fig. 8 es una tabla que ilustra ciertas tramas de un flujo de bits codificado y el formato de metadatos, en algunas

realizaciones.

La informacion de la sonoridad asociada con un perfil de salida, y transmitir la informacion de la sonoridad determinada para el perfil de salida para uso en la mezcla del audio. En una realizacion, el paso de determinar la informacion de la sonoridad asociada con un perfil de salida puede incluir ademas analizar las caractensticas del perfil de salida, determinar los parametros basados en las caractensticas, y transmitir la informacion de la sonoridad determinada comprende transmitir los parametros determinados. La informacion de la sonoridad puede incluir parametros de la sonoridad para o caractensticos de un perfil de salida. En una realizacion, el procedimiento puede comprender ademas determinar un flujo codificado de baja velocidad de bits a transmitir, en donde la informacion de la sonoridad comprende caractensticas para uno o mas perfiles de salida.

Las realizaciones se dirigen ademas a un aparato o sistema que incluye procesar componentes que realizan los actos descritos en las realizaciones de los procedimientos de decodificacion anteriores.

Breve descripcion de los dibujos

La Fig. 5 es un diagrama del segmento de Informacion de la Sincronizacion (SI) de una trama AC-3, que incluye los

segmentos en los que esta dividido.

realizaciones.

La Fig. 9 es una tabla que ilustra un formato de metadatos del estado de procesamiento de la sonoridad, en algunas realizaciones.

La Fig. 10 es un diagrama de bloques mas detallado del sistema de procesamiento de audio de la Fig. 1 que se puede configurar para realizar la optimizacion de la sonoridad y el rango dinamico, en algunas realizaciones.

La Fig. 11 es una tabla que ilustra diferentes requisitos de rango dinamico para una variedad de dispositivos de reproduccion y entornos de audicion de fondo en un ejemplo practico de uso.

La Fig. 12 es un diagrama de bloques de un sistema de optimizacion de rango dinamico, en una realizacion.

La Fig. 13 es un diagrama de bloques que ilustra una interfaz entre diferentes perfiles para una variedad de diferentes clases de dispositivos de reproduccion, en una realizacion.

La Fig. 14 es una tabla que ilustra la correlacion entre la sonoridad a largo plazo y el rango dinamico a corto plazo para una pluralidad de perfiles definidos, en una realizacion.

La Fig. 15 ilustra ejemplos de perfiles de la sonoridad para diferentes tipos de contenido de audio, en una

5

10

15

20

25

30

35

40

45

50

55

realizacion.

La Fig. 16 es un diagrama de flujo que ilustra un procedimiento para optimizar la sonoridad y el rango dinamico a traves de dispositivos y aplicaciones de reproduccion, en una realizacion.

Descripcion detallada

Definiciones y Nomenclature

A lo largo de esta descripcion, incluidas las reivindicaciones, la expresion que realiza una operacion "sobre" una senal o dato (p. ej., filtrar, escalar, transformar o aplicar ganancia a la senal o dato) se usa en un sentido amplio para indicar la realizacion de la operacion directamente sobre la senal o dato, o sobre una version procesada de la senal o dato (p. ej., sobre una version de la senal que ha sido sometida a un filtrado preliminar o preprocesamiento antes de la realizacion de la operacion). La expresion "sistema" se usa en un sentido amplio para indicar un dispositivo, sistema o subsistema. Por ejemplo, un subsistema que aplica un decodificador puede mencionarse como un sistema decodificador y un sistema que incluye dicho subsistema (p. ej., un sistema que genera X senales de salida en respuesta a multiples entradas, en las que el subsistema genera M de las entradas y las otras entradas X - M se reciben desde una fuente externa) tambien se pueden mencionar como un sistema decodificador. El termino "procesador" se usa en un sentido amplio para indicar un sistema o dispositivo programable o si no configurable (p. ej., con software o firmware) para realizar operaciones sobre datos (p. ej., audio, video u otros datos de imagen). Ejemplos de procesadores incluyen una matriz de puertas programables por campo (u otro circuito integrado o conjunto de chips configurable), un procesador de senales digitales programado y/o, si no, configurado para realizar el procesamiento canalizado en audio u otros datos de sonido, un procesador programable de proposito general u ordenador, y un chip o conjunto de chips de microprocesador programable.

Las expresiones "procesador de audio" y "unidad de procesamiento de audio" se usan indistintamente, y en sentido amplio, para indicar un sistema configurado para procesar datos de audio. Ejemplos de unidades de procesamiento de audio incluyen pero no se limitan a codificadores (p. ej., transcodificadores), decodificadores, codecs, sistemas de preprocesamiento, sistemas de posprocesamiento y sistemas de procesamiento de flujo de bits (a veces mencionados como herramientas de procesamiento de flujo de bits). La expresion "metadatas del estado de procesamiento" (p. ej., como en la expresion "metadatas del estado de procesamiento de la sonoridad") se refiere a datos separados y diferentes de los datos de audio correspondientes (el contenido de audio de un flujo de datos de audio que incluye tambien metadatos del estado de procesamiento). El procesamiento del estado de metadatos esta asociado con datos de audio, indica el estado de procesamiento de la sonoridad de los datos de audio correspondientes (p. ej., que tipo (o tipos) de procesamiento ya se han realizado en los datos de audio) y opcionalmente tambien indica al menos una particularidad o caractenstica de los datos de audio. En alguna realizacion, la asociacion de los metadatos del estado de procesamiento con los datos de audio es sincronica temporal. De este modo, los metadatos del estado de procesamiento actuales (mas recientemente recibidos o actualizados) indican que los datos de audio correspondientes comprenden de forma contemporanea los resultados del tipo (o tipos) indicado del procesamiento de datos de audio. En algunos casos, los metadatos del estado de procesamiento pueden incluir el historial de procesamiento y/o algunos o todos los parametros que se utilizan en y/o derivados de los tipos de procesamiento indicados. Ademas, los metadatos del estado de procesamiento pueden incluir al menos una particularidad o caractenstica de los datos de audio correspondientes, que se han calculado o extrafdo de los datos de audio. Los metadatos del estado de procesamiento tambien pueden incluir otros metadatos que no estan relacionados con o derivados de ningun procesamiento de los datos de audio correspondientes. Por ejemplo, datos de terceros, informacion de seguimiento, identificadores, informacion de propiedad o estandar, datos de anotacion de usuario, datos de preferencia de usuario, etc., pueden ser anadidos por una unidad de procesamiento de audio en particular para pasar a otras unidades de procesamiento de audio.

La expresion "metadatos del estado de procesamiento de la sonoridad" (o "LPSM") indica metadatos del estado de procesamiento indicativos del estado de procesamiento de la sonoridad de los datos de audio correspondientes (p. ej., que tipo (o tipos) de procesamiento de la sonoridad se han realizado sobre los datos de audio) y opcionalmente tambien al menos una particularidad o caractenstica (p. ej., sonoridad) de los datos de audio correspondientes. Los metadatos del estado de procesamiento de la sonoridad pueden incluir datos (p. ej., otros metadatos) que no son metadatos del estado de procesamiento de la sonoridad (es decir, cuando se consideran solos). El termino "acopla" o "acoplado" se usa para significar una conexion directa o indirecta.

Se describen sistemas y procedimientos para un codificador/decodificador de audio que normaliza no destructivamente la sonoridad y el rango dinamico del audio a traves de diversos dispositivos que requieren o utilizan diferentes valores de la sonoridad objetivo y tienen diferentes capacidades de rango dinamico. Los procedimientos y componentes funcionales segun algunas realizaciones envfan informacion acerca del contenido de audio desde el codificador al decodificador para uno o mas perfiles de dispositivo. Un perfil del dispositivo especifica la sonoridad y el rango dinamico objetivos deseados para uno o mas dispositivos. El sistema es extensible, de manera que se pueden soportar nuevos perfiles de dispositivo con diferentes objetivos de sonoridad "nominal".

En una realizacion, el sistema genera ganancias adecuadas basadas en requisitos de control de la sonoridad y rango dinamico en el codificador o genera las ganancias en el decodificador, bajo control desde el codificador a

5

10

15

20

25

30

35

40

45

50

55

60

traves de la parametrizacion de las ganancias originales para reducir la velocidad de los datos. El sistema del rango dinamico incluye dos mecanismos para aplicar el control de la sonoridad: un perfil de rango dinamico artfstico que proporciona el control de los creadores de contenido sobre como se reproducira el audio, y un mecanismo de proteccion separado para asegurar que no se produzcan sobrecargas para los diversos perfiles de reproduccion. El sistema esta configurado tambien para permitir que otros parametros de metadatos (internos o externos) se utilicen para controlar adecuadamente las ganancias y/o perfiles de la sonoridad y del rango dinamico. El decodificador esta configurado para soportar una entrada auxiliar de n canales que aprovechara los ajustes/procesamiento de la sonoridad y rango dinamico del lado del decodificador.

En algunas realizaciones, los metadatos del estado de procesamiento de la sonoridad (LPSM) estan incrustados en uno o mas campos reservados (o ranuras) de segmentos de metadatos de un flujo de bits de audio que tambien incluye datos de audio en otros segmentos (segmentos de datos de audio). Por ejemplo, al menos un segmento de cada trama de flujo de bits incluye LPSM, y al menos otro segmento de la trama incluye datos de audio correspondientes (es decir, datos de audio cuyo estado de procesamiento de la sonoridad y la sonoridad estan indicados por el LPSM). En algunas realizaciones, el volumen de los datos de los LPSM puede ser suficientemente pequeno para ser transportados sin afectar a la velocidad de bits asignada para transportar los datos de audio.

La comunicacion de metadatos del estado de procesamiento de la sonoridad en una cadena del procesamiento de datos de audio es particularmente util cuando dos o mas unidades de procesamiento de audio necesitan trabajar en tandem entre sf a lo largo de la cadena de procesamiento (o ciclo de vida del contenido). Sin la inclusion de metadatos del estado de procesamiento de la sonoridad en un flujo de bits de audio, pueden producirse problemas de procesamiento de los medios tales como degradaciones de la calidad, del nivel y espaciales, por ejemplo, cuando se utilizan dos o mas codecs de audio en la cadena y se aplica nivelacion de volumen de un solo terminal mas de una vez durante el trayecto del flujo de bits hacia un dispositivo de consumo de los medios (o un punto de mezcla del contenido de audio del flujo de bits).

Sistema de procesamiento de metadatos de la sonoridad y rango dinamico

La Fig. 1 es un diagrama de bloques de una realizacion de un sistema de procesamiento de audio que puede ser configurado para realizar la optimizacion de la sonoridad y rango dinamico, en algunas realizaciones que utilizan ciertos componentes de procesamiento de metadatos (p. ej., preprocesamiento y posprocesamiento). La Fig. 1 ilustra un ejemplo de cadena de procesamiento de audio (un sistema del procesamiento de datos de audio), en el que uno o mas de los elementos del sistema pueden ser configurados segun una realizacion de la presente invencion. El sistema 10 de la Fig. 1 incluye los elementos siguientes, acoplados juntos como se muestra: una unidad 12 de preprocesamiento, un codificador 14, una unidad 16 de analisis de senal y de correccion de metadatos, un transcodificador 18, un decodificador 20 y una unidad 24 de posprocesamiento. En variaciones del sistema mostrado, uno o mas de los elementos se omiten o se incluyen unidades del procesamiento de datos de audio adicionales. Por ejemplo, en una realizacion, la unidad 22 de posprocesamiento es parte del decodificador 20 en lugar de ser una unidad separada.

En algunas aplicaciones, la unidad de preprocesamiento de la Fig. 1 esta configurada para aceptar muestras de PCM (dominio del tiempo) que comprenden audio contenido como entrada 11, y para emitir muestras PCM procesadas. El codificador 14 puede ser configurado para aceptar las muestras PCM como entrada y emitir un flujo de bits de audio codificado (p. ej., comprimido) indicativo del contenido de audio. Los datos del flujo de bits que son indicativos del contenido de audio a veces se denominan "datos de audio" en el presente documento. En una realizacion, el flujo de bits de audio procedente del codificador incluye metadatos del estado de procesamiento de la sonoridad (y opcionalmente tambien otros metadatos) asf como datos de audio.

La unidad 16 de analisis de senal y de correccion de metadatos puede aceptar uno o mas flujos de bits de audio codificados como entrada y determinar (p. ej., validar) si los metadatos del estado de procesamiento en cada flujo de bits de audio codificado son correctos, al realizar analisis de senal. En algunas realizaciones, la validacion puede ser realizada por un componente validador del estado, tal como el elemento 102 mostrado en la Fig. 2 y una tecnica de validacion de este tipo se describe mas adelante en el contexto del validador 102 del estado. En algunas realizaciones, la unidad 16 esta incluida en el codificador y la validacion se realiza por la unidad 16 o por el validador 102. Si la unidad de analisis de senal y de correccion de los metadatos encuentra que los metadatos incluidos no son validos, la unidad 16 de correccion de metadatos realiza el analisis de senal para determinar el valor (o valores) correcto y reemplaza el valor (o valores) incorrecto por el valor (o valores) correcto determinado. De este modo, cada flujo de bits de audio codificado procedente de la unidad de analisis de senal y de correccion de metadatos puede incluir metadatos del estado de procesamiento corregidos, asf como datos de audio codificados. La unidad 16 de analisis de senal y de correccion de metadatos puede ser parte de la unidad 12 de preprocesamiento, del codificador 14, del transcodificador 18, del decodificador 20 o de la unidad 22 de posprocesamiento. Alternativamente, la unidad 16 de analisis de senal y de correccion de metadatos puede ser una unidad separada o parte de otra unidad en la cadena de procesamiento de audio.

El transcodificador 18 puede aceptar flujos de bits de audio codificados como entrada, y emitir flujos de bits de audio modificados (p. ej., codificados de forma diferente) en respuesta (p. ej., decodificando un flujo de entrada y volviendo a codificar el flujo decodificado en un formato de codificacion diferente). El flujo de bits de audio procedente del

5

10

15

20

25

30

35

40

45

50

55

60

transcodificador incluye metadatas del estado de procesamiento de la sonoridad (y opcionalmente tambien otros metadatas) asf como datos de audio codificados. Los metadatos pueden haber sido incluidos en el flujo de bits.

El decodificador 20 de la Fig. 1 puede aceptar flujos de bits de audio codificados (p. ej., comprimidos) como entrada, y emitir (en respuesta) flujos de muestras de audio PCM decodificadas. En una realizacion, la salida del decodificador es o incluye cualquiera de los siguientes: un flujo de muestras de audio y un flujo correspondiente de metadatos del estado de procesamiento de la sonoridad (y opcionalmente tambien otros metadatos) extrafdos de un flujo de bits codificado de entrada; un flujo de muestras de audio, y un flujo correspondiente de bits de control determinados a partir de metadatos del estado de procesamiento de la sonoridad (y opcionalmente tambien otros metadatos) extrafdos de un flujo de bits codificado de entrada; o un flujo de muestras de audio, sin un flujo correspondiente de metadatos del estado de procesamiento o bits de control determinados a partir de metadatos del estado de procesamiento. En este ultimo caso, el decodificador puede extraer metadatos del estado de procesamiento de la sonoridad (y/u otros metadatos) del flujo de bits codificado de entrada y realizar al menos una operacion sobre los metadatos extrafdos (p. ej., validacion), aunque no emite los metadatos extrafdos o los bits de control determinados a partir de los mismos.

Configurando la unidad de posprocesamiento de la Fig. 1 segun una realizacion de la presente invencion, la unidad 22 de posprocesamiento esta configurada para aceptar un flujo de muestras de audio PCM decodificadas, y llevar a cabo el posprocesamiento sobre el mismo (p. ej., nivelacion del volumen del contenido de audio) utilizando metadatos del estado de procesamiento de la sonoridad (y opcionalmente tambien otros metadatos) recibidos con las muestras, o bits de control (determinados por el decodificador a partir de metadatos del estado de procesamiento de la sonoridad y opcionalmente tambien otros metadatos) recibidos con las muestras. La unidad 22 de posprocesamiento esta tambien opcionalmente configurada para mezclar el contenido de audio posprocesado para su reproduccion por uno o mas altavoces. Estos altavoces pueden ser realizados en cualquier variedad de diferentes dispositivos de audicion o elementos de equipos de reproduccion, tales como ordenadores, televisores, sistemas estereo (hogar o cine), telefonos moviles, y otros dispositivos de reproduccion portatiles. Los altavoces pueden ser de cualquier tamano y nivel de potencia adecuados, y pueden proporcionarse en forma de controladores independientes, cajas de altavoces, sistemas de sonido envolvente, barras de sonido, audffonos, auriculares, etc.

Algunas realizaciones proporcionan una cadena de procesamiento de audio mejorada en la que las unidades de procesamiento de audio (p. ej., codificadores, decodificadores, transcodificadores y unidades de pre- y posprocesamiento) adaptan su procesamiento respectivo para que se aplique a datos de audio segun un estado contemporaneo de los datos de los medios indicados por los metadatos del estado de procesamiento de la sonoridad recibidos respectivamente por las unidades de procesamiento de audio. La entrada 11 de datos de audio a cualquier unidad de procesamiento de audio del sistema 100 (p. ej., el codificador o transcodificador de la Figura 1) puede incluir metadatos del estado de procesamiento de la sonoridad (y opcionalmente tambien otros metadatos) asf como datos de audio (p. ej., datos de audio codificados). Estos metadatos pueden haber sido incluidos en el audio de entrada por otro elemento u otra fuente segun algunas realizaciones. La unidad de procesamiento que recibe el audio de entrada (con metadatos) puede estar configurada para realizar al menos una operacion sobre los metadatos (p. ej., validacion) o en respuesta a los metadatos (p. ej., procesamiento adaptativo del audio de entrada), y opcionalmente tambien para Incluir en su audio de salida los metadatos, una version procesada de los metadatos, o bits de control determinados a partir de los metadatos.

Una realizacion de la unidad de procesamiento de audio (o procesador de audio) esta configurada para realizar el procesamiento adaptativo de datos de audio basado en el estado de los datos de audio como se indica por los metadatos del estado de procesamiento de la sonoridad correspondientes a los datos de audio. En algunas realizaciones, el procesamiento adaptativo es (o incluye) el procesamiento de la sonoridad (si los metadatos indican que el procesamiento de la sonoridad, o procesamiento similar a la misma, no se ha realizado ya sobre los datos de audio, pero no es (y no incluye) el procesamiento de la sonoridad (si los metadatos indican que dicho procesamiento de la sonoridad o un procesamiento similar, ya se ha realizado sobre los datos de audio). En algunas realizaciones, el procesamiento adaptativo es o incluye la validacion de los metadatos (p. ej., realizada en una subunidad de validacion de metadatos) para asegurar que la unidad de procesamiento de audio realiza otro procesamiento adaptativo de los datos de audio basado en el estado de los datos de audio como se indica mediante los metadatos del estado de procesamiento de la sonoridad. En algunas realizaciones, la validacion determina la fiabilidad de los metadatos del estado de procesamiento de la sonoridad asociados con (p. ej., incluidos en un flujo de bits con) los datos de audio. Por ejemplo, si los metadatos son validados de ser fiables, entonces los resultados de un tipo de procesamiento de audio realizado previamente pueden ser reutilizados y se puede evitar la realizacion adicional del mismo tipo de procesamiento de audio. Por otra parte, si se comprueba que los metadatos han sido manipulados (o no fiables), entonces el tipo de procesamiento de los medios supuestamente realizado previamente (como se indica por los metadatos no fiables) puede repetirse por la unidad de procesamiento de audio, y/u otro procesamiento puede ser realizado por la unidad de procesamiento de audio sobre los metadatos y/o los datos de audio. La unidad de procesamiento de audio tambien puede configurarse para senalar otras unidades de procesamiento de audio aguas abajo en una cadena de procesamiento de medios mejorada de manera que los metadatos del estado de procesamiento de la sonoridad (p. ej., presentes en un flujo de bits de medios) son validos si la unidad determina que los metadatos del estado de procesamiento son validos (por ejemplo, basado en una coincidencia de un valor criptografico extrafdo y un valor criptografico de referencia).

5

10

15

20

25

30

35

40

45

50

55

60

Para la realizacion de la Fig. 1, el componente 12 de preprocesamiento puede ser parte del codificador 14, y el componente 22 de posprocesamiento puede ser parte del decodificador 22. Alternativamente, el componente 12 de preprocesamiento puede ser realizado en un componente funcional que esta separado del codificador 14. De manera similar, el componente 22 de posprocesamiento puede estar realizado en un componente funcional que esta separado del decodificador 20.

La Fig. 2 es un diagrama de bloques de un codificador 100 que se puede utilizar junto con el sistema 10 de la Fig. 1. Cualquiera de los componentes o elementos del codificador 100 puede ser aplicado como uno o mas procesos y/o uno o mas circuitos (p. ej., ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinacion de hardware y software. El codificador 100 comprende la memoria intermedia 110 de la trama, el reconocedor 111, el decodificador 101, el validador 102 del estado de audio, la etapa 103 de procesamiento de la sonoridad, la etapa 104 de seleccion del flujo de audio, el codificador 105, la etapa 107 de rellenador/formateador, la etapa 106 de generacion de metadatos, el subsistema 108 de medicion de la sonoridad del dialogo y de la memoria intermedia 109 de la trama, conectados como se muestra. Opcionalmente tambien, el codificador 100 incluye otros elementos de procesamiento (no mostrados). El codificador 100 (que es un transcodificador) esta configurado para transformar un flujo de bits de audio de entrada (que, por ejemplo, puede ser uno de un flujo de bits AC-3, un flujo de bits E-AC-3 o un flujo de bits Dolby E) en un flujo de bits de audio de salida codificado (que, por ejemplo, puede ser otro de un flujo de bits AC-3, un flujo de bits E-AC-3 o un flujo de bits Dolby E) que incluye realizar un procesamiento de la sonoridad adaptativo y automatizado utilizando los metadatos del estado de procesamiento de la sonoridad incluidos en el flujo de bits de entrada. Por ejemplo, el codificador 100 puede ser configurado para transformar un flujo de bits Dolby E de entrada (un formato utilizado tfpicamente en instalaciones de produccion y difusion pero no en dispositivos para el consumidor que reciben programas de audio que han sido difundidos por el) en un flujo de bits de audio de salida codificado (adecuado para la radiodifusion por dispositivos del consumidor) en formato Ac-3 o E- AC-3.

El sistema de la Fig. 2 incluye tambien el subsistema 150 de envfo de audio codificado (que almacena y/o envfa los flujos de bits codificados procedentes del codificador 100) y el decodificador 152. Un flujo de bits de audio codificado procedente del codificador 100 puede ser almacenado por el subsistema 150 (p. ej., en forma de un DVD o disco BluRay), o transmitido por el subsistema 150 (que puede aplicar un enlace o red de transmision), o puede ser almacenado y transmitido por el subsistema 150. El decodificador 152 esta configurado para decodificar un flujo de bits de audio codificado (generado por el codificador 100) que recibe a traves del subsistema 150, incluyendo extraer metadatos del estado de procesamiento de la sonoridad (LPSM) de cada trama del flujo de bits, y generar datos de audio decodificados. En una realizacion, el decodificador 152 esta configurado para realizar un procesamiento de la sonoridad adaptativo sobre los datos de audio decodificados usando LPSM, y/o para enviar los datos de audio decodificados y LPSM a un posprocesador configurado para realizar un procesamiento de la sonoridad adaptativo sobre los datos de audio decodificados utilizando el LPSM. Opcionalmente, el decodificador 152 incluye una memoria intermedia, que almacena (p. ej., de manera no transitoria) el flujo de bits de audio codificado recibido del subsistema 150.

Varias aplicaciones del codificador 100 y del decodificador 152 estan configuradas para realizar diferentes realizaciones descritas en el presente documento. La memoria intermedia 110 de la trama es una memoria intermedia acoplada para recibir un flujo de bits de audio de entrada codificado. En funcionamiento, la memoria intermedia 110 almacena (p. ej., de manera no transitoria) al menos una trama del flujo de bits de audio codificado, y una secuencia de las tramas del flujo de bits de audio codificado se presenta desde la memoria intermedia 110 al reconocedor 111. El reconocedor 111 esta acoplado y configurado para extraer metadatos del estado de procesamiento de la sonoridad (LPSM) y otros metadatos de cada trama del audio de entrada codificado, para presenta al menos el LPSM al validador 102 del estado de audio, a la etapa 103 de procesamiento de la sonoridad, a la etapa 106 y al subsistema 108, para extraer datos de audio desde el audio de entrada codificado, presentar al decodificador 101. El decodificador 101 del codificador 100 esta configurado para decodificar los datos de audio para generar datos de audio decodificados, y para presentar los datos de audio decodificados a la etapa 103 de procesamiento de la sonoridad, a la etapa 104 de seleccion de flujo, al subsistema 108, y opcionalmente tambien al validador 102 del estado.

El validador 102 de estado esta configurado para autentificar y validar LPSM (y opcionalmente otros metadatos) presentados a el. En algunas realizaciones, LPSM es (o esta incluido en) un bloque de datos que se ha incluido en el flujo de bits de entrada (p. ej., segun una realizacion de la presente invencion). El bloque puede comprender un trozo criptografico (un codigo de autenticacion de mensaje basado en trozos o "HMAC") para procesar LPSM (y opcionalmente tambien otros metadatos) y/o los datos de audio subyacentes (proporcionados desde el decodificador 101 al validador 102). El bloque de datos puede estar firmado digitalmente en estas realizaciones, de manera que una unidad de procesamiento de audio aguas abajo pueda autentificar y validar de forma relativamente facil los metadatos del estado de procesamiento.

Por ejemplo, el HMAC se utiliza para generar un resumen, y el valor (o valores) de proteccion incluidos en el flujo de bits de la invencion pueden incluir el resumen. El resumen se puede generar de la siguiente manera para una trama AC-3: (1) Despues de que los datos AC-3 y LPSM son codificados, los bytes de datos de la trama (frame_data #1 y frame_data #2 concatenados) y los bytes de datos LPSM se utilizan como entrada para la HMAC de la funcion de troceado. Otros datos que pueden estar presentes dentro de un campo auxdata no se toman en consideracion para

5

10

15

20

25

30

35

40

45

50

55

60

calcular el resumen. Otros datos de este tipo pueden ser bytes que no pertenecen ni a los datos de AC-3 ni a los datos de LSPSM. Los bits de proteccion incluidos en LPSM pueden no ser considerados para calcular el resumen HMAC. (2) Despues de que se calcula el resumen, se escribe en el flujo de bits en un campo reservado para los bits de proteccion. (3) El ultimo paso de la generacion de la trama AC-3 completa es el calculo de la verificacion CRC. Esto se escribe muy al final de la trama y se tienen en consideracion todos los datos pertenecientes a esta trama, incluidos los bits LPSM.

Otros procedimientos criptograficos que incluyen pero no se limitan a ninguno de uno o mas procedimientos criptograficos no HMAC pueden ser usados para la validacion de LPSM (p. ej., en el validador 102) para asegurar la transmision y recepcion seguras de LPSM y/o de los datos de audio subyacentes. Por ejemplo, puede realizarse la validacion (usando un procedimiento criptografico de este tipo) en cada unidad de procesamiento de audio que recibe una realizacion del flujo de bits de audio para determinar si los metadatos del estado de procesamiento de la sonoridad y los datos de audio correspondientes incluidos en el flujo de bits han experimentado (y/o han resultado de) el procesamiento espedfico de la sonoridad (como se indica por los metadatos) y no se han modificado despues de la realizacion de tal procesamiento espedfico de la sonoridad.

El validador 102 del estado presenta datos de control a la etapa 104 de seleccion del flujo de audio, generador 106 de metadatos y al subsistema 108 de medicion de la sonoridad del dialogo, para indicar los resultados de la operacion de validacion. En respuesta a los datos de control, la etapa 104 puede seleccionar (y pasar a traves del codificador 105) bien: (1) la salida procesada de forma adaptativa de la etapa 103 de procesamiento de la sonoridad (p. ej., cuando los LPSM indican que los datos de audio procedentes del decodificador 101 no han experimentado un tipo espedfico de procesamiento de la sonoridad, y los bits de control procedentes del validador 102 indican que los LPSM son validos); o bien (2) los datos de audio procedentes del decodificador 101 (p. ej., cuando los LPSM indican que los datos de audio procedentes del decodificador 101 ya han experimentado el tipo espedfico de procesamiento de la sonoridad que se realizana por la etapa 103 y los bits de control del validador 102 indican que los LPSM son validos). En una realizacion, la etapa 103 de procesamiento de la sonoridad corrige la sonoridad objetivo y al rango de sonoridad especificados.

La etapa 103 del codificador 100 esta configurada para realizar un procesamiento de la sonoridad adaptativo sobre los datos de audio decodificados procedentes del decodificador 101, basado en una o mas caractensticas de datos de audio indicadas por los LPSM extrafdos por el decodificador 101. La etapa 103 puede ser un procesador de control de la sonoridad y del rango dinamico en tiempo real del dominio de transformacion adaptativa. La etapa 103 puede recibir entrada del usuario (p. ej., valores de sonoridad /rango dinamico objetivos del usuario o valores dialnorm), u otra entrada de metadatos (p. ej., uno o mas tipos de datos de terceros, informacion de seguimiento, identificadores, informacion de propiedad o estandar, datos de anotacion de usuario, datos de preferencia del usuario, etc.) y/u otra entrada (p. ej., de un proceso de huellas digitales) y utilizar dicha entrada para procesar los datos de audio decodificados procedentes del decodificador 101.

El subsistema 108 de medicion de la sonoridad del dialogo puede operar para determinar la sonoridad de los segmentos del audio decodificado (del decodificador 101) que son indicativos del dialogo (u otra voz), p. ej., utilizando los LPSM (y/u otros metadatos) extrafdos por el decodificador 101, cuando los bits de control del validador 102 indican que los LPSM no son validos. El funcionamiento del subsistema 108 de medicion de la sonoridad del dialogo puede ser deshabilitado cuando los LPSM indican sonoridad determinada previamente de segmentos del dialogo (u otra voz) del audio decodificado (desde el decodificador 101) cuando los bits de control del validador 102 indican que los LPSM son validos.

Existen herramientas utiles (p. ej., el medidor de sonoridad Dolby LM100) para medir el nivel de dialogo en contenido de audio conveniente y facilmente. Algunas realizaciones de la APU (p. ej., la etapa 108 del codificador 100) se aplican para incluir (o para realizar las funciones de) tal herramienta para medir la sonoridad media de dialogo del contenido de audio de un flujo de bits de audio (p. ej., un flujo de bits AC-3 decodificado presentado a la etapa 108 desde el decodificador 101 del codificador 100). Si la etapa 108 se aplica para medir la sonoridad media real del dialogo de los datos de audio, la medicion puede incluir una etapa de aislar segmentos del contenido de audio que contienen predominantemente voz. Los segmentos de audio que predominantemente son voz se procesan despues segun un algoritmo de medicion de la sonoridad. Para datos de audio decodificados desde un flujo de bits AC-3, este algoritmo puede ser una medida de la sonoridad ponderada en K estandar (segun la norma internacional ITU-R BS.1770). Alternativamente, pueden usarse otras medidas de la sonoridad (p. ej., aquellas basadas en modelos psicoacusticos de la sonoridad).

El aislamiento de segmentos de voz no es esencial para medir la sonoridad media del dialogo de los datos de audio. Sin embargo, mejora la precision de la medida y proporciona resultados mas satisfactorios desde la perspectiva de un oyente. Debido a que no todo el contenido de audio contiene dialogo (voz), la medida de la sonoridad de todo el contenido de audio puede proporcionar una aproximacion suficiente del nivel de dialogo del audio, estuviera la voz presente.

El generador 106 de metadatos genera metadatos para ser incluidos mediante la etapa 107 en el flujo de bits codificado que saldra del codificador 100. El generador 106 de metadatos puede pasar a traves de la etapa 107 los LPSM (y/u otros metadatos) extrafdos por el codificador 101 (p. ej., cuando los bits de control del validador 102

5

10

15

20

25

30

35

40

45

50

55

60

indican que los LPSM y/u otros metadatos son validos), o generar nuevos LPSM (y/u otros metadatas) y presenta los nuevos metadatos a la etapa 107 (p. ej., cuando los bits de control del validador 102 indican que los LPSm y/u otros metadatos extrafdos por el decodificador 101 no son validos o pueden presentar a la etapa 107 una combinacion de metadatos extrafdos por el decodificador 101 y los metadatos recien generados. El generador 106 de metadatos puede incluir datos de la sonoridad generados por el subsistema 108, y al menos un valor indicativo del tipo de procesamiento de la sonoridad realizado por el subsistema 108, en los LPSM presenta a la etapa 107 para su inclusion en el flujo de bits codificado que saldra del codificador 100. El generador 106 de metadatos puede generar bits de proteccion (que pueden consistir en o incluir un codigo de autenticacion de mensaje basado en trozos o "HMAC") utiles para que al menos uno de entre descifrado, autenticacion o validacion de LPSM (y opcionalmente tambien otros metadatos) sean incluidos en el flujo de bits codificado y/o en los datos de audio subyacentes que se incluiran en el flujo de bits codificado. El generador 106 de metadatos puede proporcionar tales bits de proteccion a la etapa 107 para su inclusion en el flujo de bits codificado.

En una realizacion, el subsistema 108 de medida de la sonoridad del dialogo procesa los datos de audio procedentes del decodificador 101 para generar en respuesta a ello los valores de sonoridad (p. ej., valores de la sonoridad de dialogo con puerta y sin puerta) y valores de rango dinamico. En respuesta a estos valores, el generador 106 de metadatos puede generar metadatos del estado de procesamiento de la sonoridad (LPSM) para su inclusion (por el rellenador/formateador 107) en el flujo de bits codificado que son procedentes del codificador 100. En una realizacion, la sonoridad puede calcularse basada en tecnicas especificadas por las normas ITU-R BS.1770-1 e ITU-R BS.1770-2, u otras normas similares de medicion de la sonoridad. La sonoridad con puerta puede ser sonoridad con puerta al dialogo o sonoridad con puerta relativa, o una combinacion de estos tipos de sonoridad con puerta, y el sistema puede emplear bloques con puerta adecuados dependiendo de los requisitos de la aplicacion y las restricciones del sistema.

De forma adicional, opcional o alternativa, los subsistemas 106 y/o 108 del codificador 100 pueden realizar un analisis adicional de los datos de audio para generar metadatos indicativos de al menos una caractenstica de los datos de audio para su inclusion en el flujo de bits codificado que se va a emitir desde la etapa 107. El codificador

105 codifica (p. ej., realizando la compresion sobre el mismo) los datos de audio procedentes de la etapa 104 de seleccion y presenta el audio codificado a la etapa 107 para su inclusion en el flujo de bits codificado procedente de la etapa 107.

La etapa 107 multiplexa el audio codificado del codificador 105 y los metadatos (incluidos los LPSM) del generador

106 para generar que el flujo de bits codificado sea emitido desde la etapa 107, de manera que el flujo de bits codificado tenga el formato especificado por una realizacion. El memoria intermedia 109 de la trama es una memoria intermedia que almacena (p. ej., de manera no transitoria) al menos una trama del flujo de bits de audio codificado procedente de la etapa 107 y una secuencia de las tramas del flujo de bits de audio codificado se presenta entonces desde la memoria intermedia 109 como salida del codificador 100 hacia el sistema 150 de envta.

Los LPSM generados por el generador 106 de metadatos e incluido en el flujo de bits codificado por la etapa 107 es indicativo del estado de procesamiento de la sonoridad de los datos de audio correspondientes (p. ej., que tipo (o tipos) de procesamiento de la sonoridad se han realizado sobre los datos de audio) y sonoridad (p. ej., sonoridad medida del dialogo, sonoridad con puerta y/o sin puerta, y/o rango dinamico) de los datos de audio correspondientes. En el presente documento, el “umbral de puerta” de la sonoridad y/o mediciones de nivel realizadas sobre datos de audio se refieren a un nivel espedfico o umbral de sonoridad en donde el valor (o valores) calculado que excede el umbral se incluye en la medicion final (p. ej., ignorando valores de sonoridad a corto plazo inferiores a -60 dBFS en los valores finales medidos). El umbral de puerta en un valor absoluto se refiere a un nivel o sonoridad fijo, mientras que el umbral de puerta en un valor relativo se refiere a un valor que depende de un valor de medicion "sin puerta" actual.

En algunas aplicaciones del codificador 100, el flujo de bits codificado guardado en la memoria 109 (y que sale hacia el sistema de envta 150) es un flujo de bits AC-3 o un flujo de bits E-AC-3, y comprende segmentos de datos de audio (p. ej., los segmentos AB0-AB5 de la trama mostrada en la Fig. 4) y segmentos de metadatos, donde los segmentos de datos de audio son indicativos de datos de audio, y cada uno de al menos algunos de los segmentos de metadatos incluye metadatos del estado de procesamiento de la sonoridad (LPSM). La etapa 107 inserta LPSM en el flujo de bits en el siguiente formato. Cada uno de los segmentos de metadatos que incluye LPSM esta incluido en un campo "addbsi" del segmento de Informacion de Flujo de Bits ("BSI") de una trama del flujo de bits, o en un campo auxdata (p. ej., el segmento AUX mostrado en la Fig. 4) en el extremo de una trama del flujo de bits.

Una trama del flujo de bits puede incluir uno o dos segmentos de metadatos, cada uno de los cuales incluye LPSM, y si la trama incluye dos segmentos de metadatos, uno esta presente en el campo addbsi de la trama y el otro en el campo AUX de la trama. Cada segmento de metadatos que incluye LPSM incluye un segmento de carga util LPSM (o contenedor) que tiene el siguiente formato: una cabecera (p. ej., que incluya una palabra de sincronizacion que identifica el inicio de la carga util LPSM, seguido por al menos un valor de identificacion, p. ej., la version del formato LPSM, longitud, pertado, cuenta y valores de asociacion de flujo adicional indicados en la Tabla 2 de mas adelante); y despues de la cabecera, al menos un valor de indicacion de dialogo (p. ej., parametro "Canal (o canales) de dialogo" de la Tabla 2) que indica si los datos de audio correspondientes indican dialogo o no indican dialogo (p. ej., que canales de datos de audio correspondientes indican dialogo); al menos un valor de cumplimiento de la

5

10

15

20

25

30

35

40

45

50

55

60

regulacion de la sonoridad (p. ej., parametro "Tipo de Regulacion de la Sonoridad" de la Tabla 2) que indica si los datos de audio correspondientes cumplen con un conjunto indicado de regulaciones de la sonoridad; al menos un valor de procesamiento de la sonoridad (p. ej., uno o mas de los parametros "Indicador de correccion de la sonoridad con puerta al dialogo", "Tipo de correccion de la sonoridad" de la Tabla 2) que indica al menos un tipo de procesamiento de la sonoridad que se ha realizado sobre los datos de audio correspondientes; y al menos un valor de la sonoridad (p. ej., uno o mas de los parametros "Sonoridad con puerta relativa ITU", "Sonoridad con puerta de voz ITU”, “Sonoridad 3s a corto plazo iTu (EBU 3341)", y "Pico real" de la Tabla 2) que indica al menos una caractenstica de la sonoridad (p. ej., sonoridad pico o media) de los datos de audio correspondientes.

En algunas aplicaciones, cada uno de los segmentos de metadatos insertados por la etapa 107 en un campo "addbsi" o en un campo auxdata de una trama de flujo de bits tiene el siguiente formato: una cabecera principal (p. ej., que incluye una palabra de sincronizacion que identifica el inicio del segmento de metadatos, seguido por los valores de identificacion, p. ej., la version del elemento central, la longitud y el penodo, el recuento de elementos extendidos y los valores de asociacion de flujos adicionales indicados en la Tabla 1 de mas adelante); y despues de la cabecera principal, al menos un valor de proteccion (p. ej., el resumen HMAC y los valores de Huella Digital de Audio de la Tabla 1) util para al menos uno de descifrado, autenticacion o validacion de al menos uno de entre los metadatos del estado de procesamiento de la sonoridad o los datos de audio correspondientes); y tambien despues de la cabecera principal, si el segmento de metadatos incluye LPSM, identificacion ("ID") de la carga util de los LPSM y los valores de tamano de carga util LPSM que identifican los siguientes metadatos como una carga util de LPSM e indican el tamano de la carga util LPSM.

El segmento de la carga util (o contenedor) de LPSM (p. ej., que tiene el formato especificado anteriormente) sigue los valores de ID de carga util LPSM y de tamano de carga util LPSM.

En algunas realizaciones, cada uno de los segmentos de metadatos en el campo auxdata (o en el campo "addbsi") de una trama tiene tres niveles de estructura: una estructura de alto nivel, que incluye un indicador que indica si el campo auxdata (o el addbsi) incluye metadatos, al menos un valor ID que indique que tipo (o tipos) de metadatos estan presentes, y opcionalmente tambien un valor que indique cuantos bits de metadatos (p. ej., de cada tipo) estan presentes (si hay metadatos presentes). Un tipo de metadatos que podnan estar presentes son LSPM, y otro tipo de metadatos que podnan estar presentes son metadatos de busqueda de medios (p. ej., metadatos de Busqueda de Medios Nielsen); una estructura de nivel intermedio, que comprende un elemento central para cada tipo identificado de metadatos (p. ej., cabecera principal, valores de proteccion y valores de ID de carga util de LPSM y de tamano de carga util de LPSM, como se menciono anteriormente, para cada tipo identificado de metadatos); y una estructura de bajo nivel, que comprende cada carga util para un elemento central (p. ej., una carga util de LPSM, si es identificado por el elemento central de que esta presente y/o una carga util de metadatos de otro tipo, si es identificado por el elemento central de que esta presente).

Los valores de datos en una estructura de tres niveles de este tipo pueden estar anidados. Por ejemplo, el valor (o valores) de proteccion de una carga util de LPSM y/u otra carga util de metadatos identificada por un elemento central puede incluirse despues de cada carga util identificada por el elemento central (y, por lo tanto, despues de la cabecera principal del elemento central). En un ejemplo, una cabecera principal podna identificar una carga util de LPSM y otra carga util de metadatos, los valores de ID de la carga util y del tamano de la carga util para la primera carga util (p. ej., la carga util de los LPSM) podna seguir la cabecera principal, la propia primera carga util podna seguir los valores de ID y de tamano, el valor de ID de la carga util y el tamano de la carga util para la segunda carga util podna seguir la primera carga util, la propia segunda carga util podna seguir estos valores de ID y de tamano, y los bits de proteccion para ambas cargas utiles (o para los valores del elemento central y ambas cargas utiles) podnan seguir la ultima carga util.

En algunas realizaciones, si el decodificador 101 recibe un flujo de bits de audio generados segun una realizacion de la invencion con un trozo criptografico, el decodificador esta configurado para reconocer y recuperar el trozo criptografico de un bloque de datos determinado a partir del flujo de bits, comprendiendo dicho bloque metadatos del estado de procesamiento de la sonoridad (LPSM). El validador 102 puede utilizar el trozo criptografico para validar el flujo de bits recibidos y/o los metadatos asociados. Por ejemplo, el validador 102 considera que el LPSM es valido basado en una coincidencia entre un trozo criptografico de referencia y el trozo criptografico recuperado del bloque de datos, entonces puede desactivar la operacion del procesador 103 sobre los datos de audio correspondientes y hace que la etapa 104 de seleccion pase a traves (sin cambios) los datos de audio. Adicionalmente, opcionalmente o alternativamente, se pueden usar otros tipos de tecnicas criptograficas en lugar de un procedimiento basado en un trozo criptografico.

El codificador 100 de la Fig. 2 puede determinar (en respuesta a LPSM extrafdo por el decodificador 101) que una unidad de pos-/pre-procesamiento ha realizado un tipo de procesamiento de la sonoridad sobre los datos de audio a codificar (en los elementos 105, 106 y 107) y, en consecuencia, puede crear (en el generador 106) metadatos del estado de procesamiento de la sonoridad que incluyen los parametros espedficos utilizados en y/o derivados del procesamiento de la sonoridad realizado previamente. En algunas aplicaciones, el codificador 100 puede crear (e incluir en el flujo de bits codificado procedentes de el) metadatos del estado de procesamiento indicativos del historial de procesamiento en el contenido de audio siempre y cuando el codificador tenga en cuenta los tipos de procesamiento que se han realizado sobre el contenido de audio.

5

10

15

20

25

30

35

40

45

50

55

60

La Fig. 3 es un diagrama de bloques de un decodificador que se puede utilizar junto con el sistema 10 de la Fig. 1. Cualquiera de los componentes o elementos del decodificador 200 y del posprocesador 300 puede ser aplicado como uno o mas procesos y/o uno o mas circuitos (p. ej., los ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinacion de hardware y software. El decodificador 200 comprende la memoria intermedia 201 de la trama, el reconocedor 205, el decodificador 202 de audio, la etapa de validacion (validador) 203 del estado de audio, y la etapa 204 de generacion de bits de control, conectados como se muestra. El decodificador 200 puede incluir otros elementos de procesamiento (no mostrados). La memoria intermedia 201 de la trama (una memoria tampon) guarda (p. ej., de manera no transitoria) al menos una trama del flujo de bits de audio codificado recibido por el decodificador 200. Una secuencia de las tramas del flujo de bits de audio codificado se presenta desde la memoria intermedia 201 al reconocedor 205. El reconocedor 205 esta acoplado y configurado para extraer metadatos del estado de procesamiento de la sonoridad (LPSM) y otros metadatos de cada trama del audio de entrada codificado, para presentar al menos el LPSM al validador 203 del estado de audio y a la etapa 204, para presentar los LPSM como salida (p. ej., al post-procesador 300), para extraer datos de audio del audio de entrada codificado y presenta los datos de audio extrafdos al decodificador 202. El flujo de bits de audio codificado de entrada al decodificador 200 puede ser uno de un flujo de bits AC-3, un flujo de bits E-AC-3, o un flujo de bits Dolby E.

El sistema de la Fig. 3, incluye tambien el posprocesador 300. El posprocesador 300 comprende la memoria intermedia 301 de la trama y otros elementos de procesamiento (no mostrados) que incluyen al menos un elemento de procesamiento acoplado al memoria intermedia 301. La memoria intermedia 301 de la trama guarda (p. ej., de manera no transitoria) al menos una trama del flujo de bits de audio decodificado recibido por el posprocesador 300 del decodificador 200. Los elementos de procesamiento del posprocesador 300 estan acoplados y configurados para recibir y procesar de forma adaptativa una secuencia de las tramas del flujo de bits de audio decodificados procedente del memoria intermedia 301, utilizando metadatos (incluidos los valores de los LPSM) procedentes del decodificador 202 y/o bits de control procedentes de la etapa 204 del decodificador 200. En una realizacion, el posprocesador 300 esta configurado para realizar un procesamiento de la sonoridad adaptativo sobre los datos de audio decodificados que utilizan los valores de los LPSM (p. ej., basado en el estado de procesamiento de la sonoridad, y/o una o mas caractensticas de datos de audio, indicadas por los LPSM). Varias aplicaciones del decodificador 200 y del posprocesador 300 estan configuradas para realizar diferentes realizaciones de los procedimientos segun las realizaciones descritas en el presente documento.

El decodificador 202 de audio del decodificador 200 esta configurado para decodificar los datos de audio extrafdos por el reconocedor 205 para generar datos de audio decodificados y presentar los datos de audio decodificados como salida (p. ej., hacia el posprocesador 300). El validador 203 del estado esta configurado para autenticar y validar los LPSm (y opcionalmente otros metadatos) presentados al mismo. En algunas realizaciones, LPSM es (o esta incluido en) un bloque de datos que se ha incluido en el flujo de bits de entrada (p. ej., segun una realizacion de la presente invencion). El bloque puede comprender un trozo criptografico (un codigo de autenticacion de mensajes basado en trozos o "HMAC") para procesar los LPSM (y opcionalmente tambien otros metadatos) y/o los datos de audio subyacentes (proporcionados desde el reconocedor 205 y/o el decodificador 202 hasta el validador 203). El bloque de datos se puede firmar digitalmente en estas realizaciones, de modo que una unidad de procesamiento de audio aguas abajo pueda, de una manera relativamente facil, autenticar y validar los metadatos del estado de procesamiento.

Otros procedimientos criptograficos que incluyen pero no se limitan a cualquiera de uno o mas procedimientos criptograficos no HMAC pueden ser utilizados para la validacion de los LPSM (p. ej., en el validador 203) para garantizar la transmision y recepcion seguras de los LPSM y/o de los datos de audio subyacentes. Por ejemplo, puede realizarse la validacion (usando un procedimiento criptografico de este tipo) en cada unidad de procesamiento de audio que recibe una realizacion del flujo de bits de audio de la invencion para determinar si los metadatos del estado de procesamiento de la sonoridad y los datos de audio correspondientes incluidos en el flujo de bits han experimentado (y/o han resultado de) un procesamiento espedfico de la sonoridad (como se indica por los metadatos) y no han sido modificados despues de la realizacion de dicho procesamiento de sonoridad espedfico.

El validador 203 del estado presenta datos de control para controlar el generador 204 de bits y/o presenta los datos de control como salida (p. ej., hacia el posprocesador 300), para indicar los resultados de la operacion de validacion. En respuesta a los datos de control (y opcionalmente tambien a otros metadatos extrafdos del flujo de bits de entrada), la etapa 204 puede generar (y presenta al posprocesador 300) bien: bits de control que indican que los datos de audio decodificados procedentes del decodificador 202 han experimentado un tipo espedfico de procesamiento de la sonoridad (cuando los LPSM indican que los datos de audio procedentes del decodificador 202 han experimentado el tipo espedfico de procesamiento de la sonoridad, y los bits de control del validador 203 indican que los LPSM son validos); o bits de control que indican que los datos de audio decodificados procedentes del decodificador 202 deben experimentar un tipo espedfico de procesamiento de la sonoridad (p. ej., cuando los LPSM indican que los datos de audio procedentes del decodificador 202 no han experimentado el tipo espedfico de procesamiento de la sonoridad, o cuando los LPSM indican que los datos de audio procedentes del decodificador 202 han experimentado el tipo espedfico de procesamiento de la sonoridad pero los bits de control del validador 203 indican que los LPSM no son validos).

Alternativamente, el decodificador 200 presenta los LPSM (y cualesquiera otros metadatos) extrafdos por el

5

10

15

20

25

30

35

40

45

50

55

60

decodificador 202 desde el flujo de bits de entrada hacia el posprocesador 300, y el posprocesador 300 realiza el procesamiento de la sonoridad sobre los datos de audio decodificados utilizando el LPSm, o realiza la validacion del LPSM y despues realiza el procesamiento de la sonoridad sobre los datos de audio decodificados utilizando los LPSM si la validacion indica que los LPSM son validos.

En algunas realizaciones, si el decodificador 201 recibe un flujo de bits de audio generados segun una realizacion de la invencion con un trozo criptografico, el decodificador esta configurado para reconocer y recuperar el trozo criptografico de un bloque de datos determinado del flujo de bits, comprendiendo dicho bloque los metadatas del estado de procesamiento de la sonoridad (LPSM). El validador 203 puede usar el trozo criptografico para validar el flujo de bits recibidos y/o los metadatas asociados. Por ejemplo, si el validador 203 considera que el LPSM es valido basado en una coincidencia entre un trozo criptografico de referencia y el trozo criptografico recuperado del bloque de datos, entonces puede senalar a una unidad de procesamiento de audio aguas abajo (p. ej., el posprocesador 300, que puede ser o incluir una unidad de nivelacion de volumen) que pasen a traves (sin cambios) los datos de audio del flujo de bits. De forma adicional, opcional o alternativa, se pueden usar otros tipos de tecnicas criptograficas en lugar del procedimiento basado en un trozo criptografico.

En algunas aplicaciones del decodificador 100, el flujo de bits codificado recibido (y guardado en la memoria 201) es un flujo de bits AC-3 o un flujo de bits E-AC-3, y comprende segmentos de datos de audio (p. ej., los segmentos AB0-AB5 de la trama mostrada en la Fig. 4) y segmentos de metadatos, donde los segmentos de datos de audio son indicativos de datos de audio, y cada uno de al menos algunos de los segmentos de metadatos incluye metadatos del estado de procesamiento de la sonoridad (LPSM). La etapa 202 del decodificador esta configurada para extraer del flujo de bits los LPSM que tienen el siguiente formato. Cada uno de los segmentos de metadatos que incluye LPSM esta incluido en un campo "addbsi" del segmento de la Informacion del Flujo de Bits ("BSI") de una trama del flujo de bits, o en un campo auxdata (p. ej., el segmento AUX mostrado en la Fig. 4) en el extremo de una trama del flujo de bits. Una trama del flujo de bits puede incluir uno o dos segmentos de metadatos, cada uno de los cuales incluye LPSM, y si la trama incluye dos segmentos de metadatos, uno esta presente en el campo addbsi de la trama y el otro en el campo AUX de la trama. Cada segmento de metadatos que incluye LPSM incluye un segmento de carga util (o contenedor) de LPSM que tiene el siguiente formato: una cabecera (p. ej., incluyendo una palabra de sincronizacion que identifica el inicio de la carga util LPSM, seguida de valores de identificacion, p. ej., la version de formato LPSM, longitud, pertado, recuento, y los valores de asociacion de flujos adicionales indicados en la Tabla 2 de mas adelante); y despues de la cabecera, al menos un valor de indicacion de dialogo (p. ej., parametro "Canal (o canales) de dialogo" de la Tabla 2) indicando si el dato de audio correspondiente indica dialogo o no indica dialogo (p. ej., que canales de datos de audio correspondientes indican dialogo); al menos un valor de cumplimiento de la regulacion de la sonoridad (p. ej., parametro "Tipo de regulacion de la sonoridad" de la Tabla 2) indicando si el dato de audio correspondiente cumple con un conjunto indicado de regulaciones de la sonoridad; al menos un valor de procesamiento de la sonoridad (p. ej., uno o mas de los parametros "indicador de Correccion de la Sonoridad con puerta de dialogo", "Tipo de Correccion de la Sonoridad" de la Tabla 2) indicando al menos un tipo de procesamiento de la sonoridad que se ha realizado sobre los datos de audio correspondientes; y al menos un valor de la sonoridad (p. ej., uno o mas de los parametros "Sonoridad con puerta relativa ITU", "Sonoridad con puerta de voz ITU", "Sonoridad 3s a corto plazo ITU (EBU 3341)" y "Pico Real" de la Tabla 2) indicando al menos una caractenstica de la sonoridad (p. ej., sonoridad de pico o media) de los datos de audio correspondientes.

En algunas aplicaciones, la etapa 202 decodificadora esta configurada para extraer, desde el campo "addbsi" o un campo auxdata de una trama del flujo de bits, cada segmento de metadatos que tiene el siguiente formato: una cabecera principal (p. ej., incluyendo una palabra de sincronizacion que identifica el inicio del segmento de metadatos, seguido por al menos un valor de identificacion, p. ej., la version, longitud y pertado del elemento Central, el recuento de elementos extendidos y los valores de asociacion de flujos adicionales indicados en la Tabla 1 de mas adelante); y despues de la cabecera principal, al menos un valor de proteccion (p. ej., el resumen HMAC y los valores de Huella Digital de Audio de la Tabla 1) util para al menos uno de entre descifrado, autenticacion o validacion de al menos uno de entre los metadatos del estado de procesamiento de la sonoridad o los datos de audio correspondientes); y tambien despues de la cabecera principal, si el segmento de metadatos incluye valores de LPSM, de identificacion ("ID") de carga util LPSM y de tamano de carga util de LPSM que identifican los siguientes metadatos como una carga util de LPSM e indican el tamano de la carga util LPSM. El segmento (p. ej., que tiene el formato especificado anteriormente) de la carga util (o contenedor) LPSM sigue los valores de ID de la carga util de LPSM y de tamano de la carga util de LPSM.

De manera mas general, el flujo de bits de audio codificado generado por una realizacion tiene una estructura que proporciona un mecanismo para etiquetar los elementos y sub-elementos de metadatos como centrales (obligatorio) o expandidos (elementos opcionales). Esto permite que la velocidad de datos del flujo de bits (que incluye sus metadatos) escale a traves de numerosas aplicaciones. Los elementos centrales (obligatorios) de la sintaxis del flujo de bits deben ser tambien capaces de senalar que los elementos expandidos (opcionales) asociados con el contenido de audio estan presentes (en la banda) y/o en una ubicacion remota (fuera de la banda).

En alguna realizacion, se requiere que el elemento (o elementos) central este presente en cada trama del flujo de bits. Algunos sub-elementos de elementos centrales son opcionales y pueden estar presentes en cualquier combinacion. No se requiere que los elementos expandidos esten presentes en cada trama (para limitar la sobrecarga de la velocidad de los bits). Asf, los elementos expandidos pueden estar presentes en algunas tramas y

5

10

15

20

25

30

35

40

45

50

55

60

no en otras. Algunos sub-elementos de un elemento expandido son opcionales y pueden estar presentes en cualquier combinacion, mientras que algunos sub-elementos de un elemento ampliado pueden ser obligatorios (es decir, si el elemento ampliado esta presente en una trama del flujo de bits).

En algunas realizaciones, un flujo de bits de audio codificado que comprende una secuencia de segmentos de datos de audio y segmentos de metadatos es generado (p. ej., mediante una unidad de procesamiento de audio que incorpora la invencion). Los segmentos de datos de audio son indicativos de datos de audio, cada uno de al menos algunos de los segmentos de metadatos incluye metadatos del estado de procesamiento de la sonoridad (LPSM) y los segmentos de datos de audio son multiplexados por division de tiempo con los segmentos de metadatos. En algunas realizaciones de esta clase, cada uno de los segmentos de metadatos tiene un formato que se describira en el presente documento. En un formato, el flujo de bits codificado es un flujo de bits AC-3 o un flujo de bits E-AC-3, y cada uno de los segmentos de metadatos que incluye LPSM esta incluido (p. ej., por la etapa 107 del codificador 100) como informacion adicional del flujo de bits en el campo "addbsi" (mostrado en la Fig. 6) del segmento de la Informacion de Flujo de Bits ("BSI") de una trama del flujo de bits, o en un campo auxdata de una trama del flujo de bits. Cada una de las tramas incluye un elemento central en el campo addbsi de la trama que tiene el formato mostrado en la Tabla 1 de la Fig. 8.

En un formato, cada uno de los campos addbsi (o auxdata) que contiene LPSM contiene una cabecera principal (y opcionalmente tambien elementos centrales adicionales), y despues de la cabecera principal (o la cabecera principal y otros elementos centrales), los siguientes valores LPSM (parametros): un ID de carga util (identificando los metadatos como LPSM) segun los valores de los elementos centrales (p. ej., como se especifica en la Tabla 1); un tamano de carga util (que indica el tamano de la carga util de LPSM) segun el ID de carga util; y datos LPSM (segun el valor del ID de carga util y del tamano de la carga util) que tienen el formato indicado en la Tabla 2 de la Fig. 9.

En un segundo formato de un flujo de bits codificado, el flujo de bits es un flujo de bits AC-3 o un flujo de bits E-AC- 3, y cada uno de los segmentos de metadatos que incluye LPSM esta incluido (p. ej., mediante la etapa 107 del codificador 100) bien en: un campo "addbsi" (mostrado en la Fig. 6) del segmento de Informacion de Flujo de Bits ("BSI") de una trama del flujo de bits; o en un campo auxdata (p. ej., el segmento AUX mostrado en la Fig. 4) en el extremo de una trama del flujo de bits. Una trama puede incluir uno o dos segmentos de metadatos, cada uno de los cuales incluye LPSM, y si la trama incluye dos segmentos de metadatos, uno esta presente en el campo addbsi de la trama y el otro en el campo AUX de la trama. Cada segmento de metadatos que incluye LPSM tiene el formato especificado anteriormente con referencia a las Tablas 1 y 2 anteriores (es decir, incluye los elementos centrales especificados en la Tabla 1, seguidos por los ID de carga util (identificando los metadatos como LPSM) y los valores de tamano de carga util especificados anteriormente, seguido de la carga util (los datos LPSM que tienen el formato indicado en la Tabla 2).

En otro, el flujo de bits codificado es un flujo de bits Dolby E, y cada uno de los segmentos de metadatos que incluye LPSM esta en las primeras N ubicaciones de muestra del intervalo de banda de proteccion Dolby E. Un flujo de bits Dolby E que incluye un segmento de metadatos de este tipo, que incluye LPSM, p. ej., incluye un valor indicativo de longitud de carga util LPSM senalado en la palabra Pd del preambulo SMPTE 337M (la tasa de repeticion de palabra Pa SMPTE 337M puede permanecer identica a la velocidad de fotogramas asociada).

En un formato en donde el flujo de bits codificado es un flujo de bits E-AC-3, cada uno de los segmentos de metadatos que incluye LPSM esta incluido (p. ej., mediante la etapa 107 del codificador 100) como informacion de flujo de bits adicional en el campo "addbsi" del segmento Informacion de Flujo de Bits ("BSI") de una trama del flujo de bits. Los aspectos adicionales de la codificacion de un flujo de bits E-AC-3 con LPSM en este formato se describen como sigue: (1) durante la generacion de un flujo de bits E-AC-3, mientras que el codificador E-AC-3 (que inserta los valores LPSM en el flujo de bits) esta "activo", para cada trama (trama de sincronizacion) generada, el flujo de bits debe incluir un bloque de metadatos (incluido LPSM) llevado en el campo addbsi de la trama. Los bits necesarios para transportar el bloque de metadatos no deben incrementar la velocidad de bits del codificador (longitud de la trama); (2) cada bloque de metadatos (que contiene LPSM) debe contener la siguiente informacion: loudness_correction_type_flag: donde “1” indica que la sonoridad de los datos de audio correspondientes era corregida aguas arriba del codificador y “0” indica que la sonoridad era corregida por un corrector de la sonoridad incrustado en el codificador (p. ej., el procesador 103 de la sonoridad del codificador 100 de la Fig. 2); speech_channel: indica que canal (o canales) fuente contiene la voz (durante los 0,5 segundos anteriores). Si no se detecta ninguna voz, se indicara como tal; speech_loudness: indica la sonoridad de voz integrada de cada canal de audio correspondiente que contiene la voz (durante los 0,5 segundos anteriores); ITU_loudness: indica la sonoridad ITU BS.1770-2 integrada de cada canal de audio correspondiente; gain: ganancia (o ganancias) compuesta de la sonoridad para la inversion en un decodificador (para demostrar reversibilidad).

Mientras que el codificador E-AC-3 (que inserta los valores de LPSM en el flujo de bits) esta "activo" y esta recibiendo una trama AC-3 con un indicador de "confianza", el controlador de la sonoridad en el codificador (p. ej., el procesador 103 de la sonoridad del codificador 100 de la Fig. 2) es derivado. Los valores de dialnorm y de DRC de una fuente "de confianza" se pasan a traves (p. ej., por el generador 106 del codificador 100) al componente codificador E-AC-3 (p. ej., la etapa 107 del codificador 100). La generacion del bloque LPSM continua y el loudness_correction_type_flag se establece en “1”. La secuencia de derivacion del controlador de la sonoridad se sincroniza con el inicio de la trama AC-3 decodificada donde aparece el indicador “de confianza". La secuencia de

5

10

15

20

25

30

35

40

45

50

55

60

derivacion del controlador de la sonoridad se aplica de la siguiente manera: el control leveler_amount es decrementado desde un valor de 9 a un valor de 0 sobre 10 penodos de bloque de audio (es decir, 53,3 ms) y el control leveler_back_end_meter se coloca en modo de derivacion (esta operacion debe dar como resultado una transicion fluida). El termino derivacion "confiable" del nivelador implica que el valor de dialnorm del flujo de bits de la fuente tambien se reutiliza en la salida del codificador (p. ej., si el flujo de bits de la fuente “de confianza” tiene un valor de dialnorm de -30 entonces la salida del codificador debena utilizar -30 para el valor de dialnorm de salida).

Mientras que el codificador E-AC-3 (que inserta los valores de LPSM en el flujo de bits) esta "activo" y esta recibiendo una trama AC-3 sin el indicador “de confianza”, el controlador de la sonoridad incrustado en el codificador (p. ej., el procesador 103 de la sonoridad del codificador 100 de la Fig. 2) esta activo. La generacion del bloque de LPSM continua y el loudness_correction_type_flag se establece en “0”. La secuencia de activacion del controlador de la sonoridad se sincroniza con el inicio de la trama AC-3 decodificada donde desaparece el indicador “de confianza". La secuencia de activacion del controlador de la sonoridad se aplica de la siguiente manera: el control leveler_amount se incrementa desde un valor de 0 a un valor de 9 a lo largo de 1 penodo del bloque de audio (es decir, 5,3 ms) y el control leveler_back_end_meter se coloca en modo “activo” (esta operacion da como resultado una transicion fluida e incluye un reinicio de integracion back_end_meter); y durante la codificacion, una interfaz grafica de usuario (GUI) indicaba a un usuario los siguientes parametros: "Programa de Audio de Entrada: [Confiable/No confiable]"- el estado de este parametro se basa en la presencia del indicador "de confianza" dentro de la senal de entrada; y "Correccion de la sonoridad en tiempo real: [Activada/Desactivada]" - el estado de este parametro se basa en si esta activo este controlador de la sonoridad incorporado en el codificador.

Cuando se decodifica un flujo de bits AC-3 o E-AC-3 que tiene LPSM (en el formato descrito) incluido en el campo "addbsi" del segmento de la Informacion de Flujo de Bits ("BSI") de cada trama del flujo de bits, el decodificador reconoce los datos del bloque de LPSM (en el campo addbsi) y pasa los valores LPSM extrafdos a una interfaz grafica de usuario (GUI). El conjunto de valores de LPSM extrafdos se actualiza en cada trama.

En otro formato mas, el flujo de bits codificado es un flujo de bits AC-3 o un flujo de bits E-AC-3, y cada uno de los segmentos de metadatos que incluye LPSM esta incluido (p. ej., por la etapa 107 del codificador 100) como informacion adicional del flujo de bits en el campo "addbsi" (mostrado en la Fig. 6) del segmento de Informacion de Flujo de Bits ("BSI") (o en el segmento Aux) de una trama del flujo de bits. En este formato (que es una variacion del formato descrito anteriormente con referencia a las Tablas 1 y 2), cada uno de los campos addbsi (o Aux) que contiene LPSM contiene los siguientes valores LPSM: los elementos centrales especificados en la Tabla 1, seguidos por la ID de la carga util (que identifica los metadatos como LPSM) y los valores del tamano de la carga util, seguido por la carga util (datos de LPSM) que tiene el siguiente formato (similar a los elementos indicados en la Tabla 2 anterior): version de la carga util de LPSM: un campo de 2 bits que indica la version de la carga util de LPSM; dialchan: un campo de 3 bits que indica si los canales Izquierdo, Derecho y/o Central de los datos de audio correspondientes contienen dialogo hablado. La asignacion de bits del campo dialchan puede ser la siguiente: el bit 0, que indica la presencia de dialogo en el canal izquierdo, se almacena en el bit mas significativo del campo dialchan; y el bit 2, que indica la presencia de dialogo en el canal central, se almacena en el bit menos significativo del campo dialchan. Cada bit del campo dialchan se establece en “1” si el canal correspondiente contiene dialogo hablado durante los 0,5 segundos anteriores del programa; loudregtyp: un campo de 3 bits que indica que regulacion de la sonoridad estandar cumple con la sonoridad del programa. El ajuste del campo "loudregtyp" a "000" indica que LPSM no indica el cumplimiento de la regulacion de la sonoridad. Por ejemplo, un valor de este campo (p. ej., 000) puede indicar que no se indica el cumplimiento con una norma de regulacion de la sonoridad, otro valor de este campo (p. ej., 001) puede indicar que los datos de audio del programa cumplen con la norma ATSC A/85, y otro valor de este campo (p. ej., 010) puede indicar que los datos de audio del programa cumplen con la norma EBU R128. En el ejemplo, si el campo se establece en cualquier valor distinto de “000”, los campos loudcorrdialgat y loudcorrtyp deben seguir en la carga util; loudcorrdialgat: un campo de un bit que indica si se ha aplicado la correccion de sonoridad con puerta al dialogo. Si se ha corregido la sonoridad del programa con el umbral de puerta del dialogo, el valor del campo loudcorrdialgat se establece en “1”. De lo contrario, se establece en “0”; loudcorrtyp: un campo de un bit que indica el tipo de correccion de la sonoridad aplicada al programa. Si la sonoridad del programa se ha corregido con un proceso de correccion de la sonoridad de analisis por anticipacion de infinidad (basada en archivo), el valor del campo loudcorrtyp se establece en “0”. Si se ha corregido la sonoridad del programa con una combinacion de medicion de la sonoridad en tiempo real y control del rango dinamico, el valor de este campo se establece en “1”; loudrelgate: un campo de un bit que indica si existen datos de sonoridad con puerta relativa (ITU). Si el campo loudrelgate se establece en “1”, un campo ituloudrelgat de 7 bits debe seguir en la carga util; loudrelgat: un campo de 7 bits que indica la sonoridad del programa con puerta relativa (ITU). Este campo indica la sonoridad integrada del programa de audio, medida segun la ITU-R BS.1770-2 sin ningun ajuste de ganancia debido a la compresion dialnorm y de rango dinamico que se aplica. Los valores de 0 a 127 se interpretan como -58 LKFS a +5,5 LKFS, en pasos de 0,5 LKFS; loudspchgate: un campo de un bit que indica si existen datos de sonoridad de puerta de voz (ITU). Si el campo loudspchgate se establece en “1”, un campo loudspchgat de 7 bits debe seguir en la carga util; loudspchgat: un campo de 7 bits que indica la sonoridad del programa de puerta de voz. Este campo indica que la sonoridad integrada de todo el programa de audio correspondiente, medido segun la formula (2) de ITU-R BS.1770-3 y sin ningun ajuste de ganancia debido a la compresion dialnorm y de rango dinamico que se aplica. Los valores de 0 a 127 se interpretan como -58 a +5,5 LKFS, en pasos de 0,5 LKFS; loudstrm3se: un campo de un bit que indica si existen datos de sonoridad a corto plazo (3 segundos). Si el campo se

5

10

15

20

25

30

35

40

45

50

55

60

establece en “1”, un campo loudstrm3s de 7 bits debe seguir en la carga util; loudstrm3s: un campo de 7 bits que indica la sonoridad sin puerta de los 3 segundos anteriores del programa de audio correspondiente, medida segun la ITU-R BS.1771-1 y sin ningun ajuste de ganancia debido al dialnorm y a la compresion del rango dinamico que se aplica. Los valores de 0 a 256 se interpretan como -116 LKFS a +11,5 LKFS, en pasos de 0,5 LKFS; truepke: un campo de un bit que indica si existen datos de sonoridad de pico real. Si el campo truepke se ajusta en “1”, un campo truepk de 8 bits debena seguir en la carga util; y truepk: un campo de 8 bits que indica el valor de la muestra de pico real del programa, medido segun el Anexo 2 de la lTU-R BS.1770-3 y sin ningun ajuste de ganancia debido al dialnorm y a la compresion del rango dinamico que se aplica. Los valores de 0 a 256 se interpretan como -116 LKFS a +11,5 LKFS en 0,5 pasos de LKFS.

En algunas realizaciones, el elemento central de un segmento de metadatos en un campo auxdata (o campo "addbsi") de una trama de un flujo de bits AC-3 o de un flujo de bits E-AC-3 comprende una cabecera principal (que opcionalmente incluye valores identificacion, p. ej., version de elemento central), y despues la cabecera principal: valores indicativos de si los datos de la huella digital estan (u otros valores de proteccion estan) incluidos en los metadatos del segmento de metadatos, valores indicativos de si existen datos externos (relativos a los datos de audio correspondientes a los metadatos del segmento de metadatos), el ID de la carga util y los valores de tamano de la carga util para cada tipo de metadatos (p. ej., LPSM y/o metadatos de un tipo distinto de LPSM) identificados por el elemento central y los valores de proteccion para al menos un tipo de metadatos identificados por el elemento central. La carga util (o cargas utiles) del segmento de metadatos sigue la cabecera principal y se anidan (en algunos casos) dentro de los valores del elemento central.

Sistema de Sonorizacion y Rango Dinamico Optimizado

La codificacion de los metadatos y el esquema de transporte seguro descritos anteriormente se utilizan junto con un sistema escalable y extensible para optimizar la sonoridad y el rango dinamico a traves de diferentes dispositivos de reproduccion, aplicaciones y entornos de audicion, tal como se ilustra en la Fig. 1. En una realizacion, el sistema 10 esta configurado para normalizar los niveles de la sonoridad y el rango dinamico del audio 11 de entrada a traves de varios dispositivos que requieren diferentes valores de sonoridad objetivo y tienen diferentes capacidades de rango dinamico. Para normalizar los niveles de sonoridad y rango dinamico, el sistema 10 incluye diferentes perfiles de dispositivos con el contenido de audio, y la normalizacion se hace basada en estos perfiles. Los perfiles pueden ser incluidos por una de las unidades de procesamiento de audio en las cadenas de procesamiento de audio y los perfiles incluidos pueden ser utilizados por una unidad de procesamiento aguas abajo en la cadena de procesamiento de audio para determinar la sonoridad y el rango dinamico objetivos deseados para un dispositivo objetivo. Componentes de procesamiento adicionales pueden proporcionar o procesar informacion para la gestion de perfiles de dispositivos (que incluyen (pero que no se limitan a) los siguientes parametros: rango de banda nula, umbral de pico real, rango de sonoridad, constante de tiempo rapida/lenta (coeficientes) y max. realce), control de ganancia y funciones de generacion de ganancia de banda ancha y/o multibanda.

La Fig. 10 ilustra un diagrama mas detallado del sistema de la Fig. 1 para un sistema que proporciona control de sonoridad y rango dinamico optimizados, en algunas realizaciones. Para el sistema 321 de la Fig. 10, la etapa del codificador comprende un componente codificador central 304 que codifica la entrada 303 de audio en un formato digital adecuado para su transmision al decodificador 312. El audio se procesa de manera que pueda reproducirse en varios entornos de audicion diferentes, cada uno de los cuales puede requerir diferentes ajustes objetivo de sonoridad y/o rango dinamico. Asf, como se muestra en la Fig. 10, el decodificador emite una senal digital que es transformada en formato analogico mediante un transformador 316 de digital a analogico para reproducirse a traves de una diversidad de diferentes tipos de controladores que incluyen altavoces 320 de rango completo, altavoces miniatura 322 y auriculares 324. Estos controladores ilustran solo algunos ejemplos de posibles controladores de reproduccion y se puede usar cualquier transductor o controlador de cualquier tamano y tipo adecuados. Ademas, los controladores/transductores 320-324 de la Fig. 10 se pueden incorporar en cualquier dispositivo de reproduccion adecuado para su uso en cualquier entorno de audicion correspondiente. Los tipos de dispositivos pueden incluir, p. ej., AVR, televisores, equipo estereo, ordenadores, telefonos moviles, tabletas, reproductores de MP3, etc.; y los entornos de audicion pueden incluir, p. ej., auditorios, hogares, automoviles, cabinas de audicion, etc.

Dado que la gama de entornos de reproduccion y tipos de controladores puede variar desde contextos privados muy pequenos hasta espacios publicos muy grandes, el margen de posibles y optimas configuraciones de sonoridad y rango dinamico de la reproduccion puede variar considerablemente dependiendo del tipo de contenido, niveles de ruido de fondo, y similares. Por ejemplo, en un entorno de cine en casa, se puede reproducir un amplio rango dinamico a traves de equipos de sonido envolvente y un contenido de rango dinamico mas estrecho se puede reproducir a traves de un sistema de television normal (tal como un tipo LCD/LED de pantalla plana), mientras que puede utilizarse un modo de rango dinamico muy estrecho para ciertas condiciones de audicion (p. ej., de noche o en un dispositivo con estrictas limitaciones de potencia acustica de salida, p. ej., la salida de altavoces internos o auriculares de un telefono movil/tableta) cuando no se desean grandes variaciones de nivel. En contextos de audicion de portatiles o de moviles, como el uso de pequenos altavoces de ordenador o de base, o auriculares/audffonos, el rango dinamico optimo de la reproduccion puede variar dependiendo del entorno. Por ejemplo, en un entorno tranquilo, el rango dinamico optimo puede ser mayor en comparacion con un entorno ruidoso. Las realizaciones del sistema de procesamiento de audio adaptativo de la Fig. 10 variaran el rango dinamico para hacer que el contenido de audio sea mas inteligible dependiendo de los parametros, tales como el

5

10

15

20

25

30

35

40

45

50

55

60

entorno del dispositivo de audicion y el tipo de dispositivo de reproduccion.

La Fig. 11 es una tabla que ilustra diferentes requisitos de rango dinamico para una variedad de dispositivos de reproduccion y entornos de audicion de fondo en un ejemplo practico de uso. Pueden derivarse requisitos similares para la sonoridad. Los diferentes requisitos de rango dinamico y de sonoridad generan diferentes perfiles que son utilizados por el sistema de optimizacion 321. El sistema 321 incluye un componente 302 de medida de la sonoridad y del rango dinamico que analiza y mide la sonoridad y el rango dinamico del audio de entrada. En una realizacion, el sistema analiza el contenido global del programa para determinar el parametro global de la sonoridad. En este contexto, sonoridad se refiere a la sonoridad del programa a largo plazo o la sonoridad media de un programa, en donde un programa es una sola unidad de contenido de audio, como una pelfcula, un espectaculo en television, un anuncio o un contenido similar de un programa. La sonoridad se utiliza para proporcionar una indicacion del perfil artfstico del rango dinamico que es utilizado por los creadores de contenidos para controlar como se reproducira el audio. La sonoridad esta relacionada con el valor de los metadatos de dialnorm ya que dialnorm representa la sonoridad media del dialogo de un unico programa (p. ej., pelfcula, espectaculo, anuncio, etc.). El rango dinamico a corto plazo cuantifica las variaciones en las senales durante un penodo de tiempo mucho mas corto que la sonoridad del programa. Por ejemplo, el rango dinamico a corto plazo puede medirse en el orden de segundos, mientras que la sonoridad del programa puede medirse durante un penodo de minutos o incluso de horas. El rango dinamico a corto plazo proporciona un mecanismo de proteccion que es independiente de la sonoridad del programa para asegurar que no se produzca sobrecarga para varios perfiles de reproduccion y tipos de dispositivos. En una realizacion, el objetivo de sonoridad (sonoridad del programa a largo plazo) se basa en la sonoridad del dialogo y el rango dinamico a corto plazo se basa en la sonoridad con puerta y/o sin puerta relativa. En este caso, algunos componentes de DRC y de la sonoridad en el sistema se tienen en cuenta en el contexto con respecto al tipo de contenido y/o tipos y caractensticas de dispositivos de destino. Como parte de esta capacidad de tener en cuenta el contexto, el sistema esta configurado para analizar una o mas caractensticas del dispositivo de salida para determinar si el dispositivo es un miembro de grupos o de dispositivos particulares que estan optimizados para ciertas condiciones de reproduccion de DRC y de sonoridad, tales como dispositivos de tipo AVR, televisores, ordenadores, dispositivos portatiles, etc.

Un componente de preprocesamiento analiza el contenido del programa para determinar la sonoridad, picos, picos reales y penodos tranquilos para crear metadatos unicos para cada perfil de una pluralidad de perfiles diferentes. En una realizacion, la sonoridad puede ser una sonoridad con puerta al dialogo y/o una sonoridad con puerta relativa. Los diferentes perfiles definen varios modos de DRC (Control de Rango Dinamico) y de sonoridad objetivo en los que se generan diferentes valores de ganancia en el codificador dependiendo de las caractensticas del contenido de audio fuente, sonoridad objetivo deseada y del tipo y/o entorno del dispositivo de reproduccion. El decodificador puede ofrecer diferentes modos de DRC y de la sonoridad objetivo (habilitados por los perfiles mencionados anteriormente) y puede incluir DRC y sonoridad objetivo deshabilitada/desactivada que permite un listado completo de rangos dinamicos sin compresion de la senal de audio y sin normalizacion de la sonoridad, DRC deshabilitado/desactivado y normalizacion de la sonoridad con un objetivo de modo de lmea de -31 LKFS para reproduccion en sistemas de cine en casa, que proporciona una compresion moderada del rango dinamico a traves de valores de ganancia generados (espedficamente para este modo de reproduccion y/o perfil de dispositivo) en el codificador con normalizacion de la sonoridad con un objetivo de -31 LKFS; modo RF para la reproduccion a traves de altavoces de TV, que proporciona una gran cantidad de compresion del rango dinamico con normalizacion de la sonoridad con un objetivo de -24, -23 o -20 LKFS, un modo intermedio para la reproduccion en ordenadores o dispositivos similares, que proporcionan compresion con normalizacion de la sonoridad a un objetivo de -14 LKFS, y el modo portatil, que proporciona una muy alta compresion del rango dinamico con un objetivo de normalizacion de la sonoridad de -11 LKFS. Los valores de la sonoridad objetivo de -31, -23/-20, -14 y -11 LKFS estan destinados a ser ejemplos de diferentes perfiles de reproduccion/dispositivos que pueden definirse para el sistema en algunas realizaciones, y puede usarse cualquier otro valor adecuado de la sonoridad objetivo, y el sistema genera valores de ganancia adecuados espedficamente para estos modos de reproduccion y/o perfil de dispositivo. Ademas, el sistema es extensible y adaptable para que se puedan acomodar diferentes dispositivos de reproduccion y entornos de audicion definiendo un nuevo perfil en el codificador o en otro lugar y cargado en el codificador. De esta forma, se pueden generar nuevos y unicos perfiles de reproduccion/dispositivos para soportar dispositivos de reproduccion mejorados o diferentes para futuras aplicaciones.

En una realizacion, los valores de ganancia pueden calcularse en cualquier componente de procesamiento adecuado del sistema 321, tal como en el codificador 304, en el decodificador 312 o en el transcodificador 308, o cualquier componente de preproceso asociado con el codificador o cualquier componente pos-proceso asociado con el decodificador.

La Fig. 13 es un diagrama de bloques que ilustra una interfaz entre diferentes perfiles para una variedad de diferentes clases de dispositivos de reproduccion, en una realizacion. Como se muestra en la Fig. 13, un codificador 502 recibe la entrada de audio 501 y uno de varios perfiles 506 posibles diferentes. El codificador combina los datos de audio con el perfil seleccionado para generar un archivo de flujo de bits de salida que se procesa en componentes decodificadores presentes en o asociados con el dispositivo de reproduccion de destino. Para el ejemplo de la Fig. 13, los diferentes dispositivos de reproduccion pueden ser un ordenador 510, un telefono movil 512, un AVR 514 y un televisor 516, aunque tambien son posibles muchos otros dispositivos de salida. Cada uno de los dispositivos 510-516 incluye o esta acoplado a altavoces (incluyendo controladores y/o transductores) tales como

5

10

15

20

25

30

35

40

45

50

55

60

los controladores 320-324. La combinacion de los niveles de potencia, de procesamiento, y tamanos de los dispositivos de reproduccion y altavoces asociados generalmente impone que perfil es el mas optimo para ese objetivo en particular. De este modo, los perfiles 506 pueden estar definidos espedficamente para la reproduccion a traves de AVR, TV, altavoces de moviles, auriculares de moviles, etc. Tambien pueden definirse para modos o condiciones de funcionamiento espedficos, como modo tranquilo, modo nocturno, exterior, interior, etc. Los perfiles mostrados en la Fig. 13 son solo modos de ejemplo y se puede definir cualquier perfil adecuado, incluidos perfiles a medida para objetivos y entornos espedficos.

Aunque la Fig. 13 ilustra una realizacion en la que un codificador 502 recibe los perfiles 506 y genera los parametros adecuados para el procesamiento de la sonoridad y del DRC, debe senalarse que los parametros generados basados en un perfil y contenido de audio pueden realizarse sobre cualquier unidad de procesamiento de audio adecuada tal como un codificador, decodificador, transcodificador, preprocesador, posprocesador, etc. Por ejemplo, cada dispositivo de salida 510-516 de la Fig. 13 tiene o esta acoplado a un componente decodificador que procesa los metadatos en el flujo de bits en el archivo 504 enviado desde el codificador 502 para permitir la adaptacion de la sonoridad y del rango dinamico para que coincidan con el dispositivo o tipo de dispositivo del dispositivo de salida objetivo.

En una realizacion, el rango dinamico y la sonoridad del contenido de audio se optimizan para cada posible dispositivo de reproduccion. Esto se logra manteniendo la sonoridad a largo plazo hacia el objetivo y controlando el rango dinamico a corto plazo para optimizar la experiencia de audio (controlando la dinamica de la senal, picos de muestra y/o picos reales) para cada uno de los modos de reproduccion objetivos. Se definen diferentes elementos de metadatos para la sonoridad a largo plazo y el rango dinamico a corto plazo. Como se muestra en la Fig. 10, el componente 302 analiza toda la senal de audio de entrada (o partes de la misma, tal como el componente de voz, si procede) para derivar las caractensticas relevantes para ambos de estos componentes DR separados. Esto permite definir diferentes valores de ganancia para ganancias artfsticas frente a valores de ganancia de clip (proteccion contra la sobrecarga).

Estos valores de ganancia para la sonoridad a largo plazo y el rango dinamico a corto plazo se comparan entonces con un perfil 305 para generar parametros que describen los valores de ganancia de control de la sonoridad y del rango dinamico. Estos parametros se combinan con la senal de audio codificada procedente del codificador 304 en un multiplexor 306, o componente similar para la creacion de un flujo de bits que se transmite a traves del transcodificador 308 hasta una etapa decodificadora. La entrada del flujo de bits a la etapa decodificadora es demultiplexada en el demultiplexor 310. Entonces se decodifica en el decodificador 312. El componente 314 de ganancia aplica las ganancias correspondientes al perfil adecuado para generar datos de audio digital que se procesan despues a traves de la unidad 416 de DACS para reproducirse a traves de los dispositivos de reproduccion adecuados y controladores o transductores 320-324.

La Fig. 14 es una tabla que ilustra la correlacion entre la sonoridad a largo plazo y el intervalo dinamico a corto plazo para una pluralidad de perfiles definidos, en una realizacion. Como se muestra en la Tabla 4 de la Fig. 14, cada perfil comprende un conjunto de valores de ganancia que imponen la cantidad de compresion de rango dinamico (DRC) aplicada en el decodificador del sistema o en cada dispositivo de destino. Cada uno de los N perfiles, indicados Perfiles 1 - N, establece parametros de la sonoridad a largo plazo particulares (p. ej., dialnorm) y parametros de compresion de sobrecarga imponiendo valores de ganancia correspondientes aplicados en la etapa del decodificador. Los valores de ganancia de DRC para los perfiles pueden ser definidos por una fuente externa que es aceptada por el codificador, o pueden ser generados internamente dentro del codificador como valores de ganancia por defecto si no se proporcionan valores externos.

En una realizacion, los valores de ganancia para cada perfil estan incorporados en palabras de ganancia de DRC que se calculan basandose en un analisis de ciertas caractensticas de la senal de audio, tales como pico, pico real, sonoridad a corto plazo del dialogo o sonoridad a corto plazo global o una combinacion (fnbrida) de ambas, para calcular ganancias estaticas basadas en un perfil elegido (es decir, caractenstica o curva de transferencia) asf como las constantes de tiempo necesarias para aplicar el ataque rapido/lento y la liberacion rapida/lenta de las ganancias del DRC final para cada perfil de dispositivo posible y/o sonoridad objetivo. Como se ha indicado anteriormente, estos perfiles pueden ser preestablecidos en el codificador, en el decodificador o generados externamente y llevados al codificador a traves de metadatos externos desde el creador de contenidos.

En una realizacion, los valores de ganancia pueden ser ganancia de banda ancha que aplica la misma ganancia sobre todas las frecuencias del contenido de audio. Alternativamente, la ganancia puede estar comprendida por valores de ganancia de bandas multiples, de manera que se aplican valores de ganancia diferentes a diferentes frecuencias o bandas de frecuencia del contenido de audio. En el caso multicanal, cada perfil puede constituir una matriz de valores de ganancia que indica ganancias para diferentes bandas de frecuencia en lugar de un solo valor de ganancia.

Con referencia a la Fig. 10, en una realizacion, la informacion relativa a las propiedades o caractensticas del entorno de audicion y/o las capacidades y configuraciones de los dispositivos de reproduccion, es proporcionada por la etapa decodificadora a la etapa codificadora por el enlace 330 de retroalimentacion. La informacion 332 del perfil tambien se introduce en el codificador 304. En una realizacion, el decodificador analiza los metadatos en el flujo de bits para

5

10

15

20

25

30

35

40

45

50

55

60

determinar si un parametro de la sonoridad para un primer grupo de dispositivos de reproduccion de audio esta disponible en el flujo de bits. Si es asf, transmite los parametros aguas abajo para su uso en la mezcla del audio. De lo contrario, el codificador analiza algunas caractensticas de los dispositivos para derivar los parametros. Estos parametros se envfan despues a un componente de mezclado aguas abajo para su reproduccion. El codificador determina tambien un dispositivo de salida (o un grupo de dispositivos de salida que incluyen el dispositivo de salida) que mezclana el flujo de audio recibido. Por ejemplo, el dispositivo de salida puede ser determinado como un telefono celular o perteneciente a un grupo como dispositivos portatiles. En una realizacion, el decodificador utiliza el enlace 330 de retroalimentacion para indicar al codificador el dispositivo de salida o el grupo de dispositivos de salida determinado. Para esta retroalimentacion, un modulo conectado al dispositivo de salida (p. ej., un modulo en una tarjeta de sonido conectada a auriculares o conectada a altavoces en un ordenador portatil) puede indicar al decodificador una identidad del dispositivo de salida o una identidad de un grupo de dispositivos que incluye el dispositivo de salida. El decodificador transmite esta informacion al codificador a traves del enlace 330 de retroalimentacion. En una realizacion, el decodificador desempena el decodificador determina los parametros de sonoridad y de DRC. En una realizacion, el decodificador determina los parametros de sonoridad y de DRC. En esta realizacion, en lugar de transmitir la informacion sobre el enlace 330 de retroalimentacion, el decodificador utiliza la informacion sobre el dispositivo o el grupo de dispositivos de salida determinado para determinar los parametros de sonoridad y de DRC. En otra realizacion, otra unidad de procesamiento de audio determina los parametros de sonoridad y de DRC y el decodificador transmite la informacion a esa unidad de procesamiento de audio en lugar del decodificador.

La Fig. 12 es un diagrama de bloques de un sistema de optimizacion del rango dinamico, en una realizacion. Como se muestra en la Fig. 12, un codificador 402 recibe el audio de entrada 401. El audio codificado se combina en el multiplexor 409 con los parametros 404 generados a partir de una curva 422 de compresion seleccionada y de un valor de dialnorm 424. El flujo de bits resultante es transmitido al desmultiplexor 411 que genera senales de audio que son decodificadas por el decodificador 406. Los parametros y valores de dialnorm son usados por la unidad 408 de calculo de ganancia para generar niveles de ganancia que controlan el amplificador 410 para la amplificacion de la salida del decodificador. La Fig. 12 ilustra como se parametriza el control del rango dinamico y se inserta en el flujo de bits. La sonoridad tambien se puede parametrizar e insertar en el flujo de bits utilizando componentes similares. En una realizacion, tambien se puede proporcionar al decodificador un control de nivel de referencia de salida (no mostrado). Aunque la figura ilustra los parametros de sonoridad y rango dinamico que se determinan e insertan en el codificador, una determinacion similar puede realizarse en otras unidades de procesamiento de audio como un preprocesador, un decodificador y un posprocesador.

La Fig. 15 ilustra ejemplos de perfiles de la sonoridad para diferentes tipos de contenido de audio, en una realizacion. Como se muestra en la Fig. 15, las curvas de ejemplo 600 y 602 trazan la sonoridad de entrada (en LKFS) contra la ganancia centrada alrededor de 0 LKFS. Diferentes tipos de contenido presentan diferentes curvas, como se muestra en la Fig. 15 en la que la curva 600 puede representar la voz y la curva 602 puede representar el contenido de pelfcula estandar. Como se muestra en la Fig. 15, el contenido de voz esta sujeto a una mayor cantidad de ganancia con relacion al contenido de la pelfcula. La Fig. 15 se pretende que sea un ejemplo de curvas de perfil representativas para algunos tipos de contenido de audio, y tambien se pueden usar otras curvas de perfil. Algunos aspectos de las caractensticas del perfil, tal como se muestra en la Fig. 15, se utilizan para derivar los parametros relevantes para el sistema de optimizacion. En una realizacion, estos parametros incluyen: ancho de banda nulo, relacion de corte, relacion de realce, realce maximo, ataque de FS, decaimiento de FS, demora, lfmite de pico y sonoridad de nivel objetivo. Se pueden utilizar otros parametros ademas o alternativamente a al menos algunos de estos parametros dependiendo de los requisitos de aplicacion y de las restricciones del sistema.

La Fig. 16 es un diagrama de flujo que ilustra un procedimiento para optimizar la sonoridad y el rango dinamico a traves de dispositivos de reproduccion y aplicaciones, en una realizacion. Aunque la figura ilustra la optimizacion de la sonoridad y del rango dinamico como se realiza en el codificador, una optimizacion similar puede realizarse en otras unidades de procesamiento de audio como en un preprocesador, en un decodificador y en un posprocesador. Como se muestra en el proceso 620, el procedimiento se inicia con una etapa codificadora que recibe una senal de entrada de una fuente (603). El codificador o un componente de preprocesamiento determina entonces si la senal de fuente se ha sometido o no a un proceso que logra una sonoridad y/o rango dinamico de destino (604). La sonoridad objetivo corresponde a la sonoridad a largo plazo y puede definirse externamente o internamente. Si la senal fuente no experimento el proceso para alcanzar la sonoridad y/o rango dinamico de destino, el sistema lleva a cabo una operacion adecuada de control de la sonoridad y/o rango dinamico (608); de lo contrario, si la senal de la fuente experimento esta operacion de control de la sonoridad y/o rango dinamico, el sistema entra en un modo de derivacion para omitir las operaciones de control de la sonoridad y/o rango dinamico para permitir que el proceso original imponga la sonoridad y/o rango dinamico (606) a largo plazo adecuados. Los valores de ganancia adecuados bien para el modo 606 de derivacion o el modo 608 llevado a cabo (que pueden ser valores de ganancia de banda ancha unica o valores de ganancia de multiples bandas dependientes de la frecuencia) se aplican despues en el decodificador (612).

Formato del flujo de bits

Como se ha indicado anteriormente, el sistema para optimizar la sonoridad y el rango dinamico emplea un formato de metadatos extensible seguro para asegurar que los metadatos y el contenido de audio transmitidos en el flujo de

5

10

15

20

25

30

35

40

45

50

55

bits entre el codificador y el decodificador, o entre la fuente y los dispositivos de mezcla/reproduccion no se han separado entre s^ ni tampoco danado durante la transmision a traves de redes u otros equipos propietarios, tales como interfaces de proveedores de servicios, etc. Este flujo de bits proporciona un mecanismo para senalizar los componentes codificador y/o decodificador que adaptan la sonoridad y el rango dinamico de la senal de audio para adecuar el contenido de audio y las caractensticas del dispositivo de salida a traves de la informacion adecuada del perfil. En una realizacion, el sistema esta configurado para determinar un flujo de bits codificado de velocidad de bits baja que se transmite entre el codificador y el decodificador, y la informacion de la sonoridad codificada a traves de los metadatos comprende caractensticas para uno o mas perfiles de salida. A continuacion sigue una descripcion de un formato de flujo de bits para su uso con un sistema de optimizacion de la sonoridad y rango dinamico en una realizacion.

Un flujo de bits codificado por AC-3 comprende metadatos y de uno a seis canales de contenido de audio. El contenido de audio son datos de audio que han sido comprimidos mediante la codificacion de audio perceptual. Los metadatos incluyen varios parametros de metadatos de audio que se pretenden utilizar para cambiar el sonido de un programa que se envfa a un entorno de audicion. Cada trama de un flujo de bits de audio codificado por AC-3 contiene contenido de audio y metadatos para 1536 muestras de audio digital. Para una frecuencia de muestreo de 48 kHz, esto representa 32 milisegundos de audio digital o una velocidad de 31,25 tramas por segundo de audio.

Cada trama de un flujo de bits de audio codificado por E-AC-3 contiene contenido de audio y metadatos para 256, 512, 768 o 1536 muestras de audio digital, dependiendo de si la trama contiene uno, dos, tres o seis bloques de datos de audio respectivamente. Para una frecuencia de muestreo de 48 kHz, esto representa 5,333, 10,667, 16 o 32 milisegundos de audio digital, respectivamente, o una velocidad de 189,9, 93,75, 62,5 o 31,25 tramas por segundo de audio, respectivamente.

Como se indica en la Fig. 4, cada trama de AC-3 esta dividida en secciones (segmentos), que incluyen: una seccion de Informacion de Sincronizacion (SI) que contiene (como se muestra en la Fig. 5) una palabra de sincronizacion (SW) y la primera de dos palabras de correccion de error (CRC1 ); una seccion de Informacion del Flujo de Bits (BSI) que contiene la mayona de los metadatos; seis Bloques de Audio (AB0 a AB5) que contienen contenido de datos de audio comprimido (y tambien pueden incluir metadatos); bits residuales (W) que contienen cualquier bit no utilizado que queda despues de comprimir el contenido de audio; una seccion de informacion Auxiliar (AUX) que puede contener mas metadatos; y la segunda de las dos palabras de correccion de errores (CRC2).

Como se indica en la Fig. 7, cada trama E-AC-3 esta dividida en secciones (segmentos), que incluyen: una seccion de Informacion de Sincronizacion (SI) que contiene (como se muestra en la Fig. 5) una palabra de sincronizacion (SW); una seccion de Informacion de Flujo de Bits (BSI) que contiene la mayona de los metadatos; entre uno y seis Bloques de Audio (AB0 a AB5) que contienen contenido de datos de audio comprimido (y tambien pueden incluir metadatos); bits residuales (W) que contienen cualesquiera bits no utilizados que quedan despues de comprimir el contenido de audio; una seccion de informacion Auxiliar (AUX) que puede contener mas metadatos; y una palabra de correccion de errores (CRC).

En un flujo de bits AC-3 (o E-AC-3) hay varios parametros de metadatos de audio que se pretenden usar espedficamente para cambiar el sonido del programa enviado a un entorno de audicion. Uno de los parametros de metadatos es el parametro dialnorm, que se incluye en el segmento BSI.

Como se muestra en la Fig. 6, el segmento BSI de una trama AC-3 incluye un parametro de cinco bits ("dialnorm") que indica el valor de dialnorm para el programa. Un parametro de cinco bits ("dialnorm2") que indica el valor de dialnorm para un segundo programa de audio llevado en la misma trama AC-3 se incluye si el modo de codificacion de audio ("acmod") de la trama AC-3 es "0", lo que indica que se esta utilizando una configuracion de canal dualmono o "1 + 1".

El segmento BSI tambien incluye un indicador ("addbsie") que indica la presencia (o ausencia) de informacion adicional de flujo de bits despues del bit "addbsie", un parametro ("addbsil") que indica la longitud de cualquier informacion adicional de flujo de bits segun el valor de "addbsil", y hasta 64 bits de informacion adicional de flujo de bits ("addbsi") segun el valor de "addbsil". El segmento de BSI puede incluir otros valores de metadatos no mostrados espedficamente en la Fig. 6.

Aspectos de una o mas realizaciones descritas en el presente documento pueden aplicarse en un sistema de audio que procesa senales de audio para transmision a traves de una red que incluye uno o mas ordenadores o dispositivos de procesamiento que ejecutan instrucciones de software. Cualquiera de las realizaciones descritas se pueden usar solas o juntas entre sf en cualquier combinacion. Aunque diversas realizaciones pueden haber sido motivadas por varias deficiencias con la tecnica anterior, que pueden ser discutidas o aludidas en uno o mas lugares de la memoria descriptiva, las realizaciones no se refieren necesariamente a ninguna de estas deficiencias. En otras palabras, diferentes realizaciones pueden abordar diferentes deficiencias que pueden ser tratadas en la memoria descriptiva. Algunas realizaciones solo pueden abordar parcialmente algunas deficiencias o solo una deficiencia que puede ser tratada en la memoria descriptiva, y algunas realizaciones pueden no abordar ninguna de estas deficiencias.

5

10

15

20

25

30

Aspectos de los sistemas descritos en el presente documento pueden aplicarse en un entorno informatico adecuado de red de procesamiento de sonido para procesar archivos de audio digitales o digitalizados. Partes del sistema de audio adaptativo pueden incluir una o mas redes que comprenden cualquier numero deseado de maquinas individuales, incluyendo uno o mas enrutadores (no mostrados) que sirven para almacenar en memoria intermedia y enrutar los datos transmitidos entre los ordenadores. Una red de este tipo puede estar construida sobre varios protocolos de red diferentes, y puede ser Internet, una Red de Area Ancha (WAN), una Red de Area Local (LAN) o cualquier combinacion de las mismas.

Uno o mas de los componentes, bloques, procesos u otros componentes funcionales pueden ser aplicados a traves de un programa informatico que controla la ejecucion de un dispositivo informatico del sistema basado en un procesador. Tambien debe senalarse que las diversas funciones descritas en el presente documento pueden describirse utilizando cualquier numero de combinaciones de hardware, firmware y/o como datos y/o instrucciones incorporadas en diversos medios legibles por maquina o legibles por ordenador, en terminos de su comportamiento, transferencia de registro, componente logico y/u otras caractensticas. Los medios legibles por ordenador en los que tales datos y/o instrucciones formateadas pueden ser incorporados incluyen, pero no se limitan a, medios de almacenamiento ffsico (no transitorios) no volatiles, en diversas formas, tales como medios de almacenamiento opticos, magneticos o semiconductores.

A menos que el contexto requiera claramente lo contrario, a lo largo de la descripcion y de las reivindicaciones, las palabras "comprender", "comprendiendo", y similares, deben interpretarse en un sentido inclusivo en oposicion a un sentido exclusivo o exhaustivo; es decir, en un sentido de "incluir, pero no de limitarse a". Las palabras que usan el termino singular o plural incluyen tambien el termino plural o singular, respectivamente. Ademas, los terminos o expresiones "en el presente documento", "a continuacion", "arriba", "abajo" y palabras de significado similar se refieren a esta solicitud en su conjunto y no a ninguna parte en particular de esta solicitud. Cuando la palabra "o" se utiliza en referencia a una lista de dos o mas elementos, esa palabra cubre todas las siguientes interpretaciones de la palabra: cualquiera de los elementos de la lista, todos los elementos de la lista y cualquier combinacion de los elementos de la lista.

Aunque se han descrito una o mas aplicaciones a modo de ejemplo y en virtud de realizaciones espedficas, debe entenderse que una o mas aplicaciones no estan limitadas a las realizaciones descritas. Por el contrario, se pretende cubrir diversas modificaciones y disposiciones similares que resultanan evidentes para los expertos en la tecnica. Por lo tanto, el alcance de las reivindicaciones adjuntas debe recibir la interpretacion mas amplia de modo que abarque todas esas modificaciones y disposiciones similares.

Claims

REIVINDICACIONES

1. Un procedimiento, que comprende:

recibir, en un flujo de bits que comprende datos de audio, metadatos asociados con los datos de audio; analizar los metadatos en el flujo de bits para determinar si un parametro de la sonoridad para un primer grupo de 5 dispositivos de reproduccion de audio (5l0, 512, 514, 516) esta disponible en el flujo de bits;

sensible para determinar que el parametro esta presente en el primer grupo, utilizando el parametro y los datos de audio para mezclar el audio; y

sensible para determinar que el parametro de la sonoridad no esta presente en el primer grupo, analizar una o mas caractensticas del primer grupo, y determinar el parametro basado en una o mas caractensticas,

10 en donde una o mas caractensticas comprenden niveles de ganancia para diferentes perfiles de los datos de audio.
2. El procedimiento de la reivindicacion 1, en donde los niveles de ganancia definen al menos uno de: un perfil artfstico de rango dinamico que controla como se reproduciran los datos de audio para un programa definido, y un perfil de rango dinamico a corto plazo que proporciona proteccion de sobrecarga para partes del programa definido.
3. El procedimiento de la reivindicacion 1 en donde usando el parametro y los datos de audio para mezclar el audio 15 comprende transmitir el parametro y los datos de audio a un modulo aguas abajo que mezcla el audio para su

reproduccion.
4. El procedimiento de la reivindicacion 1, en donde utilizando el parametro y los datos de audio para mezclar el audio comprende mezclar los datos de audio basados en el parametro y en los datos de audio.
5. El procedimiento de la reivindicacion 1, que comprende ademas:

20 determinar un dispositivo de salida que mezclana el flujo de audio recibido; y

determinar si el dispositivo de salida pertenece o no al primer grupo de dispositivos de reproduccion de audio, en donde el paso de analizar los metadatos en el flujo para determinar si el parametro de sonoridad del primer grupo de dispositivos de reproduccion de audio estan disponibles, se ejecuta despues del paso de determinar que el dispositivo de salida pertenece al primer grupo de dispositivos de reproduccion de audio.

25 6. El procedimiento de la reivindicacion 5, en donde la etapa de determinar que el dispositivo de salida pertenece al

primer grupo de dispositivos de reproduccion de audio comprende:

recibir una indicacion de un modulo conectado al dispositivo de salida que indica una identidad del dispositivo de salida o que indica una identidad de un grupo de dispositivos que incluyen el dispositivo de salida; y determinar que el dispositivo de salida pertenece al primer grupo de dispositivos de reproduccion de audio basados 30 en la indicacion recibida.
7. Un medio legible por ordenador que comprende un programa de ordenador, estando configurado el programa de ordenador para controlar la ejecucion de un dispositivo informatico basado en un procesador de modo que realice el procedimiento de una cualquiera de las reivindicaciones anteriores.
8. Un aparato, que comprende:

35 una interfaz configurada para recibir un flujo de bits que incluye datos de audio y metadatos asociados con los datos de audio;

un analizador acoplado a la interfaz y configurado para analizar los metadatos en el flujo de bits para determinar si esta disponible en el flujo de bits un parametro de la sonoridad para un primer grupo de dispositivos de reproduccion de audio (510, 512, 514, 516); y

40 un componente de mezcla configurado para usar los parametros y los datos de audio para mezclar el audio sensible al analizador que determina que los parametros estan presentes en el primer grupo, el componente de mezcla configurado ademas para analizar una o mas caractensticas del primer grupo y determinar el parametro basado en una o mas caractensticas sensibles al analizador que determina que los parametros de la sonoridad no estan presentes en el primer grupo,

45 en donde una o mas caractensticas comprenden niveles de ganancia para diferentes perfiles de los datos de audio.
9. El aparato de la reivindicacion 8, en donde el componente de mezcla que utiliza los parametros y los datos de audio para mezclar audio comprende el componente de mezclado que transmite los parametros y datos de audio hasta un modulo aguas abajo que mezcla el audio para su reproduccion.
10. El aparato de la reivindicacion 9, en donde el componente de mezcla que utiliza el parametro y los datos de

50 audio para mezclar el audio comprende el componente de mezcla que mezcla los datos de audio basados en el

parametro y en los datos de audio.
11. El aparato de la reivindicacion 10 que comprende ademas un segundo componente configurado para determinar un dispositivo de salida que mezclana el flujo de audio recibido y determinana si el dispositivo de salida pertenece o no al primer grupo de dispositivos de reproduccion de audio; en donde el analizador analiza los metadatos en el flujo

55 para determinar si el parametro de la sonoridad del primer grupo de dispositivos de reproduccion de audio esta

disponible despues de que el segundo componente determine si el dispositivo de salida pertenece o no al primer grupo de dispositivos de reproduccion de audio.
12. El aparato de la reivindicacion 11 que comprende ademas una interfaz configurada para recibir una indicacion desde un modulo conectado al dispositivo de salida que indica una identidad del dispositivo de salida o que indica una identidad de un grupo de dispositivos que incluye el dispositivo de salida, y para determinar que el dispositivo de salida pertenece al primer grupo de dispositivos de reproduccion de audio basado en la indicacion recibida