ES2709274T3

ES2709274T3 - Codificación y decodificación de señales de audio

Info

Publication number: ES2709274T3
Application number: ES15784396T
Authority: ES
Inventors: Kristofer Kjoerling; Alexander Groeschel; Heiko Purnhagen; Holger Hoerich; Kurt Krauss
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2014-10-24
Filing date: 2015-10-23
Publication date: 2019-04-15
Anticipated expiration: 2035-10-23
Also published as: US10304471B2; CN107112024A; KR20170076671A; JP2017532603A; RU2017117896A3; US20170243595A1; KR102474541B1; EP3210206B1; RU2017117896A; JP6728154B2; CN107112024B; BR112017007833A2; RU2708942C2; WO2016062869A1; EP3210206A1

Abstract

Un método (200) de representación de una señal (X) de audio como un flujo de bits (B) de audio, comprendiendo el método: codificar (220) un segmento de la señal de audio como un conjunto decodificable de datos (D) de audio mediante al menos la realización de análisis de señal, sobre el segmento de la señal de audio, con un paso básico correspondiente a un primer número de muestras de la señal de audio, el conjunto decodificable de datos de audio correspondiente a una primera tasa de tramas y a un primer número de muestras de la señal de audio por trama; romper (230) el conjunto decodificable de datos de audio en N partes (D1, D2, ..., DN) donde N >= 2; crear (240) N tramas (F1, F2,..., FN) del flujo de bits que llevan las partes respectivas, en donde las N tramas del flujo de bits representan el conjunto decodificable de datos de audio y corresponden a un segundo número de muestras 10 de la señal de audio por trama (F1, F2,..., FN), en donde el primer número de muestras por trama es N veces el segundo número de muestras por trama, y en donde las N tramas del flujo de bits tienen una segunda tasa de tramas que es N veces la primera tasa de tramas; y emitir (250) un flujo de bits segmentado en tramas del flujo de bits que incluyen las N tramas del flujo de bits anteriormente creadas, en donde el método comprende además: en respuesta al flujo de tramas de video que comprenden una trama de video de una cierto tipo (I), codificar (260) un segmento de la señal de audio relacionado temporalmente con dicha trama de video como un segundo conjunto decodificable de datos de audio mediante al menos la realización de análisis de señal, sobre el segmento de la señal de audio que se relaciona de manera temporal con dicha trama de video, con un paso acortado correspondiente al segundo número de muestras de la señal de audio, correspondiendo el segundo conjunto decodificable de datos de audio a dicha segunda tasa de tramas y dicho segundo número de muestras de la señal de audio por trama; e incluir (270) una trama (321) del flujo de bits que lleva el segundo conjunto decodificable de datos de audio en el flujo de bits, siendo dicha trama del flujo de bits decodificable de manera independiente en un segmento, o en un subsegmento, de la señal de audio.

Description

DESCRIPCION

Codificacion y decodificacion de senales de audio

Referenda cruzada a solicitudes relacionadas

Esta solicitud reivindica prioridad a la Solicitud de Patente Provisional de EE.UU. No. 62/068.187, archivada el 24 de octubre del 2014.

Campo tecnico

La invencion descrita en este documento se relaciona de manera general con codificacion y decodificacion de senales de audio, y en particular con un formato de flujo de bits de audio con comportamiento de escalado ventajoso para altas tasas de tramas.

Antecedentes

Las tasas de tramas de audio y video (o frecuencias de tramas) usadas en la mayorfa de aplicaciones comerciales disponibles hoy siguen estandares de industria establecidos separados manifestandose en grabar y reproducir productos de software, componentes de hardware asf como formatos acordados para transmitir audio y video entre partes comunicantes. Las tasas de tramas de audio son tfpicamente especfficas para diferentes algoritmos de codificacion y asociadas con frecuencias de muestreo de audio especfficas, tales como 44,1 y 48 kHz, que son tan notorias como las tasas de tramas de video 29,97 fps (NTSC) y 25 fps (PAL) en sus areas geograficas respectivas; mas tasas de tramas de video estandar incluyen 23,98, 24 y 30 fps, o en una forma mas generalizada 24, 25, 30 fps y (24, 25, 30) x 1000/1001 fps. Intentos para unificar o armonizar tasas de tramas de audio todavfa no han tenido exito a pesar del cambio de distribucion de analogico a digital, que implica que una trama de audio (por ejemplo, un paquete o una unidad de codificacion adecuada para transmision sobre una red) en general no se corresponde con un numero entero de tramas de video en un flujo de datos audiovisuales.

La necesidad de sincronizar flujos de datos audiovisuales surge de manera repetida, como resultado de derivas de reloj o cuando varios flujos son recibidos desde diferentes fuentes para procesamiento comun, edicion o union en un servidor, una situacion encontrada de manera frecuente en estaciones de difusion. Un intento para mejorar la sincronizacion video-a-video entre dos flujos de datos audiovisuales mediante la duplicacion o descarte de tramas de video en uno de los flujos (por ejemplo para preparar los flujos para union) tfpicamente lleva a un retraso audio-avideo dentro de ese flujo de datos audiovisuales en el caso de que los tamanos de las tramas de audio y las tramas de video no coincidan. En general, un retraso persiste - al menos de una duracion distinta a cero - aun si las tramas de audio correspondientes al video en edicion son eliminadas o duplicadas.

Al coste de mas procesamiento, un espacio mas grande para maniobrar podrfa ser creado mediante la decodificacion temporal del audio durante la sincronizacion en un formato de bajo nivel que sea independiente de la division en tramas, por ejemplo, formato de banda base, o modulacion por codificacion de pulsos (PCM) resuelta en la frecuencia de muestreo original. Tal decodificacion sin embargo difumina el ancla exacta de los metadatos para especificar segmentos de audio y crea una perdida de informacion que no puede ser remediada por la decodificacion en un formato intermedio “perfecto”. Como un ejemplo, el control de rango dinamico (DRC) es normalmente dependiente del modo y dependiente del equipo, y puede por lo tanto ser consumido solo en el momento de reproduccion real; una estructura de datos que gobierna las caracterfsticas del DRC a traves de un paquete de audio es diffcil de restaurar de manera fiel despues de que la sincronizacion haya tenido lugar. Por lo tanto, la tarea de preservar los metadatos de este tipo pasada las consecutivas etapas de decodificacion, sincronizacion y codificacion no es una tarea simple si esta sujeto a restricciones de complejidad.

Dificultades aun mas serfas pueden surgir en conexion con la infraestructura heredada que es disenada para llevar senales PCM de dos canales y es por lo tanto capaz de manejar contenido multicanal solo en forma codificada. Ciertamente es mas conveniente codificar tramas de audio y video de manera sfncrona en el sentido de que los datos en una trama dada se corresponden exactamente con el mismo segmento de tiempo en la senal audiovisual grabada y codificada. Esto preserva sincronizacion de audio-a-video bajo manipulacion de trama de un flujo audiovisual, esto es, duplicacion o rechazo de una o mas unidades de codificacion enteramente independientes en el flujo. Las longitudes de tramas disponibles en el formato de audio Dolby ETM coinciden con las longitudes de tramas de video. Con una tasa de bit tfpica de 448 kbps, sin embargo, este formato fue disenado principalmente con el proposito de produccion profesional, con medios duros tales como videocasetes digitales como su modalidad de almacenamiento preferida.

En la solicitud co-pendiente, solicitud todavfa no publicada PCT/EP2014/056848, sistemas y metodos son propuestos que son compatibles con un formato de audio adecuado para propositos de distribucion como parte de un formato audiovisual de trama sfncrona.

Existe la necesidad de un formato de audio alternativo adecuado para propositos de distribucion como parte de un formato audiovisual de trama sfncrona, con comportamiento de escalado mejorado para altas tasas de tramas.

Tambien existe la necesidad de equipo de codificacion y decodificacion adecuado par el uso con el.

El Reporte de Busqueda Internacional emitido en conexion adjunto cita entre otros: LINK B., HAGER T. (DOLBY LABORATORIES), FLAKS J. (MICROSOFT CORPORATION), “RTP Payload Format for AC-3 Audio; rfc4184.txt”, 5. JCT-VC MEETING; 96. MPEG MEETING; 16-3-2011 - 23-3-2011, (en adelante, “Referenda D1”); KIM J ET AL, “FRAME SPLITTING SCHEME FOR ERROR-ROBUST AUDIO STREAMING OVER PACKET-SWITCHING NETWORKS”, IEICE TRANSACTIONS ON COMMUNICATIONS, COMUNICATIONS SOCIETY, TOKYO, JP, (200802), vol. E91B, no. 2, paginas 677 - 680, (en adelante, “Referenda D2”); Patente de Estados Unidos no.

5.936.925, (en adelante, “Referenda D3”); y la publicacion de solicitud de patente Internacional no. WO 2014/161990 (en adelante, “Referenda D5”).

La Referencia D1 describe un formato de carga de RTP para transportar datos de audio mediante el uso del estandar de compresion de audio AC-3. El formato de carga de RTP en cuestion incluye soporte para fragmentacion de datos.

La Referencia D2 presenta un esquema de division de trama para un flujo de audio robusto a errores sobre redes de conmutacion de paquetes. Segun el esquema, una trama de audio es dividida en varias subtramas en base a la configuracion de la red tal que cada paquete pueda ser decodificado de manera independiente en el receptor.

La Referencia D3 describe un medio de grabacion de informacion que incluye: informacion de grabacion procesada que incluye una pluralidad de unidades de informacion; una informacion de control de busqueda para buscar, fuera de la informacion de grabacion procesada, una unidad de grabacion de reproduccion que es una unidad que incluye la informacion de grabacion a ser reproducida. La informacion de control de busqueda es multiplexada con la informacion de grabacion procesada.

La Referencia D5 describe un sistema de procesamiento de audio que acepta un flujo de bits de audio que tiene una entre una pluralidad de tasas de tramas de audio predefinidas. El sistema comprende un componente de interfaz, que recibe un numero variable de componentes espectrales cuantificadas, correspondientes a una trama de audio en cualquiera de las tasas de tramas de audio predefinidas, y realiza una cuantificacion inversa segun los niveles de cuantificacion dependientes de la frecuencia predeterminados. Mediante su adaptabilidad de tasa de trama, el sistema puede configurarse para operar de manera sfncrona a la trama en paralelo con un sistema de procesamiento de video que acepta tasas de tramas de video plurales.

Breve descripcion de los dibujos

En lo que sigue, realizaciones ejemplares seran descritas en mayor detalle y con referencia a los dibujos que acompana, en los cuales:

La Fig. 1 es un diagrama de bloques generalizado de un sistema de procesamiento de audio para representar una senal de audio como un flujo de bits de audio, segun una realizacion ejemplar;

La Fig. 2 es un diagrama de flujo de bits de un metodo para representar una senal de audio como un flujo de audio, segun una realizacion ejemplar;

Las Fig. 3 y 4 ilustran ejemplos de flujos de bits de audio proporcionados por el sistema de procesamiento de audio representado en la Fig. 1, segun realizaciones ejemplares;

La Fig. 5 es un diagrama de bloques generalizado de un sistema de procesamiento de audio para reconstruir una senal de audio representada por un flujo de bits, segun una realizacion ejemplar;

La Fig. 6 es un diagrama de flujo de un metodo para reconstruir una senal de audio representada por un flujo de bits, segun una realizacion ejemplar; y

La Fig. 7 es un diagrama de bloques generalizado de un sistema de procesamiento de audio para transcodificar un flujo de bits de audio que representa una senal de audio, segun una realizacion ejemplar.

Todas las figuras son esquematicas y generalmente solo muestran partes que son necesarias para dilucidar la invencion, mientras que otras partes pueden ser omitidas o meramente sugeridas.

Descripcion de realizaciones ejemplares

Como se usa en este documento, una senal de audio puede ser una senal de audio independiente, una parte de audio de una senal audiovisual o senal multimedia o cualquiera de estas en combinacion con metadatos.

I. Vision general - Lado del codificador

Segun un primer aspecto, realizaciones ejemplares proponen sistemas de procesamiento de audio, metodos y productos de programas informaticos para representar una senal de audio como un flujo de bits de audio. Los sistemas, metodos y productos de programas informaticos propuestos, segun el primer aspecto, pueden generalmente compartir las mismas caracterfsticas y ventajas.

Segun realizaciones ejemplares, se proporciona un metodo para representar una senal de audio como un flujo de bits de audio. El metodo comprende: codificar un segmento de la senal de audio como un conjunto decodificable de datos de audio mediante al menos la realizacion de analisis de senal, en el segmento de la senal de audio, con un paso, referido en este documento como un paso basico, correspondiente a un primer numero de muestras de la senal de audio. El conjunto decodificable de datos de audio se corresponde a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama. El metodo comprende: romper el conjunto decodificable de datos de audio en N partes, donde N > 2; y realizar N tramas del flujo de bits que llevan las partes respectivas. Las tramas del flujo de bits tienen una segunda tasa de tramas correspondiente a un segundo numero de muestras de la senal de audio por trama del flujo de bits. El primer numero de muestras es N veces el segundo numero de muestras. El metodo comprende: sacar un flujo de bits segmentado en tramas del flujo de bits que incluyen las N tramas del flujo de bits.

En un flujo de datos audiovisuales, las tramas de audio y tramas de video pueden estar sincronizadas y pueden ser de igual duracion, por ejemplo para facilitar el descarte de tramas o duplicacion de tramas en conexion con la union o compensacion de deriva del reloj. Para mantener la sincronfa audio-video en un flujo de datos audiovisuales para tasas de tramas de video mas altas, la tasa de tramas de audio puede tambien ser aumentada. Sin embargo, mientras que la codificacion predictiva es usada normalmente para reducir el coste de la tasa de bits de aumentar la tasa de tramas de video, la codificacion predictiva puede ser menos efectiva para tramas de audio dado que el contenido de audio puede ser variable o en una escala de tiempo mas corta, y puede asociarse con un grado mas bajo de correlacion entre tramas consecutivas que el contenido de video. Con el proposito de esta descripcion, a menos que se indique lo contrario, una trama de video se corresponde con una imagen de pantalla completa (por ejemplo una imagen fija en una secuencia), mientras que una trama de audio puede en principio llevar datos de audio correspondientes a un segmento de senal de audio que tiene una duracion.

La habilidad del presente metodo, para proporcionar N tramas del flujo de bits de la segunda tasa de tramas (mas alta), junto a llevar un conjunto decodificable de datos de audio asociados con la primera tasa de tramas (mas baja), permite mantener sincronizacion audiovisual para tasas de tramas de video mas altas, pero sin un aumento correspondiente en consumo de tasa de bits. De manera mas precisa, operar en tasa de tramas aumentada segun el presente metodo normalmente resulta en una tasa de bits que es mas baja que la requerida cuando se usan tramas de audio normales que tiene tales tasas de tramas mas altas. El presente metodo puede por lo tanto por ejemplo facilitar la union de flujos de datos audiovisuales y/o facilitar la compensacion de la deriva del reloj.

En efecto, el conjunto decodificable de datos de audio puede corresponderse con la cantidad de datos llevada por una trama de audio normal de la primera tasa de tramas (mas baja), y aun si las N tramas del flujo de bits pueden necesitar contener datos no de carga adicionales necesarios para cumplir con un formato de trama (vea a continuacion), la cantidad total de datos transmitidos desde el lado del codificador al lado del decodificador puede reducirse al compararla con el empleo de tramas de audio normales que tienen la segunda tasa de tramas (mas alta). En particular, realizar el analisis de senal con el paso basico, en vez de con un paso mas corto (por ejemplo, correspondiente al segundo numero de muestras de la senal de audio), reduce la cantidad de datos requerida para sintetizar la senal de audio otra vez en un lado del decodificador, y por lo tanto reduce la tasa de bits requerida para transmitir los datos al lado del decodificador.

Unir los flujos de bits de audio con otros flujos de bits puede por ejemplo ser realizado sin tener en cuenta los datos de audio llevado por las tramas del flujo de bits. En otras palabras, el dispositivo o unidad que realiza la union no necesita ser consiente del hecho de que todas las N tramas del flujo de bits pueden requerir reconstruir el segmento de la senal de audio, y puede por ejemplo tratar las tramas del flujo de bits como si fueran decodificables de manera independiente. Perder tramas del flujo de bits de manera potencial en un flujo de bits unido puede por ejemplo ser tratado en el lado del decodificador mediante la ocultacion de tales tramas del flujo de bits que pueden no permitir una decodificacion exitosa.

Mediante un conjunto decodificable de datos de audio se entiende un conjunto de datos de audio que es suficiente para decodificar un segmento de la senal de audio. El conjunto decodificable de datos de audio puede estar completo en el sentido de que la decodificacion de un segmento de la senal de audio puede realizarse sin datos adicionales relacionados al segmento de la senal de audio (sin datos de no carga tales como bits de sobrecarga, cabeceras o preambulos pueden por ejemplo usarse para identificar el conjunto decodificable de datos de audio en el lado del decodificador).

Mediante la realizacion de analisis de senal con un paso basico correspondiente al primer numero de muestras de la senal de audio se entiende que el analisis de senal es realizado dentro de una ventana de analisis de un cierto numero de muestras de la senal de audio, y que, cuando el siguiente segmento de la senal de audio ha de ser codificado, la ventana de analisis es desplazada por el mismo numero de muestras que el paso basico. El analisis de senal puede por ejemplo ser realizado con ventanas de analisis solapadas, en cuyo caso la ventana de analisis puede ser mas larga que el paso basico. En otro ejemplo, la longitud de la ventana de analisis puede coincidir con el paso basico.

Se apreciara que si la senal de audio es una senal multicanal, entonces el paso basico se puede corresponder con el primer numero de muestras de la senal de audio en una base por canal, mas que una suma de muestras para los canales respectivos.

El paso de codificar un segmento de la senal de audio puede por ejemplo incluir multiples subpasos, uno o mas de los cuales puede incluir analisis de senal con el paso basico.

El conjunto decodificable de datos de audio puede representar un segmento de la senal de audio correspondiente al primer numero de muestras de la senal de audio. El conjunto decodificable de datos de audio puede corresponderse a una trama que tiene la primera tasa de tramas.

Romper el conjunto decodificable de datos de audio puede por ejemplo incluir dividir el conjunto decodificable de datos en al menos N partes de tamano aproximadamente igual, por ejemplo que comprende al menos aproximadamente el mismo numero de bits.

Cada una de las N partes puede ser un conjunto incompleto de datos de audio en el sentido de que una parte puede ser insuficiente para decodificar un segmento (o un subsegmento) de la senal de audio, sin acceder a las otras partes.

Para cada una de las N tramas del flujo de bits, las N tramas del flujo de bits pueden por ejemplo ser la coleccion mas pequena de tramas del flujo de bits que incluyen esa trama del flujo de bits y desde la cual los datos de audio pueden unirse para decodificar un segmento de la senal de audio representado por los datos llevados por esa trama del flujo de bits. En otras palabras, las N tramas del flujo de bits pueden ser las que llevan datos contenidos originalmente en el mismo conjunto decodificable de datos de audio.

Las tramas del flujo de bits correspondientes a la segunda tasa de tramas (mas alta) en el sentido de que las N tramas del flujo de bits juntas representan el mismo segmento de la senal de audio que el conjunto decodificable de datos de audio que se corresponde con la primera tasa de tramas (mas baja).

De manera similar, las tramas del flujo de bits correspondientes al segundo numero (mas pequeno) de muestras por trama del flujo de bits en el sentido de que las N tramas del flujo de bits juntas representan el primer numero (mas alto) de muestras tambien representadas por el conjunto decodificable de datos de audio.

Se apreciara que las tramas del flujo de bits pueden por ejemplo llevar partes respectivas de una representacion espectral del segmento de la senal de audio, y que puede no haber conexion entre una de las tramas del flujo de bits y un segundo numero (mas pequeno) de muestras de la senal de audio.

Las N tramas del flujo de bits pueden por ejemplo ser conformes a un formato de audio en el sentido de que las tramas del flujo de bits pueden llevar cargas y metadatos que, a un nivel de flujo elemental, estan conformes con un formato de audio, por ejemplo como el proporcionado en los flujos elementales del Grupo de Expertos en Imagenes en Movimiento (MPEG). Se apreciara que, aunque conformes con un formato de audio en este sentido, la carga y al menos algunos de los metadatos llevados por las tramas del flujo de bits pueden por ejemplo ser de un tipo y/o formato diferente que en tramas de audio conocidas en la tecnica.

Las N tramas del flujo de bits que llevan las N partes pueden por ejemplo ser sacadas como N tramas del flujo de bits consecutivas en el flujo de bits.

En una realizacion ejemplar, realizar el analisis de senal puede incluir realizar, con el paso basico: analisis espectral; analisis de energfa; y/o analisis de entropfa. El analisis espectral con el paso basico puede por ejemplo ser realizado para transformar el segmento de la senal de audio desde un dominio del tiempo a un dominio de la frecuencia. El analisis de energfa con el paso basico puede por ejemplo ser realizado para codificar el segmento de la senal de audio con una tecnica de codificacion basada en la energfa. El analisis de entropfa con el paso basico puede por ejemplo ser realizado para codificar la senal de audio con una tecnica de codificacion basada en la entropfa.

En una realizacion ejemplar, codificar un segmento de la senal de audio puede incluir: aplicar una transformada de ventana que tenga el paso basico como el paso de transformacion; y/o calcular una senal de mezcla descendente y parametros para reconstruccion parametrica de la senal de audio a partir de la senal de mezcla descendente, donde los parametros son calculados en base al analisis de senal.

La transformada de ventana puede por ejemplo ser una transformada armonica, tal como la Transformada de Coseno Discreta Modificada (MDCT), por ejemplo mediante el empleo de ventanas de transformacion que se solapan.

La senal de audio puede por ejemplo ser una senal de audio multicanal y la senal de mezcla descendente puede ser una senal con menos canales que la senal multicanal, por ejemplo obtenidos como una combinacion lineal de los canales de la senal multicanal. La senal de mezcla descendente puede por ejemplo ser una mezcla descendente mono o estereo de la senal de audio multicanal.

En una realizacion ejemplar, el metodo puede comprender: incluir metadatos en al menos una de las N tramas del flujo de bits que llevan las partes. Los metadatas pueden indicar que el conjunto decodificable completo de datos de audio es obtenible a partir de las partes llevadas por las N tramas del flujo de bits.

Cada una de las N tramas del flujo de bits por ejemplo llevan metadatas que las identifican como pertenecientes a un grupo de N tramas del flujo de bits a partir de las cuales el conjunto decodificable de datos de audio es obtenible. En otro ejemplo, una de las tramas del flujo de bits puede llevar metadatas que identifican todas las N tramas del flujo de bits, mientras que las otras N-1 tramas del flujo de bits del grupo no llevan necesariamente tales metadatos. El flujo de bits puede por ejemplo incluir otras tramas del flujo de bits que no llevan tales metadatos.

Los metadatos pueden permitir que las N tramas del flujo de bits sean ubicadas en posiciones no predeterminadas relacionadas entre ellas. Los metadatos pueden permitir para otras tramas del flujo de bits entre las N tramas del flujo de bits. Los metadatos pueden permitir detectar cuando una o mas de las N tramas del flujo de bits faltan en el flujo de bits, por ejemplo debido a union o a un descarte de trama.

En una realizacion ejemplar, el flujo de bits de audio puede estar asociado con un flujo de las tramas de video. El metodo puede ademas comprender: en respuesta al flujo de tramas de video que comprende una trama de video de un cierto tipo, codificar un segmento de la senal de audio temporalmente relacionada con la trama de video como un segundo conjunto decodificable de datos de audio mediante al menos la realizacion de analisis de senal, en el segmento de la senal de audio temporalmente relacionada con la trama de video, con un paso acortado correspondiente al segundo numero de muestras de la senal de audio. El segundo conjunto decodificable de datos de audio puede corresponderse con la segunda tasa de tramas y con el segundo numero de muestras de la senal de audio por trama. El metodo puede comprender: incluir una trama del flujo de bits que lleve el segundo conjunto decodificable de datos de audio en el flujo de bits.

Flujos de tramas de video pueden por ejemplo ser unidas en puntos adyacentes a tramas de un cierto tipo, tal como tramas de video codificado de manera independiente, para facilitar la decodificacion de la secuencia unida de tramas de video en el lado del decodificador. El enfoque de codificar un segmento de la senal de audio temporalmente relacionada con la trama de video de dicho cierto tipo como un segundo conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas, y de incluir una trama del flujo de bits que lleve el segundo conjunto decodificable de datos de audio en el flujo de bits, permite la decodificacion independiente de ese segmento de la senal de audio en el lado del decodificador. La presente realizacion ejemplar puede por lo tanto facilitar la decodificacion de ese segmente de la senal de audio en el caso de que tramas del flujo de bits precedentes o sucesivas del flujo de bits de audio puedan faltar en el lado del decodificador, por ejemplo como resultado de la union de un flujo audiovisual de datos que comprende el flujo de bits de audio y el flujo de tramas de video, con uno o mas flujos de datos audiovisuales.

El segmento de la senal de audio temporalmente relacionado con la trama de video de cierto tipo puede por ejemplo corresponderse con un punto en el tiempo en el cual la trama de video de cierto tipo esta destinada a ser reproducida en un elemento de presentacion.

El flujo de tramas de video puede por ejemplo incluir tramas codificadas de manera independiente y tramas codificadas predichas (que tienen bien una dependencia unidireccional o bidireccional en tramas adyacentes), y el cierto tipo de trama de video puede por ejemplo ser una trama de video codificada de manera independiente.

El metodo puede por ejemplo comprender: detectar la presencia de cierto tipo de trama de video en el flujo de tramas de video. La presencia de cierto tipo de trama de video puede por ejemplo ser detectada a traves de la senalizacion desde un codificador de video.

Realizar el analisis de senal con el paso acortado puede por ejemplo incluir realizar, con el paso acortado: analisis espectral; analisis de energfa; y/o analisis de entropfa.

Codificar un segmento de la senal de audio temporalmente relacionada con la trama de video de cierto tipo puede por ejemplo incluir: aplicar una transformada de ventana que tiene el paso acortado como el paso de transformacion; y/o calcular una senal de mezcla descendente y parametros para reconstruccion parametrica de la senal de audio a partir de la senal de mezcla descendente, donde los parametros son calculados en base al analisis de senal con el paso acortado.

En una realizacion ejemplar, el metodo puede comprender: en respuesta al flujo de tramas de video que comprenden una trama de video de cierto tipo, codificar N segmentos consecutivos de la senal de audio como conjuntos decodificables respectivos de datos de audio mediante, para cada uno de los N segmentos consecutivos, al menos aplicar analisis de senal con el paso acortado. El segmento temporalmente relacionado con la trama de video puede ser uno de los N segmentos consecutivos. El metodo puede incluir: incluir tramas del flujo de bits que lleven los conjuntos decodificables respectivos de datos de audio asociados con los N segmentos consecutivos en el flujo de bits.

El flujo de bits puede por ejemplo comprender grupos de N tramas del flujo de bits consecutivas que llevan partes respectivas de datos de audio que son decodificables juntas. Por lo tanto, en el lado del decodificador, N tramas del flujo de bits del flujo de bits pueden ser decodificadas a la vez. En la presente realizacion ejemplar, la estructura de grupos de N tramas del flujo de bits puede ser preservada tambien cuando dicho cierto tipo de trama de video ocurra en el flujo asociado de tramas de video, por ejemplo independientemente de la posicion en el flujo de tramas de video de la trama de video de dicho cierto tipo relacionado con las posiciones de los grupos de N tramas del flujo de bits consecutivas en el flujo de bits.

Segun realizaciones ejemplares, se proporciona un sistema de procesamiento de audio para representar una senal de audio mediante un flujo de bits de audio. El sistema de procesamiento de audio comprende: una seccion codificadora configurada para codificar un segmento de la senal de audio como un conjunto decodificable de datos de audio mediante al menos la realizacion de analisis de senal, en el segmento de audio de senal, con un paso basico correspondiente a un primer numero de muestras de la senal de audio. El conjunto decodificable de datos de audio se corresponde con una primera tasa de tramas y con un primer numero de muestras de la senal de audio por trama. El sistema de procesamiento de audio comprende una seccion de reentramado configurada para: romper el conjunto decodificable de datos de audio en N partes, donde N > 2; y formar N tramas del flujo de bits que llevan las partes respectivas. Las tramas del flujo de bits tienen una segunda tasa de tramas correspondiente a un segundo numero de muestras de la senal de audio por trama del flujo de bits. El primer numero de muestras es N veces el segundo numero de muestras. La seccion de reentramado esta configurada para sacar un flujo de bits segmentado en tramas del flujo de bits que incluye las N tramas del flujo de bits formadas.

Segun realizaciones ejemplares, se proporcionan productos de programas informaticos que comprenden un medio legible por un ordenador para realizar cualquiera de los metodos del primer aspecto.

Segun realizaciones ejemplares, se puede mantener que N = 2 o N = 4, esto es las N tramas del flujo de bits pueden ser dos o cuatro tramas del flujo de bits.

II. Vision general - Lado del decodificador

Segun un segundo aspecto, realizaciones ejemplares proponen sistemas de procesamiento de audio asf como metodos y productos de programas informaticos para reconstruir una senal de audio representada por un flujo de bits. Los sistemas, metodos y productos de programas propuestos, segun el segundo aspecto, pueden generalmente compartir las mismas caracterfsticas y ventajas. Ademas, las ventajas presentadas anteriormente para caracterfsticas de sistemas, metodos y productos de programas informaticos, segun el primer aspecto, pueden generalmente ser validas para las caracterfsticas de sistemas, metodos y productos de programas informaticos correspondientes segun el segundo aspecto.

Segun realizaciones ejemplares, se proporciona un metodo para reconstruir una senal de audio representada por un flujo de bits segmentado en tramas del flujo de bits. El metodo comprende: unir conjuntos de datos de audio llevados por N tramas del flujo de bits respectivas en un conjunto decodificable de datos de audio correspondiente a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama, donde N > 2. Las tramas del flujo de bits tienen una segunda tasa de tramas correspondiente a un segundo numero de muestras de la senal de audio por trama del flujo de bits. El primer numero de muestras es N veces el segundo numero de muestras. El metodo comprende: decodificar el conjunto decodificable de datos de audio en un segmento de la senal de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos, con un paso, referido como en este documento un paso basico, correspondiente al primer numero de muestras de la senal de audio. En un flujo de datos audiovisuales, las tramas de audio y tramas de video pueden sincronizarse y pueden ser de igual duracion, por ejemplo, para facilitar el descarte de tramas o duplicacion de tramas en conexion con la union o compensacion de derivas del reloj. Para mantener sincronizacion de audio-video en un flujo de datos audiovisuales para tasas de tramas de video mas altas, la tasa de tramas de video puede tambien ser aumentada. Sin embargo, mientras que la codificacion predictiva es empleada normalmente para reducir el coste de la tasa de bits de aumentar la tasa de tramas de video, la codificacion predictiva puede ser menos eficiente para tramas de audio ya que el contenido del audio puede ser variable en una escala de tiempos mas corta, y puede estar asociado con un grado mas bajo de correlacion entre tramas consecutivas que el contenido del video. Una longitud de trama de audio demasiado corta deberfa ser evitada dado que puede limitar el paso de transformacion, que a su vez establece un lfmite en la resolucion de frecuencia.

La habilidad del presente metodo, para unir conjuntos de datos de audio llevados por N tramas del flujo de bits respectivas de la segunda tasa de tramas (mas alta) en un conjunto decodificable de datos de audio asociado con la primera tasa de tramas (mas baja), permite mantener sincronizacion audiovisual para tasas de tramas de video mas altas, pero sin un aumento correspondiente en el consumo de la tasa de bits. De manera mas precisa, la tasa de bits cuando se opera en la tasa de tramas aumentada segun el presente metodo puede ser mas baja que la requerida cuando se usan tramas de audio normales que tienen tales tasas de tramas mas altas. El presente metodo puede por ejemplo facilitar la union de tramas de datos de audio-video y/o facilitar la compensacion de la deriva del reloj. En particular, usar la sfntesis de senal con el paso basico, en vez de una sfntesis con un paso mas corto (por ejemplo correspondiente al segundo numero de muestras de la senal de audio), reduce la cantidad de datos requeridos para sintetizar la senal de audio, y de este modo reduce la tasa de bits requerida para transmitir los datos.

Cada uno de los conjuntos de datos unidos en el conjunto decodificable de datos de audio puede ser un conjunto incompleto de datos de audio en el sentido de que uno de los conjuntos puede ser insuficiente para decodificar un segmento (o subsegmento) de la senal de audio, sin acceso a los otros conjuntos.

Para cada una de las N tramas del flujo de bits, las N tramas del flujo de bits pueden por ejemplo ser la coleccion mas pequena de tramas del flujo de bits que incluye esa trama del flujo de bits y a partir de la cual los datos de audio pueden ser unidos para decodificar un segmento de la senal de audio representada por los datos llevados por esa trama del flujo de bits.

Mediante un conjunto decodificable de datos de audio se entiende un conjunto de datos de audio que es suficiente para decodificar un segmento de la senal de audio. El conjunto decodificable de datos de audio puede estar completo en el sentido de que la decodificacion de un segmento de la senal de audio puede ser realizada sin datos de audio adicionales.

Unir los conjuntos de datos de audio en el conjunto decodificable de datos de audio puede por ejemplo incluir concatenar los conjuntos de datos, por ejemplo mediante la disposicion de los bits que representan los conjuntos respectivos de datos uno detras del otro.

Mediante el uso de la sfntesis de senal con un paso basico correspondiente al primer numero de muestras de la senal de audio se entiende que la sfntesis de senal se realiza para un segmento de la senal de audio correspondiente a un cierto numero de muestras de la senal de audio, y que, cuando el siguiente segmento de la senal de audio va a ser reconstruido, el proceso de sfntesis de senal produce una salida para un intervalo que ha sido desplazado por el mismo numero de muestras que el paso basico.

La sfntesis de senal con el paso basico puede por ejemplo usarse directamente en base al conjunto decodificado de datos de audio, o puede usarse indirectamente en base al conjunto decodificable de datos de audio, por ejemplo en base a datos de audio o senales obtenidas mediante el procesamiento del conjunto decodificable de datos de audio. Se apreciara que si la senal de audio es una senal multicanal, entonces el paso basico puede corresponderse con el primer numero de muestras de la senal de audio en una base por canal, mas que una suma de muestras para los canales respectivos.

El paso de decodificar el conjunto decodificable de datos de audio puede por ejemplo incluir multiples subpasos, uno o mas de los cuales pueden incluir sfntesis de senal con el paso basico.

Un flujo de bits proporcionado por un codificador puede por ejemplo haber sido unido con otro flujo de bits antes de alcanzar el lado del decodificador. Por ejemplo, una o mas de las N tramas del flujo de bits pueden por ejemplo faltar en el flujo de bits recibido en el lado del decodificador. En algunas realizaciones ejemplares, el metodo de procesamiento del audio puede por lo tanto incluir detectar si una o mas de las N tramas del flujo de bits a partir de las cuales unir los conjuntos de datos de audio en el conjunto decodificable completo faltan en el flujo de bits. El metodo puede por ejemplo comprender: en respuesta a la deteccion de que una o mas de las N tramas del flujo de bits faltan en el flujo de bits, aplicar ocultacion del error. La ocultacion del error puede por ejemplo incluir reemplazar datos de audio llevados por una o mas de las tramas del flujo de bits recibidas por ceros, y de manera opcional, aplicar desaparicion y/o reaparicion.

En una realizacion ejemplar, decodificar el conjunto decodificable de datos de audio puede incluir: aplicar una transformada de ventana que tenga el paso basico como el paso de transformacion; y/o realizar reconstruccion parametrica, con el paso basico, del segmento de la senal de audio, en base a una senal de mezcla descendente y asociar parametros obtenidos a partir del conjunto decodificable de datos de audio.

La transformada de ventana puede por ejemplo ser una transformada armonica, tal como la Transformada de Coseno Discreta Modificada (MDCT) inversa.

La senal de audio puede por ejemplo ser una senal de audio multicanal y la senal de mezcla descendente puede ser una senal con menos canales que la senal multicanal, por ejemplo obtenida como una combinacion lineal de los canales de la senal multicanal. La senal de mezcla descendente puede por ejemplo ser una mezcla descendente mono o estereo de la senal de audio multicanal. El conjunto decodificable de datos de audio puede por ejemplo comprender la senal de mezcla descendente y los parametros asociados para la reconstruccion parametrica del segmento de la senal de audio. De manera alternativa, el conjunto decodificable de datos de audio puede comprender datos que representan la senal de mezcla descendente y los parametros asociados, por ejemplo, en forma cuantificada, a partir de los cuales la senal de mezcla descendente y los parametros asociados pueden ser derivados.

En una realizacion ejemplar, las N tramas del flujo de bits, a partir de las cuales los conjuntos de datos de audio son unidos en el conjunto decodificable de datos de audio, pueden ser N tramas del flujo de bits consecutivas. Usar tramas consecutivas para llevar los conjuntos de datos de audio unibles en un conjunto decodificable de datos de audio puede facilitar la decodificacion de la senal de audio y puede reducir la necesidad de metadatos para identificar las tramas del flujo de bits para las cuales los datos han de ser unidos en un conjunto decodificable de datos de audio. Usar tramas consecutivas para llevar los conjuntos de datos de audio unibles en el conjunto decodificable de datos de audio puede reducir la necesidad de almacenamiento intermedio de datos para realizar la decodificacion.

En una realizacion ejemplar, el metodo puede ademas comprender: determinar, en base a los metadatos llevados por al menos algunas de las tramas del flujo de bits en el flujo de bits, un grupo de tramas del flujo de bits a partir de las cuales unir los conjuntos incompletos de datos de audio en el conjunto decodificable de datos de audio. Los metadatos pueden por ejemplo ser llevados por todas las tramas del flujo de bits, o por una o mas tramas del flujo de bits por grupo de N tramas del flujo de bits, para identificar los grupos de N tramas del flujo de bits. Realizaciones pueden tambien ser concebidas en las cuales el flujo de bits comprende otras tramas que llevan metadatos que identifican los grupos de N tramas, mientras que las N tramas del flujo de bis mismas pueden no llevar tales metadatos.

En una realizacion ejemplar, el metodo puede ademas comprender: detectar si una trama del flujo de bits lleva un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas; y decodificar el conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas en un segmento de la senal de audio mediante al menos el uso de sfntesis de senal, en base al conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas, con un paso acortado correspondiente al segundo numero de muestras.

Las tramas del flujo de bits que llevan conjuntos de datos de audio que son decodificables de manera independiente pueden usarse por ejemplo para facilitar la decodificacion de flujos de bits tras unir y/o tras descartar/duplicar tramas. La habilidad el metodo en la presente realizacion ejemplar de decodificar mediante el uso del paso acortado puede hacerla compatible con un formato del flujo de bits que facilite la sincronizacion de tramas de audio y video. Decodificar el conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas puede por ejemplo incluir: aplicar una transformacion de ventana que tiene el paso acortado como paso de transformacion; y/o realizar reconstruccion parametrica, con el paso acortado, de un segmento de la senal de audio, en base a una senal de mezcla descendente y parametros asociados obtenidos a partir del segundo conjunto decodificable de datos de audio.

La deteccion de si un flujo de bits lleva un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas puede por ejemplo ser en base a los metadatos llevados por la trama del flujo de bits, o en base a una ausencia de un tipo particular de metadatos en la trama del flujo de bits.

En una realizacion ejemplar, decodificar un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas puede incluir: proporcionar un retraso para que la decodificacion de un grupo de N tramas del flujo de bits consecutivas en la segunda tasa de tramas se complete al mismo tiempo que si las tramas del flujo de bits del grupo de N tramas del flujo de bits hubieran cada una llevado conjuntos de datos de audio que requieren unirse en un conjunto decodificable de datos de audio. La presente realizacion ejemplar facilita una transicion suave entre segmentos de la senal de audio reconstruidos mediante el uso del paso basico y segmentos de la senal de audio reconstruidos mediante el uso del paso acortado, y puede mejorar la calidad de reproduccion percibida por un oyente.

En una realizacion ejemplar, el retraso puede ser proporcionado mediante el almacenamiento intermedio de al menos un conjunto decodificable de datos de audio correspondientes a la segunda tasa de tramas o mediante el almacenamiento intermedio de al menos un segmento de la senal de audio. Es decir, el retraso puede ser proporcionado antes de realizar la sfntesis de senal, mediante el almacenamiento intermedio de uno o mas conjuntos decodificables de datos de audio correspondientes a la segunda tasa de tramas, o tras realizar sfntesis de senal, mediante el almacenamiento intermedio de uno o mas segmentos de la senal de audio reconstruida a partir de uno o mas conjuntos decodificables de datos de audio correspondientes a la segunda tasa de tramas.

En una realizacion ejemplar, el flujo de bits puede asociarse con un flujo de tramas de video que tiene una tasa de tramas que coincide con la segunda tasa de tramas. En la presente realizacion ejemplar, la tasa de tramas de las tramas del flujo de bits puede coincidir con la tasa de tramas de las tramas de video, lo que puede facilitar la union y/o sincronizacion de un flujo de datos audiovisuales que comprende el flujo de bits y el flujo de tramas de video con otros flujos de datos audiovisuales.

En una realizacion ejemplar, decodificar un segmento de la senal de audio en base a un conjunto decodificable de datos de audio correspondientes a la primera tasa de tramas puede comprender: recibir coeficientes espectrales cuantificados correspondientes al conjunto decodificable de datos de audio correspondientes a la primera tasa de tramas; realizar cuantificacion inversa seguida por una transformacion frecuencia-a-tiempo, por lo cual una representacion de una senal de audio intermedia es obtenida; realizar al menos un paso de procesamiento en el dominio de la frecuencia de la senal de audio intermedia; y cambiar una tasa de muestreo de la senal de audio procesada en una frecuencia de muestreo objetivo, por lo cual una representacion en el dominio del tiempo de una senal de audio reconstruida es obtenida.

La frecuencia de muestreo objetivo puede ser una cantidad predefinida, que es configurable por un usuario o disenador del sistema de manera independiente a las propiedades (por ejemplo, la tasa de tramas) del flujo de bits entrante.

La cuantificacion inversa puede realizarse con niveles de cuantificacion predeterminados (o niveles de reconstruccion, o puntos de reconstruccion). Los niveles de cuantificacion pueden haber sido escogidos en el lado del codificador en base a consideraciones psicoacusticas, por ejemplo, de tal manera que el ruido de cuantificacion para una frecuencia dada (o banda de frecuencias) no excede el umbral de enmascaramiento. Porque el umbral de enmascaramiento es dependiente de la frecuencia, es preferido desde un punto de vista economico que el lado del codificador seleccione niveles de cuantificacion que sean no uniformes con respecto a la frecuencia. Como una consecuencia, la cuantificacion y descuantificacion normalmente tienen lugar con una frecuencia de muestreo ffsica en mente, a la cual la salida optima es producida.

El al menos un paso de procesamiento puede por ejemplo estar asociado con replicacion de banda espectral (SBR) y/o control de rango dinamico (DRC).

Dado que al menos un paso de procesamiento es realizado en el dominio de la frecuencia, el metodo puede incluir: realizar una transformacion tiempo-a-frecuencia, por ejemplo realizada por un banco de filtros de analisis de Filtro de Espejo de Cuadratura (QMF), para obtener una representacion de frecuencia de una senal de audio intermedia; y realizar una transformacion frecuencia-a-tiempo adicional, por ejemplo realizada por un banco de filtros de sfntesis QMF, para transformar la senal de audio procesada de vuelta al dominio del tiempo.

En una realizacion ejemplar, el metodo puede aceptar los flujos de bits asociados con al menos dos valores diferentes para la segunda tasa de tramas pero asociados con un valor comun para el segundo numero de muestras por trama. Los valores respectivos de la segunda tasa de tramas pueden diferir en como mucho el 5%. La transformacion de frecuencia a tiempo se puede realizar en un componente funcional configurado para emplear una transformada de ventana que tenga un valor predefinido comun para el paso basico como paso de transformada para al menos dos valores diferentes para la segunda tasa de tramas.

En un flujo audiovisual de datos, la tasa de tramas de audio se puede adaptar (por ejemplo puede coincidir con) la tasa de tramas de video, por ejemplo para facilitar la sincronizacion y/o la union de audio y video. La capacidad del metodo en la presente realizacion ejemplar para aceptar flujos de audio con diferentes tasas de tramas puede facilitar por lo tanto la sincronizacion y/o la union de audio y video de los flujos de datos audiovisuales.

En un sistema muestreado de manera crftica, la frecuencia de muestreo ffsica corresponde a la relacion de la duracion ffsica de una trama de audio con el numero de coeficientes espectrales contenidos en la misma. El componente o los componentes espectrales que realizan la cuantificacion inversa y la transformacion de frecuencia a tiempo no necesitan ser conscientes de la duracion ffsica de los coeficientes en un conjunto decodificable de datos de audio, solo de los coeficientes que pertenecen al mismo conjunto decodificable de datos de audio. Ya que los valores de la segunda tasa de tramas difieren en como mucho un 5%, la frecuencia de muestreo interna resultante cambiara bastante poco (en unidades ffsicas), y el factor de re muestreo usado en la conversion de la tasa de muestreo final estara cercano a uno. Por lo tanto, la no constancia de la frecuencia de muestreo interna no llevara normalmente a ninguna degradacion perceptible de la senal de audio reconstruida. En otras palabras, el ligero sobre o sub muestreo de la senal de audio intermedia, que se produjo para ser optima a una frecuencia de muestreo ligeramente diferente de la frecuencia de muestreo objetivo, no sera psicoacusticamente significativo. En concreto, puede ser tolerable cierta cantidad de desajuste entre la frecuencia de muestreo ffsica esperada y/o la transformacion de frecuencia a tiempo, y las frecuencias de muestreo ffsicas a las que se sintonizan cualesquiera componentes por debajo de la misma, siempre que la desviacion sea limitada.

Segun las realizaciones ejemplares, se proporciona un sistema de procesamiento de audio para reconstruir una senal de audio representada por un flujo de bits segmentado en tramas del flujo de bits. El sistema de procesamiento de audio comprende: una memoria intermedia configurada para unir los conjuntos de datos de audio llevados por las N tramas respectivas del flujo de bits en un conjunto decodificable de datos de audio correspondiente a una primera trama y a un primer numero de muestras de la senal de audio por trama, donde N > 2. Las tramas del flujo de bits tienen una segunda tasa de tramas correspondiente a un segundo numero de muestras de la senal de audio por trama del flujo de bits. El primer numero de muestras es N veces el segundo numero de muestras. El sistema comprende una seccion de decodificacion configurada para decodificar el conjunto decodificable de datos de audio en un segmento de la senal de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos de audio, con un paso basico correspondiente al primer numero de muestras de la senal de audio.

Segun las realizaciones ejemplares, se proporcionan productos de programas informaticos que comprenden un medio legible por ordenador para realizar cualquiera de los metodos del segundo aspecto.

Segun las realizaciones de ejemplo, puede suceder que N = 2 o N = 4, esto es, las N tramas del flujo de bits pueden ser dos o cuatro tramas del flujo de bits.

III. Vision general - Transcodificacion

Segun un tercer aspecto, los ejemplos proponen sistemas de procesamiento de audio asf como los metodos y los productos de programas informaticos para transcodificar un flujo de bits que representa una senal de audio. Los sistemas, metodos y productos de programas de audio propuestos, segun el tercer aspecto, generalmente pueden compartir las mismas caracterfsticas y ventajas. Ademas, las ventajas presentadas anteriormente para las caracterfsticas de los sistemas, metodos y productos de programas informaticos, segun el primer y/o aspecto, pueden de manera general ser validos para las caracterfsticas correspondientes de los sistemas, metodos y productos de programas informaticos segun el tercer aspecto.

Segun los ejemplos, se proporciona un metodo de transcodificacion de un flujo de bits de audio que representa una senal de audio. El flujo de bits comprende una secuencia de conjuntos decodificables de datos de audio correspondientes a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama. El metodo comprende: la extraccion de un conjunto decodificable de datos de audio desde el flujo de bits, la particion del conjunto decodificable de datos de audio en N partes, donde N > 2; y la creacion de N tramas del flujo de bits que lleven las partes respectivas. Las tramas del flujo de bits tienen una segunda tasa de tramas correspondiente a un segundo numero de muestras de la senal de audio por trama del flujo de bits. El primer numero de muestras es N veces el segundo numero de muestras. Tras esto, se emite un flujo de bits segmentado en tramas del flujo de bits que incluyen las N tramas del flujo de bits creadas. De manera opcional, se realiza un paso de procesamiento del conjunto decodificable de datos de audio antes del paso de particion del conjunto hasta en N partes. Dependiendo de la naturaleza del procesamiento, esto puede requerir la decodificacion inicial de los datos de audio a una representacion de transformada o de forma de onda.

La capacidad del presente metodo para proporcionar N tramas del flujo de bits de la segunda (superior) tasa de tramas, junto con llevar un conjunto decodificable de datos de audio asociados con la primera (inferior) tasa de trama, permite mantener la sincronizacion audiovisual para tasas de tramas de video superiores., pero sin el correspondiente aumento en el consumo de la tasa de bits. La tasa de bits cuando opera a tasas de tramas aumentadas segun el presente metodo puede ser inferior que la requerida al usar tramas de audio normales que tengan dichas tasa de tramas superiores. El presente metodo puede por lo tanto facilitar por ejemplo la union de los flujos de datos audiovisuales y/o facilitar la compensacion de la deriva del reloj.

El metodo puede por ejemplo incluir la particion de una version procesada del conjunto decodificable de datos de audio en N partes.

Segun los ejemplos, se proporciona un sistema de procesamiento de audio para transcodificar un flujo de bits de audio que representa una senal de audio, en donde el flujo de bits comprende una secuencia de conjuntos decodificables de datos de audio correspondientes a la primera tasa de trama y a un primer numero de muestras de la senal de audio por trama. El sistema de procesamiento de audio comprende; un sistema de recepcion configurado para extraer un conjunto decodificable de datos de audio del flujo de bits; y una seccion de procesamiento opcional configurada para procesar el conjunto decodificable de datos de audio. El sistema de procesamiento de audio comprende una seccion de reentramado configurada para: partir el conjunto decodificable de datos de audio en N partes, donde N > 2; y formar N tramas del flujo de bits que lleven las partes respectivas. Las tramas del flujo de bits tienen una segunda tasa de tramas correspondiente a un segundo numero de muestras de la senal de audio por tasa del flujo de audio. El primer numero de muestras es N veces el segundo numero de muestras. La seccion de reentramado se configura para emitir un flujo de bits segmentado en tramas del flujo de bits que incluyan las N tramas del flujo de bits creadas.

Segun los ejemplos, se proporcionan productos de programa informatico que comprenden un medio legible por ordenador para realizar cualquiera de los metodos del tercer aspecto.

Segun los ejemplos, puede suceder que N = 2 o N = 4, esto es, las N tramas del flujo de bits pueden ser dos o cuatro tramas del flujo de bits.

III. Vision general - Medio legible por ordenador

Segun un cuarto aspecto, las realizaciones ejemplares proponen medios legibles por ordenador que representan una senal de audio. Las ventajas presentadas anteriormente como caracterfsticas de los sistemas, metodos y productos de programas informaticos, segun el primer, segundo y/o tercer aspecto, pueden de manera general ser validos para las caracterfsticas correspondientes de los medios legibles por ordenador segun el cuarto aspecto. Segun las realizaciones de ejemplo, se proporciona un medio legible por ordenador que represente una senal de audio segmentada en tramas del flujo de bits. En el medio legible por ordenador, N de las tramas del flujo de bits llevan los respectivos conjuntos de datos de audio que se pueden unir en un conjunto decodificable de datos de audio que corresponde a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama, donde N > 2, El conjunto decodificable de datos de audio es decodificable en un segmento de l a senal de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos de audio, con un paso basico correspondiente al primer numero de muestras de la senal de audio. Las tramas del flujo de bits tienen una segunda tasa de tramas correspondiente a un segundo numero de muestras de la senal de audio por trama del flujo de bits. El primer numero de muestras es N veces el segundo numero de muestras.

Las N tramas del flujo de bits de la segunda (superior) tasa de tramas, junto con llevar un conjunto decodificable de datos de audio asociado con la primera (inferior) tasa de tramas, permite mantener la sincronizacion audiovisual para tasas de tramas de video superiores, pero sin el correspondiente aumento en el consumo de la tasa de bits. Mas precisamente, la tasa de bits al operar a tasas de tramas aumentadas segun el presente medio legible por ordenador puede ser inferior que la requerida al usar tramas de audio normales que tengan dichas tasas de tramas superiores. El presente medio legible por ordenador puede por lo tanto por ejemplo facilitar la union de flujos de datos audiovisuales y/o facilitar la compensacion de la deriva del reloj.

Las N tramas del flujo de bits que llevan los respectivos conjuntos de datos de audio que se pueden unir en un conjunto decodificable de datos de audio pueden ser por ejemplo N tramas del flujo de bits consecutivas.

En una realizacion ejemplar, al menos una de las N tramas del flujo de bits puede llevar metadatos que indiquen un grupo de tramas del flujo de bits desde el cual unir los conjuntos de datos de audio en el conjunto decodificable de datos de audio.

En una realizacion ejemplar, el medio legible por ordenador puede comprender ademas una trama del flujo de bits que lleva un segundo conjunto de datos de audio decodificable en un segmento de la senal de audio mediante al menos el empleo de sfntesis de senal, en base al segundo conjunto de datos de audio, con un paso acortado correspondiente al segundo numero de muestras de la senal de audio.

Las tramas del flujo de bits que llevan los conjuntos de los datos de audio que son decodificables de manera independiente, segun la presente realizacion ejemplar, se pueden emplear por ejemplo, para facilitar la decodificacion de los flujos de bits despues de unir y/o despues de los descartes/duplicaciones de trama.

Segun las realizaciones, puede suceder que N = 2 o N = 4, esto es, las N tramas del flujo de bits pueden ser dos o cuatro tramas del flujo de bits.

V. Realizaciones ejemplares

La Fig. 1 es un diagrama de bloques generalizado de un sistema 100 de procesamiento de audio para representar una senal X de audio como un flujo de bits B de audio, segun una realizacion ejemplar.

El sistema 100 de procesamiento de audio comprende una seccion 110 de codificacion y una seccion 120 de reentramado. La seccion 110 de codificacion codifica un segmento de la senal X de audio como un conjunto decodificable de datos D de audio mediante al menos la realizacion el analisis de la senal sobre el segmento de la senal X de audio con un paso basico correspondiente a un primer numero de muestras de la senal X de audio. Realizando el analisis de senal con un paso basico correspondiente al primer numero de muestras de la senal X de audio se entiende que el analisis de senal se realiza dentro de una ventana de analisis de un cierto numero de muestras de la senal X de audio, y cuando el siguiente segmento de la senal X de audio se ha de codificar la ventana de analisis se desplaza el mismo numero de muestras que el paso basico. El analisis de senal puede por ejemplo ser realizado con ventanas de analisis de solapamiento, en cuyo caso la ventana de analisis puede ser mayor que el paso basico. En otro ejemplo, la longitud de la ventana de analisis puede coincidir con el paso basico. La senal X de audio se ejemplifica en la presente memoria mediante una senal de audio multicanal. En la presente realizacion ejemplar, la seccion 110 de codificacion aplica una transformada de ventana, por ejemplo una Transformada de Coseno Discreta Modificada (MDCT), con el paso basico como el paso de transformada, al segmento de la senal X de audio para proporcionar una representacion en el dominio de la frecuencia del segmento de la senal X de audio. En el dominio de la frecuencia, la seccion 110 de codificacion despues calcula una senal de mezcla descendente (por ejemplo una mezcla descendente mono o estereo) como una combinacion lineal de los canales respectivos de la senal X de audio. La seccion 110 de codificacion tambien determina los parametros para la reconstruccion parametrica de la senal X de audio multicanal a partir de la senal de mezcla descendente. En la presente realizacion ejemplar, el conjunto decodificable de datos D de audio comprende la senal de mezcla descendente y los parametros para la reconstruccion parametrica.

Los parametros por ejemplo pueden ser determinados en base al analisis de senal de la representacion en el dominio de la frecuencia. Este analisis de senal puede emplear el paso basico, esto es puede emplear el mismo paso que la transformada de ventana. El analisis de senal puede por ejemplo incluir el calculo de las energfas y/o las covarianzas de los canales de la senal X de audio multicanal.

Se pueden prever tambien realizaciones en las que los parametros para la reconstruccion parametrica se determinen en base al analisis de senal con un paso diferente que el de la transformada de ventana. Se pueden prever realizaciones por ejemplo en las que la transformada de ventana emplee un paso de transformada mas corto que el paso basico, y en las que los parametros para la reconstruccion parametrica se determinen en base al analisis de senal con el paso basico.

El conjunto decodificable de datos D de audio corresponde a una primera tasa de tramas, por ejemplo, de 30 fps, y a un primer numero de muestras de la senal de audio por trama. Es decir, el conjunto decodificable de los datos D representa el primer numero de muestras de la senal de audio, y corresponde a una trama conforme a la primera tasa de trama.

La seccion 120 de reentramado parte el conjunto decodificable de datos D de audio en N partes Di, D², ..., Dn por ejemplo dividiendo el conjunto decodificable de datos D de audio en N partes de al menos aproximadamente igual tamano Di, D², ..., Dⁿ. N puede ser por ejemplo 2 o 4 o puede ser cualquier numero entero mayor o igual que 2. En la presente realizacion ejemplar, el conjunto decodificable de datos D de audio es una representacion en el dominio de la frecuencia del primer numero de muestras. Por lo tanto, cuando el conjunto decodificable de datos D de audio se parte en las partes de igual tamano Di, D², ..., Dⁿ, estas partes Di, D², ..., Dⁿpueden comprender los subconjuntos respectivos de la representacion en el dominio de la frecuencia, que no corresponden necesariamente con ningun subconjunto concreto del primer numero de muestras de la senal de audio. Por lo tanto, las partes Di, D², ..., Dⁿson conjuntos incompletos de datos de audio en el sentido de que ninguna de las partes Di, D², ..., Dⁿse puede decodificar sin el acceso a todas las N partes Di, D², ..., Dn.

La seccion i20 de reentramado forma N tramas Fi, F², ..., Fⁿque llevan las respectivas partes Di, D², ..., Dⁿ. Ya que las N tramas Fi, F², ..., Fⁿrepresentan un conjunto decodificable de datos D de audio, las tramas Fi, F², ..., Fⁿdel flujo de bits tienen una segunda tasa de tramas que es N veces la tasa de tramas del conjunto decodificable de datos D de audio. De manera similar, aunque las tramas Fi, F², ..., Fn del flujo de bits no representan en si ciertas muestras de la senal X de audio, las N tramas Fi, F², ..., Fn del flujo de bits representan el conjunto decodificable de datos D de audio y por lo tanto corresponden a un segundo numero de muestras por trama, donde el primer numero de muestras por trama es N veces el segundo numero de muestras por trama.

La seccion i20 de reentramado emite un flujo de bits B segmentado en tramas del flujo de bits que incluyen las N tramas Fi, F², ..., Fn del flujo de bits creadas como N tramas consecutivas del flujo de bits.

Ademas de las partes Di, D², ..., Dn de los datos de audio, las tramas Fi, F², ..., Fn del flujo de bits tambien comprenden los respectivos metadatos pi, P², ..., |Jn que indican que el conjunto decodificable de datos D de audio es obtenible a partir de las partes Di, D², ..., Dⁿllevadas por las tramas Fi, F², ..., Fⁿdel flujo de bits. Los metadatos pi, P², ..., Pn de cada una de las tramas Fi, F², ..., Fn del flujo de bits pueden indicar por ejemplo que parte del conjunto decodificable de datos D de audio es llevada por la trama del flujo de bits, y, de manera opcional pueden indicar las tramas del flujo de bits que llevan las otras N - i partes del conjunto decodificable de datos D de audio. Las Fig. 3 y 4 representan ejemplos de flujos de bits proporcionados por el sistema i00 de procesamiento de audio, descrito con referencia a la Fig. i, segun las realizaciones de ejemplo.

El flujo de bits B emitido por el sistema i00 de procesamiento de audio mostrado en la Fig. i se puede asociar con un flujo de tramas de video. El flujo de bits B se ejemplifica en la Fig. 3 mediante un flujo A i de tramas del flujo de bits y un flujo V i de tramas de video, donde la direccion hacia la derecha corresponde a un aumento de tiempo t. El flujo V i de tramas de video incluye tramas P de video codificadas predichas (que incluyen tramas que dependen de las tramas anteriores solo y/o las asf llamadas tramas bidireccionales, que dependen de tanto la trama anterior como la posterior) y una trama I de video codificada de manera independiente. El flujo A i de las tramas del flujo de bits incluye las tramas del flujo de bits con la misma tasa de tramas y la misma duracion que las tramas de video, para facilitar la union y/o la sincronizacion con otros flujos de datos audiovisuales.

En la presente realizacion ejemplar, N = 4 y el sistema i00 de procesamiento de audio proporciona las tramas del flujo de bits en grupos 3 i0 de cuatro tramas 3 i i , 3i2, 3i3, 3 i4 del flujo de bits que llevan las respectivas partes de un conjunto decodificable de datos de audio. Sin embargo, si el flujo V i de tramas de video se ha de unir con otros flujos de tramas de video, la union se puede realizar en un punto adyacente a la trama I de video codificada de manera independiente para facilitar la decodificacion de las tramas de video despues de la union. Para mantener la sincronizacion de audio y video, el flujo A i de tramas del flujo de bits se puede unir en el mismo punto de union que el flujo Vi de tramas de video.

Para facilitar la decodificacion de las tramas del flujo de bits despues de la union con otro flujo de tramas del flujo de bits, el sistema i00 de procesamiento de audio codifica un segmento de la senal X de audio de manera temporal en relacion con la trama l de video codificada de manera independiente como un conjunto decodificable de datos de audio mediante la aplicacion de analisis de senal con un paso de transformada acortado correspondiente al segundo numero de muestras de la senal X de audio, que puede corresponder por ejemplo a la duracion de la trama del video l codificado de manera independiente.

De manera analoga a la codificacion en la que se emplea analisis de senal con el paso basico, la codificacion que emplea analisis de senal con el paso acortado puede incluir la aplicacion de una transformada de ventana, por

i3

ejemplo una MDCT, con el paso acortado como paso de transformada, y determinar los parametros para la reconstruccion parametrica del segmento de la senal de audio a partir de la senal de mezcla descendente, donde los parametros se determinan en base al analisis de senal con el paso acortado. El conjunto decodificable de datos de audio asociado con el paso acortado puede comprender la senal y los parametros de la mezcla descendente.

El sistema 100 de procesamiento de audio incluye una trama 321 del flujo de bits que lleva el conjunto decodificable de datos de audio, que se puede decodificar de manera independiente sin acceder a los datos de audio llevados por las otras tramas del flujo de bits. En el flujo A1 de tramas del flujo de bits, la trama 321 del flujo de bits es seguida por otro grupo 330 de cuatro tramas 331, 332, 333, 334 de tramas de flujo de bits que llevan las partes respectivas de un conjunto decodificable de datos de audio.

El sistema 100 de procesamiento de audio puede comprender por ejemplo una seccion de codificacion adicional (no mostrada en la Fig. 1) configurada para codificar los segmentos de la senal X de audio aplicando analisis de senal con el paso acortado. De manera alternativa, la seccion 110 de codificacion puede ser operable para emplear el paso acortado, y la seccion 120 de reentramado puede ser operable para incluir la trama 321 del flujo de bits, que lleva el conjunto decodificable de datos de audio asociado con el paso acortado, en el flujo de bits B.

En el ejemplo descrito con referencia a la Fig. 3, la presencia de una trama l de video codificado de manera independiente en ciertas posiciones puede ser manejada mediante la inclusion de una trama 321 del flujo de bits, que lleva un conjunto decodificable de datos de audio asociado con el paso acortado de la transformada, entre los grupos 310, 330 de cuatro tramas del flujo de bits. Sin embargo, en al menos algunos escenarios de ejemplo, las posiciones de las tramas l de video codificadas de manera independiente pueden ser desconocidas a priori, y/o las tramas l de video codificadas de manera independiente pueden ocurrir en posiciones que no coinciden con las posiciones entre los grupos de cuatro tramas del flujo de bits. Dicho escenario se ilustra en la Fig. 4.

El flujo de bits B y un flujo asociado de tramas de video se ejemplifican en la Fig. 4 mediante otro flujo de bit A2 de tramas del flujo de bits y otro flujo V2 de tramas de video, donde el tiempo t se propaga hacia la derecha.

De manera similar al escenario de ejemplo descrito con referencia a la Fig. 3, las tramas del flujo de bits se proporcionan mediante el sistema 100 de procesamiento de audio en los grupos 410, 430 de cuatro tramas del flujo de bits. Sin embargo, una vez que se detecta la trama l de video codificado de manera independiente en el flujo v2 de tramas de video, cuatro tramas 421, 422, 423, 424 del flujo de bits son codificadas por el sistema 100 de procesamiento de audio que emplea el paso acortado para cada una de ellas. Dependiendo de la posicion de la trama l de video codificado de manera independiente en el flujo V2 de tramas de video, la trama l de video codificado de manera independiente puede corresponder con cualquiera de las cuatro tramas 421, 422, 423, 424 del flujo de bits proporcionadas usando el paso acortado de la transformada. En el escenario presente, una trama 423 del flujo de bits codificada de manera independiente se puede proporcionar en una posicion en el flujo de bits A2 correspondiente al video l codificado de manera independiente, sin importar la posicion de la trama l de video codificada de manera independiente en el flujo V2 de las tramas de video, en relacion con cualesquiera grupos de cuatro tramas del flujo de bits en el flujo de bits A2 codificadas usando el paso basico. En el presente escenario, las tramas del flujo de bits se organizan en grupos de cuatro tramas del flujo de bits, sin importar la presencia de las tramas l de video codificadas de manera independiente en el flujo V2 de tramas de video.

La Fig. 2 es un diagrama de flujo de un metodo 200 de representacion de una senal de audio mediante un flujo de bits de audio, segun una realizacion ejemplar. El metodo 110 se ejemplifica en la presente memoria mediante un metodo realizado por el sistema 100 de codificacion de audio, descrito con referencia a la Fig. 1.

El metodo 200 comprende la deteccion en 210 de si una trama actual del flujo V1 de tramas de video es codificada de manera independiente. Si la trama actual no se codifica de manera independiente, indicado mediante una N en el diagrama de flujo, el metodo 200 continua codificando en 220 un segmento de la senal X de audio como un conjunto decodificable de datos D de audio, mediante al menos el empleo de analisis de senal con el paso basico; partiendo en 230 el conjunto decodificable de datos D de audio en N partes D¹, D²,..., Dⁿ; creando en 240 N tramas F¹, F²,..., Fⁿdel flujo de bits que llevan las partes D¹, D²,..., Dⁿrespectivas y emitiendo en 250 las tramas F¹, F²,..., Fⁿdel flujo de bits como parte del flujo de bits B. El metodo 200 despues vuelve a codificar otros segmentos de la senal X de audio.

Si, por otro lado, la trama actual del flujo V1 de tramas de video se codifica de manera independiente, indicado por una S en el diagrama de flujo, el metodo 200 en cambio continua codificando en 260 un segmento de la senal X de audio como un conjunto decodificable de datos de audio mediante al menos el empleo de analisis de senal con el paso acortado; e incluyendo en 270 una trama del flujo de bits que lleva el segundo conjunto decodificable de datos de audio en el flujo de bits B. El metodo 200 entonces vuelve a decodificar otros segmentos de la senal X de audio. La Fig. 5 es un diagrama de bloques generalizado de un sistema 500 de procesamiento de audio para reconstruir una senal de audio representada mediante un flujo de bits, segun una realizacion ejemplar.

En la presente realizacion ejemplar, el flujo de bits es ejemplificado mediante el flujo de bits B emitido por el sistema 100 de procesamiento de audio, descrito con referencia a la Fig. 1. Mas adelante se describen tambien realizaciones ejemplares en las que el sistema 500 de procesamiento de audio recibe los flujos de bits que se han modificado por ejemplo mediante descartes de tramas y/o duplicaciones de tramas antes de ser recibidos por el sistema 500 de procesamiento de audio.

El sistema 500 de procesamiento de audio comprende una memoria intermedia 510 y una seccion 520 de decodificacion. La memoria intermedia 510 une los conjuntos de datos D i, D², ..., Dⁿllevados mediante las tramas Fi, F², ..., Fn del flujo de bits en un conjunto de datos D de audio decodificable correspondiente a la primera tasa de tramas, por ejemplo de 30 fps, y al primer numero de muestras de la senal de audio por trama. Como se describe con referencia a la Fig. 1, las tramas F¹, F², ..., Fⁿdel flujo de bits tienen la segunda tasa de tramas correspondiente al segundo numero de muestras de la senal de audio por trama del flujo de bits, donde el primer numero de muestras es N veces el segundo numero de muestras. La memoria intermedia 510 emplea los metadatos P¹, P², ..., Pn. llevados por las tramas del flujo de bits para identificar las tramas F¹, F², ..., Fn que llevan los conjuntos de datos D¹, D², ..., Dⁿa ser unidos.

La seccion 520 de decodificacion decodifica el conjunto decodificable de datos D de audio en un segmento de la senal X de audio empleando sfntesis de senal, en base al conjunto decodificable de datos D de audio, con el paso basico descrito con referencia a la Fig. 1, esto es el paso basico correspondiente al primer numero de muestras de la senal X de audio. El sistema 500 de procesamiento de audio emite una version X reconstruida de la senal X de audio.

Como se describe con referencia a la Fig. 1, la senal X de audio es una senal de audio multicanal, y el conjunto decodificable de datos D de audio comprende la senal de mezcla descendente y los parametros de mezcla ascendente asociados para la reconstruccion parametrica de la senal X de audio. La seccion 520 de decodificacion realiza una reconstruccion parametrica de una representacion en el dominio de la frecuencia del segmento de la senal X de audio, empleando el paso basico. La seccion 520 de decodificacion despues aplica una transformada de ventana, por ejemplo la MDCT inversa, que tiene el paso basico segun el paso de la transformada, para obtener una representacion en el dominio del tiempo del segmento de la senal X de audio.

Se pueden prever tambien realizaciones en las cuales la reconstruccion parametrica se realiza con un paso diferente que el de la transformada de ventana. Se pueden prever realizaciones por ejemplo en la que la transformada de ventana emplea un paso de transformada mas corto que el paso basico, y en las que la reconstruccion parametrica se realiza con el paso basico.

Como se describe con referencia a las Fig. 3 y 4, el flujo de bits B puede comprender las tramas del flujo de bits que llevan conjuntos decodificables de datos de audio, esto es conjuntos de datos de audio que son decodificables de manera independiente de los demas mediante el empleo del paso acortado. El sistema 500 de procesamiento de audio puede por ejemplo comprender una seccion de decodificacion adicional (no mostrada en la Fig. 5) configurada para decodificar un conjunto decodificable de datos de audio que emplea el paso acortado. De manera alternativa, la seccion 520 de decodificacion puede ser operable para decodificar dicho conjunto de datos de audio usando el paso acortado, y la memoria intermedia 510 puede ser operable para transferir dicho conjunto decodificable de datos de audio a la seccion 520 de decodificacion sin unirlos con los datos de audio de otros flujos de bits.

Para permitir la conmutacion suave entre los segmentos de la senal X de audio decodificada usando el paso acortado, y los segmentos de la senal X de audio decodificada usando el paso basico, el sistema 500 de procesamiento de audio puede proporcionar por ejemplo un retraso para que la decodificacion de un grupo de N tramas del flujo de bits consecutivas a la segunda tasa de tramas, esto es que emplean el paso acortado, se complete al mismo tiempo que si las tramas del flujo de bits hubieran llevado cada una los conjuntos de datos de audio que requieren la union en un conjunto decodificable de datos de audio, para decodificar. La memoria intermedia 510 puede proporcionar por ejemplo dicho retraso almacenando los conjuntos decodificables de datos de audio antes de transmitirlos a la seccion 520 de decodificacion. De manera alternativa, la seccion 520 de decodificacion puede proporcionar el retraso almacenando los segmentos reconstruidos de la senal X de audio, antes de proporcionarlos como salida.

Un flujo de bits B de audio emitido por el sistema 100 de procesamiento de audio, descrito con referencia a la Fig. 1, puede haber sido modificado, por ejemplo mediante la union con otros flujos de bits, o mediante el descarte/duplicacion de tramas antes de ser recibidas por el sistema 500 de procesamiento de audio descrito con referencia a la Fig. 5.

Como se describe con referencia a la Fig. 3, las tramas del flujo de bits pueden tener las mismas duraciones que las tramas de video correspondientes en un flujo V1 asociado de tramas de video. El empleo de dichos flujos A1 de audio y flujos V1 de video sincronizados en los flujos audiovisuales facilita la union y/o la sincronizacion de los flujos audiovisuales.

Para un dispositivo o componente que realice la union puede no ser necesario tomar en cuenta que tipos de tramas del flujo de bits se disponen despues de cada antes o despues de la union. En cambio, el sistema 500 de procesamiento de audio se puede adaptar para manejar una situacion en la que alguna de las N tramas F¹, F²,..., Fn del flujo de bits de un grupo que lleva las respectivas partes D¹, D²,..., Dⁿde un conjunto decodificable de datos D de audio se pierden en el flujo de bits B recibido, por ejemplo, debido a la union y/o el descarte/duplicacion de tramas.

El sistema 500 de procesamiento de audio se puede configurar para detectar que las tramas del flujo de bits se pierden, por ejemplo, en base a los metadatos pi, p², ..., Hⁿllevados por las tramas Fi, F², Fⁿrespectivas del flujo de bits.

Una vez que se detecta que las tramas del flujo de bits requeridas para decodificar estan perdidas, el sistema 500 de procesamiento de audio puede emplear por ejemplo una estrategia de ocultacion de errores para continuar la decodificacion de la senal X de audio. La estrategia de ocultacion puede por ejemplo incluir el reemplazo de los datos de audio llevados por las tramas del flujo de bits en un grupo incompleto de tramas del flujo de bits, esto es un grupo del cual se pierden una o mas tramas del flujo de bits en el flujo de bits recibido, por silencio (por ejemplo por ceros como coeficientes en el dominio de la frecuencia para la senal X de audio). La aparicion y desaparicion puede por ejemplo ser empleada por el sistema 500 de procesamiento de audio para proporcionar transiciones mas suaves entre los segmentos decodificables de la senal X de audio, y el silencio reemplazando los segmentos no decodificables de la senal X de audio, segun lo percibido por un oyente.

En algunas realizaciones ejemplares, el sistema 500 de procesamiento de audio se puede configurar para aceptar los flujos de bits asociados con al menos dos valores predefinidos diferentes para la segunda tasa de tramas, pero asociados con un valor comun para el segundo numero de muestras por trama. Esto se ejemplifica en la Tabla 1 mediante los valores 59,940 fps y 60,000 fps para la segunda tasa de tramas, y el valor comun 768 para el segundo numero de muestras por trama. Dichas tasas de tramas pueden ser utiles para los flujos de audio asociados con los flujos de video que tienen estas tasas de tramas.

En el presente ejemplo, los valores de la segunda tasa de tramas difieren por menos que el 5%. El sistema 500 de procesamiento de audio se puede adaptar para decodificar la senal X de audio que emplea el mismo valor para el paso basico para estos dos diferentes valores de la segunda tasa de tramas. Como se describe en la solicitud de patente pendiente del solicitante, aun no publicada, PCT/EP2014/056848 (vease en concreto la parte de la seccion “II. Realizaciones de ejemplo”, que describe la Figura 1 y la Tabla 1 de esta), la variacion de la frecuencia de muestreo interna de la seccion 520 de decodificacion, provocada por la diferencia en la segunda tasa de tramas, normalmente puede ser tan pequena que aun se puede proporcionar una calidad de reproduccion aceptable de la senal X de audio reconstruida, segun es percibida por el oyente, por el sistema 500 de procesamiento de audio. Otro ejemplo en la Tabla 1 de valores de la segunda tasa de tramas que difieren por menos del 5% esta dado por los valores 119,880 fps y 120,000 fps para la segunda tasa de tramas, y el valor comun 384 para el segundo numero de muestras por trama.

Como se muestra en la Tabla 1, si la tasa de tramas de video es de 60,00 fps, se puede emplear N = 2 tramas del flujo de bits con la segunda tasa de tramas de 60,000 para representar un conjunto decodificable de datos de audio con la primera tasa de tramas de 30,000 fps. De manera similar, si la tasa de tramas de video es de 59,940 fps, se puede emplear N = 2 tramas del flujo de bits con la segunda tasa de tramas de 59,940 para representar un conjunto decodificable de datos de audio con la primera tasa de tramas de 29,970 fps. La Tabla 1 tambien muestra que si la tasa de tramas de video es de 120 fps, se puede emplear N = 4 tramas del flujo de bits con la segunda tasa de tramas de 120,000 para representar un conjunto decodificable de datos de audio con la primera tasa de tramas de 30,000 fps. De manera similar, si la tasa de tramas de video es de 119,880 fps, se puede emplear N = 4 tramas de flujo de bits con la segunda tasa de tramas de 119,880 para representar un conjunto decodificable de datos de audio con la primera tasa de tramas de 29,970 fps.

La Fig. 6 es un diagrama de flujo de un metodo 600 de procesamiento de audio para reconstruir una senal de audio representada mediante un flujo de bits, segun una realizacion ejemplar. El metodo 600 se ejemplifica en la presente memoria mediante un metodo realizado por el sistema 500 de procesamiento de audio descrito con referencia a la Fig. 5.

El metodo 600 comprende la deteccion en 610 de si la trama del flujo de bits lleva un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas.

Si no, indicado mediante una N en el diagrama de flujo, el metodo 600 continua uniendo en 620 los conjuntos de datos Di, D²,..., Dⁿde audio llevados por las N tramas Fi, F²,..., Fⁿrespectivas del flujo de bits en un conjunto decodificable de datos D de audio correspondiente a la primera tasa de tramas y al primer numero de muestras de la senal de audio por trama; y decodificando en 630 el conjunto decodificable de datos D de audio en un segmento de la senal X de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos D, con el paso basico correspondiente al primer numero de muestras de la senal X de audio. El metodo 600 vuelve entonces al paso de deteccion 610 de si la siguiente trama del flujo de bits recibida lleva un conjunto decodificable de datos de audio.

Si es que si, indicado mediante una S en el diagrama de flujo, el metodo 600 en cambio continua decodificando en

640 el conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas en un segmento de datos X de audio mediante al menos el empleo de el paso acortado correspondiente al segundo numero de muestras de la senal X de audio. El metodo 600 entonces vuelve al paso de deteccion 610 de si la siguiente trama del flujo de bits lleva un conjunto decodificable de datos de audio.

La Fig. 7 es un diagrama de bloques generalizado de un sistema 700 de procesamiento de audio para transcodificar un flujo de bits de audio que representa una senal de audio, segun una realizacion ejemplar.

El sistema 700 de procesamiento de audio comprende una seccion 710 de recepcion, una seccion 720 de procesamiento opcional, y una seccion 730 de reentramado. La seccion 710 de recepcion recibe un flujo de bits B1 que comprende una secuencia de conjuntos decodificables de datos D de audio correspondientes a una primera tasa de tramas y al primer numero de muestras de la senal de audio por trama, por ejemplo descrita con referencia a la Fig. 1. La seccion 710 de recepcion extrae un conjunto decodificable de datos D de audio del flujo de bits B1.

La seccion 720 de procesamiento (opcional) procesa el conjunto decodificable de datos D de audio. Dependiendo de la naturaleza del procesamiento, esto puede requerir la decodificacion inicial de los datos de audio en una representacion de transformada o de forma de onda; la seccion 720 de procesamiento puede entonces realizar la sfntesis de senal de secuencia, el procesamiento, el analisis de senal.

La seccion 730 de reentramado parte el conjunto decodificable procesado de datos D de audio en N partes D¹, D²,

..., Dⁿ, y crea las N tramas F¹, F², ..., Fⁿdel flujo de bits que llevan las respectivas partes D¹, presente realizacion ejemplar, la seccion 730 de reentramado realiza las mismas operaciones que la seccion 120 de reentramado en el sistema 100 de procesamiento de audio, descrito con referencia a la Fig. 1. Por lo tanto, las tramas F¹, F², ..., Fⁿdel flujo de bits tienen la segunda tasa de tramas correspondiente al segundo numero de muestras de la senal de audio por trama del flujo de bits, y la seccion 730 de reentramado emite un flujo de bits B2 segmentado en tramas del flujo de bits que incluyen las N tramas F¹, F², ..., Fn del flujo de bits creadas.

El flujo de bits B2 emitido por el sistema 700 de procesamiento de audio puede coincidir por ejemplo con el flujo de bits B emitido por el sistema 100 de procesamiento de audio, descrito con referencia a la Fig.1. El flujo de bits B1 recibido por el sistema 700 de procesamiento de audio puede por ejemplo ser un flujo de bits de 30 fps proporcionado por un codificador de audio conocido en la tecnica.

Se apreciara que el flujo de bits B, descrito con referencia a las FIG. 1 y 5, y el flujo de bits A1 de tramas del flujo de bits, descrito con referencia a la Fig. 3, son ejemplos de un medio legible por ordenador que representa la senal X de audio y segmentado en tramas del flujo de bits, de acuerdo con las realizaciones ejemplares.

Se apreciara tambien que N puede ser un numero entero mayor que 1.

VI. Equivalencias, extensiones, alternativas y miscelanea

Incluso aunque la presente descripcion describa y represente realizaciones de ejemplo especfficas, la invencion no se restringe a estos ejemplos especfficos. Se pueden hacer modificaciones y variaciones a las realizaciones de ejemplo anteriores sin salir del alcance de la invencion, que se define solo por las reivindicaciones adjuntas.

En las reivindicaciones, la palabra “comprendiendo” no excluye otros elementos o pasos, y el artfculo indefinido “un” o “una” no excluye una pluralidad. El mero hecho de que ciertas mediciones se indiquen en reivindicaciones diferentes mutuamente dependientes no indica que no se pueda usar una combinacion de estas mediciones como una ventaja. Cualquier signo de referencia que aparezca en las reivindicaciones no se debe entender como que limita su alcance.

Los dispositivos y metodos descritos anteriormente se pueden implementar como software, firmware, hardware o una combinacion de los mismos. En una implementacion de hardware, la division de tareas entre las unidades funcionales referidas en la anterior descripcion no corresponde necesariamente a la division en unidades ffsicas; al contrario, un componente ffsico puede tener multiples funcionalidades, y una tarea puede ser llevada a cabo de una forma distribuida, por varios componentes ffsicos en cooperacion. Ciertos componentes o todos los componentes se pueden implementar como un software ejecutado por un procesador digital, un procesador de senal o un microprocesador, o ser implementados como hardware o como un circuito integrado de aplicacion especffica. Dicho software se puede distribuir en medios legibles por un ordenador, que pueden comprender medios de almacenamiento informatico (o medios no transitorios) y medios de comunicacion (o medios transitorios). Como es bien sabido por una persona experta en la tecnica, el termino medios de almacenamiento informatico incluye tanto los medios volatiles como los no volatiles, los extrafbles como los no extrafbles implementados en cualquier metodo o tecnologfa para el almacenamiento de informacion tal como las instrucciones legibles por un ordenador, las estructuras de datos, los modulos de programa u otros datos. Los medios de almacenamiento informatico incluyen, pero no se limitan a, una RAM, una ROM, una EEPROM, una memoria flash u otra tecnologfa de memoria, un CD-ROM, un disco versatil digital (DVD) u otro almacenamiento de disco optico, unos casetes magneticos, una cinta magnetica, un almacenamiento de disco magnetico u otros dispositivos de almacenamiento magneticos, o cualquier otro medio que se pueda usar para almacenar la informacion deseada y que pueda ser accedida por un ordenador. Ademas, es bien sabido por las personas expertas en la tecnica que los medios de comunicacion normalmente realizan instrucciones, estructuras de datos, modulos de programa u otros datos legibles por un ordenador en una senal de datos modulada como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de informacion.

Claims

REIVINDICACIONES

1. Un metodo (200) de representacion de una senal (X) de audio como un flujo de bits (B) de audio, comprendiendo el metodo:

codificar (220) un segmento de la senal de audio como un conjunto decodificable de datos (D) de audio mediante al menos la realizacion de analisis de senal, sobre el segmento de la senal de audio, con un paso basico correspondiente a un primer numero de muestras de la senal de audio, el conjunto decodificable de datos de audio correspondiente a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama; romper (230) el conjunto decodificable de datos de audio en N partes (Di, D², ..., Dn) donde N > 2;

crear (240) N tramas (Fi, F²,..., Fn) del flujo de bits que llevan las partes respectivas, en donde las N tramas del flujo de bits representan el conjunto decodificable de datos de audio y corresponden a un segundo numero de muestras de la senal de audio por trama (Fi, F²,..., Fⁿ), en donde el primer numero de muestras por trama es N veces el segundo numero de muestras por trama, y en donde las N tramas del flujo de bits tienen una segunda tasa de tramas que es N veces la primera tasa de tramas; y

emitir (250) un flujo de bits segmentado en tramas del flujo de bits que incluyen las N tramas del flujo de bits anteriormente creadas,

en donde el metodo comprende ademas:

en respuesta al flujo de tramas de video que comprenden una trama de video de una cierto tipo (I), codificar (260) un segmento de la senal de audio relacionado temporalmente con dicha trama de video como un segundo conjunto decodificable de datos de audio mediante al menos la realizacion de analisis de senal, sobre el segmento de la senal de audio que se relaciona de manera temporal con dicha trama de video, con un paso acortado correspondiente al segundo numero de muestras de la senal de audio, correspondiendo el segundo conjunto decodificable de datos de audio a dicha segunda tasa de tramas y dicho segundo numero de muestras de la senal de audio por trama; e incluir (270) una trama (321) del flujo de bits que lleva el segundo conjunto decodificable de datos de audio en el flujo de bits, siendo dicha trama del flujo de bits decodificable de manera independiente en un segmento, o en un subsegmento, de la senal de audio.

2. El metodo de la reivindicacion 1, en donde realizar el analisis de senal incluye realizar, con el paso basico, al menos uno del grupo que comprende:

analisis espectral

analisis de energfa,

analisis de entropfa.

3. El metodo de la reivindicacion 1 o 2, en donde la codificacion de un segmento de la senal de audio incluye al menos uno del grupo que comprende:

aplicar una transformada de ventana que tenga el paso basico como paso de transformada;

calcular la senal de mezcla descendente y los parametros para la reconstruccion parametrica de la senal de audio a partir de la senal de mezcla descendente, en donde los parametros se calculan en base a dicho analisis de senal.

4. El metodo de cualquiera de las reivindicaciones anteriores, comprendiendo ademas:

incluir los metadatos (P¹, P², ..., |Jⁿ) en al menos una de las N tramas del flujo de bits que llevan dichas partes, indicando los metadatos que el conjunto decodificable completo de datos de audio es obtenible a partir de las partes llevadas por las N tramas del flujo de bits; y/o

en respuesta al flujo de las tramas de video que comprenden una trama de video de dicho tipo, codificar N segmentos consecutivos de la senal de audio como los respectivos conjuntos decodificables de datos de audio mediante, para cada uno de los N segmentos consecutivos, al menos aplicar el analisis de senal con el paso acortado, en donde dicho segmento temporalmente relacionado con dicha trama de video es uno de los N segmentos consecutivos; e

incluir unas tramas (421, 422, 423, 424) del flujo de bits que llevan los respectivos conjuntos decodificables de datos de audio asociados con los N segmentos consecutivos en el flujo de bits.

5. Un sistema (100) de procesamiento de audio para representar una senal (X) de audio mediante un flujo de bits (B) de audio, comprendiendo el sistema de procesamiento de audio:

una seccion (110) de codificacion configurada para codificar un segmento de la senal de audio como un conjunto decodificable de datos (D) de audio mediante al menos la realizacion de analisis de senal, sobre el segmento de la senal de audio, con un paso basico correspondiente a un primer numero de muestras de la senal de audio, correspondiendo el conjunto decodificable de datos de audio a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama;

una seccion de codificacion adicional configurada para, en respuesta al flujo de tramas de video que comprende una trama de video de un cierto tipo (I), codificar (260) un segmento de la senal de audio relacionado de manera temporal a dicha trama de video como un segundo conjunto decodificable de datos de audio mediante al menos la realizacion de analisis de senal, sobre el segmento de la senal de audio relacionada de manera temporal a dicha trama de video, con un paso acortado correspondiente al segundo numero de muestras de la senal de audio, correspondiendo el segundo conjunto decodificable de datos de audio a dicha segunda tasa de tramas y a dicho segundo numero de muestras de la senal de audio por trama.

una seccion (120) de reentramado configurada para:

partir el conjunto decodificable de datos de audio en N partes (Di, D², ..., Dⁿ), donde N > 2;

crear N tramas (Fi, F²,..., Fn) del flujo de bits que llevan las partes respectivas, en donde las N tramas del flujo de bits representan el conjunto decodificable de datos de audio y corresponden a un segundo numero de muestras de la senal de audio por trama (Fi, F²,..., Fn), en donde el primer numero de muestras por trama es N veces el segundo numero de muestras por trama, y en donde las tramas del flujo de bits que tienen una segunda tasa de tramas es N veces la primera tasa de tramas; y

emitir un flujo de bits segmentado en tramas del flujo de bits que incluyen las N tramas del flujo de bits anteriormente creadas, e incluir (270) una trama (321) del flujo de bits que lleve el segundo conjunto decodificable de datos de audio en el flujo de bits, siendo dicha trama del flujo de bits decodificable de manera independiente en un segmento, o en un subsegmento, de la senal de audio.

6. Un metodo (600) de reconstruccion de una senal (X) de audio representada mediante un flujo de bits (B) segmentado en tramas del flujo de bits, comprendiendo el metodo:

unir (620) los conjuntos de datos (D¹, D²,..., Dⁿ) de audio llevados por las N tramas (F¹, F²,..., Fⁿ) del flujo de bits respectivas en un conjunto decodificable de datos (D) de audio correspondiente a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama, donde N > 2, en donde las N tramas del flujo de bits representan el conjunto decodificable de datos de audio y corresponden a un segundo numero de muestras de la senal de audio por trama (F¹, F²,..., Fⁿ), en donde el primer numero de muestras por trama es N veces el segundo numero de muestras por trama, y en donde las tramas del flujo de bits tienen una segunda tasa de tramas que es N veces la primera tasa de tramas; y

decodificar (630) el conjunto decodificable de datos de audio en un segmento de la senal de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos, con un paso basico correspondiente al primer numero de muestras de la senal de audio,

en donde el metodo comprende ademas:

detectar (610) si una trama del flujo de bits lleva un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas; y

decodificar (640) el conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas en un segmento de la senal de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas, con un paso acortado correspondiente a un segundo numero de muestras, en donde el primer numero de muestras es N veces el segundo numero de muestras.

7. El metodo de la reivindicacion 6, en donde decodificar el conjunto decodificable de datos de audio incluye al menos uno del grupo que comprende:

realizar la reconstruccion parametrica, con dicho paso basico, del segmento de la senal de audio, en base a la senal de mezcla descendente y los parametros asociados obtenidos a partir del conjunto decodificable de datos de audio.

8. El metodo de la reivindicacion 6 o 7, en donde dichas N tramas del flujo de bits, a partir de las cuales los conjuntos de datos de audio se unen en el conjunto decodificable de datos de audio, son N tramas consecutivas del flujo de bits; y/o

en donde el flujo de bits se asocia con un flujo de tramas (V1, V2) de video que tengan una tasa de tramas que coincida con la segunda tasa de tramas.

9. El metodo de cualquiera de las reivindicaciones 6 - 8, que comprende ademas:

determinar, en base a los metadatas (|Ji, |J², Jn) llevados por al menos alguna de las tramas del flujo de bits en el flujo de bits, un grupo de tramas del flujo de bits a partir del cual unir los conjuntos incompletos de datos de audio en el conjunto decodificable de datos de audio.

10. El metodo de cualquiera de las reivindicaciones 6 - 9, en donde decodificar un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas incluye proporcionar un retraso tal que la decodificacion de un grupo de N tramas consecutivas del flujo de bits a la segunda tasa de tramas se completa en el mismo tiempo que si las tramas del flujo de bits de dicho grupo de N tramas del flujo de bits hubieran llevado cada una los conjuntos de datos de audio que requieren la union en un conjunto decodificable de datos de audio, y de manera opcional, en donde dicho retraso se proporciona mediante el almacenamiento de al menos un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas o mediante el almacenamiento de al menos un segmento de la senal de audio.

11. El metodo de cualquiera de las reivindicaciones 6 - 10, en donde decodificar un segmento de la senal de audio en base al conjunto decodificable de datos de audio correspondiente a la primera tasa de tramas comprende: recibir los coeficientes espectrales cuantificados correspondientes al conjunto decodificable de datos de audio correspondiente a la primera tasa de tramas;

realizar la cuantificacion inversa seguida por una transformacion de frecuencia a tiempo, a traves de la cual se obtiene una representacion de una senal de audio intermedia;

realizar al menos un paso de procesamiento en el dominio de la frecuencia sobre la senal de audio intermedia; y cambiar una tasa de muestreo de la senal de audio procesada a una frecuencia de muestreo objetivo, a traves de la cual se obtiene una representacion en el dominio del tiempo de la senal de audio reconstruida.

12. El metodo de la reivindicacion 11, que acepta flujos de bits asociados con al menos dos valores diferentes para la segunda tasa de tramas pero asociados con un valor comun para el primer numero de muestras por trama, difiriendo los valores respectivos de la segunda tasa de tramas en como mucho un 5%, en donde la transformacion de frecuencia la tiempo se realiza en un componente funcional configurado para emplear una transformada de ventana que tenga un valor predefinido comun para el paso basico como paso de transformada para dichos al menos dos valores diferentes para la segunda tasa de tramas.

13. Un sistema (500) de procesamiento de audio para reconstruir una senal de audio (X) representada mediante un flujo de bits (B) segmentada en tramas del flujo de bits, comprendiendo el sistema de procesamiento de audio: una memoria intermedia (510) configurada para unir los conjuntos de datos (D¹, D²,..., Dⁿ) de audio llevados por las respectivas N tramas (F¹, F²,..., Fn) del flujo de bits en un conjunto decodificable de datos (D) de audio correspondiente a una primera tasa de tramas y a un primer numero de muestras de la senal de audio por trama, donde N > 2, en donde las N tramas del flujo de bits representan el conjunto decodificable de datos de audio y corresponden a un segundo numero de muestras de la senal de audio por trama (F¹, F²,..., Fn), en donde el primer numero de muestras por trama es N veces el segundo numero de muestras por trama, y en donde las tramas del flujo de bits tienen una segunda tasa de tramas que es N veces la primera tasa de tramas; y

una seccion (520) de decodificacion configurada para decodificar el conjunto decodificable de datos de audio en un segmento de la senal de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos de audio, con un paso basico correspondiente al primer numero de muestras de la senal de audio, en donde el sistema de procesamiento de audio se configura para detectar si una trama del flujo de bits lleva un conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas, y para decodificar el conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas en un segmento de la senal de audio mediante al menos el empleo de sfntesis de senal, en base al conjunto decodificable de datos de audio correspondiente a la segunda tasa de tramas, con un paso acortado correspondiente a un segundo numero de muestras, en donde el primer numero de muestras en N veces el segundo numero de muestras.

14. Un producto de programa informatico que comprende un medio legible por un ordenador con instrucciones para realizar el metodo de cualquiera de las reivindicaciones 1 - 4 y 6 - 12.

15. El metodo de cualquiera de las reivindicaciones 1 - 4 y 6 - 12, el sistema de cualquiera de las reivindicaciones 5 y 13, o el producto de programa informatico de la reivindicacion 14, en donde N = 2 o N = 4.