ES2658942T3

ES2658942T3 - Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable

Info

Publication number: ES2658942T3
Application number: ES08828335.3T
Authority: ES
Inventors: Anisse Taleb
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2007-08-27
Filing date: 2008-08-25
Publication date: 2018-03-13
Anticipated expiration: 2028-08-25
Also published as: EP3550564B1; CN103594090A; DK3288028T3; WO2009029032A2; JP2010538314A; MX2010001763A; EP2186088A4; CA2698039A1; WO2009029032A3; CA2698039C; EP3288028B1; PT3550564T; EP3550564A1; ES2823560T3; ES2748843T3; JP5140730B2; BRPI0816136A2; US8392202B2; CN103594090B; DK2186088T3

Abstract

Un procedimiento para procesamiento de señal que actúa sobre tramas solapadas de una señal de audio en el dominio de tiempo, comprendiendo dicho procedimiento las etapas de: - llevar a cabo (S2) un repliegue en el dominio de tiempo (TDA) en base a una trama solapada, que tiene una longitud de 2N, para generar una correspondiente trama replegada en el dominio de tiempo (x) con una longitud N; dicho procedimiento, caracterizado por: - reordenar (13) la trama replegada en el dominio de tiempo (x) para generar una trama replegada en el dominio de tiempo reordenada (v); - llevar a cabo (S4) segmentación en tiempo, que comprende relleno de ceros de la trama replegada en el dominio de tiempo reordenada (v) de longitud N para producir una trama que tiene una longitud mayor que N, y dividir a continuación la trama producida resultante por lo menos en dos segmentos solapados que tienen cada uno una longitud igual o menor que N; y - llevar a cabo (S5) análisis espectral en base a dichos por lo menos dos segmentos solapados aplicando, en cada uno de dichos por lo menos dos segmentos solapados, una transformada de coseno discreta modificada (MDCT) al segmento para obtener, para cada segmento, un conjunto correspondiente de coeficientes representativos del contenido de frecuencias del segmento.

Description

imagen1

imagen2

imagen3

imagen4

imagen5

10

15

20

25

30

35

40

de salida de la transformada inversa yn. En principio, xn y yn podrían utilizar ventanas diferentes, pero por simplicidad se considera solamente el caso de ventanas idénticas.

Existen varias ventanas ortogonales y bi-ortogonales de propósito general. En el caso ortogonal, las condiciones de reconstrucción perfecta (PR) generalizadas se pueden reducir a restricciones Nyquist y de fase lineal sobre la ventana, es decir:

imagen6

Cualquier ventana que satisfaga las condiciones de reconstrucción perfecta (PR) puede ser utilizada para generar el banco de filtros. Sin embargo, para obtener una alta ganancia de codificación, la respuesta de frecuencia resultante del banco de filtros debería ser lo más selectiva posible.

La referencia [2] designa mediante MLT (Modulated Lapped Transform, transformada traslapada modulada) el banco de filtros MDCT que hace uso de la ventana seno, que se define como:

imagen7

Esta ventana particular, la denominada ventana seno, es la más popular en codificación de audio. Aparece, por ejemplo, en el banco de filtros híbridos MPEG-1 capa III (MP3), así como en MPEG-2/4 AAC.

Una de las propiedades atractivas que ha contribuido a la utilización generalizada de la MDCT para codificación de audio es la disponibilidad de algoritmos rápidos basados en FFT. Esto hace de la MDCT un banco de filtros viable para implementaciones en tiempo real.

Es bien sabido que la MDCT con una longitud de ventana de 2N se puede descomponer en dos fases en cascada. La primera fase consiste en la operación de repliegue en el dominio de tiempo (TDA) seguida por una segunda fase basada en la DCT de tipo IV, tal como se muestra en la figura 5.

La operación TDA está dada explícitamente por la siguiente operación matricial:

imagen8

donde xw indica la trama de entrada en el dominio de tiempo en ventana:

imagen9

las matrices IN y JN designan la identidad y las matrices de inversión temporal de orden N.

imagen10

Un primer aspecto de la invención se refiere al procesamiento de señal que actúa sobre tramas solapadas de una señal de entrada. Un concepto clave es utilizar una trama replegada en el dominio de tiempo como base para la segmentación en tiempo y el análisis espectral, y llevar a cabo la segmentación en tiempo en base a la trama replegada en el dominio de tiempo y el análisis espectral en base a los segmentos de tiempo resultantes. Los segmentos de tiempo, o segmentos para abreviar, se denominan asimismo subtramas. Esto es lo lógico dado que un segmento en una trama se puede denominar una subtrama. Las expresiones "segmento" y "subtrama" se utilizarán, en general, de manera intercambiable a lo largo de la descripción.

La figura 6 es un diagrama de flujo esquemático que muestra un ejemplo de un procedimiento para procesamiento de señal de acuerdo con una realización preferida a modo de ejemplo de la invención. Tal como se indica en la etapa S1, el procedimiento puede involucrar una etapa opcional de pre-procesamiento, tal como se explicará y ejemplificará más adelante. En la etapa S2, se lleva a cabo una operación de repliegue en el dominio de tiempo (TDA) en base a una seleccionada de las tramas solapadas para generar una denominada trama TDA correspondiente que puede, opcionalmente, ser procesada en una o varias fases, tal como se indica en S3, antes de que se lleve a cabo la segmentación en tiempo. En cualquier caso, la segmentación en tiempo se lleva a cabo en base a la trama replegada en el dominio de tiempo (que puede haber sido procesada) para generar por lo menos dos segmentos de tiempo, tal como se indica en la etapa S4. En la etapa S5, se ejecuta el denominado análisis

imagen11

10

15

20

25

30

35

40

45

50

tiempo reconstruida. Se puede hacer referencia, por ejemplo, a las operaciones generales de solapar-sumar de la figura 4B.

Preferentemente, el procesamiento de señal inverso incluye por lo menos una de síntesis de señal y descodificación de audio. El análisis espectral inverso se puede basar en cualquiera de una serie de diferentes transformadas inversas, preferentemente transformadas traslapadas. Por ejemplo, en aplicaciones de descodificación de audio, es beneficioso utilizar la transformada MDCT inversa.

A continuación se explica una visión general más detallada y una explicación de la cadena inversa de operaciones así como implementaciones preferidas.

La figura 8 es un diagrama de bloques esquemático de un dispositivo de acuerdo con otra realización preferida a modo de ejemplo de la invención. Además de los bloques básicos de la figura 7, el dispositivo de la figura 8 incluye además una o varias unidades de procesamiento, tales como la unidad de aplicación de función ventana 11 y la unidad de reordenamiento 13.

En el ejemplo de la figura 8, la unidad opcional de aplicación de la función ventana 11 lleva a cabo la aplicación de la función ventana en base a una de las tramas solapadas para generar una trama en ventana, que se envía a la unidad TDA 12 para el repliegue en el dominio de tiempo. Básicamente, la aplicación de la función ventana se puede llevar a cabo para mejorar las propiedades de selectividad en frecuencias de la transformada. La forma de la ventana se puede optimizar para satisfacer determinados criterios de selectividad en frecuencias, se pueden utilizar diversas técnicas de optimización y estas son bien conocidas por los expertos en la materia.

Para mantener una coherencia temporal completa de la señal de entrada, es beneficioso aplicar un reordenamiento del repliegue en el dominio de tiempo. Por esta razón, puede estar dispuesta una unidad de reordenamiento 13 para reordenar la trama replegada en el dominio de tiempo con el fin de generar una trama replegada en el dominio de tiempo reordenada, que se envía a la unidad de segmentación 14. De este modo, se puede llevar a cabo segmentación en base a la trama replegada en el dominio de tiempo reordenada. El analizador espectral 16 funciona preferentemente sobre los segmentos generados a partir de la unidad de segmentación en tiempo 14 para obtener un análisis espectral segmentado con una resolución temporal superior a la normal.

La figura 9 es un diagrama de bloques esquemático de un dispositivo de acuerdo con otra realización preferida a modo de ejemplo de la invención. El ejemplo de la figura 9 es similar al de la figura 8, excepto en que en la figura 9 se indica explícitamente que la segmentación en tiempo está basada en un conjunto de funciones ventana adecuadas, y que el análisis espectral está basado en la aplicación de transformada sobre segmentos de la trama replegada en el dominio de tiempo reordenada.

En un ejemplo particular, la segmentación involucra añadir relleno de ceros a la trama replegada en el dominio de tiempo reordenada y dividir la señal resultante en segmentos relativamente cortos y preferentemente solapados.

Preferentemente, el análisis espectral se basa en aplicar una transformada traslapada, tal como MDCT o MLT, a cada uno de dichos segmentos solapados.

A continuación se describirá la invención haciendo referencia a otras realizaciones ejemplares y no limitativas.

Tal como se ha mencionado, la invención se basa en el concepto de utilizar la señal replegada en el tiempo (salida de la operación de repliegue en el dominio de tiempo) como una nueva trama de señal en la que se aplica el análisis espectral. Al cambiar la resolución temporal de la transformada que se aplica después del repliegue temporal para obtener el coeficiente (por ejemplo, MDCT), por ejemplo el DCTIV, la invención permite obtener un análisis espectral sobre segmentos de tiempo arbitrarios con muy poca sobrecarga en complejidad, así como instantáneamente, es decir, sin retardo adicional.

Para obtener un análisis de señal con una resolución temporal predeterminada es suficiente aplicar directamente las transformadas ortogonales de longitudes apropiadas preferentemente sobre segmentos solapados de la señal de entrada en ventana, replegada temporalmente.

La salida de cada una de esas transformadas de menor longitud conducirá a un conjunto de coeficientes representativo del contenido de frecuencia de cada segmento en cuestión. El conjunto de coeficientes para todos los segmentos proporcionará instantáneamente un mosaico de tiempo-frecuencia arbitrario de la trama de señal original.

Esta descomposición instantánea puede ser utilizada para atenuar el efecto de pre-eco, por ejemplo en el caso de transitorios, así como para proporcionar una representación eficiente de la señal que permita una codificación eficiente en velocidad binaria, de la trama en cuestión.

Los segmentos solapados de la señal en ventana replegada en tiempo no tienen que tener la misma longitud. Debido a la correspondencia temporal entre segmentos en el dominio replegado en tiempo y el dominio de tiempo normal, el nivel deseado del análisis de resolución temporal determinará el número de segmentos así como la longitud de cada uno de los segmentos sobre los que se lleva a cabo el análisis de frecuencia.

10

15

20

25

30

35

40

45

50

55

La mejor aplicación de la invención es junto con un detector de transitorios y/o en el contexto de codificación mediante medir la ganancia de codificación obtenida para un conjunto dado de segmentaciones en tiempo, incluyendo esto estimaciones de ganancia de codificación tanto en lazo abierto como en lazo cerrado para cada prueba de segmentación en tiempo.

La invención es útil, por ejemplo, junto con el estándar ITU-T G.722.1, y especialmente para el estándar "ITU-T

G.722.1 fullband extension for 20 kHz full-band audio", ahora renombrado el estándar ITU-T G.719, tanto para codificación como para descodificación, tal como se ejemplificará más adelante.

La invención permite una conmutación instantánea de la resolución temporal de la transformada global (por ejemplo, en base a MDCT). Por lo tanto, a diferencia de la conmutación entre ventanas, la invención no requiere ningún retardo.

La invención tiene una complejidad muy baja y no se requiere ningún banco de filtros adicional. La invención utiliza preferentemente la misma transformada que la MDCT, es decir DCT de tipo IV. La invención gestiona de manera eficiente la supresión de artefactos de pre-eco mediante conmutar instantáneamente a una mayor resolución temporal.

La invención permitiría asimismo construir esquemas de codificación de lazo cerrado/abierto basados en segmentaciones en tiempo adaptativas de señal.

Para una mejor comprensión de la invención, se describirán a continuación ejemplos más detallados de operaciones individuales (posiblemente opcionales) de procesamiento de señal así como otros ejemplos de implementaciones globales.

Si existen requisitos estrictos sobre coherencia temporal, se recomienda el denominado reordenamiento.

Reordenamiento TDA

Para mantener la coherencia temporal de la señal de entrada, la salida de la operación de repliegue en el dominio de tiempo tiene que ser reordenada antes de su posterior procesamiento. La operación de ordenamiento es necesaria, sin ordenamiento las funciones base del banco de filtros resultante tendrán respuestas incoherentes en tiempo y frecuencia. Se muestra un ejemplo de operación de reordenamiento en la figura 10, e implica intercambiar las mitades superior e inferior de la señal de salida TDA x̃(n). Este reordenamiento es solamente conceptual y en realidad no hay cálculos involucrados. La invención no se limita al ejemplo mostrado en la figura 10. Por supuesto, se pueden implementar otros tipos de reordenamiento.

Realización simple -mejora de la resolución temporal

Una primera realización simple muestra cómo duplicar la resolución temporal según la presente invención. Por consiguiente, se aplica un análisis de tiempo-frecuencia v(n), para duplicar la resolución temporal, v(n) se divide en dos segmentos preferentemente en solapamiento. Dado que v(n) es una señal limitada en el tiempo, se añade una cantidad de relleno de ceros al comienzo y al final de v(n). Preferentemente, la señal de entrada es una señal en ventana replegada en el tiempo reordenada, de longitud N. La longitud del relleno de ceros depende de la longitud de la señal v(n) y de la cantidad deseada de segmentos, en este caso, dado que se desean dos segmentos solapados, la longitud del relleno de ceros es igual a la cuarta parte de la longitud de v(n) y se añaden al inicio y al final de v(n). Utilizar dicho relleno de ceros conduce a dos segmentos solapados al 50 % de la misma longitud que la longitud de v(n).

Preferentemente, los segmentos solapados resultantes son sometidos a función ventana, tal como se ejemplifica en la figura 11. Se debe observar que aunque la forma de la ventana se puede optimizar hasta cierto punto para la aplicación deseada, ésta tiene que observar los requisitos de reconstrucción perfecta. Esto se puede ver en la figura 11, donde la mitad derecha de la ventana del segundo segmento tiene un valor 1 para la parte que aplica a la señal v(n) y el valor 0 para el relleno de ceros añadido.

Cada uno de los segmentos obtenidos tiene una longitud de exactamente N. Aplicar la MDCT sobre cada segmento conduce a N/2 coeficientes; es decir, un total de N coeficientes, por lo que el banco de filtros resultante está muestreado críticamente, ver la figura 11. Debido a las limitaciones sobre las formas de las ventanas, la operación es invertible y aplicar las operaciones inversas sobre los dos conjuntos de coeficientes MDCT (coeficientes MDCT de los segmentos 1 y 2) conducirá de nuevo a la señal v(n).

Para esta realización, las funciones base del banco de filtros resultantes tienen una localización temporal mejorada pero pierden en la localización en frecuencia, lo que es una consecuencia bien conocida del principio de incertidumbre tiempo-frecuencia.

La figura 12 muestra las dos funciones básicas que están relacionadas con la frecuencia normalizada a 0,25. Claramente, la dispersión temporal se limita bastante, si bien se observa asimismo que existe una propagación de la dispersión temporal que se debe al solapamiento de las dos secciones de la señal replegado en el tiempo. Esta propagación en el dominio de tiempo es una consecuencia de la cancelación del repliegue en el dominio de tiempo y

10

15

20

25

30

35

40

45

50

55

estaría siempre presente. Sin embargo, se puede atenuar mediante una elección adecuada (optimización numérica) de las funciones ventana. La figura 12 muestra asimismo las respuestas de frecuencia. A modo de comparación, las funciones base MDCT originales se muestran en la figura 13, si bien éstas corresponden a un muestreo mucho más estrecho del dominio de frecuencia, y su extensión temporal es mucho mayor. La figura 13 muestra las funciones base originales correspondientes al banco de filtros MLT (MDCT + ventana seno).

Resoluciones temporales superiores

Se puede obtener una mayor resolución temporal dividiendo en más segmentos la señal replegada en tiempo reordenada. Las figuras 14 y 15 muestran cómo se consigue esto para cuatro y ocho segmentos, respectivamente. La figura 14 muestra una resolución temporal superior mediante división en cuatro segmentos, y la figura 15 muestra una resolución temporal superior mediante división en ocho segmentos. Tal como se comprenderá, se puede utilizar cualquier número adecuado de segmentos de tiempo, dependiendo de la resolución temporal deseada.

En general, la unidad de segmentación en tiempo está configurada para generar un número seleccionable de N de segmentos en base a una trama replegada en el dominio de tiempo, donde N es un entero igual o mayor que 2.

Para el caso de cuatro segmentos, la figura 16 muestra una realización de la transformada global resultante. La aplicación de la función ventana sobre una trama de entrada se lleva a cabo en una unidad 11 de aplicación de la función ventana, el repliegue en tiempo se lleva a cabo en una unidad 12 de repliegue en el dominio de tiempo, y el reordenamiento opcional se lleva a cabo en una unidad de reordenamiento 13. A continuación se realiza un análisis espectral segmentado aplicando la post-función ventana sobre cuatro segmentos utilizando unidades de postfunción ventana 14 y transformadas segmentadas mediante las unidades de transformada 16. Preferentemente, la transformada segmentada global se basa en MDCT segmentada, utilizando repliegue temporal y DCTIV para cada segmento.

Mosaico no uniforme en el dominio de tiempo

Con esta invención es posible asimismo obtener segmentaciones en tiempo no uniformes, según el mismo concepto. Existen por lo menos dos posibles maneras de llevar a cabo dicha operación. Un primer procedimiento está basado en una segmentación en tiempo no uniforme de la señal replegada en el tiempo reordenada. De este modo, las ventanas utilizadas para segmentar la señal tienen longitudes diferentes.

Un segundo procedimiento está basado en un enfoque jerárquico. La idea es aplicar en primer lugar segmentación en tiempo gruesa y a continuación volver a aplicar la invención a los segmentos gruesos resultantes hasta que se obtiene el mosaico deseado.

La figura 17 muestra un ejemplo de cómo se puede implementar este segundo procedimiento. Para este ejemplo, en primer lugar la señal se divide en dos segmentos de tiempo según la presente invención; a continuación uno de los segmentos se vuelve a dividir en dos segmentos. Un ejemplo de una transformada adecuada es la transformada MDCT, utilizando repliegue en tiempo y DCTIV para cada segmento considerado.

Funcionamiento con detección de transitorios

La invención puede ser utilizada para atenuar los artefactos de pre-eco y es en este caso donde se asocia mejor con un detector de transitorios, tal como se ejemplifica en la figura 18. Al detectar un transitorio, el detector de transitorios activaría un indicador (IsTransient (es transitorio)). El indicador del detector de transitorios utilizaría a continuación el mecanismo de conmutación 17 para conmutar instantáneamente de un proceso normal de resolución de todas las frecuencias (análisis espectral no segmentado) a una resolución temporal superior (análisis espectral segmentado), tal como se representa en la figura 18. Con esta realización es posible entonces analizar señales transitorias con una resolución temporal mucho más fina, eliminando por lo tanto los molestos artefactos de pre-eco.

Operaciones de codificación en lazo cerrado/lazo cerrado.

La invención se puede utilizar asimismo como un medio para encontrar el mosaico de tiempo-frecuencia óptimo para el análisis de una señal antes de la codificación. Se pueden utilizar dos modos como ejemplo, lazo cerrado y lazo abierto. En un funcionamiento en lazo abierto, un dispositivo externo decidiría el mejor mosaico (en términos de eficiencia de codificación) de tiempo-frecuencia para una trama de señal determinada, y utilizaría la invención para analizar la señal según el mosaico óptimo. En un funcionamiento en lazo cerrado, se utiliza un conjunto de mosaicos predefinidos, se analiza la señal para cada uno de estos mosaicos y ésta se codifica según el mosaico. Para cada mosaico se calcula una medida de la fidelidad. Se selecciona el mosaico que conduce a la mejor fidelidad. El mosaico seleccionado, junto con los coeficientes codificados correspondientes a este mosaico, se transmiten al descodificador.

Tal como se ha mencionado, los principios y conceptos descritos anteriormente para el procedimiento directo permiten a un experto en la materia realizar una cadena inversa de operaciones en un procedimiento inverso.

La figura 19 es un diagrama de bloques que muestra un ejemplo básico de un dispositivo de procesamiento de señal para funcionamiento basado en coeficientes espectrales representativos de una señal en el dominio de tiempo. El

imagen12

10

15

20

25

30

35

40

45

Se puede utilizar un índice de ajuste del nivel de ruido para ajustar el nivel de los coeficientes regenerados. Los coeficientes espectrales no codificados de alta frecuencia son regenerados preferentemente utilizando extensión del ancho de banda.

Los coeficientes espectrales descodificados y los coeficientes espectrales regenerados se mezclan, y conducen a un espectro normalizado. Se aplica la envolvente espectral descodificada, conduciendo un espectro de banda completa descodificado.

Finalmente, se aplica la transformada inversa para recuperar la señal descodificada en el dominio de tiempo. Esto se realiza preferentemente aplicando la transformada de coseno discreta modificada inversa (IMDCT) para modos estacionarios, o bien la inversa de la transformada de mayor resolución temporal para el modo transitorio.

El algoritmo adaptado para extensión de banda completa está basado en tecnología de codificación de transformada adaptativa. Funciona en tramas de 20 ms de audio de entrada y de salida. Debido a que la ventana de transformada (longitud de función base) es de 40 ms y se utiliza un solape del 50 por ciento entre sucesivas tramas de entrada y salida, el tamaño de la memoria tampón anticipada es de 20 ms. Por lo tanto, el retardo algorítmico global es de 40 ms, que es la suma del tamaño de la trama más el tamaño anticipado. Todos los demás retardos adicionales experimentados en la utilización de un códec de banda completa G.722.1 son debidos a retardos computacionales y/o de transmisión de la red.

La figura 22 es un diagrama de bloques esquemático de un ejemplo particular de un transformador inverso y la implementación asociada para segmentación en tiempo inversa y reordenamiento opcional de acuerdo con una realización preferida de la invención. El transformador inverso está basado en DCTimagen13IV en cascada con repliegue

temporal inverso. Cuatro denominados sub-espectros

donde l = 0, 1, 2, 3, son procesados por el transformador inverso, y cada sub-espectro es, en primer lugar, sometido a transformada inversa por medio de un respectivo DCTIV en el dominio replegado del dominio de tiempo, y a continuación sometidos a repliegue temporal inverso, es decir sometidos a repliegue inverso en el dominio de tiempo, para proporcionar una transformada de tipo imagen14

MDCT inversa global para cada sub-espectro. La longitud de la señal resultante

para cada índice de subtrama l es igual al doble de la longitud del espectro de entrada, es decir L/2.

Las señales sometidas a repliegue inverso en el dominio de tiempo resultantes para cada subtrama l son sometidas a función ventana utilizando la misma configuración de ventanas que las del codificador. Las señales en ventana resultantes se suman solapadas. Se debe observar que la ventana para la primera m = 0 y la última m = 3 subtramas es cero. Esto se debe a que se utiliza relleno de ceros en el codificador. Estos dos bordes de trama tienen que ser calculados y en la práctica se desechan. La señal resultante de las operaciones de sumar-solapar de todas las subtramas vq(n) se reordena utilizando la operación inversa llevada a cabo en el codificador, lo que conduce a la señal x̃q(n), n=0,...,L-1.

La salida de la transformada inversa, en modo estacionario o transitorio, es de longitud L. Antes de someter la señal a una función ventana (no mostrada en la figura 22) es primero sometida a repliegue inverso en el dominio de tiempo (ITDA, inverse time domain realiased), conduciendo a una señal de longitud 2L, según:

imagen15

La señal resultante se somete a función ventana para cada trama r, según:

imagen16

donde h(n) es una función ventana.

Finalmente, la señal de banda completa de salida se construye sumando con solapamiento las señales x̃(r)(n) para dos tramas consecutivas:

imagen17

Las realizaciones descritas anteriormente se proporcionan tan solo como ejemplos, y se deberá entender que la presente invención no se limita a las mismas.

Referencias

[1] B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen" Frequenz, páginas 252-256, 1989.

13

imagen18

Claims

imagen1