ES2935337T3

ES2935337T3 - Remuestreo de una señal de audio para una codificación/decodificación de bajo retardo

Info

Publication number: ES2935337T3
Application number: ES17206561T
Authority: ES
Inventors: Balazs Kovesi; Stéphane Ragot
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2013-09-30
Filing date: 2014-09-26
Publication date: 2023-03-06
Anticipated expiration: 2034-09-26
Also published as: SI3053163T1; PT3053163T; US20170372714A1; KR20210142765A; FI3330964T3; RS63937B1; BR122017018551B1; FI3053163T3; KR102505502B1; KR20170103027A; JP6559658B2; HRP20230094T1; FR3011408A1; PT3330964T; JP2016541004A; JP6559741B2; WO2015044609A1; SI3330964T1; CN105684078B; MX2016003902A

Abstract

La invención se refiere a un método para el remuestreo de una señal de audiofrecuencia en una codificación o decodificación de una señal de audiofrecuencia, caracterizado porque el método comprende los siguientes pasos por bloque de señal a remuestrear: - determinación por predicción lineal adaptativa de un número de muestras de señales futuras, estando definido este número como una función de un retardo de remuestreo elegido; - Construcción de un vector de soporte de remuestreo a partir de al menos muestras del bloque de señal actual y muestras de señal futuras determinadas; - aplicación de un filtro de remuestreo sobre las muestras del vector de soporte de remuestreo, comprendiendo el método además los siguientes pasos: - conmutación entre dos modos de codificación, - remuestreo del bloque actual de la señal debido a la conmutación. La invención también se refiere a un dispositivo de remuestreo que implementa el método descrito, (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Remuestreo de una señal de audio para una codificación/decodificación de bajo retardo

La presente invención hace referencia al tratamiento de una señal de audiofrecuencia para su transmisión o su almacenamiento. De manera más particular, la invención hace referencia a un cambio de frecuencia de muestreo durante una codificación o una decodificación de la señal de audiofrecuencia.

Existen numerosas técnicas para comprimir (con pérdida) una señal de audiofrecuencia, como la voz o la música. La codificación se puede efectuar directamente a la frecuencia de muestreo de la señal de entrada, como, por ejemplo, en las recomendaciones IUT-T G.711 o G.729 donde la señal de entrada se muestrea a 8 kHz y el codificador y decodificador funcionan a esta misma frecuencia.

Sin embargo, algunos métodos de codificación utilizan un cambio de frecuencia de muestreo, por ejemplo, para reducir la complejidad de la codificación, adaptar la codificación en función de las diferentes subbandas de frecuencia a codificar o convertir la señal de entrada para que corresponda a una frecuencia de muestreo interna predefinida del codificador.

En la codificación en subbandas definida en la recomendación UIT-T G.722, la señal de entrada a 16 kHz se divide en 2 subbandas (muestreadas a 8 kHz) que se codifican por separado mediante un codificador de tipo ADPCM (para "modulación por impulso y codificación diferencial adaptativa", ADPCM en inglés). Esta división en 2 subbandas se efectúa mediante un banco de filtros espejo en forma cuadrática con respuesta de impulso finita (FIR en inglés para "Finite Impulse Response"), de orden 23 que ocasiona en teoría un retardo de análisis-síntesis (codificador+decodificador) de 23 muestras a 16 ms; este banco de filtro se implementa con una realización polifásica. La división en dos subbandas en G.722 permite asignar de forma predeterminada diferentes tasas a las dos subbandas en función de su importancia perceptiva a priori y también reducir la complejidad total de codificación ejecutando dos codificadores de tipo ADPCM a una frecuencia más escasa. Por el contrario, induce un retardo algorítmico con respecto a una codificación ADPCM directa.

Se conocen diferentes métodos de cambio de frecuencia de muestreo, también llamado remuestreo, de una señal digital, utilizando, por ejemplo y de forma no exhaustiva, un filtro FIR (para "Finite Impulse Response" en inglés o respuesta de impulso finita en francés), un filtro IIR (para "Infinite Impulse response" en inglés o respuesta de impulso infinita en francés) o una interpolación polinomial (de los cuales los splines). Una revisión de los métodos convencionales de remuestreo se encuentra, por ejemplo, en el artículo R.W. Schafer, L.R. Rabiner, A Digital Signal Processing Approach to Interpolation (Un enfoque de procesamiento de señales digitales para la interpolación), Actas del IEEE, vol. 6 l, n.° 6, junio de 1973, pág. 692 - 702

La ventaja del filtro FIR (simétrico) radica en su implementación simplificada y - bajo ciertas condiciones - en la posibilidad de asegurar una fase lineal. Un filtrado de fase lineal permite conservar la forma de onda de la señal de entrada, pero también puede acompañarse de una propagación temporal ("ringing") que puede crear artefactos de tipo preecos en transitorios. Este método ocasiona un retardo (que es función de la longitud de la respuesta de impulso), en general, del orden de 1 a algunos ms para asegurar características de filtrado adecuadas (ondulación en la banda de paso, nivel de rechazo suficiente para suprimir el repliegue o las imágenes espectrales...).

La alternativa de un remuestreo mediante filtro IIR conduce, en general, a una fase no lineal, a menos que la fase se compense mediante un estadio adicional de filtrado de paso total, como se describe, por ejemplo, en el artículo P.A. Regalia, S.K. Mitra, P.P. Vaidyanathan, The Digital All-Pass Filter: A Versatile Signal Processing Building Block (El filtro de paso total digital: Un bloque de construcción de procesamiento de señal versátil), Actas del IEEE, vol. 76, n.° 1, ener. 1988, con un ejemplo de realización en la rutina 'iirgrpdelay' del software MATLAB; un filtro IIR es, en general, de orden menos elevado, pero más complejo de implementar en punto fijo, pudiendo los estados (o memorias) del filtro alcanzar valores de gran dinámica para la parte recursiva y este problema se amplifica si se utiliza una compensación de fase mediante filtrado de paso total.

Los documentos US2013/096913A1 y WO2012/103686A1 divulgan codificadores de voz de codificación predictiva lineal.

La figura 1 ilustra un ejemplo de submuestreo por una relación de 4/5 con un filtro FIR de longitud de 2*60+1=121 coeficientes a 64 kHz para pasar de 16 kHz a 12,8 kHz. Las abscisas representan el tiempo (traído en ms para representar las señales sincronizadas a diferentes frecuencias) y las ordenadas las amplitudes. Los cuadrados en la parte alta representan las posiciones temporales de las muestras de la señal de entrada a 16 kHz; en el presente documento, se supone que estas muestras corresponden al final de una trama de 20 ms. Las líneas verticales continuas marcan los instantes de muestreo correspondientes a 16 kHz. En la parte baja de la figura, las líneas verticales punteadas marcan los instantes de muestreo correspondientes a 12,8 kHz y las estrellas simbolizan las muestras de salida a 12,8 kHz. Se ha representado, igualmente, la respuesta de impulso (simétrica) de 121 coeficientes de un filtro FIR a 64 kHz, esta respuesta se posiciona para calcular la última muestra de la trama actual a 12,8 kHz (la posición del máximo de la respuesta de impulso se alinea con esta muestra). Los círculos muestran los valores utilizados (correspondientes al momento de muestreo de entrada) en una representación polifásica; para obtener la muestra de salida, estos valores se multiplican por la muestra de entrada correspondiente y se suman estos resultados. Se tiene en cuenta en esta figura que 12 muestras (hasta el final de la trama de entrada) a 12,8 kHz no se pueden calcular exactamente, porque las muestras de entrada después del final de la trama actual (comienzo de la trama siguiente) todavía no se conocen; el retardo de submuestreo en las condiciones de la figura 1 es de 12 muestras, esto es, 12/12,8 = 0,9375 ms.

Existen técnicas de reducción del retardo introducido por los cambios de frecuencia de muestreo de tipo FIR.

En el estándar 3GPP AMR-WB (también definido como la recomendación UIT-T G.722.2), la señal de entrada muestreada a 16 kHz se submuestrea a una frecuencia interna de 12,8 kHz antes de aplicar una codificación de tipo CELP; la señal decodificada a 12,8 kHz se remuestrea, a continuación, a 16 kHz y se combina con una señal de banda alta.

La ventaja de pasar por una frecuencia intermedia de 12,8 kHz es que permite reducir la complejidad de la codificación CELP y también tener una longitud de trama múltiple de una potencia de 2, lo que facilita la codificación de ciertos parámetros CELP. El método utilizado es un remuestreo convencional de un factor de 4/5 mediante filtro FIR (de 121 coeficientes a 64 kHz), con una realización polifásica para minimizar la complejidad.

En teoría, este remuestreo en el codificador y en el decodificador AMR-WB debería ocasionar un retardo de una manera similar al tratamiento representado en la figura 1. En el caso del códec AMR-WB, con un filtro FIR de 121 coeficientes, el retardo total, en teoría, debería ser de 2x60 muestras a 64 kHz, esto es, 2x15 muestras a 16 kHz o 1,875 ms; de hecho, se implementa una técnica específica en el codificador AMR-WB para eliminar (compensar) el retardo asociado en la parte de codificador únicamente y, por lo tanto, dividir el retardo efectivo por 2.

Este método de compensación se describe en el estándar 3GPP TS 26.190, Cláusula 5.1 y en la recomendación UIT-T G.722.2, Cláusula 5.1. El método de compensación de retardo de filtrado FIR consiste en añadir, para cada nueva trama muestreada a 16 kHz, a convertir a 12,8 kHz, un número predeterminado de ceros al final de la trama actual. Estos ceros se definen a la frecuencia de muestreo de entrada y su número corresponde al retardo del filtro FIR de remuestreo a esta frecuencia (esto es, 15 ceros añadidos a 16 kHz). El remuestreo se implementa por trama de 20 ms (320 muestras). Por lo tanto, el remuestreo en el codificador AMR-WB es equivalente a completar la trama de entrada de 320 muestras a la izquierda (hacia el pasado) con 30 muestras del final de trama anterior (memoria de remuestreo) y a la derecha con 15 ceros para formar un vector de 30+320+15=365 muestras, que se remuestrea, a continuación, con un factor de 4/5. El filtro FIR puede, de este modo, implementarse con una fase nula, por lo tanto, sin retardo, puesto que se añade una señal futura nula. En teoría, el remuestreo FIR por un factor de 4/5 se efectúa según las siguientes etapas:

- Sobremuestreo por 4 (de 16 kHz a 64 kHz) mediante añadidura de 3 muestras a 0 después de cada muestra de entrada

- Filtrado de paso bajo de función de transferencia Hdecim(z) de tipo FIR simétrico de orden 120 a 64 kHz

- Submuestreo por 5 (de 64 kHz a 12,8 kHz) no conservando más que una muestra de cinco de la señal filtrada de paso bajo.

En la práctica, este remuestreo se implementa de forma equivalente según una realización optimizada polifásica sin calcular la señal intermedia a 64 kHz y sin concatenar la señal a convertir con ceros (véase el archivo "decim54.c" del código fuente del códec AMR-WB); el filtrado FIR para cada "fase" es equivalente a un filtro FIR de orden 24 a 12,8 kHz con un retardo de 12 muestras a 12,8 kHz, esto es, 0,9375 ms.

El resultado del remuestreo FIR de cada trama de 20 ms de 16 kHz a 12,8 kHz es idéntico a un remuestreo efectuado sobre la señal de entrada "completa" (no recortada en tramas), salvo para las últimas 12 muestras de cada trama resultante a 12,8 kHz que incluyen un error debido a la utilización de un bloque de ceros como señal futura en lugar de la señal futura "verdadera" que no está disponible más que en la trama siguiente. De hecho, los ceros introducidos simulan el caso de una señal de entrada nula en la trama siguiente.

Este tratamiento se ilustra al final de una trama de 20 ms en la figura 2, que representa las últimas muestras de entrada a 16 kHz mediante los cuadrados en la parte alta; las líneas verticales marcan los momentos de muestreo correspondientes a 16 kHz. En la parte baja de la figura, las estrellas simbolizan las muestras de salida a 12,8 kHz que se pueden obtener mediante submuestreo convencional con retardo de 12 muestras. A continuación, los triángulos de la parte baja corresponden a las 12 muestras a 12,8 kHz obtenidas utilizando al menos una muestra de valor nulo añadida al final de la trama para poder continuar el filtrado y reducir el retardo. Estas muestras están numeradas de n.° 1 a n.° 12 en función de su posición con respecto al final de la salida obtenida con un filtrado convencional. Se ha representado, igualmente, la respuesta de impulso del filtro de 64 kHz utilizado en la posición correspondiente a la última muestra de salida a 12,8 kHz (el máximo de la respuesta de impulso está alineado con esta muestra). Los círculos muestran los valores utilizados (correspondientes al momento de muestreo de entrada) en la representación polifásica; para obtener la muestra de salida, estos valores se multiplican por la muestra de entrada correspondiente o por 0 para los valores después del final de la trama y se suman estos resultados. Se observa ahí que para esta última muestra casi la mitad de las muestras utilizadas de la respuesta de impulso se multiplica por los ceros añadidos, lo que introduce, por lo tanto, un error de estimación importante. También se comprende que el error de las primeras muestras generadas después del filtrado convencional (es decir, con únicamente la señal de entrada verdadera) es escaso (el peso de la respuesta de impulso en su extremo es escaso) y, cuanto más se aleja del filtrado convencional, mayor es el error (siendo, entonces, el peso de la respuesta de impulso más importante). Esto se podrá observar en los resultados de las figuras 7.

El método de compensación de retardo utilizado en el códec AMR-WB, donde se añaden ceros al final de cada bloque (o trama) de 20 ms a remuestrear, permite eliminar el retardo de remuestreo en el codificador, pero no es satisfactorio, en general, cuando los valores generados al final de la trama actual (con ceros añadidos a la entrada) se codifican directamente y no se reemplazan por los valores verdaderos una vez conocida la señal de entrada de la siguiente trama. De hecho, estos errores regulares al final de cada trama generan discontinuidades periódicas durante el paso a la señal de salida verdadera al comienzo de trama siguiente. Estas discontinuidades son, a menudo, audibles y muy entorpecedoras. Es por esto por lo que la compensación de retardo no se aplica más que al codificador y únicamente en la parte de señal futura denominada "lookahead" en inglés y no al decodificador AMR-WB.

De hecho, en el codificador AMR-WB, cada nueva trama de entrada de 20 ms a 16 kHz corresponde a un segmento temporal correspondiente a los últimos 15 ms de la trama actual a codificar por modelo ACELP y 5 ms de señal futura ("lookahead" en inglés). Los primeros 5 ms de la trama actual a codificar ya se han recibido memorizados como "lookahead" del segmento anterior. Las últimas 12 muestras obtenidas después de remuestreo de 16 a 12,8 kHz en el codificador corresponden, por lo tanto, a las últimas muestras de la señal futura de 5 ms a 12,8 kHz. En lo sucesivo, la trama actual de 20 ms a 12,8 kHz (esto es, 256 muestras) y los 5 ms de señal futura (esto es, 64 muestras) se completan con 5 ms de señal original pasada ("loopback" en inglés) para formar el búfer de análisis LPC de 384 muestras (30 ms) que se pondera mediante una ventana de análisis LPC de misma longitud.

Las últimas 12 muestras del "lookahead" a 12,8 kHz que incluyen un error de remuestreo tienen un peso relativo muy escaso en la ventana que sirve para la predicción lineal (LPC) y a fortiori no tienen impacto más que en la envolvente LPC estimada y este impacto es muy insignificante. Es importante señalar que las 12 muestras erróneas se reemplazan por los valores "exactos" de remuestreo en la siguiente trama, por lo tanto, el error no está presente más que temporalmente en la trama actual para la señal futura (lookahead) y no afecta más que al análisis LPC. De este modo, la técnica de compensación de retardo del codificador AMR-WB no afecta a la codificación de la forma de onda de la señal en la trama actual en el códec AMR-WB. Este modo se llama en lo sucesivo: "utilización por trama con señal futura". Las muestras generadas, de este modo, se utilizan únicamente de forma temporal para cálculos intermedios (análisis LPC) y se reemplazan por las muestras correctamente remuestreadas cuando se conoce la señal de la siguiente trama. Se tiene en cuenta que en esta configuración, para una trama de salida de longitud lg_out para cada trama, se genera lg_out 12 muestras por el remuestreo.

Esta técnica de compensación de retardo utilizada en el codificador AMR-WB no se aplica al decodificador AMR-WB.

De este modo, el códec (codificador+decodificador) tiene un retardo algorítmico total de 25,9375 ms debido al codificador (20 ms de trama 5 ms de lookahead) y al remuestreo en el decodificador (0,9375 ms).

La técnica de compensación de retardo del codificador AMR-WB no se podría utilizar para reducir el retardo de filtrado QMF del códec G.722, ya que degradaría fuertemente la calidad de la señal codificada. En efecto, en el códec G.722, las muestras resultantes del filtrado (las señales en banda baja y banda alta) constituyen directamente las señales de entrada de los 2 subcódecs ADPCM que operan sin "lookahead" y que no permiten corregir estos valores de una trama a la otra. En lo sucesivo, se llamará a este modo: "utilización de trama por trama continua".

La presente invención viene a mejorar la situación del estado de la técnica.

Propone, para ello, un procedimiento de remuestreo de una señal de audiofrecuencia en una codificación o decodificación de señal de audiofrecuencia. El procedimiento es tal que incluye las siguientes etapas por bloque de señal a remuestrear:

- determinación mediante predicción lineal adaptativa de un número de muestras de señal futura, estando este número definido en función de un retardo de remuestreo elegido;

- construcción de un vector de soporte de remuestreo a partir al menos de las muestras del bloque actual y de las muestras determinadas de señal futura;

- aplicación de un filtro de remuestreo sobre las muestras del vector de soporte de remuestreo, comprendiendo el procedimiento, además, las siguientes etapas:

- conmutación entre dos modos de codificación,

- remuestrear el bloque actual de la señal por el hecho de la conmutación.

De este modo, el remuestreo según la invención permite disminuir el retardo de remuestreo mediante filtro (por bloque o por trama), conservando al mismo tiempo un rendimiento muy cercano a un remuestreo continuo. La predicción de la señal futura en cada bloque o trama permite tener muestras más cercanas a las muestras reales que si estas muestras futuras estuvieran fijadas en un valor nulo. Por lo tanto, el rendimiento del proceso de remuestreo para estas últimas muestras es mejor.

Este procedimiento de remuestreo es, por lo demás, adaptativo, puesto que es posible adaptar el número de muestras de señal futura a tener en cuenta en función del retardo deseado. Para un remuestreo sin retardo, el número de muestras de señal futura a determinar corresponde, entonces, al retardo del filtro de remuestreo. Si se tolera un retardo más escaso que el retardo del filtro, entonces, el número de muestras de señal futura puede corresponder solamente a una parte del retardo del filtro de remuestreo.

Efectuándose la adaptación del retardo de remuestreo por bloque de señal, entonces, es posible conmutar fácilmente, de un bloque a otro o de una trama a otra, diferentes configuraciones de remuestreo (de las cuales el filtro FIR utilizado para este fin) o conmutar una codificación directa de una trama dada a una cierta frecuencia de muestreo hacia una codificación de la siguiente trama con remuestreo o viceversa.

Los diferentes modos particulares de realización mencionados a continuación pueden añadirse independientemente o en combinación unos con los otros, a las etapas del procedimiento de remuestreo definido más arriba.

En un modo de realización sencillo, la etapa de determinación mediante predicción lineal adaptativa comprende las siguientes etapas:

- obtención de coeficientes de un filtro de predicción lineal de orden predeterminado;

- obtención de las muestras de señal futura mediante aplicación del filtro de predicción obtenido a una señal de excitación de valor nulo.

En un modo de realización particular, los coeficientes del filtro de predicción lineal se obtienen mediante lectura de parámetros memorizados en la etapa de codificación o de decodificación.

De este modo, cuando el módulo de codificación, independiente del dispositivo de remuestreo, incluye un análisis LPC que ya determina los parámetros del filtro de predicción, no es necesario recalcular estos parámetros durante el procedimiento de remuestreo. Es suficiente justo con leer los parámetros que se han memorizado (de forma cuantificados o no).

En otro modo de realización, los coeficientes del filtro de predicción lineal se obtienen mediante análisis a partir al menos de las muestras del bloque actual.

Entonces, el análisis LPC se hace directamente en el dispositivo de remuestreo.

En un ejemplo de realización, la predicción lineal se efectúa sobre una señal de audiofrecuencia en la que se ha efectuado un tratamiento de preacentuación.

La preacentuación permite asegurar una mejor estabilidad numérica en una implementación de punto fijo, en particular, para las señales que tienen una fuerte pendiente y dinámica espectral. Reduce la dinámica espectral de la señal, la distribución de la potencia de la señal en las bandas de frecuencias se vuelve, de este modo, más homogénea después de la preacentuación. Los parámetros de modelado después de preacentuación tienen una dinámica más escasa y es más fácil asegurar la estabilidad del sistema y más fácil, igualmente, poner en práctica el algoritmo que utiliza este modelo con una aritmética de punto fijo.

En modos de realización posibles, la predicción lineal adaptativa es una predicción de entre uno de los siguientes métodos:

- predicción lineal a corto plazo;

- predicción lineal a largo plazo;

- combinación de predicción lineal a corto plazo y de predicción lineal a largo plazo;

- proceso de ocultación de trama borrada.

De este modo, cualquier tipo de predicción más o menos precisa es posible para la implementación del procedimiento asegurando al mismo tiempo una eficacia en términos de relación señal/ruido interesante.

La presente invención tiene como propósito, igualmente, un dispositivo de remuestreo de una señal de audiofrecuencia en un codificador o decodificador de señal de audiofrecuencia. El dispositivo es tal que incluye:

- un módulo de predicción lineal adaptativa adecuado para determinar por bloque de señal, un número de muestras de señal futura definido en función de un retardo de remuestreo elegido;

- un módulo de construcción de un vector de soporte de remuestreo a partir al menos de las muestras del bloque actual y de las muestras determinadas de señal futura;

- un filtro de remuestreo aplicado sobre las muestras del vector de soporte de remuestreo,

estando el dispositivo de remuestreo adaptado para

- conmutar entre dos modos de codificación,

- remuestrear el bloque actual de la señal por el hecho de la conmutación.

Este dispositivo presenta las mismas ventajas que el procedimiento descrito anteriormente, que implementa.

En un modo de realización particular, el módulo de predicción lineal adaptativa coopera con un módulo de análisis mediante predicción comprendido en el módulo de codificación o de decodificación mediante predicción, del codificador o decodificador.

De este modo, la complejidad del dispositivo de remuestreo se reduce, puesto que no necesita incluir un módulo de análisis LPC. Los parámetros que provienen del módulo de análisis del módulo de codificación o de decodificación se memorizan durante la codificación o la decodificación y, de este modo, pueden servir durante el remuestreo.

Otras características y ventajas de la invención aparecerán más claramente con la lectura de la siguiente descripción y hecha con referencia a los dibujos adjuntos, en los que:

- la figura 1 ilustra la respuesta de impulso de un filtro de remuestreo en un método del estado de la técnica, tal como se ha descrito anteriormente;

- la figura 2 ilustra la respuesta de impulso de un filtro de remuestreo en un método del estado de la técnica con compensación del retardo por ceros, tal como se ha descrito anteriormente;

- la figura 3 ilustra un ejemplo de codificador de señal de audio que incluye un dispositivo de remuestreo según un modo de realización de la invención;

- la figura 4a ilustra en forma de organigrama, las etapas de un procedimiento de remuestreo según un modo de realización de la invención;

- la figura 4b ilustra en forma de organigrama, las etapas de una variante de realización de un procedimiento de remuestreo según la invención;

- la figura 5a ilustra en forma de organigrama los detalles de la etapa de determinación del factor de preacentuación (también denominado preénfasis) según un modo de realización de la invención;

- la figura 5b ilustra en forma de organigrama los detalles de la etapa de predicción lineal según un modo de realización de la invención;

- la figura 6 ilustra la forma de una ventana de análisis utilizada en un modo de realización de la invención;

- las figuras 7a a 7l muestran para diferentes posiciones de muestra posterior a la trama actual de señal a remuestrear, una comparación de la relación señal/ruido en función de la frecuencia central obtenida mediante la aplicación a una señal de prueba del método de remuestreo del estado de la técnica implementado en el codificador AMR-WB y del método de remuestreo según un primer y un segundo modo de realización de la invención;

- las figuras 8a a 8c muestran para diferentes posiciones de muestra posterior a la trama actual de señal a remuestrear, una comparación de la relación señal/ruido para 3 casos diferentes de cambio de frecuencias de remuestreo según el método de remuestreo del estado de la técnica implementado en el codificador AMR-WB y del método de remuestreo según un primer y un segundo modo de realización de la invención; y

- la figura 9 ilustra un ejemplo de decodificador de señal de audio que incluye un dispositivo de remuestreo según un modo de realización de la invención;

- la figura 10 ilustra una representación material de un dispositivo de remuestreo según un modo de realización de la invención.

La figura 3 ilustra un ejemplo de codificador de audio que incluye un dispositivo de remuestreo 300 según un modo de realización de la invención.

El códec ilustrado, en el presente documento, es un codificador de señales de audio (mono), multitasas (con tasas fijas de 7,2 a 128 kbit/s) que funciona a las frecuencias de muestreo de entrada y de salida de 8, 16, 32 o 48 kHz. Primero, se está interesado en la parte de codificador representada en la figura 3, describiéndose el decodificador asociado más adelante en relación con la figura 9.

La señal de entrada se divide en tramas de 20 ms (bloque 310), cada trama se puede codificar ya sea según un enfoque temporal (TD para "Time Domain" en inglés) de tipo CELP (309), ya sea según un enfoque de frecuencia (FD para "Frequency Domain" en inglés) de tipo MDCT (bloque 312) antes de que se multiplexe por el módulo de multiplexado 313. Se considera, en el presente documento, que las codificaciones de tipo CELP y MDCT las conoce el experto en la técnica. La elección del modo (bloque 311) - que consta del de la frecuencia interna de codificación -no se detalla, en el presente documento.

En este códec flexible en términos de tasas y de frecuencias de muestreo, varias configuraciones de remuestreo de una frecuencia 'fEn' (En para entrada) a una frecuencia 'fSal' (Sal para salida) son necesarias. En un modo de realización descrito, en el presente documento, las configuraciones utilizadas se listan en la tabla 1 más abajo:

Tabla 1

En esta tabla, los valores de frecuencias en negrita indican frecuencias "externas" (es decir, de entrada y/o de salida) del códec y los otros valores de frecuencias son frecuencias de muestreo "internas" para la codificación de la banda baja de la señal - de una forma similar a la codificación AMR-WB que no dispone más que de una frecuencia externa a 16 kHz y de una frecuencia interna a 12,8 kHz. "filtjenin" representa la longitud del filtro, "fac_num" representa el factor de sobremuestreo y "fac_den" el factor de submuestreo.

Sin pérdida de generalidad, los filtros FIR están diseñados en el ejemplo ilustrado, en el presente documento, según el método convencional denominado "método de la ventana", ya que se trata del sistema de ventana de un seno cardinal (sen(x)/x). Los filtros FIR están diseñados, por ejemplo, como se explica más abajo.

Por ejemplo, el filtro f_5_8_129 se obtiene con el siguiente comando matlab: f_5_8_129 = [0 0 0 0 fir1(248,(3775/32000),hanning(249))*4,999895 0000]; con una frecuencia de corte (-6 dB) a 64 kHz de 3775 Hz. Estos coeficientes se utilizan como un filtro de 16 coeficientes a 8000 Hz (esto es, 128 coeficientes a 64000 Hz) y como un filtro de 24 coeficientes a 12800 Hz (esto es, 120 coeficientes a 64000 Hz, ignorando los últimos valores) El filtro f_12_180 se obtiene con los siguientes comandos matlab:

ftmp = fir1(358,1/12,hanning(359));

f_12_180 = [0 ftmp/ftmp(180) 0];

con una frecuencia de corte (-6 dB) a 192 kHz de 8000 Hz.

El filtro f_15_180 se obtiene con los siguientes comandos matlab:

ftmp = fir1(358,1/15,hanning(359));

f_12_180 = [0 ftmp/ftmp(180) 0];

con una frecuencia de corte (-6 dB) a 192 kHz de 6400 Hz.

En variantes de la invención, por supuesto, se pueden utilizar otros métodos de diseño de filtro FIR.

Estas configuraciones de conversión se justifican, en el presente documento, sin pérdida de generalidad, mediante la utilización de 2 frecuencias internas, 12,8 kHz y 16 kHz, en el algoritmo de codificación. No se detalla, en el presente documento, la forma en que se efectúa la elección de la frecuencia de muestreo interna (12,8 o 16 kHz), ni la elección del tipo de codificación a emplear (bloque 311). Esto rebasa el marco de la invención. Sin embargo, se recordará que la elección de la frecuencia interna se puede hacer de forma independiente en cada trama, para una misma frecuencia de entrada y/o de salida del códec, lo que, por ejemplo, significa que en la trama N se puede utilizar un remuestreo según una configuración i, en la trama N+1 un remuestreo según la configuración j diferente de i (pero con una misma frecuencia "externa") y en la trama N+2 ningún remuestreo, lo que implica una codificación directa de la trama a la frecuencia de entrada fEn - en la práctica, este último caso no es posible en el modo de realización preferido más que en las siguientes situaciones:

si el modo de codificación elegido es la codificación de tipo FD, que siempre funciona a la frecuencia fEn si el modo de codificación elegido es la codificación TD y la frecuencia de entrada fEn corresponde a la frecuencia interna de codificación TD.

Sin embargo, en una variante de la invención, la codificación de tipo FD podrá estar obligada a funcionar a la misma frecuencia interna de codificación que la codificación TD, con el fin de facilitar la conmutación de ello.

Hay que señalar que la transición de una codificación TD hacia una codificación FD y viceversa no se describe, en el presente documento, ya que rebasa el marco de la invención.

Cuando la frecuencia de muestreo de la señal de entrada fEn es superior a la frecuencia de muestreo interna de codificación, el algoritmo de codificación TD COD o FC COD prevé la codificación de la señal en banda alta (frecuencias superiores a 6,4 o 7 kHz), esta codificación de la banda alta no se detalla, en el presente documento.

De este modo, el codificador incluye un dispositivo de remuestreo 300 que incluye un filtro de remuestreo parametrizable, ya que puede funcionar con varias configuraciones de coeficientes de filtro FIR (bloque 305). En los modos de realización descritos a continuación, el filtro de remuestreo es un filtro polifásico. La invención se aplica, igualmente, para otros tipos de implementación de remuestreo mediante filtro FIR, como, por ejemplo, un filtro de remuestreo de complejidad no óptima que no implica la representación polifásica. Por otro lado, la invención también se aplica para otras relaciones de conversión de frecuencia de muestreo.

Con la excepción de las 3 primeras configuraciones (de número 1 a 3), todas las otras configuraciones utilizan un filtro polifásico de tipo FIR con un retardo de 0,9375 ms (12 muestras a 12,8 kHz, 15 muestras a 16 kHz, 30 muestras a 32 kHz y 45 muestras a 48 kHz).

El filtrado polifásico de remuestreo (bloque 305) en las configuraciones 4 a 13 se efectúa según un algoritmo derivado del remuestreo polifásico por FIR definido en el códec UIT-T G.718 (véase la realización en el código fuente de G.718 en el archivo "modify_fs.c").

Se está interesado, en el presente documento, en las 3 primeras configuraciones que implican una frecuencia de muestreo "externa" de 8000 Hz. Para estas configuraciones, es necesario un filtro FIR más largo para tener un rendimiento de filtrado suficiente, en particular, para garantizar un rechazo suficiente de imágenes espectrales o del repliegue espectral que pueden ocurrir en las frecuencias donde el oído es muy sensible.

Sin la implementación del procedimiento de remuestreo de la invención, estas 3 configuraciones normalmente ocasionarían 25 muestras de retardo a 12,8 kHz para el caso del remuestreo de 8000 Hz a 12800 Hz, 15 muestras de retardo a 8 kHz para los casos del remuestreo de 12800 Hz a 8000 Hz y del remuestreo de 16000 Hz a 8000 Hz. En general, el retardo en la frecuencia de muestreo de salida es el redondeo al entero inferior de filt_len*fac_num/fac_den, donde filt_Ien es la longitud del filtro, fac_num es el factor de sobremuestreo y fac_den es el factor de submuestreo (véase también en la tabla 1), pero sería posible, igualmente, considerar un retardo con una fracción de 1/2 de muestra.

La implementación, en el dispositivo de remuestreo 300, del procedimiento de remuestreo según la invención y descrito ulteriormente con referencia a las figuras 4a y 4b, permite en el caso de este codificador:

- Limitar el retardo efectivo de las configuraciones 1 a 3 para obtener un retardo idéntico a las otras configuraciones 4 a 13 de conversión (que tienen un retardo de 0,9375 ms). Para hacer esto, el dispositivo de remuestreo incluye un módulo de predicción lineal adaptativa 301, adecuado para determinar, por trama de señal, un número de muestras de señal futura definido en función de un retardo de remuestreo elegido. Se tendrá en cuenta que, en teoría, el número de muestras es parametrizable, pero, en la práctica, se conserva constante para la configuración del códec definida.

- Poder conmutar todas las configuraciones definidas de remuestreo, incluso si el retardo teórico asociado es diferente.

En un modo de realización particular de la invención que no se describe en la tabla 1, el codificador puede incluir varios (al menos dos) filtros polifásicos FIR de remuestreo que ocasionan retardos diferentes. Por ejemplo, en un codificador de tasa múltiple, para una entrada que está siempre a 16000 Hz, se pueden utilizar 2 núcleos de codificación a diferente frecuencia interna en función de la tasa: 8000 Hz para las tasas más bajas y 12800 Hz para las tasas más altas. Para tener un rendimiento de filtrado suficiente, en particular, para garantizar un rechazo suficiente de imágenes espectrales o del repliegue espectral, el remuestreo de 16000 Hz a 8000 Hz necesita un filtro FIR más largo que el remuestreo de 16000 Hz a 12800 Hz. Estos dos filtrados tienen, por lo tanto, un retardo diferente. Para poder conmutar entre estos dos modos de codificación sin artefacto (en caso de cambio de tasa), hay que armonizar estos retardos (hacerlos igualarlos). Si se reduce la longitud del filtro FIR de remuestreo de 16000 Hz a 8000 Hz, se degrada, en general, la calidad, ya que el repliegue espectral no estaría suficientemente bien atenuado y se volvería audible. Si se aumenta la longitud del filtro FIR de remuestreo de 16000 Hz a 12800 Hz o se aplica un retardo adicional a la señal remuestreada, se aumenta el retardo global de la codificación/decodificación que puede entorpecer la interactividad.

Utilizando el procedimiento de remuestreo de la presente invención, se puede reducir el retardo de los filtrados FIR más largos hasta el nivel del retardo del filtrado más corto, sin pérdida apreciable de la calidad, comparando con el filtrado de origen. De hecho, los resultados de simulación muestran que las relaciones señal/ruido son muy altas entre el filtrado normal y el filtrado de bajo retardo según la presente invención. Se demuestra, igualmente, mediante las pruebas de escucha que la diferencia entre las señales obtenidas con el filtrado normal y el filtrado de bajo retardo según la presente invención no es audible.

De este modo, en el caso presentado, en el presente documento, el codificador (o incluso el decodificador) comprende dos filtros polifásicos de remuestreo cuyos retardos son diferentes. Uno al menos de los filtros de remuestreo es un filtro implementado tal como se ha descrito anteriormente según la invención en el que la determinación del número de muestras de señal futura es función de la diferencia de retardo de los dos filtros de remuestreo utilizados en los dos dispositivos.

Por ejemplo, en la tabla 1, se pueden utilizar las configuraciones 3 y 7 para una frecuencia externa de 16000 Hz y frecuencias internas de 8000 Hz y 12800 Hz. En este caso, se ve que el retardo en la frecuencia de entrada (filt_len) es respectivamente de 30 y 15 muestras; por lo tanto, hay que predecir la diferencia, esto es, 15 muestras a 16000 Hz para poder reducir el retardo de la configuración 3 al nivel del retardo de la configuración 7. La invención detallada más adelante se podrá utilizar para disminuir el retardo de la configuración 3 y poder alternar entre las configuraciones 3 y 7 de forma transparente, ya que, entonces, tienen el mismo retardo de 15 muestras.

Si se vuelve al ejemplo del codificador de la figura 3 y de las configuraciones listadas en la tabla 1:

En el caso del remuestreo de 8000 Hz a 12800 Hz, hay que reducir el retardo de 25 a 12 muestras, esto es, generar plus_sample_out=13 muestras más a 12800 Hz, lo que necesita la extrapolación de plus_sample_in=8 muestras a 8000 Hz.

Para el caso del remuestreo de 12800 Hz a 8000 Hz, hay que reducir el retardo de 15 a 7 muestras, esto es, generar plus_sample_out=8 muestras más a 8000 Hz, lo que necesita la extrapolación de plus_sample_in=12 muestras a 12800 Hz.

Para el caso del remuestreo de 16000 Hz a 8000 Hz, hay que reducir el retardo de 15 a 7 muestras, esto es, generar plus_sample_out=8 muestras más a 8000 Hz, lo que necesita la extrapolación de plus_sample_in=15 muestras a 16000 Hz. Hay que señalar que a 8000 Hz, 0,9375 ms corresponde a 7,5 muestras que se redondea hacia la parte baja a 7 muestras.

El dispositivo de remuestreo 300 ilustrado en la figura 3, recibe como entrada bloques de señal de audio, en este modo de realización, son tramas de 20 ms recibidas por el bloque 310 que posee, igualmente, en memoria un conjunto de muestras de tramas pasadas.

Este dispositivo de remuestreo incluye un módulo de predicción lineal adaptativa 301 adecuado para determinar por bloque o trama de señal, un número de muestras de señal futura definido en función de un retardo de remuestreo elegido.

Este número de muestras de señal futura predicho sirve para determinar el soporte de remuestreo definido por el módulo de construcción 304 del vector de soporte de remuestreo. Este vector de soporte de remuestreo es, por ejemplo, una concatenación de eventuales muestras de señal pasada, muestras del bloque o de la trama actual y muestras predichas de señal futura por el módulo 301. Las muestras de señal pasada sirven como memoria del filtro FIR de remuestreo.

No obstante, la construcción de este vector de soporte comprende, igualmente, la siguiente implementación:

- La señal pasada se puede almacenar en las memorias del filtro FIR de remuestreo y, por lo tanto, no se concatena directamente con las muestras de la trama actual (pero la señal de la trama actual es de hecho la continuidad de estas memorias que contienen la señal pasada)

- La señal futura predicha se puede almacenar, igualmente, en un vector separado y su remuestreo se puede hacer por separado del de la señal de la trama actual, siempre y cuando se actualicen correctamente las memorias necesarias. En el caso de remuestreo separado de la señal futura, las memorias del filtro de remuestreo se inicializan por las últimas muestras de la trama actual. De nuevo, a pesar de esta separación, la señal futura predicha es de hecho la continuación de la señal de la trama actual.

En este documento, sin pérdida de generalidad, la expresión "construcción del vector de soporte" cubre, igualmente, los casos donde las señales no se copian realmente unas después de las otras en un mismo vector, sino que se almacenan en diferentes vectores.

Entonces, se aplica el filtro 305 a este vector de soporte de remuestreo para obtener una señal remuestreada a la frecuencia de salida que se quiere.

El módulo de predicción lineal 301 puede incluir un módulo de análisis de predicción a corto plazo (LPC) 302 adecuado para determinar los coeficientes de un filtro de predicción lineal como se describe ulteriormente en relación con la figura 4a. Este módulo de análisis LPC (302b) puede en otro modo de realización ventajoso estar comprendido en el módulo de codificación mediante predicción 309 de la codificación temporal de tipo TD (por ejemplo, una codificación CELP). De este modo, un mismo módulo de análisis se puede utilizar a la vez para predecir muestras futuras útiles para el dispositivo de remuestreo y para codificar la señal antes de transmisión. Por lo tanto, esto disminuye la complejidad del dispositivo de remuestreo que coopera con el módulo de análisis del módulo de codificación.

El módulo 301 incluye, además, un módulo de filtrado de predicción 303 por el filtrado 1/A(z) de una señal nula para obtener un conjunto de muestras futuras búffut.

La figura 4a ilustra, por lo tanto, las etapas principales de un procedimiento de remuestreo según un modo de realización de la invención.

Las etapas de este procedimiento se implementan con como entrada (BúfEn) tramas de Ig muestras a la frecuencia de muestreo de entrada fEn. Se accede, igualmente, a las muestras pasadas de esta señal de entrada a través de las memorias. A partir de esta señal de entrada, la etapa E401 determina el número de muestras a predecir plus_sample_in, en función del retardo deseado y predice este número de muestras de la señal futura mediante predicción lineal. El resultado de esta predicción se concatena con la señal de entrada (trama actual y tramas pasadas para las memorias) en la etapa de construcción E402 del vector de soporte de remuestreo. Este vector de soporte es, por lo tanto, en un modo de realización, una concatenación de muestras de la señal pasada, de las muestras de la trama actual y de las muestras determinadas de señal futura.

En la etapa E403, se efectúa el filtrado de remuestreo mediante aplicación de un filtro de remuestreo, por ejemplo, de respuesta de impulso finita (FIR), sobre las muestras del vector de soporte de remuestreo y se proporciona la señal remuestreada búfsal como salida, a la frecuencia de remuestreo de salida fsal.

- La utilización puede ser, igualmente, puntual cuando se remuestrea, por ejemplo, una memoria (un trozo o bloque de la señal), en el caso de una conmutación entre dos modos de codificación. En este caso, la entrada del remuestreo no es una trama (por ejemplo, de 20 ms), sino un bloque de señal. Con el fin de aplicar la invención, es importante tener en cuenta que hay que disponer o bien del pasado del bloque a convertir o bien de un modelo LPC ya precalculado del pasado - se tendrá en cuenta que con una codificación de tipo TD que ya utiliza una predicción lineal, en general, es posible memorizar los parámetros (coeficientes LPC o equivalentes) calculados y/o codificados en el codificador y/o decodificador TD en cada trama. De este modo, en una variante de la invención, estos parámetros LPC podrán reutilizarse, lo que simplifica la implementación del bloque 302, puesto que se trata, entonces, de una sencilla consulta de valores memorizados (eventualmente cuantificados).

En paralelo, se actualiza la memoria del filtro de remuestreo en E405. De nuevo, son posibles varios casos:

- En el caso de una utilización continua con más muestras a generar, como es el caso en el estándar AMR-WB, se memorizan las últimas mem_len muestras de la trama de entrada, sin las muestras predichas: mem_sig(0... mem_len-1) = frame(lg-mem_len ... lg-1).

A la reanudación del remuestreo, las muestras obtenidas a la frecuencia de muestreo de salida reemplazan las muestras obtenidas utilizando la señal de entrada predicha.

- En caso de utilización de trama por trama continua, no se reemplazan las muestras obtenidas utilizando la señal de entrada predicha, no se calcula más que lg_out muestras a la frecuencia de muestreo de salida. Si se considera que la nueva trama comienza en la muestra de índice lg+ plus_sample_in, la memoria del filtrado FIR de remuestreo está constituida por las muestras pasadas de índice (lg+ plus_sample_in-mem_len ... lg+ plus_sample_in-1) cuya una parte de esta memoria, de índice (lg ... lg+ plus_sample_in-1), puede ser, ya sea la señal verdadera, ya sea la señal predicha. Utilizando la señal verdadera, las primeras muestras son iguales a las obtenidas con un filtrado sin predicción (resultado considerado como óptimo), pero entre la última muestra obtenida con la predicción durante la trama anterior y la primera muestra obtenida con la señal verdadera se puede tener una pequeña discontinuidad. En caso de utilización de la señal predicha en la memoria, no hay discontinuidad, pero un ligero error se propaga también sobre filt_len muestras. En el modo de realización preferido, se utiliza la primera solución, ya que esta ligera discontinuidad no es audible.

- En caso de utilización puntual, no es necesaria la actualización de memoria después del remuestreo, por el contrario, hay que inicializar de hecho las memorias de remuestreo antes de la operación de remuestreo, con la señal de entrada pasada correspondiente.

En una variante, el análisis LPC que sirve para predecir la señal futura se realiza no en la señal directa en la trama actual, sino en la señal preacentuada, que proviene del filtrado de la trama actual por un filtro de la forma 1-j.z '1, donde |j se calcula de forma adaptativa o se fija a un valor predeterminado. Esta variante se ilustra en la figura 4b. Con respecto a la figura 4a, se añade una etapa de determinación E406 del factor de preacentuación j . Utilizando este factor j , la señal de entrada se preacentúa en la etapa E407 mediante filtrado 1-j.z '1. Hay que señalar que este filtrado necesita una muestra de memoria, por lo tanto, en esta variante, el tamaño de la memoria debe aumentarse en 1. La señal preacentuada es la entrada de las etapas E401 y E402. A continuación, la señal concatenada se desacentúa utilizando el mismo factor j en la etapa E408 mediante filtrado 1 / (1-yz-1). Hay que señalar que para una señal dada, el encadenamiento de la preacentuación antes de análisis LPC seguido de una desacentuación de mismo factor y es transparente, es decir, que se encuentra exactamente la señal de entrada. Por lo tanto, si se memoriza la señal antes de la preacentuación, solo debe desacentuarse la parte predicha para reducir la complejidad de cálculo. Esta parte predicha desacentuada se concatena, a continuación, con la señal memorizada para formar el vector de soporte de remuestreo.

Existen varias técnicas para determinar el factor de preacentuación y cuyos valores están entre -1 y 1.

- j puede ser constante, por ejemplo, j=0,68

- j puede ser constante dependiendo de la frecuencia de muestreo de entrada

- j puede ser adaptativo en función de un análisis de la inclinación del espectro (método conocido por el estado de la técnica).

La figura 5a ilustra esta etapa E406 de la figura 4b, de determinación del factor de preacentuación. En la etapa E501, se enventana la señal por una ventana de análisis. En la etapa E502, se calcula una autocorrelación de orden M=1 (r(0) y r(1)) y se aplica un umbral de ruido ("noise floor" en inglés) a r(0) en la etapa E503, para evitar los problemas aritméticos de las señales de entrada de escaso nivel.

Estas etapas de autocorrelación, de aplicación de un umbral de ruido se describen, por ejemplo, en la recomendación ITU-T G.729, párrafo 3.2.1.

Estos cálculos de autocorrelaciones r(k) con una ventana de longitud L, para los desplazamientos k=0,...,M son de la forma:

L—l

r { k ) = ^ s w(n)sw( n - f c ) , k = Q ,..,M

n=k

donde sw(n) = s(n).w(n) y s(n) corresponde a las últimas L muestras de la señal de la trama actual y eventualmente de señal pasada, si la longitud L es superior a la longitud de la trama actual.

En el modo de realización preferido, se utiliza una ventana LPC w(n) de longitud L=240, cuyo un ejemplo se ilustra en la figura 6.

Se puede ver que la forma de esta ventana es asimétrica con el peso concentrado en el final de su soporte (sobre las muestras más recientes). Los comandos Matlab para construir esta ventana con L = 240 se dan, por ejemplo, más abajo:

L1=L-8;

for i = 0: (L1-1)

w(i+1) = 0.54 - 0.46 * cos(2 * i * pi / (2 * L1 - 1));

end

for i = L1: (L-1)

w(i+1) = cos((i - L1) * 2 * pi / (31));

end

En variantes de la invención, otros valores del orden LPC M, otras formas y longitudes de ventana LPC podrán utilizarse sin cambiar la naturaleza de la invención. El "noise floor" ("umbral de ruido") podrá utilizarse de forma convencional multiplicando el primer coeficiente de correlación por un factor >1 o limitando el valor de este primer coeficiente a un valor mínimo.

Finalmente, el factor se calcula en la etapa E504 como j=r(1)/r(0).

La figura 5b describe con más detalles, un modo de realización de la etapa E401 de las figuras 4, de predicción lineal para determinar las muestras futuras según la invención.

Por ejemplo, esta etapa E401 puede incluir una etapa de cálculo E506 de coeficientes de un filtro de predicción lineal de orden predeterminado, a partir de las muestras de la trama actual y eventualmente de las muestras de las tramas anteriores y una etapa de obtención E507 de las muestras de señal futura mediante aplicación del filtro de predicción calculado a una señal de excitación de valor nulo.

Las etapas E501, E502 y E503 de las figuras 5a y 5b son similares, pero con un orden de predicción diferente M. Los otros parámetros, como la forma o la longitud de la ventana de análisis o también el "noise floor" ("umbral de ruido"), pueden ser diferentes, igualmente. En los 2 casos, se pueden utilizar los módulos comunes para reducir la complejidad.

De forma más precisa, la señal de entrada (preacentuada o no) se enventana en la etapa E501. Por ejemplo, se puede utilizar el mismo tipo de ventana que la ilustrada en la figura 6.

La función de autocorrelación se calcula en el orden elegido (en el ejemplo, M=10) en E502 y se aplica un umbral de ruido, "noise floor" en r(0) en la etapa E503, como se describe, por ejemplo, en el párrafo 3.2 del estándar G.729.

En la etapa E505, se efectúa una etapa llamada "lag windowing" en inglés ("ventana de retardo") (método conocido por el experto en la técnica), también descrito, en concreto, en el párrafo 3.2.1 del estándar G.729.

Esta etapa de "Lag windowing" ("ventana de retardo") para la frecuencia de muestreo de entrada (fEn) es de la forma:

r(i) = r(i) * Wretardo(i), i=0,...,M

donde los coeficientes Wretardo (i) se definen como sigue:

^{donde /}s^{=fEn es la frecuencia de la señal a remuestrear y donde, por ejemplo, fo =60 Hz.}

En la etapa E506 (implementada por el módulo 302 de la figura 3) se calculan los coeficientes A[i], i=0,...,M, de un filtro de predicción lineal A(z) de orden M por el algoritmo de Levinson-Durbin, como se describe con referencia al párrafo 3.2.2 del G.729 o en el párrafo 6.4.3 del estándar AMR-WB. En el modo de realización preferido, se utiliza un orden LPC M=10.

En la etapa E 507 (implementada por el módulo 303 de la figura 3), el filtro de síntesis 1/A(z) se aplica a una señal nula para dar una predicción de las muestras de señal futura.

Esta predicción se efectúa de forma recursiva, mediante filtrado 1/A(z) con entrada (señal de excitación del filtro) nula, para plus_sample_in muestras al final de la trama de longitud Ig (i = Ig ... lg+plus_sample_in -1):

En una variante de la invención, se podrán utilizar otros métodos de cálculo de los coeficientes de predicción lineal, por ejemplo, se podrá utilizar el método de Burg implementado, por ejemplo, en el codificador SILK conocido por el estado de la técnica.

En otra variante, los coeficientes de predicción lineal podrán estimarse mediante un enfoque de tipo LMS (Least Mean Squares) o RLS (Recursive Least Squares) de filtrado adaptativo.

En otra alternativa, los coeficientes LPC se podrán obtener directamente de un análisis y/o cuantificación de los parámetros asociados, efectuados en la señal en el codificador de tipo TD (309) que utiliza una predicción LPC (302b), incluso en el codificador FD, con la condición de efectuar una predicción lineal en el codificador FD.

Por ejemplo, en el decodificador CELP del códec AMR-WB, se dispone de los coeficientes LPC (de orden 16) en cada subtrama y se pueden, en particular, utilizar los coeficientes LPC decodificados en la última subtrama para predecir la señal decodificada futura y, de este modo, eliminar el retardo del remuestreo del decodificador CELP.

En otra variante, la excitación nula (entrada nula) en la etapa E507 puede reemplazarse por una excitación predicha, por ejemplo, mediante predicción de pitch en el ámbito de la excitación.

En otras variantes de la invención, la predicción lineal (a corto plazo) se reemplazará por una predicción de pitch (a largo plazo) en el ámbito de la señal, esta predicción puede ser fraccionada o multitoma.

Se señalará que sería posible efectuar la predicción en el ámbito de frecuencia, en lugar de un enfoque temporal; sin embargo, este enfoque alternativo en el ámbito de frecuencia necesita una transformación de análisis (por ejemplo, FFT), una predicción del espectro futuro, por ejemplo, mediante repetición de las amplitudes y continuidad de las fases de las líneas espectrales más importantes y una transformación inversa de síntesis o una síntesis sinusoidal; esta alternativa es, en general, más compleja que el enfoque temporal descrito anteriormente, tanto más en cuanto que el análisis de frecuencia debe tener un soporte temporal suficientemente largo para disponer de una resolución de frecuencia suficiente para identificar líneas espectrales (tonos). Este enfoque no es ideal cuando se trata de extrapolar un número limitado de muestras (inferior a la longitud de trama).

En también otro modo de realización, la predicción lineal adaptativa descrita anteriormente se puede reemplazar por un proceso de ocultación de trama borrada, con el fin de extrapolar la señal futura mediante un modelo de señal más evolucionado. Una técnica de este tipo se describe, por ejemplo, en la patente europea publicada con el número: EP 1.316.087.

En otras variantes de la invención, el remuestreo mediante filtro FIR podrá reemplazarse por otros métodos de remuestreo mediante filtrado IIR o la interpolación polinomial. En este caso, el principio sigue siendo el mismo: se predice la señal futura y se aplica el remuestreo teniendo en cuenta la señal futura. En un modo de realización, se considera el caso de 2 configuraciones de remuestreo de retardos diferentes y la invención permite llevar el retardo más largo al valor del retardo más escaso.

Para poder demostrar bien la eficacia del remuestreo de bajo retardo según el procedimiento de la invención descrito anteriormente en el ejemplo de remuestreo de 8000 Hz a 12800 Hz, se utiliza una señal de prueba constituida por una mezcla de 10 sinusoides cuya frecuencia cambia cada segundo. Para la señal de iésimo segundo, las frecuencias de estas sinusoides se eligieron de forma aleatoria, alrededor de una frecuencia central fecentro(i), en el intervalo [fecentro(i)-600, fecentro(i)+600] y fecentro(i) = 500+ 100*i Hz, i — 1... 28.

Las figuras 7a a 7l representan los resultados de una comparación entre el método de remuestreo del estado de la técnica en AMR-WB (punteado), el del procedimiento según la invención con un filtro de predicción de orden M=4 con ventana de análisis de 20 muestras (en trazo discontinuo) y el del procedimiento según la invención con un filtro de predicción lineal de orden 10 con ventana de análisis de 240 muestras (trazo continuo).

Las figuras representan la relación señal/ruido en función de la frecuencia central de la señal de prueba.

Cada figura corresponde a una posición diferente de la muestra con respecto al final de la trama convencional obtenida con un filtrado convencional (que corresponde a la numeración n.° 1, ..., n.° 12 de la figura 2). Por ejemplo, la figura ^{7a representa la relación señal/ruido}(^rS^r, ^{SNR en inglés) para las muestras en 2' posición después del final de la}trama convencional. La figura 7b representa la relación señal/ruido para la muestra predicha en 3' posición después de la trama actual, etc... Por lo tanto, la figura 7l representa la relación señal/ruido para la muestra predicha en 13' posición después de la trama actual.

Se puede observar que la RSR disminuye con el aumento de la posición, ya que se utilizan más y más muestras predichas durante el filtrado y que para la misma posición, la RSR disminuye con el aumento de la frecuencia central, ya que las frecuencias altas son menos predecibles. Sin embargo, en todos los casos, se observa que el método según la invención, incluso en escaso orden de predicción, es claramente de más rendimiento que el método utilizado en el codificador AMR-WB.

La ventaja de la utilización de una predicción de escaso orden es su escasa complejidad y la facilidad de implementación de los cálculos, sobre todo, en aritmética de punto fijo. Cuanto más elevado es el orden, más aumenta la complejidad y, al mismo tiempo, más difícil se vuelve asegurar la estabilidad del filtro.

Las figuras 8a a 8c muestran el mismo tipo de resultado sobre una base de señal de voz muy grande. Se ve ahí la RSR en función de la posición de la muestra para 3 casos diferentes: de 8000 Hz a 12800 Hz en la figura 8a, de 12800 Hz a 8000 Hz en la figura 8b y de 16000 Hz a 8000 Hz en la figura 8c. De nuevo, el algoritmo según la invención es claramente de más rendimiento que el utilizado en el estado de la técnica (AMR-WB), incluso en escaso orden de predicción con ventana corta.

La figura 9 ilustra un ejemplo de decodificador de audio que incluye un dispositivo de remuestreo 300 según la invención. El dispositivo de remuestreo es el mismo que el descrito con referencia a la figura 3.

El decodificador ilustrado, en el presente documento, es un decodificador de señales de audio (mono), multitasas (con tasas fijas de 7,2 a 128 kbit/s) que funciona a las frecuencias de muestreo de salida de 8, 16, 32 o 48 kHz.

En función de la trama recibida y demultiplexada (bloque 901), la salida se conmuta (904) entre la salida de un decodificador temporal (TD DEC) de tipo CELP (902) que utiliza una predicción lineal (902b) y un decodificador de frecuencia (FD DEC).

La figura 10 representa un ejemplo de realización material de un dispositivo de remuestreo 300 según la invención. Este puede formar parte integrante de un codificador, decodificador de señal de audiofrecuencia o de un equipo que recibe señales de audiofrecuencia.

Este tipo de dispositivo incluye un procesador PROC que coopera con un bloque de memoria BM que incluye una memoria de almacenamiento y/o de trabajo MEM.

Un dispositivo de este tipo incluye un módulo de entrada E adecuado para recibir tramas de señal de audio BúfEn a una frecuencia de muestreo fEn.

Incluye un módulo de salida S adecuado para transmitir la señal de audio de frecuencia remuestreada BúfSal a la frecuencia de muestreo de fSal.

El bloque de memoria puede incluir ventajosamente un programa informático que incluye instrucciones de código para la implementación de las etapas del procedimiento de remuestreo en el sentido de la invención, cuando estas instrucciones se ejecutan por el procesador PROC y, en concreto, las etapas de determinación mediante predicción lineal adaptativa de un número de muestras de señal futura, estando este número definido en función de un retardo de remuestreo elegido, de construcción de un vector de soporte de remuestreo a partir al menos de las muestras del bloque actual y de las muestras determinadas de señal futura, de aplicación de un filtro de remuestreo sobre las muestras del vector de soporte de remuestreo.

Típicamente, la descripción de la figura 4a retoma las etapas de un algoritmo de un programa informático de este tipo. El programa informático puede estar almacenado, igualmente, en un soporte de memoria legible por un lector del dispositivo o puede descargarse en el espacio de memoria de este.

La memoria MEM graba, de manera general, todos los datos necesarios para la implementación del procedimiento.

Claims

REIVINDICACIONES

1. Procedimiento de remuestreo de una señal de audiofrecuencia en una codificación o decodificación de señal de audiofrecuencia, caracterizado por que el procedimiento incluye las siguientes etapas por bloque de señal a remuestrear:

- construcción de un vector de soporte de remuestreo a partir al menos de las muestras del bloque actual de señal y de las muestras determinadas de señal futura;

- conmutación entre dos modos de codificación,

- remuestrear el bloque actual de la señal por el hecho de la conmutación.

2. Procedimiento según la reivindicación 1, según el cual la aplicación del filtro de remuestreo es puntual por el hecho de la conmutación entre dos modos de codificación.

3. Procedimiento según la reivindicación 1 o 2, según el cual se reutilizan parámetros de codificación lineal predictiva utilizados para la trama del bloque actual.

4. Dispositivo de remuestreo de una señal de audiofrecuencia en un codificador o decodificador de señal de audiofrecuencia, caracterizado por que incluye:

- un módulo de predicción lineal adaptativa (301) adecuado para determinar para un bloque de señal, un número de muestras de señal futura definido en función de un retardo de remuestreo;

- un módulo de construcción (304) de vector de soporte de remuestreo a partir al menos de las muestras del bloque actual de señal y de las muestras determinadas de señal futura;

- un filtro de remuestreo (305) aplicado sobre las muestras del vector de soporte de remuestreo,

estando el dispositivo de remuestreo adaptado para

- conmutar entre dos modos de codificación,

- remuestrear el bloque actual de la señal por el hecho de la conmutación.