ES2688134T3

ES2688134T3 - Codificador y decodificador de audio para codificación de forma de onda intercalada

Info

Publication number: ES2688134T3
Application number: ES14715895.0T
Authority: ES
Inventors: Kristofer Kjoerling; Robin Thesing; Harald Mundt; Heiko Purnhagen; Karl Jonas Roeden
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-04-05
Filing date: 2014-04-04
Publication date: 2018-10-31
Anticipated expiration: 2034-04-04
Also published as: JP2021113975A; RU2015147173A; RU2665228C1; KR102170665B1; US11875805B2; KR102694669B1; KR20160075806A; JP2019168712A; CN110265047B; JP7317882B2; JP2018101160A; JP6026704B2; EP3742440A1; US20170018279A1; WO2014161995A1; KR20220137791A; KR20200123490A; BR112015025022B1; HK1217054A1; EP2981959A1

Abstract

Un método de decodificación en un sistema de procesamiento de audio que comprende: recibir una primera señal con forma de onda codificada (401a, 401b, 401c) que tiene un contenido espectral hasta una primera frecuencia de transición, recibir una señal de control (805) que comprende datos que indican uno o más rangos de tiempo para los cuales una segunda señal con forma de onda codificada se encuentra disponible para el intercalado, recibir una segunda señal con forma de onda codificada (402b) que tiene un contenido espectral correspondiente a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición, en donde, para cada rango de tiempo para el cual una segunda señal con forma de onda codificada se indica como disponible por la señal de control, el contenido espectral de la segunda señal con forma de onda codificada incluye todas las subbandas de frecuencia de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición, recibir parámetros de reconstrucción de frecuencia alta, llevar a cabo la reconstrucción de frecuencia alta mediante el uso de la primera señal con forma de onda codificada (401a, 401b, 401c) y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida (403a, 403b, 403c) que tiene un contenido espectral por encima de la primera frecuencia de transición, e intercalar la señal de frecuencia extendida (403a, 403b, 403c) con la segunda señal con forma de onda codificada (402b) según la señal de control recibida (805).

Description

5

10

15

20

25

30

35

40

45

DESCRIPCIÓN

Codificador y decodificador de audio para codificación de forma de onda intercalada.

Campo técnico de la invención

La invención descrita en la presente memoria se refiere, en general, a la codificación y decodificación de audio. En particular, se refiere a un codificador de audio y a un decodificador de audio adaptados para llevar a cabo la reconstrucción de frecuencia alta de señales de audio.

Antecedentes de la invención

Los sistemas de codificación de audio usan diferentes metodologías para codificar audio como, por ejemplo, codificación de forma de onda pura, codificación espacial paramétrica y algoritmos de reconstrucción de frecuencia alta, incluido el algoritmo de Replicación de la Banda Espectral (SBR, por sus siglas en inglés). El estándar MPEG-4 combina la codificación de forma de onda y SBR de señales de audio. Más precisamente, un codificador puede codificar la forma de onda de una señal de audio para bandas espectrales hasta una frecuencia de transición y codificar las bandas espectrales por encima de la frecuencia de transición mediante el uso de la codificación SBR. La parte con forma de onda codificada de la señal de audio se transmite entonces a un decodificador junto con parámetros SBR determinados durante la codificación SBR. Según la parte con forma de onda codificada de la señal de audio y los parámetros SBR, el decodificador entonces reconstruye la señal de audio en las bandas espectrales por encima de la frecuencia de transición según se describe en el documento de revisión de Brinker y otros, An overview of the Coding Standard MPEG-4 Audio Amendments 1 and 2: HE-AAC, SSC, and HE-AAC v2, EURASIP Journal on Audio, Speech, and Music Processing, Volume 2009, Article ID 468971.

Un problema con dicho enfoque es que los componentes tonales fuertes, a saber, componentes armónicos fuertes, o cualquier componente en las bandas espectrales altas que no se reconstruye apropiadamente por el algoritmo SBR estarán ausentes en la salida.

A tal fin, el algoritmo SBR implementa un procedimiento de detección de armónicos faltantes. Los componentes tonales que no se regenerarán de manera apropiada por la reconstrucción de frecuencia alta SBR se identifican en el lado de codificador. Información de la ubicación de frecuencia de dichos componentes tonales fuertes se transmite al decodificador donde los contenidos espectrales en las bandas espectrales donde los componentes tonales faltantes se ubican se reemplazan por sinusoides generadas en el decodificador.

Una ventaja de la detección de armónicos faltantes provista en el algoritmo SBR es que es una solución con velocidad binaria muy baja dado que, de alguna manera simplificada, solo la ubicación de frecuencia del componente tonal y su nivel de amplitud necesitan transmitirse al decodificador.

Una desventaja de la detección de armónicos faltantes del algoritmo SBR es que es un modelo muy irregular. Otra desventaja es que cuando la velocidad de transmisión es baja, a saber, cuando el número de bits que pueden transmitirse por segundo es bajo, y como consecuencia de ello, las bandas espectrales son anchas, un rango de frecuencia grande se reemplazará por una sinusoide.

Otra desventaja del algoritmo SBR es que tiene una tendencia a difundir transitorios que ocurren en la señal de audio. Normalmente, habrá un pre-eco y un post-eco del transitorio en la señal de audio reconstruida SBR. Hay, por consiguiente, espacio para mejoras.

El documento de la técnica anterior "Bandwidth Extension for Hierarchical Speech and Audio Coding in G.729.1" de Geiser y otros describe el enfoque de extensión de ancho de banda en G.729.1, que incluye ciertas subbandas en una señal expandida.

Breve descripción de los dibujos

A continuación se describirán realizaciones a modo de ejemplo en mayor detalle y con referencia a anexos, en los cuales:

La Figura 1 es un dibujo esquemático de un decodificador según realizaciones a modo de ejemplo; la Figura 2 es un dibujo esquemático de un decodificador según realizaciones a modo de ejemplo; la Figura 3 es un diagrama de flujo de un método de decodificación según realizaciones a modo de ejemplo; la Figura 4 es un dibujo esquemático de un decodificador según realizaciones a modo de ejemplo; la Figura 5 es un dibujo esquemático de un codificador según realizaciones a modo de ejemplo;

ITU-T Rec. reemplazar

los dibujos

5

10

15

20

25

30

35

40

45

la Figura 6 es un diagrama de flujo de un método de codificación según realizaciones a modo de ejemplo;

la Figura 7 es una ilustración esquemática de un esquema de señalización según realizaciones a modo de ejemplo;

y

las Figuras 8a-b son una ilustración esquemática de una etapa de intercalado según realizaciones a modo de ejemplo.

Todas las figuras son esquemáticas y, en general, solo muestran partes que son necesarias para elucidar la invención, mientras que otras partes se pueden omitir o simplemente sugerir. A menos que se indique lo contrario, iguales numerales de referencia se refieren a partes iguales en diferentes figuras.

Descripción detallada de la invención

Según lo establecido más arriba, es un objeto proveer un codificador y un decodificador y métodos asociados que proveen una reconstrucción mejorada de transitorios y componentes tonales en las bandas de frecuencia alta.

I. Resumen - Decodificador

Según su uso en la presente memoria, una señal de audio puede ser una señal de audio pura, una parte de audio de una señal audiovisual o señal multimedia o cualquiera de estas en combinación con metadatos.

Según un primer aspecto, las realizaciones a modo de ejemplo proponen métodos de decodificación, dispositivos de decodificación y productos de programas de ordenador para la decodificación. Los métodos, dispositivos y productos de programas de ordenador propuestos pueden tener, en general, las mismas características y ventajas.

Según realizaciones a modo de ejemplo, se provee un método de decodificación en un sistema de procesamiento de audio según las reivindicaciones 1 a 10.

Según su uso en la presente memoria, una señal con forma de onda codificada se interpretará como una señal que se ha codificado por la cuantificación directa de una representación de la forma de onda; de manera más preferida, una cuantificación de las líneas de una transformada de frecuencia de la señal de forma de onda de entrada. Ello se opone a una codificación paramétrica, donde la señal se representa por variaciones de un modelo genérico de un atributo de señal.

El método de decodificación sugiere, por consiguiente, usar datos con forma de onda codificada en un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición e intercalar ello con una señal reconstruida de frecuencia alta. De esta manera, partes importantes de una señal en la banda de frecuencia por encima de la primera frecuencia de transición como, por ejemplo, componentes tonales o transitorios que, normalmente, no se reconstruyen bien por algoritmos de reconstrucción de frecuencia alta paramétricos, pueden ser con forma de onda codificada. Como resultado, la reconstrucción de dichas partes importantes de una señal en la banda de frecuencia por encima de la primera frecuencia de transición se mejora.

Según realizaciones a modo de ejemplo, se provee también un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para llevar a cabo el método de decodificación de cualquiera de las reivindicaciones 1-10.

Según realizaciones a modo de ejemplo, se provee también un decodificador para un sistema de procesamiento de audio según la reivindicación 11.

II. Resumen - Codificador

Según un segundo aspecto, las realizaciones a modo de ejemplo proponen métodos de codificación, dispositivos de codificación y productos de programas de ordenador para la codificación. Los métodos, dispositivos y productos de programas de ordenador propuestos pueden tener, en general, las mismas características y ventajas.

Las ventajas relativas a las características y establecimientos según se presentan en el resumen del decodificador más arriba pueden ser, en general, válidas para las características y establecimientos correspondientes para el codificador.

Según realizaciones a modo de ejemplo, se provee un método de codificación según las reivindicaciones 12-13.

Según realizaciones a modo de ejemplo, se provee también un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para llevar a cabo el método de codificación de la reivindicación 12 o reivindicación 13.

Según realizaciones a modo de ejemplo, se provee un codificador según la reivindicación 15.

5

10

15

20

25

30

35

40

45

50

55

III. Realizaciones a modo de ejemplo - Decodificador

La Figura 1 ilustra una realización a modo de ejemplo de un decodificador 100. El decodificador comprende una etapa de recepción 110, una etapa de reconstrucción de frecuencia alta 120, y una etapa de intercalado 130.

El funcionamiento del decodificador 100 se explicará ahora en mayor detalle con referencia a la realización a modo de ejemplo de la Figura 2, que muestra un decodificador 200, y el diagrama de flujo de la Figura 3. El propósito del decodificador 200 es proveer una reconstrucción de señal mejorada para frecuencias altas en el caso donde existen componentes tonales fuertes en las bandas de frecuencia alta de la señal de audio que se reconstruirá. La etapa de recepción 110 recibe, en la etapa D02, una primera señal con forma de onda codificada 201. La primera señal con forma de onda codificada 201 tiene un contenido espectral hasta una primera frecuencia de transición fc, a saber, la primera señal con forma de onda codificada 201 es una señal de banda baja que se encuentra limitada al rango de frecuencia por debajo de la primera frecuencia de transición fc.

La etapa de recepción 110 recibe, en la etapa D04, una segunda señal con forma de onda codificada 202. La segunda señal con forma de onda codificada 202 tiene un contenido espectral que corresponde a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición fc. En el ejemplo ilustrado de la Figura 2, la segunda señal con forma de onda codificada 202 tiene un contenido espectral correspondiente a múltiples intervalos de frecuencia aislados 202a y 202b. La segunda señal con forma de onda codificada 202 puede, por consiguiente, verse que se compone de múltiples señales de banda limitada, cada señal de banda limitada correspondiendo a uno de los intervalos de frecuencia aislados 202a y 202b. En la Figura 2, solo se muestran dos intervalos de frecuencia 202a y 202b. En general, el contenido espectral de la segunda señal con forma de onda codificada puede corresponder a cualquier número de intervalos de frecuencia de ancho variable.

La etapa de recepción 110 puede recibir la primera y la segunda señal con forma de onda codificada 201 y 202 como dos señales separadas. De manera alternativa, la primera y la segunda señal con forma de onda codificada

201 y 202 pueden formar una primera y segunda porciones de señal de una señal común recibida por la etapa de recepción 110. En otras palabras, la primera y la segunda señales con forma de onda codificada pueden codificarse de manera conjunta, por ejemplo, mediante el uso de la misma transformada MDCT.

Normalmente, la primera señal con forma de onda codificada 201 y la segunda señal con forma de onda codificada

202 según se reciben por la etapa de recepción 110 se codifican mediante el uso de una transformada con ventanas superpuestas como, por ejemplo, una transformada MDCT. La etapa de recepción puede comprender una etapa de decodificación de forma de onda 240 configurada para transformar la primera y la segunda señales con forma de onda codificada 201 y 202 en el dominio temporal. La etapa de decodificación de forma de onda 240 normalmente comprende un banco de filtros MDCT configurado para llevar a cabo una transformada MDCT inversa de la primera y la segunda señales con forma de onda codificada 201 y 202.

La etapa de recepción 110 además recibe, en la etapa D06, parámetros de reconstrucción de frecuencia alta que se usan por la etapa de reconstrucción de frecuencia alta 120 según se describirá a continuación.

La primera señal con forma de onda codificada 201 y los parámetros de frecuencia alta recibidos por la etapa de recepción 110 se ingresan entonces en la etapa de reconstrucción de frecuencia alta 120. La etapa de reconstrucción de frecuencia alta 120 normalmente funciona en señales en un dominio de la frecuencia, preferiblemente un dominio QMF. Antes de ingresarse en la etapa de reconstrucción de frecuencia alta 120, la primera señal con forma de onda codificada 201 se transforma, por lo tanto, preferiblemente, en el dominio de la frecuencia, preferiblemente el dominio QMF, por una etapa de análisis QMF 250. La etapa de análisis QMF 250 normalmente comprende un banco de filtros QMF configurado para llevar a cabo una transformada QMF de la primera señal con forma de onda codificada 201.

Según la primera señal con forma de onda codificada 201 y los parámetros de reconstrucción de frecuencia alta, la etapa de reconstrucción de frecuencia alta 120, en la etapa D08, extiende la primera señal con forma de onda codificada 201 a frecuencias por encima de la primera frecuencia de transición fc. De manera más específica, la etapa de reconstrucción de frecuencia alta 120 genera una señal de frecuencia extendida 203 que tiene un contenido espectral por encima de la primera frecuencia de transición fc. La señal de frecuencia extendida 203 es, por consiguiente, una señal de banda alta.

La etapa de reconstrucción de frecuencia alta 120 puede funcionar según cualquier algoritmo conocido para llevar a cabo la reconstrucción de frecuencia alta. En particular, la etapa de reconstrucción de frecuencia alta 120 puede configurarse para llevar a cabo SBR según se describe en el documento de revisión de Brinker y otros, An overview of the Coding Standard MPEG-4 Audio Amendments 1 and 2: HE-AAC, SSC, and HE-AAC v2, EuRASIP Journal on Audio, Speech, and Music Processing, Volume 2009, Article ID 468971. Como tal, la etapa de reconstrucción de frecuencia alta puede comprender un número de subetapas configuradas para generar la señal de frecuencia extendida 203 en un número de etapas. Por ejemplo, la etapa de reconstrucción de frecuencia alta 120 puede comprender una etapa de generación de frecuencia alta 221, una etapa de incorporación de componentes de frecuencia alta paramétricos 222, y una etapa de ajuste de envolvente 223.

4

5

10

15

20

25

30

35

40

45

50

55

En pocas palabras, la etapa de generación de frecuencia alta 221, en una primera subetapa D08a, extiende la primera señal con forma de onda codificada 201 al rango de frecuencia por encima de la frecuencia de transición fc con el fin de generar la señal de frecuencia extendida 203. La generación se lleva a cabo mediante la selección de porciones de subbanda de la primera señal con forma de onda codificada 201 y según reglas específicas, guiada por los parámetros de reconstrucción de frecuencia alta, reflejar o copiar las porciones de subbanda seleccionadas de la primera señal con forma de onda codificada 201 a porciones de subbanda seleccionadas del rango de frecuencia por encima de la primera frecuencia de transición fc.

Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de armónicos faltantes para incorporar armónicos faltantes a la señal de frecuencia extendida 203. Según se describe más arriba, un armónico faltante se interpretará como cualquier parte tonal fuerte arbitraria del espectro. Por ejemplo, los parámetros de armónicos faltantes pueden comprender parámetros relacionados con la frecuencia y amplitud de los armónicos faltantes. Según los parámetros de armónicos faltantes, la etapa de incorporación de componentes de frecuencia alta paramétricos 222 genera, en la subetapa D08b, componentes de sinusoide e incorpora los componentes de sinusoide a la señal de frecuencia extendida 203.

Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de envolvente espectral que describen los niveles de energía objetivo de la señal de frecuencia extendida 203. Según los parámetros de envolvente espectral, la etapa de ajuste de envolvente 223 puede, en la subetapa D08c, ajustar el contenido espectral de la señal de frecuencia extendida 203, a saber, los coeficientes espectrales de la señal de frecuencia extendida 203, de modo que los niveles de energía de la señal de frecuencia extendida 203 corresponden a los niveles de energía objetivo descritos por los parámetros de envolvente espectral.

La señal de frecuencia extendida 203 de la etapa de reconstrucción de frecuencia alta 120 y la segunda señal con forma de onda codificada de la etapa de recepción 110 se ingresan entonces en la etapa de intercalado 130. La etapa de intercalado 130 normalmente funciona en el mismo dominio de la frecuencia, preferiblemente el dominio QMF, como la etapa de reconstrucción de frecuencia alta 120. Por consiguiente, la segunda señal con forma de onda codificada 202 se ingresa, normalmente, en la etapa de intercalado mediante la etapa de análisis QMF 250. Además, la segunda señal con forma de onda codificada 202 se retarda, normalmente, por una etapa de retardo 260, para compensar el tiempo que lleva a la etapa de reconstrucción de frecuencia alta 120 llevar a cabo la reconstrucción de frecuencia alta. De esta manera, la segunda señal con forma de onda codificada 202 y la señal de frecuencia extendida 203 se alinearán de modo que la etapa de intercalado 130 funciona en señales correspondientes a la misma trama de tiempo.

La etapa de intercalado 130, en la etapa D10, entonces intercala, a saber, combina la segunda señal con forma de onda codificada 202 con la señal de frecuencia extendida 203 con el fin de generar una señal intercalada 204. Diferentes enfoques pueden usarse para intercalar la segunda señal con forma de onda codificada 202 con la señal de frecuencia extendida 203.

Según una realización a modo de ejemplo, la etapa de intercalado 130 intercala la señal de frecuencia extendida 203 con la segunda señal con forma de onda codificada 202 mediante la incorporación de la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202. Los contenidos espectrales de la segunda señal con forma de onda codificada 202 se superponen a los contenidos espectrales de la señal de frecuencia extendida 203 en el subconjunto del rango de frecuencia correspondiente a los contenidos espectrales de la segunda señal con forma de onda codificada 202. Mediante la incorporación de la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202, la señal intercalada 204 comprende, por consiguiente, los contenidos espectrales de la señal de frecuencia extendida 203 así como los contenidos espectrales de la segunda señal con forma de onda codificada 202 para las frecuencias que se superponen. Como resultado de la incorporación, los niveles de envolvente espectral de la señal intercalada 204 aumentan para las frecuencias superpuestas. Preferiblemente, y como se describirá más adelante, el aumento de los niveles de envolvente espectral debido a la incorporación se representa en el lado de codificador cuando se determinan niveles de envolvente de energía comprendidos en los parámetros de reconstrucción de frecuencia alta. Por ejemplo, los niveles de envolvente espectral para las frecuencias superpuestas pueden reducirse en el lado de codificador en una cantidad correspondiente al aumento en niveles de envolvente espectral debido al intercalado en el lado de decodificador.

De manera alternativa, el aumento de niveles de envolvente espectral debido a la incorporación puede representarse en el lado de decodificador. Por ejemplo, puede haber una etapa de medición de energía que mide la energía de la segunda señal con forma de onda codificada 202, compara la energía medida con los niveles de energía objetivo descritos por los parámetros de envolvente espectral, y ajusta la señal de frecuencia extendida 203 de modo que los niveles de envolvente espectral para la señal intercalada 204 son iguales a los niveles de energía objetivo.

Según otra realización a modo de ejemplo, la etapa de intercalado 130 intercala la señal de frecuencia extendida 203 con la segunda señal con forma de onda codificada 202 mediante el reemplazo de los contenidos espectrales de la señal de frecuencia extendida 203 por los contenidos espectrales de la segunda señal con forma de onda

5

10

15

20

25

30

35

40

45

50

55

codificada 202 para aquellas frecuencias donde la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202 se superponen. En realizaciones a modo de ejemplo donde la señal de frecuencia extendida 203 se reemplaza por la segunda señal con forma de onda codificada 202, no es necesario ajustar los niveles de envolvente espectral para compensar el intercalado de la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202.

La etapa de reconstrucción de frecuencia alta 120 preferiblemente funciona con una velocidad de muestreo que es igual a la velocidad de muestreo del codificador principal subyacente que se ha usado para codificar la primera señal con forma de onda codificada 201. De esta manera, la misma transformada con ventanas superpuestas como, por ejemplo, la misma MDCT, puede usarse para codificar la segunda señal con forma de onda codificada 202 que se ha usado para codificar la primera señal con forma de onda codificada 202.

La etapa de intercalado 130 puede además configurarse para recibir la primera señal con forma de onda codificada 201 de la etapa de recepción, preferiblemente mediante la etapa de decodificación de forma de onda 240, la etapa de análisis QMF 250, y la etapa de retardo 260, y para combinar la señal intercalada 204 con la primera señal con forma de onda codificada 201 con el fin de generar una señal combinada 205 que tiene un contenido espectral para frecuencias por debajo y por encima de la primera frecuencia de transición.

La señal de salida de la etapa de intercalado 130, a saber, la señal intercalada 204 o la señal combinada 205, puede, posteriormente, por una etapa de síntesis QMF 270, transformarse otra vez en el dominio temporal.

Preferiblemente, la etapa de análisis QMF 250 y la etapa de síntesis QMF 270 tienen el mismo número de subbandas, lo que significa que la velocidad de muestreo de la señal que se ingresa en la etapa de análisis QMF 250 es igual a la velocidad de muestreo de la señal que se emite de la etapa de síntesis QMF 270. Como consecuencia, el codificador de forma de onda (mediante el uso de MDCT) que se ha usado para codificar la forma de onda de la primera y la segunda señales con forma de onda codificada puede funcionar en la misma velocidad de muestreo que la señal de salida. Por consiguiente, la primera y la segunda señales con forma de onda codificada pueden, de manera eficaz y estructuralmente de manera fácil, codificarse mediante el uso de la misma transformada MDCT. Ello es opuesto a la técnica anterior donde la velocidad de muestreo del codificador de forma de onda normalmente se encontraba limitado a la mitad de aquella de la señal de salida, y el módulo de reconstrucción de frecuencia alta posterior llevaba a cabo un muestreo ascendente así como una reconstrucción de frecuencia alta. Ello limita la capacidad de codificar la forma de onda de frecuencias que cubren todo el rango de frecuencia de salida.

La Figura 4 ilustra una realización a modo de ejemplo del decodificador 400. El decodificador 400 pretende proveer una reconstrucción de señal mejorada para frecuencias altas en el caso donde existen transitorios en la señal de audio de entrada que se reconstruirá. La principal diferencia entre el ejemplo de la Figura 4 y el de la Figura 2 es la forma del contenido espectral y la duración de la segunda señal con forma de onda codificada.

La Figura 4 ilustra el funcionamiento del decodificador 400 durante múltiples porciones de tiempo subsiguientes de una trama de tiempo; aquí, se muestran tres porciones de tiempo subsiguientes. Una trama de tiempo puede, por ejemplo, corresponder a 2048 muestras de tiempo. De manera específica, durante una primera porción de tiempo, la etapa de recepción 110 recibe una primera señal con forma de onda codificada 401a que tiene un contenido espectral hasta una primera frecuencia de transición fc1. No se recibe ninguna segunda señal con forma de onda codificada durante la primera porción de tiempo.

Durante la segunda porción de tiempo, la etapa de recepción 110 recibe una primera señal con forma de onda codificada 401b que tiene un contenido espectral hasta la primera frecuencia de transición fc1, y una segunda señal con forma de onda codificada 402b que tiene un contenido espectral que corresponde a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición fc1. En el ejemplo ilustrado de la Figura 4, la segunda señal con forma de onda codificada 402b tiene un contenido espectral correspondiente a un intervalo de frecuencia que se extiende entre la primera frecuencia de transición fc1 y una segunda frecuencia de transición fc2. La segunda señal con forma de onda codificada 402b es, por consiguiente, una señal de banda limitada que se encuentra limitada a la banda de frecuencia entre la primera frecuencia de transición fc1 y la segunda frecuencia de transición

fc2.

Durante la tercera porción de tiempo, la etapa de recepción 110 recibe una primera señal con forma de onda codificada 401c que tiene un contenido espectral hasta la primera frecuencia de transición fc1. No se recibe ninguna segunda señal con forma de onda codificada para la tercera porción de tiempo.

Para la primera y tercera porciones de tiempo ilustradas, no hay segundas señales con forma de onda codificada. Para dichas porciones de tiempo, el decodificador funcionará según un decodificador convencional configurado para llevar a cabo la reconstrucción de frecuencia alta como, por ejemplo, un decodificador SBR convencional. La etapa de reconstrucción de frecuencia alta 120 generará señales de frecuencia extendida 403a y 403c según las primeras señales con forma de onda codificada 401a y 401c, respectivamente. Sin embargo, dado que no hay segundas señales con forma de onda codificada, no se llevará a cabo ningún intercalado por la etapa de intercalado 130.

6

5

10

15

20

25

30

35

40

45

50

55

60

Para la segunda porción de tiempo ilustrada, hay una segunda señal con forma de onda codificada 402b. Para la segunda porción de tiempo, el decodificador 400 funcionará en la misma manera que se describe con respecto a la Figura 2. En particular, la etapa de reconstrucción de frecuencia alta 120 lleva a cabo la reconstrucción de frecuencia alta según la primera señal con forma de onda codificada y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida 403b. La señal de frecuencia extendida 403b se ingresa, posteriormente, en la etapa de intercalado 130 donde se intercala con la segunda señal con forma de onda codificada 402b en una señal intercalada 404b. Según se describe en conexión con la realización a modo de ejemplo de la Figura 2, el intercalado puede llevarse a cabo mediante el uso de un enfoque de incorporación o de reemplazo.

En el ejemplo de más arriba, no hay una segunda señal con forma de onda codificada para la primera y tercera porciones de tiempo. Para dichas porciones de tiempo, la segunda frecuencia de transición es igual a la primera frecuencia de transición, y no se lleva a cabo ningún intercalado. Para la segunda trama de tiempo, la segunda frecuencia de transición es más grande que la primera frecuencia de transición, y el intercalado se lleva a cabo. En general, la segunda frecuencia de transición puede, por consiguiente, variar como una función de tiempo. En particular, la segunda frecuencia de transición puede variar dentro de una trama de tiempo. El intercalado se llevará a cabo cuando la segunda frecuencia de transición sea más grande que la primera frecuencia de transición y más pequeña que una frecuencia máxima representada por el decodificador. El caso donde la segunda frecuencia de transición es igual a la frecuencia máxima corresponde a la codificación de forma de onda pura y no se necesita ninguna reconstrucción de frecuencia alta.

Debe notarse que las realizaciones descritas con respecto a las Figuras 2 y 4 pueden combinarse. La Figura 7 ilustra una matriz de frecuencia de tiempo 700 definida con respecto al dominio de la frecuencia, preferiblemente el dominio QMF, en el cual el intercalado se lleva a cabo por la etapa de intercalado 130. La matriz de frecuencia de tiempo 700 ilustrada corresponde a una trama de una señal de audio que se decodificará. La matriz 700 ilustrada se divide en 16 intervalos de tiempo y múltiples subbandas de frecuencia que comienzan en la primera frecuencia de transición fc1. Además, se muestran un primer rango de tiempo T1 que cubre el rango de tiempo por debajo del octavo intervalo de tiempo, un segundo rango de tiempo T2 que cubre el octavo intervalo de tiempo, y un rango de tiempo T3 que cubre los intervalos de tiempo por encima del octavo intervalo de tiempo. Diferentes envolventes espectrales, como parte de los datos SBR, pueden asociarse a los diferentes rangos de tiempo T1 a T3.

En el presente ejemplo, dos componentes tonales fuertes en bandas de frecuencia 710 y 720 se han identificado en la señal de audio en el lado de codificador. Las bandas de frecuencia 710 y 720 pueden ser del mismo ancho de banda que, p.ej., bandas de envolvente SBR, a saber, la misma resolución de frecuencia que se usa para representar la envolvente espectral. Dichos componentes tonales en las bandas 710 y 720 tienen un rango de tiempo correspondiente a la trama de tiempo completa, a saber, el rango de tiempo de los componentes tonales incluye los rangos de tiempo T1 a T3. En un lado de codificador, se ha decidido codificar la forma de onda de los componentes tonales de 710 y 720 durante el primer rango de tiempo T1, ilustrado por el componente tonal 710a y 720 en líneas punteadas durante el primer rango de tiempo T1. Además, se ha decidido en un lado de codificador que durante el segundo y tercer rangos de tiempo T2 y T3, el primer componente tonal 710 se reconstruirá de forma paramétrica en el decodificador mediante la incorporación de una sinusoide según se explica en conexión con la etapa de componentes de frecuencia alta paramétricos 222 de la Figura 2. Ello se ilustra por el patrón cuadrado del primer componente tonal 710b durante (el segundo rango de tiempo T2) y el tercer rango de tiempo T3. Durante el segundo y tercer rangos de tiempo T2 y T3, el segundo componente tonal 720 aún tiene forma de onda codificada. Además, en la presente realización, el primer y segundo componentes tonales se intercalarán con la señal de audio reconstruida de alta frecuencia por medio de la incorporación y, por lo tanto, el codificador ha ajustado la envolvente espectral transmitida, la envolvente SBR, de manera acorde.

Además, un transitorio 730 se ha identificado en la señal de audio en el lado de codificador. El transitorio 730 tiene una duración temporal correspondiente al segundo rango de tiempo T2, y corresponde a un intervalo de frecuencia entre la primera frecuencia de transición fc1 y una segunda frecuencia de transición fc2. En un lado de codificador, se ha decidido codificar la forma de onda de la porción tiempo-frecuencia de la señal de audio correspondiente a la ubicación del transitorio. En la presente realización, el intercalado del transitorio con forma de onda codificada se lleva a cabo mediante reemplazo. Un esquema de señalización se establece para señalizar dicha información al decodificador. El esquema de señalización comprende información relacionada con en qué rangos de tiempo y/o en qué rangos de frecuencia por encima de la primera frecuencia de transición fc1 una segunda señal con forma de onda codificada se encuentra disponible. El esquema de señalización puede también asociarse a reglas relacionadas con cómo se llevará a cabo el intercalado, a saber, si el intercalado es por medio de la incorporación o reemplazo. El esquema de señalización puede también asociarse a reglas que definen el orden de prioridad de la incorporación o reemplazo de las diferentes señales según se explicará más abajo.

El esquema de señalización incluye un primer vector 740, etiquetado "sinusoide adicional", que indica para cada subbanda de frecuencia si una sinusoide debe añadirse o no de manera paramétrica. En la Figura 7, la incorporación del primer componente tonal 710b en el segundo y tercer rangos de tiempo T2 y T3 se indica por un "1" para la subbanda correspondiente del primer vector 740. La señalización que incluye el primer vector 740 se conoce

5

10

15

20

25

30

35

40

45

50

55

de la técnica anterior. Existen reglas definidas en el decodificador de la técnica anterior para cuando se permite que una sinusoide se inicie. La regla es que si se detecta una nueva sinusoide, a saber, la señalización "sinusoide adicional" del primer vector 740 va de cero en una trama a uno en la siguiente trama, para una subbanda específica, entonces la sinusoide comienza en el inicio de la trama a menos que haya un episodio de transitorio en la trama, por lo cual la sinusoide comienza en el transitorio. En el ejemplo ilustrado, hay un episodio de transitorio 730 en la trama que explica porqué la reconstrucción de forma paramétrica por medio de un sinusoidal para la banda de frecuencia 710 solo comienza después del episodio de transitorio 730.

El esquema de señalización además incluye un segundo vector 750, etiquetado "codificación de forma de onda". El segundo vector 750 indica para cada subbanda de frecuencia si una señal con forma de onda codificada se encuentra disponible para intercalarse con una reconstrucción de frecuencia alta de la señal de audio. En la Figura 7, la disponibilidad de una señal con forma de onda codificada para el primer y el segundo componentes tonales 710 y 720 se indica mediante un "1" para la subbanda correspondiente del segundo vector 750. En el presente ejemplo, la indicación de disponibilidad de datos con forma de onda codificada en el segundo vector 750 también es una indicación de que el intercalado se llevará a cabo a modo de incorporación. Sin embargo, en otras realizaciones, la indicación de disponibilidad de datos con forma de onda codificada en el segundo vector 750 puede ser una indicación de que el intercalado se llevará a cabo a modo de reemplazo.

El esquema de señalización además incluye un tercer vector 760, etiquetado "codificación de forma de onda". El tercer vector 760 indica para cada intervalo de tiempo si una señal con forma de onda codificada se encuentra disponible para el intercalado con una reconstrucción de frecuencia alta de la señal de audio. En la Figura 7, la disponibilidad de una señal con forma de onda codificada para el transitorio 730 se indica mediante un "1" para el intervalo de tiempo correspondiente del tercer vector 760. En el presente ejemplo, la indicación de disponibilidad de datos con forma de onda codificada en el tercer vector 760 también es una indicación de que el intercalado se llevará a cabo a modo de reemplazo. Sin embargo, en otras realizaciones, la indicación de disponibilidad de datos con forma de onda codificada en el tercer vector 760 puede ser una indicación de que el intercalado se llevará a cabo a modo de incorporación.

Existen muchas alternativas para cómo realizar el primer, segundo y tercer vectores 740, 750, 760. En algunas realizaciones, los vectores 740, 750, 760 son vectores binarios que usan una lógica cero o una lógica uno para proveer sus indicaciones. En otras realizaciones, los vectores 740, 750, 760 pueden tomar diferentes formas. Por ejemplo, un primer valor como, por ejemplo, "0" en el vector puede indicar que ningún dato con forma de onda codificada se encuentra disponible para la banda de frecuencia o intervalo de tiempo específico. Un segundo valor como, por ejemplo, "1" en el vector puede indicar que el intercalado se llevará a cabo a modo de incorporación para la banda de frecuencia o intervalo de tiempo específico. Un tercer valor como, por ejemplo, "2" en el vector puede indicar que el intercalado se llevará a cabo a modo de reemplazo para la banda de frecuencia o intervalo de tiempo específico.

El esquema de señalización a modo de ejemplo de más arriba puede también asociarse a un orden de prioridad que puede aplicarse en caso de conflicto. A modo de ejemplo, el tercer vector 760, que representa el intercalado de un transitorio a modo de reemplazo puede tener prioridad sobre el primer y segundo vectores 740 y 750. Además, el primer vector 740 puede tener prioridad sobre el segundo vector 750. Se comprende que cualquier orden de prioridad entre los vectores 740, 750, 760 puede definirse.

La Figura 8a ilustra la etapa de intercalado 130 de la Figura 1 en mayor detalle. La etapa de intercalado 130 puede comprender un componente de decodificación de señalización 1301, un componente de lógica de decisión 1302 y un componente de intercalado 1303. Según se describe más arriba, la etapa de intercalado 130 recibe una segunda señal con forma de onda codificada 802 y una señal de frecuencia extendida 803. La etapa de intercalado 130 puede también recibir una señal de control 805. El componente de decodificación de señalización 1301 decodifica la señal de control 805 en tres partes correspondientes al primer vector 740, segundo vector 750, y tercer vector 760 del esquema de señalización descrito con respecto a la Figura 7. Estos se envían al componente de lógica de decisión 1302 que, según la lógica, crea una matriz tiempo/frecuencia 870 para la trama QMF que indica cuál de la segunda señal con forma de onda codificada 802 y la señal de frecuencia extendida 803 usar para qué losa tiempo/frecuencia. La matriz tiempo/frecuencia 870 se envía al componente de intercalado 1303 y se usa cuando se intercala la segunda señal con forma de onda codificada 802 con la señal de frecuencia extendida 803.

El componente de lógica de decisión 1302 se muestra en mayor detalle en la Figura 8b. Los componentes de lógica de decisión 1302 pueden comprender un componente de generación de matriz tiempo/frecuencia 13021 y un componente de priorización 13022. El componente de generación de tiempo/frecuencia 13021 genera una matriz tiempo/frecuencia 870 que tiene losas tiempo/frecuencia correspondientes a la trama QMF actual. El componente de generación de tiempo/frecuencia 13021 incluye información del primer vector 740, segundo vector 750 y tercer vector 760 en la matriz tiempo/frecuencia. Por ejemplo, según se ilustra en la Figura 7, si hay un "1" (o, de manera más general, cualquier número diferente de cero) en el segundo vector 750 para cierta frecuencia, las losas tiempo/frecuencia correspondientes a dicha cierta frecuencia se establecen en "1" (o, de manera más general, en el número presente en el vector 750) en la matriz tiempo/frecuencia 870 e indica que el intercalado con la segunda

5

10

15

20

25

30

35

40

45

50

55

señal con forma de onda codificada 802 se llevará a cabo para dichas losas tiempo/frecuencia. De manera similar, si hay un "1" (o, de manera más general, cualquier número diferente de cero) en el tercer vector 760 para cierto intervalo de tiempo, las losas tiempo/frecuencia correspondientes a dicho cierto intervalo de tiempo se establecen en "1" (o, de manera más general, cualquier número diferente de cero) en la matriz tiempo/frecuencia 870 e indica que el intercalado con la segunda señal con forma de onda codificada 802 se llevará a cabo para dichas losas tiempo/frecuencia. Asimismo, si hay un "1" en el primer vector 740 para cierta frecuencia, las losas tiempo/frecuencia correspondientes a dicha cierta frecuencia se establecen en "1" en la matriz tiempo/frecuencia 870 e indica que la señal de salida 804 se basará en la señal de frecuencia extendida 803 en la cual dicha cierta frecuencia se ha reconstruido de manera paramétrica, p.ej., mediante la incorporación de una señal sinusoidal.

Para algunas losas tiempo/frecuencia, habrá un conflicto entre la información del primer vector 740, segundo vector 750 y tercer vector 760, lo cual significa que más de uno de los vectores 740-760 indica un número diferente de cero como, por ejemplo, un "1", para la misma losa tiempo/frecuencia de la matriz tiempo/frecuencia 870. En dicha situación, el componente de priorización 13022 necesita tomar una decisión sobre cómo priorizar la información de los vectores con el fin de eliminar los conflictos en la matriz tiempo/frecuencia 870. De manera más precisa, el componente de priorización 13022 decide si la señal de salida 804 se basará en la señal de frecuencia extendida 803 (y, de esta manera, dar prioridad al primer vector 740), mediante el intercalado de la segunda señal con forma de onda codificada 802 en una dirección de frecuencia (y, de esta manera, dar prioridad al segundo vector 750), o mediante el intercalado de la segunda señal con forma de onda codificada 802 en una dirección de tiempo (y, de esta manera, dar prioridad al tercer vector 750).

A tal fin, el componente de priorización 13022 comprende reglas predefinidas relacionadas con un orden de prioridad de los vectores 740-760. El componente de priorización 13022 puede también comprender reglas predefinidas relacionadas con cómo se llevará a cabo el intercalado, a saber, si el intercalado se llevará a cabo a modo de incorporación o reemplazo.

Preferiblemente, dichas reglas son las siguientes:

■ Intercalado en la dirección de tiempo, a saber, al intercalado, según se define por el tercer vector 760, se le da la prioridad más alta. El intercalado en la dirección de tiempo se lleva a cabo, preferiblemente, mediante el reemplazo de la señal de frecuencia extendida 803 en dichas losas tiempo/frecuencia definidas por el tercer vector 760. La resolución de tiempo del tercer vector 760 corresponde a un intervalo de tiempo de la trama QMF. Si la trama QMF corresponde a 2048 muestras de dominio temporal, un intervalo de tiempo puede, normalmente, corresponder a 128 muestras de dominio temporal.

■ A la reconstrucción paramétrica de frecuencias, a saber, mediante el uso de la señal de frecuencia extendida 803 según se define por el primer vector 740, se le da la segunda prioridad más alta. La resolución de frecuencia del primer vector 740 es la resolución de frecuencia de la trama QMF como, por ejemplo, una banda de envolvente SBR. Las reglas de la técnica anterior relacionadas con la señalización e interpretación del primer vector 740 permanecen válidas.

■ Intercalado en la dirección de frecuencia, a saber, al intercalado, según se define por el segundo vector 750, se le da el orden de prioridad más bajo. El intercalado en la dirección de frecuencia se lleva a cabo mediante la incorporación de la señal de frecuencia extendida 803 en dichas losas tiempo/frecuencia definidas por el segundo vector 750. La resolución de frecuencia del segundo vector 750 corresponde a la resolución de frecuencia de la trama QMF como, por ejemplo, una banda de envolvente SBR.

III. Realizaciones a modo de ejemplo - Codificador

La Figura 5 ilustra una realización a modo de ejemplo de un codificador 500 que es apropiado para su uso en un sistema de procesamiento de audio. El codificador 500 comprende una etapa de recepción 510, una etapa de codificación de forma de onda 520, una etapa de codificación de alta frecuencia 530, una etapa de detección de codificación de intercalado 540, y una etapa de transmisión 550. La etapa de codificación de alta frecuencia 530 puede comprender una etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a y una etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b.

El funcionamiento del codificador 500 se describirá a continuación con referencia a la Figura 5 y al diagrama de flujo de la Figura 6. En la etapa E02, la etapa de recepción 510 recibe una señal de audio que se codificará.

La señal de audio recibida se ingresa en la etapa de codificación de alta frecuencia 530. Según la señal de audio recibida, la etapa de codificación de alta frecuencia 530 y, en particular, la etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a, calcula, en la etapa E04, parámetros de reconstrucción de frecuencia alta, lo cual permite la reconstrucción de frecuencia alta de la señal de audio recibida por encima de la primera frecuencia de transición fc. La etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a puede usar cualquier técnica conocida para calcular los parámetros de reconstrucción de frecuencia alta como, por ejemplo, la codificación SBR. La etapa de codificación de alta frecuencia 530 normalmente funciona en un dominio QMF. Por

9

5

10

15

20

25

30

35

40

45

50

55

consiguiente, antes de calcular los parámetros de reconstrucción de frecuencia alta, la etapa de codificación de alta frecuencia 530 puede llevar a cabo el análisis QMF de la señal de audio recibida. Como resultado, los parámetros de reconstrucción de frecuencia alta se definen con respecto a un dominio QMF.

Los parámetros de reconstrucción de frecuencia alta calculados pueden comprender un número de parámetros relacionados con la reconstrucción de frecuencia alta. Por ejemplo, los parámetros de reconstrucción de frecuencia alta pueden comprender parámetros relacionados con cómo reflejar o copiar la señal de audio de porciones de subbanda del rango de frecuencia por debajo de la primera frecuencia de transición fc a porciones de subbanda del rango de frecuencia por encima de la primera frecuencia de transición fc. A veces, se hace referencia a dichos parámetros como parámetros que describen la estructura de interconexión.

Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de envolvente espectral que describen los niveles de energía objetivo de porciones de subbanda del rango de frecuencia por encima de la primera frecuencia de transición.

Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de armónicos faltantes que indican armónicos, o componentes tonales fuertes que faltarán si la señal de audio se reconstruye en el rango de frecuencia por encima de la primera frecuencia de transición mediante el uso de los parámetros que describen la estructura de interconexión.

La etapa de detección de codificación de intercalado 540 luego, en la etapa E06, identifica un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición fc para el cual el contenido espectral de la señal de audio recibida tendrá forma de onda codificada. En otras palabras, el rol de la etapa de detección de codificación de intercalado 540 es identificar frecuencias por encima de la primera frecuencia de transición para la cual la reconstrucción de frecuencia alta no provee un resultado deseable.

La etapa de detección de codificación de intercalado 540 puede tomar diferentes enfoques para identificar un subconjunto relevante del rango de frecuencia por encima de la primera frecuencia de transición fc. Por ejemplo, la etapa de detección de codificación de intercalado 540 puede identificar componentes tonales fuertes que no se reconstruirán bien por la reconstrucción de frecuencia alta. La identificación de componentes tonales fuertes puede basarse en la señal de audio recibida, por ejemplo, mediante la determinación de la energía de la señal de audio como una función de la frecuencia e identificación de frecuencias que tienen una energía alta como unas que comprenden componentes tonales fuertes. Además, la identificación puede basarse en el conocimiento sobre cómo la señal de audio recibida se reconstruirá en el decodificador. En particular, dicha identificación puede basarse en cuotas de tonalidad que constituyen la relación de una medida de tonalidad de la señal de audio recibida y la medida de tonalidad de una reconstrucción de la señal de audio recibida para bandas de frecuencia por encima de la primera frecuencia de transición. Una cuota de tonalidad alta indica que la señal de audio no se reconstruirá bien para la frecuencia correspondiente a la cuota de tonalidad.

La etapa de detección de codificación de intercalado 540 puede también detectar transitorios en la señal de audio recibida que no se reconstruirá bien por la reconstrucción de frecuencia alta. Dicha identificación puede ser el resultado de un análisis tiempo-frecuencia de la señal de audio recibida. Por ejemplo, un intervalo tiempo-frecuencia donde ocurre un transitorio puede detectarse a partir de un espectrograma de la señal de audio recibida. Dicho intervalo tiempo-frecuencia normalmente tiene un rango de tiempo que es más corto que una trama de tiempo de la señal de audio recibida. El rango de frecuencia correspondiente normalmente corresponde a un intervalo de frecuencia que se extiende a una segunda frecuencia de transición. El subconjunto del rango de frecuencia por encima de la primera frecuencia de transición puede, por lo tanto, identificarse por la etapa de detección de codificación de intercalado 540 como un intervalo que se extiende de la primera frecuencia de transición a una segunda frecuencia de transición.

La etapa de detección de codificación de intercalado 540 puede además recibir parámetros de reconstrucción de frecuencia alta de la etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a. Según los parámetros de armónicos faltantes de los parámetros de reconstrucción de frecuencia alta, la etapa de detección de codificación de intercalado 540 puede identificar frecuencias de armónicos faltantes y decidir incluir al menos algunas de las frecuencias de los armónicos faltantes en el subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc. Dicho enfoque puede ser ventajoso si hay un componente tonal fuerte en la señal de audio que no puede modelarse de forma correcta dentro de los límites del modelo paramétrico.

La señal de audio recibida se ingresa también en la etapa de codificación de forma de onda 520. La etapa de codificación de forma de onda 520, en la etapa E08, lleva a cabo la codificación de forma de onda de la señal de audio recibida. En particular, la etapa de codificación de forma de onda 520 genera una primera señal con forma de onda codificada mediante la codificación de forma de onda de la señal de audio para bandas espectrales hasta la primera frecuencia de transición fc. Además, la etapa de codificación de forma de onda 520 recibe el subconjunto identificado de la etapa de detección de codificación de intercalado 540. La etapa de codificación de forma de onda 520 entonces genera una segunda señal con forma de onda codificada mediante la codificación de forma de onda

5

10

15

20

25

30

35

40

45

50

55

de la señal de audio recibida para bandas espectrales correspondientes al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición. La segunda señal con forma de onda codificada tendrá, por lo tanto, un contenido espectral correspondiente al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc.

Según las realizaciones a modo de ejemplo, la etapa de codificación de forma de onda 520 puede generar la primera y segunda señales con forma de onda codificada mediante la primera codificación de forma de onda de la señal de audio recibida para todas las bandas espectrales y luego eliminar el contenido espectral de la señal con forma de onda codificada para frecuencias correspondientes al subconjunto identificado de frecuencias por encima de la primera frecuencia de transición fc.

La etapa de codificación de forma de onda puede, por ejemplo, llevar a cabo la codificación de forma de onda mediante el uso de un banco de filtros de transformada con ventanas superpuestas como, por ejemplo, un banco de filtros MDCT. Dichos bancos de filtros de transformada con ventanas superpuestas usan ventanas que tienen cierta longitud temporal, lo cual provoca que los valores de la señal transformada en una trama de tiempo se vea influenciada por valores de la señal en la trama de tiempo previa y siguiente. Con el fin de reducir el efecto de este hecho, puede ser ventajoso llevar a cabo cierta cantidad de sobrecodificación temporal, lo cual significa que la etapa de codificación de forma de onda 520 no solo codifica la forma de onda de la trama de tiempo actual de la señal de audio recibida sino también la trama de tiempo previa y siguiente de la señal de audio recibida. De manera similar, también la etapa de codificación de alta frecuencia 530 puede codificar no solo la trama de tiempo actual de la señal de audio recibida sino también la trama de tiempo previa y siguiente de la señal de audio recibida. De esta manera, un fondo encadenado mejorado entre la segunda señal con forma de onda codificada y una reconstrucción de frecuencia alta de la señal de audio puede lograrse en el dominio QMF. Además, ello reduce la necesidad de ajuste de los bordes de datos de envolvente espectral.

Debe notarse que la primera y segunda señales con forma de onda codificada pueden ser señales separadas. Sin embargo, preferiblemente forman una primera y segunda porciones de señal con forma de onda codificada de una señal común. De ser así, pueden generarse llevando a cabo una sola función de codificación de forma de onda en la señal de audio recibida como, por ejemplo, mediante la aplicación de una sola transformada MDCT a la señal de audio recibida.

La etapa de codificación de alta frecuencia 530 y, en particular, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b, pueden también recibir el subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc. Según los datos recibidos, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede, en la etapa E10, ajustar los parámetros de reconstrucción de frecuencia alta. En particular, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede ajustar los parámetros de reconstrucción de frecuencia alta correspondientes a bandas espectrales comprendidas en el subconjunto identificado.

Por ejemplo, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede ajustar los parámetros de envolvente espectral y describir los niveles de energía objetivo de porciones de subbanda del rango de frecuencia por encima de la primera frecuencia de transición. Ello es particularmente relevante si la segunda señal con forma de onda codificada se añadirá con una reconstrucción de frecuencia alta de la señal de audio en un decodificador, dado que entonces la energía de la segunda señal con forma de onda codificada se añadirá a la energía de la reconstrucción de frecuencia alta. Con el fin de compensar dicha incorporación, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede ajustar los parámetros de envolvente de energía mediante la resta de una energía medida de la segunda señal con forma de onda codificada de los niveles de energía objetivo para bandas espectrales correspondientes al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc. De esta manera, la energía de señal total se preservará cuando la segunda señal con forma de onda codificada y la reconstrucción de frecuencia alta se añadan al decodificador. La energía de la segunda señal con forma de onda codificada puede, por ejemplo, medirse por la etapa de detección de codificación de intercalado 540.

La etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede también ajustar los parámetros de armónicos faltantes. Más concretamente, si una subbanda que comprende un armónico faltante según se indica por los parámetros de armónicos faltantes es parte del subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc, dicha subbanda tendrá forma de onda codificada por la etapa de codificación de forma de onda 520. Por consiguiente, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede eliminar dichos armónicos faltantes de los parámetros de armónicos faltantes, dado que dichos armónicos faltantes no necesitan reconstruirse de manera paramétrica en el lado de decodificador.

La etapa de transmisión 550 entonces recibe la primera y segunda señales con forma de onda codificada de la etapa de codificación de forma de onda 520 y los parámetros de reconstrucción de frecuencia alta de la etapa de codificación de alta frecuencia 530. La etapa de transmisión 550 formatea los datos recibidos en un tren de bits para su transmisión a un decodificador.

5

10

15

20

25

30

35

40

45

La etapa de detección de codificación de intercalado 540 puede además señalizar información a la etapa de transmisión 550 para su incorporación al tren de bits. En particular, la etapa de detección de codificación de intercalado 540 puede señalizar cómo la segunda señal con forma de onda codificada se intercalará con una reconstrucción de frecuencia alta de la señal de audio como, por ejemplo, si el intercalado se llevará a cabo mediante la incorporación de las señales o mediante el reemplazo de una de las señales por la otra, y para qué rango de frecuencia y qué intervalo de tiempo las señales con forma de onda codificada deben intercalarse. Por ejemplo, la señalización puede llevarse a cabo mediante el uso del esquema de señalización descrito con referencia a la Figura 7.

Equivalentes, extensiones, alternativas y varios

Realizaciones adicionales de la presente descripción serán aparentes para una persona con experiencia en la técnica tras estudiar la descripción de más arriba. Aunque la presente descripción y dibujos describen realizaciones y ejemplos, la descripción no se encuentra limitada a dichos ejemplos específicos. Se pueden llevar a cabo numerosas modificaciones y variaciones sin apartarse del alcance de la presente descripción, el cual se define por las reivindicaciones anexas. Todo signo de referencia que aparezca en las reivindicaciones no se comprenderá como uno que limita su alcance.

Además, las variaciones de las realizaciones descritas se pueden comprender y llevar a cabo por la persona con experiencia en la técnica al practicar la descripción, a partir de un estudio de los dibujos, la descripción y las reivindicaciones anexas. En las reivindicaciones, la expresión "que comprende(n)" no excluye otros elementos o etapas, y el artículo indefinido "un" o "una/o" no excluye una pluralidad. El mero hecho de que ciertas medidas se incluyan en reivindicaciones dependientes mutuamente diferentes no indica que una combinación de dichas medidas no se pueda usar de manera ventajosa.

Los sistemas y métodos descritos en la presente memoria más arriba se pueden implementar como software, firmware, hardware o una combinación de ellos. En una implementación de hardware, la división de tareas entre unidades funcionales a la que se hace referencia en la descripción de más arriba no corresponde, necesariamente, a la división en unidades físicas; por el contrario, un componente físico puede tener múltiples funcionalidades y una tarea puede llevarse a cabo por varios componentes físicos en colaboración. Ciertos componentes o todos los componentes se pueden implementar como software ejecutado por un procesador digital de señales o microprocesador, o se pueden implementar como hardware o como un circuito integrado para aplicaciones específicas. Dicho software se puede distribuir en medios legibles por ordenador, los cuales pueden comprender medios de almacenamiento de ordenador (o medios no transitorios) y medios de comunicación (o medios transitorios). Como una persona con experiencia en la técnica conoce, el término medio de almacenamiento de ordenador incluye medios no permanentes y permanentes, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información como, por ejemplo, instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de ordenador incluyen, pero sin limitación, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, casetes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que se pueda usar para almacenar la información deseada y al que se pueda acceder por un ordenador. Además, la persona con experiencia en la técnica sabe que los medios de comunicación normalmente realizan instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada como, por ejemplo, una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información.

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

1. Un método de decodificación en un sistema de procesamiento de audio que comprende:

recibir una primera señal con forma de onda codificada (401a, 401b, 401c) que tiene un contenido espectral hasta una primera frecuencia de transición,

recibir una señal de control (805) que comprende datos que indican uno o más rangos de tiempo para los cuales una segunda señal con forma de onda codificada se encuentra disponible para el intercalado,

recibir una segunda señal con forma de onda codificada (402b) que tiene un contenido espectral correspondiente a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición, en donde, para cada rango de tiempo para el cual una segunda señal con forma de onda codificada se indica como disponible por la señal de control, el contenido espectral de la segunda señal con forma de onda codificada incluye todas las subbandas de frecuencia de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición,

recibir parámetros de reconstrucción de frecuencia alta,

llevar a cabo la reconstrucción de frecuencia alta mediante el uso de la primera señal con forma de onda codificada (401a, 401b, 401c) y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida (403a, 403b, 403c) que tiene un contenido espectral por encima de la primera frecuencia de transición, e

intercalar la señal de frecuencia extendida (403a, 403b, 403c) con la segunda señal con forma de onda codificada (402b) según la señal de control recibida (805).
2. El método de decodificación de la reivindicación 1, en donde la señal de control además comprende datos que indican uno o más rangos de frecuencia por encima de la primera frecuencia de transición para la cual la segunda señal con forma de onda codificada se encuentra disponible para el intercalado, y en donde el subconjunto del rango de frecuencia por encima de la primera frecuencia de transición además comprende múltiples intervalos de frecuencia aislados correspondientes al único o más rangos de frecuencia indicados.
3. El método de decodificación de la reivindicación 1, en donde los datos que indican uno o más rangos de tiempo indican la disponibilidad de la segunda señal con forma de onda codificada para cada intervalo de tiempo de una trama de tiempo establecida por el sistema de procesamiento de audio.
4. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde la etapa de llevar a cabo la reconstrucción de frecuencia alta comprende llevar a cabo la replicación de banda espectral, SBR.
5. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde la etapa de llevar a cabo la reconstrucción de frecuencia alta se lleva a cabo en un dominio de la frecuencia, y/o

en donde la etapa de intercalar la señal de frecuencia extendida con la segunda señal con forma de onda codificada se lleva a cabo en un dominio de la frecuencia.
6. El método de decodificación de la reivindicación 5, en donde el dominio de la frecuencia es un dominio de Filtros Espejo en Cuadratura, QMF, por sus siglas en inglés, y/o

en donde la primera y segunda señales con forma de onda codificada según se reciben se codifican mediante el uso de la misma transformada MDCT, y/o

en donde la primera señal con forma de onda codificada y la segunda señal con forma de onda codificada forman una primera y segunda porciones de señal de una señal común.
7. El método de decodificación de cualquiera de las reivindicaciones precedentes, que además comprende ajustar el contenido espectral de la señal de frecuencia extendida según los parámetros de reconstrucción de frecuencia alta para ajustar la envolvente espectral de la señal de frecuencia extendida.
8. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde el intercalado comprende añadir la segunda señal con forma de onda codificada a la señal de frecuencia extendida, o

en donde el intercalado comprende reemplazar el contenido espectral de la señal de frecuencia extendida por el contenido espectral de la segunda señal con forma de onda codificada en el subconjunto del rango de frecuencia por encima de la primera frecuencia de transición que corresponde al contenido espectral de la segunda señal con forma de onda codificada.

5

10

15

20

25

30

35

40

45

50
9. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde la señal de control comprende al menos uno de un segundo vector que indica uno o más rangos de frecuencia por encima de la primera frecuencia de transición para los cual la segunda señal con forma de onda codificada se encuentra disponible para el intercalado con la señal de frecuencia extendida, y un tercer vector que indica el único o más rangos de tiempo para los cuales la segunda señal con forma de onda codificada se encuentra disponible para el intercalado con la señal de frecuencia extendida.
10. El método de decodificación de la reivindicación 9, en donde la señal de control comprende un primer vector que indica uno o más rangos de frecuencia por encima de la primera frecuencia de transición que se reconstruirá, de manera paramétrica, según los parámetros de reconstrucción de frecuencia alta.
11. Un decodificador para un sistema de procesamiento de audio, que comprende:

una etapa de recepción configurada para recibir una primera señal con forma de onda codificada (401a, 401b, 401c) que tiene un contenido espectral hasta una primera frecuencia de transición, una señal de control (805) que comprende datos que indican uno o más rangos de tiempo para los cuales una segunda señal con forma de onda codificada se encuentra disponible para el intercalado, y una segunda señal con forma de onda codificada (402b) que tiene un contenido espectral correspondiente a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición, y parámetros de reconstrucción de frecuencia alta, en donde, para cada rango de tiempo para el cual una segunda señal con forma de onda codificada se indica como disponible por la señal de control, el contenido espectral de la segunda señal con forma de onda codificada incluye todas las subbandas de frecuencia de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición;

una etapa de reconstrucción de frecuencia alta configurada para recibir la primera señal con forma de onda codificada y los parámetros de reconstrucción de frecuencia alta de la etapa de recepción y llevar a cabo la reconstrucción de frecuencia alta mediante el uso de la primera señal con forma de onda codificada (401a, 401b, 401c) y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida (403a, 403b, 403c) que tiene un contenido espectral por encima de la primera frecuencia de transición;

y una etapa de intercalado configurada para recibir la señal de frecuencia extendida de la etapa de reconstrucción de frecuencia alta y la segunda señal con forma de onda codificada de la etapa de recepción, e intercalar la señal de frecuencia extendida (403a, 403b, 403c) con la segunda señal con forma de onda codificada (402b).
12. Un método de codificación en un sistema de procesamiento de audio, que comprende las etapas de: recibir una señal de audio que se codificará;

calcular, según la señal de audio recibida, parámetros de reconstrucción de frecuencia alta que permiten la reconstrucción de frecuencia alta de la señal de audio recibida por encima de una primera frecuencia de transición,

identificar, según la señal de audio recibida, un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición para el cual el contenido espectral de la señal de audio recibida tendrá forma de onda codificada y posteriormente, en un decodificador, se intercalará con una reconstrucción de frecuencia alta (403a, 403b, 403c) de la señal de audio, en donde la identificación incluye detectar transitorios (730) en la señal de audio;

generar una primera señal con forma de onda codificada (401a, 401b, 401c) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales hasta la primera frecuencia de transición; y una segunda señal con forma de onda codificada (402b) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales correspondientes al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición, en donde, para un rango de tiempo donde un transitorio se detecta, un contenido espectral de la segunda señal con forma de onda codificada (402b) incluye todas las bandas espectrales de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición.
13. El método de codificación de la reivindicación 12, en donde el subconjunto del rango de frecuencia por encima de la primera frecuencia de transición además comprende múltiples intervalos de frecuencia aislados, y/o

en donde los parámetros de reconstrucción de frecuencia alta se calculan mediante el uso de la replicación de la banda espectral, SBR, codificación, y/o

que además comprende ajustar niveles de envolvente espectral comprendidos en los parámetros de reconstrucción de frecuencia alta para compensar la incorporación de una reconstrucción de frecuencia alta de la señal de audio recibida con la segunda señal con forma de onda codificada en un decodificador.
14. Un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para llevar a cabo el método de cualquiera de las reivindicaciones 1-10, o con instrucciones para llevar a cabo el método de la reivindicación 12 o reivindicación 13.
15. Un codificador para un sistema de procesamiento de audio, que comprende:

5 una etapa de recepción configurada para recibir una señal de audio que se codificará;

una etapa de codificación de alta frecuencia configurada para recibir la señal de audio de la etapa de recepción y calcular, según la señal de audio recibida, parámetros de reconstrucción de frecuencia alta que permiten la reconstrucción de frecuencia alta de la señal de audio recibida por encima de una primera frecuencia de transición;

una etapa de detección de codificación de intercalado configurada para identificar, según la señal de audio recibida, 10 un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición para el cual el contenido espectral de la señal de audio recibida tendrá forma de onda codificada y posteriormente, en un decodificador, se intercalará con una reconstrucción de frecuencia alta (403a, 403b, 403c) de la señal de audio, en donde la identificación incluye detectar transitorios (730) en la señal de audio; y

una etapa de codificación de forma de onda configurada para recibir la señal de audio de la etapa de recepción y 15 generar una primera señal con forma de onda codificada (401a, 401b, 401c) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales hasta la primera frecuencia de transición; y recibir el subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición de la etapa de detección de codificación de intercalado y generar una segunda señal con forma de onda codificada (402b) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales correspondientes al 20 subconjunto identificado recibido del rango de frecuencia, en donde, para un rango de tiempo donde se detecta un transitorio, un contenido espectral de la segunda señal con forma de onda codificada (402b) incluye todas las bandas espectrales de un intervalo de frecuencia que se extiende entre una primera frecuencia de transición y una segunda frecuencia de transición.