ES2654432T3

ES2654432T3 - Codificador de señal de audio, método para generar una señal de audio y programa informático

Info

Publication number: ES2654432T3
Application number: ES11180989.3T
Authority: ES
Inventors: Stefan Bayer; Sasch Disch; Ralf Geiger; Max Neuendorf; Gerald Schuller; Guillaume Fuchs; Bernd Edler
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-07-11
Filing date: 2009-07-06
Publication date: 2018-02-13
Anticipated expiration: 2029-07-06
Also published as: RU2011104002A; ES2379761T3; EP2410519A1; JP2014002404A; BRPI0910790A2; HK1182212A1; CN102150201B; US20150066490A1; CN103000177A; US9466313B2; US20110178795A1; ES2654433T3; EP2410520B1; TWI463484B; AR072740A1; AR097966A2; JP2013242599A; US20150066493A1; CA2730239A1; RU2012150075A

Abstract

Codificador de audio para generar una senal de audio, que comprende: un distorsionador de tiempo controlable (506) para distorsionar en tiempo una senal de audio para obtener una senal de audio distorsionada en tiempo; un convertidor de tiempo/frecuencia (508) para convertir al menos una porcion de la senal de audio distorsionada en tiempo o de una version no distorsionada en tiempo de la senal de audio en una representacion espectral; una etapa de conformacion de ruido temporal para realizar una filtracion de prediccion sobre frecuencia de la representacion espectral de acuerdo con una instruccion de control de conformacion de ruido temporal (803), en la que no se realiza la filtracion de prediccion, cuando la instruccion de control de conformacion de ruido temporal no existe; un controlador de conformacion de ruido temporal (800, 802, 804) para generar la instruccion de control de conformacion de ruido temporal basandose en la representacion espectral, en el que el controlador de conformacion de ruido temporal esta configurado para aumentar una probabilidad de realizar la filtracion predictiva sobre la frecuencia, cuando la representacion espectral esta basada en una senal de audio de distorsion de tiempo o para reducir la probabilidad para realizar la filtracion de prediccion sobre la frecuencia, cuando la representacion espectral no esta basada en una senal de audio distorsionada en el tiempo; y un procesador (512) para procesar adicionalmente una salida de la etapa de conformacion de ruido temporal para obtener la senal de audio codificada (532); en el que el controlador de conformacion de ruido temporal (800, 802, 804) esta configurado para estimar una ganancia en una tasa de bits o una calidad, cuando la senal de audio se somete a la filtracion de prediccion por la etapa de conformacion de ruido temporal (510), para comparar (802) la ganancia estimada a un umbral de decision, y para decidir (802), en favor de la filtracion de prediccion, cuando la ganancia estimada esta en una relacion predeterminada al umbral de decision, en el que el controlador de conformacion de ruido temporal esta configurado adicionalmente para variar (804) el umbral de decision de modo que, para la misma ganancia estimada, la filtracion de prediccion esta activada, cuando la representacion espectral esta basada en una senal distorsionada en el tiempo, y no esta activada, cuando la representacion espectral no esta basada en una senal de audio distorsionada en el tiempo.

Description

5

10

15

20

25

30

35

40

45

50

55

60

Codificador de señal de audio, método para generar una señal de audio y programa informático

DESCRIPCIÓN

La presente invención se refiere a la codificación y decodificación de audio y específicamente para la codificación/decodificación de una señal de audio que tiene un contenido armónico o de voz, que puede someterse a un procesamiento de distorsión de tiempo.

A continuación, se dará una breve introducción al campo de la codificación de audio distorsionado en el tiempo, cuyos conceptos pueden aplicarse en combinación con algunas de las realizaciones de la invención.

En los últimos años, se han desarrollado técnicas para transformar una señal de audio en una representación de dominio de frecuencia, y para codificar con eficacia esta representación de dominio de frecuencia, por ejemplo teniendo en cuenta umbrales de enmascaramiento perceptual. Este concepto de codificación de señal de audio es particularmente eficaz si la longitud del bloque, para el cual se transmite un conjunto de coeficientes espectrales codificados, es larga, y si sólo un número comparativamente pequeño de coeficientes espectrales están bien por encima del umbral de enmascaramiento global mientras que un gran número de coeficientes espectrales está cerca o por debajo del umbral de enmascaramiento global y de este modo puede despreciarse (o codificarse con una longitud de código mínima).

Por ejemplo, las transformadas solapadas moduladas basadas en seno o basadas en coseno a menudo se utilizan en aplicaciones para codificación de fuente debido a sus propiedades de compactación de energía. Es decir, para tonos armónicos con frecuencias fundamentales constantes (tono), concentran la energía de señal hasta un número bajo de componentes espectrales (subbandas), lo cual conduce a una representación de señal eficaz.

En general, el tono (fundamental) de una señal se entenderá como la frecuencia dominante más baja que se distingue del espectro de la señal. En el modelo de voz común, el tono es la frecuencia de la señal de excitación modulada por la garganta humana. Si sólo una frecuencia fundamental simple estuviera presente, el espectro sería extremadamente sencillo, comprendiendo únicamente la frecuencia fundamental y los sobretonos. Un espectro de este tipo podría codificarse de forma muy eficaz. Para señales con tono variable, sin embargo, la energía correspondiente a cada componente armónico se dispersa sobre varios coeficientes de la transformada, conduciendo de este modo a una reducción de la eficacia de codificación.

Para solucionar esta reducción de la eficacia de codificación, la señal de audio a codificare se remuestrea de forma eficaz sobre una cuadrícula de tiempo no uniforme. En el procesamiento posterior, las posiciones de muestra obtenidas por el remuestreado no uniforme se procesan como si representaran los valores sobre una cuadrícula temporal uniforme. Esta operación normalmente se indica por la frase 'distorsión de tiempo'. Los tiempos de muestra pueden elegirse de forma ventajosa dependiendo de la variación de tiempo del tono, de modo que una variación de tono en la versión distorsionada en el tiempo de la señal de audio es menor que una variación de tono en la versión original de la señal de audio (antes de la distorsión de tiempo). Esta variación de tono también puede indicarse con la frase “contorno de distorsión de tiempo”. Después de la distorsión en el tiempo de la señal de audio, la versión distorsionada en el tiempo de la señal de audio se convierte en el dominio de frecuencia. La distorsión en el tiempo que depende del tono tiene el efecto de que la representación de dominio de frecuencia de la señal de audio distorsionada en el tiempo muestra típicamente una compactación de energía en un número mucho más pequeño de componentes espectrales que una representación de dominio de frecuencia de la señal de audio original (no distorsionada en el tiempo).

En el lado del decodificador, la representación de dominio de frecuencia de la señal de audio distorsionada en el tiempo se convierte de nuevo al dominio de tiempo, de modo que una representación de dominio de tiempo de la señal de audio distorsionada en el tiempo está disponible en el lado del decodificador. Sin embargo, en la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo reconstruida en el lado del decodificador, las variaciones del tono original de la señal de audio de entrada en el lado del codificador no se incluyen. En consecuencia, se aplica otra distorsión en el tiempo volviendo a muestrear la representación del dominio del tiempo reconstruida en el lado del decodificador de la señal de audio distorsionada en el tiempo. Para obtener una buena reconstrucción de la señal de audio de entrada en el lado del codificador en el decodificador, se desea que la distorsión en el tiempo en el lado del decodificador sea al menos aproximadamente la operación inversa con respecto a la distorsión en el tiempo en el lado del codificador. Para obtener una distorsión en el tiempo apropiada, se desea tener una información disponible en el decodificador que permite un ajuste de la distorsión en el tiempo en el lado del decodificador.

Dado que típicamente se requiere transferir este tipo de información desde el codificador de señal de audio al decodificador de señal de audio, se desea mantener una tasa de bits requerida para esta transmisión reducida mientras aún se permite una reconstrucción fiable de la información de distorsión de tiempo requerida en el lado del decodificador. Otro ejemplo de codificación de una señal de audio se proporciona en el documento “EVRC-

5

10

15

20

25

30

35

40

45

50

55

60

WIDEBAND: THE NEW 3GPP2 WIDEBAND VOCODER STANDARD", por V. Krishnan ET A1., Proceedings ICASSP 2007. En vista del análisis anterior, existe el deseo de crear un concepto que permita una aplicación de tasa de bits eficaz del concepto de distorsión de tiempo en un codificador de audio.

Es objeto de algunos ejemplos de comparación crear conceptos para mejorar la impresión de audición proporcionada por una señal de audio codificada basándose en información disponible en un codificador de señal de audio de distorsión en el tiempo o un decodificador de señal de audio de distorsión en el tiempo.

Este objeto se logra mediante un proveedor de la señal de activación de distorsión de tiempo para proporcionar una señal de activación de distorsión de tiempo basándose en una representación de una señal de audio como se describe a continuación, un codificador de señal de audio para codificar una señal de audio de entrada como se describe a continuación, un método para proporcionar una señal de activación de distorsión de tiempo como se describe a continuación, un método para proporcionar una representación codificada de una señal de audio de entrada como se describe a continuación, o un programa informático como se describe a continuación.

Es un objeto adicional de la presente invención proporcionar un esquema de codificación/decodificación de audio mejorado, que proporciona una calidad superior o una tasa de bits inferior.

Este objeto se consigue mediante un codificador de audio de acuerdo con la reivindicación 1, un método para codificación de audio de acuerdo con la reivindicación 3, o un programa informático de acuerdo con la reivindicación 4.

Se describen posteriormente realizaciones preferidas con respecto a los dibujos adjuntos, en los que:

La figura 1

muestra un diagrama esquemático de bloques de un proveedor de la señal de activación de distorsión de tiempo, de acuerdo con un ejemplo de comparación,

La figura 2a muestra un diagrama esquemático de bloques de un codificador de señal de audio, de acuerdo

con una realización de acuerdo con un ejemplo de comparación;

La figura 2b muestra otro diagrama esquemático de bloques de un proveedor de la señal de activación de

distorsión de tiempo de acuerdo con un ejemplo de comparación;

La figura 3a muestra una representación gráfica de un espectro de una versión no distorsionada en el

tiempo de una señal de audio;

La figura 3b muestra una representación gráfica de un espectro de una versión distorsionada en el tiempo

de la señal de audio;

La figura 3c

muestra una representación gráfica de un cálculo individual de medidas de planicidad espectral para diferentes bandas de frecuencia;

La figura 3d

muestra una representación gráfica de un cálculo de una medida de planicidad espectral que considera únicamente la parte de frecuencia más alta del espectro;

La figura 3e muestra una representación gráfica de un cálculo de una medida de planicidad espectral que

utiliza una representación espectral en la cual se enfatiza una parte de frecuencia más alta sobre una parte de frecuencia más baja;

La figura 3f muestra un diagrama esquemático de bloques de un proveedor de información de

compactación de energía, de acuerdo con otra realización de acuerdo con un ejemplo de comparación;

La figura 3g muestra una representación gráfica de una señal de audio que tiene un tono temporalmente

variable en el dominio de tiempo;

La figura 3h

muestra una representación gráfica de una versión de distorsión de tiempo (remuestreo no uniforme) de la señal de audio de la figura 3g;

La figura 3i

muestra una representación gráfica de una función de autocorrelación de la señal de audio de acuerdo con la figura 3g;

La figura 3j

muestra una representación gráfica de una función de autocorrelación de la señal de audio de acuerdo con la figura 3h;

5

10

15

20

25

30

35

40

45

50

55

60

La figura 3k: muestra un diagrama esquemático de bloques de un proveedor de información de compactación de energía, de acuerdo con otra realización de acuerdo con un ejemplo de

La figura 4a: comparación; muestra un diagrama de flujo de un método para proporcionar una señal de activación de distorsión de tiempo basándose en una señal de audio, de acuerdo con un ejemplo de comparación;

La figura 4b: muestra un diagrama de flujo de un método para codificar una señal de audio de entrada para obtener una representación codificada de la señal de audio de entrada, de acuerdo con una realización de acuerdo con un ejemplo de comparación;

La figura 5a: ilustra una realización preferida de un codificador de audio que tiene aspectos inventivos;

La figura 5b: ilustra una realización preferida de un decodificador de audio que tiene aspectos inventivos;

La figura 6a: ilustra una realización preferida del aspecto de relleno de ruido de acuerdo con un ejemplo de comparación;

La figura 6b: ilustra una tabla que define la operación de control llevada a cabo por el manipulador de nivel de relleno de ruido;

La figura 7a: ilustra una realización preferida para llevar a cabo una conmutación de bloque basada en la distorsión de tiempo de acuerdo con un ejemplo de comparación;

La figura 7b: ilustra una realización alternativa para influir en la función ventana;

La figura 7c: ilustra una realización alternativa adicional para ilustrar la función ventana basándose en la información de distorsión de tiempo;

La figura 7d: ilustra una secuencia de ventanas de un comportamiento de AAC normal en un inicio vocalizado;

La figura 7e: ilustra secuencias de ventanas alternativas obtenidas de acuerdo con una realización de acuerdo con un ejemplo de comparación;

La figura 8a: ilustra la realización preferida de un control basado en la distorsión de tiempo de la herramienta de TNS (conformación de ruido temporal);

La figura 8b: ilustra una tabla que define los procedimientos de control realizados en el generador de la señal del control de umbral en la figura 8a;

Las figuras 9a-9e: ilustran diferentes características de distorsión en el tiempo y la correspondiente influencia sobre el ancho de banda de la señal de audio que se produce a continuación de una operación de anulación de distorsión de tiempo en el lado del decodificador;

La figura 10a: ilustra una realización de un controlador para controlar el número de líneas dentro de un procesador de codificación, de acuerdo con un ejemplo de comparación;

La figura 10b: ilustra una dependencia entre el número de líneas que van a descartarse/agregarse para una tasa de muestreo;

La figura 11: ilustra una comparación entre una escala de tiempo lineal y una escala de tiempo distorsionado;

La figura 12a: ilustra una implementación en el contexto de la extensión del ancho de banda; y

La figura 12b: ilustra una tabla que muestra la dependencia entre la tasa de muestreo local en el dominio distorsionado en el tiempo y el control de coeficientes espectrales.

La figura 1 muestra un diagrama esquemático de bloques del proveedor de la señal de activación de distorsión de tiempo, de acuerdo con una realización de la invención. El proveedor de la señal de activación de distorsión de tiempo 100 está configurado para recibir una representación 110 de una señal de audio y proporcionar, basándose en la misma, una señal de activación de distorsión de tiempo 112. El proveedor de la señal de activación de

5

10

15

20

25

30

35

40

45

50

55

60

distorsión de tiempo 100 comprende un proveedor de información de compactación de energía 120, el cual está configurado para proporcionar una información de compactación de energía 122, que describe una compactación de energía en una representación espectral transformada por la distorsión de tiempo de la señal de audio. El proveedor de la señal de activación de distorsión de tiempo 100 comprende además un comparador 130 configurado para comparar la información de compactación de energía 122 con un valor de referencia 132, y proporcionar la señal de activación de distorsión de tiempo 112 con dependencia del resultado de la comparación.

Tal como se mencionó anteriormente, se ha encontrado que la información de compactación de energía es una información valiosa la cual permite una estimación eficaz desde el punto de vista computacional si una distorsión de tiempo otorga un ahorro de bits o no. Se ha encontrado que la presencia de ahorro de bits está íntimamente correlacionada con la cuestión si la distorsión de tiempo da como resultado una compactación de energía o no.

La figura 2a muestra un diagrama esquemático de bloques de un codificador de señal de audio 200, de acuerdo con una realización de la invención. El codificador de señal de audio 200 está configurado para recibir una señal de audio de entrada 210 (también designada para a(t)) y proporcionar, basándose en la misma, una representación codificada 212 de la señal de audio de entrada 210. El codificador de señal de audio 200 comprende un transformador de distorsión de tiempo 220, el cual está configurado para recibir la señal de audio de entrada 210 (la cual puede estar representada en un dominio de tiempo) y proporcionar, basándose en la misma, una representación espectral transformada por la distorsión de tiempo 222 de la señal de audio de entrada 210. El codificador de señal de audio 200 comprende además un analizador de distorsión de tiempo 284, el cual está configurado para analizar la señal de audio de entrada 210 y proporcionar, basándose en la misma, una información 286 del contorno de distorsión de tiempo (por ejemplo información absoluta o relativa del contorno de distorsión de tiempo).

El codificador de señal de audio 200 comprende además un mecanismo de conmutación, por ejemplo en forma de un conmutador controlado 240, para decidir si la información hallada del contorno de distorsión de tiempo 286 o una información del contorno de distorsión de tiempo convencional 288 se utiliza para un procesamiento adicional. Por tanto, el mecanismo de conmutación 240 está configurado para proporcionar de forma selectiva, con dependencia de una información de activación de distorsión de tiempo, o bien la información hallada del contorno de distorsión de tiempo 286 o bien una información del contorno de distorsión de tiempo convencional 288 como información nueva del contorno de distorsión de tiempo 242, para un procesamiento adicional, por ejemplo para un transformador de distorsión de tiempo 220. Debe observarse, que el transformador de distorsión de tiempo 220 puede utilizar por ejemplo la información nueva del contorno de distorsión de tiempo 242 (por ejemplo una nueva parte de contorno de distorsión de tiempo) y, además, una información de distorsión de tiempo previamente obtenida (por ejemplo una o más partes de contorno de distorsión de tiempo previamente obtenidas) para la distorsión en el tiempo de una trama de audio. El post-procesamiento del espectro opcional puede comprender por ejemplo una conformación de ruido temporal y/o un análisis de relleno de ruido. El codificador de señal de audio 200 también comprende un cuantificador/codificador 260, el cual está configurado para recibir la representación espectral 222 (procesada opcionalmente por el post-procesamiento del espectro 250) y para cuantificar y codificar la representación espectral transformada 222. Para este fin, el cuantificador/codificador 260 puede acoplarse con un modelo perceptivo 270 y recibir una información de relevancia perceptiva 272 desde el modelo perceptivo 270, para considerar un enmascaramiento perceptivo y ajustar las precisiones de cuantificación en diferentes intervalos de frecuencia según la percepción humana. El codificador de señal de audio 200 comprende además una interfaz de salida 280 la cual está configurada para proporcionar la representación codificada 212 de la señal de audio basándose en la representación espectral cuantificada y codificada 262 suministrada por el cuantificador/codificador 260.

El codificador de señal de audio 200 comprende además un proveedor de la señal de activación de distorsión de tiempo 230, que está configurado para proporcionar una señal de activación de distorsión de tiempo 232. La señal de activación de distorsión de tiempo 232, por ejemplo, puede utilizarse para controlar el mecanismo de conmutación 240, para decidir si la información del contorno de distorsión de tiempo recientemente hallada 286 o una información del contorno de distorsión de tiempo convencional 288 se utiliza en otros pasos de procesamiento (por ejemplo por un transformador de distorsión de tiempo 220). Además, la información de activación de distorsión de tiempo 232 puede utilizarse en un conmutador 280 para decidir si la información del contorno de distorsión de tiempo nueva seleccionada 242 (seleccionada de la información del contorno de distorsión de tiempo recientemente hallada 286 y la información convencional del contorno de distorsión de tiempo) está incluida en la representación codificada 212 de la señal de audio de entrada 210. Típicamente, la información del contorno de distorsión de tiempo sólo se incluye en la representación codificada 212 de la señal de audio si la información del contorno de distorsión de tiempo seleccionada describe un contorno de distorsión de tiempo no constante (variable). Además, la información de activación de distorsión de tiempo 232 puede en si misma estar incluida en la representación codificada 212, por ejemplo en forma de una bandera de un bit que indica la activación o desactivación de la distorsión de tiempo.

Para facilitar el entendimiento, debe observarse que el transformador de distorsión de tiempo 220 típicamente comprende un generador de ventana de análisis 220a, un remuestreador o “distorsionador de tiempo 220b” y un transformador de dominio espectral 220c (o convertidor de tiempo/frecuencia). Dependiendo de la implementación,

5

10

15

20

25

30

35

40

45

50

55

60

sin embargo, el distorsionador de tiempo 220b puede colocarse - en una dirección de procesamiento de señal -antes del generador de ventana de análisis 220a. Sin embargo, la distorsión de tiempo y el dominio de tiempo para la transformación del dominio espectral pueden combinarse en una sola unidad en algunas realizaciones.

A continuación se describirán los detalles con relación al funcionamiento del proveedor de la señal de activación de distorsión de tiempo 230. Debe observarse que el proveedor de la señal de activación de distorsión de tiempo 230 puede ser equivalente al proveedor de la señal de activación de distorsión de tiempo 100.

El proveedor de la señal de activación de distorsión de tiempo 230 está configurado preferentemente para recibir la representación de la señal de audio del dominio de tiempo 210 (también designada con a(t)), la información del contorno de distorsión de tiempo recientemente hallada 286, y la información del contorno de distorsión de tiempo convencional 288. El proveedor de la señal de activación de distorsión de tiempo 230 está configurado además para obtener, utilizando la señal de audio del dominio de tiempo 210, la información del contorno de distorsión de tiempo recientemente hallada 286 y la información del contorno de distorsión de tiempo convencional 288, una información de compactación de energía que describe una compactación de energía debido a la información del contorno de distorsión de tiempo recientemente hallada 286, y proporcionar la señal de activación de distorsión de tiempo 232 basándose en esta información de compactación de energía.

La figura 2b muestra un diagrama esquemático de bloques de un proveedor de la señal de activación de distorsión de tiempo 234, de acuerdo con una realización de la invención. El proveedor de la señal de activación de distorsión de tiempo 234 puede tomar la función del proveedor de la señal de activación de distorsión de tiempo 230 en algunas realizaciones. El proveedor de la señal de activación de distorsión de tiempo 234 está configurado para recibir una señal de audio de entrada 210, y dos informaciones del contorno de distorsión de tiempo 286 y 288, y proporcionar, basándose en las mismas, una señal de activación de distorsión de tiempo 234p. La señal de activación de distorsión de tiempo 234p puede tomar la función de la señal de activación de distorsión de tiempo 232. El proveedor de la señal de activación de distorsión de tiempo comprende dos proveedores de la representación de la distorsión de tiempo idénticos 234a, 234g, los cuales están configurados para recibir la señal de audio de entrada 210 y la información del contorno de distorsión de tiempo 286 y 288 respectivamente y proporcionar, basándose en las mismas, dos representaciones de distorsión de tiempo 234e y 234k, respectivamente. El proveedor de la señal de activación de distorsión de tiempo 234 comprende además dos proveedores de información de compactación de energía idénticos 234f y 234l, los cuales están configurados para recibir las representaciones de distorsión de tiempo 234e y 234k, respectivamente, y, basándose en las mismas, proporcionar la información de compactación de energía 234m y 234n, respectivamente. El proveedor de la señal de activación de distorsión de tiempo comprende además un comparador 234o, configurado para recibir la información de compactación de energía 234m y 234n, y, basándose en la misma proporcionar la señal de activación de distorsión de tiempo 234p.

Para facilitar el entendimiento, debe observarse que los proveedores de representación de la distorsión de tiempo 234a y 234g típicamente comprenden (opcional) idénticos generadores de ventana de análisis 234b y 234h, remuestreadores o distorsionadores de tiempo 234c y 234i idénticos, y (opcional) transformadores del dominio espectral 234d y 234j idénticos.

A continuación, se analizarán diferentes conceptos para obtener la información de compactación de energía. De antemano, se dará una introducción que explica el efecto de distorsión de tiempo sobre una señal de audio típica.

A continuación, el efecto de distorsión en el tiempo sobre una señal de audio se describirá tomando como referencia las figuras 3a y 3b. La figura 3a muestra una representación gráfica de un espectro de una señal de audio. Una abscisa 301 describe una frecuencia y una ordenada 302 describe la intensidad de la señal de audio. Una curva 303 describe una intensidad de la señal de audio no distorsionada en el tiempo como una función de la frecuencia f.

La figura 3b muestra una representación gráfica de un espectro de una versión de distorsionada en el tiempo de la señal de audio representada en la figura 3a. Nuevamente, una abscisa 306 describe una frecuencia y una ordenada 307 describe la intensidad de la versión distorsionada de la señal de audio. Una curva 308 describe la intensidad de la versión distorsionada en el tiempo de la señal de audio sobre la frecuencia. Tal como puede observarse a partir de una comparación de la representación gráfica de las figuras 3a y 3b, la versión no distorsionada en el tiempo (“sin distorsionar”) de la señal de audio comprende un espectro emborronado, en particular en una región de frecuencia más alta. A diferencia, la versión distorsionada en el tiempo de la señal de audio de entrada comprende un espectro que tiene picos espectrales claramente distinguibles, incluso en la región de frecuencia más alta. Además, incluso puede observarse un moderado afilado de los picos espectrales en la región espectral más baja de la versión distorsionada en el tiempo de la señal de audio de entrada.

Debe observarse que el espectro de la versión de la distorsión de tiempo de la señal de audio de entrada, el cual se muestra en la figura 3b, puede cuantificarse y codificarse, por ejemplo mediante el cuantificador/codificador 260, con una tasa de bits más baja que el espectro de la señal de audio de entrada sin distorsionar mostrado en la figura 3a.

5

10

15

20

25

30

35

40

45

50

55

60

Esto se debe al hecho de que un espectro emborronado comprende típicamente un gran número de coeficientes espectrales perceptualmente relevantes (es decir un número relativamente pequeño de coeficientes espectrales cuantificados a cero o cuantificados a valores pequeños), mientras que un espectro “menos plano” tal como se muestra en la figura 3, típicamente comprende un mayor número de coeficientes espectrales cuantificados a cero o cuantificados a valores pequeños. Los coeficientes espectrales cuantificados a cero o cuantificados a valores pequeños pueden codificarse con menos bits que los coeficientes espectrales cuantificados a valores superiores, de modo que el espectro de la figura 3b puede codificarse utilizando menos bits que el espectro de la figura 3a.

No obstante, debe observarse además que el uso de una distorsión de tiempo no siempre da como resultado una mejora significativa de la eficacia de codificación de la señal distorsionada en el tiempo. Por consiguiente, en algunos casos, el precio, en cuanto a tasa de bits, requerido para la codificación de la información de distorsión de tiempo (por ejemplo, contorno de distorsión de tiempo) puede exceder los ahorros, en términos de tasa de bits, para codificar el espectro transformado por la distorsión de tiempo (cuando se compara con el espectro transformado sin distorsión de tiempo). En este caso, se prefiere proporcionar la representación codificada de la señal de audio utilizando un contorno de distorsión de tiempo convencional (no variable) para controlar la transformación de la distorsión de tiempo. En consecuencia, la transmisión de cualquier información de distorsión de tiempo (es decir, información del contorno de distorsión de tiempo) puede omitirse (excepto para una bandera que indica la desactivación de la distorsión de tiempo), manteniendo de este modo la tasa de bits baja.

A continuación, se describirán diferentes conceptos para un cálculo fiable y eficaz desde el punto de vista computacional de una señal de activación de distorsión de tiempo 112, 232, 234p tomando como referencia las figuras 3c-3k. Sin embargo, antes de eso, el antecedente del concepto de la invención se resumirá brevemente.

La presunción básica es que la aplicación de la distorsión de tiempo sobre una señal armónica con un tono variable hace el tono constante, y al hacer el tono constante mejora la codificación de los espectros obtenidos por una siguiente transformación de tiempo-frecuencia, porque en lugar del emborronado de los diferentes armónicos sobre varios intervalos espectrales (véanse las figuras 3a) sólo un número limitado de líneas significativas permanecen (véase la figura 3b). Sin embargo, incluso cuando se detecta una variación de tono, la mejora en la ganancia de codificación (es decir la cantidad de bits ahorrados) puede ser despreciable (por ejemplo si uno tiene un ruido fuerte subyacente a la señal armónica, o si la variación es tan pequeña que el emborronado de los armónicos más altos no es un problema), o puede ser inferior a la cantidad de bits necesarios para transferir el contorno de distorsión de tiempo al decodificador, o simplemente puede ser incorrecto. En estos casos, se prefiere rechazar el contorno de distorsión de tiempo variable (por ejemplo 286) producido por un codificador del contorno de distorsión de tiempo y en su lugar utilizar una señalización de un bit eficaz, señalizando un contorno de distorsión de tiempo convencional (no variable).

El alcance de la presente invención comprende la creación de un método para decidir si una parte de contorno de distorsión de tiempo obtenida proporciona suficiente ganancia de codificación (por ejemplo suficiente ganancia de codificación para compensar la sobrecarga requerida para la codificación para el contorno de distorsión de tiempo).

Tal como se estableció anteriormente, el aspecto más importante de la distorsión de tiempo es la compactación de la energía espectral para un número más pequeño de líneas (véanse las figuras 3a y 3b). Una mirada a esto muestra que una compactación de energía también corresponde a un espectro más “sin planicidad” (véanse las figuras 3a y 3b), dado que la diferencia entre los picos y los valles del espectro se incrementa. La energía se concentra en menos líneas teniendo las líneas entre aquellas menos energía que antes.

Las figuras 3a y 3b muestran un ejemplo esquemático con un espectro sin distorsión de una trama con fuertes armónicos y variación de tono (figura 3a) y el espectro de la versión distorsionada en el tiempo de la misma trama (figura 3b).

En vista de esta situación, se ha encontrado que es ventajoso utilizar la medida de planicidad espectral como una medida posible para la eficacia de la distorsión de tiempo.

La planicidad espectral puede calcularse, por ejemplo, dividiendo la media geométrica del espectro de potencia por la media aritmética del espectro de potencia. Por ejemplo, la planicidad espectral (también designada brevemente “planicidad”) puede calcularse según la siguiente ecuación:

imagen1

En lo anterior, x(n) representa la magnitud de un número binario n. Además, en lo anterior, N representa un número

5

10

15

20

25

30

35

40

45

50

55

60

total de intervalos espectrales considerados para el cálculo de la medida de planicidad espectral.

En una realización de la invención, el cálculo mencionado anteriormente de la “planicidad”, que puede servir como una información de compactación de energía, puede llevarse a cabo utilizando las representaciones del espectro transformado por la distorsión de tiempo 234e, 234k, de modo que puede sostenerse la siguiente relación:

x(n) = |x|tw (n).

En este caso, N puede ser igual al número de líneas espectrales proporcionadas por el transformador de dominio espectral 234d, 234j y |x|tw (n) es una representación espectral transformada de la distorsión de tiempo 234e, 234k.

Aunque la medida espectral es una cantidad útil para la provisión de la señal de activación de distorsión de tiempo, una desventaja de la medida de planicidad espectral, al igual que la medida de relación señal a ruido (SNR), es que si se aplica al espectro total, enfatiza partes con energía más alta. Normalmente, los espectros armónicos tienen una cierta inclinación espectral, lo que significa que la mayor parte de la energía se concentra en los primeros pocos tonos parciales y entonces disminuye con la frecuencia creciente, conduciendo a una sub-representación de los parciales más elevados en la medida. Esto no se desea en algunas realizaciones, dado que se desea mejorar la calidad de estos parciales más altos, porque se emborronan la mayoría de las veces (véase la figura 3a). A continuación, se analizarán varios conceptos opcionales para la mejora de la relevancia de la medida de planicidad espectral.

En una realización según la invención, se elige un enfoque similar a la denominada medida de “SNR segmentaria”, que conduce a una medida de planicidad espectral banda a banda. Un cálculo de la medida de planicidad espectral se realiza (por ejemplo de forma separada) dentro de un número de bandas, y se toma la principal (o media). Las diferentes bandas podrían tener igual ancho de banda. Sin embargo, preferentemente, los anchos de banda pueden seguir una escala perceptual, al igual que las bandas críticas, o corresponder, por ejemplo, a las bandas del factor de escala de la denominada “codificación de audio avanzada”, también conocida como aAc.

El concepto mencionado anteriormente se explicará brevemente a continuación, tomando como referencia la figura 3c, que muestra una representación gráfica de un cálculo individual de medidas de planicidad espectral para diferentes bandas de frecuencia. Tal como puede observarse, el espectro puede dividirse en diferentes bandas de frecuencia 311, 312, 313, que pueden un ancho de banda igual o que pueden tener diferentes anchos de banda. Por ejemplo, una primera medida de planicidad espectral puede calcularse para la primera banda de frecuencia 311, por ejemplo, utilizando la ecuación para la “planicidad” dada anteriormente. En este cálculo, pueden considerarse los intervalos de frecuencia de la primera banda de frecuencia (la variable en curso n puede tomar los índices de intervalos de frecuencia de los intervalos de frecuencia de la primera banda de frecuencia), y puede considerarse el ancho de la primera banda de frecuencia 311 (la variable N puede tomar el ancho en término de intervalos de frecuencia de la primera banda de frecuencia). Por consiguiente, se obtiene una medida de planicidad para la primera banda de frecuencia 311. De manera similar, una medida de planicidad puede calcularse para la segunda banda de frecuencia 312, teniendo en cuenta los intervalos de frecuencia de las segundas bandas de frecuencia 312 y además el ancho de la segunda banda de frecuencia. Además, las medidas de planicidad de las bandas de frecuencia adicionales, como la tercera banda de frecuencia 313, pueden calcularse de la misma forma.

A continuación, se puede calcular un promedio de las medidas de planicidad para diferentes bandas de frecuencia 311, 312, 313 y el promedio puede servir como la información de compactación de energía.

Otro enfoque (para la mejora de la derivación de la señal de activación de distorsión de tiempo) es aplicar la medida de planicidad espectral sólo por encima de una cierta frecuencia. Un enfoque de este tipo se ilustra en la figura 3b. Tal como puede observarse, sólo se consideran intervalos de frecuencia en una parte de frecuencia más alta 316 de los espectros para un cálculo de la medida de planicidad espectral. Una parte de frecuencia inferior del espectro se desprecia para el cálculo de la medida de planicidad espectral. La parte de frecuencia más alta 316 puede considerarse banda de frecuencia a banda de frecuencia para el cálculo de la medida de planicidad espectral. Como alternativa, la parte completa de frecuencia más alta 316 puede considerarse en su totalidad para el cálculo de la medida de planicidad espectral.

Para resumir lo anterior, puede establecerse que la disminución en la planicidad espectral (originada por la aplicación de la distorsión de tiempo) puede considerarse como una primera medida para la eficacia de la distorsión de tiempo.

Por ejemplo, el proveedor de la señal de activación de distorsión de tiempo 100, 230, 234 (o el comparador 130, 234o del mismo) puede comparar la medida de planicidad espectral de la representación espectral transformada por la distorsión de tiempo 234e con una medida de planicidad espectral de la representación espectral transformada por la distorsión de tiempo 234k utilizando una información convencional del contorno de distorsión de tiempo, y

5

10

15

20

25

30

35

40

45

50

55

decidir basándose en dicha comparación si la señal de activación de distorsión de tiempo debe estar activa o inactiva. Por ejemplo, la distorsión de tiempo se activa por medio de un ajuste apropiado de la señal de activación de distorsión de tiempo si la distorsión en el tiempo da como resultado una reducción suficiente de la medida de planicidad espectral cuando se compara con un caso sin distorsión en el tiempo.

Además de los enfoques mencionados anteriormente, la parte de frecuencia superior del espectro puede enfatizarse (por ejemplo por un escalamiento apropiado) sobre la parte de frecuencia inferior para el cálculo de la medida de planicidad espectral. La figura 3c muestra una representación gráfica de un espectro transformado por la distorsión de tiempo en que una parte de frecuencia más alta se enfatiza sobre una parte de frecuencia más baja. Por consiguiente, se compensa una sub-representación de parciales más altos en el espectro. Por tanto, la medida de planicidad puede calcularse sobre el espectro escalado completo en el que los intervalos de frecuencia más alta se enfatizan sobre los intervalos de frecuencia más baja, tal como se muestra en la figura 3e.

En términos de ahorro de bits, una medida típica de eficacia de codificación sería la entropía perceptiva, que puede definirse de un modo que se correlacione muy bien con el número real de bits necesarios para codificar un cierto espectro tal como se describe en el documento 3GPP TS 26.403 V7.0.0: 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification AAC part: Sección 5.6.1.1.3 Relation between bit demand and perceptual entropy. Como resultado, la reducción de la entropía perceptiva es otra medida para determinar cómo sería la eficacia de la distorsión en el tiempo.

La figura 3f muestra un proveedor de información de compactación de energía 325, que puede tomar el lugar del proveedor de información de compactación de energía 120, 234f, 2341, y el cual puede utilizarse en los proveedores de la señal de activación de distorsión de tiempo 100, 290, 234. El proveedor de información de compactación de energía 325 está configurado para recibir una representación de la señal de audio, por ejemplo, en forma de una representación espectral transformada por la distorsión de tiempo 234e, 234k, también designado con |x|tw. El proveedor de información de compactación de energía 325 también está configurado para proporcionar una información de entropía perceptiva 326, que puede tomar el lugar de la información de compactación de energía 122, 234m, 234n.

El proveedor de información de compactación de energía 325 comprende un calculador del factor de forma 327, que está configurado para recibir la representación espectral transformada por la distorsión de tiempo 234e, 234k y proporcionar, basándose en la misma, una información del factor de forma 328, que puede estar asociada con una banda de frecuencia. El proveedor de información de compactación de energía 325 comprende además un calculador de energía de la banda de frecuencia 329, que está configurado para calcular una información de energía de la banda de frecuencia en(n) (330) basándose en la representación espectral de distorsión de tiempo 234e, 234k. El proveedor de información de compactación de energía 325 comprende además un estimador de número de líneas 331, el cual está configurado para proporcionar una información estimada del número de líneas nl (332) para una banda de frecuencia que tiene índice n. Además, el proveedor de información de compactación de energía 325 comprende un calculador de entropía perceptiva 333, que está configurado para calcular la información de entropía perceptiva 326 basándose en la información de energía de la banda de frecuencia 330 y de la información estimada del número de líneas 332. Por ejemplo, el calculador del factor de forma 327 puede estar configurado para calcular el factor forma según

imagen2

En la ecuación anterior, ffac(n) designa el factor forma para la banda de frecuencia que tiene un índice de banda de frecuencia n. k designa una variable en curso, que funciona sobre los índices de intervalo espectral de la banda de factor de escala (o banda de frecuencia) n. X(k) designa un valor espectral (por ejemplo, un valor de energía o un valor de magnitud) del intervalo espectral (o intervalos de frecuencia) que tiene un índice de intervalo espectral (o un índice de intervalo de frecuencia) k.

El estimador del número de líneas puede estar configurado para estimar el número de líneas distintas de cero, designadas con nl, según la siguiente ecuación:

imagen3

5

10

15

20

25

30

35

40

45

50

55

En la ecuación anterior, en(n) designa una energía en la banda de frecuencia o banda de factor de escala que tiene índice n. kOffset(n+1)-kOffset(n) designa una anchura de la banda de frecuencia o banda de factor de escala de índice n en términos de intervalos de frecuencia.

Además, el calculador de entropía perceptiva 332 puede estar configurado para calcular la información de entropía perceptiva sfbPe según la siguiente ecuación:

sfhPe - ni ■

J log2(^r) Para *og2(f-)>cl

{(c2 fc3-Iog2(fr)) para log2(^)<cl

(3)

En lo anterior, pueden sostenerse las siguientes relaciones:

c! ~ log2(8) c2 ~ log2(2,5) c3 ~l~c2/el

(4)

Una entropía perceptiva total pe puede calcularse como la suma de las entropías perceptivas de múltiples bandas de frecuencia o bandas de factor de escala.

Tal como se mencionó anteriormente, la información de entropía de percepción 326 puede utilizarse como una información de compactación de energía.

Para más detalles que se refieren al cálculo de la entropía perceptiva, se hace referencia a la sección 5.6.1.1.3 de la Norma Internacional “3GPP TS 26.403 V7.0.0(2006-06)”.

A continuación, se describirá un concepto para el cálculo de la información de compactación de energía en el dominio de tiempo.

Otra mirada al TW-MDCT (transformada de coseno discreto modificada por la distorsión de tiempo) es la idea básica para cambiar la señal de una manera que tenga un tono constante o casi constante dentro de un bloque. Si se obtiene un tono constante, esto significa que la máxima de la autocorrelación de un bloque en proceso aumenta. Dado que no es trivial encontrar la máxima correspondiente en la autocorrelación para el caso de distorsión en el tiempo y sin distorsión de tiempo, la suma de los valores absolutos para la autocorrelación normalizada puede utilizarse como una medida para la mejora. Un aumento en esta suma corresponde a un aumento en la compactación de energía.

Este concepto se explicará en más detalle a continuación, tomando como referencia las figuras 3g, 3h, 3i, 3j y 3k.

La figura 3g muestra una representación gráfica de una señal no distorsionada en el tiempo en el dominio de tiempo. Una abscisa 350 describe el tiempo, y una ordenada 351 describe un nivel a(t) de la señal de tiempo no distorsionada en el tiempo. Una curva 352 describe la evolución temporal de la señal de tiempo no distorsionada en el tiempo. Se presume que la frecuencia de la señal no distorsionada en el tiempo descrita por la curva 352 aumenta a lo largo del tiempo, tal como puede observarse en la figura 3g.

La figura 3h muestra una representación gráfica de una versión distorsionada en el tiempo de la señal de tiempo de la figura 3g. Una abscisa 355 describe el tiempo distorsionado (por ejemplo, en una forma normalizada) y una ordenada 356 describe el nivel de la versión distorsionada en el tiempo a(tw) de la señal a(t). Tal como puede observarse en la figura 3h, la versión distorsionada en el tiempo a(tw) de la señal de tiempo no distorsionada en el tiempo a(t) comprende (al menos aproximadamente) una frecuencia temporalmente constante en el dominio de distorsión de tiempo.

En otras palabras, la figura 3h ilustra el hecho de que una señal de tiempo de una frecuencia temporalmente variable se transforma en una señal de tiempo de una frecuencia temporalmente constante mediante una operación de distorsión de tiempo apropiada, que puede comprender un remuestreo de la distorsión de tiempo.

La figura 3i muestra una representación gráfica de una función de autocorrelación de la señal de tiempo no distorsionada en el tiempo a(t). Una abscisa 360 describe un retardo en la autocorrelación t, y una ordenada 361 describe una magnitud de la función de autocorrelación. Las banderas 362 describen una evolución de la autocorrelación Ruw(t) como función del retardo de la autocorrelación t. Tal como puede observarse a partir de la

5

10

15

20

25

30

35

40

45

50

55

60

figura 3i, la función de autocorrelación Ruw de la señal de tiempo no distorsionada en el tiempo a(t) comprende un pico para t = 0 (que refleja la energía de la señal a(t)) y toma pequeños valores para t t 0.

La figura 3j muestra una representación gráfica de la función de autocorrelación Rtw de la señal de tiempo de distorsión de tiempo a(tw). Tal como puede observarse a partir de la figura 3j, la función de autocorrelación Rtw comprende un pico para t = 0, y también comprende picos para otros valores ti, T2, T3 del retardo de la autocorrelación t. Estos picos adicionales para ti, T2, T3 se obtienen por el efecto de la distorsión de tiempo para aumentar la periodicidad de la señal de tiempo de distorsión de tiempo a(tw). Esta periodicidad se refleja mediante los picos adicionales de la función de autocorrelación Rtw (t) cuando se compara con la función de autocorrelación Ruw(t). Por tanto, la presencia de picos adicionales (o la intensidad aumentada de picos) de la función de autocorrelación de la señal de audio distorsionada en el tiempo, cuando se compara con la función de autocorrelación de la señal de audio original puede utilizarse como una indicación de la efectividad (en términos de una reducción de la tasa de bits) de la distorsión de tiempo.

La figura 3k muestra un diagrama esquemático de bloques de un proveedor de información de compactación de energía 370 configurado para recibir una representación de dominio de tiempo de distorsión de tiempo de la señal de audio, por ejemplo, la señal de distorsión de tiempo 234e, 234k (donde se omite la transformación de dominio espectral 234d, 234j y opcionalmente el generador de ventana de análisis 234b y 234h), y para proporcionar, basándose en la misma, una información de compactación de energía 374, que puede tomar la función de la información de compactación de energía 372. El proveedor de información de compactación de energía 370 de la figura 3k comprende un calculador de autocorrelación 371 configurado para calcular la función de autocorrelación Rtw(T) de la señal de distorsión de tiempo a(tw) a lo largo de un rango predeterminado de valores discretos de t. El proveedor de información de compactación de energía 370 comprende además un sumador de autocorrelación 372 configurado para sumar una pluralidad de valores de la función de autocorrelación Rtw(T) (por ejemplo, a lo largo de un rango predeterminado de valores discretos de t) y para proporcionar la suma obtenida como la información de compactación de energía 122, 234m, 234n.

Por tanto, el proveedor de información de compactación de energía 370 permite la provisión de información fiable que indica la eficacia de la distorsión de tiempo sin realizar realmente la transformación de dominio espectral de la versión del dominio de tiempo de distorsión de tiempo de la señal de audio de entrada 210. Por lo tanto, es posible realizar una transformación de dominio espectral de la versión de la distorsión de tiempo de la señal de audio de entrada 310 sólo si se encuentra, basándose en la información de compactación de energía 122, 234m, 234n proporcionada por el proveedor de información de compactación de energía 370, que la distorsión de tiempo realmente otorga una eficacia de codificación mejorada.

Para resumir lo anterior, las realizaciones según la invención crean un concepto para una revisión final de la calidad. Un contorno de tono resultante (utilizado en un codificador de señal de audio de distorsión de tiempo) se evalúa en términos de su ganancia de codificación y si se acepta o se rechaza. Varias medidas referentes a la escasez de ganancia de codificación o del espectro pueden tenerse en cuenta para esta decisión, por ejemplo, una medida de planicidad espectral, una medida de planicidad espectral segmentaria banda a banda, y/o una entropía perceptiva.

El uso de diferente información de compactación espectral se ha analizado, por ejemplo, el uso de una medida de planicidad espectral, el uso de una medida de entropía perceptiva, y el uso de una medida de autocorrelación de dominio de tiempo. No obstante, existen otras medidas que muestran una compactación de la energía en un espectro distorsionado en el tiempo.

Todas estas medidas pueden utilizarse. Preferentemente, para todas estas medidas, se define una relación entre la medida para espectro sin distorsión de tiempo y uno con distorsión de tiempo, y se establece un umbral para esta relación en el codificador para determinar si un contorno de distorsión de tiempo obtenido tiene un beneficio en la codificación o no.

Todas estas medidas pueden aplicarse a una trama completa, donde sólo la tercera parte del contorno de tono es nueva (donde, por ejemplo, tres partes del contorno de tono están asociadas con la trama completa), o preferentemente sólo para la parte de la señal, para que se obtuvo esta nueva parte, por ejemplo, utilizando una transformada con una ventana superpuesta baja centrada sobre la parte de señal (respectiva).

Evidentemente, una sola medida o una combinación de las medidas antes mencionadas pueden utilizarse según se desee.

La figura 4a muestra un diagrama de flujo de un método para proporcionar una señal de activación de distorsión de tiempo basándose en una señal de audio. El método 400 de la figura 4a comprende una etapa 410 para proporcionar una información de compactación de energía que describe una compactación de energía en una representación espectral transformada por la distorsión de tiempo de la señal de audio. El método 400 comprende además una etapa 420 para comparar la información de compactación de energía con un valor de referencia. El

11

5

10

15

20

25

30

35

40

45

50

55

60

método 400 comprende además una etapa 430 para proporcionar la señal de activación de distorsión de tiempo con dependencia del resultado de la comparación.

El método 400 puede complementarse por cualquiera de las características y funcionalidades que se describen en el presente documento con respecto a la provisión de las señales de activación de distorsión de tiempo.

La figura 4b muestra un diagrama de flujo de un método para codificar una señal de audio de entrada para obtener una representación codificada de la señal de audio de entrada. El método 450 comprende opcionalmente una etapa 460 para proporcionar una representación espectral transformada por la distorsión de tiempo basándose en la señal de audio de entrada. El método 450 comprende además una etapa 470 para proporcionar una señal de activación de distorsión de tiempo. La etapa 470, por ejemplo, puede comprender la funcionalidad del método 400. Por tanto, la información de compactación de energía puede proporcionarse de modo que la información de compactación de energía describa una compactación de energía en la representación espectral transformada por la distorsión de tiempo de la señal de audio de entrada. El método 450 comprende además una etapa 480 para proporcionar de forma selectiva, con dependencia de la señal de activación de distorsión de tiempo, una descripción de la representación espectral transformada por la distorsión de tiempo de la señal de audio de entrada utilizando una información del contorno de distorsión de tiempo recientemente hallada o una descripción de una representación espectral transformada sin distorsión de tiempo de la señal de audio de entrada utilizando una información convencional del contorno de distorsión de tiempo (no variable) para la inclusión en la representación codificada de la señal de audio de entrada.

El método 450 puede complementarse por cualquiera de las características y funcionalidades analizados en el presente documento con respecto a la codificación de la señal de audio de entrada.

La figura 5 ilustra una realización preferida de un codificador de audio según la presente invención, en la que se implementan varios aspectos de la presente invención. Se proporciona una señal de audio en una entrada del codificador 500. Esta señal de audio será típicamente una señal de audio discreta la cual se ha derivado de una señal de audio analógica utilizando una tasa de muestreo la cual se denomina además la tasa de muestreo normal. Esta tasa de muestreo normal es diferente de una tasa de muestreo local generada en una operación de la distorsión de tiempo, y la tasa de muestreo normal de la señal de audio en la entrada 500 es una tasa de muestreo constante que da como resultado muestras de audio separadas por una parte de tiempo constante. La señal se coloca en un generador de ventana de análisis 502, el cual está, en esta realización, conectado un controlador de función ventana 504. El generador de ventana de análisis 502 está conectado a un distorsionador de tiempo 506. Dependiendo de la implementación, sin embargo, el distorsionador de tiempo 506 puede colocarse - en una dirección de procesamiento de señal - antes del generador de ventana de análisis 502. Se prefiere esta implementación, cuando una característica de distorsión de tiempo se requiere para la generación de ventanas de análisis en el bloque 502, y cuando la operación de distorsión de tiempo deba realizarse sobre muestras de distorsión de tiempo en vez de muestras sin distorsión de tiempo. Específicamente en el contexto de distorsión de tiempo basado en MDCT como se describe en Bernd Edler et al., “Time Warped MDCT”, Solicitud de Patente Internacional PCT/EP2009/002118. Para otras aplicaciones de distorsión de tiempo tal como las que se describen en L. Villemoes, “Time Warped Transform Coding of Audio Signals”, Solicitud de Patente Internacional PCT/EP2006/010246, noviembre de 2005., la colocación entre el distorsionador de tiempo 506 y el generador de ventana de análisis 502 se puede establecer según lo requerido. Además, un convertidor de tiempo/frecuencia 508 se proporciona para realizar una conversión de tiempo/frecuencia de una señal de audio distorsionada en el tiempo en una representación espectral. La representación espectral puede introducirse en una etapa de TNS (conformación de ruido temporal) 510, que proporciona, como una salida 510a, información de TNS y, como una salida 510b, valores residuales espectrales. La salida 510b está acoplada a un bloque cuantificador y codificador 512 que puede controlarse por un modelo perceptivo 514 para cuantificar una señal de modo que el ruido de cuantificación se oculte por debajo del umbral de enmascaramiento perceptivo de la señal de audio.

Adicionalmente, el codificador que se ilustra en la figura 5a comprende un analizador de distorsión de tiempo 516, que puede implementarse como un rastreador de tono, que proporciona una información de la distorsión de tiempo en la salida 518. La señal en la línea 518 puede comprender una característica de distorsión de tiempo, una característica de tono, un contorno de tono, o una información, si la señal analizada por el analizador de distorsión de tiempo es una señal armónica o una señal no armónica. El analizador de distorsión de tiempo además puede implementar la funcionalidad de distinguir entre la voz vocalizada y la voz no vocalizada. Sin embargo, dependiendo de la implementación, y si se implementa un clasificador de señal 520, la decisión vocalizada/no vocalizada puede efectuarse además mediante el clasificador de señal 520. En este caso, el analizador de distorsión de tiempo no necesariamente debe realizar la misma funcionalidad. La salida del analizador de distorsión de tiempo 518 está conectada a al menos una y preferentemente más de una funcionalidad en el grupo de funcionalidades que comprende el controlador de la función ventana 504, el distorsionador de tiempo 506, la etapa de TNS 510, el cuantificador y codificador 512 y una interfaz de salida 522.

De forma análoga, una salida 522 del clasificador de señal 520 puede estar conectada a una o más de las

5

10

15

20

25

30

35

40

45

50

55

60

funcionalidades de un grupo de funcionalidades que comprende el controlador de la función ventana 504, la etapa de TNS 510, un analizador de relleno de ruido 524 o la interfaz de salida 522. Además, la salida del analizador de distorsión de tiempo 518 puede estar conectada al analizador de relleno de ruido 524.

Aunque la figura 5a ilustra una situación, donde la señal de audio en la entrada del generador de ventana de análisis 500 se introduce en el analizador de distorsión de tiempo 516 y el clasificador de señal 520, las señales de entrada para estas funcionalidades además pueden tomarse de la salida del generador de ventana de análisis 502 y, con respecto al clasificador de señal, incluso se pueden tomar de la salida del distorsionador de tiempo 506, la salida del convertidor de tiempo/frecuencia 508 o la salida de la etapa del TNS 510.

Además de la salida de una señal por el codificador cuantificador 512 que se indica en 526, la interfaz de salida 522 recibe la información en el lado del TNS 510a, una información en el lado del modelo perceptivo 528, el cual puede incluir factores de escala de forma codificada, datos de indicación de distorsión de tiempo para información en el lado de la distorsión de tiempo más avanzada tal como el contorno de tono en la línea 518 y la información de clasificación de señal en la línea 522. Además, el analizador de relleno de ruido 524 puede emitir además datos de relleno de ruido en la salida 530 en la interfaz de salida 522. La interfaz de salida 522 está configurada para generar datos de salida de audio codificados en la línea 532 para la transmisión a un decodificador o para almacenar en un dispositivo de almacenamiento tal como un dispositivo de memoria. Dependiendo de la implementación, los datos de salida 532 pueden incluir todos los de la entrada en la interfaz de salida 522 o pueden contener menos información, siempre que la información no se requiera por el correspondiente decodificador, que tiene una funcionalidad reducida, o siempre que la información ya esté disponible en el decodificador debido a una transmisión mediante un canal de transmisión diferente.

El codificador que se ilustra en la figura 5a puede implementarse tal como se define en detalle en la norma MPEG-4 a parte de las funcionalidades adicionales que se ilustran en el codificador de la invención en la figura 5a representado por el controlador de la función ventana 504, el analizador de relleno de ruido 524, el codificador cuantificador 512 y la etapa 510, que tienen, en comparación con la norma MPEG-4, una funcionalidad avanzada. Una descripción adicional se encuentra en la norma AaC (norma internacional 13818-7) o 3GPP TS 26.403 V7.0.0: Third generation partnership project; technical specification group services and system aspect; general audio codec audio processing functions; enhanced AAC plus general audio codec.

A continuación, se describe la figura 5b, la cual ilustra una realización preferida de un decodificador de audio para decodificar una señal de audio codificada recibida a través de la entrada 540. La interfaz de entrada 540 es operativa para procesar la señal de audio codificada de modo que los diferentes elementos de información de la información se extraen de la señal en la línea 540. Esta información comprende la información de clasificación de señal 541, información de distorsión de tiempo 542, datos de relleno de ruido 543, factores de escala 544, datos de TNS 545 e información espectral codificada 546. La información espectral codificada se introduce en un decodificador de entropía 547, que puede comprender un decodificador Huffman o un decodificador aritmético, siempre que la funcionalidad del codificador en el bloque 512 en la figura 5a se implemente como un codificador correspondiente tal como un codificador Huffman o un codificador aritmético. La información espectral codificada se introduce al re-cuantificador 550, el cual está conectado a un relleno de ruido 552. La salida del relleno de ruido 552 se introduce a una etapa de TNS inversa 554, que recibe además los datos de TNS en la línea 545. Dependiendo de la implementación, el relleno de ruido 552 y la etapa de TNS 554 pueden aplicarse en diferente orden de modo que el relleno de ruido 552 opere en los datos de salida de la etapa 554 de tNs más que en los datos de entrada de TNS. Además, se proporciona un convertidor de frecuencia/tiempo 556, el cual alimenta un distorsionador de tiempo 558. A la salida de la cadena de procesamiento de señal, un generador de ventana de síntesis que realiza preferentemente un procesamiento de superposición/adición se aplica como se indica en 560. El orden del distorsionador de tiempo 558 y la etapa de síntesis 560 se puede cambiar, pero, en la realización preferida, se prefiere realizar un algoritmo de codificado/decodificación basado en MDCT como se define en la norma AAC (AAC = codificación de audio avanzada). A continuación, la operación de desvanecimiento cruzado intrínseca de un bloque al próximo debido al procedimiento de superposición/adición se utiliza ventajosamente como la última operación en las cadenas de procesamiento de modo que todos los artefactos de bloqueo se evitan de forma eficaz.

Adicionalmente, se proporciona un analizador de relleno de ruido 562, que está configurado para controlar el relleno de ruido 552 y que recibe como una entrada, información de distorsión temporal 542 y/o información de clasificación de señales 541 e información sobre el espectro re-cuantificado, según sea el caso.

Preferentemente, todas las funcionalidades descritas a continuación en el presente documento se aplican juntas en un esquema de codificador/decodificador de audio mejorado. No obstante, las funcionalidades descritas a continuación en el presente documento también pueden aplicarse independientemente unas de las otras, es decir, de manera que solamente se implementa una o un grupo, pero no todas las funcionalidades en un cierto esquema de codificador/decodificador.

Posteriormente, se describe en detalle el aspecto de relleno de ruido de la presente invención.

5

10

15

20

25

30

35

40

45

50

55

60

En una realización, la información adicional proporcionada por la herramienta de contornos de tono/distorsión de tiempo 516 en la figura 5a se utiliza de manera beneficiosa para controlar otras herramientas del códec y, específicamente, la herramienta de relleno de ruido implementada por el analizador de relleno de ruido 524 en el lado del codificador y/o implementada por el analizador de relleno de ruido 562 y el relleno de ruido 552 en el lado del decodificador.

Varias herramientas del codificador dentro de la estructura de AAC tal como una herramienta de relleno de ruido se controlan mediante la información recopilada por el análisis de contornos de tonos y/o por un conocimiento adicional de una clasificación de señales proporcionada por el clasificador de señales 520.

Un contorno de tonos encontrado indica segmentos de señales con una estructura armónica clara, de manera que el relleno de ruido entre las líneas armónicas podría disminuir la calidad percibida, especialmente en las señales de voz, por lo tanto el nivel de ruido se reduce, cuando se encuentra un contorno de tono. De otra manera, habría ruido entre los tonos parciales, que tienen el mismo efecto que el ruido de cuantificación incrementado para un espectro emborronado. Además, la cantidad de reducción del nivel de ruido puede mejorarse adicionalmente utilizando la información del clasificador de señales, de modo que por ejemplo para las señales de voz no habría ningún relleno de ruido y se aplicaría un relleno de ruido moderado a las señales genéricas con una estructura armónica fuerte.

Generalmente, el relleno de ruido 552 es útil para insertar líneas espectrales en un espectro decodificado, donde los ceros se han transmitido de un codificador a un decodificador, es decir, donde el cuantificador 512 en la figura 5a ha cuantificado líneas espectrales a cero. Evidentemente, cuantificar las líneas espectrales a cero redujo enormemente la tasa de bits de la señal transmitida, y, en teoría, la eliminación de estas líneas espectrales (pequeñas) no es audible, cuando estas líneas espectrales están por debajo del umbral de enmascaramiento perceptivo según lo determinado por el modelo perceptivo 514. No obstante, se ha descubierto que estos “huecos espectrales”, que pueden incluir muchas líneas espectrales adyacentes dan como resultado un sonido bastante poco natural. Por lo tanto, se proporciona una herramienta de relleno de ruido para insertar líneas espectrales en las posiciones, donde las líneas se han cuantificado a cero mediante un cuantificador en el lado del codificador. Estas líneas espectrales pueden tener una amplitud o fase aleatoria, y estas líneas espectrales sintetizadas en el lado del decodificador se escalan utilizando una medida de relleno de ruido determinada en el lado del codificador según lo ilustrado en la figura 5a o dependiendo de una medida determinada en el lado del decodificador según lo ilustrado en la figura 5b por el bloque opcional 562. El analizador de relleno de ruido 524 en la figura 5a, por lo tanto, está configurado para estimar una medida de relleno de ruido de una energía de valores de audio cuantificados a cero para una trama de tiempo de la señal de audio.

En una realización de la presente invención, el codificador de audio para codificar una señal de audio en la línea 500 comprende el cuantificador 512 que se configura para cuantificar valores de audio, donde el cuantificador 512 además está configurado para cuantificar a cero valores de audio por debajo de un umbral de cuantificación. Este umbral de cuantificación puede ser el primer paso de un cuantificador basado en etapas, que se utiliza para la decisión, si un cierto valor de audio se cuantifica a cero, es decir, a un índice de cuantificación de cero, o se cuantifica a uno, es decir, un índice de cuantificación de uno que indica que el valor de audio está por encima de este primer umbral. Aunque el cuantificador en la figura 5a se ilustra como que realiza la cuantificación de valores en el dominio de la frecuencia, el cuantificador también puede utilizarse para cuantificar valores en el dominio del tiempo en una realización alternativa, en la que el relleno de ruido se realiza en el dominio del tiempo en vez del dominio de la frecuencia.

El analizador de relleno de ruido 524 se implementa como un calculador de relleno de ruido para estimar una medida de relleno de ruido de una energía de valores de audio cuantificados a cero para una trama de tiempo de la señal de audio por parte del cuantificador 512. Adicionalmente, el codificador de audio comprende un analizador de señales de audio 600 ilustrado en la figura 6a, que se configura para analizar si la trama temporal de la señal de audio tiene una característica armónica o una característica de voz. El analizador de señales 600 puede, por ejemplo, comprender el bloque 516 de la figura 5a o el bloque 520 de la figura 5a o puede comprender cualquier otro dispositivo para analizar si una señal es una señal armónica o una señal de voz. Debido a que el analizador de distorsión de tiempo 516 se implementa para buscar siempre un contorno de tonos, y debido a que la presencia de un contorno de tonos indica una estructura armónica de la señal, el analizador de señales 600 en la figura 6a puede implementarse como un rastreador de tonos o un calculador de contornos de distorsión en el tiempo de un analizador de distorsión de tiempo.

El codificador de audio adicionalmente comprende un manipulador del nivel de relleno de ruido 602 ilustrado en la figura 6a, que produce una medida/nivel de relleno de ruido manipulado que va a producirse para la interfaz de salida 522 indicada en 530 en la figura 5a. El manipulador de medida de relleno de ruido 602 está configurado para manipular la medida de relleno de ruido dependiendo de la característica armónica o de voz de la señal de audio. El codificador de audio adicionalmente comprende la interfaz de salida 522 para generar una señal codificada para transmisión o almacenamiento, comprendiendo la señal codificada la medida de relleno de ruido manipulada

5

10

15

20

25

30

35

40

45

50

55

60

producida por el bloque 602 en la línea 530. Este valor corresponde al valor producido por el bloque 562 en la implementación en el lado del decodificador ilustrada en la figura 5b.

Según lo indicado en la figura 5a y la figura 5b, la manipulación del nivel de relleno de ruido puede implementarse en un codificador o puede implementarse en un decodificador o puede implementarse en ambos dispositivos juntos. En una implementación en el lado del decodificador, el decodificador para decodificar una señal de audio codificada comprende la interfaz de entrada 539 para procesar la señal codificada en la línea 540 para obtener una medida de relleno de ruido, es decir, los datos de relleno de ruido en la línea 543, y los datos de audio codificados en la línea 546. El decodificador adicionalmente comprende un decodificador 547 y un re-cuantificador 550 para generar datos re-cuantificados.

Adicionalmente, el decodificador comprende un analizador de señales 600 (figura 6a) que puede implementarse en el analizador de relleno de ruido 562 en la figura 5b para recuperar información de si una trama temporal de los datos de audio tiene una característica armónica o de voz.

Adicionalmente, se proporciona el relleno de ruido 552 para generar datos de audio de relleno de ruido, estando el relleno de ruido 552 configurado para generar los datos de relleno de ruido en respuesta a la medida de relleno de ruido transmitida a través de la señal codificada y generada por la interfaz de entrada en la línea 543 y la característica armónica o de voz de los datos de audio según lo definido por los analizadores de señales 516 y/o 550 en el lado del codificador o según lo definido por el elemento 562 en el lado del decodificador a través del procesamiento e interpretación de la información de distorsión de tiempo 542 que indica si una cierta trama temporal se ha sometido a un procesamiento de distorsión en el tiempo o no.

Adicionalmente, el decodificador comprende un procesador para procesar los datos re-cuantificados y los datos de audio de relleno de ruido para obtener unas señales de audio decodificadas. El procesador puede incluir los elementos 554, 556, 558, 560 en la figura 5b según sea el caso. Adicionalmente, dependiendo de la implementación específica del algoritmo del codificador/decodificador, el procesador puede incluir otros bloques de procesamiento, que se proporcionan, por ejemplo, en un codificador de dominio del tiempo tal como el codificador AMR WB+ u otros codificadores de voz.

La manipulación de relleno de ruido de la invención puede implementarse, por lo tanto, en el lado del codificador solamente calculando la medida de ruido sencilla y manipulando esta medida de ruido basándose en la información armónica/de voz y transmitiendo la medida de relleno de ruido manipulada ya correcta que entonces puede aplicarse por un decodificador de manera sencilla. Como alternativa, la medida de relleno de ruido no manipulada puede transmitirse desde un codificador a un decodificador, y el decodificador entonces analizará si la trama de tiempo real de una señal de audio se ha distorsionado en el tiempo, es decir, tiene una característica armónica o de voz de manera que la manipulación real de la medida de relleno de ruido se produce en el lado del decodificador.

Posteriormente, se analiza la figura 6b para explicar realizaciones preferidas para manipular la estimación del nivel de ruido.

En la primera realización, se aplica un nivel de ruido normal, cuando la señal no tiene una característica armónica o de voz. Éste es el caso, cuando no se aplica ninguna distorsión de tiempo. Cuando, adicionalmente, se proporciona un clasificador de señales, entonces el clasificador de señales que distingue entre voz y no voz indicaría no voz para la situación en la que la distorsión de tiempo no estaba activa, es decir, cuando no se encontró ningún contorno de tonos.

Cuando, sin embargo, la distorsión de tiempo estaba activa, es decir, cuando se encontró un contorno de tonos, que indica un contenido armónico, entonces el nivel de relleno de ruido se manipularía para que sea más bajo que en el caso normal. Cuando se proporciona un clasificador de señales adicional, y después este clasificador de señales indica voz, y cuando simultáneamente la información de distorsión de tiempo indica un contorno de tonos, entonces se señala un nivel de relleno de ruido más bajo o incluso igual a cero. De este modo, el manipulador del nivel de relleno de ruido 602 de la figura 6a reducirá el nivel de ruido manipulado a cero o al menos a un valor menor que el valor bajo indicado en la figura 6b. Preferentemente, el clasificador de señales adicionalmente tiene un detector vocalizado/no vocalizado según lo indicado a la izquierda de la figura 6b. En el caso de voz vocalizada, se señala/aplica un nivel de relleno de ruido muy bajo o igual a cero. Sin embargo, en el caso de voz no vocalizada, cuando la indicación de distorsión de tiempo no indica un procesamiento de distorsión de tiempo debido al hecho de que no se encontró ningún tono, pero cuando el clasificador de señales señala contenido de voz, la medida de relleno de ruido no se manipula, sino que se aplica un nivel de relleno de ruido normal.

Preferentemente, el analizador de señales de audio comprende un rastreador de tonos para generar una indicación de tono tal como un contorno de tonos o un tono absoluto de una trama temporal de la señal de audio.

Entonces, el manipulador está configurado para reducir la medida de relleno de ruido cuando se encuentra un tono,

5

10

15

20

25

30

35

40

45

50

55

60

y no reducir la medida de relleno de ruido cuando no se encuentra un tono.

Según lo indicado en la figura 6a, un analizador de señales 600, cuando se aplica en el lado del decodificador, no está realizando un análisis de señales real como un rastreador de tonos o un detector vocalizado/no vocalizado, sino que el analizador de señales analiza sintácticamente la señal de audio codificada para extraer una información de distorsión de tiempo o una información de clasificación de señales. Por lo tanto, el analizador de señales 600 puede implementarse dentro de la interfaz de entrada 539 en el decodificador de la figura 5b.

Una realización adicional de la presente invención se analizará posteriormente con respecto a las figuras 7a-7e.

Para inicios de voz donde comienza una parte de voz vocalizada después de una parte de señal relativamente silenciosa, el algoritmo de conmutación de bloques podría clasificarla como un ataque y podría elegir bloques cortos para esta trama particular, con una pérdida de ganancia de codificación en el segmento de señal que tiene una clara estructura armónica. Por lo tanto, la clasificación vocalizada/no vocalizada del rastreador de tonos se utiliza para detectar inicios vocalizados y evitar que el algoritmo de conmutación de bloques indique un ataque transitorio alrededor del inicio encontrado. Esta característica también puede acoplarse con el clasificador de señales para evitar la conmutación de bloques en señales de voz y permitirlo en todas las otras señales. Además se podría implementar un control más preciso de la conmutación de bloques no sólo mediante el permiso o rechazo de la detección de ataques, sino mediante el uso de un umbral variable para la detección de ataques basado en el inicio vocalizado e información de clasificación de señales. Además, la información puede utilizarse para detectar ataques como los inicios vocalizados mencionados anteriormente pero en vez de cambiar a bloques cortos, utiliza ventanas largas con superposiciones cortas, que siguen siendo la resolución espectral preferible pero reducen la región temporal en la que pueden surgir ecos previos y posteriores. La figura 7d muestra el comportamiento típico sin la adaptación, la figura 7e muestra dos diferentes posibilidades de adaptación (ventanas de baja superposición y prevención).

Un codificador de audio de acuerdo con una realización de la presente invención funciona para generar una señal de audio tal como la señal producida por la interfaz de salida 522 de la figura 5a. El codificador de audio comprende un analizador de señales de audio tal como el analizador de distorsión de tiempo 516 o un clasificador de señales 520 de la figura 5a. Generalmente, el analizador de señales de audio analiza si una trama temporal de la señal de audio tiene una característica armónica o de voz. Para este fin, el clasificador de señales 520 de la figura 5a puede incluir un detector vocalizado/no vocalizado 520a o un detector 520b de voz /no voz. Aunque no se muestra en la figura 7a, también puede proporcionarse un analizador de distorsión de tiempo tal como el analizador de distorsión de tiempo 516 de la figura 5a, que puede incluir un rastreador de tonos en vez de los elementos 520a y 520b o además de estas funcionalidades. Adicionalmente, el codificador de audio comprende el controlador de función ventana 504 para seleccionar una función ventana dependiendo de una característica armónica o de voz de la señal de audio según lo determinado por el analizador de señales de audio. El generador de ventanas 502 entonces aplica la función ventana a la señal de audio o, dependiendo de cierta implementación, la señal de audio distorsionada en el tiempo utilizando la función ventana seleccionada para obtener una trama dividida en ventanas. Esta trama de ventana se procesa entonces además por un procesador para obtener una señal de audio codificada. El procesador puede comprender los elementos 508, 510, 512 ilustrados en la figura 5a o más o menos funcionalidades de los codificadores de audio bien conocidos tales como codificadores de audio basados en transformadas o codificadores de audio basados en dominios de tiempo que comprenden un filtro LPC tal como codificadores de voz y, específicamente, codificadores de voz implementados según la norma AMR-WB+.

En una realización preferida, el controlador de función ventana 504 comprende un detector de transitorios 700 para detectar un transitorio en la señal de audio, estando el controlador de función ventana configurado para conmutar de una función ventana para un bloque largo a una función ventana para un bloque corto, cuando se detecta un transitorio y el analizador de señales de audio no encuentra una característica armónica o de voz. Cuando, sin embargo, se detecta un transitorio y el analizador de señales de audio encuentra una característica armónica o de voz, entonces el controlador de función ventana 504 no conmuta a la función ventana para el bloque corto. Las salidas de la función ventana que indican una ventana larga cuando no se obtiene ningún transitorio y una ventana corta cuando el detector de transitorios detecta un transitorio se ilustran como 701 y 702 en la figura 7a. Este procedimiento normal según se ejecuta por el codificador AAC ampliamente conocido se ilustra en la figura 7d. En la posición del inicio de voz, el detector de transitorios 700 detecta un incremento en la energía desde una trama a la siguiente trama y, por lo tanto, cambia de una ventana larga 710 a ventanas cortas 712. Para acomodar esta conmutación, se utiliza una ventana de detención larga 714, que tiene una primera parte de superposición 714a, una parte de no solapamiento 714b, una segunda parte de superposición más corta 714c y una parte cero que se extiende entre el punto 716 y el punto en el eje temporal indicado por las 2048 muestras. Entonces, se ejecuta la secuencia de ventanas cortas indicada en 712 que, entonces, se termina mediante una ventana de inicio larga 718 que tiene una parte larga de superposición 718a que se superpone con la siguiente ventana larga no ilustrada en la figura 7d. Además, esta ventana tiene una parte 718b de no solapamiento, una parte de superposición corta 718c y una parte cero que se extiende entre el punto 720 en el eje temporal hasta el punto 2048. Esta parte es una parte cero.

5

10

15

20

25

30

35

40

45

50

55

60

Normalmente, el cambio a ventanas cortas es útil para evitar pre-ecos que podrían aparecer dentro de una trama antes del evento transitorio que es la posición de inicio vocalizado o, generalmente, el comienzo de la voz o el comienzo de una señal que tiene un contenido armónico. Generalmente, una señal tiene un contenido armónico, cuando un rastreador de tonos decide que la señal tiene un tono. Como alternativa, existen otras medidas de armonicidad tales como una medida de tonalidad por encima de un cierto nivel mínimo junto con la característica de que los picos prominentes tienen una relación armónica entre sí. Existe una pluralidad de otras técnicas para determinar, si una señal es armónica o no.

Una desventaja de las ventanas cortas es que disminuye la resolución de frecuencia, ya que se incrementa la resolución temporal. Para codificación de alta calidad de voz y, específicamente, partes de voz vocalizada o partes que tienen un fuerte contenido armónico, se desea una buena resolución de frecuencia. Por lo tanto, el analizador de señales de audio ilustrado en 516, 520 o 520a, 520b es operativo para producir una señal de desactivación para el detector de transitorios 700 de manera que se evita una conmutación a ventanas cortas cuando se detecta un segmento de voz vocalizada o un segmento de señales que tienen una fuerte característica armónica. Esto garantiza que, para codificar dichas partes de señal, se mantiene una alta resolución de frecuencia. Esto es un equilibrio entre los pre-ecos por un lado y la codificación de alta calidad y alta resolución del tono para la señal de voz o el tono para una señal de no voz armónica por otro lado. Se ha descubierto que es mucho más perturbador cuando el espectro armónico no está codificado con precisión en comparación con cualquier pre-eco que pudiera aparecer. Para disminuir además los pre-ecos, se favorece un procesamiento TNS para dicha situación, que se analizará con relación a las figuras 8a y 8b.

En una realización alternativa ilustrada en la figura 7b, el analizador de señales de audio comprende un detector de vocalizado/no vocalizado y/o de voz /no voz 520a, 520b. Sin embargo, el detector de transitorios 700 incluido en el controlador de función ventana no está completamente activado/desactivado como en la figura 7a, sino que el umbral incluido en el detector de transitorios se controla utilizando una señal de control de umbral 704. En esta realización, el detector de transitorios 700 está configurado para determinar una característica cuantitativa de la señal de audio y para comparar la característica cuantitativa con el umbral controlable, detectándose un transitorio cuando la característica cuantitativa tiene una relación predeterminada con respecto al umbral controlable. La característica cuantitativa puede ser un número que indica el incremento de energía de un bloque al siguiente bloque, y el umbral puede ser un cierto incremento de energía umbral. Cuando el incremento de energía de un bloque al siguiente es mayor que el incremento de energía umbral, entonces se detecta un transitorio, de manera que, en este caso, la relación predeterminada es una relación de “mayor que”. En otras realizaciones, la relación predeterminada también puede ser una relación de “menor que”, por ejemplo cuando la característica cuantitativa es un incremento de energía invertido. En la realización de la figura 7b, el umbral controlable se controla de manera que se reduce la probabilidad de un cambio a una función ventana para un bloque corto, cuando el analizador de señales de audio ha encontrado una característica armónica o de voz. En la realización de incremento de energía, la señal de control de umbral 704 dará como resultado un incremento del umbral de manera que las conmutaciones a bloques cortos suceden solamente cuando el incremento de energía de un bloque al siguiente es un incremento de energía particularmente alto.

En una realización alternativa, la señal de salida del detector vocalizado/no vocalizado 520a o el detector de voz/no voz 520b también puede utilizarse para controlar el controlador de función ventana 504 de tal manera que en vez de conmutar a un bloque corto en un inicio de voz, se ejecuta una conmutación a una función ventana que es más larga que la función ventana para el bloque corto. Esta función ventana garantiza una resolución de frecuencia más alta que una función ventana corta, pero tiene una longitud más corta que la función ventana larga de manera que se obtiene un buen compromiso entre los pre-ecos por un lado y una resolución de frecuencia suficiente por otro lado. En una realización alternativa, se puede realizar una conmutación a una función ventana que tiene una superposición más pequeña según lo indicado por la línea sombreada en la figura 7e en 706. La función ventana 706 tiene una longitud de 2048 muestras como el bloque largo, pero esta ventana tiene una parte cero 708 y una parte de no solapamiento 710 de manera que se obtiene una longitud de superposición corta 712 desde la ventana 706 a una ventana 707 correspondiente. La función ventana 707, nuevamente, tiene una parte cero a la izquierda de la región 712 y una parte de no solapamiento a la derecha de la región 712 en analogía a la función ventana 710. Esta realización de baja superposición, efectivamente da como resultado una longitud de tiempo más corta para reducir los pre-ecos debido a la parte cero de la ventana 706 y 707, pero por otro lado tiene una longitud suficiente debido a la parte de superposición 714 y la parte 710 de no solapamiento de manera que se mantiene una resolución de frecuencia suficiente.

En una implementación de MDCT preferida según se implementa por el codificador AAC, mantener una cierta superposición proporciona la ventaja adicional de que, en el lado del decodificador, se puede realizar un procesamiento de superposición/adición lo que significa que se realiza una especie de desvanecimiento cruzado entre bloques. Esto evita eficazmente “artefactos”. Adicionalmente, esta característica de superposición/adición proporciona la característica de desvanecimiento cruzado sin incrementar la tasa de bits, es decir, se obtiene un desvanecimiento cruzado críticamente muestreado. En ventanas cortas o ventanas largas regulares, la parte de superposición es una superposición del 50 % tal como se indica por la parte de superposición 714. En la realización

5

10

15

20

25

30

35

40

45

50

55

60

en la que la función ventana tiene una longitud de 2048 muestras, la parte de superposición es del 50 %, es decir, 1024 muestras. La función ventana que tiene una superposición más corta que va a utilizarse para aplicar eficazmente una función ventana a un inicio de voz o un inicio de una señal armónica es preferentemente menos del 50 % y tiene, en la realización de la figura 7e, solamente una longitud de 128 muestras, que es un 1/16 del total de la longitud de ventana. Preferentemente, se utilizan partes de superposición entre 1/4 y 1/32 de la longitud total de la función ventana.

La figura 7c ilustra esta realización, en la que un detector de vocalizado/no vocalizado 520a ejemplar controla un selector de formas de ventanas incluido en el controlador de función ventana 504 para seleccionar una forma de ventana con una superposición corta según lo indicado en 749 o una forma de ventana con una superposición larga según lo indicado en 750. Se implementa la selección de una de ambas formas, cuando el detector de vocalizado/no vocalizado 500a emite una señal vocalizada detectada en 751, donde la señal de audio utilizada para análisis puede ser la señal de audio en la entrada 500 en la figura 5a o una señal de audio pre-procesada tal como una señal de audio distorsionada en el tiempo o una señal de audio que haya sido sometida a cualquier otra funcionalidad de preprocesamiento. Preferentemente, el selector de formas de ventanas 504 en la figura 7c que está incluido en el controlador de función ventana 504 en la figura 5a solamente utiliza la señal 751, cuando un detector de transitorios incluido en el controlador de función ventana detecta un transitorio y ordena una conmutación de una función ventana larga a una función ventana corta según lo analizado con relación a la figura 7a.

Preferentemente, la realización del cambio de función ventana se combina con una realización de conformación de ruido temporal analizada con relación a las figuras 8a y 8b. Sin embargo, la realización de TNS (conformación de ruido temporal) también puede implementarse sin la realización de cambios de bloques.

La propiedad de compactación de energía espectral de la MDCT distorsionada en el tiempo también influye en la herramienta de conformación de ruido temporal (TNS), debido a que la ganancia de TNS tiende a disminuir para tramas distorsionadas en el tiempo especialmente para algunas señales de voz. No obstante es deseable activar TNS, por ejemplo para reducir los pre-ecos en los inicios o desviaciones vocalizadas (véase la adaptación de la conmutación de bloques), donde no se desea ninguna conmutación de bloques pero aún la envolvente temporal de la señal de voz muestra cambios rápidos. Típicamente, un codificador utiliza alguna medida para ver si la aplicación de la TNS es provechosa para una cierta trama, por ejemplo la ganancia de predicción del filtro de TNS cuando se aplica al espectro. Entonces se prefiere un umbral de ganancia de TNS variable, que sea menor para los segmentos con un contorno de tono activo, se manera que se garantiza que la TNS esté activa más a menudo para tales partes de señal críticas tales como inicios vocalizados. Como para las otras herramientas, esto también puede complementarse teniendo en cuenta la clasificación de señales.

El codificador de audio según esta realización para generar una señal de audio comprende un distorsionador de tiempo controlable tal como el distorsionador de tiempo 506 para la distorsión en el tiempo de la señal de audio para obtener una señal de audio distorsionada en el tiempo. Adicionalmente, se proporciona un convertidor de frecuencia/tiempo 508 para convertir al menos una parte de la señal de audio distorsionada en el tiempo en una representación espectral. El convertidor de frecuencia/tiempo 508 preferentemente implementa una transformada MDCT tal como se conoce del codificador AAC, pero el convertidor de frecuencia/tiempo también puede realizar cualquier otra clase de transformada tal como una transformada DCT, DST, DFT, FFT o MDST o puede comprender un banco de filtros tal como un banco de filtros QMF.

Adicionalmente, el codificador comprende una etapa de conformación de ruido temporal 510 para realizar un filtrado de predicción sobre la frecuencia de la representación espectral de acuerdo con la orden de control de conformación de ruido temporal, en la que no se realiza el filtrado de predicción, cuando no existe la orden de control de conformación de ruido temporal.

Adicionalmente, el codificador comprende un controlador de conformación de ruido temporal para generar la orden de control de conformación de ruido temporal basándose en la representación espectral.

Específicamente, el controlador de conformación de ruido temporal está configurado para incrementar la probabilidad de realizar el filtrado de predicción sobre la frecuencia, cuando la representación espectral se basa en una señal de tiempo distorsionada en el tiempo o para reducir la probabilidad de realizar el filtrado de predicción sobre la frecuencia, cuando la representación espectral no está basada en una señal de tiempo distorsionada en el tiempo. Los detalles del controlador de conformación de ruido temporal se analizan con relación a la figura 8.

El codificador de audio adicionalmente comprende un procesador para además procesar un resultado del filtrado de predicción sobre la frecuencia para obtener la señal codificada. En una realización, el procesador comprende la etapa de codificador cuantificador 512 ilustrada en la figura 5a.

Una etapa de TNS 510 ilustrada en la figura 5a se ilustra en detalle en la figura 8. Preferentemente, el controlador de conformación de ruido temporal incluido en la etapa 510 comprende un calculador de ganancia de TNS 800, un

5

10

15

20

25

30

35

40

45

50

55

60

tomador de decisión de TNS 802 posteriormente conectado y un generador de señal de control de umbral 804. Dependiendo de una señal del analizador de distorsión de tiempo 516 o el clasificador de señales 520 o ambos, el generador de señal de control de umbral 804 produce una señal de control de umbral 806 para el tomador de decisión de TNS. El tomador de decisión de TNS 802 tiene un umbral controlable, que se incrementa o se reduce conforme a la señal de control de umbral 806. El umbral en el tomador de decisión de TNS 802 es, en esta realización, un umbral de ganancia de TNS. Cuando la ganancia de TNS realmente calculada producida por el bloque 800 excede el umbral, entonces la orden de control de TNS requiere un procesamiento de TNS como salida, mientras que, en el otro caso, cuando la ganancia de TNS está por debajo del umbral de ganancia de TNS, no se produce ninguna orden de TNS o se produce una señal que ordena que el procesamiento de TNS no es útil y no debe realizarse en esta trama temporal específica.

El calculador de ganancia de TNS 800 recibe, como una entrada, la representación espectral obtenida a partir de la señal distorsionada en el tiempo. Típicamente, una señal distorsionada en el tiempo tendrá una ganancia de TNS menor, pero por otro lado, un procesamiento de TNS debido a la característica de conformación de ruido temporal en el dominio del tiempo es beneficioso en la situación específica, en la que existe una señal vocalizada/armónica que se ha sometido a una operación de distorsión en el tiempo. Por otro lado, el procesamiento de TNS no es útil en situaciones en las que el aumento de TNS es bajo, lo que significa que la señal residual de TNS en la línea 510b tiene la misma energía o mayor energía que la señal antes de la etapa de TNS 510. En una situación en la que la energía de la señal residual de TNS en la línea 510d es ligeramente menor que la energía antes de la etapa de TNS 510, el procesamiento de TNS podría no ser ventajoso tampoco, debido a que la reducción de bits debida a la energía ligeramente menor en la señal que se utiliza eficazmente por la etapa del codificador de entropía/cuantificador 512 es más pequeña que el incremento de bits introducido por la transmisión necesaria de la información secundaria de TNS indicada en 510a en la figura 5a. Aunque una realización activa automáticamente el procesamiento de TNS para todas las tramas, en las que se introduce una señal distorsionada en el tiempo indicada por la información de tono del bloque 516 o la información del clasificador de señales del bloque 520, una realización preferida también mantiene la posibilidad de desactivar el procesamiento de TNS, pero sólo cuando la ganancia es realmente baja o al menos menor que en el caso normal, cuando no se procesa ninguna señal armónica/de voz.

La figura 8b ilustra una implementación en la que se implementan tres ajustes de umbral diferentes por el generador de señal de control de umbral 804/tomador de decisión de TNS 802. Cuando no existe un contorno de tonos, y cuando un clasificador de señal indica una voz no vocalizada o ninguna voz en absoluto, entonces el umbral de decisión de TNS se ajusta para estar en un estado normal que requiere una ganancia de TNS relativamente alta para activar la TNS. Cuando, sin embargo, se detecta un contorno de tonos, pero el clasificador de señales no indica ninguna voz o el detector vocalizado/no vocalizado detecta una voz no vocalizada, entonces el umbral de decisión de TNS se ajusta a un nivel menor, lo que significa que aún cuando se calculan ganancias de TNS comparativamente bajas por el bloque 800 en la figura 8a, aún así se activa el procesamiento de TNS.

En una situación, en la que se detecta un contorno de tonos activo y en la que se encuentra una voz vocalizada, entonces, el umbral de decisión de TNS se ajusta al mismo nivel más bajo o se ajusta a un estado aún menor de manera que incluso las pequeñas ganancias de TNS son suficientes para activar un procesamiento de TNS.

En una realización, el controlador de ganancia de TNS está configurado para estimar una ganancia en calidad o tasa de bits, cuando la señal de audio se somete al filtrado de predicción sobre la frecuencia. Un tomador de decisión de TNS 802 compara la ganancia estimada con un umbral de decisión, y una información de control de TNS a favor del filtrado de predicción se produce por el bloque 802, cuando la ganancia estimada está en una relación predeterminada con respecto al umbral de decisión, donde esta relación predeterminada puede ser una relación de “mayor que”, pero también puede ser una relación de “menor que” para una ganancia invertida de TNS por ejemplo. Como se analiza, el controlador de conformación de ruido temporal está configurado además para variar el umbral de decisión utilizando preferentemente la señal de control de umbral 806 de manera que, para la misma ganancia estimada, se activa el filtrado de predicción, cuando la representación espectral se basa en la señal de audio distorsionada en el tiempo, y no se activa, cuando la representación espectral no se basa en la señal de audio distorsionada en el tiempo.

Normalmente, la voz vocalizada mostrará un contorno de tonos, y la voz no vocalizada tal como sonidos fricativos o sonidos sibilantes no mostrará un contorno de tonos. Sin embargo, existen señales no de voz, con fuerte contenido armónico y, por lo tanto, tienen un contorno de tonos, aunque el detector de voz no detecte voz. Adicionalmente, existe cierta voz sobre música o música sobre señales de voz, que el analizador de señales de audio (516 de la figura 5a por ejemplo) determina que tienen un contenido armónico, pero que no se detectan por el clasificador de señales 520 como señal de voz. En dicha situación, también pueden aplicarse todas las operaciones de procesamiento para señales de voz vocalizadas y también darán como resultado una ventaja.

Posteriormente, se describe otra realización preferida de la presente invención con respecto a un codificador de audio para codificar una señal de audio. Este codificador de audio es específicamente útil en el contexto de la extensión del ancho de banda, pero también es útil en aplicaciones de codificador independientes, en las que el

5

10

15

20

25

30

35

40

45

50

55

60

codificador de audio se ajusta para codificar un cierto número de líneas para obtener una cierta limitación de ancho de banda/operación de filtrado de paso bajo. En las aplicaciones no distorsionadas en el tiempo, esta limitación de ancho de banda seleccionando un cierto número predeterminado de líneas dará como resultado un ancho de banda constante, ya que la frecuencia de muestreo de la señal de audio es constante. En situaciones, sin embargo, en las que se realiza un procesamiento de distorsión de tiempo tal como por el bloque 506 en la figura 5a, un codificador que depende de un número fijo de líneas dará como resultado un ancho de banda variable introduciendo fuertes artefactos no sólo perceptibles para oyentes entrenados sino también perceptibles para oyentes no entrenados.

El codificador central AAC normalmente codifica un número fijo de líneas, ajustando todas las demás por encima de la línea máxima a cero. En el caso no distorsionado esto lleva a un efecto de paso bajo con una frecuencia de corte constante y por lo tanto a un ancho de banda constante de la señal AAC decodificada. En el caso distorsionado en el tiempo el ancho de banda varía debido a la variación de la frecuencia de muestreo local, una función del contorno de distorsión en el tiempo local, que lleva a artefactos audibles. Los artefactos pueden reducirse eligiendo de forma adaptativa el número de líneas, como una función del contorno de distorsión en el tiempo local y su tasa de muestreo promedio obtenida, que van a codificarse en el codificador central dependiendo de la frecuencia de muestreo local de manera que se obtiene un ancho de banda promedio constante después de re-distorsionar en el tiempo en el decodificador para todas las tramas. Un beneficio adicional es el ahorro de bits en el codificador.

El codificador de audio según esta realización comprende el distorsionador de tiempo 506 para distorsionar en el tiempo una señal de audio que utiliza una característica de distorsión en el tiempo variable. Adicionalmente, se proporciona un convertidor de tiempo/frecuencia 508 para convertir una señal de audio distorsionada en el tiempo en una representación espectral que tiene un número de coeficientes espectrales. Adicionalmente, se utiliza un procesador para procesar un número variable de coeficientes espectrales para generar la señal de audio codificada, donde este procesador que comprende el bloque de cuantificador/codificador 512 de la figura 5a está configurado para ajustar un número de coeficientes espectrales para una trama de la señal de audio basándose en la característica de distorsión en el tiempo para la trama de manera que se reduzca o se elimine una variación del ancho de banda representada por el número procesado de coeficientes de frecuencia de una trama a otra.

El procesador implementado por el bloque 512 puede comprender un controlador 1000 para controlar el número de líneas, donde el resultado del controlador 1000 es que, con respecto a un número de líneas ajustado para el caso de que una trama de tiempo se codifique sin ninguna distorsión de tiempo, se suma o se descarta un cierto número variable de líneas en el extremo superior del espectro. Dependiendo de la implementación, el controlador 1000 puede recibir información de un contorno de tonos en una cierta trama 1001 y/o una frecuencia de muestreo promedio local en la trama indicada en 1002.

En las figuras 9(a) a 9(e), los dibujos de la derecha ilustran una cierta situación de ancho de banda para ciertos contornos de tonos sobre una trama, donde los contornos de tonos sobre la trama se ilustran en los respectivos dibujos de la izquierda para la distorsión de tiempo y se ilustran en los dibujos del medio después de la distorsión de tiempo, donde se obtiene una característica de tono sustancialmente constante. Este es el objetivo de la funcionalidad de la distorsión en el tiempo de que, después de la distorsión en el tiempo, la característica del tono sea lo más constante posible.

El ancho 900 de banda ilustra el ancho de banda que se obtiene cuando se toma un cierto número de líneas producido por un convertidor de tiempo/frecuencia 508 o producido por una etapa de TNS 510 de la figura 5a, y cuando no se realiza una operación de distorsión en el tiempo, es decir, cuando el distorsionador de tiempo 506 se desactiva, según lo indicado por la línea sombreada 507. Cuando, sin embargo, se obtiene un contorno de distorsión de tiempo no constante, y cuando este contorno de distorsión de tiempo se lleva a un tono más alto induciendo un incremento en la tasa de muestreo (figura 9(a), (c)) el ancho de banda del espectro disminuye con respecto a una situación no distorsionada en el tiempo, normal. Esto significa que el número de líneas que va a transmitirse para esta trama debe incrementarse para equilibrar esta pérdida de ancho de banda.

Como alternativa, llevar el tono a un tono constante más bajo ilustrado en la figura 9(b) o figura 9(d) da como resultado una reducción de la tasa de muestreo. La reducción de la tasa de muestreo da como resultado un incremento del ancho de banda del espectro de esta trama con respecto a la escala lineal, y este incremento de ancho de banda debe equilibrarse utilizando una supresión o descarte de un cierto número de líneas con respecto al valor del número de líneas para la situación normal no distorsionada en el tiempo.

La figura 9(e) ilustra un caso especial, en el que un contorno de tonos se lleva a un nivel medio de manera que la frecuencia de muestreo promedio dentro de una trama es, en vez de realizar la operación de distorsión en el tiempo, igual que la frecuencia de muestreo sin ninguna distorsión en el tiempo. De este modo, el ancho de banda de la señal no se ve afectado, y puede procesarse el número sencillo de líneas que va a utilizarse para el caso normal sin distorsión en el tiempo, aunque se tenga que realizar la operación de distorsión en el tiempo. A partir de la figura 9, se hace evidente que la realización de una operación de distorsión en el tiempo no influye necesariamente en el ancho de banda, sino que la influencia en el ancho de banda depende del contorno de tonos y la forma en que se

5

10

15

20

25

30

35

40

45

50

55

60

lleva a cabo la distorsión de tiempo en una trama. Por lo tanto, se prefiere utilizar, como valor de control, una tasa de muestreo local o promedio. La determinación de esta tasa de muestreo local se ilustra en la figura 11. La parte superior en la figura 11 ilustra una parte de tiempo con valores de muestreo equidistantes. Una trama incluye, por ejemplo, siete valores de muestreo indicados por Tn en la representación gráfica superior. La representación gráfica inferior muestra el resultado de una operación de distorsión en el tiempo, en la que, en conjunto, ha tenido lugar un incremento de la tasa de muestreo. Esto significa que la longitud de tiempo de la trama distorsionada en el tiempo es más pequeña que la longitud de tiempo de la trama no distorsionada en el tiempo. Sin embargo, debido a que la longitud de tiempo de la trama distorsionada en el tiempo que va a introducirse en el convertidor de tiempo/frecuencia es fija, el caso de un incremento de la tasa de muestreo hace que una parte adicional de la señal de tiempo no correspondiente a la trama indicada por Tn se introduzca en la trama distorsionada en el tiempo tal como se indica por las líneas 1100. De este modo, una trama distorsionada en el tiempo cubre una parte de tiempo de la señal de audio indicada por Tlin que es mayor que el tiempo Tn. En vista de esto, la distancia eficaz entre dos líneas de frecuencia o el ancho de banda de la frecuencia de una única línea en el dominio lineal (que es el valor inverso para la resolución) ha disminuido, y el número de líneas Nn ajustado para un caso no distorsionado en el tiempo cuando se multiplica por la distancia de frecuencia reducida da como resultado un ancho de banda más pequeño, es decir, una reducción del ancho de banda.

En el otro caso, no ilustrado en la figura 11, donde el distorsionador de tiempo lleva a cabo una reducción de la tasa de muestreo, la longitud de tiempo eficaz de una trama en el dominio distorsionado en el tiempo es más pequeña que la longitud de tiempo del dominio no distorsionado en el tiempo de manera que el ancho de banda de la frecuencia de una única línea o la distancia entre dos líneas de frecuencia ha incrementado. Ahora, multiplicar este Af incrementado por el número Nn de líneas para el caso normal dará como resultado un ancho de banda incrementado debido a la resolución de frecuencia reducida/distancia de frecuencia incrementada entre dos coeficientes de frecuencias adyacentes.

La figura 11 adicionalmente ilustra cómo se calcula una tasa de muestreo promedio fSR. Para este fin, se determina la distancia de tiempo entre dos muestras distorsionadas en el tiempo y se toma el valor inverso, que se define como la tasa de muestreo local entre dos muestras distorsionadas en el tiempo. Dicho valor puede calcularse entre cada par de muestras adyacentes, y puede calcularse el valor de la media aritmética y este valor finalmente da como resultado la tasa de muestreo promedio local, que preferentemente se utiliza para introducirse en el controlador 1000 de la figura 10a.

La figura 10b ilustra una representación gráfica que indica cuántas líneas deben añadirse o descartarse dependiendo de la frecuencia de muestreo local, donde la frecuencia de muestreo fN para el caso no distorsionado junto con el número de líneas Nn para el caso no distorsionado en el tiempo define el ancho de banda previsto, que debe mantenerse constante tanto como sea posible para una secuencia de tramas distorsionadas en el tiempo o para una secuencia de tramas distorsionadas en el tiempo y no distorsionadas en el tiempo.

La figura 12b ilustra la dependencia entre los diferentes parámetros analizados con relación a la figura 9, figura 10b y figura 11. Básicamente, cuando la tasa de muestreo, es decir, la tasa de muestreo promedio disminuye con respecto al caso no distorsionado en el tiempo, deben suprimirse líneas, mientras que deben añadirse líneas, cuando la tasa de muestreo aumenta con respecto a la tasa de muestreo normal para el caso no distorsionado en el tiempo de manera que las variaciones del ancho de banda de una trama a otra se reducen o preferentemente incluso se eliminan tanto como sea posible.

El ancho de banda resultante por el número de líneas Nn y la tasa de muestreo fN definen preferentemente la frecuencia de cruce 1200 para un codificador de audio que, además de un codificador de audio principal de fuente, tiene un codificador de extensión de ancho de banda (codificador BWE). Tal como se conoce en la técnica, un codificador de extensión de ancho de banda solamente codifica un espectro con una alta tasa de bits hasta la frecuencia de cruce y codifica el espectro de la banda alta, es decir, entre la frecuencia 1200 de cruce y la frecuencia fMAX con una tasa de bits baja, donde esta tasa de bits baja normalmente es incluso menor que 1/10 o menos de la tasa de bits requerida para la banda baja entre una frecuencia de 0 y la frecuencia de cruce 1200. La figura 12a ilustra además el ancho de banda BWaac de un codificador de audio AAC sencillo, que es mucho mayor que la frecuencia de cruce. Por lo tanto, las líneas no solamente pueden descartarse, sino que también pueden añadirse. Además, también se ilustra la variación del ancho de banda para un número de líneas constante dependiendo de la tasa de muestreo local fSR. Preferentemente, el número de líneas que va a añadirse o que va a suprimirse con respecto al número de líneas para el caso normal se ajusta de manera que cada trama de los datos codificados de AAC tiene una frecuencia máxima lo más próxima posible a la frecuencia de cruce 1200. De este modo, se evita cualquier hueco espectral debido a una reducción del ancho de banda por un lado o una sobrecarga transmitiendo información en una frecuencia por encima de la frecuencia de cruce en la trama codificada de banda baja. Esto, por un lado, incrementa la calidad de la señal de audio decodificada y, por otro lado, disminuye la tasa de bits.

La adición real de líneas con respecto a un número establecido de líneas o una supresión de líneas con respecto al número establecido de líneas puede realizarse antes de cuantificar las líneas, es decir, en la entrada del bloque 512,

5

10

15

20

25

30

35

40

45

o puede realizarse después de cuantificar o también puede realizarse, dependiendo del código de entropía específico, después de la codificación de entropía.

Además, se prefiere llevar las variaciones de ancho de banda a un nivel mínimo e incluso eliminar las variaciones del ancho de banda, pero, en otras implementaciones, incluso una reducción de las variaciones del ancho de banda determinando el número de líneas que dependen de la característica de distorsión en el tiempo incluso aumenta la calidad de audio y reduce la tasa de bits requerida en comparación con una situación, en la que se aplica un número de líneas constante independientemente de una cierta característica de distorsión de tiempo.

Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De forma análoga, los aspectos descritos en el contexto de una etapa del método representan también una descripción de un bloque o elemento correspondiente o característica del aparato correspondiente.

Dependiendo de ciertos requerimientos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tenga señales de control electrónicamente legibles almacenadas en los mismos, que actúen conjuntamente (o puedan actuar conjuntamente) con un sistema informático programable de manera tal se lleve a cabo el método respectivo. Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control electrónicamente legibles, que pueden actuar conjuntamente con un sistema informático programable, de manera que se lleve a cabo uno de los métodos descritos en el presente documento. Generalmente, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo operativo el código de programa para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un soporte legible por máquina. Otras realizaciones comprenden el programa informático para llevar a cabo uno de los métodos descritos en el presente documento, almacenado en un soporte legible por máquina. En otras palabras, una realización del método según la invención es, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador. Una realización adicional de los métodos según la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. Una realización adicional del método según la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales pueden configurarse por ejemplo para transferirse a través de una conexión de comunicación de datos, por ejemplo a través de Internet. Una realización adicional comprende medios de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descritos en el presente documento. Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. En algunas realizaciones, puede utilizarse un dispositivo lógico programable (por ejemplo un campo de matrices de puertas programables) para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, un campo de matrices de puertas programables puede actuar conjuntamente con un microprocesador para llevar a cabo uno de los métodos descritos en el presente documento.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

REIVINDICACIONES

1. Codificador de audio para generar una señal de audio, que comprende:

un distorsionador de tiempo controlable (506) para distorsionar en tiempo una señal de audio para obtener una señal de audio distorsionada en tiempo;

un convertidor de tiempo/frecuencia (508) para convertir al menos una porción de la señal de audio distorsionada en tiempo o de una versión no distorsionada en tiempo de la señal de audio en una representación espectral; una etapa de conformación de ruido temporal para realizar una filtración de predicción sobre frecuencia de la representación espectral de acuerdo con una instrucción de control de conformación de ruido temporal (803), en la que no se realiza la filtración de predicción, cuando la instrucción de control de conformación de ruido temporal no existe;

un controlador de conformación de ruido temporal (800, 802, 804) para generar la instrucción de control de conformación de ruido temporal basándose en la representación espectral,

en el que el controlador de conformación de ruido temporal está configurado para aumentar una probabilidad de realizar la filtración predictiva sobre la frecuencia, cuando la representación espectral está basada en una señal de audio de distorsión de tiempo o para reducir la probabilidad para realizar la filtración de predicción sobre la frecuencia, cuando la representación espectral no está basada en una señal de audio distorsionada en el tiempo;

y

un procesador (512) para procesar adicionalmente una salida de la etapa de conformación de ruido temporal para obtener la señal de audio codificada (532);

en el que el controlador de conformación de ruido temporal (800, 802, 804) está configurado para estimar una ganancia en una tasa de bits o una calidad, cuando la señal de audio se somete a la filtración de predicción por la etapa de conformación de ruido temporal (510), para comparar (802) la ganancia estimada a un umbral de decisión, y

para decidir (802), en favor de la filtración de predicción, cuando la ganancia estimada está en una relación predeterminada al umbral de decisión,

en el que el controlador de conformación de ruido temporal está configurado adicionalmente para variar (804) el umbral de decisión de modo que, para la misma ganancia estimada, la filtración de predicción está activada, cuando la representación espectral está basada en una señal distorsionada en el tiempo, y no está activada, cuando la representación espectral no está basada en una señal de audio distorsionada en el tiempo.
2. Codificador de audio de acuerdo con la reivindicación 1, en el que el distorsionador de tiempo comprende un clasificador de señal (520) para detectar voz vocalizada o no vocalizada, y

en el que el controlador de conformación de ruido temporal (800, 802, 804) está configurado para aumentar la probabilidad, cuando se detecta una voz vocalizada, o cuando se detecta una voz no vocalizada y la representación espectral está basada en la señal de audio distorsionada en el tiempo.
3. Método para generar una señal de audio, que comprende:

distorsionar en tiempo (506) una señal de audio para obtener una señal de audio distorsionada en el tiempo; convertir (508) al menos una porción de la señal de audio distorsionada en tiempo o de una versión no distorsionada en tiempo de la señal de audio en una representación espectral;

realizar una filtración de predicción sobre la frecuencia de la representación espectral de acuerdo con una instrucción de control de conformación de ruido temporal (803), en la que la filtración de predicción no se realiza, cuando la instrucción de control de conformación de ruido temporal no existe;

generar (800, 802, 804) la instrucción de control de conformación de ruido temporal basándose en la representación espectral, en la que se aumenta una probabilidad para realizar la filtración predictiva sobre la frecuencia, cuando la representación espectral está basada en una señal de audio distorsionada en el tiempo o en la que se reduce la probabilidad para realizar la filtración de predicción sobre la frecuencia, cuando la representación espectral no está basada en una señal de audio distorsionada en el tiempo; y procesar (512) una salida de la etapa de conformación de ruido temporal para obtener la señal de audio codificada (532);

en el que se estima una ganancia en una tasa de bits o una calidad, cuando la señal de audio se somete a la filtración de predicción por la etapa de conformación de ruido temporal (510), y

en el que la ganancia estimada se compara a un umbral de decisión, para decidir (802), a favor de la filtración de predicción, cuando la ganancia estimada está en una relación predeterminada al umbral de decisión, en el que el umbral de decisión se varía de modo que, para la misma ganancia estimada, se activa la filtración de predicción, cuando la representación espectral está basada en una señal distorsionada de tiempo, y no se activa, cuando la representación espectral no está basada en una señal de audio distorsionada de tiempo.
4. Programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, el método de la reivindicación 3.