ES2540215T3

ES2540215T3 - Método de estimación de diferencia inter-canal y dispositivo de codificación de audio espacial

Info

Publication number: ES2540215T3
Application number: ES12712126.7T
Authority: ES
Inventors: Yue Lang; David Virette; Jianfeng Xu
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-04-05
Filing date: 2012-04-05
Publication date: 2015-07-09
Anticipated expiration: 2032-04-05
Also published as: CN103534753B; US9275646B2; CN103534753A; KR101662682B1; US20140164001A1; EP2702587B1; EP2702587A1; WO2013149673A1; KR20140139591A; JP2015517121A

Abstract

Un método (30) para la estimación de diferencias inter-canal, ICD, que comprende: aplicar (30a, 30b) una transformación desde un dominio temporal a un dominio frecuencial para una pluralidad de señales de canal de audio; calcular (31, 32) una pluralidad de valores de ICD para las diferencias ICD entre al menos una de la pluralidad de señales de canal de audio y una señal de canal de audio de referencia en una gama de frecuencias predeterminada, calculándose cada valor de ICD en una parte de la gama de frecuencias predeterminada; calcular (35), para cada uno de la pluralidad de valores de ICD, un valor de ICD ponderado multiplicando cada uno de la pluralidad de valores de ICD con factor de ponderación que depende de la frecuencia correspondiente; y calcular (36) un valor de gama de ICD para la gama de frecuencias predeterminada añadiendo la pluralidad de valores de ICD ponderados.

Description

imagen1

imagen2

imagen3

imagen4

imagen5

5

15

25

35

45

55

E12712126

22-06-2015

decodificada para una pluralidad de señales de canal de audio utilizando el valor de la gama ICD objeto de lectura desde la sección de parámetros del flujo de bits de audio recibido 1 según se proporciona por el módulo de extracción de parámetros 21. Por último, el módulo de transformación 25 puede acoplarse al módulo de mezcla en sentido ascendente 24 y configurarse para transformar la pluralidad de señales de canal de audio desde un dominio frecuencial a un dominio temporal para la reducción del sonido sobre la base de la pluralidad de señales de canal de audio.

La Figura 4 ilustra, de forma esquemática, una forma de realización de un método 30 para la codificación espacial paramétrica. El método 30 comprende, en una primera etapa, la realización de una transformación de tiempofrecuencia en canales de entrada, a modo de ejemplo, los canales de entrada 10a, 10b. En caso de una señal estéreo, se realiza una primera transformación en la etapa 30a y una segunda transformación se realiza en la etapa 30b. La transformación puede, en cada caso, realizarse utilizando la transformación de Fourier rápida (FFT). Como alternativa, puede realizarse la transformación de Fourier a corto plazo (STFT), el filtrado de modulación cosenoidal con un banco de filtros con modulación cosenoidal o un filtrado complejo con un banco de filtros complejos.

En una segunda etapa 31, puede calcularse un espectro cruzado c[b] por sub-banda b como

imagen6

en donde X1[k] y X2[k] son los coeficientes de FFT de los dos canales 1 y 2, a modo de ejemplo, el canal izquierdo y el canal derecho en caso de estéreo. El asterisco “*” indica la conjugación compleja. kb d indica el bit de inicio de la sub-banda b y kb+1 indica el bit de inicio de la sub-banda próxima b+1. Por consiguiente, los contenedores de frecuencias [k] de FFT desde kb a kb+1 representan la sub-banda b.

Como alternativa, el espectro cruzado puede calcularse para cada contenedor de frecuencia k de FFT. En este caso, la sub-banda b corresponde directamente a un contenedor de frecuencias [k].

En una tercera etapa 32, pueden calcularse las diferencias inter-canal por sub-banda b sobre la base del espectro cruzado. A modo de ejemplo, en caso de la diferencia de fase interaural, IPD, dicho cálculo puede realizarse como

imagen7

en donde el valor de IPD por sub-banda b es el ángulo del espectro cruzado c[b] de la respectiva sub-banda b. Las etapas 31 y 32 aseguran que una pluralidad de valores de ICD, en particular valores de IPD, para los ICDs/IPDs entre al menos una de la pluralidad de señales de canal de audio y una señal de canal de audio de referencia, a través de una gama de frecuencias predeterminada, son objeto de cálculo. Además, cada valor de ICD se calcula sobre una parte de la gama de frecuencias predeterminada, que es una sub-banda de frecuencias b o al menos un contenedor de frecuencias único.

El sistema de cálculo según se detalla con respecto a las etapas 31 y 32 corresponde al método según se conoce a partir de los documentos de Breebart, J., van de Par, S. Kohlrausch, A., Schuijers, E.: “Codificación paramétrica de señal de audio estéreo”, EURASIP Journal on Applied Signal Processing, 2005, nº 9, páginas 1305-1322.

El valor de IPD representa una diferencia de fase para una señal limitada en banda. Si el ancho de banda está suficientemente limitado, esta diferencia de fase puede considerarse como un retardo fraccionario entre las señales de entrada. Para cada sub-banda de frecuencia b, las diferencias IPD y las diferencias de tiempo inter-canal, ITD, representan la misma información. No obstante, para el banco completo, el valor de IPD difiere del valor de ITD: el valor IPD de banda completa es la diferencia de fase constante entre dos canales 1 y 2, mientras que el valor ITD de banda completa es la diferencia de tiempo constante entre dos canales.

Con el fin de calcular el valor de IPD de banda completa sobre la base del valor de IPD de sub-bandas, podría ser posible calcular el valor medio a través de los valores de IPD de sub-bandas para obtener el valor de IPD de banda completa, es decir, el valor de gama IPD a través de la gama de frecuencias completa de las señales de canal de audio. Sin embargo, este método de estimación puede llevar a una estimación incorrecta de un valor de gama IPD representativo, puesto que las sub-bandas de frecuencia tienen diferente importancia perceptual.

Para el cálculo de un valor de gama ICD, una gama de frecuencias predeterminada puede definirse. A modo de ejemplo, la gama de frecuencias predeterminada puede ser la banda de frecuencias completa de la pluralidad de señales de canal de audio. Como alternativa, uno o más intervalos de frecuencia predeterminados dentro de la banda de frecuencias completa de la pluralidad de señales de canal de audio pueden seleccionarse, cuyos intervalos de frecuencias predeterminados pueden ser coherentes o estar separados. La gama de frecuencias predeterminada puede incluir, a modo de ejemplo, la banda de frecuencias entre 200 Hz y 600 Hz o, como alternativa, entre 300 Hz y 1.5 kHz.

En una tercera etapa 33 y una cuarta etapa 34, en paralelo con las primera y segunda etapas 31 y 32, la energía

7

E12712126

22-06-2015

E[b] de cada parte de la gama de frecuencias predeterminada, esto es, cada sub-banda de frecuencia b o contenedor de frecuencia b se calcula por

o como alternativa

imagen8

imagen9

y posteriormente se normaliza sobre la energía EG de la gama de frecuencias predeterminada, a modo de ejemplo, la banda completa:

imagen10

en donde Mmin y Mmax son el índice de la sub-banda de frecuencia más baja y más alta o el contenedor de frecuencias dentro de la gama de frecuencias predeterminada, respectivamente.

En la etapa 35, para cada uno de la pluralidad de valores de ICD, a modo de ejemplo, los valores IPD[b], un valor de ICD ponderado, a modo de ejemplo, un valor de IPD ponderado IPDw[b], se calcula multiplicando cada uno de la

imagen11

20 El factor de ponderación dependiente de la frecuencia puede ser, a modo de ejemplo, un valor de energía ponderado asociado Ew[b] según se calcula por

imagen12

Puede ser posible atenuar los factores de ponderación Ew[b] a través de tramas consecutivas, esto es, teniendo en cuenta una fracción de los factores de ponderación Ew[b] de tramas anteriores de la pluralidad de señales de canal 25 de audio cuando se calculan los factores de ponderación actuales Ew[b].

Por último, en la etapa 36, un valor de gama ICD, a modo de ejemplo, un valor IPD de banda completa IPDF, puede calcularse para la gama de frecuencias predeterminada añadiendo la pluralidad de valores ICD ponderados:

30

imagen13

Como alternativa, los factores de ponderación Ew[b] pueden derivarse a partir de una curva de enmascaramiento para la distribución de energía de las frecuencias de las señales de canal de audio normalizadas a través de la gama de frecuencias predeterminada. Dicha curva de enmascaramiento puede calcularse, a modo de ejemplo, como es 35 conocido a partir del documento de Bosi, M. Goldberg, R.: “Introducción a la codificación de audio digital y sus normas”, Kluwer Academic Publishers 2003. También es posible determinar los factores de ponderación dependientes de la frecuencia sobre la base de los valores de entropía perceptual de las sub-bandas b de las señales de canal de audio normalizadas a través de una gama de frecuencias predeterminada. En ese caso, la versión normalizada de la curva de enmascaramiento o la entropía perceptual puede utilizarse como función de

40 ponderación.

El método según se ilustra en la Figura 4 puede aplicarse también a la codificación de audio paramétrica multicanal. Un espectro cruzado puede calcularse por sub-banda b y por cada canal j como:

45

imagen14

en donde Xj[k] es el coeficiente de FFT del canal j y Xref[k] es el coeficiente FFT de un canal de referencia. El canal de referencia puede ser un canal seleccionado de entre la pluralidad de canales j. Como alternativa, el canal de referencia puede ser el espectro de una señal de mezcla reductora única, que es la media sobre todos los canales j.

50 En el caso anterior, se genera M-1 pistas espaciales, mientras que en el último caso, se generan M pistas espaciales, como M siendo el número de canales j. El asterisco “*” indica la conjugación compleja, kb indica el contenedor de inicio de la sub-banda b y kb+1 indica el contenedor de inicio de la sub-banda próxima b+1. En consecuencia, los contenedores de frecuencias [k] de FFT desde kb a kb+1 representan la sub-banda b.

8

E12712126

22-06-2015

Como alternativa, puede calcularse el espectro cruzado para cada contenedor de frecuencias k de FFT. En este caso, la sub-banda b corresponde directamente a un contenedor de frecuencias [k].

Las diferencias inter-canal del canal j pueden calcularse por sub-banda b sobre la base del espectro cruzado. A modo de ejemplo, en caso de la diferencia de fase, IPD, dicho cálculo puede realizarse como

imagen15

en donde el valor IPDj por sub-banda b y canal j es el ángulo del espectro cruzado q[b] de la respectiva sub-banda b y canal j.

10 El valor de Ej[b] de energía por canal j de cada parte de la gama de frecuencias predeterminada, esto es, cada subbanda de frecuencia b o contenedor de frecuencia b se calcula mediante

imagen16

o como alternativa

imagen17

y posteriormente, se normaliza sobre el valor EGj de energía de la gama de frecuencias predeterminada, a modo de ejemplo, la banda completa:

20

imagen18

en donde Mmin y Mmax son el índice de la sub-banda de frecuencia más baja y más alta o el contenedor dentro de la gama de frecuencias predeterminada, respectivamente.

25 Para cada uno de la pluralidad de valores ICD, a modo de ejemplo, los valores IPDj[b], un valor ICD ponderado, a modo de ejemplo, un valor IPD ponderado IPDwj[b], se calcula multiplicando cada uno de la pluralidad de valores ICD con un factor de ponderación dependiente de la frecuencia correspondiente Ewj[b]:

imagen19

El factor de ponderación dependiente de la frecuencia puede ser, a modo de ejemplo, un valor de energía ponderado asociado Ewj[b] según se calcula por

imagen20

35 Puede ser posible atenuar el valor de los factores de ponderación Ewj[b] a través de tramas consecutivas, esto es, teniendo en cuenta una fracción de los factores de ponderación Ewj[b] de tramas anteriores de la pluralidad de señales de canal de audio cuando se calculan los factores de ponderación actuales Ewj[b].

40 Por último, un valor de gama ICD, a modo de ejemplo, un valor IPD de banda completa IPDFj puede calcularse para la gama de frecuencias predeterminada añadiendo la pluralidad de valores ICD ponderados:

imagen21

45 La Figura 5 ilustra, de forma esquemática, una estructura de flujo de bits de un flujo de bits de audio, a modo de ejemplo, el flujo de bits de audio 1 detallado en las Figuras 1 a 3. En la Figura 5, el flujo de bits de audio 1 puede incluir una sección de flujo de bits de audio de mezcla reductora codificada 1a y una sección de parámetros 1b. La sección de flujo de bits de audio de mezcla reductora codificada 1a y la sección de parámetros 1b pueden alternarse y su longitud combinada puede ser indicativa de la tasa binaria global del flujo de bits de audio 1. La sección de flujo

50 de bits de audio de mezcla reductora codificada 1a puede incluir los datos de audio reales que se van a decodificar. La sección de parámetros 1b puede comprender una o más representaciones cuantificadas de parámetros de codificación espacial tales como el valor de la gama ICD. El flujo de bits de audio 1 puede incluir, a modo de ejemplo, un bit de indicador de señalización 2 utilizado para la señalización explícita si el flujo de bits de audio 1 incluye datos auxiliares en la sección de parámetros 1b o no los incluye. Además, la sección de parámetros 1b

55 puede incluir un bit indicador de señalización 3b utilizado para la señalización implícita si el flujo de bits de audio 1 incluye datos auxiliares en la sección de parámetros 1b o no lo incluye.

9

Claims

imagen1

imagen2