ES2560402T3 - Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico - Google Patents

Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico Download PDF

Info

Publication number
ES2560402T3
ES2560402T3 ES12713147.2T ES12713147T ES2560402T3 ES 2560402 T3 ES2560402 T3 ES 2560402T3 ES 12713147 T ES12713147 T ES 12713147T ES 2560402 T3 ES2560402 T3 ES 2560402T3
Authority
ES
Spain
Prior art keywords
audio
parameter
spatial
spatial coding
bit stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12713147.2T
Other languages
English (en)
Inventor
David Virette
Yue Lang
Jianfeng Xu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2560402T3 publication Critical patent/ES2560402T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Un método para la codificación de audio espacial paramétrica de una señal de audio de múltiples canales que comprende una pluralidad de señales de canal de audio, comprendiendo el método: calcular al menos dos parámetros de codificación espacial diferentes para una señal de canal de audio de la pluralidad de señales de canal de audio, en el que los al menos dos parámetros de codificación espacial diferentes son de al menos dos tipos diferentes de parámetros de codificación espacial y son calculados con respecto a una señal de audio de referencia, en el que la señal de audio de referencia es otra señal de canal de audio de la pluralidad de señales de canal de audio o una señal de audio mezclada en forma descendente obtenida a partir de al menos dos señales de canal de audio de la pluralidad de señales de canal de audio; seleccionar al menos un parámetro de codificación espacial de los al menos dos parámetros de codificación espacial diferentes asociados con la señal de canal de audio sobre la base de los valores de los parámetros de codificación espacial calculados; incluir una representación cuantificada del parámetro de codificación espacial seleccionado en una sección de parámetros (1b) de un flujo de bits de audio (1); y ajustar una marca de tipo de parámetro en la sección de parámetros (1b) del flujo de bits de audio (1) indicando el tipo del parámetro de codificación espacial seleccionado que está incluido en el flujo de bits de audio (1); en el que la etapa de seleccionar al menos un parámetro de codificación espacial comprende: seleccionar un primer parámetro de codificación espacial (ITD) de un primer tipo de parámetros de codificación espacial de los al menos dos parámetros de codificación espacial (ITD, IPD, ICC) en caso de que el valor del primer parámetro de codificación espacial cumpla un primer criterio de selección predeterminado asociado con el primer tipo de parámetro de codificación espacial; y seleccionar un segundo parámetro de codificación espacial (IPD) de un segundo tipo de parámetros de codificación espacial de los al menos dos parámetros de codificación espacial (ITD, IPD, ICC) en caso de que el valor del primer parámetro de codificación espacial no cumpla el primer criterio de selección predeterminado asociado con el primer tipo de parámetros de codificación espacial, y que el segundo parámetro de codificación espacial cumpla un segundo criterio de selección predeterminado asociado con el segundo tipo de parámetros de codificación espacial.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Metodo para la codificacion y la decodificacion de audio espacial parametrica, codificador de audio espacial parametrico y decodificador de audio espacial parametrico
Sector tecnico
La presente invencion pertenece a un metodo para la codificacion y la decodificacion de audio espacial parametrica, a un codificador de audio espacial parametrico y a un decodificador de audio espacial parametrico para senales de audio de multiples canales.
Antecedentes tecnicos
La codificacion de audio de multiples canales parametrica se describe en C. Faller, F. Baumgarte: “Efficient representation of spatial audio using perceptual parametrization”, Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust., Octubre de 2001, paginas 199 - 202. Las senales de audio mezcladas en forma descendente (en ingles, downmixed, mezcladas de multiples canales a dos canales) pueden ser mezcladas en forma ascendente (en ingles, upmixed, mezcladas en forma ascendente de dos canales a todas las salidas de un dispositivo) para sintetizar senales de audio de multiples canales, utilizando indicaciones espaciales para generar mas canales de audio de salida que senales de audio mezcladas en forma descendente. Normalmente, las senales de audio mezcladas en forma descendente son generadas mediante la superposicion de una pluralidad de senales de canal de audio de una senal de audio de multiples canales, por ejemplo, una senal de audio estereo. Las senales de audio mezcladas en forma descendente son codificadas en forma de onda y dispuestas en un flujo de bits de audio junto con datos auxiliares relativos a las indicaciones espaciales. El decodificador utiliza los datos auxiliares para sintetizar las senales de canal de audio de multiples canales sobre la base de los canales de audio codificados en forma de onda.
Existen varias indicaciones o parametros espaciales que pueden ser utilizados para sintetizar senales de audio de multiples canales. En primer lugar, la diferencia de nivel intercanales (ILD, Inter-channel Level Difference) indica una diferencia entre los niveles de las senales de audio en dos canales que se van a comparar. En segundo lugar, la diferencia de tiempo intercanales (ITD, Inter-channel Time Difference) indica la diferencia en el tiempo de llegada del sonido entre los ofdos de un oyente humano. El valor de ITD es importante para la localizacion del sonido, puesto que proporciona una indicacion para identificar la direccion o el angulo de incidencia de la fuente de sonido con respecto a los ofdos del oyente. En tercer lugar, la diferencia de fase intercanales (IPD, Inter-channel Phase Difference) especifica la diferencia de fase relativa entre los dos canales que se desea comparar. Puede utilizarse un valor de IPD de subbanda como estimacion del valor de ITD de subbanda. Finalmente, la coherencia intercanales (ICC, Inter-channel Coherence) se define como la correlacion cruzada intercanales normalizada tras un alineamiento de fase de acuerdo con la ITD o la IPD. El valor de ICC puede ser utilizado para estimar el ancho de una fuente de sonido.
ILD, ITD, IPD e ICC son parametros importantes para la codificacion / decodificacion de multiples canales. La ITD puede, por ejemplo, cubrir el rango de retardos audibles entre -1,5 ms y 1,5 ms. La IPD puede cubrir el rango completo de diferencias de fase entre -n y n. La ICC puede cubrir el rango de correlacion y puede ser especificada en un valor de porcentaje entre 0 y 1, o en otros factores de correlacion entre -1 y +1. En los esquemas de codificacion estereo parametrica actuales, ILD, ITD, IPD e ICC se estiman normalmente en el dominio de la frecuencia. Para cada subbanda, ILD, ITD, IPD e ICC son calculadas, cuantificadas, incluidas en la seccion de parametros de un flujo de bits de audio y transmitidas.
Debido a las restricciones en las tasas de bits para los esquemas de codificacion de audio parametrica a menudo no hay suficientes bits en la seccion de parametros para transmitir todos los valores de ILD, ITD, IPD e ICC. Por ejemplo, el documento US 2011/0173005 A1 describe un esquema de codificacion para las senales de audio sobre la base de una clasificacion de la senal de audio.
El documento EP 2 169 666 A1 describe un metodo de tratamiento de senales que incluye recibir una senal mezclada en forma descendente generada a partir de varias senales de canal y de informacion espacial indicativa del atributo de las diferentes senales de canal para mezclar en forma ascendente la senal mezclada en forma descendente; obtener la marca de codificacion de la diferencia de fase intercanales (IPD) indicativa de si el valor de IPD se utiliza para la informacion espacial de la cabecera de la informacion espacial; obtener la marca del modo de IPD sobre la base de la marca de codificacion de la IPD a partir de la trama de la informacion espacial, indicando la marca de modo de la IPD si el valor de la IPD se utiliza para una trama de la informacion espacial; obtener el valor de la IPD de la banda de parametros del intervalo de tiempo del parametro en la trama, sobre la base de la marca del modo de la IPD; aproximar el valor de la IPD modificando el valor de IPD utilizando el valor de IPD del intervalo de tiempo del parametro previo; y generar varias senales de canal aplicando el valor de IPD aproximado a la senal mezclada en forma descendente.
El documento WO 2004/008806A1 se refiere a un metodo para la codificacion en estereo binaural, en la que solo un canal monaural es codificado. Una capa adicional contiene los parametros para obtener las senales izquierda y derecha. Se describe un codificador que conecta la informacion transitoria extrafda de la senal mono codificada a las capas de multiples canales parametricos para proporcionar un mejor funcionamiento. Las posiciones transitorias pueden obtenerse
5
10
15
20
25
30
35
40
45
50
55
60
65
directamente del flujo de bits o ser estimadas a partir de otros parametros codificados (por ejemplo, marca de conmutacion de ventana en mp3).
Sumario de la invencion
Una idea de la presente invencion es transmitir solo un numero seleccionado de parametros de codificacion espacial a la vez, dependiendo de las caracterfsticas de la senal de entrada y de la importancia perceptual de los parametros de codificacion espacial. El parametro de codificacion espacial seleccionado para ser transmitido debe cubrir la banda completa y representar la diferencia perceptual globalmente mas importante entre los canales.
Con la presente invencion, es posible utilizar la importancia perceptual de los diferentes parametros de codificacion espacial y priorizar los parametros mas importantes para su inclusion en el flujo de bits de audio codificado. La seleccion provoca el que la tasa de bits necesaria del flujo de bits se reduzca, puesto que no todos los parametros de codificacion espacial son transmitidos al mismo tiempo.
En consecuencia, un primer aspecto de la presente invencion se refiere a un metodo para la codificacion de audio espacial de una senal de audio de multiples canales que comprende una pluralidad de senales de canal de audio, comprendiendo el metodo: calcular al menos dos parametros de codificacion espacial diferentes para una senal de canal de audio de la pluralidad de senales de canal de audio, en el que los al menos dos parametros de codificacion espacial diferentes son de al menos dos tipos diferentes de parametros de codificacion espacial y son calculados con respecto a una senal de audio de referencia, en el que la senal de audio de referencia es otra senal de canal de audio de la pluralidad de senales de canal de audio o una senal de audio mezclada en forma descendente obtenida a partir de al menos dos senales de canal de audio de la pluralidad de senales de canal de audio; seleccionar al menos un parametro de codificacion espacial de los al menos dos parametros de codificacion espacial diferentes asociados con la senal de canal de audio sobre la base de los valores de los parametros de codificacion espacial calculados; incluir una representacion cuantificada del parametro de codificacion espacial seleccionado en una seccion de parametros de un flujo de bits de audio; y ajustar una marca de tipo de parametro en la seccion de parametros del flujo de bits de audio indicativa del tipo del parametro de codificacion espacial seleccionado que esta incluido en el flujo de bits de audio; en el que la etapa de seleccionar al menos un parametro espacial comprende: seleccionar un primer parametro de codificacion espacial de un primer tipo de parametros de codificacion espacial de los al menos dos parametros de codificacion espacial, en caso de que el valor del primer parametro de codificacion espacial cumpla un primer criterio de seleccion predeterminado asociado al primer tipo de parametros de codificacion espacial; y seleccionar un segundo parametro de codificacion espacial de un segundo tipo de parametros de codificacion espacial de los al menos dos parametros de codificacion espacial, en caso de que el valor del primer parametro de codificacion espacial no cumpla el primer criterio de seleccion predeterminado asociado al primer tipo de parametros de codificacion espacial y que el valor del segundo parametro de codificacion espacial cumpla un segundo criterio de seleccion predeterminado asociado con el segundo tipo de parametros de codificacion espacial.
De acuerdo con una primera implementacion del primer aspecto, el metodo comprende ademas incluir una representacion cuantificada de un valor de marca predeterminado en la seccion de parametros del flujo de bits de audio, e incluir una representacion cuantificada del parametro de codificacion espacial seleccionado en una seccion de parametros del flujo de bits de audio junto con la representacion cuantificada de un valor de marca predeterminado, indicando con ello el tipo de parametro de codificacion espacial seleccionado que esta incluido en el flujo de bits de audio.
De acuerdo con una segunda implementacion de ese primer aspecto o de acuerdo con la primera implementacion del primer aspecto, la representacion cuantificada del parametro de codificacion espacial seleccionado incluye 4 bits.
De acuerdo con otra implementacion de la segunda implementacion del primer aspecto, la marca del tipo de parametro incluye 1bit.
De acuerdo con otra implementacion mas de la segunda implementacion del primer aspecto o la otra implementacion del mismo, la representacion cuantificada del valor de marca predeterminado incluye 4 bits.
De acuerdo con una cuarta implementacion de ese primer aspecto o de acuerdo con cualquiera de las implementaciones precedentes del primer aspecto, la marca del tipo de parametro incluye 2 bits.
De acuerdo con una quinta implementacion de ese primer aspecto o de acuerdo con cualquiera de las implementaciones precedentes del primer aspecto, un valor de ITD es cuantificado a 15 valores de cuantificacion.
De acuerdo con una sexta implementacion de ese primer aspecto o de acuerdo con cualquiera de las implementaciones precedentes del primer aspecto, un valor de IPD es cuantificado a 15 valores de cuantificacion.
De acuerdo con una septima implementacion de ese primer aspecto o de acuerdo con cualquiera de las implementaciones precedentes del primer aspecto, un valor de ICC es cuantificado a 4 valores de cuantificacion.
5
10
15
20
25
30
35
40
45
50
55
60
De acuerdo con una octava implementacion de ese primer aspecto o de acuerdo con cualquiera de las implementaciones precedentes del primer aspecto, los tipos de los parametros de codificacion espacial son diferencia de tiempo intercanales, ITD, diferencia de fase intercanales, IPD, diferencia de nivel intercanales, ILD o coherencia intercanales, ICC.
De acuerdo con una novena implementacion de ese primer aspecto o de acuerdo con cualquiera de las implementaciones precedentes del primer aspecto, la etapa de seleccionar al menos un parametro de codificacion espacial comprende seleccionar solo un parametro de codificacion espacial de la pluralidad de parametros de codificacion espacial para la senal de canal de audio.
De acuerdo con un segundo aspecto de la presente invencion, se proporciona un dispositivo de codificacion de audio espacial para una senal de audio de multiples canales que comprende una pluralidad de senales de canal de audio, comprendiendo el dispositivo de codificacion de audio espacial: un modulo de estimacion configurado para calcular al menos dos parametros de codificacion espacial diferentes para una senal de canal de audio de la pluralidad de senales de canal de audio, en el que los al menos dos parametros de codificacion espacial diferentes son de al menos dos tipos diferentes de parametros de codificacion espacial y son calculados con respecto a la senal de audio de referencia, en el que la senal de audio de referencia es otra senal de canal de audio de la pluralidad de senales de canal de audio o una senal de audio mezclada en forma descendente obtenida a partir de al menos dos senales de canal de audio de la pluralidad de senales de canal de audio; un modulo de seleccion de parametros acoplado al modulo de estimacion de parametros y configurado para seleccionar al menos un parametro de codificacion espacial de los al menos dos parametros de codificacion espacial diferentes asociados con la senal de canal de audio sobre la base de los valores de los parametros de codificacion espacial calculados; y un modulo de transmision en tiempo real (en ingles, streaming) acoplado al modulo de estimacion de parametros y al modulo de seleccion de parametros y configurado para generar un flujo de bits de audio que comprende una seccion de parametros que comprende una representacion cuantificada del parametro de codificacion espacial seleccionado y para ajustar una marca de tipo de parametro en la seccion de parametros del flujo de bits de audio que indica el tipo de parametro de codificacion espacial seleccionado que esta incluido en el flujo de bits de audio; en el que el modulo de seleccion de parametros esta ademas configurado para: seleccionar un primer parametro de codificacion espacial de un primer tipo de parametros de codificacion espacial de los al menos dos parametros de codificacion espacial en caso de que el valor del primer parametro de codificacion espacial cumpla un primer criterio de seleccion predeterminado asociado con el primer tipo de parametros de codificacion espacial; y seleccionar un segundo parametro de codificacion espacial de un segundo tipo de parametros de codificacion espacial de los al menos dos parametros de codificacion espacial en caso de que el valor del primer parametro de codificacion espacial no cumpla el primer criterio de seleccion predeterminado asociado con el primer tipo de parametros de codificacion espacial, y que el valor del segundo parametro de codificacion espacial cumpla un segundo criterio de seleccion predeterminado asociado con el segundo tipo de parametros de codificacion espacial.
De acuerdo con una primera implementacion del segundo aspecto, el dispositivo de codificacion de audio espacial comprende ademas un modulo de mezclado en forma descendente configurado para generar una senal de audio mezclada en forma descendente mezclando en forma descendente la pluralidad de senales de canal de audio.
De acuerdo con una primera implementacion de la primera implementacion del segundo aspecto, el dispositivo de codificacion de audio espacial comprende ademas un modulo de codificacion acoplado al modulo de mezclado en forma descendente y configurado para generar un flujo de bits de audio codificado que comprende la senal de audio mezclada en forma descendente codificada.
De acuerdo con una segunda implementacion del segundo aspecto o de acuerdo con cualquier implementacion precedente del segundo aspecto, el dispositivo de codificacion de audio espacial comprende ademas un modulo de transformacion configurado para aplicar una transformacion de un dominio de tiempo a un dominio de frecuencia a la pluralidad de senales de canal de audio.
De acuerdo con una primera implementacion de la segunda implementacion del segundo aspecto el modulo de transmision en tiempo real esta ademas configurado para ajustar una marca en el flujo de bits de audio, indicando la marca la presencia de al menos un parametro de codificacion espacial en la seccion de parametros del flujo de bits de audio.
De acuerdo con una primera implementacion de la primera implementacion de la segunda implementacion del segundo aspecto la marca es ajustada para todo el flujo de bits de audio o esta comprendida en la seccion de parametros del flujo de bits de audio.
De acuerdo con una tercera implementacion de ese primer aspecto o de acuerdo con cualquiera de las implementaciones precedentes del primer aspecto, el modulo de seleccion de parametros esta configurado para seleccionar solo un parametro de codificacion espacial de la pluralidad de parametros de codificacion espacial para la senal de canal de audio.
5
10
15
20
25
30
35
40
45
50
55
60
65
De acuerdo con un tercer aspecto de la presente invencion, se proporciona un programa informatico, comprendiendo el programa informatico un codigo de programa para ejecutar el metodo de acuerdo con el primer aspecto de cualquiera de estas implementaciones cuando es ejecutado en un ordenador.
Los metodos descritos en esta memoria pueden ser implementados como software en un procesador de senal digital (DSP, Digital Signal, Processor), en un micro controlador o en cualquier otro procesador lateral o como circuitos de hardware dentro de un circuito integrado espedfico para una aplicacion (ASIC, Application Specific Integrated Circuit).
La invencion puede ser implementada en circuitos electronicos digitales, o en hardware de ordenador, firmware, software o en una combinacion de los mismos.
Realizaciones e implementaciones adicionales pueden comprenderse facilmente a partir de la descripcion siguiente. En particular, cualquier caractenstica de las realizaciones, aspectos e implementaciones presentadas a continuacion pueden ser combinados con cualquier otra caractenstica de las realizaciones, aspectos e implementaciones, a menos que se especifique otra cosa.
Breve descripcion de los dibujos
Los dibujos que se acompanan se incluyen para proporcionar una comprension mas profunda de la descripcion. Las realizaciones ilustran y pueden ayudar a explicar los principios de la invencion junto con la descripcion. Otras realizaciones y muchas de las ventajas previstas, de los principios considerados y de las funcionalidades resultaran evidentes, puesto que se comprenden mejor por referencia a la descripcion detallada tal como sigue a continuacion. Los elementos de los dibujos no estan necesariamente dibujados a escala unos respecto a otros. En general, numeros de referencia iguales designan partes similares correspondientes.
La Fig. 1 ilustra esquematicamente un sistema de codificacion de audio espacial.
La Fig. 2 ilustra esquematicamente un dispositivo de codificacion de audio espacial
La Fig. 3 lustra esquematicamente un dispositivo de decodificacion de audio espacial.
La Fig. 4 ilustra esquematicamente una primera realizacion de un metodo para la codificacion espacial parametrica.
La Fig. 5 ilustra esquematicamente una primera variante de una estructura de flujo de bits de un flujo de bits de audio.
La Fig. 6 ilustra esquematicamente una segunda variante de una estructura de flujo de bits de un flujo de bits de datos.
La Fig. 7 ilustra esquematicamente una tercera variante de una estructura de flujo de bits de un flujo de bits de audio. Descripcion detallada
En la siguiente descripcion detallada, se hace referencia a los dibujos que se acompanan, y en los cuales, a modo de ilustracion, se muestran realizaciones espedficas. Debe resultar obvio que pueden utilizarse otras realizaciones, y que pueden realizarse cambios estructurales o logicos sin separarse del alcance de la presente invencion. A menos que se indique espedficamente otra cosa, las funciones, principios y detalles de cada realizacion pueden ser combinadas con otras realizaciones. En general, esta aplicacion pretende cubrir todas las adaptaciones o variaciones de las realizaciones especficas explicadas en esta memoria. Por ello, la siguiente descripcion detallada no debe ser tomada en un sentido limitativo, y el alcance de la presente invencion se define mediante las reivindicaciones adjuntas.
Las realizaciones pueden incluir metodos y procesos que pueden ser realizados en instrucciones legibles mediante una maquina proporcionadas por un medio legible por una maquina, incluyendo el medio legible por una maquina, pero sin estar limitados a dispositivos, aparatos, mecanismos o sistemas que pueden almacenar informacion que puede ser accesible para una maquina tal como un ordenador, un dispositivo informatico, una unidad de procesamiento, un dispositivo de red, un ordenador portatil, un microprocesador u otros. El medio legible mediante una maquina puede incluir medios volatiles o no volatiles asf como senales propagadas de cualquier manera, tales como senales electricas, senales digitales, senales logicas, senales opticas, senales acusticas, senales opto-acusticas u otras, siendo los medios capaces de transportar informacion a una maquina.
A continuacion, se hace referencia a metodos y a etapas de metodos, que se ilustran esquematicamente y a modo de ejemplo en diagramas de flujo y diagramas de bloques. Debe entenderse que los metodos descritos junto con esos dibujos ilustrativos pueden ser ejecutados facilmente mediante realizaciones tambien de sistemas, aparatos y/o dispositivos. En particular, debe resultar obvio que los sistemas, aparatos y/o dispositivos capaces de ejecutar los diagramas de bloques y/o diagramas de flujo detallados no estan necesariamente limitados a los sistemas, aparatos y/o dispositivos mostrados y detallados a continuacion en esta memoria, sino que por el contrario pueden ser sistemas, aparatos y/o dispositivos diferentes. Los terminos “primer”, “segundo”, “tercero”, etc. se utilizan meramente como
5
10
15
20
25
30
35
40
45
50
55
60
65
etiquetas, y no pretenden imponer requisitos numericos sobre sus objetos o establecer un cierto ranking de importancia de sus objetos.
La Fig. 1 ilustra esquematicamente un sistema de codificacion de audio espacial 100. El sistema de codificacion de audio espacial 100 comprende un dispositivo de codificacion de audio espacial 10 y un dispositivo de decodificacion de audio espacial 20. Una pluralidad de senales de canal de audio 10a, 10b, de las cuales solo dos se muestran a modo de ejemplo en la Fig. 1, son introducidas en el dispositivo de codificacion de audio espacial 10. El dispositivo de codificacion de audio espacial 10 codifica y mezcla en forma descendente las senales de canal de audio 10a, 10b y genera un flujo de bits de audio 1 que es transmitido al dispositivo de decodificacion de audio espacial 20. El dispositivo de decodificacion de audio espacial 20 decodifica y mezcla en forma ascendente los datos de audio incluidos en el flujo de bits de audio 1 y genera una pluralidad de senales de canal de audio de salida 20a, 20b, de las cuales solo dos se muestran a modo de ejemplo en la Fig. 1. El numero de senales de canal de audio 10a, 10b y 20a, 20b, respectivamente, es en principio no limitado. Por ejemplo, el numero de senales de canal de audio 10a, 10b y 20a, 20b puede ser dos para senales estereo binaurales. Por ejemplo las senales estereo binaurales pueden utilizarse para el renderizado envolvente de audio o basado en cascos, de 3D, por ejemplo con filtrado HRTF.
El sistema de codificacion de audio espacial 100 puede ser aplicado para la codificacion de la extension estereo de los estandares ITU-T G.722, G.722 Anexo B, G711.1 y/o G.711. 1 Anexo D. Ademas, el sistema de codificacion de audio espacial 100 puede ser utilizado para la codificacion / decodificacion de conversacion y audio en aplicaciones moviles, tal como se define en el codec de EVS (Enhanced Voice Services) del 3GPP.
La Fig. 2 muestra esquematicamente el dispositivo de codificacion de audio espacial 10 de la Fig. 1 con mayor detalle. El dispositivo de codificacion de audio espacial 10 puede comprender un modulo de transformacion 15, un modulo de extraccion de parametros 11acoplado al modulo de transformacion 15, un modulo de mezclado en forma descendente 12 acoplado al modulo de transformacion 15, un modulo de codificacion 13 acoplado al modulo de mezclado en forma descendente 12 y un modulo de transmision en tiempo real 14 acoplado al modulo de codificacion 13 y al modulo de extraccion de parametros 11.
El modulo de transformacion 15 puede estar configurado para aplicar una transformacion de un dominio de tiempo a un dominio de frecuencia a una pluralidad de senales de canal de audio 10a, 10b introducidas en el dispositivo de codificacion de audio espacial 10. El modulo de mezclado en forma descendente 12 puede estar configurado para recibir las senales de canal de audio 10a, 10b transformadas del modulo de transformacion 15 y para generar al menos una senal de canal de audio mezclada en forma descendente mezclando en forma descendente la pluralidad de senales de canal de audio 10a, 10b transformadas. El numero de senales de canal de audio mezcladas en forma descendente puede ser por ejemplo menor que el numero de senales de canal de audio 10a, 10b transformadas. Por ejemplo, el modulo de mezclado en forma descendente 12 puede estar configurado para generar solo una senal de canal de audio mezclada en forma descendente. El modulo de codificacion 13 puede estar configurado para recibir las senales de canal de audio mezcladas en forma descendente y para generar un flujo de bits de audio codificado que comprende las senales de canal de audio mezcladas en forma descendente codificadas.
El modulo de extraccion de parametros 11 puede comprender un modulo de estimacion de parametros 11a que puede ser configurado para recibir la pluralidad de senales de canal de audio 10a, 10b como entrada y para calcular al menos dos parametros de codificacion espacial diferentes para una senal de canal de audio de la pluralidad de senales de canal de audio, en el que los al menos dos parametros de codificacion espacial diferentes son de al menos dos tipos diferentes de parametros de codificacion espacial y son calculados con respecto a una senal de audio de referencia, en el que la senal de audio de referencia es otra senal de canal de audio de la pluralidad de senales de canal de audio o una senal de audio mezclada en forma descendente obtenida a partir de al menos dos senales de canal de audio de la pluralidad de senales de canal de audio. El modulo de extraccion de parametros 11 puede ademas comprender un modulo de seleccion de parametros 11b acoplado al modulo de estimacion de parametros 11a y configurado para seleccionar al menos un parametro de codificacion espacial de los al menos dos parametros de codificacion espacial diferentes asociados con la senal de canal de audio sobre la base de los valores de los parametros de codificacion espacial calculados.
Las realizaciones del modulo de extraccion de parametros 11, respectivamente del modulo de seleccion de parametros 11b pueden ser adaptadas para seleccionar un parametro de codificacion espacial para cada senal de canal de audio, donde el parametro de codificacion espacial puede ser de un tipo de parametro de codificacion espacial diferente para las diferentes senales de canal de audio.
Las realizaciones del modulo de extraccion de parametros 11, respectivamente del modulo de seleccion de parametros 11b pueden ser adaptadas para seleccionar un primer parametro de codificacion espacial de un primer tipo de parametros de codificacion espacial, por ejemplo, ITD, a partir de los al menos dos parametros de codificacion espacial, por ejemplo ITD, IPD a ICC, en caso de que el valor del primer parametro de codificacion espacial cumpla un primer criterio de seleccion predeterminado asociado al primer tipo de parametros de codificacion espacial; y/o para seleccionar un segundo parametro de codificacion espacial de un segundo tipo de parametros de codificacion espacial, por ejemplo, IPD, de los al menos dos parametros de codificacion espacial, por ejemplo ITD, IPD a ICC, en caso de que el valor de los al menos dos parametros de codificacion espacial no cumpla el primer criterio de seleccion predeterminado asociado con
5
10
15
20
25
30
35
40
45
50
55
60
65
el primer tipo de parametro de codificacion espacial, y de que el valor del segundo parametro de codificacion espacial cumpla un segundo criterio de seleccion predeterminado asociado con el segundo tipo de parametro de codificacion espacial.
Otras realizaciones del modulo de extraccion de parametros 11, respectivamente del modulo de seleccion de parametros 11b pueden ser adaptadas para seleccionar solo un parametro de codificacion espacial de la pluralidad de parametros de codificacion espacial para una senal de canal de audio.
El parametro o parametros de codificacion espacial seleccionado o seleccionados puede o pueden ser a continuacion introducido o introducidos en el modulo de transmision en tiempo real 14 que puede estar configurado para generar el flujo de bits de audio de salida 1 que comprende el flujo de bits de audio codificado del modulo de codificacion 15, y una seccion de parametros que comprende una representacion cuantificada del parametro o parametros de codificacion espacial seleccionado o seleccionados. El modulo de transmision en tiempo real 14 puede ser ademas configurado para ajustar una marca de tipo de parametro a la seccion de parametros del flujo de bits de audio 1 que indica el tipo de parametro o parametros de codificacion espacial seleccionado o seleccionados que estan incluidos en el flujo de bits de audio 1.
Adicionalmente, el modulo de transmision en tiempo real 14 puede ser ademas configurado para ajustar una marca en el flujo de bits de audio 1, indicando la marca la presencia de al menos un parametro de codificacion espacial en la seccion de parametros del flujo de bits de audio 1. Esta marca puede ser ajustada para todo el flujo de bits de audio 1, o estar comprendida en la seccion de parametros del flujo de bits de audio 1. De esa manera, la senalizacion del tipo del parametro de codificacion espacial o de los parametros de codificacion espacial seleccionado o seleccionados que esta incluido o que estan incluidos en el flujo de bits de audio 1 puede ser senalizado explfcita o implfcitamente al dispositivo de decodificacion de audio espacial 20. Puede ser posible conmutar entre los esquemas de senalizacion explfcita o implfcita.
En el caso de la senalizacion implfcita, la marca puede indicar la presencia del parametro de codificacion espacial o de los parametros de codificacion espacial en los datos auxiliares en la seccion de parametros. Un dispositivo de decodificacion 20 heredado no comprueba si tal marca existe y, asf, solo decodifica el flujo de bits de audio codificado. Por otro lado, un dispositivo de decodificacion 20 no heredado, es decir, actualizado, puede comprobar la presencia de tal marca en el flujo de bits de audio 1 recibido y reconstruye la senal de audio de multiples canales 20a, 20b sobre la base de los parametros de codificacion espacial de banda total adicionales incluidos en la seccion de parametros del flujo de bits de audio 1.
Cuando se utiliza senalizacion explfcita, todo el flujo de bits de audio 1 puede ser marcado como que contiene parametros de codificacion espacial. De esa manera, un dispositivo de decodificacion 20 heredado no es capaz de decodificar el flujo de bits y asf descartar el flujo de bits de audio 1. Por otro lado, un dispositivo de decodificacion 20 actualizado puede decidir sobre si decodificar el flujo de bits de audio 1 como un todo o solo decodificar el flujo de bits de audio 1, despreciando los parametros de codificacion espacial. La ventaja de la senalizacion explfcita puede verse, por ejemplo, en que un nuevo terminal movil puede decidir que partes de un flujo de bits de audio decodificar para ahorrar energfa y asf extender la vida de la batena de una batena integrada. La decodificacion de los parametros de codificacion espacial es normalmente mas compleja y requiere mas energfa. Adicionalmente, dependiendo del sistema de renderizado, el dispositivo de decodificacion 20 actualizado puede decidir que parte del flujo de bits de audio 1 debe ser decodificada. Por ejemplo, para el renderizado con marcos puede ser suficiente decodificar solo el flujo de bits de audio codificado, mientras que la senal de audio de multiples canales es decodificada solo cuando el terminal movil esta conectado a una estacion de acogida con tal capacidad de renderizado de multiples canales.
La Fig. 3 muestra esquematicamente el dispositivo de decodificacion de audio espacial 20 de la Fig. 1 con mayor detalle. El dispositivo de decodificacion de audio espacial 20 puede comprender un modulo de extraccion de flujo de bits 26, un modulo de extraccion de parametros 21, un modulo de decodificacion 22, un modulo de mezclado en forma ascendente 24 y un modulo de transformacion 25. El modulo de extraccion de flujo de bits 26 puede estar configurado para recibir un flujo de bits de audio 1 y separar la seccion de parametros y el flujo de bits de audio decodificado incorporado en el flujo de bits de audio 1. El modulo de extraccion de parametros 21 puede comprender un modulo de deteccion de parametros 21a configurado para detectar una marca de tipo de parametro en la seccion de parametros de un flujo de bits de audio 1 recibido que indica un tipo de un parametro de codificacion espacial seleccionado que esta incluido en el flujo de bits de audio 1. El modulo de extraccion de parametros 21 puede comprender ademas un modulo de seleccion 21b acoplado al modulo de deteccion de parametros 21a y configurado para leer al menos un parametro de codificacion espacial de la seccion de parametros del flujo de bits de audio 1 recibido de acuerdo con el tipo de parametro detectado.
El modulo de decodificacion 22 puede estar configurado para decodificar el flujo de bits de audio codificado y para introducir la senal de audio decodificada en el modulo de mezclado en forma ascendente 24. El modulo de mezclado en forma ascendente 24 puede ser acoplado al modulo de seleccion 21b y configurado para mezclar en forma ascendente la senal de audio decodificada a una pluralidad de senales de canal de audio utilizando el lefdo al menos un parametro de codificacion espacial de la seccion de parametros del flujo de bits de audio 1 recibido, tal como se proporciona mediante el modulo de seleccion 21b. Finalmente, el modulo de transformacion 25 puede estar acoplado al modulo de mezclado en forma ascendente 24 y configurado para transformar la pluralidad de senales de canal de audio de un
5
10
15
20
25
30
35
40
45
50
55
60
dominio de frecuencia a un dominio de tiempo para la reproduccion de sonido sobre la base de la pluralidad de senales de canal de audio y la salida de las senales de audio de multiples canales 20a, 20b, reconstruidas.
La Fig. 4 muestra esquematicamente una primera realizacion de un metodo 30 para su codificacion espacial parametrica. El metodo 30 comprende en una primera etapa la realizacion de una transformacion de frecuencia tiempo en canales de entrada. En caso de una senal estereo que comprende una senal de canal izquierdo y una senal de canal derecho, se efectua una primera transformacion en la etapa 30a en la senal de canal izquierdo, y se efectua una segunda transformacion en la etapa 30b de la senal de canal derecho. La transformacion puede ser en cada caso llevada a cabo utilizando transformada de Fourier rapida (FFT, Fast Fourier Transformation). Como alternativa, puede utilizarse transformada de Fourier de corto plazo (STFT, Short Term Fourier Transformation), filtrado modulado en coseno o filtrado complejo.
En una segunda etapa 31, puede calcularse un espectro cruzado por subbanda b como
imagen1
donde Xi[k] y X2[k] son los coeficientes FFT de los dos canales de dos senales de canal de audio 1 y 2, por ejemplo las senales de canal izquierdo y derecho en caso de estereo. “*” denota la conjugacion compleja, kb denota el bin de inicio de la subbanda b y kb+i denota el bin de inicio de la subbanda b+1 vecina. Por ello, los bins [k] de la FFT de kb a kb+i representan la subbanda b.
Alternativamente, el espectro cruzado puede ser calculado para cada bin de frecuencia k de la FFT. En este caso, la subbanda b corresponde directamente a un bin de frecuencia [k]. En una tercera etapa 32, se calculan al menos dos parametros de codificacion espacial diferentes seleccionados, por ejemplo, valores del grupo de la diferencia de tiempo intercanales, ITD, valores de la diferencia de fase intercanales, IPD, valores de la diferencia de nivel intercanales, ILD, y valores de coherencia intercanales, ICC. Por ejemplo, puede calcularse un parametro ITD de banda total, un IPD y un ICC de banda total sobre la base de los coeficientes de espectro cruzado de subbanda.
Una selecccion de al menos un parametro de codificacion espacial de las pluralidades de parametros de codificacion espacial puede ser efectuada sobre la base de los valores de los parametros de codificacion espacial calculados. En particular, la seleccion puede basarse en una lista de prioridad de los parametros de codificacion espacial perceptualmente importantes. Un ejemplo de como puede efectuarse tal seleccion se explica con mayor detalle a continuacion.
En una etapa de decision 33 puede comprobarse si el valor de ITD es igual a cero. De manera alternativa, en la etapa de decision 33 puede comprobarse que el valor de ITD es menor que un umbral. El umbral puede representar el ITD perceptualmente relevante mmimo. Todos los valores de ITD menores que este umbral son entonces considerados despreciables. Por ejemplo, con una frecuencia de muestreo de 48 kHz, los valores absolutos de ITD menores de 3 son entonces considerados despreciables. Si el valor de ITD es distinto de cero, entonces una representacion cuantificada del parametro ITD puede ser incluida en la seccion de parametros de un flujo de bits de audio 1 en la etapa 33a, y una marca de tipo de parametro en la seccion de parametros del flujo de bits de audio 1 indicativa del tipo de parametro de codificacion espacial seleccionado, es decir, el parametro ITD, que esta incluida en el flujo de bits de audio 1, puede ser ajustada en la etapa 33b. La marca del tipo de parametro puede, por ejemplo, ser ajustada al valor de marca “1” para indicar que un parametro ITD esta incluido. No obstante, si el valor de ITD es igual a cero, entonces puede implementarse una etapa de decision 34.
En la etapa de decision 34 puede comprobarse si el valor de IPD es igual a cero. De manera alternativa, en la etapa de decision 34 puede comprobarse si el valor de IPD es menor que un umbral. El umbral puede, por ejemplo, ser ajustado en la primera etapa de cuantificacion de IPD. Todos los valores de IPD menores que este umbral, se consideran entonces perceptualmente no relevantes o despreciables. Si el valor de IPD es distinto de cero, entonces puede incluirse una representacion cuantificada del parametro IPD en una seccion de parametros de un flujo de bits de audio 1 en la etapa 34a, y una marca de tipo de parametro en la seccion de parametros del flujo de bits de audio 1 indicativa del tipo de parametro de codificacion espacial seleccionado, es decir, el parametro IPD, que esta incluida en el flujo de bits de audio 1 puede ser ajustada en la etapa 34b. La marca de tipo de parametro puede, por ejemplo, ser ajustada al valor de marca “0” para indicar que se ha incluido un parametro IPD. No obstante, si el valor de IPD es igual a cero, entonces puede implementarse una etapa de decision 35.
En la etapa de decision 35, puede comprobarse si el valor de ICC es igual a uno. Si el valor de ICC es distinto de uno, entonces una representacion cuantificada del parametro ICC puede ser incluida en una seccion de parametros de un flujo de bits de audio 1 en la etapa 35a, y una marca de tipo de parametro en la seccion de parametros del flujo de bits de audio 1 indicativa del tipo del parametro de codificacion espacial seleccionado, es decir, el parametro ICC, que esta incluida en el flujo de bits de audio 1, puede ser ajustada en la etapa 35b.
5
10
15
20
25
30
35
40
45
50
55
60
65
De manera alternativa, la marca de tipo de parametro en la seccion de parametros del flujo de bits de audio 1 puede ser ajustada para indicar una transmision del parametro IPD en la etapa 35b. En la etapa 35c, una representacion cuantificada del parametro ITD que tiene un valor de marca predeterminado puede ser incluida en la seccion de parametros, indicando con ello la presencia del parametro ICC que esta incluido en el flujo de bits de audio 1. De ese modo, puede utilizarse un valor de cuantificacion que de otro modo no se utilizana para el parametro ITD, como indicador de marca para la presencia del parametro ICC.
No obstante, si el valor de ICC es igual a uno (por ejemplo el ICC no tiene ninguna o solo una relevancia perceptual despreciable), entonces en lugar de transmitir el parametro ICC, una marca de tipo de parametro en la seccion de parametros del flujo de bits de audio 1 indicativa del tipo del parametro de codificacion espacial seleccionado, es decir, el parametro ITD, que esta incluida en el flujo de bits de audio 1, puede ser ajustada en la etapa 36a. Adicionalmente, en la etapa 36b en lugar del parametro IPD o el ICC, el parametro ITD puede ser transmitido con un valor de ITD de cero segun se determina en la etapa de decision 33 para indicar que ninguno de los tres parametros de codificacion espacial tiene una relevancia perceptual.
La importancia perceptual de los diferentes parametros de codificacion espacial puede depender del tipo de senal de fuente. Para la aplicacion de senal de voz o de conversacion, el ITD es tfpicamente el parametro de codificacion espacial mas importante, seguido por el IPD, y finalmente por el ICC.
La etapa de decision 33 “comprobar si el valor de ITD es igual a cero” es solo una realizacion posible para comprobar si el valor del parametro ITD cumple un criterio de seleccion dado, que puede definirse sobre la base de los requisitos especficos y del tipo de senal de fuente. Cuando se digitaliza el iTd mediante 15 valores, por ejemplo de -7 a +7, el criterio de seleccion puede ser ajustado tambien, por ejemplo, a “si la magnitud de ITD es menor o igual a 1”. En este caso, el parametro ITD solo se selecciona en caso de que la magnitud del valor del parametro ITD sea 2 o mayor; si no, se comprueba el siguiente mas relevante, por ejemplo se comprueba el valor del parametro IPD.
Lo mismo aplica para la etapa de decision 34 “comprobar si el valor de IPD es igual a cero”. Esta es solo una posible realizacion para comprobar si el valor del parametro IPD cumple un criterio de seleccion dado, el cual de nuevo puede estar definido sobre la base de los requisitos espedficos y del tipo de la senal de fuente, y puede ser diferente del criterio de seleccion utilizado para el parametro ITD. Cuando se digitaliza el IPD mediante 16 valores, por ejemplo 16 etapas de cuantificacion de -n a +n, el criterio de seleccion puede ajustarse tambien, por ejemplo, a “si la magnitud de IPD es menor o igual a la primera etapa de cuantificacion”. En este caso, el parametro IPD solo se selecciona en el caso de que ITD no cumpla el respectivo criterio de seleccion y de que la magnitud del valor del parametro IPD sea mayor o igual que la primera etapa de cuantificacion; si no, se comprueba el siguiente valor del parametro mas relevante, por ejemplo, el ICC.
Las realizaciones del metodo descrito basandose en la Fig. 4 pueden ser puestas en practica para senales estereo, es decir, senales de audio de multiples canales con una senal de canal de audio de lado izquierdo (L) y de lado derecho (R), o para cualquier otra senal de multiples canales, por ejemplo, que comprenda dos o mas senales de canal de audio.
En caso de senales estereo, las realizaciones puede utilizar una de las dos senales de canal de audio como senal de referencia, y los parametros de codificacion espacial se calculan (y por ejemplo se ejecuta el metodo descrito basandose en la Fig. 4) solo para la otra senal de canal de audio, que es suficiente para reconstruir la relacion espacial percibida de los dos canales de audio en el decodificador. Otras realizaciones para las senales estereo estan adaptadas para obtener una senal mezclada en forma descendente sobre la base de las dos senales de canal de audio de la senal estereo y calcular los parametros espaciales (y ejecutar por ejemplo el metodo descrito basandose en la Fig. 4) para cada una de las dos senales de audio, y transmitir el parametro espacial seleccionado o los parametros espaciales seleccionados para cada uno de los dos canales de audio para poder reconstruir la relacion espacial percibida de los dos canales de audio en el decodificador.
Las Figs. 5 a 7 ilustran esquematicamente variantes de una estructura de flujo de bits de un flujo de bits de audio, por ejemplo el flujo de bits de 1 detallado en las Figs., 1a 3.
En la Fig. 5 el flujo de bits de audio 1 puede incluir una seccion de flujo de bits de audio 1a codificado y una seccion de parametros 1b. La seccion de flujo de bits de audio codificado 1a y la seccion de parametros 1b pueden alternarse y su longitud combinada puede ser indicativa de la tasa de bits total del flujo de bits de audio 1. La seccion de flujo de bits de audio 1a codificado puede incluir los datos de audio reales para ser decodificados. La seccion de parametros 1b puede comprender una o mas representaciones cuantificadas de parametros de codificacion espacial. El flujo de bits de audio 1 puede, por ejemplo, incluir un bit de marca de senalizacion 2 utilizado para senalizacion explfcita si el flujo de bits de audio 1 incluye o no datos auxiliares en la seccion de parametros 1b. Ademas, la seccion de parametros 1b puede incluir un bit de marca de senalizacion 3 utilizado para senalizacion implfcita si el flujo de bits de audio 1 incluye o no datos auxiliares en la seccion de parametros 1b.
La Fig. 6 muestra una primera variante de estructuras de flujo de bits de la seccion de parametros 1b del flujo de bits de audio 1 como se muestra en la Fig. 5. El caso (a) pertenece a escenarios en los cuales el parametro ITD o el parametro
5
10
15
20
25
30
35
40
45
50
55
60
IPD son distintos de cero. El caso (b) pertenece a escenarios en los cuales tanto el parametro ITD como el parametro IPD son iguales a cero.
En la Fig. 6, solo se utiliza un bit de marca 4 para indicar cales de los parametros de codificacion espacial ITD e IPD son transmitidos. Sin perdida de generalidad, un valor del bit de marca de uno puede ser utilizado para la seccion de marca 4 para indicar la presencia del parametro ITD, y un valor del bit de marca de cero puede utilizarse para la seccion de marca
4 para indicar la presencia del parametro IPD. El parametro ITD y el parametro IPD pueden estar incluidos en la representacion cuantificada en la seccion de valores de parametros 5 de la seccion de parametros 1b. Las representaciones cuantificadas del parametro ITD y del parametro IPD pueden incluir cada una 4 bits. No obstante, puede elegirse tambien cualquier otro numero de bits para la representacion cuantificada del parametro ITD y del parametro IPD.
Asf, en el caso mas comun, cuando el parametro ITD o el parametro IPD tienen valores distintos de cero, solo se utilizan
5 bits en la seccion de parametros 1b. En el caso menos comun, cuando tanto el parametro ITD como el parametro IPD tienen valores iguales a cero, el bit de marca 4 puede ser ajustado a uno para indicar la presencia del parametro ITD. La seccion de valores de parametros 5a puede de nuevo incluir 4 bits, pero la representacion cuantificada del parametro ITD puede ser elegida para indicar un valor no asociado con un valor de parametro ITD valido. Por ejemplo, el parametro ITD puede ser cuantificado en valores enteros entre -7 y 7. En ese caso, se necesitan 15 valores de representacion cuantificados diferentes para codificar estos valores enteros. La representacion cuantificada posible de orden 16 puede ser revertida para utilizar la seccion de valores de parametros 5a como seccion de marcado implfcito 3, como se describe con referencia a la Fig. 5. Siempre que la seccion de valores de parametros 5a incluye la representacion cuantificada posible de orden 16, se indica que la seccion de valores de parametros siguiente 6 esta reservada para el parametro ICC. La seccion de valores de parametros 6 puede por ejemplo incluir 2 bits, es decir, el valor de ICC puede ser cuantificado a 4 valores de cuantificacion. No obstante, puede ser posible cualquier otro numero de bits tambien para la seccion de valores de parametros 6.
El parametro IPD puede en ese caso ser cuantificado a 16 valores de cuantificacion, puesto que el parametro IPD no se utiliza para marcado implfcito de parametros. Como alternativa puede ser posible cuantificar el parametro IPD a 15 valores de cuantificacion en lugar del parametro ITD y utilizar una representacion cuantificada posible de orden 16a del parametro IPD para marcado implfcito de parametros.
La Fig. 7 ilustra esquematicamente una segunda variante para la seccion de parametros 1b del flujo de bits de audio 1, como se muestra en la Fig. 5. En contraste con la primera variante, la seccion de marcas 4 puede incluir 2 bits en lugar de 1. Por lo tanto, a cada uno de los parametros de codificacion espacial ITD, IPD e ICC le puede ser asignado un valor de bit de marca espedfico, por ejemplo “00” para ITD, “01” para IPD y “10” para ICC. A su vez, solo es necesario utilizar una seccion de valores de parametros 5b para la inclusion de los parametros ITD, IPD e ICC. La seccion de valores de parametros 5b puede de nuevo incluir 4 bits. Con la segunda variante, el uso total de bits es 6 bits en lugar de 5 bits como en el caso (a) de la Fig. 5, pero no hay casos excepcionales (b) en los cuales es necesario utilizar mas de 6 bits.
La primera variante puede, por ejemplo, ser utilizada en escenarios de aplicacion en los que los parametros ITD e IPD son mas importantes que el parametro ICC, por ejemplo en aplicaciones de conversacion que transmiten datos de conversacion. En otros escenarios, la segunda variante puede ser preferida. Considerando que para aplicaciones de conversacion la senal de voz es estadfsticamente el tipo mas importante de senal, el ITD y el IPD representan los parametros mas relevantes perceptualmente. Puede estimarse que para el 90% de la senal de entrada, el ITD o el IPD seran los parametros mas relevantes, representando el ICC solo el 10%. Por ello, para el 90% de las tramas, puede ahorrarse un bit y utilizarse para otra informacion (por ejemplo, una mejor cuantificacion de parametros ILD). Para solo el 10% de las tramas, es necesario un bit adicional. Por ello, globalmente, la tasa de bits total asociada con los parametros de codificacion espacial es reduce entonces.
El metodo 30 como se muestra en la Fig. 4 puede aplicarse tambien a la codificacion de audio parametrica de multiples canales. Puede calcularse un espectro cruzado por subbanda y por cada canal j como
imagen2
donde Xj[k] es el coeficiente FFT del canal j y Xref[k] es el coeficiente FFT de un canal de referencia. El canal de referencia puede ser uno seleccionado de la pluralidad de canales j. De manera alternativa, el canal de referencia puede ser el espectro de una senal mezclada en forma descendente mono, que es la media de todos los canales j. En el primer caso, se generan M-1 indicaciones espaciales, mientras que en el ultimo caso, se generan M indicaciones espaciales, siendo M el numero de canales j. “*” denota la conjugacion compleja, kb denota el bin de inicio de la subbanda b y kb+1 denota el bin de inicio de la subbanda vecina b+1. Por ello, los bins de frecuencia [k] de la FFT de kb a kb+1 representan la subbanda b.
De manera alternativa, el espectro cruzado puede ser calculado para cada bin de frecuencia k de la FFT. En este caso, la subbanda b corresponde directamente a un bin de frecuencia [k].
Para cada canal j del flujo de bits de audio 1 se proporciona una seccion de parametros 1b respectiva, y para cada canal j puede seleccionarse uno de los parametros de codificacion espacial independientemente, y ser incluido en la seccion de parametros 1b.

Claims (14)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo para la codificacion de audio espacial parametrica de una senal de audio de multiples canales que comprende una pluralidad de senales de canal de audio, comprendiendo el metodo:
    calcular al menos dos parametros de codificacion espacial diferentes para una senal de canal de audio de la pluralidad de senales de canal de audio, en el que los al menos dos parametros de codificacion espacial diferentes son de al menos dos tipos diferentes de parametros de codificacion espacial y son calculados con respecto a una senal de audio de referencia, en el que la senal de audio de referencia es otra senal de canal de audio de la pluralidad de senales de canal de audio o una senal de audio mezclada en forma descendente obtenida a partir de al menos dos senales de canal de audio de la pluralidad de senales de canal de audio;
    seleccionar al menos un parametro de codificacion espacial de los al menos dos parametros de codificacion espacial diferentes asociados con la senal de canal de audio sobre la base de los valores de los parametros de codificacion espacial calculados;
    incluir una representacion cuantificada del parametro de codificacion espacial seleccionado en una seccion de parametros (1b) de un flujo de bits de audio (1); y
    ajustar una marca de tipo de parametro en la seccion de parametros (1b) del flujo de bits de audio (1) indicando el tipo del parametro de codificacion espacial seleccionado que esta incluido en el flujo de bits de audio (1);
    en el que la etapa de seleccionar al menos un parametro de codificacion espacial comprende:
    seleccionar un primer parametro de codificacion espacial (ITD) de un primer tipo de parametros de codificacion espacial de los al menos dos parametros de codificacion espacial (ITD, IPD, ICC) en caso de que el valor del primer parametro de codificacion espacial cumpla un primer criterio de seleccion predeterminado asociado con el primer tipo de parametro de codificacion espacial; y
    seleccionar un segundo parametro de codificacion espacial (IPD) de un segundo tipo de parametros de codificacion espacial de los al menos dos parametros de codificacion espacial (ITD, IPD, ICC) en caso de que el valor del primer parametro de codificacion espacial no cumpla el primer criterio de seleccion predeterminado asociado con el primer tipo de parametros de codificacion espacial, y que el segundo parametro de codificacion espacial cumpla un segundo criterio de seleccion predeterminado asociado con el segundo tipo de parametros de codificacion espacial.
  2. 2. El metodo de la reivindicacion 1, que comprende ademas:
    incluir una representacion cuantificada de un valor de marca predeterminado en la seccion de parametros (1b) del flujo de bits de audio (1); e
    incluir una representacion cuantificada del parametro de codificacion espacial seleccionado en la seccion de parametros (1b) del flujo de bits de audio (1) junto con la representacion cuantificada de un valor de marca predeterminado, indicando con ello el tipo de parametro de codificacion espacial seleccionado que esta incluido en el flujo de bits de audio (1).
  3. 3. El metodo de una de las reivindicaciones 1a 2, en el que la representacion cuantificada del parametro de codificacion espacial seleccionado incluye 4 bits.
  4. 4. El metodo de la reivindicacion 3, en el que la representacion cuantificada del valor de marca predeterminado incluye 1bit.
  5. 5. El metodo de la reivindicacion 3, en el que la representacion cuantificada del valor de marca predeterminado incluye 4 bits.
  6. 6. El metodo de una de las reivindicaciones 1a 5, en el que un valor de diferencia de tiempo intercanales es cuantificado en 15 valores de cuantificacion, y/o, en el que un valor de diferencia de fase intercanales es cuantificado en 16 valores de cuantificacion, y/o en el que un valor de coherencia intercanales es cuantificado en 4 valores de cuantificacion.
  7. 7. El metodo de una de las reivindicaciones 1a 6, en el que los tipos de parametros de codificacion espacial son diferencia de tiempo intercanales, ITD, diferencia de fase intercanales, IPD, diferencia de nivel intercanales, ILD, o coherencia intercanales, ICC.
  8. 8. Un dispositivo de codificacion de audio espacial (10) para una senal de audio de multiples canales que comprende una pluralidad de senales de canal de audio, comprendiendo el dispositivo de codificacion de audio espacial:
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    un modulo de estimacion de parametros (11a) configurado para calcular al menos dos parametros de codificacion espacial diferentes para una senal de canal de audio de la pluralidad de senales de canal de audio, en el que los al menos dos parametros de codificacion espacial diferentes son de al menos dos tipos diferentes de parametros de codificacion espacial y son calculados con respecto a una senal de audio de referencia, en el que la senal de audio de referencia es otra senal de canal de audio de la pluralidad de senales de canal de audio o una senal de audio mezclada en forma descendente obtenida a partir de al menos dos senales de canal de audio de la pluralidad de senales de canal de audio;
    un modulo de seleccion de parametros (11b) acoplado al modulo de estimacion de parametros (11a) y configurado para seleccionar al menos un parametro de codificacion espacial de los al menos dos parametros de codificacion espacial asociados con la senal de canal de audio sobre la base de los valores de los parametros de codificacion espacial calculados; y
    un modulo de transmision en tiempo real (14) acoplado al modulo de estimacion de parametros (11a) y al modulo de seleccion de parametros (11b), y configurado para generar un flujo de bits de audio (1) que comprende una seccion de parametros (1b) que comprende una representacion cuantificada del parametro de codificacion espacial seleccionado, y para ajustar una marca de tipo de parametro en la seccion de parametros (1b) del flujo de bits de audio (1) indicativa del tipo de parametro de codificacion espacial seleccionado que esta incluido en el flujo de bits de audio (1);
    en el que el modulo de seleccion de parametros (11b) esta ademas configurado para:
    seleccionar un primer parametro de codificacion espacial (ITD) de un primer tipo de parametro de codificacion espacial a partir de al menos dos parametros de codificacion espacial (ITD, IPD, ICC) en caso de que el valor del primer parametro de codificacion espacial cumpla un primer criterio de seleccion predeterminado asociado con el primer tipo de parametro de codificacion espacial; y
    seleccionar un segundo parametro de codificacion espacial (IPD) de un segundo tipo de parametros de codificacion espacial a partir de al menos dos parametros de codificacion espacial (ITD, IPD, ICC) en caso de que el valor del primer parametro de codificacion espacial no cumpla el primer criterio de seleccion predeterminado asociado con el primer tipo de parametro de codificacion espacial, y que el valor del segundo parametro de codificacion espacial cumpla un segundo criterio de seleccion predeterminado asociado con el segundo tipo de parametro de codificacion espacial.
  9. 9. El dispositivo de codificacion de audio espacial (10) de la reivindicacion 8, que comprende ademas:
    un modulo de mezclado en forma descendente (12) configurado para generar la senal de audio mezclada en forma descendente mezclando en forma descendente la pluralidad de senales de canal de audio.
  10. 10. El dispositivo de codificacion de audio espacial (10) de la reivindicacion 9, que comprende ademas:
    un modulo de codificacion (13) acoplado al modulo de mezclado en forma descendente (12) y configurado para generar un flujo de bits de audio codificado que comprende un flujo de bits de audio mezclado en forma descendente codificado.
  11. 11. El dispositivo de codificacion de audio espacial (10) de una de las reivindicaciones 8 a 10, que comprende ademas:
    un modulo de transformacion (15) configurado para aplicar una transformacion de un dominio de tiempo a un dominio de frecuencia a la pluralidad de senales de canal de audio.
  12. 12. El dispositivo de codificacion de audio espacial (10) de la reivindicacion 11, en el que el modulo de transmision en tiempo real (14) esta ademas configurado para ajustar una marca en el flujo de bits de audio (1), indicando la marca la presencia de al menos un parametro de codificacion espacial en la seccion de parametros del flujo de bits de audio (1).
  13. 13. El dispositivo de codificacion de audio espacial (10) de la reivindicacion 12, en el que la marca esta ajustada para todo el flujo de bits de audio (1) o esta comprendida en la seccion de parametros (1b) del flujo de bits de audio (1).
  14. 14. Programa informatico con un codigo de programa para ejecutar el metodo de una de las reivindicaciones 1a 7 cuando es ejecutado en un ordenador.
ES12713147.2T 2012-04-05 2012-04-05 Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico Active ES2560402T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056319 WO2013149670A1 (en) 2012-04-05 2012-04-05 Method for parametric spatial audio coding and decoding, parametric spatial audio coder and parametric spatial audio decoder

Publications (1)

Publication Number Publication Date
ES2560402T3 true ES2560402T3 (es) 2016-02-18

Family

ID=45937370

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12713147.2T Active ES2560402T3 (es) 2012-04-05 2012-04-05 Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico

Country Status (7)

Country Link
US (1) US9324329B2 (es)
EP (1) EP2702588B1 (es)
JP (1) JP5977434B2 (es)
KR (1) KR101606665B1 (es)
CN (1) CN103493127B (es)
ES (1) ES2560402T3 (es)
WO (1) WO2013149670A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3074970B1 (en) * 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
KR101565048B1 (ko) 2014-10-16 2015-11-02 현대자동차주식회사 라인 타입 터치 센서를 이용한 전자식 자동 변속 장치 및 그 작동 방법
CA2997334A1 (en) 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
KR102521017B1 (ko) * 2016-02-16 2023-04-13 삼성전자 주식회사 전자 장치 및 전자 장치의 통화 방식 변환 방법
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10354667B2 (en) 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
US10224045B2 (en) * 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004008806A1 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
WO2007046659A1 (en) 2005-10-20 2007-04-26 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
EP2128856A4 (en) * 2007-10-16 2011-11-02 Panasonic Corp DEVICE FOR PRODUCING A STREAM AND DECODING DEVICE AND CORRESPONDING METHOD
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
WO2010036059A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal
EP2169664A3 (en) 2008-09-25 2010-04-07 LG Electronics Inc. A method and an apparatus for processing a signal
KR20100035121A (ko) * 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치

Also Published As

Publication number Publication date
CN103493127B (zh) 2015-03-11
KR101606665B1 (ko) 2016-03-25
KR20140139586A (ko) 2014-12-05
US9324329B2 (en) 2016-04-26
WO2013149670A1 (en) 2013-10-10
CN103493127A (zh) 2014-01-01
EP2702588A1 (en) 2014-03-05
EP2702588B1 (en) 2015-11-18
JP5977434B2 (ja) 2016-08-24
US20140112482A1 (en) 2014-04-24
JP2015518578A (ja) 2015-07-02

Similar Documents

Publication Publication Date Title
ES2560402T3 (es) Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico
KR102535997B1 (ko) 상이한 시간/주파수 해상도를 사용하여 지향성 오디오 코딩 파라미터를 인코딩 또는 디코딩 하기 위한 장치 및 방법
ES2928335T3 (es) Método para codificar señales multicanal y codificador
EP2702587B1 (en) Method for inter-channel difference estimation and spatial audio coding device
ES2701812T3 (es) Decodificador de audio multicanal, procedimiento y programa informático que utilizan un ajuste de una contribución de una señal decorrelacionada
RU2017108988A (ru) Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
ES2641390T3 (es) Codificación y decodificación eficientes de una señal de audio multicanal con múltiples flujos secundarios
WO2018188424A1 (zh) 多声道信号的编解码方法和编解码器
KR20160042104A (ko) 조인트 멀티채널 코딩을 위한 방법들 및 장치들
JP4892184B2 (ja) 音響信号符号化装置及び音響信号復号装置
ES2945723T3 (es) Método de codificación y decodificación y aparato de codificación y decodificación para señales estéreo
CN117476018A (zh) 一种处理多声道音频信号的方法、装置和系统
ES2908605T3 (es) Método de codificación estereofónica y codificador estereofónico
ES2939311T3 (es) Aparato de procesamiento de señales estéreo
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
JP2008286904A (ja) オーディオ複号化装置