ES2593822T3

ES2593822T3 - Método y aparato para procesar una señal de audio

Info

Publication number: ES2593822T3
Application number: ES10013592.0T
Authority: ES
Inventors: Yang Won Jung; Hyen O Oh
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2007-06-08
Filing date: 2008-06-09
Publication date: 2016-12-13
Anticipated expiration: 2028-06-09
Also published as: EP2278582A3; EP2278582B1; JP5291096B2; KR20100024477A; CN103299363A; US20100145487A1; EP2158587A1; US8644970B2; KR101049144B1; EP2158587A4; EP2278582A2; WO2008150141A1; JP2010529500A; CN103299363B

Abstract

Método de procesado de una señal de audio, que comprende: recibir (S310) una señal de submezcla que comprende por lo menos una señal de objeto; obtener (S320) información lateral que incluye información de objeto; obtener (S320) información de mezcla, ci/di; generar (S330) una pluralidad de informaciones de canales basándose en la información lateral y la información de mezcla; y generar (S340) una señal multicanal a partir de la señal de submezcla utilizando la pluralidad de informaciones de canales, en el que: la información de objeto incluye por lo menos una de entre información de nivel de la señal de objeto, información de correlación de la señal de objeto, e información de ganancia de la señal de objeto, y la información de mezcla (ci/di) es por lo menos una de entre información introducida por un usuario en un descodificador y transmitida como un valor preestablecido incluido en un flujo continuo de bits desde un codificador, el flujo continuo de bits es un flujo continuo de bits individual unificado que contiene la señal de submezcla, la información de objeto y el valor preestablecido.

Description

imagen1

imagen2

imagen3

imagen4

imagen5

imagen6

En la fórmula 2, “ci” y “di” son factores de ganancia nuevos para M señales fuente que se van a remezclar. El “ci” y el “di” pueden ser proporcionados por un lado de descodificador.

5 Según una forma de realización de la presente invención, una señal transportada de canal de entrada se puede modificar en una señal de canal de salida sobre la base de información de mezcla.

En este caso, la información de mezcla (MXI) puede indicar la información generada sobre la base de información de

10 posición del objeto, información de ganancia del objeto, información de configuración de reproducción o similares. En este caso, la información de posición del objeto puede indicar la información introducida por un usuario para controlar una posición o panoramización de cada objeto. La información de ganancia del objeto puede indicar la información introducida por un usuario para controlar una ganancia de cada objeto. Además, la información de configuración de reproducción es la información que incluye el número de altavoces, posiciones de altavoces,

15 información del entorno (posición virtual del altavoz) y similares. La información de configuración de reproducción es introducida por un usuario, se almacena de antemano o se recibe desde otro dispositivo.

La información de mezcla puede indicar directamente el alcance con el que un objeto específico se incluye en un canal de salida específico o puede indicar un valor de diferencia para un estado de un canal de entrada. La

20 información de mezcla puede usar el mismo valor dentro de un contenido individual o un valor variable en el tiempo. En el caso de que la información de mezcla sea variable en el tiempo, es posible utilizar la información de mezcla introduciendo un estado de inicio, un estado final y un tiempo de variación. Además, también es posible utilizar la información de mezcla introduciendo un índice de tiempo de un instante de temporización variable y un valor para un estado del instante de temporización.

25 Por motivos de claridad y comodidad de la descripción, una forma de realización de la presente invención describe un caso en el que la información de mezcla indica el alcance con el que un objeto específico se incluye en un canal de salida específico en la forma que se muestra en la fórmula 1. En este caso, cada canal de salida se puede construir como la fórmula 2. En este caso, con el fin de discriminar ai y bi con respecto a ci y di, supóngase que ai y bi

30 son ganancias de mezcla y supóngase que ci y di son ganancias de mezcla de reproducción.

Supóngase que la información de mezcla no viene dada como la ganancia de mezcla de reproducción sino como ganancia y panoramización. La ganancia (gi) y la panoramización (li) pueden venir dadas como la fórmula 3.

35 [Fórmula 3]

imagen7

Por tanto, ci y di se pueden obtener utilizando ai y bi. Además, se pone de manifiesto que la expresión relacional 40 entre la ganancia y la panoramización y la ganancia de mezcla se puede representar de una forma diferente.

La figura 2 es un diagrama para explicar un método de generación de una señal de canal de salida utilizando información de mezcla de acuerdo con una forma de realización de la presente invención.

45 La unidad de procesado de submezcla 120 mostrada en la figura 1 puede obtener una señal de canal de salida multiplicando una señal de canal de entrada por un coeficiente específico. En referencia a la figura 2, supóngase que x1 y x2 son señales de canal de entrada y supóngase que y1 e y2 son señales de canal de salida, las señales de canal de salida reales pueden representarse en forma de la fórmula 4.

50 [Fórmula 4]

imagen8

En fórmula 4, yi_hat indica un valor de salida que se va a discriminar con respecto a un valor teórico obtenido a partir de la fórmula 2. “w11~w22” pueden significar factores de ponderación. Además, xi, wij e yi se pueden corresponder 5 con señales de frecuencia específicas en un momento específico, respectivamente.

Una forma de realización de la presente invención proporciona un método de obtención de un canal de salida eficiente utilizando factores de ponderación.

10 Los factores de ponderación se pueden estimar de diversas maneras. En particular, la presente invención puede usar una estimación de mínimos cuadrados. En este caso, el error de estimación generado se puede definir con la fórmula 5.

[Fórmula 5] 15

imagen9

Los factores de ponderación se pueden generar por subbanda para reducir al mínimo los errores cuadráticos medios E{e12} y E{e22}. En este caso, si el error de estimación es ortogonal a x1 y x2, se puede usar el hecho de que el 20 error cuadrático medio se reduce al mínimo. Por otra parte, w11 y w12 se pueden representar con la fórmula 6.

[Fórmula 6]

imagen10

Además, E{x1y1} y E{x2y1} se pueden generar con la fórmula 7. [Fórmula 7]

imagen11

Así mismo, w21 y w22 se pueden representar con la fórmula 8.

imagen12

Además, E{x2y1} y E{x2y2} se pueden generar con la fórmula 9. [Fórmula 9]

imagen13

De acuerdo con una forma de realización de la presente invención, para configurar información lateral o generar una 45 señal de salida en una codificación basada en objetos, se puede usar información de energía (o información de nivel) de una señal de objeto.

15

25

35

45

55

Por ejemplo, en caso de que se configure información lateral, es posible transportar energía de una señal de objeto, un valor de energía relativo entre señales de objeto o un valor de energía relativo entre una señal de objeto y una señal de canal. Por otra parte, en caso de que se genere una señal de salida, se puede usar energía de una señal de objeto.

Utilizando señal de canal de entrada, información lateral e información de mezcla, se puede generar una señal de canal de salida que tiene un efecto de sonido específico. En el proceso para generar la señal de canal de salida, se puede usar información de energía de una señal de objeto. La información de energía de la señal de objeto se puede incluir en la información lateral o se puede estimar usando la información lateral y la señal de canal. Por otra parte, es posible usar la información de energía de la señal de objeto modificándola.

Se propone un método de modificación de la información de energía de la señal de objeto de acuerdo con una forma de realización de la presente invención, para mejorar la calidad de la señal de canal de salida. De acuerdo con la presente invención, se puede modificar información de energía bajo el control de un usuario.

En referencia a la fórmula 7 y la fórmula 9, puede observarse que la información de energía E{si2} de una señal de objeto se usa para obtener factores de ponderación W11~w22 para la generación de una señal de canal de salida. Una forma de realización de la presente invención se refiere a un método de generación de una señal de salida usando coeficientes del propio canal w11 y w22 y coeficientes de canal cruzado w21 y w12. En caso de usar otro método, según se ha mencionado en la anterior descripción, se pone de manifiesto que hay disponible información de energía de una señal de objeto.

En un proceso para obtener factores de ponderación de un canal de salida, la presente invención propone un método de modificación para utilizar información de nivel (o información de energía) de una señal de objeto. Por ejemplo, está disponible la fórmula 10.

[Fórmula 10]

imagen14

La información de nivel modificada (E_mod) es aplicable independientemente según una señal de objeto o es aplicable de manera idéntica a cada señal de objeto.

La información de nivel modificada de la señal de objeto se puede generar basándose en información de mezcla. Además, se puede generar una pluralidad de informaciones de canales basándose en la información de nivel modificada. Por ejemplo, en caso de que se cambie la magnitud de una señal de objeto específica de manera notable, se puede obtener información de nivel modificada multiplicando información de nivel de la señal de objeto específica por un valor predeterminado. En este caso, se puede determinar si la magnitud de la señal de objeto específica se amplifica o atenúa considerablemente en referencia a un umbral preestablecido. Por ejemplo, el umbral preestablecido puede ser un valor relativo a una magnitud de otra señal de objeto. Para otro caso, el umbral preestablecido puede ser un valor específico de acuerdo con la sicología perceptiva del ser humano o un valor calculado de acuerdo con diversas pruebas. Además, el valor predeterminado, por el cual se multiplica la información de nivel de la señal de objeto específica, puede incluir una constante mayor de 1. En la siguiente descripción, se explicarán detalladamente los casos anteriores.

“E_mod{si2}” de la fórmula 10 se puede modificar como la fórmula 11 utilizando E{Si2}.

[Fórmula 11]

E_mod{si2} = alpha * E{si2}

En la fórmula 11, “alpha” se puede proporcionar de acuerdo con la relación con información de mezcla de reproducción y ganancia de mezcla original de la manera siguiente. En caso de que la información de energía de una señal de objeto se modifique independientemente según cada señal de objeto, se pone de manifiesto que alpha se puede representar como alpha_i. Por ejemplo, si si se atenúa considerablemente, puede ser alpha > 1. Si si se atenúa o amplifica apropiadamente, puede ser alpha = 1. Si si se amplifica considerablemente, puede ser alpha > 1.

En este caso, se puede conocer la atenuación o amplificación de si a través de la relación entre ganancias de mezcla originales ai y bi y ganancias de mezcla de reproducción ci y di. Por ejemplo, si ai2 + bi2 > ci2 + di2, se atenúa si. Por el contrario, si ai2 + bi2 < ci2 + di2, si se amplifica. Por tanto, es posible ajustar el valor de alpha por medio del

imagen15

imagen16

[Fórmula 18]

5 E_mod11{si2} = alpha11 * E{si2} E_mod21{si2} = alpha21 * E{si2} E_mod12{si2} = alpha12 * E{si2} E_mod22{si2} = alpha22 * E{si2}

10 Según otra forma de realización de la presente invención, en caso de que se solicite una atenuación/amplificación excesiva, se puede modificar y usar E{si2} para la potenciación de la calidad de la señal de canal de salida. Sin embargo, en caso de usar un canal cruzado, puede que se solicite el uso de la E{si2} sin modificarla. Así, se puede satisfacer la solicitud fijando el uso de alpha21 = alpha12 = 1.

15 Por el contrario, se puede solicitar que la información de energía de una señal de objeto se modifique no para un canal propio sino para un canal cruzado. En este caso, se puede satisfacer la solicitud fijando el uso de alpha11 = alpha 22 = 1.

Aunque no se ha explicado como ejemplo, con un método similar al correspondiente de la descripción anterior, es

20 posible usar alpha11 para alpha22 como valores arbitrarios. Además, para la selección de los valores de alpha se pueden utilizar una señal de canal de entrada, información lateral, información de mezcla de reproducción y similares. Por otra parte, para la selección de los valores de alpha se puede utilizar la relación entre una ganancia de mezcla original y una ganancia de mezcla de reproducción.

25 En los ejemplos, el valor de alpha es igual o superior a 1. Además, se entiende que puede hacerse uso de un caso en el que el valor de alpha sea menor de 1.

Al mismo tiempo, en un codificador, en información lateral se incluye posiblemente información de energía de una señal de objeto o se incluye posiblemente un valor de energía relativo entre una señal de objeto y una señal de

30 canal. Si es así, el codificador puede configurar la información lateral modificando información de energía de una señal de objeto. Por ejemplo, se puede configurar la información lateral modificando energía de una señal de objeto específica o energía de señales de objeto completas para aumentar al máximo un efecto de reproducción. En este caso, un descodificador puede llevar a cabo el procesado de la señal reconstruyendo la modificación.

35 Por ejemplo, considérese un caso en el que E_mod{si2} se transmite como información lateral a través de la transformación por medio de la fórmula 11. En este caso, un descodificador puede obtener E{si2} dividiendo E_mod{si2} por alpha. Al hacer esto, el descodificador puede usar la E_mod{si2} y/o E{si2} transmitidas selectivamente. El valor de alpha se puede transmitir incluyéndolo en la información lateral. Alternativamente, el valor de alpha puede ser estimado por el descodificador utilizando una señal de canal de entrada transportada e

40 información lateral.

Según una forma de realización de la presente invención, se pueden utilizar factores de ponderación para generar un efecto de sonido específico de cada usuario. En este caso, los factores de ponderación se pueden utilizar únicamente de forma parcial. Para la selección de los factores de ponderación, se puede usar la relación entre

45 canales de entrada, características de canales de entrada, características de información lateral transmitida, información de mezcla, características de un factor de ponderación estimado. Por motivos de claridad y comodidad, se supone que w11 y w22 son coeficientes del canal propio y w12 y w21 son coeficientes de canal cruzado.

Según una forma de realización de la presente invención, en caso de que no se usen factores de ponderación de

50 forma parcial o se usen los factores de ponderación de forma parcial, se puede volver a estimar los factores de ponderación usados. Por ejemplo, después de que se haya realizado una estimación de w11, w12, w21 y w22, si se determina el uso de solamente un coeficiente de canal propio, puede que resulte posible usar w1 y w2 después de la estimación de w1 y w2 en lugar de utilizar w11 y w22. En caso de que no se use el coeficiente de canal cruzado, esto es debido a que y_i_hat se modifica de acuerdo con la fórmula 18 y a que se cambia la estimación de mínimos

55 cuadrados correspondiente.

[Fórmula 18]

imagen17

imagen18

imagen19

imagen20

Sin embargo, en el caso de una señal de objeto estereofónica, se puede suponer que los componentes incluidos en canales respectivos son similares entre sí. Esto se puede representar con la fórmula 28.

[Fórmula 28]

imagen21

Por tanto, es posible no utilizar un coeficiente de canal cruzado.

10 Así mismo, un coeficiente de canal cruzado puede no usarse a través del siguiente procesado que se representa con la fórmula 29.

imagen22

Como segundo método, se puede disponer de un método en el que se utilizan coeficiente de canal cruzado.

20 En caso de intentar incluir en una señal de salida derecha una señal que está incluida en un lado izquierdo de una señal de objeto estereofónica, debe utilizarse un coeficiente de canal cruzado. Por lo tanto, analizando la ganancia de mezcla de reproducción, se puede usar un coeficiente de canal cruzado únicamente si ello es necesario.

Como otro ejemplo, en el caso de una señal de objeto estereofónica, se puede usar además la característica de la

25 señal de objeto. En el caso de una señal de objeto estereofónica, una señal sobre una banda de frecuencia específica en una zona de tiempo específica se puede configurar de tal manera que señales muy similares entre sí construyan las señales de canal respectivas. En este caso, si un valor que indica la correlación de una señal de objeto estereofónica en un descodificador es mayor que un umbral, es posible el procesado que se representa con la fórmula 28 ó la fórmula 29 en lugar de usar un coeficiente de canal cruzado.

30 Para analizar la correlación entre canales, se puede usar un método de medición de la coherencia entre canales o similar. Alternativamente, un codificador puede incluir en un flujo continuo de bits información sobre la coherencia entre canales de una señal de objeto estereofónica. Alternativamente, un codificador procesa una señal de objeto estereofónica para obtener una señal monofónica en un dominio del tiempo/frecuencia con una coherencia elevada.

35 Además, el codificador lleva a cabo una codificación sobre la señal de objeto estereofónica procesándola para obtener una señal estereofónica en el dominio del tiempo/frecuencia con una baja coherencia.

Como sexta forma de realización, se puede disponer de un método de uso de un coeficiente selectivo.

40 Por ejemplo, se envía una señal izquierda a un canal derecho. Si una señal derecha no está incluida en el canal izquierdo, puede resultar mejor utilizar no w12 sino w21. Por tanto, en lugar de utilizar cada coeficiente cruzado a pesar de usar coeficientes de canal cruzado, se pueden permitir los cruces necesarios únicamente comprobando la ganancia de una mezcla original y la ganancia de mezcla de reproducción.

45 Tal como se ha mencionado en la anterior descripción, si se cambia la panoramización de un objeto específico, es posible usar un coeficiente de canal cruzado necesario para permitir la panoramización solamente. Si una panoramización de otro objeto se dirige en una dirección opuesta, es posible usar tanto uno como otro de entre los dos coeficientes de canal cruzado.

50 Por ejemplo, en caso de que se usen w11, w12 y w22, es decir, en caso de que no se use w21, entonces w11, w12 y w22 pueden diferir con respecto a los w11, w12 y w22 del caso en el que se utilizan cuatro coeficientes w11~w22 en su totalidad. En este caso, tal como se ha mencionado en la anterior descripción, w11, w12 y w22 son utilizables modelando y_1_hat e y_2_hat y mediante estimación de mínimos cuadrados. En este caso, puesto que se usan w11 y w12, el y_1_hat es equivalente al correspondiente de un caso general. Por tanto, w11 y w12 pueden usar los

55 valores previos tal como se encuentren. Sin embargo, puesto que se usa solamente w22, y_2_hat es idéntico al correspondiente del caso en el que se utiliza solamente w2. Por tanto, w22 puede usar el correspondiente de la fórmula 11.

Por lo tanto, la presente invención propone un método en el que se permite un coeficiente de canal cruzado mono60 direccional solamente de acuerdo con las necesidades. Para determinar esto, son utilizables una ganancia de

15

25

35

45

55

65

mezcla original y una ganancia de mezcla de reproducción.

Por otra parte, en el caso de que se use un coeficiente de canal cruzado mono-direccional, se puede llevar a cabo de nuevo la estimación de factores de ponderación.

Como séptima forma de realización, se puede disponer de un método en el que se usa un coeficiente de canal cruzado solamente.

Para una señal de entrada que tiene una característica de panoramización extrema, en caso de que cada señal de objeto se panoramice en una dirección opuesta, el uso de w21 y w12 solamente puede ser más eficiente que el uso de w11~w22. Para usar un coeficiente de canal cruzado solamente, están disponibles las siguientes condiciones. La primera condición se corresponde con si una ganancia de mezcla de una señal de entrada se panoramiza hacia el lateral. La segunda condición se corresponde con si una señal de objeto panoramizada lateralmente se panoramiza en una dirección opuesta. La tercera condición se corresponde con la relación entre el número de objetos que satisfacen tanto la primera como la segunda condiciones y el número total de objetos. Además, una cuarta condición se corresponde con un estado de panoramización original del objeto que no consigue satisfacer tanto la primera como la segunda condiciones y un estado de panoramización solicitado. Sin embargo, en el caso de la cuarta condición, si una panoramización original se panoramiza hacia el lateral y si una panoramización solicitada se panoramiza hacia el mismo lado, puede que no resulte ventajoso usar solamente un coeficiente de canal cruzado.

Por otra parte, los diversos métodos antes descritos se pueden utilizar selectivamente juntos o de forma parcial.

La figura 3 es un diagrama de flujo para explicar un método más eficiente de procesado de señales de audio, de acuerdo con una forma de realización de la presente invención.

En primer lugar, se puede recibir información de mezcla descendente en la cual se submezcla por lo menos una señal de objeto [S310]. Además, se puede obtener información lateral, en la cual se incluye información de objeto, e información de mezcla [S320].

En este caso, la información de objeto puede incluir por lo menos una de entre información de nivel de la señal de objeto, información de correlación, información de ganancia y su información suplementaria. La información suplementaria puede incluir información suplementaria de información de nivel, información suplementaria de información de correlación e información suplementaria de información de ganancia. Por ejemplo, la información suplementaria de la información de ganancia puede incluir información de diferencia entre un valor real de la información de ganancia de la señal de objeto y un valor estimado de la misma.

La información de mezcla se puede generar basándose en por lo menos una de entre la información de posición, la información de ganancia y la información de configuración de reproducción de la señal de objeto.

Se puede generar una pluralidad de informaciones de canales sobre la base de la información lateral y la información de mezcla [S330]. Además, se puede generar una señal de canal de salida a partir de la información de submezcla utilizando la pluralidad de informaciones de canales [S340]. En la siguiente descripción se explican formas de realización detalladas.

La figura 4 es un diagrama de bloques esquemático de un aparato de procesado de señales de audio para transmitir una señal de objeto más eficientemente, de acuerdo con una forma de realización de la presente invención.

En referencia a la figura 4, el aparato de procesado de señales de audio puede incluir principalmente un codificador de remezcla mejorada 400, una unidad de codificación de señales de mezcla 430, una unidad de descodificación de señales de mezcla 440, una unidad de generación de parámetros 450 y una unidad de renderización de remezcla

460. Además, el codificador de remezcla mejorada 400 puede incluir una unidad de generación de información lateral 410 y una unidad de codificación de remezcla 420.

La información lateral puede ser necesaria para generar factores de ponderación al llevar a cabo la renderización en la unidad de renderización de remezcla 460. Por ejemplo, la información lateral puede incluir valores de estimación de ganancia de mezcla (ai_est, bi_est), ganancias de mezcla de reproducción (ci, di), energía (Ps) de una señal fuente y similares. La unidad de generación de parámetros 450 puede generar los factores de ponderación utilizando la información lateral.

De acuerdo con una forma de realización de la presente invención, el codificador de remezcla mejorada 400 puede transmitir el valor de estimación de la ganancia de mezcla (ai, bi), es decir, los valores de estimación de ganancia de mezcla (ai_est, bi_est) como información lateral. Valor de estimación de ganancia de mezcla significa que el valor de ganancia de mezcla (ai, bi) se estima utilizando una señal de mezcla y señales de objeto respectivas. En caso de transmitir el valor de estimación de ganancia de mezcla, se pueden generar factores de ponderación w11~w22 utilizando el valor de estimación de ganancia de mezcla y ci/di. De acuerdo con otra forma de realización, un codificador puede tener un valor real de ai/bi usado para mezcla de hecho señales de objeto respectivas como

imagen23

15

25

35

45

55

65

posición de una muestra de una señal de audio mezclada. Alternativamente, en la representación de la señal de audio mediante una unidad de trama, el índice de tiempo puede ser un valor que indique una posición de trama. En caso de un valor de muestra, el mismo se puede representar solamente mediante una unidad de muestra específica.

En general, la aplicación de ci/di correspondiente a un índice de tiempo puede continuar hasta que aparezcan un índice de tiempo y un ci/di nuevos. Al mismo tiempo, se puede utilizar un valor de intervalo de tiempo en lugar del índice de tiempo. Además, el intervalo de tiempo puede significar una sección en la cual se aplica un ci/di correspondiente.

Por otra parte, se puede definir información de indicador, la cual indica si se va a llevar a cabo una remezcla, dentro de un flujo continuo de bits. Si la información de indicador indica falso, ci/di no se transmite en una sección correspondiente sino que se puede dar salida a una señal estereofónica según el ai/bi original. En particular, en la sección correspondiente no se puede proceder con un proceso de remezcla. En caso de que se construya un flujo continuo de bits de ci/di con el método anterior, se puede reducir al mínimo la velocidad de bits. Además, también se puede evitar la ejecución de una remezcla no deseada.

La figura 5 es un diagrama de flujo para explicar un método de procesado de una señal de objeto utilizando control inverso de acuerdo con una forma de realización de la presente invención.

En la ejecución de una codificación basada en objetos, puede existir un caso en el que solamente es necesario controlar señales de objeto parciales. Por ejemplo, como en el caso de a capela, hay disponible un mezclado en el que se deja una señal de objeto específica pero se suprime el resto de señales de objeto. Cuando existe una voz junto con música de fondo, el volumen de la música de fondo se reduce para potenciar la escucha de la voz. Concretamente, el caso anterior puede corresponderse con un caso en el que el número de señales de objeto cambiadas es mayor que el número de señales de objeto no cambiadas, o con un caso más complicado. Si es así, se lleva a cabo un procesado inverso y a continuación se compensa la ganancia total, con lo cual puede mejorarse adicionalmente la calidad de sonido. Por ejemplo, en el caso de a capela, después de que se haya amplificado solamente una señal de objeto vocal, la ganancia total se puede compensar para que se corresponda con un valor de ganancia de una señal de objeto vocal original.

En referencia a la figura 5, en primer lugar, se puede recibir información de submezcla en la cual se submezcla por lo menos una señal de objeto [S510]. Además, se puede obtener información lateral, en la cual se incluye información de objeto, e información de mezcla [S520].

En este caso, la información de objeto puede incluir por lo menos una de entre información de nivel de la señal de objeto, información de correlación, información de ganancia y su información suplementaria. La información suplementaria puede incluir información suplementaria de información de nivel, información suplementaria de información de correlación e información suplementaria de información de ganancia. Por ejemplo, la información suplementaria de la información de ganancia puede incluir información de diferencia entre un valor real de la información de ganancia de la señal de objeto y un valor estimado de la misma. Además, la información de mezcla se puede generar basándose en por lo menos una de entre información de posición, información de ganancia e información de configuración de reproducción de la señal de objeto.

La señal de objeto se puede discriminar en una señal de objeto independiente y una señal de objeto de fondo. Por ejemplo, usando información de indicador, se puede determinar si la señal de objeto es una señal de objeto independiente o una señal de objeto de fondo. La señal de objeto independiente puede incluir una señal de objeto vocal. La señal de objeto de fondo puede incluir una señal de objeto de acompañamiento. Además, la señal de objeto de fondo puede incluir por lo menos una señal basada en canales. Por otra parte, usando información de objeto mejorada, se pueden discriminar entre sí la señal de objeto independiente y la señal de objeto de fondo. Por ejemplo, la información de objeto mejorada puede incluir una señal residual.

Se puede determinar si se lleva a cabo el procesado inverso utilizando la información de objeto y la información de mezcla [S530]. En caso de que el número de objetos cambiados sea mayor que el correspondiente de objetos no cambiados, el procesado inverso significa que la ganancia se compensa en referencia a los objetos no cambiados. Por ejemplo, en caso de que se intente cambiar la ganancia de un objeto de acompañamiento, si el número de objetos de acompañamiento que se van a cambiar es mayor que el correspondiente de objetos vocales no cambiados, se puede cambiar la ganancia del objeto vocal que presenta el número más pequeño a la inversa. Así, si se lleva a cabo el proceso inverso, se puede obtener un valor de ganancia de procesado inverso para la compensación de ganancia [S540]. Además, se puede generar una señal de canal de salida basándose en el valor de ganancia de procesado inverso [S550].

La figura 6 y la figura 7 son diagramas de bloques de un aparato de procesado de señales de audio para procesar una señal de objeto utilizando control inverso de acuerdo con otra forma de realización de la presente invención.

En referencia a la figura 6, el aparato de procesado de señales de audio puede incluir una unidad de control de proceso inverso 610, una unidad de generación de parámetros 620, una unidad de renderización de remezcla 630 y

imagen24

imagen25

15

25

35

45

55

65

En este caso, meta-información puede significar meta-datos. En particular, los meta-datos son los datos sobre datos y pueden significar datos para describir el atributo de un recurso de información. Concretamente, los meta-datos, que no son los propios datos (por ejemplo, vídeo, audio, etcétera) que se van a almacenar sustancialmente, significan datos para proporcionar información asociada de manera directa o indirecta a los datos correspondientes. Si se utilizan dichos meta-datos, se puede comprobar si datos específicos de cada usuario son correctos, y se pueden encontrar datos específicos de manera sencilla y rápida. Concretamente, se garantiza una simplificación de la gestión en términos de posesión de datos, o se garantiza una simplificación de la búsqueda en términos de usar datos.

En la codificación de audio basada en objetos, meta-información puede significar la información que indica atributos de un objeto. Por ejemplo, la meta-información puede indicar si cada una de una pluralidad de señales de objeto que constituyen una fuente de sonido se corresponde con un objeto vocal o un objeto de fondo. Además, la metainformación puede indicar si el objeto vocal es un objeto para un canal izquierdo o un canal derecho. Por otra parte, la meta-información puede indicar si el objeto de fondo se corresponde con un objeto de piano, un objeto de batería, un objeto de guitarra u otro objeto de instrumento musical.

Al mismo tiempo, flujo continuo de bits puede significar un grupo de parámetros o datos, o puede significar un flujo continuo de bits general comprimido para su transmisión o almacenamiento. Por otra parte, el flujo continuo de bits se puede interpretar en un sentido amplio para indicar un tipo de parámetro antes de representarlo como flujo continuo de bits. Un dispositivo de descodificación puede obtener información de objeto a partir del flujo continuo de bits basado en objetos. En la siguiente descripción, se explicará información incluida en el flujo continuo de bits basado en objetos.

En referencia a la figura 8, un flujo continuo de bits basado en objetos puede incluir un encabezamiento y datos. El encabezamiento 1 puede incluir meta-información, información de parámetros y similares. La meta-información puede incluir la siguiente información. Por ejemplo, la meta-información puede incluir un nombre de objeto, un índice de objeto que indica un objeto, información de atributos detallada sobre el objeto (característica del objeto), información sobre el número de objetos, información de descripción de meta-datos, información sobre el número de caracteres de los meta-datos (número de caracteres), información de caracteres de los meta-datos (un único carácter), información de indicador de meta-datos y similares.

En este caso, nombre del objeto puede significar la información que indica el atributo de dicho objeto como objeto vocal, objeto de instrumento musical, objeto de guitarra, objeto de piano y similares. El índice de objeto que indica un objeto puede significar la información para asignar un índice a información de atributos sobre el objeto. Por ejemplo, se asigna un índice a cada nombre de instrumento musical para definir una tabla de antemano. La información de atributos detallada sobre el objeto (característica del objeto) puede significar información de atributo individual sobre un subobjeto. En este caso, sub-objeto puede significar cada uno de entre objetos similares, cuando los objetos similares se agrupan en un único objeto de grupo. Por ejemplo, en el caso de un objeto vocal, existe información que indica un objeto de canal izquierdo e información que indica un objeto de canal derecho.

Por otra parte, la información de número de los objetos (número de objeto) puede significar el número de objetos para transmitir parámetros de señales de audio basadas en objetos. La información de descripción de meta-datos puede significar la información de descripción de meta-datos para un objeto codificado. La información de caracteres de meta-datos (un único carácter) puede significar cada carácter de los meta-datos de un único objeto. La información de indicador de meta-datos puede significar un indicador que indica si se transmitirá información de meta-datos de objetos codificados.

Al mismo tiempo, la información de parámetros puede incluir una frecuencia de muestreo, el número de subbandas, el número de señales fuente, un tipo de fuente y similares. Además, la información de parámetros puede incluir selectivamente información de configuración de reproducción de una señal fuente.

Los datos pueden incluir por lo menos datos de una trama. Si fuera necesario, los datos pueden incluir un encabezamiento (Encabezamiento 2) junto con los datos de trama. En este caso, el Encabezamiento 2 puede incluir informaciones que es necesario actualizar.

Los datos de trama pueden incluir información sobre un tipo de datos incluido en cada trama. Por ejemplo, en caso de un primer tipo de datos (Tipo 0), los datos de trama pueden incluir información mínima. En particular, los datos de trama pueden incluir la potencia de fuente asociada a información lateral solamente. En caso de un segundo tipo de datos (Tipo 1), los datos de trama pueden incluir adicionalmente ganancias actualizadas. En caso de un tercer o cuarto tipo de datos, los datos de trama se pueden asignar como área reservada para un uso futuro. Si el flujo continuo de bits se usa para una emisión de radiodifusión, el área reservada puede incluir información (por ejemplo, frecuencia de muestreo, número de subbanda, etcétera) necesaria para encontrar una sintonización de una señal de radiodifusión.

La figura 9 es un diagrama de estructura sintáctica para transmitir una señal de audio eficientemente, de acuerdo con una forma de realización de la presente invención.

10

15

20

25

30

35

40

45

50

55

60

65

Se transportan tantas potencias de fuente (Ps) como número de particiones (bandas de frecuencias) dentro de una trama. La partición es una banda no uniforme basada en un modelo de sonido sicológico. Además, en general se usan aproximadamente 20 particiones. Por tanto, se transportan 20 potencias de fuente por cada señal fuente. Toda potencia de fuente cuantificada tiene un valor positivo. Además, el transporte de la potencia de fuente por codificación diferencial resulta más ventajoso que el transporte de la potencia de fuente como una señal de PCM lineal. Por otra parte, la potencia de fuente se puede transportar selectivamente seleccionando una codificación óptima de entre codificación diferencial en el tiempo, codificación diferencial en frecuencia y PBC (codificación basada en valores piloto). En el caso de una fuente estereofónica, se puede enviar un valor de diferencia desde una fuente acoplada. En este caso, el valor de diferencia de la potencia de fuente puede tener un signo positivo o negativo.

El valor de potencia de fuente codificado diferencialmente se transporta a través de una codificación Huffman. En este caso, una tabla de codificación Huffman incluye una tabla que trata solamente con valores positivos, o una tabla que trata con valores tanto positivos como negativos. En caso de usar una tabla sin signos que tenga solamente los valores positivos, se transporta por separado un bit correspondiente al signo.

La presente invención propone un método de transporte de un bit de signo en el uso de una tabla de Huffman sin signos.

Sin tener que transportar un bit de signo para cada muestra de valor diferencia, se puede(n) transportar en conjunto bit(s) de signo para 20 valores de diferencia correspondientes a una única partición. En este caso, se puede transportar un indicador uni_sign que indica si se usa un mismo signo para el(los) bit(s) de signo transportado(s). Si el uni_sign se fija a 1, esto significa que los signos de los 20 valores de diferencia son iguales entre sí. En ese caso, sin tener que transportar 1 bit de signo por cada muestra, se transporta solamente un bit de signo completo de un bit. Si el uni_sign se fija a 0, se transporta un bit de signo por valor de diferencia. En este caso, el bit de signo no se transporta para una muestra que tenga el valor de diferencia fijado a 0. Si los 20 valores de diferencia son todos ellos cero, no se transporta el indicador uni_sign.

Con el método anterior, se puede reducir el número de bits requeridos para la transmisión de bits de signo en un área en la que los signos tienen los mismos valores de diferencia, respectivamente. En caso de un valor de potencia de fuente real, puesto que una señal fuente tiene una característica transitoria en el dominio del tiempo, el valor de diferencia en el tiempo presenta frecuentemente un único signo. Por lo tanto, el método de transmisión de señales de acuerdo con la presente invención tiene una buena eficiencia.

Las figuras 10 a 12 son diagramas para explicar un proceso de codificación sin pérdidas, con el fin de transmitir potencia de fuente de acuerdo con una forma de realización de la presente invención.

En referencia a la figura 10, se muestra un proceso de codificación sin pérdidas para transmitir una potencia de fuente. Después de que se haya generado una señal diferencial sobre un eje de tiempo o de frecuencia, se lleva a cabo una codificación sobre un valor de PCM diferencial utilizando el libro de códigos de Huffman más ventajoso en el aspecto de la compresión.

En caso de que todos los valores diferenciales sean cero, esto se puede considerar como un caso de Huff_AZ. En este caso, los valores de diferencia no se transmiten realmente, y un descodificador puede saber que todos ellos son cero por el hecho de que se ha adoptado Huff_AZ. Es relativamente probable que la magnitud de un valor diferencial sea pequeña. Además, es también relativamente probable que un valor diferencial tenga un valor de cero. Por lo tanto, el método de codificación de Huffman 2D/4D para codificar cada par de dos o cuatro valores diferenciales puede resultar eficiente. Los valores atributos máximos para la codificación por tabla pueden diferir entre sí. En general, es preferible que la tabla de 4D tenga un valor máximo muy bajo fijado a 1.

En caso de la codificación Huffman sin signos, es aplicable el método de codificación con signos que utiliza el uni_sign antes mencionado.

Al mismo tiempo, hay disponible selectivamente una tabla de Huffman en cada dimensión, de entre una pluralidad de tablas que tienen entre sí características y estadísticas diferentes. Además, se puede usar una tabla diferente según FREQ_DIFF o TIME_DIFF. Dentro de un flujo continuo de bits se puede incluir por separado un indicador que indique qué tipo de señal diferencial o codificación Huffman se usa.

Para minimizar el derroche en el uso de bits, se puede definir que no se utiliza una combinación específica de métodos de codificación utilizando un indicador. Por ejemplo, si la combinación de Freq_diff y Huff_4D apenas se usa, no se adopta la codificación según la combinación correspondiente.

Puesto que la combinación de indicadores se usa frecuentemente, se pueden comprimir adicionalmente datos transmitiendo un índice correspondiente a través de la codificación Huffman.

15

25

35

45

55

En referencia a la figura 11, se muestra otro ejemplo de un método de codificación sin pérdidas. En un método de codificación diferencial, pueden existir varios ejemplos. Por ejemplo, CH_DIFF es un método de transmisión que utiliza un valor diferencial entre fuentes correspondientes a canales de una señal de objeto estereofónica. Además, puede haber una codificación diferencial basada en valores piloto, una codificación diferencial en el tiempo y similares. En el caso de la codificación diferencial en el tiempo, se añade un método de codificación en el cual se selecciona el uso de FWD BWD. En el caso de la codificación Huffman, se añade una codificación Huffman con signos.

En general, en el procesado de una señal de objeto estereofónica, se puede procesar cada canal de una señal de objeto como una señal de objeto independiente. Por ejemplo, el procesado se puede llevar a cabo de tal manera que se considere una primera señal de canal (por ejemplo, un canal izquierdo) como señal de objeto monofónica independiente de s_i, y se considere una segunda señal de canal (por ejemplo, un canal derecho) como una señal de objeto monofónica independiente de s_i+1. En ese caso, la potencia de una señal de objeto transportada resulta ser Ps_i o Ps_i+1. Sin embargo, en el caso de una señal de objeto estereofónica, las características entre dos canales son frecuentemente similares entre sí. Por lo tanto, puede resultar ventajoso que tanto Ps_i como Ps_i+1 se consideren juntos en la codificación. La figura 10 muestra un ejemplo para este acoplamiento. La codificación de Ps_i sigue el método que se muestra en la figura 8 y la figura 9, la codificación de Ps_i+1 encuentra una diferencia entre Ps_i y Ps_i+1, y la diferencia se codifica y se transmite.

A continuación se explica un método de procesado de una señal de audio usando la similitud entre canales, de acuerdo con otra forma de realización de la presente invención.

Como primera forma de realización, se puede disponer de un método en el que se usan potencias de fuente y una diferencia de nivel entre canales. La potencia de fuente de un canal específico se cuantifica, y a continuación es enviada. La potencia de fuente de otro canal se puede obtener a partir de un valor relativo a la potencia de fuente del canal específico. En este caso, el valor relativo puede incluir una relación de potencia (por ejemplo, Ps_i+1/Ps_i) o un valor diferencial entre valores resultantes de aplicar el logaritmo sobre valores de potencia. Por ejemplo, el valor diferencial incluye 10log10(Ps_i+1)-10log10(Ps_1) = 10log10(Ps_i+1/Ps_i). Alternativamente, se puede transmitir un valor de diferencia de índice después de la cuantificación.

Si se usa la anterior forma, las potencias de fuente de canales de una señal estereofónica tienen valores muy similares entre sí. Además, resulta muy ventajosa para la cuantificación y la transmisión con compresión. Si el valor diferencial se halla antes de la cuantificación, se puede transmitir una potencia de fuente más precisa.

Como segunda forma de realización, se puede disponer de un método en el que se usa la potencia de fuente o una suma y diferencia de una señal original. En este caso, la eficiencia de transmisión es mejor que en la transmisión de una señal de canal original. Además, puede resultar eficiente en el aspecto del equilibrio del error de cuantificación.

En referencia a la figura 12, se puede usar un acoplamiento solamente para un dominio de frecuencia específico. Además, en un flujo continuo de bits se puede incluir información sobre un dominio de frecuencia en el que ha tenido lugar el acoplamiento. En general, por ejemplo, los canales izquierdo y derecho tienen características similares en una señal sobre una banda de frecuencia baja. Además, en una señal sobre una banda de frecuencia alta puede haber una gran diferencia entre los canales izquierdo y derecho. Por lo tanto, si se lleva a cabo el acoplamiento sobre una banda de frecuencia, se puede aumentar la eficiencia de compresión. A continuación se explican varios métodos de llevar a cabo el acoplamiento.

Por ejemplo, el acoplamiento se puede llevar a cabo sobre una señal en una banda de baja frecuencia solamente. En este caso, puesto que el acoplamiento se lleva a cabo solamente sobre una banda preestablecida, resulta innecesario transmitir por separado información sobre la banda en la cual se aplica el acoplamiento. Alternativamente, se puede disponer de un método de transmisión de información en una banda en la que se ha llevado a cabo el acoplamiento. Un codificador determina arbitrariamente una banda sobre la cual llevar a cabo el acoplamiento, y la información sobre la banda en la que se lleva a cabo el acoplamiento se puede incluir en un flujo continuo de bits.

Alternativamente, se puede disponer de un método en el que se usa un índice de acoplamiento. Se asigna el índice a una posible combinación de bandas en las que se produce acoplamiento y a continuación el índice se transmite. Por ejemplo, en caso de que el procesado se lleve a cabo dividiendo una banda en 20 bandas de frecuencia, se puede saber qué bandas se acoplan de acuerdo con el índice que se muestra en la tabla 1.

[Tabla 1]

índice: 0 1 2 3

acoplamiento: 0~3 banda 0~7 banda 0~12 banda 0~19 banda

imagen26

Claims

imagen1

imagen2