ES2802373T3

ES2802373T3 - Aparato y método de selección de modo de generación de ruido de confort

Info

Publication number: ES2802373T3
Application number: ES15738365T
Authority: ES
Inventors: Emmanuel Ravelli; Martin Dietz; Wolfgang Jaegers; Christian Neukam; Stefan Reuschl
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-07-28
Filing date: 2015-07-16
Publication date: 2021-01-19
Anticipated expiration: 2035-07-16
Also published as: US11250864B2; BR112017001394A2; RU2017105449A3; PT3175447T; EP3175447B1; US20170140765A1; MX360556B; JP2017524157A; US20220208201A1; US10089993B2; AU2015295679B2; JP6859379B2; EP3175447A1; RU2696466C2; KR102008488B1; EP3706120A1; CA2955757A1; PL3175447T3; MY181456A; AR101342A1

Abstract

Un aparato para codificar información de audio, que comprende: un selector (110) para seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo del ruido de fondo característico de una señal de entrada de audio, y una unidad de codificación (120) para codificar la información de audio, en donde la información de audio comprende información de modo que indica el modo de generación de ruido de confort seleccionado, en donde un primero de los dos o más modos de generación de ruido de confort es un modo de generación de ruido de confort de dominio de frecuencia, y en donde el modo de generación de ruido de confort de dominio de frecuencia indica que el ruido de confort se generará en un dominio de frecuencia y que el ruido de confort generado en el dominio de frecuencia se convertirá de frecuencia a tiempo.

Description

DESCRIPCIÓN

Aparato y método de selección de modo de generación de ruido de confort

La presente invención se refiere a la codificación, procesamiento y decodificación de señales de audio, y, en particular, a un aparato y método de selección de modo de generación de ruido de confort.

Los códecs de voz y audio (por ejemplo, AMR-WB, G.718) en general incluyen un esquema de transmisión discontinua (DTX) y un algoritmo de generación de ruido de confort (CNG). La operación DTX/CNG se usa para reducir la velocidad de transmisión simulando ruido de fondo durante períodos de señal inactivos.

El CNG puede, por ejemplo, implementarse de diversas formas.

El método más comúnmente usado, empleado en códecs como AMR-WB (ITU-T G.722.2 Anexo A) y G.718 (ITU-T G.718 Sec. 6.12 y 7.12), se basa en un modelo de excitación predicción lineal (LP). Primero se genera una señal de excitación aleatoria, luego es escalada mediante una ganancia, y finalmente se sintetiza usando un filtro inverso de LP, produciendo la señal CNG de dominio de tiempo. Los dos parámetros principales transmitidos son la energía de excitación y los coeficientes LP (en general usando una representación l Sf o ISF). Este método se denomina LP-CNG.

Otro método, propuesto recientemente y descrito por ejemplo en la solicitud de patente WO2014/096279, “Generación de ruido de confort con alta resolución espectro temporal en la transmisión discontinua de señales de audio” se basa en la representación en un dominio de frecuencia (FD) del ruido de fondo. El ruido aleatorio es generado en un dominio de frecuencia (por ejemplo, FFT, MDCT, QMF), luego es modelado usando una representación FD del ruido de fondo, y finalmente convertido del dominio de frecuencia al dominio de tiempo, produciendo la señal CNG de dominio de tiempo. Los dos parámetros principales transmitidos son una ganancia global y un conjunto de niveles de ruido de banda. Este método es denominado en la presente FD-CNG.

El documento US 6 424 942 B1 da a conocer un método y una modificación para telecomunicaciones, en donde se detecta si una señal de entrada es ruido de fondo o de voz y en donde se codifican y se transmiten parámetros que caracterizan la señal de entrada. En o antes de la codificación del ruido de fondo, se producen parámetros, que representan ruido de fondo que tiene un aumento de componentes de baja frecuencia. La señal de entrada puede estar sujeta a una operación de distorsión de frecuencia. El grado de aumento de los componentes de baja frecuencia se determina por la máxima correlación a largo plazo de la señal de entrada.

La presente invención tiene por objeto proveer conceptos para la generación de ruido de confort. El objeto de la presente invención se alcanza mediante un aparato de acuerdo a la reivindicación 1, mediante un aparato de acuerdo a la reivindicación 10, mediante un sistema de acuerdo a la reivindicación 12, mediante un método de acuerdo a la reivindicación 13, mediante un método de acuerdo a la reivindicación 14, y mediante un programa informático de acuerdo a la reivindicación 15.

Se provee un aparato para codificar información de audio. El aparato para codificar información de audio comprende un selector para seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de un ruido de fondo característico de una señal de entrada de audio, y una unidad de codificación para codificar la información de audio, en tanto la información de audio comprende información de modo que indica el modo de generación de ruido de confort seleccionado.

Entre otras cosas, las realizaciones se basan en el descubrimiento de que FD-CNG provee una mejor calidad sobre señales de ruido de fondo con alta distorsión como por ejemplo el ruido de un automóvil, mientras LP-CNG provee una mejor calidad sobre señales de ruido de fondo más espectralmente planas como por ejemplo ruido de oficina.

Para obtener la mejor calidad posible de un sistema DTX/CNG, de acuerdo a las realizaciones, se usan ambos enfoques de CNG y uno de ellos es seleccionado dependiendo de las características del ruido de fondo.

Las realizaciones proveen un selector que decide qué modo de CNG debe usarse, por ejemplo, LP-CNG o FD-CNG.

De acuerdo a una realización, el selector puede, por ejemplo, estar configurado para determinar una distorsión de un ruido de fondo de la señal de entrada de audio como la característica del ruido de fondo. El selector puede, por ejemplo, estar configurado para seleccionar dicho modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de la distorsión determinada.

En una realización, el aparato puede, por ejemplo, además comprender un estimador de ruido para estimar una estimación por banda del ruido de fondo para cada una de una pluralidad de bandas de frecuencia. El selector puede, por ejemplo, estar configurado para determinar la distorsión dependiendo del ruido de fondo estimado de la pluralidad de bandas de frecuencia.

De acuerdo a una realización, el estimador de ruido puede, por ejemplo, estar configurado para estimar una estimación por banda del ruido de fondo estimando la energía del ruido de fondo de cada una de la pluralidad de bandas de frecuencia.

En una realización, el estimador de ruido puede, por ejemplo, estar configurado para determinar un valor de ruido de fondo de baja frecuencia que indica la energía de un primer ruido de fondo para un primer grupo de la pluralidad de bandas de frecuencia dependiendo de la estimación por banda del ruido de fondo de cada banda de frecuencia del primer grupo de la pluralidad de bandas de frecuencia.

Por otra parte, en esta realización, el estimador de ruido puede, por ejemplo, estar configurado para determinar un valor de ruido de fondo de alta frecuencia que indica la energía de un segundo ruido de fondo para un segundo grupo de la pluralidad de bandas de frecuencia dependiendo de la estimación por banda del ruido de fondo de cada banda de frecuencia del segundo grupo de la pluralidad de bandas de frecuencia. Por lo menos una banda de frecuencia del primer grupo puede, por ejemplo, tener una frecuencia central menor que una frecuencia central de por lo menos una banda de frecuencia del segundo grupo. En una realización específica, cada banda de frecuencia del primer grupo puede, por ejemplo, tener una frecuencia central menor que una frecuencia central de cada banda de frecuencia del segundo grupo.

Además, el selector puede, por ejemplo, estar configurado para determinar la distorsión dependiendo del valor de ruido de fondo de baja frecuencia y dependiendo del valor de ruido de fondo de alta frecuencia.

De acuerdo a una realización, el estimador de ruido puede, por ejemplo, estar configurado para determinar el valor de ruido de fondo de baja frecuencia L de acuerdo a

donde i indica una banda de frecuencia i-th del primer grupo de bandas de frecuencia, en tanto I¹indica la primera de la pluralidad de bandas de frecuencia, en tanto I²indica la segunda de la pluralidad de bandas de frecuencia, y en tanto N[i] indica la estimación de energía de la energía del ruido de fondo de la banda de frecuencia i-th.

En una realización, el estimador de ruido puede, por ejemplo, estar configurado para determinar el valor de ruido de fondo de alta frecuencia H de acuerdo a

donde i indica una banda de frecuencia i-th del segundo grupo de bandas de frecuencia, en tanto I³indica una tercera de la pluralidad de bandas de frecuencia, en tanto I⁴indica una cuarta de la pluralidad de bandas de frecuencia, y en tanto N[i] indica la estimación de energía de la energía del ruido de fondo de la banda de frecuencia i-th.

De acuerdo a una realización, el selector puede, por ejemplo, estar configurado para determinar la distorsión T dependiendo del valor de ruido de fondo de baja frecuencia L y dependiendo del valor de ruido de fondo de alta frecuencia H de acuerdo a la fórmula:

o de acuerdo a la fórmula

o de acuerdo a la fórmula

T= L - H

o de acuerdo a la fórmula

T = H - L .

En una realización, el selector puede, por ejemplo, estar configurado para determinar la distorsión como un valor de distorsión de corto plazo actual. Por otra parte, el selector puede, por ejemplo, estar configurado para determinar un valor de distorsión de largo plazo actual dependiendo del valor de distorsión de corto plazo actual y dependiendo de un valor de distorsión de largo plazo previo. Además, el selector puede, por ejemplo, estar configurado para seleccionar uno de dos o más modos de generación de ruido dependiendo del valor de distorsión de largo plazo actual.

De acuerdo a una realización, el selector puede, por ejemplo, estar configurado para determinar el valor de distorsión de largo plazo actual T^{c lt}de acuerdo a la fórmula:

Tclt - o. Tpit (1 - a) T

donde T es el valor de distorsión de corto plazo actual, en tanto Tplt es dicho valor de distorsión de largo plazo previo, y en tanto a es un número real con 0 < a < 1.

En una realización, el primero de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de frecuencia. Por otra parte, un segundo de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de predicción lineal. Además, el selector puede, por ejemplo, estar configurado para seleccionar el modo de generación de ruido de confort de dominio de frecuencia, si un modo de generación previamente seleccionado, previamente seleccionado por el selector, es el modo de generación de ruido de confort de dominio de predicción lineal y si el valor de distorsión de largo plazo actual es mayor que un primer valor umbral. Por otra parte, el selector puede, por ejemplo, estar configurado para seleccionar el modo de generación de ruido de confort de dominio de predicción lineal, si el modo de generación previamente seleccionado, previamente seleccionado por el selector, es el modo de generación de ruido de confort de dominio de frecuencia y si el valor de distorsión de largo plazo actual es menor que un segundo valor umbral.

Por otra parte, se provee un aparato para generar una señal de salida de audio en base a la información de audio codificada recibida. El aparato comprende una unidad de decodificación para decodificar la información de audio codificada para obtener información de modo codificada con la información de audio codificada, en tanto la información de modo indica un modo de generación de ruido de confort indicado de dos o más modos de generación de ruido de confort. Por otra parte, el aparato comprende un procesador de señales para generar la señal de salida de audio mediante la generación, dependiendo del modo de generación de ruido de confort indicado, de ruido de confort.

De acuerdo a la invención, un primero de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de frecuencia. El procesador de señales puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de frecuencia, para generar el ruido de confort en un dominio de frecuencia y conduciendo una conversión de frecuencia en tiempo del ruido de confort generado en el dominio de frecuencia. Por ejemplo, en una realización específica, el procesador de señales puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de frecuencia, para generar el ruido de confort generando ruido aleatorio en un dominio de frecuencia, modelando el ruido aleatorio en el dominio de frecuencia para obtener ruido modelado, y convirtiendo el ruido modelado del dominio de frecuencia al dominio de tiempo.

En una realización, un segundo de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de predicción lineal. El procesador de señales puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de predicción lineal, para generar el ruido de confort empleando un filtro de predicción lineal. Por ejemplo, en una realización específica, el procesador de señales puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de predicción lineal, para generar el ruido de confort generando una señal de excitación aleatoria, escalando la señal de excitación aleatoria para obtener una señal de excitación escalada, y sintetizando la señal de excitación escalada usando un filtro inverso de LP.

Además, se provee un sistema. El sistema comprende un aparato para codificar información de audio de acuerdo a una de las realizaciones antes descritas y un aparato para generar una señal de salida de audio en base a la información de audio codificada recibida de acuerdo a una de las realizaciones antes descritas. El selector del aparato para codificar información de audio está configurado para seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de un ruido de fondo característico de una señal de entrada de audio. La unidad de codificación del aparato para codificar información de audio está configurada para codificar la información de audio, que comprende información de modo que indica el modo de generación de ruido de confort seleccionado como un modo de generación de ruido de confort indicado, para obtener información de audio codificada. Por otra parte, la unidad de decodificación del aparato para generar una señal de salida de audio está configurada para recibir la información de audio codificada, y además está configurada para decodificar la información de audio codificada para obtener la información de modo codificada con la información de audio codificada. El procesador de señales del aparato para generar una señal de salida de audio está configurado para generar la señal de salida de audio generando, dependiendo del modo de generación de ruido de confort indicado, ruido de confort. Por otra parte, además se provee un método para codificar información de audio. El método comprende:

- Seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de un ruido de fondo característico de una señal de entrada de audio. Y:

- Codificar la información de audio, en tanto la información de audio comprende información de modo que indica el modo de generación de ruido de confort seleccionado.

Además, se provee un método para generar una señal de salida de audio en base a la información de audio codificada recibida. El método comprende:

- Decodificar información de audio codificada para obtener información de modo codificada con la información de audio codificada, en tanto la información de modo indica un modo de generación de ruido de confort indicado de dos o más modos de generación de ruido de confort. Y:

- Generar la señal de salida audio generando, dependiendo del modo de generación de ruido de confort indicado, ruido de confort.

Por otra parte, se provee un programa informático para implementar el método antes descrito que se ejecuta en un ordenador o procesador de señales.

Así, en algunas de las realizaciones, el selector propuesto puede, por ejemplo, basarse fundamentalmente en la distorsión del ruido de fondo. Por ejemplo, si la distorsión del ruido de fondo es alta luego se selecciona FD-CNG, de lo contrario se selecciona LP-CNG.

Una versión atenuada de la distorsión del ruido de fondo y una histéresis puede, por ejemplo, usarse para evitar el cambio frecuente de un modo a otro.

La distorsión del ruido de fondo puede, por ejemplo, estimarse usando la relación de la energía del ruido de fondo en las bajas frecuencias y la energía del ruido de fondo en las altas frecuencias.

La energía del ruido de fondo puede, por ejemplo, estimarse en el dominio de frecuencia usando un estimador de ruido.

A continuación se describirán las realizaciones de la presente invención con mayor detalle con referencia a las figuras: La figura 1 ilustra un aparato para codificar información de audio de acuerdo a una realización,

La figura 2 ilustra un aparato para codificar información de audio de acuerdo a otra realización,

La figura 3 ilustra un enfoque progresivo para seleccionar un modo de generación de ruido de confort de acuerdo a una realización,

La figura 4 ilustra un aparato para generar una señal de salida de audio en base a la información de audio codificada recibida de acuerdo a una realización, y

La figura 5 ilustra un sistema de acuerdo a una realización.

la figura 1 ilustra un aparato para codificar información de audio de acuerdo a una realización.

El aparato para codificar información de audio comprende un selector 110 para seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo del ruido de fondo característico de una señal de entrada de audio.

Por otra parte, el aparato comprende una unidad de codificación 120 para codificar la información de audio, en tanto la información de audio comprende información de modo que indica el modo de generación de ruido de confort seleccionado.

Por ejemplo, el primero de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de frecuencia. Y/o, por ejemplo, un segundo de los dos o más modos de generación puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de predicción lineal.

Por ejemplo, si, sobre el decodificador, se recibe la información de audio codificada, estando en la información de modo, codificada con la información de audio codificada, indica que el modo de generación de ruido de confort seleccionado es el modo de generación de ruido de confort de dominio de frecuencia, luego, un procesador de señales sobre el decodificador puede, por ejemplo, generar el ruido de confort generando ruido aleatorio en un dominio de frecuencia, modelando el ruido aleatorio en el dominio de frecuencia para obtener ruido modelado, y convirtiendo el ruido modelado del dominio de frecuencia al dominio de tiempo.

Sin embargo, si por ejemplo, la información de modo, codificada con la información de audio codificada, indica que el modo de generación de ruido de confort seleccionado es el modo de generación de ruido de confort de dominio de predicción lineal, luego, el procesador de señales sobre el decodificador puede, por ejemplo, generar el ruido de confort generando una señal de excitación aleatoria, escalando la señal de excitación aleatoria para obtener una señal de excitación escalada, y sintetizando la señal de excitación escalada usando un filtro inverso de LP.

Dentro de la información de audio codificada, no solamente la información sobre el modo de generación de ruido de confort, sino que información adicional puede codificarse. Por ejemplo, es posible codificar además factores de ganancia específicos de banda de frecuencia, por ejemplo, un factor de ganancia por cada banda de frecuencia. O, por ejemplo, uno o más coeficientes de filtros de LP, o coeficientes de LSF o coeficientes de ISF pueden, por ejemplo, codificarse dentro de la información de audio codificada. La información sobre el modo de generación de ruido de confort seleccionado y la información adicional, codificada con la información de audio codificada pueden entonces, por ejemplo, transmitirse al decodificador, por ejemplo, dentro de un cuadro SID (SID = Descriptor de Inserción de Silencio).

La información sobre el modo de generación de ruido de confort seleccionado puede ser codificada explícita o implícitamente.

Cuando se codifica explícitamente el modo de generación de ruido de confort seleccionado, luego, uno o más bits pueden, por ejemplo, emplearse para indicar cuál de los dos o más modos de generación de ruido de confort es el modo de generación de ruido de confort seleccionado. En tal realización, el o los bits mencionados luego son la información de modo codificada.

En otras realizaciones, sin embargo, el modo de generación de ruido de confort seleccionado está implícitamente codificado dentro de la información de audio. Por ejemplo, en el ejemplo antes mencionado, los factores de ganancia específicos por banda de frecuencia y el o los coeficientes de LP (o l Sf o ISF) pueden, por ejemplo, tener un formato distinto o pueden, por ejemplo, tener una longitud en bits diferente. Si, por ejemplo, los factores de ganancia específicos por banda de frecuencia se codifican dentro de la información de audio, esto puede, por ejemplo, indicar que el modo de generación de ruido de confort de dominio de frecuencia es el modo de generación de ruido de confort seleccionado. Si, sin embargo, el o los coeficientes LP (o LSF o ISF) se codifican dentro la información de audio, esto puede, por ejemplo, indicar que el modo de generación de ruido de confort de dominio de predicción lineal es el modo de generación de ruido de confort seleccionado. Cuando se usa esta codificación implícita, los factores de ganancia específicos por banda de frecuencia o el o los coeficientes LP (o LSF o ISF) entonces representan la información de modo codificada dentro de la señal de audio codificada, en tanto esta información de modo indica el modo de generación de ruido de confort seleccionado.

De acuerdo a una realización, el selector 110 puede, por ejemplo, estar configurado para determinar la distorsión de un ruido de fondo de la señal de entrada de audio como la característica del ruido de fondo. El selector 110 puede, por ejemplo, estar configurado para seleccionar dicho modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de la distorsión determinada.

Por ejemplo, puede emplearse un valor de ruido de fondo de baja frecuencia y un valor de ruido de fondo de alta frecuencia, y la distorsión del ruido de fondo puede, por ejemplo, ser calculado dependiendo del valor de ruido de fondo de baja frecuencia y dependiendo del valor de ruido de fondo de alta frecuencia.

La figura 2 ilustra un aparato para codificar información de audio de acuerdo a una realización adicional. El aparato de la figura 2 además comprende un estimador de ruido 105 para estimar una estimación por banda del ruido de fondo para cada una de una pluralidad de bandas de frecuencia. El selector 110 puede, por ejemplo, estar configurado para determinar la distorsión dependiendo del ruido de fondo estimado de la pluralidad de bandas de frecuencia.

De acuerdo a una realización, el estimador de ruido 105 puede, por ejemplo, estar configurado para estimar una estimación por banda del ruido de fondo estimando la energía del ruido de fondo de cada una de la pluralidad de bandas de frecuencia.

En una realización, el estimador de ruido 105 puede, por ejemplo, estar configurado para determinar un valor de ruido de fondo de baja frecuencia que indica la energía de un primer ruido de fondo para un primer grupo de la pluralidad de bandas de frecuencia dependiendo de la estimación por banda del ruido de fondo de cada banda de frecuencia del primer grupo de la pluralidad de bandas de frecuencia.

Por otra parte, el estimador de ruido 105 puede, por ejemplo, estar configurado para determinar un valor de ruido de fondo de alta frecuencia que indica la energía de un segundo ruido de fondo para un segundo grupo de la pluralidad de bandas de frecuencia dependiendo de la estimación por banda del ruido de fondo de cada banda de frecuencia del segundo grupo de la pluralidad de bandas de frecuencia. Por lo menos una banda de frecuencia del primer grupo puede, por ejemplo, tener una frecuencia central menor que una frecuencia central de por lo menos una banda de frecuencia del segundo grupo. En una realización específica, cada banda de frecuencia del primer grupo puede, por ejemplo, tener una frecuencia central menor que una frecuencia central de cada banda de frecuencia del segundo grupo.

Además, el selector 110 puede, por ejemplo, estar configurado para determinar la distorsión dependiendo del valor de ruido de fondo de baja frecuencia y dependiendo del valor de ruido de fondo de alta frecuencia.

De acuerdo a una realización, el estimador de ruido 105 puede, por ejemplo, estar configurado para determinar el valor de ruido de fondo de baja frecuencia L de acuerdo a

donde i indica una banda de frecuencia Z-th del primer grupo de bandas de frecuencia, en tanto I¹indica la primera de la pluralidad de bandas de frecuencia, en tanto I²indica la segunda de la pluralidad de bandas de frecuencia, y en tanto N[¡] indica la estimación de energía de la energía del ruido de fondo de la banda de frecuencia i-th .

De manera similar, en una realización, el estimador de ruido 105 puede, por ejemplo, estar configurado para determinar el valor de ruido de fondo de alta frecuencia H de acuerdo a

donde ¡ indica una banda de frecuencia ¡-th del segundo grupo de bandas de frecuencia, en tanto I³indica una tercera de la pluralidad de bandas de frecuencia, en tanto I⁴indica una cuarta de la pluralidad de bandas de frecuencia, y en tanto N[¡] indica la estimación de energía de la energía del ruido de fondo de la banda de frecuencia ¡-th.

De acuerdo a una realización, el selector 110 puede, por ejemplo, estar configurado para determinar la distorsión T dependiendo del valor de ruido de fondo de baja frecuencia L y dependiendo del valor de ruido de fondo de alta frecuencia H de acuerdo a la fórmula:

o de acuerdo a la fórmula

o de acuerdo a la fórmula

T - L - H

o de acuerdo a la fórmula

T - H ~ L

Por ejemplo, cuando L y H son representados en un dominio logarítmico, puede emplearse una de las fórmulas de sustracción (T = L - H o T = H - L).

En una realización, el selector 110 puede, por ejemplo, estar configurado para determinar la distorsión como un valor de distorsión de corto plazo actual. Por otra parte, el selector 110 puede, por ejemplo, estar configurado para determinar un valor de distorsión de largo plazo actual dependiendo del valor de distorsión de corto plazo actual y dependiendo de un valor de distorsión de largo plazo previo. Además, el selector 110 puede, por ejemplo, estar configurado para seleccionar uno de dos o más modos de generación de ruido de confort dependiendo del valor de distorsión de largo plazo actual.

De acuerdo a una realización, el selector 110 puede, por ejemplo, estar configurado para determinar el valor de distorsión de largo plazo actual T^{c lt}de acuerdo a la fórmula:

En una realización, el primero de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de frecuencia FD_CNG. Por otra parte, un segundo de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de predicción lineal LP_CNG. El selector 110 puede, por ejemplo, estar configurado para seleccionar el modo de generación de ruido de confort de dominio de frecuencia FD_CNG, si un modo de generación previamente seleccionado cng_mode_prev, previamente seleccionado por el selector 110, es el modo de generación de ruido de confort de dominio de predicción lineal LP_CNG y si el valor de distorsión de largo plazo actual es mayor que un primer valor umbral thn. Por otra parte, el selector 110 puede, por ejemplo, estar configurado para seleccionar el modo de generación de ruido de confort de dominio de predicción lineal LP_CNG, si el modo de generación previamente seleccionado cng_mode_prev, previamente seleccionado por el selector 110, es el modo de generación de ruido de confort de dominio de frecuencia FD_CNG y si el valor de distorsión de largo plazo actual es menor que un segundo valor umbral thr².

En algunas realizaciones, el primer valor umbral es igual al segundo valor umbral. En algunas otras realizaciones, sin embargo, el primer valor umbral es distinto del segundo valor umbral.

La figura 4 ilustra un aparato para generar una señal de salida de audio en base a la información de audio codificada recibida de acuerdo a una realización.

El aparato comprende una unidad de decodificación 210 para decodificar la información de audio codificada para obtener información de modo codificada con la información de audio codificada. La información de modo indica un modo de generación de ruido de confort indicado de dos o más modos de generación de ruido de confort.

Por otra parte, el aparato comprende un procesador de señales 220 para generar la señal de salida de audio mediante la generación, dependiendo del modo de generación de ruido de confort indicado, de ruido de confort.

De acuerdo a una realización, el primero de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de frecuencia. El procesador de señales 220 puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de frecuencia, para generar el ruido de confort en un dominio de frecuencia y conduciendo una conversión de frecuencia en tiempo del ruido de confort generado en el dominio de frecuencia. Por ejemplo, en una realización específica, el procesador de señales puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de frecuencia, para generar el ruido de confort generando ruido aleatorio en un dominio de frecuencia, modelando el ruido aleatorio en el dominio de frecuencia para obtener ruido modelado, y convirtiendo el ruido modelado del dominio de frecuencia al dominio de tiempo.

Por ejemplo, pueden emplearse los conceptos descritos en WO 2014/096279 A1.

Por ejemplo, un generador aleatorio puede ser aplicado para excitar cada banda espectral individual en el dominio FFT y/o en el dominio QMF generando una o más secuencias aleatorias (FFT = Transformada Rápida de Fourier; QMF = Filtro Espejo en Cuadratura). El modelado del ruido aleatorio puede, por ejemplo, ser conducido computando individualmente la amplitud de las secuencias aleatorias en cada banda de modo tal que el espectro del ruido de confort generado se parezca al espectro del ruido de fondo actual presente, por ejemplo, en un caudal de bits, que comprende, por ejemplo, una señal de entrada de audio. Luego, por ejemplo, la amplitud computada puede, por ejemplo, aplicarse a la secuencia aleatoria, por ejemplo, multiplicando la secuencia aleatoria por la amplitud computada en cada banda de frecuencia. Luego, es posible convertir el ruido modelado del dominio de frecuencia al dominio de tiempo.

En una realización, un segundo de los dos o más modos de generación de ruido de confort puede, por ejemplo, ser un modo de generación de ruido de confort de dominio de predicción lineal. El procesador de señales 220 puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de predicción lineal, para generar el ruido de confort empleando un filtro de predicción lineal.

Por ejemplo, en una realización específica, el procesador de señales puede, por ejemplo, estar configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de predicción lineal, para generar el ruido de confort generando una señal de excitación aleatoria, escalando la señal de excitación aleatoria para obtener una señal de excitación escalada, y sintetizando la señal de excitación escalada usando un filtro inverso de LP.

Por ejemplo, puede emplearse la generación de ruido de confort según se ha descrito en G.722.2 (véase ITU-T G.722.2 Anexo A) y/o según se ha descrito en G.718 (véase ITU-T G.718 Sec. 6.12 y 7.12). Esta generación de ruido de confort en un dominio de excitación aleatorio escalando una señal de excitación aleatoria para obtener una señal de excitación escalada, y sintetizando la señal de excitación escalada usando un filtro inverso de LP es muy conocida para el experto en la técnica.

La figura 5 ilustra un sistema de acuerdo a una realización. El sistema comprende un aparato 100 para codificar información de audio de acuerdo a una de las realizaciones antes descritas y un aparato 200 para generar una señal de salida de audio en base a la información de audio codificada recibida de acuerdo a una de las realizaciones antes descritas.

El selector 110 del aparato 100 para codificar información de audio está configurado para seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo del ruido de fondo característico de una señal de entrada de audio. La unidad de codificación 120 del aparato 100 para codificar información de audio está configurada para codificar la información de audio, que comprende información de modo que indica el modo de generación de ruido de confort seleccionado como un modo de generación de ruido de confort indicado, para obtener información de audio codificada.

Por otra parte, la unidad de decodificación 210 del aparato 200 para generar una señal de salida de audio está configurada para recibir la información de audio codificada, y además está configurada para decodificar la información de audio codificada para obtener la información de modo codificada con la información de audio codificada. El procesador de señales 220 del aparato 200 para generar una señal de salida de audio está configurado para generar la señal de salida de audio generando, dependiendo del modo de generación de ruido de confort indicado, ruido de confort.

La figura 3 ilustra un enfoque progresivo para seleccionar un modo de generación de ruido de confort de acuerdo a una realización.

En el paso 310, un estimador de ruido se usa para estimar la energía del ruido de fondo en el dominio de frecuencia.

Esto en general se realiza por banda, produciendo una estimación de energía por banda.

N[i] con 0 < i < N y N el número de bandas (por ejemplo, N = 20)

Es posible usar cualquier estimación de ruido que produzca una estimación por banda de la energía del ruido de fondo.

Un ejemplo es el estimador de ruido usado en G.718 (ITU-T G.718 Sec. 6.7).

En el paso 320, la energía del ruido de fondo en las frecuencias bajas se computa usando

con puede depender del ancho de banda de la señal, por ejemplo, I¹

I²= 9 para NB y I¹= 0, WB.

L puede considerarse como un valor de ruido de fondo de baja frecuencia según se ha descrito.

En el paso 330, la energía del ruido de fondo en las frecuencias altas se computa usando

con I³y I⁴puede depender del ancho de banda de la señal, por ejemplo, I³= 16, I⁴= 17 para NB y I³= 19, I⁴= 20 para WB.

H puede considerarse como un valor de ruido de fondo de alta frecuencia según se ha descrito.

Los pasos 320 y 330 pueden, por ejemplo, ser ejecutados subsecuente o independientemente entre si.

En el paso 340, la distorsión del ruido de fondo se computa usando

Algunas realizaciones pueden, por ejemplo, proceder de acuerdo al paso 350. En el paso 350, la distorsión del ruido de fondo se atenúa, produciendo una versión a largo plazo de la distorsión del ruido de fondo

Tlt = uTlt ⁺(1 ^- a)T

con a es, por ejemplo, 0,9. En esta ecuación recursiva, Tlt sobre la izquierda del signo igual es el valor de distorsión de largo plazo actual Tclt antes mencionado, y Tlt a la derecha del signo igual es dicho valor de distorsión de largo plazo previo Tplt antes mencionado.

En el paso 360, el modo CNG se selecciona finalmente usando el siguiente clasificador con histéresis

Si (cng_mode_prev == LP_CNG y Tlt > thn) entonces cng_mode = FD_CNG

Si (cng_mode_prev == FD_CNG y Tlt < thr²) entonces cng_mode = LP_CNG

en el que thn y thr²pueden depender del ancho de banda, por ejemplo, thn = 9, thr²= 2 para NB y thn = 45, thr²= 10 para Wb .

cng_mode es el modo de generación de ruido de confort que está (actualmente) seleccionado por el selector 110. cng_mode_prev es un modo de generación previamente seleccionado (ruido de confort) que ha sido previamente seleccionado por el selector 110.

Lo que sucede cuando ninguno de las condiciones anteriores del paso 360 se cumple, depende de la implementación. En una realización, por ejemplo, si ninguna de ambas condiciones del paso 360 se cumple, el modo CNG puede permanecer como estaba, de modo que

cng_mode = cng_mode_prev.

Las demás realizaciones pueden implementar otras estrategias de selección.

Mientras que en la realización de la figura 3, thn es diferente de thr², en algunas otras realizaciones, sin embargo, thr1 es igual a thr².

A pesar de haberse descrito algunos aspectos en el contexto de un aparato, queda claro que estos aspectos representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. Análogamente, los aspectos descritos en el contexto de un paso del método además representan una descripción de un bloque, elemento o característica correspondiente de un aparato.

La señal descompuesta de la invención puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida por un medio de transmisión como un medio de transmisión inalámbrico o un medio de transmisión cableado como Internet.

De acuerdo a ciertos requerimientos de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación puede ser ejecutada usando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, con señales de control electrónicamente legibles almacenadas, que cooperan (o son capaces de cooperar) con un sistema informático programable de modo que se ejecute el método respectivo.

Algunas realizaciones de acuerdo a la invención comprenden un soporte de datos no transitorios con señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, con el fin de ejecutar uno de los métodos descritos en la presente.

En general, las realizaciones de la presente invención pueden ser implementadas como un producto informático con un código de programa, el código de programa siendo operativo puede realizar uno de los métodos cuando se ejecuta en un ordenador. El código de programa puede por ejemplo estar almacenado en un soporte legible por máquina.

Otras realizaciones comprenden el programa informático para ejecutar uno de los métodos descritos, almacenado en un soporte legible por máquina.

En otras palabras, una realización de un método de la invención es, en consecuencia, un programa informático que posee un código para realizar uno de los métodos descritos, cuando el programa se ejecuta en un ordenador.

Una realización adicional de los métodos de la invención es, en consecuencia, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por computadora) que comprende, grabado en el mismo, el programa informático para ejecutar uno de los métodos descritos en la presente.

Una realización adicional del método de la invención es, en consecuencia, un caudal de datos o una secuencia de señales que representan el programa informático para ejecutar uno de los métodos descritos en la presente. El caudal de datos o la secuencia de señales pueden por ejemplo configurarse para ser transferidos por una conexión de comunicación de datos, por ejemplo, a través de Internet.

Una realización adicional comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado para o adaptado para realizar uno de los métodos descritos en la presente.

Una realización adicional comprende un ordenador que tiene instalado el programa informático para ejecutar uno de los métodos descritos en la presente.

En algunas realizaciones, un dispositivo lógico programable (por ejemplo un conjunto de compuertas programables por campo) puede usarse para ejecutar algunas o todas las funcionalidades de los métodos descritos en la presente. En algunas realizaciones, un conjunto de compuertas programables por campo puede cooperar con un microprocesador con el fin de ejecutar uno de los métodos descritos en la presente. En general, los métodos preferentemente se ejecutan mediante cualquier aparato de hardware.

Las realizaciones antes descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las modificaciones y los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. Por consiguiente, la intención es limitarse únicamente al alcance de las reivindicaciones adjuntas de la patente y no por detalles específicos expuestos con fines descriptivos e ilustrativos de las realizaciones del mismo.

Claims

REIVINDICACIONES

i. Un aparato para codificar información de audio, que comprende:

un selector (110) para seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo del ruido de fondo característico de una señal de entrada de audio, y

una unidad de codificación (120) para codificar la información de audio, en donde la información de audio comprende información de modo que indica el modo de generación de ruido de confort seleccionado, en donde un primero de los dos o más modos de generación de ruido de confort es un modo de generación de ruido de confort de dominio de frecuencia, y en donde el modo de generación de ruido de confort de dominio de frecuencia indica que el ruido de confort se generará en un dominio de frecuencia y que el ruido de confort generado en el dominio de frecuencia se convertirá de frecuencia a tiempo.
2. Un aparato de acuerdo a la reivindicación 1,

en donde el selector (110) está configurado para determinar la distorsión de un ruido de fondo de la señal de entrada de audio como la característica del ruido de fondo, y

en donde el selector (110) está configurado para seleccionar dicho modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de la distorsión determinada.
3. Un aparato de acuerdo a la reivindicación 2,

en donde el aparato además comprende un estimador de ruido (105) para estimar una estimación por banda del ruido de fondo para cada una de una pluralidad de bandas de frecuencia, y

en donde el selector (110) está configurado para determinar la distorsión dependiendo del ruido de fondo estimado de la pluralidad de bandas de frecuencia.
4. Un aparato de acuerdo a la reivindicación 3,

en donde, el estimador de ruido (105) está configurado para determinar un valor de ruido de fondo de baja frecuencia que indica la energía de un primer ruido de fondo para un primer grupo de la pluralidad de bandas de frecuencia dependiendo de la estimación por banda del ruido de fondo de cada banda de frecuencia del primer grupo de la pluralidad de bandas de frecuencia,

en donde el estimador de ruido (105) está configurado para determinar un valor de ruido de fondo de alta frecuencia que indica la energía de un segundo ruido de fondo para un segundo grupo de la pluralidad de bandas de frecuencia dependiendo de la estimación por banda del ruido de fondo de cada banda de frecuencia del segundo grupo de la pluralidad de bandas de frecuencia, en donde por lo menos una banda de frecuencia del primer grupo posee una frecuencia central inferior que una frecuencia central de por lo menos una banda de frecuencia del segundo grupo, y

en donde el selector (110) está configurado para determinar la distorsión en función al valor de ruido de fondo de baja frecuencia y dependiendo del valor de ruido de fondo de alta frecuencia.
5. Un aparato de acuerdo a la reivindicación 4,

en donde el estimador de ruido (105) está configurado para determinar el valor de ruido de fondo de baja frecuencia L de acuerdo a

en donde i indica una banda de frecuencia i-th del primer grupo de bandas de frecuencia, en donde I¹indica un primero de la pluralidad de bandas de frecuencia, en donde I²indica un segundo de la pluralidad de bandas de frecuencia, y en donde N[Z] indica la estimación de energía de la energía de ruido de fondo de la banda de frecuencia Z-th,

en donde el estimador de ruido (105) está configurado para determinar el valor de ruido de fondo de alta frecuencia H de acuerdo a

en donde i indica una banda de frecuencia Z-th del segundo grupo de bandas de frecuencia, en donde I³indica un tercero de la pluralidad de bandas de frecuencia, en donde I⁴indica un cuarto de la pluralidad de bandas de frecuencia, y en donde N[Z] indica la estimación de energía de la energía de ruido de fondo de la banda de frecuencia Z-th,

Un aparato de acuerdo a la reivindicación 4 o 5,

en donde el selector (110) está configurado para determinar la distorsión T dependiendo del valor de ruido de fondo de baja frecuencia L y dependiendo del valor de ruido de fondo de alta frecuencia H de acuerdo a la fórmula

o de acuerdo a la fórmula

o de acuerdo a la fórmula

T=L H

o de acuerdo a la fórmula

/ ' = / / L

Un aparato de acuerdo a una de las reivindicaciones 2 a 6,

en donde el selector (110) está configurado para determinar la distorsión como un valor de distorsión de corto plazo actual (T),

en donde el selector (110) está configurado para determinar un valor de distorsión de largo plazo actual dependiendo del valor de distorsión de corto plazo actual y dependiendo de un valor de distorsión de largo plazo previo,

en donde el selector (110) está configurado para seleccionar uno de dos o más modos de generación de ruido de confort dependiendo del valor de distorsión de largo plazo actual.

Un aparato de acuerdo a la reivindicación 7,

en donde el selector (110) está configurado para determinar el valor de distorsión de largo plazo actual T^{c lt}de acuerdo a la fórmula:

en donde T es el valor de distorsión de corto plazo actual,

en donde TpLT es dicho valor de distorsión de largo plazo previo, y

en donde a es un número real con 0 < a < 1.

Un aparato de acuerdo a la reivindicación 7 u 8,

en donde un segundo de los dos o más modos de generación de ruido de confort es un modo de generación de ruido de confort de dominio de predicción lineal,

en donde el selector (110) está configurado para seleccionar el modo de generación de ruido de confort de dominio de frecuencia, si un modo de generación previamente seleccionado, previamente seleccionado por el selector (110), es el modo de generación de ruido de confort de dominio de predicción lineal y si el valor de distorsión de largo plazo actual es mayor que un primer valor umbral, y

en donde el selector (110) está configurado para seleccionar el modo de generación de ruido de confort de dominio de predicción lineal, si el modo de generación previamente seleccionado, previamente seleccionado por el selector (110), es el modo de generación de ruido de confort de dominio de frecuencia y si el valor de distorsión de largo plazo actual es menor que un segundo valor umbral.

Un aparato para generar una señal de salida de audio en base a la información de audio codificada recibida, que comprende:

una unidad de decodificación (210) para decodificar la información de audio codificada para obtener información de modo codificada con la información de audio codificada, en donde la información de modo indica un modo de generación de ruido de confort indicado de dos o más modos de generación de ruido de confort, y

un procesador de señales (220) para generar la señal de salida de audio mediante la generación, dependiendo del modo de generación de ruido de confort indicado, ruido de confort,

en donde un primero de los dos o más modos de generación de ruido de confort es un modo de generación de ruido de confort de dominio de frecuencia, y

en donde el procesador de señales está configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de frecuencia, para generar el ruido de confort en un dominio de frecuencia y realizando una conversión de frecuencia en tiempo del ruido de confort generado en el dominio de frecuencia.

Un aparato de acuerdo a la reivindicación 10,

en donde un segundo de los dos o más modos de generación de ruido de confort es un modo de generación de ruido de confort de dominio de predicción lineal, y

en donde el procesador de señales (220) está configurado, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de predicción lineal, para generar el ruido de confort empleando un filtro de predicción lineal.

Un sistema que comprende:

un aparato (100) de acuerdo a una de las reivindicaciones 1 a 9 para codificar información de audio, y un aparato (200) de acuerdo a la reivindicación 10 u 11 para generar una señal de salida de audio en base a la información de audio codificada recibida,

en donde el selector (110) del aparato (100) de acuerdo a una de las reivindicaciones 1 a 9 está configurado para seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de un ruido de fondo característico de una señal de entrada de audio,

en donde la unidad de codificación (120) del aparato (100) de acuerdo a una de las reivindicaciones 1 a 9 está configurado para codificar la información de audio, que comprende información de modo que indica el modo de generación de ruido de confort seleccionado como un modo de generación de ruido de confort indicado, para obtener información de audio codificada,

en donde la unidad de decodificación (210) del aparato (200) de acuerdo a la reivindicación 10 u 11 está configurada para recibir la información de audio codificada, y además está configurada para decodificar la información de audio codificada para obtener la información de modo codificada con la información de audio codificada, y

en donde el procesador de señales (220) del aparato (200) de acuerdo a la reivindicación 10 u 11 está configurado para generar la señal de salida de audio generando, de acuerdo al modo de generación de ruido de confort indicado, ruido de confort.

Un método para codificar información de audio, que comprende:

seleccionar un modo de generación de ruido de confort de dos o más modos de generación de ruido de confort dependiendo de un ruido de fondo característico de una señal de entrada de audio, y

codificar la información de audio, en donde la información de audio comprende información de modo que indica el modo de generación de ruido de confort seleccionado,

en donde un primero de los dos o más modos de generación de ruido de confort es un modo de generación de ruido de confort de dominio de frecuencia, y en donde el modo de generación de ruido de confort de dominio de frecuencia indica que el ruido de confort se generará en un dominio de frecuencia y que el ruido de confort generado en el dominio de frecuencia se convertirá de frecuencia a tiempo.

Un método para generar una señal de salida de audio en base a la información de audio codificada recibida, que comprende:

decodificar la información de audio codificada para obtener información de modo codificada con la información de audio codificada, en tanto la información de modo indica un modo de generación de ruido de confort indicado de dos o más modos de generación de ruido de confort, y

generar la señal de salida audio generando, dependiendo del modo de generación de ruido de confort indicado, ruido de confort,

en donde un primero de los dos o más modos de generación de ruido de confort es un modo de generación de ruido de confort de dominio de frecuencia, y

en donde, si el modo de generación de ruido de confort indicado es el modo de generación de ruido de confort de dominio de frecuencia, el ruido de confort se genera en un dominio de frecuencia y se conduce una conversión de frecuencia en tiempo del ruido de confort generado en el dominio de frecuencia.

Un programa informático para implementar el método de la reivindicación 13 o 14 cuando se ejecuta en un ordenador o procesador de señales.