ES2778076T3 - Método y disposición para suavizar ruido estacionario de fondo - Google Patents

Método y disposición para suavizar ruido estacionario de fondo Download PDF

Info

Publication number
ES2778076T3
ES2778076T3 ES15175006T ES15175006T ES2778076T3 ES 2778076 T3 ES2778076 T3 ES 2778076T3 ES 15175006 T ES15175006 T ES 15175006T ES 15175006 T ES15175006 T ES 15175006T ES 2778076 T3 ES2778076 T3 ES 2778076T3
Authority
ES
Spain
Prior art keywords
signal
lpc parameters
speech
excitation
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15175006T
Other languages
English (en)
Inventor
Stefan Bruhn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2778076T3 publication Critical patent/ES2778076T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Un método para suavizar ruido de fondo, comprendiendo el método: recibir y decodificar (S10) una señal codificada que comprende tanto una componente de voz como una componente de ruido de fondo; determinar (S20) parámetros LPC para dicha señal recibida; determinar (S30) una señal de excitación para dicha señal recibida; determinar (S50) si dicha componente de voz está activa o inactiva; modificar (S35) dicha señal de excitación determinada reduciendo la potencia y las fluctuaciones espectrales de la señal de excitación durante los períodos de inactividad de voz; sintetizar y emitir (S40) una señal de salida basada en dichos parámetros LPC y dicha señal de excitación; caracterizado por: suavizar (S25) dicho conjunto determinado de parámetros LPC proporcionando un conjunto filtrado de paso bajo de parámetros LPC y determinando una combinación ponderada de dicho conjunto filtrado de paso bajo y dicho conjunto determinado de parámetros LPC durante períodos de inactividad de voz; y realizar dicha síntesis y emisión (S40) basándose en dicho conjunto suavizado de parámetros LPC y dicha señal de excitación modificada.

Description

DESCRIPCIÓN
Método y disposición para suavizar ruido estacionario de fondo
Campo técnico
La presente invención se refiere a la codificación de voz en sistemas de telecomunicaciones en general, especialmente a métodos y disposiciones para suavizar el ruido estacionario de fondo en tales sistemas.
Antecedentes
La codificación de voz es el proceso de obtener una representación compacta de señales de voz para una transmisión eficiente a través de canales y/o almacenamiento por cable e inalámbrico de banda limitada. Hoy en día, los codificadores de voz se han convertido en componentes esenciales en las telecomunicaciones y en la infraestructura multimedia. Los sistemas comerciales que dependen de una codificación de voz eficiente incluyen comunicación celular, protocolo de voz sobre Internet (VOIP), videoconferencia, juguetes electrónicos, archivo y voz y datos digitales simultáneos (DSVD), así como numerosos juegos basados en PC y aplicaciones multimedia.
Al ser una señal de tiempo continuo, la voz puede representarse digitalmente a través de un proceso de muestreo y cuantificación. Las muestras de voz se cuantifican típicamente usando cuantificación de 16 bits u 8 bits. Al igual que muchas otras señales, una señal de voz contiene una gran cantidad de información que es redundante (información mutua no nula entre muestras sucesivas en la señal) o perceptualmente irrelevante (información que no es percibida por los oyentes humanos). La mayoría de los codificadores de telecomunicaciones tienen pérdidas, lo que significa que el discurso sintetizado es perceptivamente similar al original pero puede ser físicamente diferente.
Un codificador de voz convierte una señal de voz digitalizada en una representación codificada, que generalmente se transmite en tramas. En consecuencia, un decodificador de voz recibe tramas codificadas y sintetiza la voz reconstruida.
Muchos codificadores de voz modernos pertenecen a una gran clase de codificadores de voz conocidos como LPC (codificadores predictivos lineales). Algunos ejemplos de tales codificadores son: los códecs de voz 3GPP FR, EFR, AMR y AMR-WB, los códecs de voz 3GPP2 EVrC, SMV y EVRC-WB, y varios códecs de ITU-T como G.728, G723, G. 729, etc.
Todos estos codificadores utilizan un concepto de filtro de síntesis en el proceso de generación de señal. El filtro se usa para modelar el espectro a corto plazo de la señal que se va a reproducir, mientras que se supone que la entrada al filtro maneja todas las demás variaciones de señal.
Una característica común de estos modelos de filtro de síntesis es que la señal que se va a reproducir está representada por parámetros que definen el filtro de síntesis. El término "predictivo lineal" se refiere a una clase de métodos usados a menudo para estimar los parámetros del filtro. En codificadores basados en LPC, la señal de voz se ve como la salida de un sistema lineal invariante en el tiempo (LTI) cuya entrada es la señal de excitación al filtro. Por lo tanto, la señal que se va a reproducir está representada en parte por un conjunto de parámetros de filtro y en parte por la señal de excitación que acciona el filtro. La ventaja de este concepto de codificación surge del hecho de que tanto el filtro como su señal de excitación de accionamiento pueden describirse eficientemente con relativamente pocos bits.
Una clase particular de códecs basados en LPC se basa en el llamado principio de análisis por síntesis (AbS). Estos códecs incorporan una copia local del decodificador en el codificador y encuentran la señal de excitación de accionamiento del filtro de síntesis seleccionando esa señal de excitación entre un conjunto de señales de excitación candidatas que maximiza la similitud de la señal de salida sintetizada con la señal de voz original.
El concepto de utilizar tal codificación predictiva lineal y particularmente la codificación AbS ha demostrado funcionar relativamente bien para señales de voz, incluso a bajas tasas de bits, por ejemplo, 4-12 kbps. Sin embargo, cuando el usuario de un teléfono móvil que usa tal técnica de codificación está en silencio y la señal de entrada comprende los sonidos circundantes, por ejemplo, ruido, los codificadores conocidos actualmente tienen dificultades para hacer frente a esta situación, ya que están optimizados para señales de voz. Un oyente en el lado receptor puede molestarse fácilmente cuando no se pueden reconocer los sonidos de fondo familiares, ya que el codificador los ha "maltratado".
El llamado remolino causa una de las degradaciones de calidad más severas en los sonidos de fondo reproducidos. Este es un fenómeno que ocurre en sonidos de ruido de fondo relativamente estacionario, como el ruido de un automóvil, y es causado por fluctuaciones temporales no naturales de la potencia y el espectro de la señal decodificada. Estas fluctuaciones a su vez son causadas por una estimación y cuantificación inadecuadas de los coeficientes del filtro de síntesis y su señal de excitación. Por lo general, el remolino se vuelve menor cuando aumenta la tasa de bits del códec.
El remolino se ha identificado como un problema en la técnica anterior y se han propuesto múltiples soluciones en la literatura. Una de las soluciones propuestas se describe en la patente de los Estados Unidos 5632004 [1]. De acuerdo con esta patente, durante la inactividad de voz, los parámetros del filtro se modifican mediante filtrado de paso bajo o expansión de ancho de banda de modo que se reducen las variaciones espectrales del sonido de fondo sintetizado. Este método fue refinado en la patente de los Estados Unidos 5579432 [2] de tal manera que la técnica anti-remolino descrita solo se aplica al ruido estacionario de fondo detectado.
Otro método que aborda el problema de remolino se describe en la patente de los Estados Unidos 5487087 [3]. Este método usa un esquema de cuantificación de señal modificada que coincide tanto con la señal en sí como con sus variaciones temporales. En particular, se prevé usar un cuantificador de fluctuación tan reducida para los parámetros del filtro LPC y los parámetros de ganancia de señal durante los períodos inactivos de voz.
Las degradaciones de la calidad de la señal causadas por fluctuaciones de potencia no deseadas de la señal sintetizada se abordan mediante otro conjunto de métodos. Uno de ellos se describe en la patente estadounidense 6275798 [4] y también es parte del algoritmo de códec de voz AMR descrito en 3GPP TS 26.090 [5]. De acuerdo con esto, la ganancia de al menos una componente de la señal de excitación del filtro sintetizado, la contribución fija del libro de códigos, se suaviza de forma adaptativa dependiendo de la estacionalidad del espectro LPC a corto plazo. Este método se ha desarrollado en la patente EP 1096476 [6] y la solicitud de patente EP 1688920 [7] donde el suavizado implica además una limitación de la ganancia que se usará en la síntesis de la señal. Un método relacionado para ser usado en codificadores de voz LPC se describe en el documento US 5953697 [8]. De acuerdo con esto, la ganancia de la señal de excitación del filtro de síntesis se controla de modo que la amplitud máxima de la voz sintetizada llegue a la envoltura de forma de onda de voz de entrada.
Sin embargo, una clase adicional de métodos que abordan el problema de remolino funciona como un post­ procesador después del decodificador de voz. La patente EP 0665530 [9] describe un método que durante la inactividad de voz detectada reemplaza una porción de la señal de salida del decodificador de voz por un ruido blanco filtrado de paso bajo o una señal de ruido de confort. Se adoptan enfoques similares en varias publicaciones que divulgan métodos relacionados que reemplazan parte de la señal de salida del decodificador de voz con ruido filtrado.
Murashima A. et al. [10] describe una técnica de post-procesamiento para mejorar la calidad de codificación de CELP bajo ruido de fondo. Suaviza de forma adaptativa tanto la envoltura espectral como la energía de la señal de excitación estimada para reducir sus fluctuaciones temporales, que causan la degradación perceptual.
La codificación escalable o embebida, con referencia a la figura 1, es un paradigma de codificación en el que la codificación se realiza en capas. Una capa base o central codifica la señal a una tasa de bits baja, mientras que las capas adicionales, cada una encima de la otra, proporcionan alguna mejora en relación con la codificación, que se logra con todas las capas desde el núcleo hasta la capa previa respectiva. Cada capa agrega una tasa de bits adicional. El flujo de bits generado está embebido, lo que significa que el flujo de bits de la codificación de capa inferior está embebido en flujos de bits de capas superiores. Esta propiedad hace posible que en cualquier lugar de la transmisión o en el receptor se caigan los bits que pertenecen a las capas superiores. Tal flujo de bits despojado aún puede decodificarse hasta la capa cuyos bits se retienen.
El algoritmo de compresión de voz escalable más común hoy en día es el códec PCM de logaritmo de ley A/U G.711 de 64 kbps. El códec G.711 muestreado de 8 kHz convierte muestras PCM lineales de 12 bits o 13 bits en muestras logarítmicas de 8 bits. La representación de bits ordenada de las muestras logarítmicas permite robar los bits menos significativos (LSB) en un flujo de bits G.711, haciendo que el codificador G.711 sea prácticamente escalable por SNR entre 48, 56 y 64 kbps. Esta propiedad de escalabilidad del códec G.711 se usa en las redes de comunicación conmutadas por circuito para fines de señalización de control en banda. Un ejemplo reciente del uso de esta propiedad de escalado G.711 es el protocolo 3GPP TFO que permite la configuración y el transporte de voz de banda ancha a través de enlaces PCM heredados de 64 kbps. Inicialmente, se usan ocho kbps del flujo original G.711 de 64 kbps para permitir una configuración de llamada del servicio de voz de banda ancha sin afectar considerablemente la calidad del servicio de banda estrecha. Después de la configuración de la llamada, la voz de banda ancha usará 16 kbps del flujo G.711 de 64 kbps. Otros estándares de codificación de voz más antiguos que soportan escalabilidad de bucle abierto son G.727 (ADPCM embebido) y, en cierta medida, G.722 (ADPCM de sub­ banda).
Un avance más reciente en la tecnología de codificación de voz escalable es el estándar MPEG-4 que proporciona extensiones de escalabilidad para MPEG4-CELP. La capa base de MPE puede mejorarse mediante la transmisión de información adicional de parámetros de filtro o información adicional de parámetros de innovación. El Sector de Normalización de la Unión Internacional de Telecomunicaciones, UIT-T, ha finalizado recientemente la estandarización de un nuevo códec escalable G.729.1, apodado s G.729. EV. El rango de tasa de bits de este códec de voz escalable es de 8 kbps a 32 kbps. El principal caso de uso de este códec es permitir el intercambio eficiente de un recurso de ancho de banda limitado en las pasarelas domésticas o de oficina, por ejemplo, el enlace ascendente xDSL 64/128 kbps compartido entre varias llamadas VOIP.
Una tendencia reciente en la codificación de voz escalable es proporcionar capas superiores con soporte para la codificación de señales de audio que no son de voz, como la música. En tales códecs, las capas inferiores emplean una mera codificación de voz convencional, por ejemplo, de acuerdo con el paradigma de análisis por síntesis del cual CELP es un ejemplo destacado. Como tal codificación es muy adecuada solo para voz pero no tanto para señales de audio que no son de voz, como la música, las capas superiores funcionan de acuerdo con un paradigma de codificación, que se usa en códecs de audio. Aquí, típicamente la codificación de la capa superior funciona en el error de codificación de la codificación de la capa inferior.
Otro método relevante con respecto a los códecs de voz es la llamada compensación de inclinación espectral, que se realiza en el contexto del filtrado posterior adaptativo de la voz decodificada. El problema resuelto por esto es compensar la inclinación espectral introducida por los filtros posteriores a corto plazo o formantes. Tales técnicas son parte de, por ejemplo, el códec AMR y el códec SMV y se dirigen principalmente al rendimiento del códec durante la voz en lugar de su rendimiento de ruido de fondo. El códec SMV aplica esta compensación de inclinación en el dominio residual ponderado antes del filtrado de síntesis, aunque no en respuesta a un análisis LPC del residuo.
El problema con los métodos descritos anteriormente de los documentos US 5632004, US 5579432 y US 5487087 es que asumen que la excitación del filtro de síntesis LPC tiene un espectro blanco (es decir, plano) y que todas las fluctuaciones espectrales que causan el problema de remolino están relacionadas con las fluctuaciones de los espectros de filtro de síntesis LPC. Sin embargo, este no es el caso y especialmente si la señal de excitación solo se cuantifica de manera aproximada. En ese caso, las fluctuaciones espectrales de la señal de excitación tienen un efecto similar a las fluctuaciones del filtro LPC y, por lo tanto, deben evitarse.
El problema con los métodos que abordan las fluctuaciones de potencia no deseadas de la señal sintetizada es que solo abordan una parte del problema de remolino, pero no proporcionan una solución relacionada con las fluctuaciones espectrales.
Las simulaciones muestran que, incluso en combinación con los métodos citados que abordan las fluctuaciones espectrales, no se pueden evitar todas las degradaciones de calidad de la señal relacionadas con remolinos durante los sonidos de fondo estacionarios.
Un problema con los métodos que funcionan como post-procesador después del decodificador de voz es que reemplazan solo una porción de la señal de salida decodificada de voz con una señal de ruido suavizada. Por lo tanto, el problema de remolino no se resuelve en la porción de señal restante que se origina desde el decodificador de voz y, por lo tanto, la señal de salida final no se forma usando el mismo filtro de síntesis LPC que la señal de salida del decodificador de voz. Esto puede conducir a posibles discontinuidades de sonido, especialmente durante las transiciones de inactividad a la voz activa. Además, tales métodos de post-procesamiento son desventajosos, ya que requieren una complejidad computacional relativamente alta.
Ninguno de los métodos existentes proporciona una solución al problema de que una de las razones para el remolino radica en las fluctuaciones espectrales de la señal de excitación del filtro de síntesis de LPC. Este problema se vuelve grave, especialmente si la señal de excitación se representa con muy pocos bits, que es típicamente el caso de los códecs de voz que funcionan a tasas de bits de 12 kbps o inferiores.
En consecuencia, existe la necesidad de métodos y disposiciones para aliviar los problemas de remolino descritos anteriormente causados por el ruido estacionario de fondo durante los períodos de inactividad de voz.
Sumario
Un objeto de la presente invención es proporcionar calidad mejorada de señales de voz en un sistema de telecomunicaciones.
Un objeto adicional es proporcionar calidad mejorada de una señal de salida de decodificador de voz durante períodos de inactividad de voz con ruido estacionario de fondo.
Las ventajas de la presente invención comprenden:
habilitar una señal mejorada de salida de decodificador de voz;
habilitar una señal suave de salida de decodificador de voz.
Breve descripción de los dibujos
La invención, junto con otros objetos y ventajas de la misma, puede entenderse mejor haciendo referencia a la siguiente descripción tomada junto con los dibujos que se acompañan, en los que:
la figura 1 es un esquema de bloques de un códec de audio y voz escalable;
la figura 2 es un diagrama de flujo que ilustra una realización de un método de acuerdo con la presente invención;
la figura 3 es un diagrama de flujo de una realización adicional de un método de acuerdo con la presente invención;
la figura 4 es un diagrama de bloques que ilustra realizaciones de un método de acuerdo con la presente invención;
la figura 5 es una ilustración de una realización de una disposición de acuerdo con la presente invención.
Abreviaturas
AbS Análisis por síntesis
ADPCM PCM diferencial adaptativo
AMR-WB Banda ancha multifrecuencia adaptiva
EVRC-WB Códec de banda ancha de frecuencia variable mejorada
CELP Predicción lineal excitada por código
ISP Par espectral de inmitancia
ITU-T Unión internacional de telecomunicaciones
LPC Codificadores predictivos lineales
LSF Frecuencia espectral de línea
MPEG Grupo de expertos en imágenes en movimiento
PCM Modulación de código de pulso
SMV Codificador de voz de modo seleccionable
VAD Detector de actividad de voz
Descripción detallada
Todos los casos siguientes de la palabra "realización/realizaciones", si se refieren a combinaciones futuras diferentes de las definidas por las reivindicaciones independientes, se refieren a ejemplos que se solicitaron originalmente que no representan realizaciones de la presente invención reivindicada; esos ejemplos todavía se muestran solo con fines ilustrativos.
La presente invención se describirá en el contexto de una sesión de voz, por ejemplo, llamada telefónica, en un sistema general de telecomunicaciones. Típicamente, los métodos y disposiciones se implementarán en un decodificador adecuado para la síntesis de voz. Sin embargo, es igualmente posible que los métodos y disposiciones se implementen en un nodo intermediario en la red y posteriormente se transmitan a un usuario de destino. El sistema de telecomunicaciones puede ser tanto inalámbrico como por cable.
En consecuencia, la presente invención permite métodos y disposiciones para aliviar los problemas conocidos anteriormente descritos con remolinos causados por el ruido estacionario de fondo durante los períodos de inactividad de voz en una sesión de voz telefónica. Específicamente, la presente invención permite mejorar la calidad de una señal de salida del decodificador de voz durante períodos de inactividad de voz con ruido estacionario de fondo.
Dentro de esta divulgación, el término sesión de voz debe interpretarse como cualquier intercambio de señales vocales a través de un sistema de telecomunicaciones. En consecuencia, una señal de sesión de voz puede describirse como que comprende una parte activa y una parte de fondo. La parte activa es la señal de voz real de la sesión. La parte de fondo es el ruido que rodea al usuario, también conocido como ruido de fondo. Un período de inactividad se define como un período de tiempo dentro de una sesión de voz donde no hay una parte activa, solo una parte de fondo, por ejemplo, la parte de voz de la sesión está inactiva.
De acuerdo con una realización básica, la presente invención permite mejorar la calidad de una sesión de voz al reducir las variaciones de potencia y las fluctuaciones espectrales de la señal de excitación del filtro de síntesis LPC durante la detección de períodos de inactividad de voz.
De acuerdo con una realización adicional, la señal de salida se mejora aún más combinando la modificación de la señal de excitación con una operación de suavizado de parámetros LPC.
Con referencia al diagrama de flujo de la figura 2, una realización de un método de acuerdo con la presente invención comprende recibir y decodificar S10 una señal representativa de una sesión de voz (es decir, que comprende una componente de voz en forma de señal de voz activa y/o una componente de ruido estacionario de fondo). Posteriormente, se determina un conjunto de parámetros lPc S20 para la señal recibida. Además, se determina una señal de excitación S30 para la señal recibida. Se sintetiza una señal de salida y la salida S40 se basa en los parámetros LPC determinados y la señal de excitación determinada. De acuerdo con la presente invención, la señal de excitación se mejora o modifica S35 reduciendo la potencia y las fluctuaciones espectrales de la señal de excitación para proporcionar una señal de salida suavizada.
Con referencia al diagrama de flujo de la figura 3, se describirá una realización adicional de un método de acuerdo con la presente invención. Los pasos correspondientes conservan los mismos números de referencia que los de la figura 2. Además del paso de modificar la señal de excitación de la realización descrita anteriormente, también el conjunto determinado de parámetros LPC se somete a una operación de modificación S25, por ejemplo, el suavizado de parámetros LPC.
El suavizado de parámetros LPC S25 de acuerdo con una realización adicional de la presente invención, con referencia a la figura 4, comprende realizar el suavizado de parámetros LPC de tal manera que el grado de suavizado esté controlado por algún factor p, que a su vez se deriva de un parámetro denominado factor de ruidosidad.
En un primer paso, se calcula S20 un conjunto filtrado de paso bajo de parámetros LPC. Preferiblemente, esto se realiza mediante filtrado autorregresivo de primer orden de acuerdo con:
Figure imgf000006_0001
Aquí a(n) representa el vector de parámetros LPC filtrado de paso bajo obtenido para una trama n presente, a(n) es el vector de parámetros LPC decodificado para la trama n, y A es un factor de ponderación que controla el grado de suavizado. Una opción adecuada para A es 0,9.
En un segundo paso S25, se calcula una combinación ponderada del vector de parámetros LPC filtrado de paso bajo a(n) y el parámetro decodificado LPC vector a(n) usando el factor de control de suavizado p, de acuerdo con:
Figure imgf000006_0002
Los parámetros LPC pueden estar en cualquier representación adecuada para el filtrado y la interpolación, y preferiblemente se pueden representar como frecuencias espectrales de línea (LSF) o pares espectrales de inmitancia (ISP).
Típicamente, el decodificador de voz puede interpolar los parámetros LPC a través de subtramas en las que preferiblemente también los parámetros LPC filtrados de paso bajo se interpolan en consecuencia. En una realización particular, el decodificador de voz funciona con tramas de 20 ms de longitud y 4 subtramas de 5 ms cada una dentro de una trama. Si el decodificador de voz calcula originalmente los 4 vectores de parámetros LPC de subtrama interpolando entre un vector de parámetros LPC a(n-1) de la trama final de la trama anterior, un vector de parámetros LPC am(n) de la trama media y un vector de parámetros LPC a(n) de la trama final de la trama actual, entonces la combinación ponderada de los vectores de parámetros LPC filtrados de paso bajo y los vectores de parámetros LPC decodificados se calcula de la siguiente manera:
Figure imgf000006_0003
« *(» “ 0 = 0 - /? ) - ° - 5 • {5{n - 1 )+ a {n ) )+ f i am(n - 1) (4)
¿(«) = (l - 0 ) •« («)+ P -cj(n) (5)
Posteriormente, estos vectores de parámetros LPC suavizados se usan para la interpolación en subtrama, en lugar de los vectores de parámetros LPC decodificados originales a(n-1), am(n), y a(n).
Como anteriormente, un elemento importante de la presente invención es la reducción de las fluctuaciones de potencia y espectro de la señal de excitación del filtro LPC durante los períodos de inactividad de voz. De acuerdo con una realización preferida de la invención, la modificación se realiza de modo que la señal de excitación tenga menos fluctuaciones en la inclinación espectral y que se compense esencialmente una inclinación espectral existente.
En consecuencia, los inventores tienen en cuenta y reconocen que muchos códecs de voz (y códecs AbS en particular) no producen necesariamente señales de excitación blancas o sin inclinación. Más bien, optimizan la excitación con el objetivo para que coincida la señal de entrada original con la señal sintetizada, lo que especialmente en el caso de codificadores de voz de tasa baja puede provocar fluctuaciones significativas de la inclinación espectral de la señal de excitación de trama a trama.
La compensación de inclinación se puede hacer con un filtro de compensación de inclinación (o filtro de blanqueamiento) H(z) de acuerdo con:
Figure imgf000007_0001
Los coeficientes de este filtro ai se calculan fácilmente como coeficientes LPC de la señal de excitación original. Una elección adecuada del orden indicador P es 1, en cuyo caso esencialmente se realiza una compensación de inclinación en lugar de un blanqueamiento. En ese caso, el coeficiente se calcula como
Figure imgf000007_0002
donde re(0) y re(1) son los coeficientes cero y primero de autocorrelación de la señal de excitación del filtro de síntesis LPC original.
La operación de compensación de inclinación o blanqueamiento descrita se realiza preferiblemente al menos una vez para cada trama o una vez para cada subtrama.
De acuerdo con una realización particular alternativa, la potencia y las fluctuaciones espectrales de la señal de excitación también pueden reducirse reemplazando una parte de la señal de excitación con una señal de ruido blanco. Para este fin, primero se genera una secuencia aleatoria adecuadamente escalada. El escalado se realiza de modo que su potencia sea igual a la potencia de la señal de excitación o la potencia suavizada de la señal de excitación. Se prefiere el último caso y el suavizado se puede hacer mediante filtrado de paso bajo de estimaciones de la potencia de la señal de excitación o un factor de ganancia de excitación derivado de ella. En consecuencia, un factor de ganancia no suavizado g(n) se calcula como la raíz cuadrada de la potencia de la señal de excitación. Luego se realiza el filtrado de paso bajo, preferiblemente mediante filtrado autorregresivo de primer orden de acuerdo con:
Figure imgf000007_0003
Aquí g(n) representa el factor de ganancia filtrado de paso bajo obtenido para la trama actual n y k es un factor de ponderación que controla el grado de suavizado. Una elección adecuada para k es 0.9. Si la secuencia aleatoria original tiene una potencia normalizada (varianza) de 1, después de escalar la señal de ruido r, su potencia corresponde a la potencia de la señal de excitación o de la potencia suavizada de la señal de excitación. Se observa que la operación de suavizado del factor de ganancia también podría realizarse en el dominio logarítmico de acuerdo con
Figure imgf000007_0004
En el siguiente paso, la señal de excitación se combina con la señal de ruido. Para este fin, la señal de excitación e se escala por algún factor a, la señal de ruido r se escala con algún factor p y luego se agregan las dos señales escaladas:
Figure imgf000007_0005
El factor p puede pero no necesariamente corresponde al factor de control p usado para el suavizado de parámetros LPC. Puede derivarse nuevamente de un parámetro denominado factor de ruidosidad. De acuerdo con una realización preferida, el factor p se elige como 1-a. En ese caso, una elección adecuada para a es 0,5 o mayor, aunque menor o igual a 1. Sin embargo, a menos que a sea igual a 1, se observa que la señal é' tiene una potencia menor que la señal de excitación e. Este efecto a su vez puede causar discontinuidades indeseables en la señal de salida sintetizada en las transiciones entre la inactividad y la voz activa. Para resolver este problema, se debe considerar que e y r generalmente son secuencias aleatorias estadísticamente independientes. En consecuencia, la potencia de la señal de excitación modificada depende del factor a y las potencias de la señal de excitación e y la señal de ruido r, de la siguiente manera:
Figure imgf000008_0001
Por lo tanto, para garantizar que la señal de excitación modificada tenga una potencia adecuada, debe ser ampliada por un factor y:
Figure imgf000008_0002
Bajo el supuesto simplificado (ignorando el suavizado de potencia de la señal de ruido descrita anteriormente) de que la potencia de la señal de ruido y la potencia deseada de la señal de excitación modificada son idénticas a la potencia de la señal de excitación P{e}, se encuentra que el factor y tiene que ser elegido de la siguiente manera:
Figure imgf000008_0003
Una aproximación adecuada es escalar solo la señal de excitación con un factor y pero no la señal de ruido:
é = y - a - e ( \- a ) - r ( 14)
La operación de mezcla de ruido descrita se realiza preferiblemente una vez para cada trama, pero también se puede hacer una vez para cada subtrama.
En el curso de investigaciones minuciosas, se ha encontrado que preferiblemente la compensación de inclinación descrita (blanqueamiento) y la modificación de ruido descrita de la señal de excitación se realizan en combinación. En ese caso, se puede lograr la mejor calidad de la señal de ruido de fondo sintetizada cuando la modificación de ruido funciona con la señal de excitación compensada por inclinación en lugar de la señal de excitación original del decodificador de voz.
Para que el método funcione de manera aún más óptima, puede ser necesario asegurarse de que ni el suavizado del parámetro LPC ni las modificaciones de excitación afecten a la señal de voz activa. De acuerdo con una realización básica y con referencia a la figura 4, esto es posible si la operación de suavizado se activa en respuesta a un VAD que indica la inactividad de voz S50.
Una realización preferida adicional de la invención es su aplicación en un códec de voz escalable. Se puede lograr un rendimiento general mejorado adicional mediante los pasos de adaptar la operación de suavizado descrita del ruido estacionario de fondo a la tasa de bits a la que se decodifica la señal. Preferiblemente, el suavizado solo se realiza en la decodificación de las capas inferiores de tasa baja mientras se apaga (o se reduce) cuando se decodifica a tasas de bits más altas. La razón es que las capas más altas generalmente no sufren tanto el remolino y una operación de suavizado podría incluso afectar la fidelidad a la cual el decodificador vuelve a sintetizar la señal de voz a una tasa de bits más alta.
Con referencia a la figura 5, se describirá una disposición 1 en un decodificador que permite el método de acuerdo con la presente invención.
La disposición 1 comprende una unidad 10 de salida/entrada general I/O para recibir señales de entrada y transmitir señales de salida desde la disposición. La unidad comprende preferiblemente cualquier funcionalidad necesaria para recibir y decodificar señales en la disposición. Además, la disposición 1 comprende una unidad 20 de parámetros LPC para decodificar y determinar parámetros LPC para la señal recibida y decodificada, y una unidad 30 de excitación para decodificar y determinar una señal de excitación para la señal de entrada recibida. Además, la disposición 1 comprende una unidad 35 de modificación para modificar la señal de excitación determinada reduciendo la potencia y las fluctuaciones espectrales de la señal de excitación. Finalmente, la disposición 1 comprende una unidad de síntesis LPC o filtro 40 para proporcionar una señal de salida de voz sintetizada suavizada basada al menos en los parámetros LPC determinados y la señal de excitación determinada modificada. De acuerdo con otra realización, también con referencia a la figura 5, la disposición comprende una unidad 25 de suavizado para suavizar los parámetros LPC determinados a partir de la unidad 20 de parámetros LPC. Además, la unidad 40 de síntesis de LPC está adaptada para determinar la señal de voz sintetizada basada en al menos los parámetros de LPC suavizados y la señal de excitación modificada.
Finalmente, la disposición se puede proporcionar con una unidad de detección para detectar si la sesión de voz comprende una parte de voz activa, por ejemplo, alguien está hablando realmente, o si solo hay un ruido de fondo presente, por ejemplo, uno de los usuarios está en silencio y el móvil solo registra el ruido de fondo. En ese caso, la disposición está adaptada para realizar solo los pasos de modificación si hay una parte inactiva de voz de la sesión de voz. En otras palabras, la operación de suavizado de la presente invención (suavizado de parámetros LPC y/o modificación de la señal de excitación) solo se realiza durante los períodos de inactividad de voz.
Las ventajas de la presente invención comprenden:
Con la presente invención, es posible mejorar la reconstrucción o la calidad de la señal de voz sintetizada de las señales de ruido estacionario de fondo (como el ruido de coches) durante los períodos de inactividad de voz.
Los expertos en la técnica entenderán que pueden realizarse diversas modificaciones y cambios a la presente invención sin apartarse del alcance de la misma, que se define en las reivindicaciones adjuntas.
Referencias
[1] Patente de Estados Unidos 5632004.
[2] Patente de Estados Unidos 5579432.
[3] Patente de Estados Unidos 5487087.
[4] Patente de Estados Unidos 6275798 B1.
[5] 3GPP TS 26.090, Códec de voz AMR; Funciones de transcodificación.
[6] EP 1096476.
[7] EP 1688920.
[8] Patente de Estados Unidos 5953697.
[9] EP 665530 B1.
[10] Murashima A. et al. "Una técnica de procesamiento post-procesamiento para mejorar la calidad de codificación de CELP con ruido de fondo", codificación de voz, 2000. Procedimientos. 2000 IEEE workshop del 17 al 20 de septiembre, 2000, Piscataway, NJ, EE.UU., IEEE, págs. 102-104.

Claims (10)

REIVINDICACIONES
1. - Un método para suavizar ruido de fondo, comprendiendo el método:
recibir y decodificar (S10) una señal codificada que comprende tanto una componente de voz como una componente de ruido de fondo;
determinar (S20) parámetros LPC para dicha señal recibida;
determinar (S30) una señal de excitación para dicha señal recibida;
determinar (S50) si dicha componente de voz está activa o inactiva;
modificar (S35) dicha señal de excitación determinada reduciendo la potencia y las fluctuaciones espectrales de la señal de excitación durante los períodos de inactividad de voz;
sintetizar y emitir (S40) una señal de salida basada en dichos parámetros LPC y dicha señal de excitación; caracterizado por:
suavizar (S25) dicho conjunto determinado de parámetros LPC proporcionando un conjunto filtrado de paso bajo de parámetros LPC y determinando una combinación ponderada de dicho conjunto filtrado de paso bajo y dicho conjunto determinado de parámetros LPC durante períodos de inactividad de voz; y
realizar dicha síntesis y emisión (S40) basándose en dicho conjunto suavizado de parámetros LPC y dicha señal de excitación modificada.
2. - El método de acuerdo con la reivindicación 1, en el que dicho filtrado de paso bajo se realiza mediante filtrado autorregresivo de primer orden.
3. - El método de acuerdo con la reivindicación 1 o 2, en el que dicho paso de modificar dicha señal de excitación comprende realizar una compensación de inclinación de la señal de excitación con un filtro de compensación de inclinación.
4. - El método de acuerdo con cualquiera de las reivindicaciones 1 a 3, en el que dicho paso de modificar dicha señal de excitación comprende reemplazar al menos parte de la señal de excitación con una señal de ruido blanco.
5. - El método de acuerdo con la reivindicación 4, que comprende además escalar una potencia de dicha señal de ruido blanco para que sea igual a la potencia de la señal de excitación determinada o un representante suavizado de la misma, y combinar la señal de excitación determinada y la señal de ruido escalada.
6. - Un aparato, que comprende:
medios (10) para recibir y decodificar una señal codificada que comprende tanto una componente de voz como una componente de ruido de fondo;
medios (20) para determinar los parámetros LPC para dicha señal recibida;
medios (30) para determinar una señal de excitación para dicha señal recibida;
medios (40) para sintetizar una señal de salida basada en dichos parámetros LPC y dicha señal de excitación; caracterizado por:
medios (25) para suavizar dicho conjunto determinado de parámetros LPC proporcionando un conjunto filtrado de paso bajo de parámetros LPC, siendo adaptados dichos medios (25) para determinar una combinación ponderada de dicho conjunto filtrado de paso bajo y dicho conjunto determinado de parámetros LPC durante períodos de inactividad de voz; y siendo dichos medios de síntesis (40) adaptados para sintetizar dicha señal de salida basándose en dicho conjunto modificado de parámetros LPC y dicha señal de excitación modificada.
7. - El aparato de acuerdo con la reivindicación 6, en el que los medios para modificar la señal de excitación comprenden además medios para realizar la compensación de inclinación de la señal de excitación.
8. - El aparato de acuerdo con cualquiera de las reivindicaciones 6 o 7, en el que los medios para modificar la excitación comprenden además medios para reemplazar al menos parte de la señal de excitación con una señal de ruido blanco.
9. - Un decodificador de voz que comprende un aparato de acuerdo con cualquiera de las reivindicaciones 6 a 8.
10. - Una unidad decodificadora en un sistema de telecomunicaciones que comprende un aparato de acuerdo con cualquiera de las reivindicaciones 6 a 8.
ES15175006T 2007-03-05 2008-02-13 Método y disposición para suavizar ruido estacionario de fondo Active ES2778076T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US89299407P 2007-03-05 2007-03-05

Publications (1)

Publication Number Publication Date
ES2778076T3 true ES2778076T3 (es) 2020-08-07

Family

ID=39738501

Family Applications (2)

Application Number Title Priority Date Filing Date
ES15175006T Active ES2778076T3 (es) 2007-03-05 2008-02-13 Método y disposición para suavizar ruido estacionario de fondo
ES08712799.9T Active ES2548010T3 (es) 2007-03-05 2008-02-13 Procedimiento y dispositivo para suavizar ruido de fondo estacionario

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES08712799.9T Active ES2548010T3 (es) 2007-03-05 2008-02-13 Procedimiento y dispositivo para suavizar ruido de fondo estacionario

Country Status (10)

Country Link
US (1) US8457953B2 (es)
EP (3) EP2132731B1 (es)
JP (1) JP5340965B2 (es)
KR (1) KR101462293B1 (es)
CN (1) CN101632119B (es)
AU (1) AU2008221657B2 (es)
ES (2) ES2778076T3 (es)
PL (2) PL2132731T3 (es)
PT (1) PT2945158T (es)
WO (1) WO2008108719A1 (es)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386266B2 (en) 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
EP2502155A4 (en) 2010-11-12 2013-12-04 Polycom Inc SCALABLE AUDIO REPRODUCTION IN A MULTIPORT ENVIRONMENT
HRP20201070T1 (hr) * 2011-11-03 2020-10-30 Voiceage Evs Llc Poboljšanje ne-govornog sadržaja za celp dekoder niskog intenziteta
DK3550562T3 (da) 2013-02-22 2020-11-23 Ericsson Telefon Ab L M Fremgangsmåder og indretninger til DTX-hangover i audiokodning
CN104517611B (zh) 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN106486129B (zh) 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
CN106531175B (zh) * 2016-11-13 2019-09-03 南京汉隆科技有限公司 一种网络话机柔和噪声产生的方法
KR102198598B1 (ko) * 2019-01-11 2021-01-05 네이버 주식회사 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
HUE071538T2 (hu) 2020-06-11 2025-09-28 Dolby Laboratories Licensing Corp Eljárások és eszközök térbeli háttérzaj kódolására és dekódolására egy többcsatornás bemeneti jelben

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
SE470577B (sv) 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
SE501305C2 (sv) 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
JP2906968B2 (ja) * 1993-12-10 1999-06-21 日本電気株式会社 マルチパルス符号化方法とその装置並びに分析器及び合成器
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5487087A (en) 1994-05-17 1996-01-23 Texas Instruments Incorporated Signal quantizer with reduced output fluctuation
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5727125A (en) * 1994-12-05 1998-03-10 Motorola, Inc. Method and apparatus for synthesis of speech excitation waveforms
CN1155139A (zh) * 1995-06-30 1997-07-23 索尼公司 降低语音信号噪声的方法
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP3607774B2 (ja) * 1996-04-12 2005-01-05 オリンパス株式会社 音声符号化装置
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JP3270922B2 (ja) * 1996-09-09 2002-04-02 富士通株式会社 符号化,復号化方法及び符号化,復号化装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
TW326070B (en) 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
US6026356A (en) * 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
JP3223966B2 (ja) * 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6275798B1 (en) 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
JP3417362B2 (ja) * 1999-09-10 2003-06-16 日本電気株式会社 音声信号復号方法及び音声信号符号化復号方法
JP3478209B2 (ja) 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
JP2001142499A (ja) * 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
EP1186100A2 (en) * 2000-01-07 2002-03-13 Koninklijke Philips Electronics N.V. Generating coefficients for a prediction filter in an encoder
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
AU2002218520A1 (en) * 2000-11-30 2002-06-11 Matsushita Electric Industrial Co., Ltd. Audio decoder and audio decoding method
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder

Also Published As

Publication number Publication date
AU2008221657B2 (en) 2010-12-02
WO2008108719A1 (en) 2008-09-12
EP2132731A1 (en) 2009-12-16
PL2132731T3 (pl) 2015-12-31
PL2945158T3 (pl) 2020-07-13
ES2548010T3 (es) 2015-10-13
EP3629328A1 (en) 2020-04-01
CN101632119A (zh) 2010-01-20
US20100114567A1 (en) 2010-05-06
KR101462293B1 (ko) 2014-11-14
EP2132731A4 (en) 2014-04-16
PT2945158T (pt) 2020-02-18
AU2008221657A1 (en) 2008-09-12
CN101632119B (zh) 2012-08-15
KR20090129450A (ko) 2009-12-16
JP5340965B2 (ja) 2013-11-13
JP2010520512A (ja) 2010-06-10
EP2945158B1 (en) 2019-12-25
EP2945158A1 (en) 2015-11-18
US8457953B2 (en) 2013-06-04
EP2132731B1 (en) 2015-07-22

Similar Documents

Publication Publication Date Title
ES2778076T3 (es) Método y disposición para suavizar ruido estacionario de fondo
US10438601B2 (en) Method and arrangement for controlling smoothing of stationary background noise
JP6976934B2 (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
ES2351935T3 (es) Procedimiento y aparato para la cuantificación vectorial de una representación de envolvente espectral.
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
CN103384900B (zh) 在预测编码与变换编码之间交替的低延迟声音编码
ES2955855T3 (es) Generación de señal de banda alta
TW200912897A (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
BRPI0715516A2 (pt) sistemas, mÉtodos e equipamentos para limitar fator de ganho
TW530296B (en) Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
JP2009503559A (ja) レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
EP3132443A1 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN105814629A (zh) 带宽扩展模式选择
ES2688037T3 (es) Aparato y procedimientos de conmutación de tecnologías de codificación en un dispositivo
Gibson Speech coding for wireless communications