ES2327566T3 - Procedimiento y dispositivo para la supresion de ruidos. - Google Patents

Procedimiento y dispositivo para la supresion de ruidos. Download PDF

Info

Publication number
ES2327566T3
ES2327566T3 ES06725716T ES06725716T ES2327566T3 ES 2327566 T3 ES2327566 T3 ES 2327566T3 ES 06725716 T ES06725716 T ES 06725716T ES 06725716 T ES06725716 T ES 06725716T ES 2327566 T3 ES2327566 T3 ES 2327566T3
Authority
ES
Spain
Prior art keywords
celp
tdac
signal
decoded
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06725716T
Other languages
English (en)
Inventor
Martin Gartner
Stefan Schandl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE102005019863A external-priority patent/DE102005019863A1/de
Priority claimed from DE200510032079 external-priority patent/DE102005032079A1/de
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2327566T3 publication Critical patent/ES2327566T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Treating Waste Gases (AREA)
  • Analogue/Digital Conversion (AREA)
  • Surface Acoustic Wave Elements And Circuit Networks Thereof (AREA)
  • Filters And Equalizers (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Procedimiento para la supresión de ruidos (S_OUT) en una señal de audio decodificada por un decodificador híbrido escalable, que se compone de una primera parte de señal decodificada (S_CELP) como parte básica y una segunda parte de señal decodificada (S_TDAC) como parte adicional, caracterizada por las siguientes etapas: a. averiguación de una primera curva envolvente de la energía (ENV_CELP) y una segunda curva envolvente de la energía (ENV_TDAC) de la primera parte de señal decodificada (S_CELP) y de la segunda parte de señal decodificada (S_TDAC); b. formación de un parámetro (R) mediante la formación de la relación entre la primera y la segunda curva envolvente de la energía (ENV_CELP, ENV_TDAC); c. averiguación de un factor de amplificación (G) en función del parámetro (R). d. multiplicación de la segunda parte de señal decodificada (S_TDAC) por el factor de amplificación (G), cuando el parámetro (R) no queda por debajo de un valor de umbral predeterminado.

Description

Procedimiento y dispositivo para la supresión de ruidos.
La invención se refiere a un procedimiento para decodificar una señal que ha sido codificada mediante un codificador híbrido. La invención se refiere además a un dispositivo correspondientemente configurado para la decodificación.
Para codificar señales de audio, han resultado especialmente efectivos distintos procedimientos. Así se ha comprobado por ejemplo que es especialmente favorable para una codificación cualitativamente buena de señales de voz que presentan una buena calidad, con bajas velocidades de bits del flujo de datos codificado a la vez, en particular la llamada tecnología CELP (Code Excited Linear Prediction, predicción lineal activada por código). CELP funciona en la gama de tiempos y se basa en un modelo de activación para un filtro variable. Aquí se representa la señal de voz tanto mediante parámetros de filtro como también mediante parámetros que describen la señal de activación.
La mayoría de las veces se habla en relación con codificadores también del correspondiente decodificador, que puede descifrar o bien decodificar de nuevo los datos codificados. Los correspondientes aparatos de comunicaciones presentan un llamado codec de este tipo, para precisamente poder enviar y recibir datos, lo cual es necesario para una comunicación.
Para la codificación de señales de música y de voz, que han de presentar una calidad muy elevada, en particular también para velocidades de bits altas del flujo de datos codificado, se han impuesto sobre todo los llamados codecs perceptuales (codec = codificador/decodificador). Estos codecs perceptuales se basan en una reducción de la información en la gama de frecuencias y utilizan efectos de enmascaramiento del sistema auditivo humano, es decir, que por ejemplo determinadas frecuencias o variaciones que el ser humano no puede percibir, tampoco se representan. De esta manera se reduce la complejidad del codificador o codec. Puesto que estos codificadores la mayoría de las veces funcionan con una transformación de la señal de tiempo en la gama de frecuencias, realizándose la transformación por ejemplo mediante MDCT (Modified Discrete Cosine Transformation, transformación de coseno discreta modificada), se denominan éstos también a menudo codificadores o codecs de transformación (transformcoder o transformcodecs). Esta expresión se utiliza en el marco de la solicitud que sigue.
Últimamente se utilizan cada vez más los llamados codecs escalables. Los codecs escalables son aquellos codecs que básicamente generan una excelente calidad de audio con una velocidad relativamente alta de bits del flujo de datos codificado. De esta manera resultan paquetes relativamente largos a transmitir periódicamente.
Un paquete es un conjunto de datos que se presentan en un intervalo de tiempo y que se transmiten juntos precisamente en ese paquete. En paquetes se transmiten a menudo datos importantes primeramente y datos menos importantes a continuación. No obstante, en estos paquetes largos existe la posibilidad de acortar estos paquetes, eliminando una parte de los datos, en particular cortando la última parte transmitida del paquete. Ello implica naturalmente un empeoramiento de la calidad.
Debido a las características antes indicadas, se ofrece para codecs escalables la posibilidad de trabajar para bajas velocidades de bits con codecs CELP y para altas velocidades de bits con codecs de transformación. Esto ha llevado al desarrollo de CELP/codecs de transformación híbridos, que codifican una señal de base con buena calidad según el procedimiento CELP y adicionalmente a ello generan una señal adicional según el procedimiento codec de transformación con la que mejora la señal de base. Esto da lugar entonces a la deseada calidad excelente.
Un inconveniente cuando se utiliza este codec de transformación es que se presenta un llamado "efecto de pre-eco". Al respecto se trata de un ruido parasitario que está distribuido uniformemente por toda la longitud del bloque de un bloque de codificador de transformación. Bajo un bloque se entiende un conjunto de datos que se codifican conjuntamente. Para codecs de transformación una longitud típica de bloque es de 40 milisegundos. El ruido parasitario del efecto pre-eco resulta debido a errores de cuantificación de componentes espectrales transmitidos. Cuando el nivel de la señal es uniforme, se encuentra el nivel de este ruido parasitario en todas partes por debajo del nivel de la señal útil. Desde luego si se tiene una señal útil con un nivel cero seguido de un nivel repentinamente alto, entonces puede oírse claramente este ruido parasitario antes de entrar el nivel alto. En la literatura se tiene un ejemplo conocido para ello en la evolución de la señal al batir una castañuela.
Para reducir este efecto se utilizan ya distintos procedimientos. Pero estos trabajan todos con la transmisión de informaciones adicionales, lo cual configura un diseño de codificador muy complejo, o fuerza a que los codificadores tengan que trabajar con velocidades de bits transitoriamente elevadas.
Por ejemplo el documento EP 1335353 (NTT Bocomo, Inc), 13 agosto 2003, da a conocer un procedimiento para la supresión de ruidos en una señal decodificada que se compone de una primera parte de señal y una segunda parte de señal decodificada.
Partiendo de este estado de la técnica, es tarea de la presente invención lograr una posibilidad fácil de reducir los ruidos parasitarios en señales codificadas mediante un codificador híbrido, en el que no se necesite ninguna información adicional.
Esta tarea se resuelve mediante el objeto de las reivindicaciones independientes. Ventajosos perfeccionamientos son objeto de las reivindicaciones subordinadas.
Para esta reducción de ruidos parasitarios en una señal decodificada que se compone de una primera señal que procede de un primer decodificador, por ejemplo de un decodificador CELP, y una segunda señal que procede de un segundo decodificador, por ejemplo de un decodificador de transformación, se realizan los siguientes pasos:
A partir de ambas partes de señal decodificadas, se averigua en cada caso la correspondiente curva envolvente de la energía. Bajo curva envolvente de la energía se entiende en particular la evolución de la energía de una señal respecto al tiempo.
A partir de una comparación de ambas curvas envolventes, se forma un parámetro, por ejemplo una relación.
Este parámetro sirve a su vez para deducir un factor de amplificación.
Este procedimiento presenta en particular ventajas cuando se averigua de manera fiable la energía por ejemplo en el procedimiento de codificación que da lugar a la primera parte de señal decodificada. Entonces puede averiguarse, precisamente mediante el parámetro o el factor de amplificación, una desviación.
En particular puede multiplicarse la segunda parte de señal decodificada por el factor de amplificación. De esta manera puede corregirse la desviación antes citada.
Todas las señales pueden estar divididas en tramos de tiempo, pudiendo ser en particular los tramos de tiempo que se utilizan para la primera parte de señal decodificada más cortos que los de la segunda.
Con ello pueden corregirse mejor las desviaciones de energía en la segunda parte de señal, debido a la mayor resolución en cuanto a tiempo.
La primera parte de señal puede proceder de un decodificador CELP, que decodifica una señal codificada en CELP, y la segunda de un decodificador de transformación que decodifica una señal codificada con transformación. Esta señal codificada con transformación puede contener en particular también la primera parte de señal codificada en CELP, que tras la decodificación ha sido codificada con transformación, que ha sido añadida a la señal codificada con transformación transmitida por el emisor (es decir, ya en la gama de frecuencias) y a continuación se decodifica en el decodificador de transformación como parte relativa a la segunda parte de la señal.
Alternativamente a ello, puede formarse una suma a partir de la señal codificada en CELP transmitida y de la señal codificada con transformación transmitida también en la gama de tiempos.
El factor de amplificación puede ser en particular igual al parámetro, ya que en la formación de una relación adecuada puede resultar la correspondiente debilitación de la segunda parte de señal decodificada, cuando ésta contiene en especial el ruido de pre-eco.
En particular el primer decodificador puede ser uno basado en la tecnología CELP o/y el segundo codificador ser un decodificador de transformación. Con ello resulta una reducción del ruido especialmente efectiva, con una calidad excelente a la vez de la señal decodificada.
La modificación de la señal total recibida en el lado decodificador puede realizarse en particular solamente cuando existen determinados criterios.
En particular está previsto que la modificación de la señal total recibida en el lado decodificador sólo se realice cuando la variación del nivel de señal sobrepase un determinado umbral. Esto posibilita una reducción del pre-eco especialmente efectiva, ya que el efecto de pre-eco - tal como ya se ha explicado - se presenta principalmente en variaciones de nivel, ya que entonces el ruido de pre-eco se encuentra por encima del nivel de la señal. Por otro lado, mediante esta modificación selectiva no se renuncia innecesariamente a la mejora de calidad debida al segundo codificador.
Según otro aspecto de la invención, se logra un procedimiento en el que construyendo sobre la base del procedimiento descrito, la señal decodificada o bien sus primeras y segundas partes de señal decodificadas se tratan separadamente por gamas de frecuencias. Esto tiene la siguiente ventaja. Al decodificar se conoce para varias bandas de frecuencias la energía de consigna para estas bandas de frecuencias, precisamente a partir de la energía de las distintas primeras partes de señal decodificadas separadamente por gamas de frecuencias, por ejemplo señales CELP. Mediante la segunda parte de señal decodificada puede proporcionarse ahora una señal add-on (parte adicional), que no obstante puede tener una energía bastante diferente. Sobre todo es problemático que la energía de la segunda parte de señal decodificada sea demasiado alta en exceso, por ejemplo debido a efectos de pre-eco. El procedimiento introduce entonces para cada banda de frecuencias tratada separadamente una limitación de la energía (o bien del nivel) de la segunda parte de señal, en función de la energía de la primera parte de señal. Este procedimiento es tanto más efectivo cuanto más bandas de frecuencias se tratan separadamente de esta manera.
Otras ventajas de la invención se describirán en base a formas de ejecución a modo de ejemplo.
Se muestra en:
figura 1 una representación de los componentes esenciales en un lado codificador y un lado decodificador para describir la secuencia a modo de ejemplo de un proceso de codificación/decodificación;
figura 2 una representación esquemática de una configuración de comunicaciones para transmitir una señal codificada entre aparatos de comunicaciones a través de una red de comunicaciones;
figura 3 un equipo decodificador o bien un equipo de supresión de ruidos para describir la reducción de pre-ecos con ayuda de una adaptación de la ganancia, que se basa en una señal CELP;
figura 4 otra forma de ejecución para la adaptación del nivel o bien para la reducción de pre-ecos.
En la figura 1 se muestra esquemáticamente la secuencia de un proceso de codificación y decodificación en base a una forma de ejecución. En el lado codificador C se prepara previamente o bien se prepara una señal analógica S a transmitir a un receptor mediante un equipo de preparación previa PP para la codificación, por ejemplo digitalizándola. Se realiza además un fraccionamiento de la señal en tramos de tiempos o bien tramas en una unidad divisora F. Una señal así preparada se lleva a una unidad codificadora COD. La unidad codificadora COD presenta un codificador híbrido, que incluye un primer codificador, un codificador CELP COD1, y un segundo codificador, un codificador de transformación COD2. El codificador CELP COD1 incluye un conjunto de codificadores CELP COD1_A, COD1_B, COD1_C, que funcionan en diferentes gamas de frecuencias. Mediante este reparto en distintas gamas de frecuencias puede asegurarse una codificación especialmente precisa. Además, esta división en distintas gamas de frecuencias apoya muy bien el concepto de un codec escalable, ya que en función de la escalación deseada sólo pueden transmitirse una, varias o todas las gamas de frecuencias. El codificador CELP COD1 aporta una parte básica S_G a la señal completa S_GES codificada. El codificador de transformación COD2 aporta una parte adicional S_Z a la señal total S_GES codificada. La señal total S_GES codificada se transmite mediante un dispositivo de comunicación KC en el lado codificador C a un dispositivo de comunicación KD en un lado decodificador D. Aquí se realiza dado el caso un procesamiento (por ejemplo un fraccionamiento de la señal codificada recibida completa en las partes S_G y S_Z) de los datos o bien de la señal total S_GES codificada recibida en un equipo del procesamiento PROC, transmitiéndose a continuación los datos procesados o bien la señal procesada a un equipo decodificador DEC para la siguiente decodificación DEC (ver al respecto también las figuras 3 y 4). A la decodificación le sigue una reducción del ruido en un equipo de reducción de ruidos NR, que se representa con mayor detalle en la figura 3.
En la figura 2 se representa un primer aparato de comunicaciones COM1 (que por ejemplo representar los componentes del lado codificador C de la figura 1), que presenta una unidad emisora y receptora ANT1 (por ejemplo correspondiente al dispositivo de comunicaciones KC) para transmitir o/y recibir datos, así como una unidad de cálculo CPU1, equipada para realizar los componentes en el lado codificador C o bien para realizar el procedimiento de codificación representado en la figura 1 (procesamiento en el lado codificador C). La transmisión de datos se realiza mediante la unidad emisora/receptora ANT1 a través de una red de comunicaciones CN (que puede estar equipada por ejemplo, en función de los aparatos de comunicaciones a utilizar, como Internet, como una red telefónica o como una red de telefonía móvil). La recepción se realiza mediante un segundo aparato de comunicaciones COM2 (que por ejemplo representa los componentes del lado derecho de la figura 1), que a su vez presenta una unidad emisora y receptora ANT2 (por ejemplo correspondiente al dispositivo de comunicaciones KB), así como una unidad de cálculo CPU2, que está equipada para realizar los componentes en el lado decodificador D o bien para realizar un procedimiento de decodificación (procesamiento en el lado decodificador D) según la figura 1. Ejemplos de posibles realizaciones de los aparatos de comunicaciones COM1 y COM2 en los que puede utilizarse este procedimiento, son teléfonos IP, Voice-Gateways (pasarelas de voz) o teléfonos móviles.
Vayamos ahora a la figura 3, en la que puede observarse el equipo decodificador DEC y el equipo de reducción de ruidos NR con los componentes esenciales para la representación esquemática de la secuencia de una reducción pre-eco. Una señal codificada en CELP S_COD,CELP (correspondiente a la señal S_G) se decodifica mediante un decodificador CELP de banda completa DEC_GES,CELP. La señal decodificada S_CELP se retransmite por un lado a una (primera) unidad de determinación de la curva envolvente de la energía GE1 para determinar la correspondiente curva envolvente ENV_CELP, y por otro lado a un codificador TDAC (Time domain aliasing cancellation, cancelación del aliasing del dominio del tiempo; aliasing = superposición periódica sucesiva) COD_TDAC. La codificación TDAC es un ejemplo de una codificación de transformación.
La señal codificada S_COD,CELP,TDAC se conduce, juntamente con la señal codificada con transformación S_COD,TDAC (correspondiente a la señal S_Z) que procede del lado receptor, a un codificador de transformación DEC_TDAC, para generar una señal decodificada S_TDAC. También a partir de esta señal decodificada S_TDAC se determina igualmente en una (segunda) unidad de determinación de la curva envolvente de la energía GE2 la correspondiente curva envolvente de la energía ENV_TDAC. En una unidad de determinación de relación D se determina la relación R entre las curvas envolventes de la energía como parámetro por tramos de tiempos. En una unidad de detección de las condiciones BFE se detecta si la relación R tiene una distancia mínima fijada de 1 (1: ambas curvas envolventes de la energía son iguales), es decir, que los niveles de ambas señales son iguales o al menos difieren entre sí sólo en un porcentaje predeterminado.
El resultado es entonces un factor de amplificación o bien un factor de atenuación G, que en el ejemplo mostrado es igual a la relación R (parámetro), con el que la parte de señal S_TDAC codificada con transformación se multiplica en un equipo de multiplicación M, para obtener una señal final con ruidos parasitarios reducidos S_OUT. Dicho con más precisión, si se parte por ejemplo de que la relación R se forma mediante R = ENV_CELP/ENV_TDAC, y que se ha fijado que esta relación no debe ser inferior a un valor de umbral SW predeterminado, entonces, cuando no se llega al valor de umbral SW, se multiplica la parte de señal S_TDAC codificada con transformación por un factor de amplificación G, por ejemplo G = R, lo cual da lugar a una atenuación de la parte de señal S_TDAC. Además es posible, en el caso de que no se esté por debajo del valor de umbral SW, asignar al factor de amplificación G el valor "1", con lo que al multiplicar la parte de señal S_TDAC, multiplicación que ha de tener lugar en cualquier caso, el valor S_TDAC permanece invariable.
Así, en el caso de una desviación de la energía de la parte de señal S_TDAC codificada con transformación, siendo la desviación precisamente la del citado efecto pre-eco, la energía o bien el nivel de esta parte de señal se mueve hacia el valor más fiable de la señal S_CELP decodificada con CELP, con lo que la señal definitiva S_out está reducida en cuanto a ruido parasitario.
Vayamos ahora a la figura 4, en base a la que se describirá otra forma constructiva para reducir el efecto de pre-eco.
Es posible que en lugar de sólo un codec CELP existan varios codecs separados por gamas de frecuencias (CELP u otros). La forma de ejecución mostrada en la figura 4 corresponde en su mayor parte a la forma de ejecución mostrada en la figura 3 y representa una ampliación en el sentido de que el procedimiento mostrado en la figura 3 no se utiliza sobre las señales completas de decodificadores CELP (u otros) y decodificadores de transformación, sino que el procedimiento se utiliza separadamente por gamas de frecuencias. Es decir, tiene lugar primeramente un reparto de la señal completa o bien de las distintas partes de señal por gamas de frecuencias, pudiendo utilizarse el procedimiento de la figura 3 entonces por cada gama de frecuencias sobre las distintas partes de señal.
Las ventajas de ello se describirán a continuación. En el decodificador se conoce para varias bandas de frecuencias la energía de consigna para estas bandas de frecuencias, precisamente a partir de la energía de las distintas señales CELP separadas por gamas de frecuencias. El decodificador de transformación aporta ahora una señal add-on (parte adicional), pero que puede tener una energía bastante diferente. Sobre todo es problemático que la energía de la señal del decodificador de transformación sea demasiado elevada en un valor considerable, por ejemplo debido a efectos de pre-eco. El procedimiento introduce ahora para cada banda de frecuencias tratada individualmente una limitación de la energía de codec de transformación, en función de la energía CELP. Este procedimiento es tanto más efectivo cuanto más bandas de frecuencias se traten separadamente de esta manera.
Esto queda claro inmediatamente en base al siguiente ejemplo:
La señal total está compuesta por un sonido de 2000 Hz, que procede por completo de la componente codec CELP. Adicionalmente, debido a los efectos de pre-eco, aporta el codec de transformación ahora adicionalmente una señal parasitaria con una frecuencia de 6000 Hz; supongamos que la energía de la señal parasitaria es un 10% de la energía del sonido de 2000 Hz. Supongamos que el criterio para limitar la componente de codec de transformación es que la misma pueda ser como máximo tan grande como la componente CELP.
Caso 1: no se realiza ningún fraccionamiento (splitting) por bandas de frecuencias (primera forma constructiva): A continuación no se suprime la señal parasitaria de 6000 Hz, ya que sólo tiene un 10% de la energía del sonido de 2000 Hz procedente del codec CELP.
Caso 2: las bandas de frecuencias A: 0-4000 Hz y B: 4000 Hz-8000 Hz, se tratan separadamente (otra forma constructiva): en este caso se suprime por completo la señal parasitaria, ya que en la banda de frecuencias superior la componente CELP es cero, y con ello también la señal del codec de transformación queda limitada al valor cero.
En la figura 4 puede observarse ahora (en correspondencia con la figura 3) de nuevo un equipo decodificador DEC y un equipo de reducción del ruido NR con los componentes esenciales para la representación esquemática de la secuencia de una adaptación de nivel o bien reducción de pre-eco. Respecto a la generación de señales codificadas o bien la transmisión a un receptor, remitimos de nuevo a las figuras 1 o 2.
Una señal codificada en CELP S_COD,CELP (correspondiente a la parte de señal S_G) se decodifica mediante un decodificador CELP de banda completa DEC_GES,CELP'. El decodificador CELP de banda completa incluye entonces dos equipos decodificadores, un primer equipo decodificador DEC_FB_A para decodificar la señal S_COD,CELP en una primera banda de frecuencias A y un segundo equipo decodificador DEC_FB_B para decodificar la señal S_COD,CELP en una segunda banda de frecuencias B. Una primera señal decodificada S_CELP_A se conduce a una (primera) unidad de determinación de la curva envolvente de la energía GE1_A para determinar la correspondiente curva envolvente ENV_CELP_A, mientras que una segunda señal decodificada S_CELP_B se conduce a una (segunda) unidad de determinación de la curva envolvente de la energía GE1_B para determinar la correspondiente curva envolvente ENV_CELP_B.
\newpage
Una señal codificada con transformación S_COD,TDAC procedente del lado receptor (correspondiente a la señal S_Z) se conduce a un codificador de transformación DEC_TDAC, para generar una señal decodificada S_TDAC, que a su vez se lleva a un fraccionador (splitter) de banda de frecuencias FBS. Este divide la señal S_TDAC en dos señales, a saber, S_TDAC_A para la banda de frecuencias A y S_TDAC_B para la banda de frecuencias B. La división en bandas de frecuencias puede realizarse opcionalmente también en la gama de frecuencias antes de la transformación inversa en la gama de tiempos. De esta manera se suprime en particular el retardo inherente a un fraccionador de banda de frecuencias (filtro pasoalto, pasobajo o pasabanda) que funciona en la gama de tiempos. También a partir de estas señales S_TDAC_A y S_TDAC_B decodificadas y dependientes de la banda de frecuencias se determina igualmente en una (tercera) unidad de determinación de la curva envolvente de la energía GE2_A o bien en una (cuarta) unidad de determinación de la curva envolvente de la energía GE2_B la correspondiente curva envolvente de la energía ENV_TDAC_A y ENV_TDAC_B, respectivamente.
En una primera unidad de determinación de la amplificación BD_A se determina para la banda de frecuencias A en base a las curvas envolventes de la energía ENV_CELP_A y ENV_TDAC_A un factor de amplificación (o también un factor de atenuación, ya que la amplificación es negativa) G_A, mientras que en una segunda unidad de determinación de la amplificación BD_B se determina para la banda de frecuencias B en base a las curvas envolventes de la energia ENV-CELP_B y ENV_TDAC-B un factor de amplificación (factor de atenuación) G_B. La determinación de los correspondientes factores de amplificación puede realizarse en función de la determinación de la figura 3 (ver al respecto los componentes D, BFE). Puede formarse por ejemplo de nuevo la correspondiente relación (parámetro) R_A, R_B de las curvas envolventes de la energía para la correspondiente banda de frecuencias A y B, es decir, R_A = ENV_CELP_A/ENV_TDAC_A y R_B = ENV_CELP_B/ENV_TDAC_B, respectivamente, determinándose para la correspondiente banda de frecuencias un valor de umbral SW_A y SW_B respectivamente, tal que cuando se sobrepasa hacia abajo se genera el correspondiente factor de amplificación G_A (por ejemplo G_A = R_A) o bien G_B (por ejemplo G_B = R_B) que finalmente ha de aplicarse sobre la señal correspondiente dependiente de la banda de frecuencias S_TDAC_A o bien S_TDAC_B (para provocar una atenuación). Si no se sobrepasa hacia abajo el correspondiente valor de umbral, puede determinarse para el correspondiente factor de amplificación G_A o bien G_B el valor "1", con lo que cuando se realiza una multiplicación permanece invariable la correspondiente señal que depende de la banda de frecuencias S_TDAC_A y S_TDAC_B respectivamente.
En un primer equipo multiplicador M_A para la banda de frecuencias A se multiplica finalmente el factor de amplificación G_A por la señal S_TDAC_A y se multiplica el factor de amplificación G_B por la señal S_TDAC_B. Finalmente se reúnen las señales dependientes de la frecuencia multiplicadas (eventualmente atenuadas), para lograr una señal (de frecuencia total) definitiva reducida en cuanto a ruidos parasitarios S_OUT'.
Señalemos que aún cuando en el presente ejemplo se ha realizado solamente un fraccionamiento de las partes de señal decodificadas S_CELP_A, S_CELP_B, S_TDAC_A y S_TDAC_B en dos gamas de frecuencias A y B, es posible y puede ser ventajoso un fraccionamiento también en tres o más gamas de frecuencias.

Claims (12)

1. Procedimiento para la supresión de ruidos (S_OUT) en una señal de audio decodificada por un decodificador híbrido escalable, que se compone de una primera parte de señal decodificada (S_CELP) como parte básica y una segunda parte de señal decodificada (S_TDAC) como parte adicional, caracterizada por las siguientes etapas:
a.
averiguación de una primera curva envolvente de la energía (ENV_CELP) y una segunda curva envolvente de la energía (ENV_TDAC) de la primera parte de señal decodificada (S_CELP) y de la segunda parte de señal decodificada (S_TDAC);
b.
formación de un parámetro (R) mediante la formación de la relación entre la primera y la segunda curva envolvente de la energía (ENV_CELP, ENV_TDAC);
c.
averiguación de un factor de amplificación (G) en función del parámetro (R).
d.
multiplicación de la segunda parte de señal decodificada (S_TDAC) por el factor de amplificación (G), cuando el parámetro (R) no queda por debajo de un valor de umbral predeterminado.
2. Procedimiento según una de las reivindicaciones precedentes, en el que las partes de señal decodificadas (S_TDAC, S_CELP) están divididas en tramos del tiempo y las etapas a) a d) se realizan por tramos de tiempos.
3. Procedimiento según la reivindicación 2, en el que la longitud de los tramos de tiempos para la primera y la segunda parte de señal decodificadas (S_TDAC, S_CELP) es distinta y las etapas a) a d) se realizan por tramos de tiempos para el tramo de tiempo más corto.
4. Procedimiento según una de las reivindicaciones precedentes, en el que la primera parte de señal decodificada (S_CELP) procede de la decodificación de una primera parte de codificación (S_COD,CELP) de un primer decodificador (DEC_GES, CELP) y la segunda parte de señal decodificada (S_TDAC) procede de la decodificación de una segunda parte de código (S_COD,TDAC,S_COD,CELP,TDAC) de un segundo decodificador (DEC_TDAC).
5. Procedimiento según la reivindicación 4, en el que la segunda parte del codificador (S_TDAC) contiene la primera parte del codificador (S_CELP).
6. Procedimiento según una de las reivindicaciones precedentes, en el que el factor de amplificación (G) es igual al parámetro (R).
7. Procedimiento según una de las reivindicaciones precedentes, en el que la primera señal decodificada (S_CELP) se forma mediante decodificación de una señal (S_COD,CELP) que procede de múltiples primeros codificadores (COD1_A,COD1_B,COD1_C), que funcionan en diferentes frecuencias.
8. Procedimiento según una de las reivindicaciones precedentes 4 o 5, en el que el primer decodificador
(DEC_GES_CELP) está formado por un decodificador CELP.
9. Procedimiento según una de las reivindicaciones precedentes 4, 5 u 8, en el que el segundo decodificador (DEC_TDAC) está formado por un decodificador de transformación.
10. Procedimiento según una de las reivindicaciones precedentes 4, 5, 8 ó 9, en el que el primer y el segundo decodificador (DEC_TDAC, DEC_CELP) abarcan la misma gama de frecuencias.
11. Procedimiento para la supresión de ruidos en una señal de audio decodificada por un decodificador híbrido escalable, asociada a una banda de frecuencias, compuesta por la correspondiente primera parte de señal decodificada (S-CELP-A, S_CELP_B) como parte de base y una correspondiente segunda parte de señal decodificada (S_TDAC-A, S_TDAC_B) como parte adicional, para la correspondiente banda parcial de frecuencias de la banda de frecuencias,
caracterizada por las siguientes etapas:
a.
averiguación de una primera curva envolvente de la energía (ENV_CELP_A, ENV_CELP_B) de la correspondiente primera parte de señal decodificada y una segunda curva envolvente de la energía (ENV_TDAC_A, ENV_TDAC_B) y de la correspondiente segunda parte de señal decodificada para una banda parcial de frecuencias correspondiente;
b.
formación de un parámetro correspondiente (R_A, R_B) mediante la formación de la relación entre la primera y la segunda curva envolvente de la energía para una banda parcial de frecuencias correspondiente;
c.
deducción de un factor de amplificación correspondiente (G_A, G_B) en función del correspondiente parámetro para una banda parcial de frecuencias correspondiente;
d.
multiplicación de la segunda parte de señal decodificada (S_TDAC_A, S_TDAC_B) por el correspondiente factor de amplificación (G_A, G_B) para una banda parcial de frecuencias correspondiente, cuando el correspondiente parámetro (R_A, R_B) no es inferior a un valor de umbral predeterminado.
12. Dispositivo, en particular aparato de comunicaciones, con una unidad de cálculo (CPU2), configurada para ejecutar un procedimiento según la reivindicación 1 a 11.
ES06725716T 2005-04-28 2006-04-12 Procedimiento y dispositivo para la supresion de ruidos. Active ES2327566T3 (es)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
DE102005019863 2005-04-28
DE102005019863A DE102005019863A1 (de) 2005-04-28 2005-04-28 Verfahren und Vorrichtung zur Geräuschunterdrückung
DE102005028182 2005-06-17
DE102005028182 2005-06-17
DE102005032079 2005-07-08
DE200510032079 DE102005032079A1 (de) 2005-07-08 2005-07-08 Verfahren und Vorrichtung zur Geräuschunterdrückung

Publications (1)

Publication Number Publication Date
ES2327566T3 true ES2327566T3 (es) 2009-10-30

Family

ID=36621841

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06725716T Active ES2327566T3 (es) 2005-04-28 2006-04-12 Procedimiento y dispositivo para la supresion de ruidos.

Country Status (11)

Country Link
US (1) US8612236B2 (es)
EP (2) EP1953739B1 (es)
JP (1) JP4819881B2 (es)
KR (1) KR100915726B1 (es)
AT (1) ATE435481T1 (es)
CA (1) CA2574468C (es)
DE (1) DE502006004136D1 (es)
DK (1) DK1869671T3 (es)
ES (1) ES2327566T3 (es)
PL (1) PL1869671T3 (es)
WO (1) WO2006114368A1 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2897733A1 (fr) * 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
RU2481650C2 (ru) * 2008-09-17 2013-05-10 Франс Телеком Ослабление опережающих эхо-сигналов в цифровом звуковом сигнале
JP5295380B2 (ja) 2009-10-20 2013-09-18 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
MY166169A (en) * 2009-10-20 2018-06-07 Fraunhofer Ges Forschung Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation
CA2778373C (en) * 2009-10-20 2015-12-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN101908342B (zh) * 2010-07-23 2012-09-26 北京理工大学 利用频域滤波后处理进行音频暂态信号预回声抑制的方法
US8615394B1 (en) * 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US9668048B2 (en) 2015-01-30 2017-05-30 Knowles Electronics, Llc Contextual switching of microphones
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
DE19736669C1 (de) 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US6169971B1 (en) * 1997-12-03 2001-01-02 Glenayre Electronics, Inc. Method to suppress noise in digital voice processing
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6442275B1 (en) * 1998-09-17 2002-08-27 Lucent Technologies Inc. Echo canceler including subband echo suppressor
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
CN1149534C (zh) * 1998-12-07 2004-05-12 三菱电机株式会社 声音解码装置和声音解码方法
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
WO2003038812A1 (en) 2001-11-02 2003-05-08 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
JP4290917B2 (ja) * 2002-02-08 2009-07-08 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法、及び、符号化方法
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
KR100547113B1 (ko) 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
WO2005017878A1 (en) * 2003-08-18 2005-02-24 Koninklijke Philips Electronics N.V. Clicking noise detection in a digital audio signal
ATE429698T1 (de) * 2004-09-17 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten tonsignalen
CA2603229C (en) * 2005-04-01 2012-07-31 Qualcomm Incorporated Method and apparatus for split-band encoding of speech signals

Also Published As

Publication number Publication date
CA2574468C (en) 2014-01-14
PL1869671T3 (pl) 2009-12-31
KR20070062493A (ko) 2007-06-15
DE502006004136D1 (de) 2009-08-13
US20070282604A1 (en) 2007-12-06
WO2006114368A1 (de) 2006-11-02
EP1869671A1 (de) 2007-12-26
JP4819881B2 (ja) 2011-11-24
CA2574468A1 (en) 2006-11-02
EP1953739A2 (de) 2008-08-06
EP1869671B1 (de) 2009-07-01
KR100915726B1 (ko) 2009-09-04
JP2008539456A (ja) 2008-11-13
EP1953739A3 (de) 2008-10-08
DK1869671T3 (da) 2009-10-19
US8612236B2 (en) 2013-12-17
ATE435481T1 (de) 2009-07-15
EP1953739B1 (de) 2014-06-04

Similar Documents

Publication Publication Date Title
ES2327566T3 (es) Procedimiento y dispositivo para la supresion de ruidos.
ES2286798T3 (es) Dispositivo y procedimiento para procesar una señal multicanal.
JP6185530B2 (ja) 符号化/復号化方法および符号化/復号化デバイス
JP4810335B2 (ja) 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
JP4166673B2 (ja) 相互使用可能なボコーダ
ES2413807T3 (es) Método y aparato para procesar una señal de audio
CN1135759C (zh) 语音译码器中计算挂起周期的方法、语音编码器和收发机
ATE521961T1 (de) Verfahren und einrichtung zur sprachcodierung mit niedriger bitrate
DK0931386T3 (da) Fremgangsmåde til signalisering af en støjsubstitution ved kodning af et audiosignal
ATE424606T1 (de) Individuelle kanaltemporäre enveloppenformung für binaurale hinweiscodierungsverfahren und dergleichen
JP2008519991A5 (es)
EP1061503A2 (en) Error detection and error concealment for encoded speech data
WO2006030340A3 (en) Combined audio coding minimizing perceptual distortion
RU2006139793A (ru) Кодирование сигнала
AU2013366552B2 (en) Comfort noise addition for modeling background noise at low bit-rates
JP2004310088A (ja) 半レート・ボコーダ
KR19990037152A (ko) 부호화 방법 및 장치 및 복호화 방법 및 장치
US8775166B2 (en) Coding/decoding method, system and apparatus
CN101764666B (zh) 语音加密的方法及装置、语音解密的方法及装置
ES2850224T3 (es) Método para estimar ruido en una señal de audio, estimador de ruido, codificador de audio, decodificador de audio, y sistema para transmitir señales de audio
ES2400987T3 (es) Atenuación de pre-ecos en una señal de audio digital
US20140310009A1 (en) Signal codec device and method in communication system
RU2351024C2 (ru) Способ и устройство для подавления шумов
JP4985743B2 (ja) 音声符号変換方法
CN1993734A (zh) 噪声抑止的方法和设备