ES2333873T3

ES2333873T3 - Sistema y procedimiento para audio estereo mejorado.

Info

Publication number: ES2333873T3
Application number: ES04808892T
Authority: ES
Inventors: Trygve Frederik Marton; Ingvar Flaten Aarnes; Bjorn Winsvold; Geir Ole Overby
Original assignee: Tandberg Telecom AS
Current assignee: Tandberg Telecom AS
Priority date: 2003-12-23
Filing date: 2004-12-22
Publication date: 2010-03-02
Anticipated expiration: 2024-12-22
Also published as: EP1698159B1; NO20035796L; CN1898944A; DE602004023968D1; WO2005062595A1; JP4417390B2; US20050157866A1; ATE447824T1; NO320942B1; EP1698159A1; JP2007515911A; US7477735B2

Abstract

Cancelador de eco de audio ajustado para proporcionar una señal de salida atenuada de eco a partir de una señal de entrada añadida de eco incluye audio de un extremo cercano además de audio de un extremo lejano, añadiendo una contribución de eco, comprendiendo un módulo que genera una primera señal de salida de módulo (5134), configurado por lo menos para implementar un primer modelo adaptativo (5121) de eco acústico, convergiendo para minimizar una parte mono de la contribución de eco en la primera señal de salida de módulo (5134) cuando se proporciona una estimación de eco mono y se resta la estimación de eco mono (5133) de la señal de entrada añadida de eco, creando la primera señal de salida de módulo (5134), y por lo menos un módulo que genera una segunda señal de salida (5136), configurado por lo menos para implementar un segundo modelo adaptativo (5129), que converge para minimizar una parte de audio de múltiples componentes de la contribución de eco en la segunda señal de salida del módulo (5136) cuando se proporciona una estimación de la parte de múltiples componentes (5138) desde la primera señal de salida del módulo (5134), creando la segunda señal de salida del módulo (5136), caracterizado por uno o más detectores de audio de múltiples componentes configurados para detectar si está presente audio de múltiples componentes en el audio del extremo alejado, y en el que el primer modelo adaptativo (5121) está configurado para suspender la convergencia cuando dicho uno con más detector de audio de múltiples componentes detecta substancialmente audio de múltiples componentes en el audio del extremo alejado, y un segundo modelo adaptativo (5129) está configurado para suspender la convergencia cuando dicho uno o más detector de audio de múltiples componentes no detecta substancialmente ningún audio de múltiples componentes en el audio del extremo alejado, o una unidad de procesamiento miscelánea (5122) que monitorizar el audio del extremo alejado y del extremo cercano configurada para atenuar la primera o la segunda señal de salida del módulo (5134, 5136) en eventos de presencia de audio del extremo alejado/extremo cercano de definidos que se activa cuando dicho uno o más detector de audio de múltiples componentes no detecta substancialmente ningún audio de múltiples componentes en el audio del extremo alejado.

Description

Sistema y procedimiento para audio estéreo mejorado.

Campo de la invención

La presente invención se refiere a un sistema de comunicación de audio y a un procedimiento con características acústicas mejoradas, y particularmente a un sistema de conferencias que incluye un sistema de cancelación de eco de audio mejorado.

Antecedentes de la invención

En un ajuste de un sistema de conferencias convencional que utiliza altavoces, se colocan dos o más unidades de comunicación en sitios separados. Una señal transmitida desde un sitio a otro sitio usando un sistema de conferencia experimenta varios retrasos, incluyendo estos retrasos un retraso de transmisión y un retraso de procesamiento. Para un sistema de conferencia de video, el retraso de procesamiento de las señales de video es considerablemente mayor que el retraso de procesamiento para las señales de audio. Como las señales de video y audio se han de presentar simultáneamente, en fase, se introduce a propósito un retraso de sincronización de los labios a la señal de audio, en las trayectorias de transmisión y recepción de la señal para compensar el mayor retraso de la señal de video.

En un sistema de conferencia convencional, uno o más micrófonos capturan una onda de sonido en un sitio A, y transforma la onda sonora en una primera señal de audio. La primera señal de audio se transmite a un sitio B, donde un juego de televisión o un amplificador y altavoz, reproduce la onda sonora original convirtiendo la primera señal de audio generada en el sitio A en la onda sonora. La onda sonora producida en el sitio B se captura parcialmente mediante el sistema de audio en el sitio B, se convierte en una segunda señal de audio, y se transmite de vuelta al sistema en el sitio A. Este problema de tener una onda sonora capturada en un sitio, transmitida a otro sitio, y a continuación transmitida de vuelta al sitio inicial se indica como eco acústico. En su manifestación más severa, el eco acústico podría provocar sonido de retroalimentación, cuando la ganancia de bucle excede la unidad. El eco acústico también provoca que los participantes en los sitios A y B se oigan a sí mismos, haciendo difícil la conversación en el sistema de conferencia, particularmente si hay retrasos en el ajuste del sistema, como es común en sistemas de conferencia, especialmente debido al retraso de sincronización de los labios citado anteriormente. El problema de eco acústico se soluciona usualmente usando un cancelador de eco, descrito a continuación.

"A hybrid mono/stereo acoustic echo canceller" publicado en IEEE Transactions on Speech and Audio Processing, vol. 6, nº. 5, septiembre 1998, páginas 468-475 por parte de Benesty J. et al. describe un procedimiento para cancelación de eco donde se elimina el contenido estéreo por encima de 1 kHz, mientras que se preserva el contenido estéreo por debajo de 1 kHz. La motivación es que las frecuencias por encima de 1 kHz contribuyen poco a la percepción humana del estéreo. Se puede usar un cancelador de eco mono por encima de 1 kHz. Por debajo de 1 kHz, se añaden componentes no lineales al canal izquierdo y derecho para descorrelacionar el canal izquierdo y derecho, y así reducir el problema de no unicidad. El inconveniente de este procedimiento comparado con la presente invención es la percepción menos estéreo debido al mono por encima de 1 kHz y al audio por debajo de 1 kHz se distor-
sionan.

La figura 1 es una vista conjunta de un sistema de conferencia de video. Este sistema está distribuido en dos sitios, A y B. Como para el ajuste del sistema de conferencia, un módulo de conferencia de video se puede distribuir en más de dos sitios y el ajuste del sistema de conferencia es funcional cuando solamente un sitio tiene un altavoz. El módulo de video tiene en el sitio A un sistema de captura de video 1141 que captura una imagen de video y un subsistema de video 1150 que codifica la imagen de video. En paralelo, se captura una onda de sonido mediante un sistema de captura de audio 1111 y un subsistema de audio 1130 codifica la onda sonora en la señal acústica. Debido a los retrasos de procesamiento en el sistema de codificación de video, el sistema de control 1160 introduce retrasos adicionales en la señal de audio mediante el uso de un retraso de sincronización de los labios 1163 para conseguir la sincronización entre las señales de video y audio. Las señales de video y audio se mezclan juntas en un multiplexor 1161 y la señal resultante, la señal de audio-video se envía a través del canal de transmisión 1300 al sitio B. Se inserta un retraso de sincronización de los labios adicional 1262 en el sitio B. Además, la señal de audio presentada mediante el dispositivo de presentación de audio 1221 se materializa como una onda sonora en el sitio B. Parte de la onda sonora presentada en el sitio B llega al dispositivo de captura de audio 1211 como una onda sonora directa o como una onda sonora reflejada. La captura del sonido en el sitio B y la transmisión de este sonido de vuelta al sitio A, junto con los retrasos asociados, forman el eco. La suma de todos los retrasos descritos es considerable y, por lo tanto, los requerimientos de calidad para un cancelador de eco en el sistema de conferencia de video son particularmente altos.

La figura 2 muestra un ejemplo de un subsistema cancelador de eco acústico, que puede ser una parte del sistema de audio en el sistema de conferencia del video de la figura 1. Por lo menos uno de los sitios participantes tiene el subsistema cancelador de eco acústico para reducir el eco en el sistema de comunicación. El subsistema cancelador de eco acústico 2100 es un modelo de banda completa de un cancelador de eco acústico digital. Un modelo de banda completa procesa una banda de audio completa (por ejemplo, de hasta 20 kHz; para las conferencias de video, la banda es típicamente de hasta 7 kHz, en conferencias de audio la banda es de hasta 3,4 kHz) de las señales de audio directamente.

Tal como ya se ha mencionado, la compensación del eco acústico se consigue normalmente mediante un cancelador de eco acústico. El cancelador eco acústico es un dispositivo individual una parte integrada, en este caso, del sistema de comunicación. El cancelador de eco acústico transforma la señal acústica transmitida desde el sitio A al sitio B, por ejemplo, usando un modelo matemático lineal/no lineal y a continuación resta la señal acústica modulada matemáticamente de la señal acústica transmitida desde el sitio B al sitio A. En más detalle, con referencia por ejemplo al subsistema cancelador de eco acústico 2100 en el sitio B, el cancelador de eco acústico pasa la primera señal acústica 2131 desde el sitio A través de un moderador matemático del sistema acústico 2121, calcula una estimación 2133 de la señal de eco, resta la señal de eco estimada de la segunda señal de audio 2132 capturada en el sitio B, y transmite de vuelta la segunda señal de audio 2135, menos el eco estimado al sitio A. El subsistema cancelador de eco de la figura 2 también incluye un error de estimación, es decir, una diferencia entre el eco estimado y el eco real, para actualizar o adaptar el modelo matemático a un ruido de fondo y cambios del ambiente, en una posición donde el sonido se captura mediante el dispositivo capturador de audio.

El modelo del sistema acústico 2121 utilizado en la mayoría de los canceladores de eco es un filtro FIR (respuesta de impulso finito), que aproxima la función de transferencia del sonido directo y la mayoría de las reflexiones en la habitación. Un modelo de banda completa del sistema acústico 2121 es relativamente complejo y requiere potencia de procesamiento, y se prefiere normalmente alternativas a los modelos de banda completa.

Una manera de reducir los requerimientos de potencia de procesamiento en un cancelador de eco es introducir es procesamiento de sub-banda, es decir, es la señal se divide en bandas con un ancho de banda menos, que se pueden representar utilizando una frecuencia de muestreo menor. Un ejemplo de este sistema se muestra en la figura 3. Las señales del altavoz y del micrófono se dividen mediante el filtro de análisis en sub-bandas, representando cada una un rango menor de frecuencias del altavoz y los micrófonos originales, respectivamente. La cancelación de eco similar y otro procesamiento se realizan en cada sub-banda, antes de que todas las bandas del micrófono modificado según han juntas para formar la señal de banda completa, mediante el filtro de sintetización.

En algunos casos, puede ser conveniente combinar procesamiento de sub-banda y banda completa. Algunos sub-algoritmos se pueden realizar tanto en banda completa, en sub-bandas, o una combinación.

El componente principal de un cancelador de eco es el modelo acústico ya mencionado (implementado más comúnmente mediante un filtro FIR). El modelo acústico intenta imitar la función de transferencia de la señal del extremo alejado desde el altavoz al micrófono. Este modelo adaptativo se actualiza mediante un algoritmo de búsqueda de gradiente. El algoritmo intenta minimizar una función de error, que es la potencia de la señal después de restar la estimación de eco. Para un cancelador de eco, esta solución funciona, es una solución uniforme y única.

Sin embargo, en comunicaciones de alta calidad, es a menudo deseable transmitir y presentar audio multicanal de alta calidad, por ejemplo, audio estéreo. El audio estéreo incluye señales de audio de dos canales separados que representan diferente audio espacial a partir de de una cierta composición de sonido. La carga de los canales en cada altavoz respectivo crea una reproducción de audio más fiable, ya que los oyentes percibirán una diferencia espacial entre las fuentes de audio desde las cuales se crea la composición de sonido.

La señal que se reproduce en un altavoz difiere de la señal presentada en el otro altavoz. Así, para un cancelador de eco estéreo (o multicanal), la función de transferencia de cada altavoz respectivo al micrófono necesita ser compensada. Esta es una situación algo diferente comparada con la cancelación de eco de audio mono, ya que hay dos señales diferentes pero correlacionadas para compensar.

Además, la correlación de los diferentes canales tiende a ser significativa. Esto provoca que los algoritmos de búsqueda de gradiente normal sufran. Expresada matemáticamente, la correlación introduce varias soluciones mínimas falsas a la función de error. Esto se describe en Steven L. Gat y Jacob Benesty "Acoustic signal processing for telecommunication", Boston: Kluwer Academic Publishers, 2000. El problema fundamental es que cuando los canales múltiples llevan señales relacionadas linealmente, la solución de la función normal correspondiente a la función de rol solucionada mediante el algoritmo adaptativo es singular. Esto implica que no hay una solución única a la ecuación, sino un número infinito de soluciones, y puede mostrar que todas, pero la verdadera, dependa de las respuestas de los impulsos de la habitación de transmisión (en este contexto, la habitación de transmisión también puede incluir una habitación de transmisión sintetizada como, por ejemplo, material programado o registrado retransmitido en el lado del extremo alejado). El algoritmo de búsqueda de gradiente puede quedar entonces atrapado en un mínimo que no es necesariamente la solución mínima verdadera.

Otra manera común de expresar este problema de adaptación del cancelador de eco estéreo es que es difícil de distinguir entre un cambio de respuesta de habitación y un "movimiento" de audio en la imagen estéreo. Por ejemplo, el modelo acústico tiene que volver a converger si un hablante empieza hablar de una posición diferente en el lado del extremo alejado. No hay ningún algoritmo adaptativo que pueda controlar este cambio de manera suficientemente rápida, el cancelador de eco uno en el caso del multicanal no produce un rendimiento satisfactorio.

Una aproximación típica para superar el problema de soluciones mínimas falsas citadas anteriormente se muestra en la figura 4. Comparado con el caso mono, el filtro de análisis se ubica, dividiendo la señal del altavoz derecho e izquierdo en sub-bandas. El modelo acústico se divide en dos modelos (por sub-banda), uno para la función de transferencia del canal derecho y uno para la función de transferencia del canal izquierdo.

Para superar las soluciones mínimas falsas introducidas mediante la correlación entre las señales del canal izquierdo y derecho, se introduce un algoritmo de descorrelación. Esta descorrelación hace posible la actualización correcta de los modelos acústicos. Sin embargo, la técnica de descorrelación también modifica las señales que se presentan en los altavoces. Aunque podrían ser aceptables las técnicas de modificación que preservan la calidad, las técnicas descorrelación según la técnica anterior distorsionan severamente el audio.

Por lo tanto, estas técnicas pueden solucionar el problema de eco estéreo, pero no proporcionan la calidad necesaria del audio.

Descripción de la invención

Es un objeto de la presente invención proporcionar un sistema que minimice el eco de audio cuando está presente el estéreo.

En particular, la presente invención describe un cancelador de eco de audio ajustado para proporcionar una señal de salida de eco atenúa la a partir de una señal de entrada añadida de eco que incluye audio de un extremo cercano además de audio de un extremo alejado, añadiendo una contribución de eco, que comprende un módulo que genera una primera señal de salida del módulo (5134), configurada por lo menos para implementar un primer modelo adaptativo (5121) de eco acústico, converger para minimizar una parte mono de la contribución de eco en la primera señal de salida del módulo (5134) cuando se proporciona una estimación de eco mono (5133) y restar la estimación de eco mono (5133) de la señal de entrada añadida de eco creando la primera señal de salida del módulo (5134), en el que el cancelador de eco de audio también incluye uno o más detectores de audio de múltiples componentes configurados para detectar si está presente audio de múltiples componentes en el audio del extremo alejado, y en el que el primer modelo adaptativo (5121) está configurado para suspender la convergencia cuando dichos uno o más detectores de audio de múltiples componentes detecta sustancialmente audio de múltiples componentes en el audio del extremo alejado, y un segundo modelo adaptativo (5129) está configurado para suspender la convergencia cuando dichos uno o más detectores de audio de múltiples componentes no detecta sustancialmente audio de múltiples componentes en el audio del extremo alejado, o una unidad de procesamiento miscelánea (5122) que monitorizar el audio del extremo alejado y el extremo cercano configurado para atenuar la primera o la segunda señal de salida del módulo (5134, 5136) en caso de que en la presencia de eventos de audio del extremo alejado/extremo cercano predefinidos se pide cuando dichos uno o más detectores de audio de múltiples componentes no detecta sustancialmente audio de múltiples componentes en el audio del extremo alejado.

Breve descripción de los dibujos

Para hacer que la invención puede entenderse más fácilmente, la descripción que sigue se referirá a los dibujos adjuntos.

La figura 1 es un diagrama de bloques detallado de un ajuste de un sistema de conferencia convencional;

La figura 2 es una vista más cercana de un subsistema cancelador de eco acústico;

La figura 3 es un diagrama de bloques del correspondiente subsistema cancelador de eco implementado con procesamiento de sub-banda;

La figura 4 es un diagrama de bloques de un sistema cancelador de eco estéreo según la técnica anterior;

La figura 5 es un diagrama de bloques de una realización de la presente invención;

La figura 6 una vista más cercana de una unidad de colapso estéreo controlada con frecuencia independiente;

La figura 7 es una vista más cercana de una versión dependiente de la frecuencia general de la unidad de colapso controlada.

Mejor modo de realizar la invención

A continuación, la presente invención se describirá mediante la descripción de una realización preferida, y con referencia a los dibujos adjuntos. Sin embargo, incluso si la realización específica se describe en conexión con conferencia de video y sonido estéreo, los expertos en la materia se darán cuenta de otras aplicaciones y modificaciones dentro del alcance de la invención, tal como se define en la reivindicación independiente adjunta. En particular, los principios de la invención también se podrían utilizar en conexión con otros tipos de conferencias, y que es útil para canales de audio múltiples. Además, debe indicarse incluso si las técnicas descritas a continuación se localizan principalmente en el caso de sub-bandas, también se puede utilizar para banda completa. En un cancelador de banda completa, se omiten los filtros de análisis y sintetización. El procesamiento en el interior de las líneas de trazos de las figuras se realiza en las señales de audio de banda completa.

La presente invención se basa en el hecho de que diferentes canales de una señal de audio estéreo están muy relacionados y que la rareza del sonido estéreo está presente en todo momento. Normalmente, solamente una pequeña parte de las señales de los respectivos canales difieren entre sí, en una situación de conferencia típica, pueden pasar largos periodos de tiempo en los cuales solamente está presente audio mono. La invención también utiliza el hecho de que es necesariamente requerido proporcionar una cancelación de eco completa en todo momento durante una conferencia convencional. Por ejemplo, en los intervalos de tiempo de silencio del altavoz, no hay ningún eco en absoluto. Además, en conexión con la presentación de sonido de CDs/DVDs, etc., están presentes señales estéreo, pero estas son más una comunicación de una vía, reduciendo la necesidad de una cancelación de eco dúplex completa. Además, un dispositivo que reproduce material del programa (a diferencia de una persona) no se confunde con eco residual ocasional. Además, en el caso de material del programa, la mayoría del tiempo tendrá solamente audio mono.

Así, como lo señala en su mayoría del tiempo es mono, la presente invención describe una estructura de cancelador de eco mono/estéreo híbrida. Una realización de la invención se muestra en la figura 5. Debe indicarse que muchas subpartes de esta figura pueden ser opcionales; la unidad de colapso de estéreo controlada, el filtro en análisis del altavoz derecho-izquierdo y el detector estéreo de banda completa o sub-banda (pero no los dos). Otras subpartes se pueden manipular de una manera algo diferente, por ejemplo moviendo la subparte del dominio de banda completa al dominio de sub-banda o viceversa. Estas simplificaciones y cambios también se explican en la siguiente descripción de los diferentes componentes incluidos en la realización de la presente invención mostrada en la figura 5.

Según la invención, las señales de banda completa exterior del altavoz izquierdo y derecho se convierten en una representación de banda completa R+L y R- L, mediante una unidad de adición y una unidad la resta, respectivamente. La señal R+L de banda completa representa entonces la parte mona de la señal de audio, mientras que la señal R-L de banda completa representa la imagen estéreo. Así, para situaciones donde solamente están presentes señales mono, R-L es igual a cero.

Las dos señales se dividen en señales de sub-banda; la señal de banda completa R+L se divide en señales de sub-banda R+L usando el filtro de análisis R+L del altavoz 5125, mientras que la señal de banda completa R-L se divide en señales de sub-banda R-L usando el filtro análisis R-L del altavoz 5126.

Una manera alternativa de calcular la señal R+L de sub-banda y la señal de sub-banda R-L es analizar las señales R y L individualmente, y a continuación realizar la adición o resta en las señales de sub-banda.

La señal de banda completa del micrófono (del ADC/micrófono) se divide en una señal de sub-banda el micrófono mediante el filtro de análisis del micrófono 5151.

El cancelador de eco según la presente invención también está provisto de por lo menos un detector estéreo. Tal como se muestra en la figura 5, las señales R+L y R-L se suministran en estos detectores estéreo. La detección del estéreo se podrá realizar en cualquier (o las dos) banda completa, utilizando las señales de banda completa R+L y R-L y el detector estéreo de banda completa, o en sub-banda, usando las señales de sub-banda R+L y R-L y el detector estéreo de sub-banda. Mediante el uso del detector estéreo de sub-banda, se pueden realizar decisiones individuales para diferentes frecuencias. Por lo tanto, un detector de sub-banda puede funcionar mejor, sin embargo con una complejidad computacional aumentada (pero no mayor).

Varias técnicas utilizar para detectar estéreo, es decir, calcular una medición del detector estéreo (SDM). Una aproximación es calcular la relación de la potencia de la señal R-L dividida por la potencia de la señal R+L:

1

El estéreo se puede detectar asumiendo que SDM es igual a cero para una señal mono verdadera, y mayor que cero para una señal estéreo.

La potencia en el momento i se puede calcular sobre una serie de N muestras:

2

Alternativamente, la potencia en el momento i se puede calcular utilizando una estructura de retroalimentación, actualizándose en cada nueva muestra. A es una constante pequeña positiva, representa la velocidad de actualización, y dependerá de la frecuencia de muestreo:

3

\vskip1.000000\baselineskip

Una aproximación alternativa para implementar los detectores estéreo es calcular la correlación transversal (en retraso 0) entre la señal R-L y la señal R+L, normalizada con la potencia de la señal R+L:

4

\vskip1.000000\baselineskip

Este SDM también es igual a 0 para una señal mono, y aumenta por encima de cero a los introducen componentes estéreo.

Otra vez, tanto el denominador como el numerador se pueden calcular sobre una serie de muestras, usando una estructura de retroalimentación. El denominador se puede calcular como en la primera alternativa, mientras que las fórmulas para el numerador serán:

El caso de las series de muestras:

5

\vskip1.000000\baselineskip

El caso de retroalimentación:

6

\vskip1.000000\baselineskip

Otra alternativa para implementar el detector estéreo es calcular la relación de la correlación transversal entre la señal R y L, y la potencia de la señal R+L:

7

\vskip1.000000\baselineskip

Este SDM es igual a 0,25 para el caso mono, y disminuir una con un elemento de aumento de estéreo. R_{R,L} se puede calcular usando una serie de muestras o una estructura de retroalimentación usando las mismas fórmulas que para la última alternativa.

\newpage

El caso de serie de muestras:

8

El caso de retroalimentación:

9

Estas expresiones se adecuan mejor en el caso donde las señales R y L se presentan directamente como por ejemplo, el caso donde R y L se analizan individualmente. En cualquier caso, R y L se pueden recalcular siempre a partir de R+L y R-L.

Una última aproximación es calcular la medición del detector estéreo como la relación de la correlación transversal entre la señal R y L, y la potencia de R más la potencia de L:

10

Este SDM es igual a 0,5 en el caso de mono, y disminuirá al aumentar el elemento de estéreo. P_{R,L} SE puede calcular usando una serie de muestras una estructura de retroalimentación, utilizando la misma expresión que para la primera alternativa de implementación del detector estéreo:

En el caso de la serie de muestras:

11

En el caso de retroalimentación:

12

Estas expresiones también se adecuan mejor en el caso donde las señales R y L se presentan directamente, por ejemplo, en el caso donde R y L se analizan individualmente.

Los detectores estéreo descritos anteriormente se utilizan para controlar el compensador de eco mono 5121. El compensador comprende un modelo acústico utilizado en canceladores de eco mono estándar, implementados normalmente con un filtro FIR por sub-banda. Sin embargo, a diferencia de los canceladores de eco mono estándar, la entrada son las señales de sub-banda R+L del altavoz. El modelo sectorizó utilizando técnicas de actualización estándar bien conocidas para la cancelación de eco mono, por ejemplo LMS, NLMS, APA, RLS, etc., utilizando el bucle de actualización del modelo y la búsqueda de gradiente para conseguir el mínimo de la función de error. En este contexto, también hay una gran excepción relativa al compensador de eco convencional. La adaptación del modelo acústico se congela siempre que el detector estéreo detecta cualquier cosa más que una señal mono verdadera, o muy próxima a una señal mono verdadera, asumiendo que la adaptación ha estado en progreso durante un periodo de tiempo suficiente para estabilizarse en un estado óptimo (para eco mono). Así, en el momento con los introduce el sonido estéreo, las soluciones mínimas falsas en la búsqueda de gradiente no estarán presentes, y el filtro no quedará "atrapado" en una de las mismas.

Por lo tanto, los detectores estéreo evitan que el compensador de eco mono quede atrapado en una solución mínima falsa introducida en la función de error cuando el estéreo está presente, y la parte mundo de la señal de eco todavía se puede cancelar. Sin embargo, la imagen estéreo de la señal de eco está todavía presente. Esto se podría eliminar/atenuar de diferentes maneras. Una alternativa, tal como se muestra en la figura 5 es suplementar el compensador de eco mono con un compensador de eco estéreo 5129.

La entrada al compensador de eco estéreo 5129 son las señales de sub- banda R-L del altavoz, además el compensador comprende el mismo modelo que para el compensador de eco mono 5121. El modelo se actualiza utilizando técnicas de adaptación estándar. Sin embargo, esta adaptación solamente es posible cuando se detecta una fuerte señal estéreo mediante los detectores estéreo. Como las partes monos de la señal ya se han eliminado con el compensador R+L, solamente estarán presentes señales mono menores en la señal de retroalimentación, permitiendo la convergencia del compensador R-L.

Basado en la asunción de que las señales somos la mayoría del tiempo, y que el rendimiento del cancelador de eco en situaciones estéreo no es crítico, se puede omitir el compensador de imagen estéreo. Esto reduce mucho la complejidad computacional de todo el sistema, ya que el modelo R-L no necesita calcularse o actualizarse. Si el sistema se basa solamente en un detector estéreo de banda completa, el filtro de análisis R-L del altavoz y los detectores de estéreo de sub-banda también se pueden omitir, ahorrando también complejidad computacional.

Como sustituto complemento del compensador de eco de imagen estéreo, se realizan algunos ajustes a la unidad de procesamiento de sub-banda miscelánea 5122 comparado con el cancelador de eco mono convencional. Este bloque elimina el eco residual de la señal del micrófono mediante la introducción de una atenuación, y a menudo se indica como procesamiento no lineal (NLP). La dirección del habla se decide (habla del extremo cercano, habla del extremo alejado o ambas), a partir de las señales del altavoz y la señal del micrófono.

Hay tres situaciones principales en la que preferiblemente debe utilizarse este procesador no lineal:

1. Conversación simple, señal del micrófono (extremo cercano) activa, sin señal de altavoz (extremo alejado), o sin señales: El NLP pasa la señal sin cambios.

2. Conversación simple, señal del altavoz activa, sin conversación del extremo cercano: El NLP atenúa mucho la señal, para eliminar el eco residual.

3. Conversación doble, altavoz activo y conversación activo del extremo cercano: El NLP cambia la señal sin cambios, o la atenúa de manera marginal, ya que el eco residual está enmascarado por la señal del micrófono/extremo cercano.

El procesador no lineal a menudo trabaja sobre sub-bandas, por lo tanto, el NLP puede seleccionar una de las tres acciones anteriores para una sub-banda, y otra para otras sub-bandas.

En canceladores de eco mono, el NLP elimina el eco residual. Sin embargo, en situaciones estéreo, si se omite o no es suficiente el compensador de imagen estéreo (5129), el NLP también tiene que eliminar el eco estéreo. Esto no altera el comportamiento de la primera y la segunda situaciones, pero la tercera situación debe tratarse preferiblemente de manera diferente, introduciendo dos sub-situaciones:

3a. Conversación doble, los dos micrófonos y el altavoz están activos, no se detecta señal estéreo: El NLP pasa la señal sin cambios, o la atenúa de manera marginal, ya que el eco residual está enmascarado por la señal del micrófono/extremo cercano, y porque no hay señal de eco estéreo.

3b. Conversación doble, los dos micrófonos y el altavoz están activos, señal estéreo detectada: El eco residual (señal de bajo nivel) se enmascara mediante la señal del micrófono (extremo cercano). La señal de eco estéreo (o la señal de eco estéreo residual del compensador de estéreo está presente y funciona correctamente) debe eliminarse o aceptarse (si solamente está presente eco residual la aceptación es la elección preferida), bajo esta elección, que es una elección redefinida, la señal pasa sin cambios, es decir, el eco estéreo se acepta, o se atenúa, es decir, se acepta la llamada conmutación de voz. Basado en el nivel de estéreo, se puede seleccionar una situación entre el paso completo de la señal y la atenuación completa, afectando bajos niveles de eco estéreo y conmutación de voz moderada.

La situación descrita en 3b anterior, introduce uno de dos inconvenientes: la presencia de eco estéreo por la conmutación de voz o una combinación limitada/moderada de ambos. El eco es serio se experimenta como eco aumentado, y la conmutación de voz tiene una comunicación dúplex media (disminuyendo la parte contraria del sonido cuando se habla).

En una realización alternativa de la presente intención, se introduce una unidad de colapso estéreo 5161 para compensar estos inconvenientes. El propósito de la unidad de colapso estéreo 5161 es llevar la situación de estéreo a mono, siempre que se detecte una doble conversación, alternativamente, con los detecta la señal del extremo cercano.

Otra función de la unidad de colapso estéreo 5161 podría ser colapsar la imagen estéreo hasta que el compensador de mono alcanza el primer estado de convergencia, permitiendo que se adapte incluso cuando se presentan señales de alto nivel de estéreo. Además, colapsará la imagen es serio después de que se produzca un gran cambio en la respuesta de la habitación hasta que se haya vuelto a converger al compensador de mono.

La figura 6 muestra en más detalle la unidad de colapso estéreo. En una situación normal, durante la situación 1 y 2 anterior, la ganancia de colapso g es cero y no altera la señal izquierda o derecha. Sea cual sea la situación 3 a o 3b detectada, la ganancia aumenta gradualmente hasta 0,5, eliminando o colapsando la imagen estéreo. En la situación 3a, como la señal es mono, no tiene efecto. Sin embargo, en la situación 3b, el colapso lleva el sistema a la situación 3a, donde no está presente eco estéreo, y solamente debe manejarse eco residual mediante la unidad de procesador no lineal. Cuando ya no es necesario el colapso, cuando las situaciones 1 ó 2 se detectan, alternativamente, cuando no está presente conversación en el extremo cercano, la ganancia de colapso disminuye gradualmente a 0, para estar lista para nuevas situaciones con la señal estéreo. La unidad de colapso estéreo en efecto completo (g = 0,5) simplemente añade las respectivas señales de los canales de la izquierda y de la derecha, y envía el resultado a los dos canales.

Por supuesto, esta unidad de colapso reduce la imagen estéreo en situaciones de conversación doble, pero estas situaciones, se presentan múltiples fuentes de audio, que enmascaran por lo menos parcialmente la pérdida de estéreo.

La figura 7 muestra una unidad de colapso estéreo generalizada. La ganancia de colapso g se reemplaza con el filtro de colapso estéreo H. Estas unidades generalizadas permiten colapsos diferentes en diferentes bandas de frecuencia, si se detectan diferentes estados en las diferentes sub-bandas.

La figura 7 también permite técnicas de colapso más estáticas, es decir, para colapsar siempre bandas de frecuencia que no son críticas para la percepción subjetiva de la imagen estéreo, mientras que las bandas críticas se colapsan de manera dinámica.

\vskip1.000000\baselineskip

Referencias citadas en la descripción

Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad en este respecto.

Documentos de patente citados en la descripción

\bulletBenesty J. A hybrid mono/stereo acoustic echo canceler. IEEE Transactions on Speech and Audio Processing, September 1998, vol. 6 (5), 468-475 [0004]

\bulletSteven L. Gat; Jacob Benesty. Acoustic signal processing for telecommunication. Kluwer Academic Publishers, 2000 [0014]

Claims

1. Cancelador de eco de audio ajustado para proporcionar una señal de salida atenuada de eco a partir de una señal de entrada añadida de eco incluye audio de un extremo cercano además de audio de un extremo lejano, añadiendo una contribución de eco, comprendiendo

un módulo que genera una primera señal de salida de módulo (5134), configurado por lo menos para implementar un primer modelo adaptativo (5121) de eco acústico, convergiendo para minimizar una parte mono de la contribución de eco en la primera señal de salida de módulo (5134) cuando se proporciona una estimación de eco mono y se resta la estimación de eco mono (5133) de la señal de entrada añadida de eco, creando la primera señal de salida de módulo (5134),

y por lo menos un módulo que genera una segunda señal de salida (5136), configurado por lo menos para implementar un segundo modelo adaptativo (5129), que converge para minimizar una parte de audio de múltiples componentes de la contribución de eco en la segunda señal de salida del módulo (5136) cuando se proporciona una estimación de la parte de múltiples componentes (5138) desde la primera señal de salida del módulo (5134), creando la segunda señal de salida del módulo (5136),

caracterizado por

uno o más detectores de audio de múltiples componentes configurados para detectar si está presente audio de múltiples componentes en el audio del extremo alejado, y en el que

el primer modelo adaptativo (5121) está configurado para suspender la convergencia cuando dicho uno con más detector de audio de múltiples componentes detecta substancialmente audio de múltiples componentes en el audio del extremo alejado, y

un segundo modelo adaptativo (5129) está configurado para suspender la convergencia cuando dicho uno o más detector de audio de múltiples componentes no detecta substancialmente ningún audio de múltiples componentes en el audio del extremo alejado, o

una unidad de procesamiento miscelánea (5122) que monitorizar el audio del extremo alejado y del extremo cercano configurada para atenuar la primera o la segunda señal de salida del módulo (5134, 5136) en eventos de presencia de audio del extremo alejado/extremo cercano de definidos que se activa cuando dicho uno o más detector de audio de múltiples componentes no detecta substancialmente ningún audio de múltiples componentes en el audio del extremo alejado.

2. Cancelador de eco de audio según la reivindicación 1, caracterizado por el hecho de que dicho uno o más detector de múltiples componentes es uno o más detector estéreo que tiene como entrada un canal de audio izquierdo (L) y uno derecho (R) que transmiten el audio del extremo alejado, en el que el detector o detectores estéreo están configurados para detectar estéreo en el audio del extremo alejado.

3. Cancelador de eco de audio según la reivindicación 2, caracterizado por el hecho de que el detector o detectores estéreo están configurados para detectar estéreo cuando una relación de potencia entre R-L y R+L es mayor de cero.

4. Cancelador de eco de audio según la reivindicación 2, caracterizado por el hecho de que el detector o detectores estéreo están configurados para detectar estéreo cuando una correlación transversal entre R-L y R+L normalizada con la potencia de R+L es mayor de cero.

5. Cancelador de eco de audio según la reivindicación 2, caracterizado por el hecho de que el detector o detectores estéreo están configurados para detectar estéreo cuando una correlación transversal entre R y L normalizada con la potencia de R+L es menor de 0,25.

6. Cancelador de eco de audio según la reivindicación 2, caracterizado por el hecho de que el detector o detectores estéreo están configurados para detectar estéreo cuando una correlación transversal entre R y L normalizada con la potencia de R más la potencia de L es menor de 0,5.

7. Cancelador de eco de audio según una de las reivindicaciones 2 a 6, caracterizado por el hecho de que dicho segundo modelo adaptativo (5129) está configurado para converger para minimizar una parte estéreo de la contribución del eco en la señal de salida del módulo cuando se proporciona una estimación de eco estéreo (5138), y para arrestar la estimación dedicó estéreo (5138) de la primera señal de salida del módulo (5134), creando una segunda señal de salida del módulo (5136).

8. Cancelador de eco de audio según una de las reivindicaciones 2 a 7, caracterizado por el hecho de que el primer modelo adaptativo (5121) deriva la estimación de eco mono (5133) basada en la suma de R y L, y el segundo modelo adaptativo (5129) deriva la estimación eco estéreo (5138) a partir de una diferencia entre R y L.

9. Cancelador de eco de audio según las reivindicaciones 2 a 8, caracterizado por el hecho de que dicha unidad de procesamiento miscelánea (5122) también está configurada para

atenuar substancialmente la primera (5134) o la segunda (5136) señal de salida del módulo solamente cuando está presente audio del extremo alejado,

pasar la primera (5134) o la segunda (5136) señal de salida del módulo sin cambios solamente cuando está presente audio del extremo cercano.

10. Cancelador de eco de audio según la reivindicación 9, caracterizado por el hecho de que es si está presente audio del extremo alejado y audio del extremo cercano, la unidad de procesamiento miscelánea (5122) está configurada para

pasar la primera (5134) o la segunda (5136) señal de salida del módulo sin cambios o atenuada de manera marginal cuando no se detecta exterior en el audio del extremo alejado mediante uno o más detectores estéreo,

pasar o atenuar la primera (5134) o la segunda (5136) señal de salida del módulo substancialmente o de manera marginal según una elección predefinida, y/o dependiente de si está presente la cancelación de eco estéreo, cuando se detecta estéreo en el audio del extremo alejado mediante uno o más detectores estéreo.

11. Cancelador de eco de audio según una de las reivindicaciones 2 a 10, caracterizado por

un primer filtro de análisis (5151) configurado para dividir la frecuencia en por lo menos una parte de la señal de entrada añadida de eco en una serie de sub- señales de entrada añadida de eco, se haga una procesada mediante respectivas versiones de sub-módulos de dicho modelo,

un segundo filtro de análisis (5125) configurado para dividir la frecuencia de por lo menos una parte de la suma de L y R a una serie de sub-sumas de L y R procesadas mediante respectivas versiones de sub-módulos de dicho modelo, y/o respectivas versiones de subunidades de procesamiento misceláneas de dicha unidad de procesamiento miscelánea,

un filtro de síntesis (5127) configurado para unir las salidas de la respectivas versiones de sub-módulos por la respectivas versiones de subunidades de procesamiento misceláneas.

12. Cancelador de eco de audio según la reivindicación 11, caracterizado por

un tercer filtro de análisis (516) configurado para dividir la frecuencia de por lo menos una parte de la diferencia de L y R en una serie de subdiferencias de L y R procesadas mediante las respectivas versiones de submódulos de dicho modelo, las respectivas versiones de subdetectores estéreo de dicho uno o más detectores estéreo y/o la respectivas versiones de subunidades de procesamiento misceláneas respectivas de dicha unidad de procesamiento misceláneas,

y porque la respectivas versiones de subdetectores estéreo de dicho uno o más detectores estéreo procesan dicha pluralidad de subsumas de L y R.

13. Cancelador de eco de audio según una de las reivindicaciones 2 a 12, caracterizado por

una unidad de colapso estéreo (5161) configurado para eliminar el estéreo del audio del extremo alejado cuando está presente audio del extremo alejado y audio del extremo cercano.

14. Procedimiento para proporcionar una señal de salida atenuada de eco a partir de una señal de entrada añadida de eco que incluye audio del extremo cercano además de audio del extremo alejado, añadiendo una contribución de eco en un sistema de cancelación de eco de audio que comprende un módulo que genera una primera señal de salida del módulo (5134), configurado por lo menos para implementar un primer modelo adaptativo (5121) de eco acústico, convergiendo para minimizar una parte mono de la contribución de eco en la señal de salida del módulo cuando se proporciona una estimación de eco mono (5133) y se resta la estimación de eco mono (5133) de la señal de entrada añadida de eco, creando la primera señal de salida del módulo (5134) y por lo menos un módulo que genera una segunda señal de salida (5136), configurado por lo menos para implementar un segundo modelo adaptativo (5129), convergiendo para minimizar una parte de audio de múltiples componentes de la contribución de eco en la segunda señal de salida del módulo (5136) cuanto se proporciona un estimación de una parte de múltiples componentes (5138) y se resta la estimación de la parte de múltiples componentes (5138) de la primera señal de salida del módulo (6134), creando la segunda señal de salida del módulo (5136),

caracterizado por las etapas de:

monitorizar si está presente audio de múltiples componentes en el audio del extremo alejado,

suspender para converger el primer modelo adaptativo (5121) cuando se detecta un audio de múltiples componentes substancial en el audio del extremo alejado, y

cuando no se detecta sustancialmente ningún audio de múltiples componentes en el audio del extremo alejado,

suspender para converger un segundo modelo adaptativo (5129), o

activa una unidad de procesamiento miscelánea (5122) que monitorizar el audio del extremo alejado y del extremo cercano configurada para atenuar una segunda señal de salida del módulo (5136) en eventos de presencia de audio del extremo alejado/extremo cercano predefinidos.

15. Procedimiento según la reivindicación 14, caracterizado por el hecho de que el audio del extremo alejado se transmite mediante un canal de audio izquierdo (L) y uno derecho (R), y dicho audio de múltiples componentes es estéreo.

16. Procedimiento según la reivindicación 15, caracterizado por el hecho de que dicho segundo modelo adaptativo (5129) se converge para minimizar una parte estéreo de la contribución de eco en la señal de salida del módulo cuando se proporciona una estimación de eco estéreo (5138), y restando la estimación de eco estéreo (5138) de la señal de salida del módulo, creando una segunda señal de salida del módulo (5136).

17. Procedimiento según la reivindicación 15 ó 16, caracterizado por las siguientes etapas adicionales:

derivar la estimación de eco mono (5133) basada en la suma de R y L, y

derivar la estimación de eco estéreo (5138) a partir de una diferencia entre R y L.

18. Procedimiento según una de las reivindicaciones 15 a 17, caracterizado por el hecho de que dicha unidad de procesamiento miscelánea (5122) también está configurada para:

atenuar sustancialmente la primera (5134) o la segunda (5136) señal de salida del módulo cuando está presente solamente audio del extremo alejado,

pasar la primera (5134) o la segunda (5136) señal de salida del módulo sin cambios solamente cuando está presente audio del extremo cercano, o

si está presente audio del extremo alejado y audio del extremo cercano,

pasar la primera (5134) o la segunda (5136) señal de salida del módulo sin cambios cuando no se detecta estéreo en el audio del extremo alejado mediante uno o más detectores estéreo,

pasar o atenuar la primera (5134) o la segunda (5136) señal de salida del módulo de manera substancial o marginal según una elección predefinida cuando se detecta estéreo en el audio del extremo alejado mediante uno o más detectores estéreo.

19. Procedimiento según una de las reivindicaciones 15 a 18, caracterizado por la siguiente etapa adicional:

eliminar estéreo del audio del extremo alejado cuando está presente audio del extremo alejado y audio del extremo cercano.