ES2943483T3

ES2943483T3 - Dispositivo de comunicación por voz, método de comunicación por voz, y programa

Info

Publication number: ES2943483T3
Application number: ES18879623T
Authority: ES
Inventors: Kazunori Kobayashi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-11-14
Filing date: 2018-11-13
Publication date: 2023-06-13
Anticipated expiration: 2038-11-13
Also published as: JPWO2019098178A1; US20200251121A1; RU2744518C1; EP3713250B1; WO2019098178A1; EP3713250A4; US11232806B2; EP3713250A1; JP6954370B2; CN111345048A

Abstract

La presente invención proporciona tecnología de comunicación de voz capaz de implementar una cancelación de eco avanzada incluso si se utiliza un micrófono no direccional. Este dispositivo de comunicación por voz comprende: una primera unidad de sustracción que, cuando la voz emitida por un hablante del extremo cercano se define como voz del hablante, el sonido obtenido por un altavoz que emite una señal de recepción que es una señal de voz de un hablante del extremo lejano se define como sonido reproducido , una señal obtenida por un primer micrófono que capta una señal acústica que incluye la voz del hablante y el sonido reproducido se define como una primera señal captada, una señal obtenida por un segundo micrófono que capta la señal acústica que incluye la voz del hablante y el sonido reproducido el sonido se define como una segunda señal captada, genera una primera señal captada primera restada que es una diferencia entre una señal captada corregida y la segunda señal captada o la primera señal captada, obteniéndose la señal captada corregida corrigiendo la primera señal captada señal ascendente o la segunda señal captada sobre la base de una diferencia de amplitud basada en una diferencia entre una distancia d1 entre el altavoz y el primer micrófono y una distancia d2 (d2<=d1) entre el altavoz y el segundo micrófono; y una segunda unidad de sustracción que genera una señal de transmisión para ser transmitida al altavoz del extremo lejano sustrayendo, de la primera señal captada sustraída, una segunda señal captada filtrada adaptativamente de la que se cancela el eco. la señal captada corregida se obtiene corrigiendo la primera señal captada o la segunda señal captada sobre la base de una diferencia de amplitud basada en una diferencia entre una distancia d1 entre el altavoz y el primer micrófono y una distancia d2 (d2<=d1) entre el altavoz y el segundo micrófono; y una segunda unidad de sustracción que genera una señal de transmisión para ser transmitida al altavoz del extremo lejano sustrayendo, de la primera señal captada sustraída, una segunda señal captada filtrada adaptativamente de la que se cancela el eco. obteniéndose la señal captada corregida corrigiendo la primera señal captada o la segunda señal captada sobre la base de una diferencia de amplitud basada en una diferencia entre una distancia d1 entre el altavoz y el primer micrófono y una distancia d2 (d2<=d1) entre el altavoz y el segundo micrófono; y una segunda unidad de sustracción que genera una señal de transmisión para ser transmitida al altavoz del extremo lejano sustrayendo, de la primera señal captada sustraída, una segunda señal captada filtrada adaptativamente de la que se cancela el eco. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Dispositivo de comunicación por voz, método de comunicación por voz, y programa

[Campo técnico]

La presente invención se refiere a una técnica de cancelación de eco para cancelar el eco, que es el sonido que se filtra de un altavoz a un micrófono en una llamada de manos libres.

[Antecedentes de la técnica]

Un dispositivo que cancela el eco (eco acústico), que es el sonido que se filtra de un altavoz a un micrófono en una llamada de manos libres, tal como una conferencia de televisión y una conferencia de voz, se denomina dispositivo de cancelación de eco. La Fig. 16 ilustra la configuración de un dispositivo 800 de comunicación por voz que incluye un dispositivo 805 de cancelación de eco de la técnica relacionada y se da a conocer en la Bibliografía de Patente 1. Como se ilustra en la Fig. 16, el dispositivo 805 de cancelación de eco incluye una unidad 820 de sustracción, una unidad 830 adicional, un primer filtro 840 adaptativo y un segundo filtro 850 adaptativo. La configuración obtenida al añadir un altavoz 890, un micrófono 892 principal y un submicrófono 894 al dispositivo 800 de cancelación de eco es el dispositivo 800 de comunicación por voz. El dispositivo 805 de cancelación de eco está conectado al micrófono 892 principal y al submicrófono 894. El micrófono 892 principal está dispuesto con el objetivo de captar la voz de un locutor 10 cercano tanto como sea posible y captar el sonido del altavoz 890 tan poco como sea posible. El submicrófono 894 está dispuesto con el objetivo de captar el sonido del altavoz 890 tanto como sea posible y para captar la voz del locutor 10 cercano tan poco como sea posible. El micrófono 892 principal y el submicrófono 894 están compuestos respectivamente por un micrófono direccional orientado en la dirección del altavoz y un micrófono direccional orientado en la dirección del altavoz. El dispositivo 805 de cancelación de eco cancela el eco utilizando dos filtros adaptativos que son el primer filtro 840 adaptativo para procesar una señal de captación de sonido obtenida por el submicrófono 894 y el segundo filtro 850 adaptativo para procesar una señal de voz recibida que está antes de ser emitida desde el altavoz (es decir, una señal de voz de un locutor alejado (no mostrado) transmitida mediante una red 900). En consecuencia, se pueden cancelar los componentes de eco así como de distorsión de sonido del altavoz, y se pueden realizar llamadas de manos libres de alto rendimiento incluso si la carcasa del dispositivo 800 de comunicación por voz es de tamaño pequeño.

La Bibliografía de Patente 2 da a conocer generalmente un dispositivo para suprimir los aullidos y realizar un dispositivo de conversación de manos libres con alta calidad de sonido de forma económica. En particular, el dispositivo está compuesto por un altavoz 30, varios micrófonos 31a, 31b dispuestos en la misma caja 3 a diferente distancia del altavoz 30, medios 21a, 21b amplificadores de señal de transmisión previstos correspondientes a los micrófonos 31a, 31b y que amplifican una señal de salida de los micrófonos 31 a, 31 b respectivamente, suprimiendo una sección 50 de procesamiento de supresión de acoplamiento directo un componente de acoplamiento directo de una señal de recepción incluida en una señal de transmisión basada en la señal de salida de los medios 21a, 21b amplificadores de señal de transmisión, y suprimiendo una sección 1 de procesamiento de supresión de acoplamiento acústico el componente de acoplamiento acústico de la señal de recepción incluida en la señal de transmisión con un filtro adaptativo.

La Bibliografía de Patente 3 da a conocer generalmente un dispositivo para aumentar el grado de libertad de la disposición de un altavoz y un micrófono cuando una señal de voz que invade el micrófono desde el altavoz se cancela a partir de una señal de voz recogida en el dispositivo de entrada y salida de voz. En particular, un altavoz 31, un primer micrófono 11 y un segundo micrófono 12 están montados en una caja común. El dispositivo está provisto de un medio de corrección que hace coincidir la característica de transferencia del primer y segundo micrófonos 11, 21 con la característica de transferencia de un sonido de reproducción del altavoz 31 y un medio de síntesis que sintetiza las salidas del primer y segundo micrófonos 11,21 cuya característica de transferencia con respecto al altavoz 31 se iguala entre sí.

La Bibliografía de Patente 4 generalmente da a conocer un vector de señal de error generado a partir de señales de error pasadas, retrocediendo por el número predeterminado de etapas, y sobre la base de la información del vector de señal de error, un trayecto de eco a un espacio de porción de vector compuesto por un vector de señal regenerativa y un vector de señal regenerativa almacenado en un medio de almacenamiento de retardo y un componente de proyección en las características de error del trayecto de eco se estiman mediante un vector de proyección de error de simulación. A continuación, se calcula la norma del vector de proyección de error de simulación para obtener un vector de proyección de error de simulación normalizado por el valor de la norma y, si el valor de la norma tiende a ser menor que una magnitud predeterminada, se emite un valor igual al valor de la norma, pero si el valor de la norma tiende a ser mayor que la magnitud predeterminada, el valor se suprime pequeño para emitir una norma no lineal. A continuación, el vector de proyección del error de simulación normalizado se multiplica por la norma no lineal para obtener un vector actualizado del trayecto de eco de simulación.

La Bibliografía de Patente 5 generalmente da a conocer un dispositivo para eliminar un componente de ruido mezclado en una señal de sonido de un micrófono. En particular, un micrófono 1 está dispuesto cerca de un altavoz y un micrófono 2 está dispuesto cerca de una fuente de ruido. A continuación, dado que se introduce un ruido en el micrófono 1 retardado desde el micrófono 2, el tiempo de retardo de un circuito 32 de retardo se establece en un valor que suma el retardo de propagación del ruido y el retardo del circuito 31 de retardo. Además, dado que el nivel del ruido introducido al micrófono 2 es más alto que el nivel del ruido introducido al micrófono 1, un nivel de señal se atenúa mediante un circuito 42 de ajuste de ganancia variable y los niveles de los componentes de ruido en las salidas de los circuitos 41,42 de ajuste de ganancia variable se hacen coincidir. Así, los componentes de ruido se introducen en un sustractor 5 con la misma fase y con el mismo nivel y los componentes de ruido se cancelan y solamente se emite una señal de sonido desde el sustractor 5. Un cancelador 6 de eco funciona de forma adaptativa cuando la temperatura y la humedad son cambiado aún más y cancela y elimina perfectamente el componente de ruido.

[Bibliografía de la técnica anterior]

[Bibliografía de Patentes]

Bibliografía de Patente 1: Solicitud abierta de patente japonesa N°. 2011-160429

Bibliografía de Patente 2: JP H08 223274 A

Bibliografía de Patente 3: JP H06 153289 A

Bibliografía de Patente 4: JP 2006 135886 A

Bibliografía de Patente 5: JP H05241582 A

[Compendio de la invención]

[Problemas a resolver con la invención]

Sin embargo, un micrófono direccional utilizado en la configuración del dispositivo 800 de comunicación por voz es costoso en comparación con un micrófono no direccional. Además, se requieren muchos orificios de sonido para incorporar micrófonos direccionales en la carcasa del dispositivo 800 de comunicación por voz, lo que provoca una gran restricción en el diseño.

Por lo tanto, un objeto de la presente invención es proporcionar una técnica de comunicación por voz para hacer posible realizar una cancelación de eco superior incluso en el uso de micrófonos no direccionales.

[Medios para solucionar los problemas]

En vista de los problemas anteriores, la presente invención proporciona dispositivos de comunicación por voz, métodos de comunicación por voz y un programa que tiene las características de las respectivas reivindicaciones independientes. Las realizaciones se describen en las reivindicaciones dependientes.

Un ejemplo de la presente invención no incluido por las reivindicaciones incluye: un altavoz que emite una señal de voz recibida, que es una señal de voz de un locutor alejado; un primer micrófono que capta una señal acústica, que contiene la voz del locutor que es la voz pronunciada por un locutor cercano y el sonido de reproducción que se obtiene al emitir la señal de voz recibida, como primera señal de captación de sonido; un segundo micrófono que capta una señal acústica, que contiene la voz del locutor y el sonido de reproducción, como segunda señal de captación de sonido; una unidad de corrección que genera una señal de captación de sonido corregida, que es una señal obtenida al corregir una diferencia de amplitud basada en una diferencia entre una distancia d1 desde el altavoz al primer micrófono y una distancia d2 desde el altavoz al segundo micrófono (aquí, d2 < d1), de cualquiera de la primera señal de captación de sonido y la segunda señal de captación de sonido; una primera unidad de sustracción que genera una primera señal de captación de sonido sustraída en primer lugar, que es una señal obtenida al sustraer la segunda señal de captación de sonido de la señal de captación de sonido corregida o una señal obtenida al sustraer la señal de captación de sonido corregida de la primera señal de captación de sonido; un filtro adaptativo que genera una segunda señal de captación de sonido filtrada de forma adaptativa que cancela el eco que varía con el tiempo, desde la segunda señal de captación de sonido y una señal de voz transmitida que se ha de transmitir al locutor alejado; y una segunda unidad de sustracción que genera una señal, que se obtiene al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de primer sonido sustraída en primer lugar, como la señal de voz transmitida.

[Efectos de la invención]

La presente invención habilita la comunicación por voz que realiza una cancelación de eco superior incluso en el uso de micrófonos no direccionales.

[Breve descripción de los dibujos]

La Fig. 1 es un diagrama de bloques que ilustra un ejemplo de una configuración de un dispositivo 100 de comunicación por voz.

La Fig. 2 es un diagrama de flujo que ilustra un ejemplo de una operación del dispositivo 100 de comunicación por voz.

La Fig. 3A es un diagrama que ilustra un ejemplo de una relación posicional entre un altavoz y micrófonos.

La Fig. 3B es un diagrama que ilustra un ejemplo de una relación posicional entre un altavoz y micrófonos.

La Fig. 3C es un diagrama que ilustra un ejemplo de una relación posicional entre un altavoz y micrófonos.

La Fig. 3D es un diagrama que ilustra un ejemplo de una relación posicional entre un altavoz y micrófonos.

La Fig. 4 es un diagrama de bloques que ilustra un ejemplo de configuración de un dispositivo 200 de comunicación por voz según una primera realización de la presente invención.

La Fig. 5 es un diagrama de flujo que ilustra un ejemplo de una operación del dispositivo 200 de comunicación por voz según la primera realización.

La Fig. 6 es un diagrama de bloques que ilustra un ejemplo de una configuración de un dispositivo 300 de comunicación por voz.

La Fig. 7 es un diagrama de flujo que ilustra un ejemplo de una operación del dispositivo 300 de comunicación por voz.

La Fig. 8 es un diagrama de bloques que ilustra un ejemplo de una configuración de un dispositivo 400 de comunicación por voz.

La Fig. 9 es un diagrama de flujo que ilustra un ejemplo de una operación del dispositivo 400 de comunicación por voz.

La Fig. 10 es un diagrama de bloques que ilustra un ejemplo de una configuración de un dispositivo 500 de comunicación por voz.

La Fig. 11 es un diagrama de flujo que ilustra un ejemplo de una operación del dispositivo 500 de comunicación por voz.

La Fig. 12 es un diagrama de bloques que ilustra un ejemplo de una configuración de un dispositivo 600 de comunicación por voz según una segunda realización de la presente invención.

La Fig. 13 es un diagrama de flujo que ilustra un ejemplo de una operación del dispositivo 600 de comunicación por voz según la segunda realización.

La Fig. 14 es un diagrama de bloques que ilustra un ejemplo de configuración de un dispositivo 601 de comunicación por voz según una modificación de la segunda realización.

La Fig. 15 es un diagrama de flujo que ilustra un ejemplo de una operación del dispositivo 601 de comunicación por voz según la modificación de la segunda realización.

La Fig. 16 es un diagrama de bloques que ilustra un ejemplo de una configuración de un dispositivo 800 de comunicación por voz.

[Descripción detallada de las realizaciones]

A continuación se describen en detalle realizaciones según la presente invención y ejemplos útiles para la comprensión. Los componentes que tienen las mismas funciones entre sí reciben los mismos números de referencia y se omite la descripción duplicada de los mismos.

Un dispositivo 100 de comunicación por voz según un ejemplo no incluido en las reivindicaciones se describe a continuación con referencia a la Fig. 1 y a la Fig. 2. La Fig. 1 es un diagrama de bloques que ilustra la configuración del dispositivo 100 de comunicación por voz. La Fig. 2 es un diagrama de flujo que ilustra una operación del dispositivo 100 de comunicación por voz. Como se ilustra en la Fig. 1, el dispositivo 100 de comunicación por voz incluye un altavoz 102, un primer micrófono 104, un segundo micrófono 106, una unidad 110 de multiplicación, una primera unidad 120 de sustracción, una segunda unidad 130 de sustracción y un filtro 140 adaptativo.

El altavoz 102 emite una señal de voz (en lo sucesivo denominada señal de voz recibida) de un locutor alejado (no mostrado) que se transmite mediante una red 900. Un locutor 10 cercano habla arbitrariamente. La voz pronunciada por el locutor 10 cercano se denomina voz del locutor.

El primer micrófono 104 está dispuesto en una posición más alejada del altavoz 102 que el segundo micrófono 106. Es decir, el segundo micrófono 106 está dispuesto en una posición más cercana al altavoz 102 que el primer micrófono 104. El primer micrófono 104 y el segundo el micrófono 106 pueden ser micrófonos no direccionales. El altavoz 102, el primer micrófono 104 y el segundo micrófono 106 están alojados en una carcasa del dispositivo 100 de comunicación por voz. Por ejemplo, una distancia entre el altavoz 102 y el primer micrófono 104 puede ser aproximadamente de 30 mm, una distancia entre el altavoz 102 y el segundo micrófono 106 pueden ser aproximadamente de 10 mm, y el tamaño de la carcasa del dispositivo 100 de comunicación por voz puede ser relativamente pequeño, tal como aproximadamente 80 mm x 40 mm.

El dispositivo 100 de comunicación por voz emite una señal de voz transmitida que se ha de transmitir a un locutor alejado. La señal de voz transmitida se transmite al locutor alejado a través de la red 900.

Una operación del dispositivo 100 de comunicación por voz se describe a continuación con referencia a la Fig. 2. La unidad 110 de multiplicación genera una señal al multiplicar una señal de captación de sonido captada por el segundo micrófono 106 (denominada a continuación como segunda señal de captación de sonido) por un coeficiente fijo predeterminado (denominado más adelante como segunda señal de captación de sonido ganada) (S110). La segunda señal de captación de sonido es una señal obtenida captando la voz del locutor y el sonido de reproducción que se obtiene al emitir una señal de voz recibida, por ejemplo. Más adelante se describe un método para determinar un coeficiente fijo.

La primera unidad 120 de sustracción genera una señal al sustraer la segunda señal de captación de sonido ganada de una señal de captación de sonido captada por el primer micrófono 104 (denominada en adelante como primera señal de captación de sonido) (denominada en adelante como primera señal de captación de sonido sustraída en primer lugar) (S120). La primera señal de captación de sonido también es una señal obtenida al captar la voz del locutor, el sonido de reproducción y similares, como es el caso de la segunda señal de captación de sonido. A través de S120, se cancelan los componentes de eco contenidos en la primera señal de captación de sonido y se obtiene una señal que contiene menos componentes de eco (es decir, la primera señal de captación de sonido sustraída en primer lugar).

El filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de la segunda señal de captación de sonido y una señal de voz transmitida (S140). En otras palabras, el filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa, que se obtiene al cancelar el eco de una señal de voz transmitida, que utiliza la segunda señal de captación de sonido como entrada. Los componentes de eco contienen componentes de sonido de reproducción que quedan, debido a influencias de variación en las características del micrófono, características de la carcasa del dispositivo 100 de comunicación por voz, características de eco de una habitación en la que se utiliza el dispositivo 100 de comunicación por voz y similares. Es decir, el filtro 140 adaptativo se utiliza para cancelar el eco provocado por las influencias de las características del eco de la habitación y similares que no se pueden tener en cuenta de antemano. Con el fin de manejar el eco que varía con el tiempo, un coeficiente de filtro establecido en el filtro 140 adaptativo se actualiza en secuencia. Más adelante se describe un método para actualizar un coeficiente de filtro (algoritmo adaptativo).

Con el fin de cancelar también los componentes de distorsión generados en el altavoz 102, el procesamiento de S140 se ejecuta utilizando la segunda señal de captación de sonido obtenida al captar el sonido de reproducción que contiene la distorsión por el segundo micrófono 106 dispuesto más cerca del altavoz 102.

La segunda unidad 130 de sustracción genera una señal como una señal de voz transmitida al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar (S130).

[Coeficiente fijo]

Ahora se describe un coeficiente fijo. La amplitud de una señal de voz emitida uniformemente al espacio libre disminuye en proporción inversa a la distancia. Cuando la distancia desde el altavoz 102 al segundo micrófono 106 se indica como d2 y la distancia desde el altavoz 102 al primer micrófono 104 se indica como d1 (aquí, d2 < d1), se establece la siguiente relación entre la amplitud P1 del sonido observada en el primer micrófono 104 y la amplitud P2 de sonido observada en el segundo micrófono 106.

Con esta relación, se estima el sonido que alcanza directamente el primer micrófono 104 desde el altavoz 102 y se realiza la sustracción. Específicamente, un valor calculado basándose en la disposición de los micrófonos, es decir, una relación d2/d1 entre la distancia d2 desde el altavoz 102 al segundo micrófono 106 y la distancia d1 desde el altavoz 102 al primer micrófono 104 se establece en un coeficiente fijo, y una señal obtenida al multiplicar la segunda señal de captación de sonido por el coeficiente fijo d2/d1 (la segunda señal de captación de sonido ganada) se sustrae de la primera señal de captación de sonido.

Aquí, se espera que la segunda señal de captación de sonido captada por el segundo micrófono 106 contenga sonido de reproducción procedente del altavoz 102 como componente principal.

Aquí, en lugar de utilizar simplemente la relación d2/d1 entre dos distancias, se puede obtener experimentalmente un valor en el que el eco emitido desde la primera unidad 120 de sustracción se vuelve mínimo y el valor se puede utilizar como un coeficiente fijo.

[Relación posicional entre altavoz y dos micrófonos]

En la descripción anterior, solamente se requiere que el segundo micrófono 106 se coloque más cerca del altavoz 102 que el primer micrófono 104. La Fig. 3A, la Fig. 3B, la Fig. 3C y la Fig. 3D ilustran ejemplos de una relación posicional entre un altavoz y micrófonos. La Fig. 3A ilustra una relación posicional en la que los micrófonos se colocan solamente en un lado de un altavoz, pero un altavoz se puede colocar entre dos micrófonos como se ilustra en la Fig. 3B. Además, un altavoz puede estar dispuesto a distancias sustancialmente iguales de dos micrófonos, como se ilustra en la Fig. 3C. Además, como se ilustra en la Fig. 3D, se puede emplear una disposición desigual en la dirección horizontal (en el dibujo correspondiente).

[Algoritmo adaptativo]

En el filtro adaptativo se utiliza un algoritmo adaptativo para actualizar secuencialmente un coeficiente de filtro. Hay un algoritmo de mínimos cuadrados medios normalizados (NLMS), un algoritmo de mínimos cuadrados medios (LMS) y similares, como algoritmos adaptativos típicos. Un coeficiente de filtro se actualiza utilizando una señal de voz recibida x(t) desde un locutor alejado y una señal de voz transmitida e(t) al locutor alejado, por ejemplo. El algoritmo NLMS y el algoritmo LMS se describen simplemente a continuación (véase la Bibliografía de Patente 1).

(Algoritmo NLMS)

El algoritmo NLMS es un algoritmo para actualizar un coeficiente de filtro utilizando solamente la señal de voz transmitida e(t) de una última muestra observada y se caracteriza por una pequeña cantidad de cálculo. Una fórmula para actualizar un coeficiente de filtro se expresa mediante las siguientes dos fórmulas.

Aquí, Hi(t) y Hm(t) (m = 2,..., M; M es un número entero que es 2 o mayor e indica el número de micrófonos) indica vectores de un coeficiente de filtro con respecto a la señal de voz recibida x(t) en el tiempo t y se expresan como Hm(t) = (hm(t,0),..., hm(t,L-1))T (m = 1,..., M), en el que L indica el número de tomas. a1 y am (m = 2,..., M) indican tamaños de etapa preestablecidos del algoritmo NLMS y satisfacen 0 < a1 < 2 y 0 < am < 2. Además, X(t) indica un vector de la señal de voz recibida x(t) para L muestras en el tiempo t y se expresa como X(t) = (x(t-0),..., x( t-L+1))T. Y(t) indica un vector de una señal de sonido recibida y(t) para L muestras en el tiempo t y se expresa como Ym(t) = (ym(t-0),..., ym(t-L+1))T (la señal de sonido recibida ym(t) es una señal de voz captada por un micrófono m).

(Algoritmo LMS)

El algoritmo LMS también es un algoritmo para actualizar un coeficiente de filtro utilizando solamente una señal de voz transmitida e(t) de una última muestra observada y se caracteriza por una pequeña cantidad de cálculo, como es el caso del algoritmo NLMS. Una fórmula de actualización del algoritmo LMS se puede expresar mediante las siguientes dos fórmulas.

Aquí, b1 y bm (m = 2,..., M) indican tamaños de etapa preestablecidos del algoritmo LMS.

Si el aprendizaje de un filtro adaptativo para actualizar un coeficiente de filtro se realiza en un estado de habla simultánea en el que la voz de un locutor cercano (voz del locutor) se pronuncia al mismo tiempo que la señal de voz de un locutor alejado (señal de voz recibida) se emite desde un altavoz, el coeficiente de filtro se puede actualizar con el objetivo de cancelar también la voz del locutor cercano (la voz del locutor). Con el fin de evitar esto, se enfoca que una señal de voz de un locutor alejado (señal de voz recibida) emitida desde un altavoz se atenúa en una señal de salida de la segunda unidad 130 de sustracción (señal de voz transmitida). La potencia de una señal de salida del segundo micrófono 106 (segunda señal de captación de sonido) se compara con la potencia de una señal de salida de la segunda unidad 130 de sustracción (señal de voz transmitida). Cuando la potencia de la señal de salida de la segunda unidad 130 de sustracción (señal de voz transmitida) es suficientemente menor que la potencia de la señal de salida del segundo micrófono 106 (segunda señal de captación de sonido), se aprende un filtro adaptativo (es decir, se actualiza el coeficiente de filtro del filtro adaptativo). Ser suficientemente pequeño significa aproximadamente 0,5 a 0,1 veces de magnitud, por ejemplo. Es decir, significa que una relación Pow1/Pow2 entre la potencia Pow1 de una señal de salida de la segunda unidad 130 de sustracción (señal de voz transmitida) y la potencia Pow2 de una señal de salida del segundo micrófono 106 (segunda señal de captación de sonido) es igual o menor que un valor umbral o es menor que el valor umbral cuando el valor umbral se establece en un número real predeterminado (un cierto número real de 0,1 a 0,5 inclusive, por ejemplo). Aquí, el estado en el que la relación Pow1/Pow2 es igual o menor que un valor umbral o es menor que el valor umbral significa un estado en el que la relación Pow1/Pow2 está dentro de un rango predeterminado que representa que la relación Pow1/Pow2 es pequeña.

Alternativamente, se puede utilizar el algoritmo adaptativo descrito en la Bibliografía de Patente 1 de Referencia (mencionada más adelante como un algoritmo de proyección afín modificado).

(Bibliografía de Patente 1 de Referencia: Solicitud abierta de patente japonesa N°. 2006-135886)

Se supone que el dispositivo de cancelación de eco tiene un trayecto de eco simulado que tiene una característica de simulación h'*(k) (k indica el número de etapas que representan el tiempo discreto de intervalos predeterminados) de

un vector h* ( * * indica un vector, en lo sucesivo) que tiene la longitud L y que tiene como elemento una respuesta de impulso de un trayecto de eco entre el altavoz y el micrófono. Aquí, la característica de simulación h'*(k) corresponde a un coeficiente de filtro. Una fórmula para actualizar la característica de simulación h'*(k) se expresa mediante la siguiente fórmula.

Aquí, x(k) indica una señal de voz recibida de un locutor alejado, x*(k) = (x(k), x(k-1),..., x(k-L+1))T, X*(k) = (x*(k), x*(k-1),..., x*(k-p+1))T, g(k) indica un coeficiente de ajuste de actualización fijo o variable en el tiempo (0 < g(k) < 2), e(k) indica una señal de voz transmitida al locutor alejado, y e*(k) indica un vector de señal de error expresado por la siguiente fórmula.

Además, la función limitadora ^(a) es una función arbitraria que tiene una característica para suprimir un valor de la misma a medida que aumenta un valor de entrada a.

En el algoritmo de proyección afín modificado, un valor de límite superior de la función limitadora ^(a) se establece en un valor que es menor que 1 y el aprendizaje de un filtro adaptativo se ralentiza en un segmento que contiene muchos componentes de voz de un locutor cercano. Es decir, significa que el valor límite superior de la función limitadora ^(a) es igual o menor que un valor umbral o es menor que el valor umbral cuando el valor umbral se establece en un número real predeterminado (un número real de 0,1 a 0,5 inclusive, por ejemplo). Aquí, el estado en el que el valor de límite superior de la función limitadora ^(a) es igual o menor que un valor umbral o es menor que el valor umbral significa un estado en el que el valor de límite superior de la función limitadora ^(a) está dentro de un rango predeterminado que representa que el valor de límite superior es pequeño.

El valor de límite superior de la función limitadora ^(a) se establece en un valor más pequeño que un valor predeterminado y el algoritmo de proyección afín modificado actualiza un coeficiente de filtro, lo que hace posible impedir que se cancele la voz de un locutor cercano (la voz del locutor).

El presente ejemplo habilita la comunicación por voz en la que se realiza una cancelación de eco superior incluso con el uso de micrófonos no direccionales. Especialmente, incluso en un dispositivo de comunicación por voz de pequeño tamaño que tiene una gran distorsión en el sonido del altavoz, se puede lograr una cancelación de eco superior con micrófonos no direccionales económicos.

En el presente ejemplo, se establece un coeficiente fijo con información previamente conocida (relación d2/d1), lo que hace posible cancelar el eco desde un estado inicial. Además, el uso de un filtro adaptativo hace posible cancelar aún más los componentes de sonido de reproducción que quedan, debido a las influencias de la variación en las características del micrófono, las características de la carcasa del dispositivo de comunicación por voz, las características de eco de una habitación en la que se utiliza el dispositivo de comunicación por voz, y similares. En consecuencia, el eco se puede cancelar de forma estable incluso con una gran variación en las características del micrófono o un gran error de montaje en la carcasa.

Dado que la distancia d2 entre el altavoz 102 y el segundo micrófono 106 es más corta que la distancia d1 entre el altavoz 102 y el primer micrófono 104, el sonido de reproducción obtenido al emitir una señal de sonido recibida desde el altavoz 102 es captado por el segundo micrófono 106 y el primer micrófono 104 en este orden. El rendimiento de la cancelación de eco se puede mejorar aún más considerando el intervalo en la temporización de captación de sonido. A continuación se describe una primera realización de la presente invención que considera un intervalo en la temporización de captación de sonido.

Un dispositivo 200 de comunicación por voz se describe a continuación con referencia a la Fig. 4 y a la Fig. 5. La Fig. 4 es un diagrama de bloques que ilustra la configuración del dispositivo 200 de comunicación por voz. La Fig. 5 es un diagrama de flujo que ilustra una operación del dispositivo 200 de comunicación por voz. Como se ilustra en la Fig. 4, el dispositivo 200 de comunicación por voz incluye un altavoz 102, un primer micrófono 104, un segundo micrófono 106, una unidad 210 de retardo, una unidad 110 de multiplicación, una primera unidad 120 de sustracción, una segunda unidad 130 de sustracción, y un filtro 140 adaptativo. Es decir, el dispositivo 200 de comunicación por voz es diferente del dispositivo 100 de comunicación por voz en que el dispositivo 200 de comunicación por voz incluye además la unidad 210 de retardo.

Una operación del dispositivo 200 de comunicación por voz se describe a continuación con referencia a la Fig. 5. La unidad 210 de retardo genera una señal al añadir un retardo predeterminado a una segunda señal de captación de sonido (denominada a continuación como una segunda señal de captación de sonido retardada) (S210). Más adelante se describe un método de determinación del tiempo de retardo.

La unidad 110 de multiplicación genera una segunda señal de captación de sonido ganada al multiplicar la señal de captación de segundo sonido retardada por un coeficiente fijo predeterminado (S110). La primera unidad 120 de sustracción genera una primera señal de captación de sonido sustraída en primer lugar, al sustraer la segunda señal de captación de sonido ganada de una primera señal de captación de sonido (S120). El filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de la segunda señal de captación de sonido y una señal de voz transmitida (S140). La segunda unidad 130 de sustracción genera una señal de voz transmitida al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar (S130).

[Tiempo de retardo]

Ahora se describe el tiempo de retardo a añadir por la unidad 210 de retardo. El tiempo t puede establecerse como tiempo de retardo, tomándose el tiempo t cuando el sonido viaja la distancia d1-d2 correspondiente a la diferencia entre la distancia d1 desde el altavoz 102 al primer micrófono 104 y la distancia d2 desde el altavoz 102 al segundo micrófono 106.

Aquí, v indica la velocidad del sonido.

La realización de la presente invención habilita la comunicación por voz en la que se realiza una cancelación de eco superior incluso en el uso de micrófonos no direccionales. Especialmente, incluso en un dispositivo de comunicación por voz de pequeño tamaño que tiene una gran distorsión en el sonido del altavoz, se puede lograr una cancelación de eco superior con micrófonos no direccionales económicos.

La realización de la presente invención considera un intervalo en la temporización de captación de sonido generada por una relación posicional entre un altavoz y micrófonos, de manera que el rendimiento de cancelación de eco puede mejorarse aún más.

La unidad 210 de retardo y la unidad 110 de multiplicación en la primera realización pueden tener en cuenta un intervalo en la temporización de captación de sonido entre el primer micrófono 104 y el segundo micrófono 106 (diferencia de tiempo de retardo) y una diferencia de amplitud de las señales de captación de sonido, pero pueden que no tengan en cuenta una diferencia en las características de frecuencia entre el primer micrófono 104 y el segundo micrófono 106. Por lo tanto, un segundo ejemplo no incluido por las reivindicaciones describe la configuración utilizando un filtro fijo que también es capaz de manejar una diferencia en las características de frecuencia entre el primer micrófono 104 y el segundo micrófono 106.

Un dispositivo 300 de comunicación por voz se describe a continuación con referencia a la Fig. 6 y a la Fig. 7. La Fig. 6 es un diagrama de bloques que ilustra la configuración del dispositivo 300 de comunicación por voz. La Fig. 7 es un diagrama de flujo que ilustra una operación del dispositivo 300 de comunicación por voz. Como se ilustra en la Fig. 6, el dispositivo 300 de comunicación por voz incluye un altavoz 102, un primer micrófono 104, un segundo micrófono 106, un filtro 310 fijo, una primera unidad 120 de sustracción, una segunda unidad 130 de sustracción y un filtro 140 adaptativo. Es decir, el dispositivo 300 de comunicación por voz es diferente del dispositivo 200 de comunicación por voz en que el dispositivo 300 de comunicación por voz incluye el filtro 310 fijo en lugar de la unidad 210 de retardo y la unidad 110 de multiplicación.

Una operación del dispositivo 300 de comunicación por voz se describe a continuación con referencia a la Fig. 7. El filtro 310 fijo genera una segunda señal de captación de sonido filtrada al realizar un filtrado predeterminado con respecto a una segunda señal de captación de sonido (S310). Un filtro de respuesta de impulso finito (FIR), por ejemplo, puede utilizarse como el filtro 310 fijo. A continuación, se describe la configuración del filtro 310 fijo. Se tiene en cuenta que la variación en las características de radiación de sonido del altavoz 102 y las características del micrófono genera una diferencia en las características de frecuencia de los componentes de sonido directo del eco que alcanza el primer micrófono 104 y el segundo micrófono 106. Por lo tanto, se obtienen una diferencia de tiempo de retardo, una diferencia de amplitud, una diferencia característica de frecuencia entre el primer micrófono 104 y el segundo micrófono 106 a través de experimentos y simulaciones y estas diferencias se establecen en el filtro 310 fijo.

La primera unidad 120 de sustracción genera una primera señal de captación de sonido sustraída en primer lugar al sustraer la segunda señal de captación de sonido filtrada de una primera señal de captación de sonido (S120). El filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de la segunda señal de captación de sonido y una señal de voz transmitida (S140). La segunda unidad 130 de sustracción genera una señal de voz transmitida al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar (S130).

El presente ejemplo también tiene en cuenta una diferencia de característica de frecuencia de los micrófonos en el filtro fijo, se mejora la precisión de la estimación en los componentes de sonido directo de eco en comparación con el primer ejemplo y la primera realización, y así se puede mejorar el rendimiento de la cancelación de eco.

Una segunda señal de captación de sonido filtrada se sustrae de una primera señal de captación de sonido en el segundo ejemplo. Sin embargo, esto provoca el deterioro de una característica de frecuencia de la voz de un locutor cercano que es el sonido objetivo. Este deterioro aumenta a medida que la distancia d1 entre el altavoz 102 y el primer micrófono 104 se acerca más a la distancia d2 entre el altavoz 102 y el segundo micrófono 106. Un tercer ejemplo no incluido por las reivindicaciones describe la configuración a la que se añade un filtro fijo para corregir tal deterioro de una característica de frecuencia.

Un dispositivo 400 de comunicación por voz se describe a continuación con referencia a la Fig. 8 y a la Fig. 9. La Fig. 8 es un diagrama de bloques que ilustra la configuración del dispositivo 400 de comunicación por voz. La Fig. 9 es un diagrama de flujo que ilustra una operación del dispositivo 400 de comunicación por voz. Como se ilustra en la Fig. 8, el dispositivo 400 de comunicación por voz incluye un altavoz 102, un primer micrófono 104, un segundo micrófono 106, un filtro 310 fijo, un segundo filtro 410 fijo, una primera unidad 120 de sustracción, una segunda unidad 130 de sustracción y un filtro 140 adaptativo. Es decir, el dispositivo 400 de comunicación por voz es diferente del dispositivo 300 de comunicación por voz en que el dispositivo 400 de comunicación por voz incluye además el segundo filtro 410 fijo.

Una operación del dispositivo 400 de comunicación por voz se describe a continuación con referencia a la Fig. 9. El segundo filtro 410 fijo genera una primera señal de captación de sonido filtrada al realizar un filtrado predeterminado con respecto a una primera señal de captación de sonido (S410). Un filtro de respuesta de impulso finito (FIR), por ejemplo, puede utilizarse como el segundo filtro 410 fijo.

El filtro 310 fijo genera una segunda señal de captación de sonido filtrada al realizar un filtrado predeterminado con respecto a una segunda señal de captación de sonido (S310). La primera unidad 120 de sustracción genera una primera señal de captación de sonido sustraída en primer lugar al sustraer la segunda señal de captación de sonido filtrada de la primera señal de captación de sonido filtrada (S120). El filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de la segunda señal de captación de sonido y una señal de voz transmitida (S140). La segunda unidad 130 de sustracción genera una señal de voz transmitida al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar (S130).

En el presente ejemplo, una primera señal de captación de sonido se somete a un filtrado predeterminado para ser corregida, lo que hace posible suprimir el deterioro de una característica de frecuencia de la voz de un locutor cercano que es el sonido objetivo.

La cancelación de eco se realiza utilizando el filtro 140 adaptativo que utiliza una segunda señal de captación de sonido como entrada en la primera realización y cada uno de los ejemplos descritos hasta ahora. Aquí, la configuración a la que se añade un segundo filtro adaptativo que utiliza una señal de voz recibida como entrada se describe como un cuarto ejemplo no incluido por las reivindicaciones. La configuración obtenida al añadir un segundo filtro adaptativo al tercer ejemplo se describe aquí, pero se puede emplear la configuración obtenida al añadir el filtro adaptativo a cualquiera de los primer y segundo ejemplos o la primera realización en lugar del tercer ejemplo.

Un dispositivo 500 de comunicación por voz se describe a continuación con referencia a la Fig. 10 y a la Fig. 11. La Fig. 10 es un diagrama de bloques que ilustra la configuración del dispositivo 500 de comunicación por voz. La Fig. 11 es un diagrama de flujo que ilustra una operación del dispositivo 500 de comunicación por voz. Como se ilustra en la Fig. 10, el dispositivo 500 de comunicación por voz incluye un altavoz 102, un primer micrófono 104, un segundo micrófono 106, un filtro 310 fijo, un segundo filtro 410 fijo, una primera unidad 120 de sustracción, una segunda unidad 130 de sustracción, un filtro 140 adaptativo y un segundo filtro 540 adaptativo. Es decir, el dispositivo 500 de comunicación por voz es diferente del dispositivo 400 de comunicación por voz en que el dispositivo 500 de comunicación por voz incluye además el segundo filtro 540 adaptativo.

Una operación del dispositivo 500 de comunicación por voz se describe a continuación con referencia a la Fig. 11. El segundo filtro 410 fijo genera una primera señal de captación de sonido filtrada al realizar un filtrado predeterminado con respecto a una primera señal de captación de sonido (S410). El filtro 310 fijo genera una segunda señal de captación de sonido filtrada al realizar un filtrado predeterminado con respecto a una segunda señal de captación de sonido (S310). La primera unidad 120 de sustracción genera una primera señal de captación de sonido sustraída en primer lugar al sustraer la segunda señal de captación de sonido filtrada de la primera señal de captación de sonido filtrada (S120). El filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de la segunda señal de captación de sonido y una señal de voz transmitida (S140).

El segundo filtro 540 adaptativo genera una señal de voz recibida filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de una señal de voz recibida y la señal de voz transmitida (S540). En otras palabras, el segundo filtro 540 adaptativo genera una señal de voz recibida filtrada de forma adaptativa, que se obtiene al cancelar el eco de la señal de voz transmitida, utilizando la señal de voz recibida como entrada.

La segunda unidad 130 de sustracción genera una señal como una señal de voz transmitida al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa y la señal de voz recibida filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar (S130).

En el presente ejemplo, se añade el filtro adaptativo que utiliza una señal de voz recibida como entrada, lo que hace posible cancelar aún más el sonido residual del altavoz y mejorar el rendimiento de la cancelación de eco.

Un dispositivo 600 de comunicación por voz se describe a continuación con referencia a la Fig. 12 y a la Fig. 13. La Fig. 12 es un diagrama de bloques que ilustra la configuración del dispositivo 600 de comunicación por voz. La Fig. 13 es un diagrama de flujo que ilustra una operación del dispositivo 600 de comunicación por voz. Como se ilustra en la Fig. 12, el dispositivo 600 de comunicación por voz incluye un altavoz 102, un primer micrófono 104, un segundo micrófono 106, una unidad 610 de corrección, una primera unidad 120 de sustracción, una segunda unidad 130 de sustracción y un filtro 140 adaptativo. Es decir, el dispositivo 600 de comunicación por voz es diferente del dispositivo 100 de comunicación por voz en que el dispositivo 600 de comunicación por voz incluye la unidad 610 de corrección en lugar de la unidad 110 de multiplicación.

A continuación se describe una operación del dispositivo 600 de comunicación por voz con referencia a la Fig. 13. La unidad 610 de corrección genera una señal de captación de sonido corregida que es una señal obtenida al corregir una diferencia de amplitud basada en una diferencia entre la distancia d1 desde el altavoz 102 al primer micrófono 104 y la distancia d2 desde el altavoz 102 al segundo micrófono 106, desde una primera señal de captación de sonido (5610) . Se puede determinar un grado de corrección a la luz de la Fórmula (1) descrita en [Coeficiente fijo] del primer ejemplo, por ejemplo.

La primera unidad 120 de sustracción genera una primera señal de captación de sonido sustraída en primer lugar al sustraer una segunda señal de captación de sonido de la señal de captación de sonido corregida generada en S610 (S120). El filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de la segunda señal de captación de sonido y una señal de voz transmitida (S140). La segunda unidad 130 de sustracción genera una señal de voz transmitida al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar (S130).

(Modificación)

El dispositivo 600 de comunicación por voz está configurado para corregir una primera señal de captación de sonido, pero puede configurarse para corregir una segunda señal de captación de sonido. Se describe un dispositivo 601 de comunicación por voz que tiene tal configuración.

Un dispositivo 601 de comunicación por voz se describe a continuación con referencia a la Fig. 14 y a la Fig. 15. La Fig. 14 es un diagrama de bloques que ilustra la configuración del dispositivo 601 de comunicación por voz. La Fig. 15 es un diagrama de flujo que ilustra una operación del dispositivo 601 de comunicación por voz. Como se ilustra en la Fig. 14, el dispositivo 601 de comunicación por voz incluye un altavoz 102, un primer micrófono 104, un segundo micrófono 106, una unidad 611 de corrección, una primera unidad 120 de sustracción, una segunda unidad 130 de sustracción y un filtro 140 adaptativo. Es decir, el dispositivo 601 de comunicación por voz es diferente del dispositivo 600 de comunicación por voz en que el dispositivo 601 de comunicación por voz incluye la unidad 611 de corrección en lugar de la unidad 610 de corrección.

Una operación del dispositivo 601 de comunicación por voz se describe a continuación con referencia a la Fig. 15. La unidad 611 de corrección genera una señal de captación de sonido corregida que es una señal obtenida al corregir una diferencia de amplitud basada en una diferencia entre la distancia d1 desde el altavoz 102 al primer micrófono 104 y la distancia d2 desde el altavoz 102 al segundo micrófono 106, desde una segunda señal de captación de sonido (5611) . Se puede determinar un grado de corrección a la luz de la Fórmula (1) descrita en [Coeficiente fijo] del primer ejemplo, por ejemplo.

La primera unidad 120 de sustracción genera una primera señal de captación de sonido sustraída en primer lugar al sustraer la señal de captación de sonido corregida generada en S611 de una primera señal de captación de sonido (S120). El filtro 140 adaptativo genera una segunda señal de captación de sonido filtrada de forma adaptativa al cancelar el eco que varía con el tiempo, a partir de la segunda señal de captación de sonido y una señal de voz transmitida (S140). La segunda unidad 130 de sustracción genera una señal de voz transmitida al sustraer la segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar (S130).

<Apéndice>

Cada dispositivo según la presente invención tiene, como única entidad de hardware, por ejemplo, una unidad de entrada a la que se puede conectar un teclado o similar, una unidad de salida a la que se puede conectar una pantalla de cristal líquido o similar, una unidad de comunicación a la que se puede conectar un dispositivo de comunicación (por ejemplo, un cable de comunicación) capaz de comunicarse con el exterior de la entidad de hardware, una unidad central de procesamiento (CPU, que puede incluir memoria caché y/o registros), RAM o ROM como memorias, un dispositivo de almacenamiento externo que es un disco duro y un bus que conecta la unidad de entrada, la unidad de salida, la unidad de comunicación, la CPU, la RAM, la ROM y el dispositivo de almacenamiento externo de manera que se puedan intercambiar datos entre ellos. La entidad de hardware también puede incluir, por ejemplo, un dispositivo (unidad) capaz de leer y escribir un medio de grabación tal como un CD-ROM según se desee. Una entidad física que tenga dichos recursos de hardware puede ser, por ejemplo, un ordenador de uso general.

El dispositivo de almacenamiento externo de la entidad de hardware tiene almacenados en él los programas necesarios para incorporar las funciones antes mencionadas y los datos necesarios en el procesamiento de los programas (además del dispositivo de almacenamiento externo, los programas pueden almacenarse previamente en ROM como un dispositivo de almacenamiento exclusivamente para lectura, por ejemplo). Además, los datos o similares resultantes del procesamiento de estos programas se almacenan en la memoria RAM y en el dispositivo de almacenamiento externo, según corresponda.

En la entidad de hardware, los programas y datos necesarios para el procesamiento de los programas almacenados en el dispositivo de almacenamiento externo (o ROM y similares) son leídos en la memoria según sea necesario para ser interpretados y ejecutados/procesados según corresponda por la CPU. Como consecuencia, la CPU incorpora funciones predeterminadas (los componentes representados anteriormente como unidades, medios o similares).

Como ya se ha mencionado, cuando las funciones de procesamiento de las entidades de hardware descritas en las realizaciones y ejemplos (los dispositivos de la presente invención) se han de realizar con un ordenador, los detalles de procesamiento de las funciones que proporcionarán las entidades de hardware se describen mediante un programa. A continuación, al ejecutarse el programa en el ordenador, las funciones de procesamiento de la entidad de hardware se materializan en el ordenador.

El programa que describe los detalles del procesamiento se puede grabar en un medio de grabación legible por ordenador. El medio de grabación legible por ordenador puede ser de cualquier tipo, tal como un dispositivo de grabación magnético, un disco óptico, un medio de grabación magneto-óptico o una memoria de semiconductores. Más específicamente, un dispositivo de grabación magnético puede ser un dispositivo de disco duro, un disco flexible o una cinta magnética; un disco óptico puede ser un DVD (disco versátil digital), un DVD-RAM (memoria de acceso aleatorio), un CD-ROM (disco compacto de memoria de sólo lectura) o un CD-R (que se puede grabar)/RW (que se puede reescribir); un medio de grabación magneto-óptico puede ser un MO (disco magneto-óptico); y una memoria de semiconductores puede ser una EEP-ROM (memoria de sólo lectura programable y borrable electrónicamente), por ejemplo.

Además, la distribución de este programa se realiza, por ejemplo, vendiendo, transfiriendo o prestando un medio de grabación portátil, tal como un DVD o un CD-ROM en el que está grabado el programa. Además, se puede adoptar una configuración en la que este programa se distribuye almacenando el programa en un dispositivo de almacenamiento de un servidor y transfiriendo el programa a otros ordenadores desde el servidor a través de una red.

El ordenador que ejecuta dicho programa en primer lugar, por ejemplo, almacena temporalmente el programa grabado en el medio de grabación portátil o el programa transferido desde el servidor en un dispositivo de almacenamiento del mismo. En el momento de la ejecución del procesamiento, a continuación, el ordenador lee el programa almacenado en su dispositivo de almacenamiento y ejecuta el procesamiento según el programa leído. También, como otra forma de ejecución de este programa, el ordenador puede leer el programa directamente desde el medio de grabación portátil y ejecutar el procesamiento según el programa y, además, cada vez que el programa se transfiere al ordenador desde el servidor, el ordenador puede ejecutar secuencialmente el procesamiento según el programa recibido. También, se puede adoptar una configuración en la que no se realiza la transferencia de un programa al ordenador desde el servidor y el procesamiento descrito anteriormente se ejecuta mediante el llamado servicio de tipo proveedor de servicios de aplicaciones (ASP) mediante el cual las funciones de procesamiento se implementan únicamente mediante una instrucción para su ejecución y adquisición de resultados. Obsérvese que un programa en esta forma incluirá información que se utiliza en el procesamiento por un ordenador electrónico y actúa como un programa (tal como datos que no son un comando directo a un ordenador pero que tienen propiedades que prescriben el procesamiento por ordenador).

Además, aunque la entidad de hardware se ha descrito como que está configurada a través de la ejecución de un programa predeterminado en un ordenador de esta forma, al menos algunos de estos detalles de procesamiento pueden incorporarse con hardware.

La descripción anterior de las realizaciones de la invención se ha presentado con fines ilustrativos y descriptivos. No pretende ser exhaustivo y limitar la invención a la forma precisa dada a conocer. Son posibles modificaciones o variaciones a la luz de la enseñanza anterior. La realización se ha elegido y descrito para proporcionar la mejor ilustración de los principios de la invención y su aplicación práctica, y para posibilitar que un experto en la técnica utilice la invención en diversas realizaciones y con diversas modificaciones que se adapten al uso particular contemplado. Todas estas modificaciones y variaciones están dentro del alcance de la invención según lo determinado por las reivindicaciones adjuntas cuando se interpretan según la amplitud a la que tienen derecho de manera justa, legal y equitativa.

Claims

REIVINDICACIONES

1 Un dispositivo de comunicación por voz que comprende:

un altavoz (102) que está configurado para emitir una señal de voz recibida, siendo la señal de voz recibida una señal de voz de un locutor alejado;

un primer micrófono (104) que está configurado para captar una señal acústica como una primera señal de captación de sonido, conteniendo la señal acústica la voz del locutor que es la voz pronunciada por un locutor cercano y el sonido de reproducción que se obtiene al emitir la señal de voz recibida;

un segundo micrófono (106) que está configurado para captar una señal acústica como una segunda señal de captación de sonido, conteniendo la señal acústica la voz del locutor y el sonido de reproducción;

una unidad (610) de corrección que está configurada para generar una señal de captación de sonido corregida, siendo la señal de captación de sonido corregida una señal obtenida al corregir una diferencia de amplitud de las señales de captación de sonido entre el primer micrófono (104) y el segundo micrófono (106) basándose en una diferencia entre una distancia d1 desde el altavoz al primer micrófono y una distancia d2 desde el altavoz al segundo micrófono, aquí, d2 < d1, desde cualquiera de la primera señal de captación de sonido y la segunda señal de captación de sonido; una primera unidad (120) de sustracción que está configurada para generar una primera señal de captación de sonido sustraída en primer lugar, siendo la primera señal de captación de sonido sustraída en primer lugar una señal obtenida al sustraer la segunda señal de captación de sonido de la señal de captación de sonido corregida o una señal obtenida al sustraer la señal de captación de sonido corregida de la primera señal de captación de sonido; y

una segunda unidad (130) de sustracción que está configurada para generar una señal, siendo obtenida la señal al sustraer una segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar, como una señal de voz transmitida, siendo la señal de voz transmitida que se ha de transmitir al locutor alejado,

el dispositivo de comunicación por voz caracterizado por que comprende:

un filtro (140) adaptativo que está configurado para generar dicha segunda señal de captación de sonido filtrada de forma adaptativa mediante la cancelación del eco que varía con el tiempo, utilizando la segunda señal de captación de sonido, a partir de la señal de voz transmitida, en donde se actualiza un coeficiente de filtro del filtro adaptativo mediante el uso de un algoritmo de mínimos cuadrados medios normalizados, NLMS, o un algoritmo de mínimos cuadrados medios, LMS, cuando una relación Pow1/Pow2 entre la potencia Pow1 de la señal de voz transmitida y la potencia Pow2 de la segunda señal de captación de sonido está dentro de un rango predeterminado que representa que la relación Pow1/Pow2 es pequeña.
2.- Un dispositivo de comunicación por voz que comprende:

un altavoz (102) que está configurado para emitir una señal de voz recibida, siendo la señal de voz recibida una señal de voz de un locutor alejado;

un primer micrófono (104) que está configurado para captar una señal acústica como una primera señal de captación de sonido, conteniendo la señal acústica la voz del locutor que es la voz pronunciada por un locutor cercano y el sonido de reproducción que se obtiene al emitir la señal de voz recibida;

un segundo micrófono (106) que está configurado para captar una señal acústica como una segunda señal de captación de sonido, conteniendo la señal acústica la voz del locutor y el sonido de reproducción;

una unidad (210) de retardo que está configurada para generar una segunda señal de captación de sonido retardada, siendo la señal de captación de segundo sonido retardada, una señal obtenida al añadir un retardo predeterminado a la segunda señal de captación de sonido;

una unidad (110) de multiplicación que está configurada para generar una segunda señal de captación de sonido ganada, siendo la segunda señal de captación de sonido ganada, una señal obtenida al multiplicar la señal de captación de segundo sonido retardada por un coeficiente fijo predeterminado;

una primera unidad (120) de sustracción que está configurada para generar una primera señal de captación de sonido sustraída en primer lugar, siendo la primera señal de captación de sonido sustraída en primer lugar, una señal obtenida al sustraer la segunda señal de captación de sonido ganada de la primera señal de captación de sonido; y una segunda unidad (130) de sustracción que está configurada para generar una señal, siendo obtenida la señal al sustraer una segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar, como una señal de voz transmitida, siendo la señal de voz transmitida que se ha de transmitir al locutor alejado,

el dispositivo de comunicación por voz caracterizado por que comprende:

un filtro (140) adaptativo que está configurado para generar dicha segunda señal de captación de sonido filtrada de forma adaptativa mediante la cancelación del eco que varía con el tiempo, utilizando la segunda señal de captación de sonido, a partir de la señal de voz transmitida, en donde

la distancia d1 del altavoz al primer micrófono es igual o mayor que la distancia d2 del altavoz al segundo micrófono, el coeficiente fijo es una relación d2/d1 entre la distancia d2 y la distancia d1, y

un coeficiente de filtro del filtro adaptativo se actualiza utilizando un algoritmo de mínimos cuadrados medios normalizados, NLMS, o un algoritmo de mínimos cuadrados medios, LMS, cuando una relación Pow1/Pow2 entre la potencia Pow1 de la señal de voz transmitida y la potencia Pow2 de la segunda señal de captación de sonido está dentro de un rango predeterminado, lo que representa que la relación Pow1/Pow2 es pequeña.
3.- Un método de comunicación por voz, en el que un dispositivo de comunicación por voz genera una señal de voz transmitida que se ha de transmitir a un locutor alejado,

Incluyendo el dispositivo de comunicación por voz

un altavoz (102) que emite una señal de voz recibida que es una señal de voz del locutor alejado,

un primer micrófono (104) que capta una señal acústica como primera señal de captación de sonido, que contiene la señal acústica la voz del locutor que es la voz pronunciada por un locutor cercano y el sonido de reproducción que se obtiene al emitir la señal de voz recibida, y

un segundo micrófono (106) que capta una señal acústica como segunda señal de captación de sonido, que contiene la señal acústica la voz del locutor y el sonido de reproducción,

el método de comunicación por voz que comprende:

una etapa (S610) de corrección en la que el dispositivo de comunicación por voz genera una señal de captación de sonido corregida, siendo la señal de captación de sonido corregida una señal obtenida al corregir una diferencia de amplitud de las señales de captación de sonido entre el primer micrófono (104) y el segundo micrófono (106) basado en una diferencia entre una distancia d1 desde el altavoz al primer micrófono y una distancia d2 desde el altavoz al segundo micrófono, aquí, d2 < d1, desde cualquiera de la primera señal de captación de sonido y la segunda señal de captación de sonido;

una primera etapa (S120) de sustracción en la que el dispositivo de comunicación por voz genera una primera señal de captación de sonido sustraída en primer lugar, siendo la primera señal de captación de sonido sustraída en primer lugar una señal obtenida al sustraer la segunda señal de captación de sonido de la señal de captación de sonido corregida o una señal obtenida al sustraer la señal de captación de sonido corregida de la primera señal de captación de sonido; y

una segundo etapa (S130) de sustracción en la que el dispositivo de comunicación por voz genera una señal, siendo obtenida la señal al sustraer una segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar, como una señal de voz transmitida, siendo la voz transmitida la señal que se ha de transmitir al locutor alejado,

el método de comunicación por voz caracterizado que comprende:

una etapa (S140) de filtrado adaptativo en la que el dispositivo de comunicación por voz genera dicha segunda señal de captación de sonido filtrada de forma adaptativa mediante la cancelación del eco que varía con el tiempo, utilizando la segunda señal de captación de sonido, a partir de la señal de voz transmitida, en donde un coeficiente de filtro de la señal adaptativa se actualiza utilizando un algoritmo de mínimos cuadrados medios normalizados, NLMS, o un algoritmo de mínimos cuadrados medios, LMS, cuando una relación Pow1/Pow2 entre la potencia Pow1 de la señal de voz transmitida y la potencia Pow2 de la segunda señal de captación de sonido está dentro de un rango predeterminado que representa que la relación Pow1/Pow2 es pequeña.
4. - Un método de comunicación por voz, en el que un dispositivo de comunicación por voz genera una señal de voz transmitida que se ha de transmitir a un locutor alejado,

incluyendo el dispositivo de comunicación por voz

un altavoz (102) que emite una señal de voz recibida que es una señal de voz del locutor alejado,

un primer micrófono (104) que capta una señal acústica como primera señal de captación de sonido, conteniendo la señal acústica la voz del locutor que es la voz pronunciada por un locutor cercano y el sonido de reproducción que se obtiene al emitir la señal de voz recibida, y

un segundo micrófono (106) que capta una señal acústica como segunda señal de captación de sonido, que contiene la señal acústica la voz del locutor y el sonido de reproducción,

el método de comunicación por voz que comprende:

una etapa (S210) de retardo en la que el dispositivo de comunicación por voz genera una segunda señal de captación de sonido retardada, siendo la señal de captación de segundo sonido retardada una señal obtenida al añadir un retardo predeterminado a la segunda señal de captación de sonido;

una etapa (S110) de multiplicación en la que el dispositivo de comunicación por voz genera una segunda señal de captación de sonido ganada, siendo la segunda señal de captación de sonido obtenida una señal obtenida al multiplicar la segunda señal de captación de sonido retardada por un coeficiente fijo predeterminado;

una primera etapa (S120) de sustracción en el que el dispositivo de comunicación por voz genera una primera señal de captación de sonido sustraída en primer lugar, siendo la primera señal de captación de sonido sustraída en primer lugar una señal obtenida al sustraer la segunda señal de captación de sonido ganada de la primera señal de captación de sonido; y

una segunda etapa (S130) de sustracción en la que el dispositivo de comunicación por voz genera una señal, siendo obtenida la señal al sustraer una segunda señal de captación de sonido filtrada de forma adaptativa de la primera señal de captación de sonido sustraída en primer lugar, como una señal de voz transmitida, la señal de voz transmitida que se ha de transmitir al locutor alejado,

el método de comunicación por voz caracterizado que comprende:

una etapa (S140) de filtrado adaptativo en la que el dispositivo de comunicación por voz genera dicha segunda señal de captación de sonido filtrada de forma adaptativa mediante la cancelación del eco que varía con el tiempo, utilizando la segunda señal de captación de sonido, a partir de la señal de voz transmitida, en la que

la distancia d1 del altavoz al primer micrófono es igual o mayor que la distancia d2 del altavoz al segundo micrófono, el coeficiente fijo es una relación d2/d1 entre la distancia d2 y la distancia d1, y

un coeficiente de filtro del filtro adaptativo se actualiza utilizando un algoritmo de mínimos cuadrados medios normalizados, NLMS, o un algoritmo de mínimos cuadrados medios, LMS, cuando una relación Pow1/Pow2 entre la potencia Pow1 de la señal de voz transmitida y la potencia Pow2 de la segunda señal de captación de sonido está dentro de un rango predeterminado, lo que representa que la relación Pow1/Pow2 es pequeña.
5. - Un programa que comprende instrucciones que, cuando son ejecutadas por un ordenador, hacen que el ordenador lleve a cabo el método de la reivindicación 3 o 4.