ES2554622T3 - Dispositivo y método para capturar y procesar la voz - Google Patents

Dispositivo y método para capturar y procesar la voz Download PDF

Info

Publication number
ES2554622T3
ES2554622T3 ES10785422.6T ES10785422T ES2554622T3 ES 2554622 T3 ES2554622 T3 ES 2554622T3 ES 10785422 T ES10785422 T ES 10785422T ES 2554622 T3 ES2554622 T3 ES 2554622T3
Authority
ES
Spain
Prior art keywords
noise
voice
section
microphones
arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10785422.6T
Other languages
English (en)
Inventor
Hervé LISSEK
Philippe Martin
Jorge Carmona
Michel Imhasly
Ian Millar
Xavier Falourd
Patrick Marmaroli
Gilbert MAÎTRE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VEOVOX SA
Original Assignee
VEOVOX SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VEOVOX SA filed Critical VEOVOX SA
Application granted granted Critical
Publication of ES2554622T3 publication Critical patent/ES2554622T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/03Constructional features of telephone transmitters or receivers, e.g. telephone hand-sets
    • H04M1/035Improving the acoustic characteristics by means of constructional features of the housing, e.g. ribs, walls, resonating chambers or cavities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Dispositivo de mano de captura de voz (1), que comprende: un brazo orientable (23), que comprende un primer tramo y un segundo tramo, presentando dicho primer tramo y dicho segundo tramo unas orientaciones diferentes, comprendiendo dicho primer tramo de dicho brazo (23) una primera matriz lineal diferencial (25) de micrófonos, estando la directividad de dicha primera matriz lineal diferencial (25) dispuesta para una captación mejorada de voz procedente de un usuario; comprendiendo dicho segundo tramo de dicho brazo una segunda matriz lineal diferencial (24) de micrófonos, estando la directividad de dicha segunda matriz lineal diferencial (24) dispuesta para una captación mejorada de ruido procedente de una dirección diferente a la de dicha voz captada; un circuito de reducción de ruido para proporcionar una señal de voz con ruido reducido, sobre la base de la salida de dicha primera matriz lineal diferencial (25) y de la salida de dicha segunda matriz lineal diferencial (24).

Description

imagen1
DESCRIPCIÓN
Dispositivo y método para capturar y procesar la voz.
5 Campo de la invención
La presente invención se refiere a un dispositivo y un método para capturar y procesar la voz, especialmente en entornos con ruido. La invención se refiere, entre otros aspectos, a un dispositivo móvil que se puede utilizar en entornos con ruido, tales como, sin carácter limitativo, restaurantes, para capturar y procesar la voz, y para llevar a cabo un reconocimiento del habla.
Técnica anterior
Aunque recientemente ha mejorado la velocidad de reconocimiento de los algoritmos de reconocimiento del habla, la
15 misma sigue siendo baja en condiciones difíciles, especialmente cuando la relación señal/ruido es insuficiente. Por este motivo, la captura y el reconocimiento de la voz en entorno con ruido siguen siendo dificultosos o poco fiables.
No obstante, existe una necesidad de dispositivos con capacidad de llevar a cabo un reconocimiento fiable del habla incluso en entornos con mucho ruido, tales como (sin carácter limitativo) bares y restaurantes. Por ejemplo, sería útil disponer de un dispositivo con capacidad de capturar y reconocer la voz de un camarero en un restaurante, y utilizar este dispositivo para anotar, reconocer y transmitir pedidos por voz.
El documento US7110963 divulga un sistema de reconocimiento del habla para posibilitar que un camarero en un restaurante transmita órdenes a la cocina. Se usa una aplicación de software de reconocimiento del habla para
25 controlar el procesado y el flujo de datos durante operaciones de anotación de pedidos y para recibir información de pedidos desde el servidor en tiempo real durante la interacción con el cliente.
El documento US-A1-2002/0007315 divulga otro sistema de pedidos activado por voz para un restaurante de comida rápida, en donde los pedidos se introducen en una caja registradora de un punto de venta y se convierten a mensajes de voz para el manipulador de alimentos del restaurante. En el punto de venta se utiliza un circuito de conversión de habla-a-texto para introducir órdenes por voz.
Las soluciones antes mencionadas son útiles y permiten una transmisión más rápida y natural de pedidos entre el restaurante y la cocina. No obstante, en muchos restaurantes con un nivel de ruido elevado o incluso medio, la
35 fiabilidad del reconocimiento del habla es insatisfactoria; la relación señal/ruido no es suficiente para que los algoritmos existentes de reconocimiento del habla tengan un rendimiento fiable.
Se ha observado que la calidad y la directividad del micrófono tienen una importancia primordial para capturar una señal de voz de buena calidad. El documento US-B2-7120477 (Microsoft Corporation) describe un dispositivo informático móvil personal que tiene un micrófono montado en una antena y con detección del habla. La antena comprende un micrófono posicionado en su extremo distal y está adaptada para orientarse hacia un usuario, reduciendo así la distancia entre la boca del usuario del micrófono mientras el dispositivo es sostenido con la palma de la mano del usuario. La reducción de esta distancia ayuda a aumentar la relación señal/ruido de las señales de habla proporcionadas por el micrófono. No obstante, esta solución sigue siendo insuficiente para entornos con
45 mucho ruido.
En el documento EP694833 se divulga otro módulo para capturar voz en entornos con ruido. Este documento describe una primera matriz de micrófonos orientables según el haz, para capturar voz, y una matriz de micrófonos adicional orientable según el haz para reconocer fuentes adicionales de datos de audio y fuentes de ruido y/o interferencia. La finalidad en este caso es localizar el hablante (fuente de audio) con un algoritmo de triangulación, y controlar un sistema de accionamiento mecánico para dirigir el foco de una cámara de vídeo hacia el hablante.
Las dos matrices de micrófonos son bidimensionales y ocupan por lo tanto una gran superficie; por lo tanto no es posible montar las matrices sobre un haz lineal al mismo tiempo que manteniendo una distancia suficiente entre los
55 micrófonos. Por parte, el post-procesado de las señales de audio entregadas por dos matrices multidimensionales de micrófonos es complicada y requiere una gran cantidad de circuitería o poder de procesado, un consumo de energía elevado, y con frecuencia dará como resultado un filtrado no deseado de la señal de salida.
El documento US 2005074129 divulga un dispositivo acústico que está provisto de un primer o primeros y un segundo o segundos elementos acústicos para generar una primera señal que incluye en su mayor parte audio no deseado y que está desprovista sustancialmente de audio deseado, y una segunda señal que incluye audio deseado así como no deseado respectivamente. El primer o primeros elementos acústicos están diseñados y dispuestos para generar un haz cardiode con un cero en una dirección de origen del audio deseado. El segundo o segundos elementos acústicos están diseñados y dispuestos para generar un haz complementario que incluye el audio 65 deseado. Un sistema está provisto de un módulo lógico de procesado de señales apropiado para recuperar el audio
imagen2
deseado utilizando la primera y segunda señales. El módulo lógico de procesado de señales puede poner en práctica técnicas de tipo cancelación de eco o técnicas de separación ciega de señales.
El documento US2007165879 divulga unas técnicas para mejorar señales de voz en un sistema de micrófono dual.
5 Según un aspecto de este documento, se dispone de por lo menos dos micrófonos que están posicionados en una matriz pre-configurada. Se reciben dos señales de audio y las mismas se acoplan a un módulo de ajuste que está previsto para controlar la ganancia de cada una de las señales de audio con el fin de reducir al mínimo diferencias de señal entre las dos señales. Se proporciona un módulo de separación para recibir señales de audio adaptadas desde el módulo de ajuste. Se proporciona un módulo de filtrado adaptativo para eliminar el componente de ruido de la señal de audio con el fin de obtener una señal de voz estimada con una relación S/N mayor.
El documento JP2009260418 se refiere a un equipo acústico.
El documento US2008013758 divulga un módulo de micrófono que está conectado externamente a un dispositivo
15 electrónico el cual incluye un primer conector de entrada de sonido. El módulo de micrófono incluye una matriz de micrófonos, un procesador de señal digital, y una primera parte de conexión. La matriz de micrófonos recibe sonido y genera una primera señal eléctrica. El procesador de señal digital recibe la primera señal eléctrica, lleva a cabo una conformación del haz y una supresión de ruido, y obtiene una segunda señal eléctrica. La primera parte de conexión se inserta en el primer conector de entrada de sonido, transmitiendo la segunda señal eléctrica al dispositivo electrónico.
El documento JP2007027939 se refiere a un procesador de señales acústicas.
El documento US2003125959 se refiere a un dispositivo traductor con una matriz plana de micrófonos. Formas de
25 realización de la invención incluyen un dispositivo y un método para traducir palabras pronunciadas en un idioma en una versión gráfica o audible de las palabras en un segundo idioma. Una matriz plana de tres o más micrófonos se puede colocar en un dispositivo portátil, tal como un ordenador de mano o un asistente personal digital. La matriz plana, en combinación con un circuito de procesado de señales, define una dirección de sensibilidad. En un entorno con ruido, se seleccionan las palabras pronunciadas que se originan en la dirección de sensibilidad y se rechazan los otros sonidos. Las palabras pronunciadas son reconocidas y traducidas, y la traducción se muestra en una pantalla de visualización y/o se emite por medio de un altavoz.
El documento JP 4 324324 se refiere a un dispositivo y un método para medir una fuente de sonido en movimiento.
35 El documento JP 2009 188641 se refiere a un aparato emisor y captador de sonido.
Por lo tanto, una de las finalidades de la presente invención es desarrollar un dispositivo de mano mejorado que pueda capturar y procesar la voz, y generar una señal de voz con una relación de señal/ruido suficiente para aplicaciones fiables de reconocimiento del habla.
Otra de las finalidades de la invención es desarrollar un dispositivo basado en micrófonos con capacidad de mejorar la captación de la voz del usuario al mismo tiempo que reduciendo al mínimo el ruido de fondo y los posibles hablantes parásitos en condiciones difusas.
45 Las prestaciones del dispositivo deberían cubrir por lo menos el ancho de banda de voz medio, aunque también se deberían ampliar para mejorar el proceso de reconocimiento del habla, a saber [300Hz–6kHz].
Otra de las finalidades es desarrollar un dispositivo con capacidad de extraer información de voz útil (tal como una orden o un pedido en un restaurante) de entre el ruido de fondo el cual puede ser más o menos difuso (sin ángulo de incidencia predominante), más o menos intenso (en términos de niveles de presión de sonido) y con características espectrales variadas (música amplificada, voces individuales, “ruido cóctel”, etcétera).
Otra de las finalidades es desarrollar un dispositivo mejorado para captar voz procedente de la boca del hablante y ruido de otras direcciones, y que se pueda sostener en la palma de la mano del usuario.
55 Breve sumario de la invención
Según un aspecto de la invención, un dispositivo portátil de captura de voz comprende:
un brazo orientable adaptado para orientarse hacia la boca de un usuario, comprendiendo dicho brazo una primera matriz lineal diferencial de micrófonos, estando la directividad de dicha primera matriz dispuesta para captar voz de la boca de dicho usuario;
una segunda matriz lineal diferencial de micrófonos, estando la directividad de dicha segunda matriz dispuesta para 65 captar ruido de una dirección diferente a la de la boca del usuario;
imagen3
un circuito de reducción de ruido para proporcionar una señal de voz con ruido reducido, basándose en la salida de dicha primera matriz y en la salida de dicha segunda matriz.
En una forma de realización preferida, el dispositivo es un dispositivo de mano. En otra forma de realización, el
5 dispositivo se puede conectar con otros equipos, incluyendo, sin carácter limitativo, un PC fijo, ordenadores portátiles, estaciones de trabajo, otros dispositivos móviles, tales como teléfonos móviles, y otros dispositivos. En una forma de realización preferida, la primera matriz diferencial se utiliza para capturar ruido de fondo desde una dirección posterior.
Se conocen matrices diferenciales de micrófonos en sí mismas, y se describen por ejemplo en “Superdirectional Microphone Arrays” de Elko, G.W., en “Acoustic Signal Processing for Telecommunication”, J. Benesty y S. Gay (eds.), págs. 181 a 236, Kluwer Academic Publishers, 2000. La mayoría de matrices de micrófonos son relativamente voluminosas y no están adaptadas para dispositivos portátiles.
15 La presente invención se refiere a una disposición específica de matrices lineales, que permite capturar sonido según diferentes direcciones. El usuario puede orientar el brazo hacia su boca, y asegurarse de que la primera dirección está adaptada para capturar la voz del usuario, mientras que la segunda dirección captura esencialmente ruido de fondo. A continuación, el circuito de reducción de ruido puede mejorar la señal de voz eliminando el ruido de fondo, con el uso de, por ejemplo, técnicas de coherencia.
En una forma de realización, la primera matriz de micrófonos captura voz en una primera dirección frontal y ruido de fondo desde una dirección posterior, mientras que la segunda matriz de micrófonos captura ruido de fondo y otras voces procedentes de la derecha y la izquierda.
25 Otras formas de realización pueden usar más de dos matrices de micrófonos, y/o matrices complejas con el fin de proporcionar un mejor control sobre la directividad del dispositivo. Preferentemente, los micrófonos son, sin carácter limitativo, micrófonos de tipo electret.
En una forma de realización, el brazo tiene forma de L, y comprende una matriz lineal de micrófonos en cada una de las dos ramificaciones. En la invención pueden utilizarse también otras disposiciones, incluyendo micrófonos con una pluralidad de ramificaciones no perpendiculares, micrófonos en forma de U con tres matrices de micrófonos, o disposiciones con pares de micrófonos en ramificaciones diferentes de un brazo común.
Según otro aspecto, posiblemente independiente, de la invención, la señal de voz que proporciona a la salida el
35 micrófono se somete a un post-procesado por medio de un filtro de post-procesado que comprende una pluralidad de capas de procesado de señal, permitiendo la extracción de la voz de entre el ruido, reduciendo el ruido residual, y evaluando la coherencia de la señal resultante con la captación de voz original.
Según otro aspecto, un detector de actividad vocal automático adicional permite una mejora adicional de la señal al eliminar segmentos de tiempo durante los cuales no se detecta la actividad vocal.
Las técnicas de post-procesado de señales de voz son conocidas como tales y han sido descritas, por ejemplo, por Kim KM, Choi YK, Park KS, “A new approach for rustle noise cancelling in pen-type voice recorder”, IEEE Transactions on Consumer Electronics, vol. 49 (4), págs. 1.118 a 1.124, noviembre de 2003. Otro ejemplo de
45 método de post-procesado ha sido descrito por O. Yilmaz y S. Rickard, “Blind Separation of Speech Mixtures via Time-Frequency Masking”, IEEE Transactions on Signal Processing, vol. 52 (7), págs. 1.830 a 1.847, julio de 2004. La combinación específica de métodos descritos y reivindicados se ha probado resultando ser particularmente eficaz para el fin antes mencionado, y ha resultado ser eficaz para eliminar ruido para una señal de voz capturada con el micrófono específico que se describe y reivindica en esta solicitud, al mismo tiempo que se evitan componentes innecesarios de hardware y software los cuales son requeridos por disposiciones más complejas.
Una ventaja clave del dispositivo que se divulga en la descripción y las reivindicaciones es su capacidad de ajustar la directividad con el fin de capturar y reconocer voz desde una distancia cómoda; el hablante puede hablar a una distancia cómoda (superior a 10 cm, preferentemente superior a 15 cm incluso en condiciones ruidosas, tales como
55 en un restaurante) con respecto al dispositivo de mano.
En una forma de realización preferida, la matriz de micrófonos es suficientemente pequeña para garantizar la ergonomía y portabilidad del sistema, y no supera las dimensiones de los PDA o PC de bolsillo comunes (aproximadamente 150 mm x 70 mm, y en cualquier caso inferior a 180 x 100 mm).
Breve descripción de las figuras
La presente invención se entenderá mejor con la descripción de algunas formas de realización ilustradas por las figuras, en las cuales: 65 la figura 1 ilustra esquemáticamente un sistema para capturar y transmitir pedidos por voz en un restaurante.
imagen4
la figura 2 ilustra esquemáticamente un sub-sistema de micrófonos.
la figura 3 es un diagrama que muestra la influencia de µ sobre el patrón de directividad de un sub-sistema de 5 primer orden de micrófonos.
la figura 4 es un diagrama que muestra la dependencia de la sensibilidad de una matriz diferencial de primer orden con respecto al ángulo y la frecuencia.
la figura 5 ilustra esquemáticamente una matriz diferencial de segundo orden.
la figura 6 ilustra un ejemplo de dispositivo que comprende una configuración de micrófonos diferencial y bidimensional (a la izquierda: matriz de radiación transversal (broadside); a la derecha: matriz orientable de radiación longitudinal (endfire)).
15 la figura 7 ilustra esquemáticamente la disposición de micrófonos en el dispositivo de la figura 6.
la figura 8 es un diagrama de flujo que ilustra una posibilidad de combinación de varios filtros y métodos utilizados después de la conformación de haz para el post-procesado con el fin de potenciar la voz y/o amortiguar el ruido.
Descripción detallada de las formas de realización preferidas
La siguiente descripción se aporta poniendo énfasis en la forma de realización basada en PC de bolsillo para la
25 anotación de pedidos por voz en restaurantes. No obstante, el dispositivo de la invención también se puede utilizar con otros equipos, incluyendo, sin carácter limitativo, PC fijos, ordenadores portátiles, estaciones de trabajo, otros dispositivos móviles, tales como teléfonos móviles, y otros dispositivos, y para otras aplicaciones diferentes de restaurantes y bares (industria de la hostelería, hospitales, industria del entretenimiento, tiendas de comestibles, laboratorios, etcétera).
En la figura 1 se ilustra un ejemplo de entorno en el cual se pueden usar el método y el dispositivo. En este escenario, un camarero 2 en un bar o restaurante anota un pedido de clientes 3 que están sentados en una mesa. El camarero repite cada pedido y lo pronuncia al micrófono de su dispositivo móvil 1. En esta forma de realización, la señal de voz grabada se somete a un post-procesado localmente, por ejemplo mediante el procesador del 35 dispositivo móvil 1 ó a través de medios de procesado dedicados, con el fin de mejorar la relación de señal/ruido. Este post-procesado también se podría realizar por medio de un ordenador remoto o servidor en otra forma de realización, aunque esto es probable que introduzca un retardo. A continuación, la señal de voz procesada se transmite por vía aérea a un punto de acceso 7, utilizando un protocolo normalizado de comunicaciones inalámbricas, tal como el 802.11, Bluetooth, etcétera. El punto de acceso 7 pertenece a una red de área local 8 (LAN), a la cual están conectados otros diversos equipos, tales como un ordenador personal 5, un servidor 6, etcétera. La señal de voz recibida desde el punto de acceso 7 se convierte en órdenes de texto por medio del servidor 6 el cual ejecuta un algoritmo de reconocimiento de habla. El algoritmo de reconocimiento de habla podría ser ejecutado por el dispositivo móvil si este dispositivo dispone de suficiente poder de procesado; no obstante, esto puede hacer que una actualización de los modelos de habla y de idioma (tales como la lista de órdenes a reconocer,
45 y la gramática asociada) resulte más dificultosa.
En una forma de realización preferida, el reconocimiento del habla depende del hablante y utiliza plantillas dependientes del hablante almacenadas en una base de datos 60. En esta base de datos 60 se almacenan un diccionario y una gramática para limitar el número de palabras o expresiones a reconocer, y para definir algunas reglas que caracterizan el texto hablado por el camarero. Esta gramática se actualiza de manera ventajosa cada vez que se proponen nuevos productos a los clientes 3, por ejemplo cada vez que se modifica el menú del restaurante. La gramática y el diccionario están adaptados ventajosamente para aplicaciones de “mando y control” y/o para la anotación de pedidos en restaurantes.
55 Para esta aplicación, el algoritmo de reconocimiento del habla se basa ventajosamente en un clasificador estadístico, tal como una red neuronal, combinado con un clasificador basado en plantillas. Los ensayos han demostrado que este escenario proporciona una velocidad de reconocimiento mejorada y una introducción sencilla de palabras o expresiones nuevas en la gramática. La gramática puede incluir unidades de reconocimiento por plantillas de tamaños diferentes (expresión, frase, palabra, fonema). También puede utilizarse una gramática dependiente del usuario.
La gramática y/o el clasificador son preferentemente adaptativos, y aprenden unidades de reconocimiento por plantillas, incorporadas en la entrada pronunciada. Esto permite el aprendizaje en línea de palabras nuevas o de otras plantillas. Se puede usar una retroalimentación del usuario, por ejemplo en el dispositivo del usuario, para
65 introducir o seleccionar el texto equivalente de una plantilla recién aprendida.
imagen5
Además, la gramática está dispuesta ventajosamente en categorías y sub-categorías independientes; esto hace que mejore la calidad del reconocimiento del habla puesto que el sistema conoce la categoría de la siguiente plantilla que está esperando. Esto también hace que la introducción manual de plantillas nuevas sea más sencilla. Por ejemplo, una categoría de plantillas se puede corresponder con la lista de vinos, y otra categoría con los postres.
5 El texto reconocido por el sistema de reconocimiento de habla en el servidor 6 se transmite a través de la LAN 8 y sobre el canal inalámbrico de vuelta al dispositivo 1 del camarero, y se visualiza en tiempo real. En otro entorno, el reconocimiento se podría realizar directamente en el dispositivo del camarero. El camarero puede comprobar si el reconocimiento fue correcto, y confirmar o corregir la orden reconocida por el servidor y visualizada por el dispositivo. Esta retroalimentación del usuario se puede usar para adaptar la plantilla dependiente del hablante, la gramática, y/o para añadir nuevas unidades de reconocimiento.
Cuando el nivel de confianza alcanzado por el algoritmo de reconocimiento de habla se encuentra por debajo de un nivel predefinido o cuando hay varias opciones posibles que están muy próximas entre sí, se visualiza un menú con
15 una lista de múltiples elecciones de las entradas más probables, para el camarero, el cual puede seleccionar la orden deseada en este menú, utilizando por ejemplo una pantalla táctil, un lápiz táctil, o cualesquiera otros medios adecuados de entrada incluyendo la voz. El camarero también puede seleccionar otras opciones, por ejemplo para especificar la cantidad de productos pedidos (número o volumen), el tipo (por ejemplo la añada de un vino, las preferencias del cliente en relación con la cocción, etcétera), en función del producto pedido o de si el pedido inicial no fue suficientemente preciso.
Una vez validado por el camarero, este texto, y la respuesta de los camareros al menú de opciones, se visualiza también en un ordenador personal 5 ó se imprime y es leído por el personal del restaurante, con el fin de preparar y servir el pedido solicitado. En otra forma de realización, este texto se pronuncia en la cocina. La lista de productos
25 pedidos se puede almacenar en una base de datos del servidor 6, la cual se puede utilizar posteriormente para prepararle la factura al cliente. En una forma de realización alternativa, la señal de voz grabada se somete a un postprocesado por parte de un ordenador o servidor.
En una forma de realización alternativa, el reconocimiento del habla se lleva a cabo localmente, en el dispositivo 1 del usuario. No obstante, esto requiere dispositivos 1 con un mayor poder de procesado, y una sincronización más dificultosa de los modelos dependientes del hablante en caso de que un usuario utilice varios dispositivos diferentes.
En la figura 6 se ilustra un ejemplo de dispositivo 1 según la invención. El mismo se construye ventajosamente en torno a un PDA (asistente personal digital) convencional, un netbook o un dispositivo similar. Comprende: 35 una caja adaptada para llevar y manipular el dispositivo en la mano del usuario;
un módulo de visualización 21 para presentarle visualmente al usuario 2 el texto reconocido, y otro texto o imágenes;
medios hápticos 22, tales como un teclado numérico, un teclado normal, un botón táctil, una rueda de selección, etcétera;
una interfaz de comunicaciones (no mostrada), por ejemplo una interfaz WLAN y/o Bluetooth;
45 medios de procesado (no mostrados), tales como un microprocesador con una memoria adecuada volátil y no volátil, para procesar el audio de la señal de audio capturada con el micrófono, y para ejecutar otros programas y funciones;
un brazo orientable en forma de L 23 que incluye varias matrices lineales de micrófonos 24, 25 con diferente separación entre los micrófonos de cada matriz. El uso de una pluralidad de matrices de micrófonos proporciona una mejora de la captación de la voz, y un control de directividad de banda ancha. El brazo está conectado a la caja a través de una conexión giratoria, con el fin de dirigir el tramo más largo de manera precisa hacia la boca del hablante.
55 El brazo 23 es ventajosamente un accesorio el cual está adaptado para una instalación “posterior” y un montaje semi-permanente en un dispositivo móvil existente. A este brazo se le puede asociar una circuitería electrónica, tal como conversores analógicos-a-digitales, retardos, sumadores, etcétera, y/o procesadores de señales digitales (DSP) o FPGA, para procesar señales de audio obtenidas a la salida de las matrices de micrófonos. Este accesorio (brazo extraíble con circuitería opcional) se puede comercializar por separado con respecto al dispositivo móvil, y se puede instalar posteriormente en un dispositivo móvil existente con el fin de transformarlo en un dispositivo de acuerdo con la invención. La instalación también puede incluir instalación de controladores adecuados y software de aplicación en el dispositivo móvil, para recuperar señales del accesorio, someter a post-procesado dichas señales, enviarlas al servidor remoto o al dispositivo móvil, y visualizar la retroalimentación del servidor. La conexión eléctrica
65 entre el brazo y el dispositivo utiliza preferentemente una interfaz existente del dispositivo móvil, por ejemplo un USB, un RS-232 ó un socket privativo, o una conexión inalámbrica.
imagen6
En otra forma de realización no ilustrada, el brazo con las matrices de micrófonos y la circuitería electrónica asociada está conectado a un dispositivo móvil existente a través de una interfaz inalámbrica, por ejemplo una interfaz Bluetooth o Zigbee. En este caso, el brazo se puede desmontar del dispositivo móvil, y se puede manipular
5 por separado. También es posible dividir el brazo en varias partes, y usar uno de los tramos como lápiz táctil sostenido hacia la boca y conectado (inalámbricamente por cable) a las otras partes y/o al dispositivo móvil. Por otra parte, el brazo, o cada parte del brazo, puede ser un componente completamente pasivo que incluye solamente micrófonos, o una parte “inteligente” que tenga un microprocesador, una FPGA o un procesador de señales. Las diferentes partes se pueden conectar entre sí, y se pueden conectar al dispositivo móvil y/o a un módulo receptor del dispositivo móvil, a través de una interfaz por cable o inalámbrica. Por otra parte, el micrófono o partes del micrófono, y/o el dispositivo móvil, se pueden conectar remotamente desde un módulo de mando a distancia con el fin de controlar la amplificación, la reducción del ruido, la direccionalidad, etcétera. En una forma de realización, el sistema comprende medios de procesado de la señal los cuales están distribuidos entre el brazo, o entre diferentes partes del brazo, y el dispositivo móvil.
15 En la figura 2 se ilustra un ejemplo de matriz lineal de micrófonos 24. Esta matriz simple comprende dos micrófonos 240, 241 separados por una distancia d. Las señales de salida de un micrófono se suma algebraicamente con un elemento sumador 243 a la señal de salida retardada del otro micrófono distante en d, indicándose como τe el retardo aplicado por el elemento de retardo 242. Esta matriz forma un sistema de conformación de haz; una elección adecuada del retardo τe mejora la relación señal/ruido y mejora la sensibilidad a señales de audio provenientes según la dirección de la matriz lineal.
Si se considera una señal acústica entrante con un ángulo de incidencia θ (referido al eje del sub-sistema), y suponiendo una señal armónica de frecuencia f[Hz] (o pulsación ω=2·π·f), el “retardo acústico” entre los dos
25 micrófonos es τd =(d·cosθ)/c [s] (siendo c la celeridad del sonido en el aire) y el voltaje de salida resultante U [V] del sub-sistema depende del ángulo de incidencia θ [rad]:
imagen7
donde M1 [V/Pa] es la sensibilidad del primer micrófono, p1 [Pa] la presión acústica de una onda plana en el primer micrófono, τe [s] el retardo aplicado al segundo micrófono y τd el tiempo de propagación desde el primer al segundo micrófono. Con τ = τe+ τdy µ = τd/τ, se tiene finalmente la sensibilidad M del sub-sistema:
imagen8
35 que es la característica de un micrófono directivo de primer orden.
A partir de esta ecuación, se observa que la respuesta en frecuencia se corresponde con un filtro paso-alto con una pendiente de +6 dB/octava. Esto significa que la sensibilidad se reduce en la banda de frecuencias bajas, lo cual puede ser desventajoso.
Fijando µ=0,5, se obtiene una directividad cardiode de la matriz de micrófonos, y con µ=1, un micrófono bidireccional. La figura 3 muestra los patrones de directividad característicos para diferentes valores de µ.
45 La directividad depende grandemente de la frecuencia tal como se ilustra mediante la figura 4. Para garantizar un patrón de directividad constante en el ancho de banda completo de las frecuencias, en las matrices de micrófonos 24, 25 se combinan diferentes pares de redes con diferentes distancias entre micrófonos dentro de los pares, y diferentes limitaciones de frecuencia.
Así, el brazo del micrófono de la invención utiliza varios pares de micrófonos los cuales están dispuestos a lo largo del mismo eje para obtener una matriz más directiva (en el eje de la matriz). Por lo tanto, cada matriz es monodimensional y comprende una pluralidad de pares dispuestos, todos ellos, en una fila.
Combinando dos matrices diferenciales de primer orden y después de introducir un retardo de tiempo adicional, se
55 puede construir una matriz de micrófonos diferencial de segundo orden, genérica. La sensibilidad total de dicho sistema se puede calcular multiplicando las sensibilidades de los subsistemas implicados, lo cual conduce a una directividad mejorada con dos subsistemas en cascada en comparación con solamente uno, aunque con el inconveniente del comportamiento de un filtro pasoalto de 2º orden. Seleccionando las dimensiones de cada subsistema, se pueden cubrir anchos de banda de frecuencia más amplios con directividades y sensibilidades constantes, construyendo así matrices diferenciales.
imagen9
Una matriz diferencial se describe por su orden, es decir, el número de las “etapas” de retardos, tal como se describe en la figura 5 para una matriz de segundo orden 24. En este ejemplo, la matriz comprende N=3 micrófonos dispuestos en cuatro pares: {1;2}, {2;3}, {2;1}, {3;2}. El primer dígito de cada par se refiere al signo “+” y el segundo dígito al signo “-” de los elementos sumadores 2421 a 2424 de la figura 5. Las distancias di entre micrófonos
5 sucesivos dentro de los pares son variables.
La señal analógica u1(t), ui(t),..., uN(t) en la salida de cada micrófono 240, 241, 244 se convierte en una señal digital mediante conversores analógicos-a-digitales respectivos 2451, 2452, 2453. A continuación, para cada par, una primera etapa de procesado 246 lleva a cabo la suma algebraica digital entre una señal y la señal retardada del otro
10 micrófono del par. A continuación, una segunda etapa de procesado 247 lleva a cabo la suma algebraica entre la señal de un elemento sumador 243 y la salida retardada de otro elemento sumador de la primera etapa. La primera señal digital entregada por esta segunda etapa forma una señal de haz frontal 248, mientras que la otra señal digital entregada por esta segunda etapa forma una señal de haz posterior 249.
15 En teoría, se pueden combinar tantos pares como se desee, aunque en la práctica, resulta difícil llegar más allá de una matriz de segundo orden. Esto es debido principalmente al hecho de que una matriz diferencial es una matriz diferenciadora (filtro pasoalto) del mismo orden que el orden de la matriz, lo cual significa que las frecuencias bajas de la señal están fuertemente atenuadas y significa también por cierto una reducción de la relación señal/ruido. Existe por lo tanto un compromiso al que se debe llegar en relación con las dimensiones de cada matriz, el orden de
20 la matriz, el ancho de banda de frecuencias que interesa, y el número de canales disponibles para el procesado de las señales.
El brazo del micrófono del dispositivo 1 está dispuesto para detectar sonido no solamente procedente de la dirección útil (dirección de la boca), sino también procedente de por lo menos otra dirección, correspondiente al ruido. Un
25 mejor conocimiento del ruido que proviene de direcciones diferentes permite llevar a cabo la extracción de la señal útil y el rechazo de la señal de ruido, utilizando técnicas de coherencia. Permite también mejorar la eficiencia del post-filtrado subsiguiente.
En una forma de realización, el brazo del micrófono 23 de la presente invención comprende ventajosamente una
30 matriz de micrófonos bidimensional (en lugar de una matriz unidimensional como la que se ha descrito hasta el momento). Esta matriz bidimensional está constituida por dos matrices unidimensionales, tal como se ilustra en la figura 7. Una primera matriz 24 está dispuesta en el primer tramo, el más largo, del brazo en forma de L 23, mientras que la segunda matriz está dispuesta en el otro tramo, más corto, del mismo brazo. Esta segunda matriz de micrófonos transversal se utiliza para mejorar la cancelación del ruido interferente.
35 Tal como se ha mencionado, este brazo en forma de L es orientable, por rotaciones alrededor del eje de uno de los dos tramos (en este caso el más corto), de manera que el usuario puede ajustar la posición a un punto óptimo (delante de la boca). Cuando el brazo 23 está orientado correctamente, el tramo más largo (en este ejemplo) capta la señal frontal útil procedente de la dirección de la boca del hablante, así como ruido de la parte posterior. El
40 segundo tramo (en este caso el más corto, aunque no de forma necesaria) capta ruido difuso procedente de las direcciones izquierda y derecha.
En el escenario ilustrado, la orientación del segundo tramo permanece esencialmente sin cambios cuando el brazo se hace girar; existe solamente un grado de libertad para orientar el primer tramo en la dirección de la boca del
45 usuario.
En una forma de realización preferida, los dos tramos son perpendiculares entre sí; no obstante son posibles otras disposiciones.
50 Cada tramo está equipado de por lo menos una matriz diferencial lineal de micrófonos.
En otra forma de realización, el micrófono tiene forma de U y comprende dos tramos conectados mediante un tercer tramo, preferentemente perpendicular, aunque sin carácter limitativo, a los dos primeros tramos.
55 El dispositivo de la invención puede usar además micrófonos o matrices de micrófonos adicionales, incluyendo micrófonos o matrices de micrófonos no orientables en la caja del dispositivo para capturar ruido de fondo procedente de diferentes direcciones.
Además, micrófonos de tramos diferentes se pueden emparejar para proporcionar una captación adicional del ruido 60 difuso según otras direcciones.
La figura 8 es un diagrama de flujo que ilustra una posibilidad de combinación de varios filtros y métodos utilizados después de la conformación de haz para el post-procesado con el fin de potenciar la voz y/o amortiguar el ruido.
imagen10
En referencia a la figura 8, en una primera etapa, se aplican métodos de conformación de haz (según se ha descrito anteriormente) para reducir el ruido y controlar la directividad, calculando sumas algebraicas entre señales entregadas por diferentes micrófonos o subsistemas de micrófonos.
5 Una de las señales entregadas por las matrices de micrófonos, por ejemplo señales del haz, contiene principalmente la voz del usuario mientras que las señales de las otras matrices de micrófonos contienen principalmente ruido. En una forma de realización preferida, el haz frontal contiene la voz del usuario mientras que los haces posterior, izquierdo y derecho contienen señales de fuentes de ruido. Las diferentes señales entregadas por las diferentes matrices en el micrófono se someten a continuación a un post-procesado para entregar una señal de voz con una mejor relación señal/ruido y adecuada como entrada para un software de reconocimiento de habla. Las etapas que suceden a la conformación del haz se podrían llevar a cabo en un orden diferente al ilustrado en la figura 8.
El post-procesado puede incluir una estimación de características espectrales del ruido durante una cierta franja de tiempo. Este módulo puede actuar sobre haces con ruido de fondo y/o el haz con voz. En este último caso, se debe
15 llevar a cabo mientras el usuario no está hablando. El tiempo necesario para obtener la característica espectral del ruido puede variar en función de la aplicación; con el fin de abordar aplicaciones de tiempo real, como la anotación de pedidos en restaurantes, el cálculo de una estimación del ruido debe realizarse cuando el usuario 2 ordena el pedido, es decir, una fracción de segundo antes de que el usuario comience a hablar.
El post-procesado puede incluir un filtro de Wiener que lleva a cabo una resta del espectro de ruido con respecto al espectro del haz de voz, estimados o bien para el haz de voz y/o bien los haces de ruido.
El post-procesado puede incluir una etapa de post-filtrado en la cual el espectro del haz de voz se compara con los espectros de otros haces en diversas frecuencias y se amortigua y/o elimina en estas frecuencias cuando no sea
25 más de k veces mayor que el más alto de los espectros de haces de ruido.
El post-procesado puede incluir un filtrado del haz de voz basándose en una medición, en el dominio espectral, de su coherencia con el micrófono que esté más próximo a la boca del hablante. El espectro del haz de voz se amortigua y/o elimina en estas frecuencias cuando la coherencia con el espectro del micrófono es baja.
En otra forma de realización, la etapa de post-filtrado implica una comparación, en el dominio de la frecuencia, de las cuatro señales entregadas por la matriz de micrófonos (frontal, posterior, izquierda, derecha), calculadas con la fase de conformación de haz y desprovistas de ruido con la fase de reducción de ruido utilizando filtros adaptativos basados en una DUET (Degenerate Unmixing Estimation Technique) modificada. Para cada canal del conformador
35 de haz, estos filtros adaptativos permiten reducir la influencia del ruido en el canal frontal, mediante resta espectral de las señales de los otros tres canales que están captando básicamente ruido.
En otra forma de realización, la etapa de post-filtrado implica un cálculo de coherencia el cual se lleva a cabo entre la señal frontal entregada por el conformador de haz y el resultado del post-filtrado, con el fin de filtrar señales residuales que no provienen del hablante. Dos señales son coherentes si una de ellas es una versión a escala y retardada de la otra.
La etapa de post-filtrado puede implicar un Detector de Actividad Vocal (VAD) para detectar cuándo está hablando el usuario. La detección vocal se lleva a cabo preferentemente mediante análisis de la señal de potencia.
45 En una forma de realización, el Detector de Actividad Vocal es multicapa y está integrado en el dispositivo (VAD multicapa incorporado). Puede disponer de por lo menos uno de los siguientes medios:
-medios de “Mantenimiento del habla”: permiten evitar o limitar la cancelación del inicio y/o el final del habla y evitar o limitar cortes en el habla que se podrían producir como consecuencia de los umbrales del VAD. Cuando la energía de la señal medida sube por encima de un cierto nivel, el sistema considera que hay presencia de habla. Para evitar que se pierde el inicio del habla que pudiera estar por debajo de los umbrales del VAD, el VAD no cancela un espacio de tiempo parametrizado antes de la detección del habla (el sistema transmite la grabación con un pequeño retardo para permitir la toma de dicha decisión). Para evitar cortes y/o
55 que se pierda el final del habla, los umbrales del VAD se desactivan mientras el sistema está en presencia de habla. Los mismos se activan nuevamente cuando el habla permanece por debajo de los umbrales del VAD durante un espacio de tiempo parametrizado dado.
-medios de estimación de ruido: permiten determinar el nivel de ruido. El tiempo necesario para llevar a cabo la estimación del ruido puede variar en función de la aplicación, aunque ya se puede realizar en una fracción de segundo para abordar aplicaciones de tiempo real como la anotación de pedidos en restaurantes. En este caso, la estimación del ruido se efectúa cuando el usuario 2 ordena el pedido, una fracción de segundo antes de que comience a hablar.
65 -medios de VAD Relativo: fijan el nivel por encima del cual el sonido se considera como habla de acuerdo con la estimación del ruido. El sonido se considera como habla cuando alcanza n veces el nivel del ruido determinado con la estimación del ruido. Esto se usa para eliminar el ruido y cualesquiera variaciones de ruido que puedan estar por encima de la estimación de ruido pero permanecen por debajo de n dicha estimación de ruido.
imagen11
-medios de VAD Absoluto: fijan un nivel absoluto por encima del cual el sonido se considera como habla. Esto 5 se usa para cancelar ruidos pequeños como el toque de una pantalla, música baja o algunos ruidos reducidos de fondo.
La decisión de presencia del habla con medios de VAD relativo y absoluto se realiza sobre la base de un periodo de tiempo breve, típicamente 10 ms, para evitar una interrupción corta del habla cuando se requiera un espacio de 10 tiempo de cancelación mínimo con el fin de tener en cuenta la cancelación. Esta restricción se relaja en situaciones de inicio del habla y final del habla.
El VAD absoluto es especialmente necesario cuando hay poco ruido, ya que el VAD relativo podría no fijar el umbral en un nivel que permita cancelar ciertas variaciones de ruido.
15 En una forma de realización, el VAD Relativo también se podría calcular de una manera no lineal. Por ejemplo, si el nivel de estimación del ruido es muy alto, como en el caso de un restaurante muy ruidoso, el valor de n podría ser menor que cuando el nivel de estimación del ruido es bajo.
20 En otra forma de realización, el sistema con VAD incorporado podría incluir múltiples umbrales de VAD absoluto y relativo los cuales se pueden activar y desactivar en función de ciertos criterios de aplicación.
Este dispositivo se puede usar, por ejemplo, para aplicaciones de anotación de pedidos de voz y aplicaciones de reconocimiento del habla en restaurantes, bares, discotecas, hoteles, hospitales, industria del entretenimiento, 25 tiendas de comestibles, etcétera.

Claims (13)

  1. imagen1
    REIVINDICACIONES
    1. Dispositivo de mano de captura de voz (1), que comprende:
    5 un brazo orientable (23), que comprende un primer tramo y un segundo tramo, presentando dicho primer tramo y dicho segundo tramo unas orientaciones diferentes, comprendiendo dicho primer tramo de dicho brazo (23) una primera matriz lineal diferencial (25) de micrófonos, estando la directividad de dicha primera matriz lineal diferencial (25) dispuesta para una captación mejorada de voz procedente de un usuario;
    comprendiendo dicho segundo tramo de dicho brazo una segunda matriz lineal diferencial (24) de micrófonos, estando la directividad de dicha segunda matriz lineal diferencial (24) dispuesta para una captación mejorada de ruido procedente de una dirección diferente a la de dicha voz captada;
    un circuito de reducción de ruido para proporcionar una señal de voz con ruido reducido, sobre la base de la 15 salida de dicha primera matriz lineal diferencial (25) y de la salida de dicha segunda matriz lineal diferencial (24).
  2. 2.
    Dispositivo según la reivindicación 1, en el que dicho circuito de reducción de ruido se basa en técnicas de coherencia para eliminar ruido de la salida de dicha primera matriz lineal diferencial (25).
  3. 3.
    Dispositivo según la reivindicación 1, que comprende una conexión giratoria para hacer girar dicho brazo orientable (23) alrededor del eje de uno de dichos tramos.
  4. 4.
    Dispositivo según una de las reivindicaciones 1 a 3, presentando dicho brazo forma de L, estando la primera matriz lineal diferencial (25) dispuesta en un primer tramo y la segunda matriz lineal diferencial (24) en un segundo
    25 tramo de dicho brazo con forma de L, pudiendo dicho brazo orientable (23) ser girado alrededor de un eje paralelo a uno de dichos tramos.
  5. 5.
    Dispositivo según una de las reivindicaciones 1 a 3, presentando dicho brazo orientable (23) forma de U y comprendiendo tres matrices de micrófonos.
  6. 6.
    Dispositivo según una de las reivindicaciones 1 a 5, que además comprende: unos medios de procesado de datos;
    35 un módulo de visualización (21); una interfaz de comunicaciones inalámbricas; un filtro de Wiener para reducción del ruido; un detector de actividad vocal.
  7. 7. Dispositivo según la reivindicación 6, siendo el detector de actividad vocal un detector de actividad vocal multicapa incorporado que comprende por lo menos uno de los siguientes medios:
    45 unos medios de estimación de ruido;
    unos medios de detector absoluto de actividad vocal;
    unos medios de detector relativo de actividad vocal;
    unos medios de mantenimiento del habla.
  8. 8. Dispositivo según una de las reivindicaciones 1 a 7, conectado funcionalmente a un módulo de reconocimiento 55 del habla dependiente del usuario.
  9. 9.
    Dispositivo según la reivindicación 8, comprendiendo dicho módulo de reconocimiento del habla dependiente del usuario una gramática y un diccionario adaptados para aplicaciones de “mando y control”, y/o para la anotación de pedidos en restaurantes.
  10. 10.
    Método para capturar voz, que comprende:
    capturar una señal de voz con una primera matriz lineal diferencial (25) de micrófonos montados en un primer tramo de un brazo orientable (23) de un dispositivo de mano (1), estando dicho brazo orientable (23) dirigido 65 hacia la boca de un usuario (2);
    11
    imagen2
    capturar el ruido procedente de por lo menos una dirección diferente a la dirección de dicha señal de voz, usando una segunda matriz lineal diferencial (24) de micrófonos montados en un segundo tramo de dicho brazo orientable (23) de manera que dicho primer y segundo tramos presenten direcciones diferentes;
    5 reducir ruido de dicha señal de voz, usando la salida de dicha primera matriz lineal diferencial (25) y de dicha segunda matriz lineal diferencial (24).
  11. 11. Método según la reivindicación 10, en el que la directividad de dicha primera y segunda matrices lineales
    diferenciales (24, 25) de micrófonos capturan el habla a una distancia con respecto a la boca superior a 15 cm en 10 condición de ruido.
  12. 12. Sistema que comprende un asistente digital portátil como dispositivo de mano de captura de voz (1) según cualquiera de las reivindicaciones 1 a 9, siendo dicho brazo orientable (23) un accesorio externo extraíble montado en dicho asistente digital portátil.
    15
  13. 13. Sistema que comprende un asistente digital portátil como dispositivo de mano de captura de voz (1) según cualquiera de las reivindicaciones 1 a 9, estando conectado inalámbricamente dicho brazo orientable (23) a dicho asistente digital portátil.
    12
ES10785422.6T 2009-12-02 2010-12-01 Dispositivo y método para capturar y procesar la voz Active ES2554622T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CH01848/09A CH702399B1 (fr) 2009-12-02 2009-12-02 Appareil et procédé pour la saisie et le traitement de la voix.
CH18482009 2009-12-02
PCT/EP2010/068649 WO2011067292A1 (en) 2009-12-02 2010-12-01 Device and method for capturing and processing voice

Publications (1)

Publication Number Publication Date
ES2554622T3 true ES2554622T3 (es) 2015-12-22

Family

ID=43622622

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10785422.6T Active ES2554622T3 (es) 2009-12-02 2010-12-01 Dispositivo y método para capturar y procesar la voz

Country Status (5)

Country Link
US (1) US9510090B2 (es)
EP (1) EP2508009B1 (es)
CH (1) CH702399B1 (es)
ES (1) ES2554622T3 (es)
WO (1) WO2011067292A1 (es)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2832111B1 (en) 2012-03-26 2018-05-23 University of Surrey Acoustic source separation
JP5776863B2 (ja) * 2013-03-29 2015-09-09 日産自動車株式会社 音源探査用マイクロホン支持装置
EP3017408A1 (fr) 2013-07-04 2016-05-11 Veovox SA Procédé d'assemblage de commandes, et terminal de paiement
CN104464739B (zh) 2013-09-18 2017-08-11 华为技术有限公司 音频信号处理方法及装置、差分波束形成方法及装置
US9633383B2 (en) * 2014-05-30 2017-04-25 Paypal, Inc. Voice and context recognition for bill creation
US9432769B1 (en) 2014-07-30 2016-08-30 Amazon Technologies, Inc. Method and system for beam selection in microphone array beamformers
US10229686B2 (en) * 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US9369186B1 (en) 2014-12-04 2016-06-14 Cisco Technology, Inc. Utilizing mobile devices in physical proximity to create an ad-hoc microphone array
US9654868B2 (en) 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
US9747367B2 (en) 2014-12-05 2017-08-29 Stages Llc Communication system for establishing and providing preferred audio
US10609475B2 (en) * 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US20160165341A1 (en) * 2014-12-05 2016-06-09 Stages Pcs, Llc Portable microphone array
EP3230827A4 (en) * 2014-12-11 2018-04-25 Nuance Communications, Inc. Speech enhancement using a portable electronic device
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11330368B2 (en) * 2015-05-05 2022-05-10 Wave Sciences, LLC Portable microphone array apparatus and system and processing method
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
CN105681988B (zh) * 2015-12-30 2019-01-22 临境声学科技江苏有限公司 一种线性阵列拾音器及控制方法
CN106950542A (zh) * 2016-01-06 2017-07-14 中兴通讯股份有限公司 声源的定位方法、装置及系统
GB201607455D0 (en) * 2016-04-29 2016-06-15 Nokia Technologies Oy An apparatus, electronic device, system, method and computer program for capturing audio signals
US9980042B1 (en) 2016-11-18 2018-05-22 Stages Llc Beamformer direction of arrival and orientation analysis system
US9980075B1 (en) 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN106658323A (zh) * 2017-02-28 2017-05-10 浙江诺尔康神经电子科技股份有限公司 人工耳蜗及助听器的双麦克风降噪系统和方法
JP6874430B2 (ja) * 2017-03-09 2021-05-19 ティアック株式会社 音声レコーダ
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
FR3073067B1 (fr) * 2017-10-27 2020-11-13 Deepor Procede de pilotage d'une salle notamment operatoire d'un plateau medico-technique
DE102018202185A1 (de) * 2018-02-13 2019-08-14 Divvoice UG (haftungsbeschränkt) Vorrichtung zum Optimieren eines gastronomischen Betriebs
EP3528509B9 (en) * 2018-02-19 2023-01-11 Nokia Technologies Oy Audio data arrangement
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
WO2020191354A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
WO2022260646A1 (en) * 2021-06-07 2022-12-15 Hewlett-Packard Development Company, L.P. Microphone directional beamforming adjustments

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2544535B2 (ja) 1991-04-24 1996-10-16 株式会社日立製作所 移動音源の計測装置及び計測方法
US5473701A (en) * 1993-11-05 1995-12-05 At&T Corp. Adaptive microphone array
CA2151073A1 (en) 1994-07-28 1996-01-29 Bishnu Saroop Atal Intelligent human interface system
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6473514B1 (en) * 2000-01-05 2002-10-29 Gn Netcom, Inc. High directivity microphone array
US20020007315A1 (en) 2000-04-14 2002-01-17 Eric Rose Methods and apparatus for voice activated audible order system
US7110963B2 (en) 2000-09-07 2006-09-19 Manuel Negreiro Point-of-sale customer order system utilizing an unobtrusive transmitter/receiver and voice recognition software
CN1535555B (zh) 2001-08-01 2011-05-25 樊大申 基于对有用声音静音的心形波束的声学装置、系统和方法
US20030125959A1 (en) 2001-12-31 2003-07-03 Palmquist Robert D. Translation device with planar microphone array
DE602004029899D1 (de) * 2003-07-11 2010-12-16 Cochlear Ltd Verfahren und einrichtung zur rauschverminderung
US20050026560A1 (en) * 2003-07-28 2005-02-03 Fellowes Inc. Audio communications system including wireless microphone and wireless speaker
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP2007027939A (ja) 2005-07-13 2007-02-01 Advanced Telecommunication Research Institute International 音響信号処理装置
CN1809105B (zh) 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
TW200808087A (en) 2006-07-17 2008-02-01 Fortemedia Inc External microphone module
US7957972B2 (en) * 2006-09-05 2011-06-07 Fortemedia, Inc. Voice recognition system and method thereof
JP4332753B2 (ja) * 2007-06-13 2009-09-16 ソニー株式会社 音声レコーダ
US8837746B2 (en) * 2007-06-13 2014-09-16 Aliphcom Dual omnidirectional microphone array (DOMA)
JP5228407B2 (ja) * 2007-09-04 2013-07-03 ヤマハ株式会社 放収音装置
JP4983630B2 (ja) 2008-02-05 2012-07-25 ヤマハ株式会社 放収音装置
JP2009260418A (ja) 2008-04-11 2009-11-05 Yamaha Corp 音響機器
JP4753978B2 (ja) * 2008-07-08 2011-08-24 株式会社ズーム ステレオ収録用マイクロホンユニット

Also Published As

Publication number Publication date
US20120330653A1 (en) 2012-12-27
WO2011067292A1 (en) 2011-06-09
CH702399A2 (fr) 2011-06-15
EP2508009A1 (en) 2012-10-10
US9510090B2 (en) 2016-11-29
CH702399B1 (fr) 2018-05-15
EP2508009B1 (en) 2015-09-23

Similar Documents

Publication Publication Date Title
ES2554622T3 (es) Dispositivo y método para capturar y procesar la voz
Szöke et al. Building and evaluation of a real room impulse response dataset
CN109599124B (zh) 一种音频数据处理方法、装置及存储介质
JP6889698B2 (ja) 音声を増幅する方法及び装置
US8731923B2 (en) System and method for merging audio data streams for use in speech recognition applications
CN101779476B (zh) 全向性双麦克风阵列
JP4376902B2 (ja) 音声入力システム
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
US20080175408A1 (en) Proximity filter
US11190900B2 (en) Spatial audio array processing system and method
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
US9562970B2 (en) Proximity detecting apparatus and method based on audio signals
KR101402551B1 (ko) 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
US20100098266A1 (en) Multi-channel audio device
KR20130084298A (ko) 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체
CN108235181B (zh) 在音频处理装置中降噪的方法
CN102625946A (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN112513983A (zh) 可穿戴系统语音处理
JP2015070321A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
CN106872945A (zh) 声源定位方法、装置和电子设备
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
WO2023287782A1 (en) Data augmentation for speech enhancement
TW201506915A (zh) 針對空間中多音源進行萃取出單一音源的方法及裝置
WO2019246314A1 (en) Acoustic aware voice user interface
Li et al. Toward Pitch-Insensitive Speaker Verification via Soundfield