ES2343323T3

ES2343323T3 - Auriculares inalambricos para su utilizacion en un entorno de reconocimiento por voz.

Info

Publication number: ES2343323T3
Application number: ES04721068T
Authority: ES
Inventors: Roger Graham Byford; Arthur Eugene Mcnair; James Randall Logan; Ryan Anthony Zoschg
Original assignee: Vocollect Inc
Current assignee: Vocollect Inc
Priority date: 2003-09-25
Filing date: 2004-03-16
Publication date: 2010-07-28
Anticipated expiration: 2024-03-16
Also published as: WO2005041543A1; US20050070337A1; EP1665741B1; JP2007507158A; JP4261583B2; EP1665741A1; US7496387B2; ATE465593T1; DK1665741T3; DE602004026746D1

Abstract

Un sistema para comunicaciones inalámbricas que usa reconocimiento del habla y comprende un dispositivo (10, 20) para recibir señales de habla, un auricular (16) con un micrófono (70) para captar señales de audio, comprendiendo dicho auricular circuitos de digitalización (42) dispuestos para formar representaciones digitalizadas de las señales de audio, y circuitos de proceso (30) dispuestos para procesar las representaciones digitalizadas usando circuitos de reconocimiento del habla y transmitir inalámbricamente al dispositivo (10, 20), caracterizado por el hecho de que los circuitos de proceso (30) ejecutan el proceso de reconocimiento del habla de etapa final, siendo los circuitos de proceso operables para formar representaciones espectrales muestreadas de las representaciones digitalizadas y después procesar las representaciones espectrales muestreadas para determinar que las señales de audio captadas incluyen el habla del usuario, incluyendo los circuitos de proceso (30) circuitos conversores (48) dispuestos para controlar la transmisión al dispositivo (10, 20), siendo las representaciones espectrales muestreadas transmitidas al dispositivo (10, 20) solo cuando se detecta el habla del usuario, y no transmitiendo los circuitos de proceso (30) al dispositivo cuando no es detectada el habla del usuario, y en que el dispositivo (10, 20) incluye circuitos de proceso de reconocimiento del habla de etapa final (62) para procesar además las representaciones espectrales transmitidas por el auricular (16) para completar el reconocimiento del habla.

Description

Auriculares inalámbricos para su utilización en un entorno de reconocimiento por voz.

Campo de la invención

Esta invención se refiere generalmente a los terminales de ordenador móviles o portátiles y a los auriculares utilizados en los sistemas activados por voz que tengan capacidades de reconocimiento de voz.

Antecedentes de la invención

Los terminales o dispositivos informáticos llevables, móviles y/o portátiles se usan para una amplia variedad de tareas. Dichos dispositivos o terminales permiten a los trabajadores que los usan mantener la movilidad, proporcionando al mismo tiempo al trabajador funciones deseables de computación y proceso de datos. Además, dichos terminales pueden proporcionar un enlace de comunicación a un sistema informático mayor más centralizado, que además maneje la organización de las tareas a ejecutar. Un sistema integrado global puede implicar una combinación de un sistema informático central para seguir y gestionar las tareas, una pluralidad de dispositivos o terminales móviles o y periféricos asociados y las personas ("usuarios") que usen los terminales y la interfaz con los terminales y/o el sistema informático.

Para proporcionar una interfaz entre el sistema informático central y los trabajadores, los terminales llevables y los sistemas a los que están conectados a menudo son activados por voz; esto es, activados mediante el habla humana. Como tal, el ordenador central y los terminales incorporan tecnología de reconocimiento de voz. Para comunicarse en un sistema activado por voz, por ejemplo, deben pasar señales de habla hacia dentro y hacia fuera de los dispositivos o terminales portátiles para proporcionar el interfaz de habla adecuado con un usuario. Mediante la interfaz de habla, los trabajadores son capaces de recibir instrucciones de voz, hacer preguntas, informar del progreso de sus tareas e informar de las condiciones de trabajo, por ejemplo de escasez de inventario. Usando dichas terminales, el trabajo se hace prácticamente sin manos, sin tener que cargar equipos ni llevar papeles encima.

Hay varias formas de hacer pasar las señales de habla hacia dentro y hacia fuera de un terminal u otro dispositivo. Por ejemplo, pueden usarse un micrófono y un altavoz ubicados en el terminal portátil actual. Sin embargo, un dispositivo así puede no resultar práctico en muchos entornos. Como puede apreciarse, dichos sistemas a menudo son utilizados en ambientes ruidosos donde los trabajadores están expuestos a diversos ruidos extraños que pueden afectar a la calidad de su comunicación de voz con su terminal y el sistema informático central. Un terminal portátil, montado sobre una cinturón u otro dispositivo para asegurarlo al usuario, podría quedar demasiado lejos de la boca del usuario para una comunicación efectiva. Por tanto, tienen que utilizarse técnicas de captación de voz más aisladas o direccionales, como auriculares.

Los auriculares con cable tradicionales son bastante populares para terminales o dispositivos portátiles y requieren un cable que vaya desde el auricular hasta el terminal. Un auricular normalmente incluye un micrófono y uno o más hablantes.

El terminal incluye una toma apropiada a acoplar con un conector o clavija del cable del auricular, y también incluye electrónica de proceso de audio para procesar las señales de habla enviadas desde/a el auricular. Una configuración tradicional como esta presenta algunos inconvenientes. Por ejemplo, el cable desde el terminal hasta el auricular resulta a menudo incómodo, pues puede enredarse o engancharse, interrumpiendo el curso del trabajo. Además, el terminal debe estar configurado específicamente para el auricular y, por tanto, está limitado a usarse con un auricular específico, y viceversa.

Más aún, si la electrónica de proceso de audio del terminal es limitada, el rendimiento del terminal estará igualmente limitado como dispositivo interfaz activado por voz, porque el auricular proporciona solo un micrófono y altavoces para gestionar señales de audio puras.

Para enfrentarse a algunas de estas cuestiones, como el cable auricular-terminal, se propone usar un periférico inalámbrico, como un auricular inalámbrico, para comunicarse con el terminal. Un auricular inalámbrico (p. ej., que use hardware WPAN Blue Tooth) elimina la necesidad de un conector específico y de un cable para el auricular. Sin embargo, dicho sistema inalámbrico también tiene varios inconvenientes.

Por ejemplo, dicho auricular que usa tecnología inalámbrica tradicional, como Blue Tooth, debe transmitir señales continuamente al terminal móvil. Esto requiere que se envíen cantidades sustanciales de datos y ciclos de transmisión. Por eso comporta ciertas implicaciones.

La transmisión constante consume rápidamente la necesariamente pequeña batería que debería utilizarse en un auricular inalámbrico.

Además, dicha transmisión continua expone a un usuario a jornada completa (esto es, cuarenta horas por semana) a continuas transmisiones RF cercanas a la cabeza del usuario. Cosa que no es muy conveniente.

Además, usar la tecnología de auricular inalámbrico existente para un sistema activado por voz requiere que el terminal esté configurado para gestionar la considerable tarea de procesar todo el audio, además del proceso de reconocimiento de voz.

Por tanto, los auriculares inalámbricos no serán útiles con terminales que no tengan ciertas capacidades de audio o potencia de procesado. Como tales, los auriculares inalámbricos con la tecnología actual no son adecuados en sistemas activados por voz que utilizan tecnología de reconocimiento del habla. Además, dicha transmisión continua entre el auricular inalámbrico y el terminal inalámbrico todavía es necesaria con los sistemas existentes, ya que no es práctico poner un reconocedor y sintetizador del habla completo a nivel industrial en el interior de un auricular.

Por tanto, hay una particular necesidad de superar los diversos inconvenientes de la técnica anterior. Y además hay otra necesidad de conseguir las ventajas de un auricular inalámbrico dentro de un sistema activado por voz sin las características de transmisión a tiempo completo ahora requeridas. Hay una necesidad de proporcionar comunicación mediante auricular inalámbrico de forma asequible que asegure un funcionamiento adecuado de las prestaciones de reconocimiento por voz. La patente estadounidense publicada 2003/118.197 muestra un dispositivo auricular que recibe tanto habla como, a través de comunicaciones de radio de onda corta, sonidos externos que son captados por un micrófono de detección de sonido. Los sonidos externos se consideran sonidos directos. El auricular recibe tanto el habla como los sonidos directos, y está configurado para ajustar selectivamente la proporción de sonidos directos y el habla a usar por el auricular.

DE-A-2628259 muestra un sistema de intercomunicación para transportar señales de habla entre hablantes cuando hay mucho ruido ambiental de fondo. Específicamente, el sistema de intercomunicación utiliza un diplexor cuya frecuencia separa aquellas señales que pueden considerarse dentro de la banda normal del habla (p. ej. 300 Hz - 3000 Hz) de las de fuera del ruido de banda.

Por tanto, en base a la frecuencia, el sistema de intercomunicación determina que las señales entre 300 Hz y 3000 Hz pueden ser habla, y todas las demás señales fuera de esta banda pueden ser ruido.

La presente invención proporciona un auricular para la comunicación con un dispositivo, estando el auricular configurado para procesar señales de audio captadas por el auricular y para transmitir al dispositivo representaciones muestreadas de las señales de audio captadas, caracterizado por el hecho de que el auricular está configurado para procesar representaciones muestreadas de señales de audio captadas por el auricular y para usar circuitos de detección del habla para determinar que las señales de audio incluyen el habla del usuario, y por que el auricular además está configurado para transmitir representaciones muestreadas de las señales de audio captadas hacia el dispositivo, basándose en la determinación de que el habla del usuario es detectada en las señales de audio.

La presente invención también proporciona un método para comunicación inalámbrica entre un auricular y al menos un dispositivo, comprendiendo este método la captura de señales de audio con un auricular, el proceso de las señales de audio en el auricular y la transmisión de representaciones muestreadas de las señales de audio al dispositivo, caracterizado por el hecho de que el proceso es de señales muestreadas de las señales de audio en el auricular usando circuitos de detección del habla para determinar que las señales de audio incluyen el habla del usuario, y por que las representaciones muestreadas de las señales de audio son transmitidas al dispositivo basándose en la determinación de que se ha detectado el habla del usuario.

Breve descripción de los dibujos

Los dibujos anexados, que están incorporados a, y forman parte de, estas especificaciones, ilustran materializaciones de la invención, y junto con la descripción general de la invención dada más arriba y la descripción detallada dada más abajo, sirven para explicar la invención.

La figura 1 es una vista en perspectiva de un trabajador que usa un terminal y auricular según la presente invención.

La Fig. 2 es un diagrama sinóptico esquemático de un sistema que incorpora la presente invención.

La Fig. 3 es un diagrama sinóptico esquemático de una materialización de ejemplo de la presente invención.

La Fig. 4 es un diagrama sinóptico esquemático de otra materialización de ejemplo de la presente invención.

Descripción detallada de las materializaciones de la invención

En la Fig. 1 se muestra, en uso, un aparato que incluye un terminal u ordenador portátil y/o llevable 10 y un auricular 16, aparato que incorpora una materialización de la presente invención. El terminal portátil puede ser un dispositivo llevable, que puede ser llevado por un trabajador 11 u otro usuario, por ejemplo sobre un cinturón 14 como se muestra.

Esto permite el uso con manos libres del terminal. Naturalmente, el terminal podría también ser llevado manualmente o transportado de cualquier otra forma, como sobre una carretilla elevadora. Las prestaciones inalámbricas de la invención permiten una mayor flexibilidad con respecto al ordenador portátil. El uso del término "terminal" aquí no está limitado y puede incluir cualquier ordenador, dispositivo, máquina o sistema que se use para ejecutar una tarea específica, y que se use en combinación con uno o más dispositivos periféricos, como el auricular 16.

Por ejemplo, el auricular puede de hecho comunicarse con un ordenador central en lugar de un terminal, como se describirá a continuación.

Los terminales portátiles 10 funcionan en un sistema activado por voz y permiten que una variedad de trabajadores 11 se comuniquen con uno o más ordenadores centrales (ver Fig. 2), que forman parte de un sistema mayor para enviar y recibir información sobre las actividades y tareas a ejecutar por el trabajador. El ordenador u ordenadores centrales 20 pueden activar uno o más paquetes de software del sistema para gestionar una tarea en particular, como la gestión de inventario y almacén. Naturalmente, los terminales 10 pueden ser también dispositivos autónomos, que utilizan la invención como interfaz con un usuario.

En una materialización de ejemplo, el terminal 10 se comunica con un ordenador central 20 o con una pluralidad de ordenadores, como con un enlace inalámbrico 22. Para permitir al usuario comunicarse con el sistema, hay acoplados uno o más dispositivos periféricos o periféricos, como auriculares 16, a los terminales 10. Según un aspecto de la invención, el auricular 16 está acoplado al terminal mediante un enlace inalámbrico 19. El auricular 16 es llevado en la cabeza por el usuario/trabajador, y permite la operación con manos libres y el movimiento a través del almacén o cualquier otra instalación.

Las Figuras 3 y 4 son diagramas sinópticos de materializaciones ejemplares de terminales y auriculares para utilizar la invención. Sin embargo, la presente invención no está específicamente limitada a las materializaciones ilustradas. Por ejemplo, varios componentes o bloques diferentes variarán en base al tipo de reconocedor del habla o tecnología de reconocimiento del habla que puede ser utilizada en la presente invención. Así, pueden utilizarse varios reconocedores y esquemas del habla diferentes en la presente invención sin variar por ello la segmentación de funcionalidad entre un auricular y un terminal u ordenador, como se argumenta más adelante. Una breve explicación de la interacción típica de un auricular y terminal es útil a la hora de comprender el entorno activado por voz de la invención, y las ventajas específicas ofrecidas por la invención.

Específicamente, el terminal 10 para comunicarse con un ordenador central puede comprender circuitos de proceso, que pueden incluir un procesador para controlar la operación del terminal y otros circuitos de proceso asociados.

Los circuitos de proceso incorporarán circuitos de procesado de audio, como filtros de audio y circuitos de correlación asociados con el reconocimiento del habla. Un terminal adecuado para implementar la presente invención es Talkman®, producto disponible de Vocollect de Pittsburgh, Pensilvania. Según un aspecto de la presente invención, el terminal es usado en un sistema accionado por voz, que usa tecnología de reconocimiento del habla para la comunicación.

El auricular 16 proporciona comunicación de voz con manos libres entre el trabajador 11 y el terminal 10. A este fin, la información digital es convertida a un formato de audio, y viceversa, para proporcionar comunicación de habla entre el dispositivo o sistema y un trabajador. Por ejemplo, en un sistema típico, el terminal 10 recibe instrucciones digitales desde el ordenador central 20 y convierte estas instrucciones a audio para ser escuchado por un trabajador 11.

El trabajador 11 después responde, en un lenguaje hablado, y la respuesta de audio es convertida a un formato digital utilizable para ser transferido de vuelta al ordenador central del sistema.

La presente invención, enfocada a los inconvenientes de la técnica anterior, proporciona un auricular mejorado que hace algo más que simplemente captar la señal de voz con un micrófono y dirigir esta señal de audio pura al terminal 10. En una materialización, el auricular y sistema de la presente invención proporcionan un proceso de audio preliminar y un algoritmo de detección del habla justo en el auricular para efectuar la determinación de cuándo es apropiado transmitir el habla del usuario a un terminal. Por tanto, el auricular no está transmitiendo continuamente. Esto proporciona una reducción de la transmisión de datos en la comunicación entre el auricular y el terminal. El proceso posterior de reconocimiento del habla es después gestionado por la terminal u ordenador central. La presente invención además ejecuta la reducción de transmisión procesando representaciones muestreadas de las señales de audio y enviándolas al terminal, en lugar de audio puro. La presente invención está enfocada a varios de los inconvenientes de los auriculares inalámbricos de la presente invención usando otros protocolos inalámbricos, como Blue Tooth, y específicamente está enfocada a cuestiones de consumo de energía, cuestiones de transmisión de datos, y reduce la cantidad de tiempo que el auricular está transmitiendo al terminal o a cualquier otro dispositivo. Específicamente, en relación con la Figura 3, se ilustra una materialización ejemplar de la presente invención. Como se ha indicado anteriormente, las implementaciones ilustradas están dirigidas a un tipo de reconocedor del habla, como el actual Talkman® de Vocollect.

Sin embargo, otras materializaciones pueden utilizar la presente invención, que usa la tecnología de reconocimiento del habla, sin por ello desviarse del ámbito de la invención. Las materializaciones ejemplares ilustradas en las Figuras 3 y 4 son útiles para ilustrar posibles sistemas, utilizando un auricular y un terminal y/o un ordenador.

La Figura 3 ilustra un sencillo diagrama sinóptico de una materialización ejemplar de la presente invención. Específicamente, la Figura 3 incorpora un auricular 16, que está configurado para comunicarse en un aspecto con un enlace conectado por cable 18 o con un enlace inalámbrico 19 con un terminal portátil 10. El terminal portátil 10, a su vez, puede estar configurado para comunicarse con otro enlace, como el enlace inalámbrico 22, a un ordenador central 20. Alternativamente, el terminal portátil 10 puede ser un sistema o dispositivo autónomo que meramente se comunica con un usuario a través del auricular 16. En aún otra materialización alternativa, el auricular puede comunicarse directamente con el enlace 22 a un ordenador central 20.

El auricular 16 incorpora un dispositivo micrófono 40 configurado para captar señales de audio, como el habla de un usuario. Según un aspecto de la presente invención, el auricular 16 incorpora circuitos de proceso 30, que están configurados para analizar representaciones digitalizadas de señales de audio captadas por el micrófono 40. A este fin, los circuitos de proceso incluirán circuitos de digitalización adecuados para proporcionar representaciones apropiadas de las señales de audio para su posterior proceso. Según otro aspecto de la presente invención, los circuitos de proceso 30 incluyen circuitos de detección del habla 46, que están configurados para analizar las representaciones muestreadas de las señales de audio para detectar el habla del usuario. Los circuitos de proceso 30 incluyen circuitos, o interfaces con circuitos, que están configurados para la transmisión de representaciones digitalizadas o muestreadas a un dispositivo, como un terminal portátil 10, cuando el habla es detectada. En un aspecto, los circuitos transmiten solo cuando se detecta el habla del usuario. Según otro aspecto de la presente invención, los circuitos generalmente no transmiten al terminal portátil 10 si no se detecta el habla del usuario.

De esta forma, el auricular no transmite simplemente continuamente, sino que transmite cuando tiene habla del usuario a enviar.

La presente invención proporciona varias fases de reducción de transmisión de datos con respecto a las comunicaciones con terminal portátil 10. El término "transmisión de datos", tal como aquí se utiliza, generalmente se refiere a la cantidad de información que debe ser transferida entre el auricular 16 y el terminal portátil 10. En los sistemas de la técnica anterior, los auriculares que transmiten señales de audio puras requieren la transmisión de toda esta información y, por tanto, la transmisión de datos significativos afecta a la comunicación entre el auricular y el terminal. La presente invención proporciona varios niveles de reducción de transmisión de datos en diferentes fases en el funcionamiento del auricular 16. En un aspecto, el auricular 16 está configurado para digitalizar las señales de audio captadas por el auricular y para el posterior proceso y muestreo de las señales digitalizadas, como con filtros de audio, descritos más adelante, para proporcionar representaciones digitalizadas o muestreadas de dichas señales. Cuando el auricular 15 transmite las representaciones digitalizadas o muestreadas, requiere significativamente menos transmisión de datos que con la transmisión de las señales de audio analógicas puras. Otro nivel de reducción de transmisión es proporcionado por los circuitos de proceso, porque solo transmite cuando se detecta el habla del usuario. Es decir, que el habla del usuario es discriminada de los sonidos o señales de audio extraños. Por tanto, la transmisión no es continua, a menos que el usuario esté hablando continuamente. En una aplicación activada por voz típica, el ciclo de trabajo del habla del usuario puede ser menor del 10% del de un usuario que esté operando el sistema de la invención. Por lo tanto, se proporciona una significativa reducción de transmisión de datos mediante la discriminación en el auricular, para transmitir cuando el habla es detectada, pero también generalmente no transmitiendo a un dispositivo cuando el habla no se detecta. Los inventores han estimado que la invención puede proporcionar una reducción de transmisión de datos de varios órdenes de magnitud sobre un auricular tradicional que transmite señales de audio
analógicas.

La Figura 4 ilustra una materialización ejemplar ligeramente más detallada de la presente invención configurada para un sistema de reconocimiento del habla específico. Como se ha indicado anteriormente, otros sistemas de reconocimiento del habla pueden utilizarse con la presente invención, y así pues, la presente invención no está limitada a una tecnología de reconocimiento del habla específica.

En relación con la Figura 4, un auricular 16 incorpora al menos un micrófono 40 para recibir o captar señales de audio, como el habla de un usuario que lleve el auricular.

Para los propósitos del proceso de audio y posterior proceso de dichas señales del habla, u otras señales, las señales deben estar digitalizadas. A este fin, los circuitos de proceso 30 incluyen circuitos de digitalización 42, utilizados para proporcionar representaciones digitalizadas de las señales de audio recibidas.

Para la conversión entre audio digital y analógico, los circuitos de digitalización 42 pueden incluir un chip codificador/decodificador de audio, o CODEC. Un circuito de audio adecuado, por ejemplo, puede ser un CODEC de audio UDA 1341 disponible en Philips. Según un aspecto de la presente invención, los circuitos de proceso 30 incluyen además circuitos de análisis del habla y/o audio, y circuitos de proceso de señal para analizar y después procesar las señales de audio o señales del habla digitalizadas. Por ejemplo, el auricular 16 puede incluir circuitos de transformación espectral, o circuitos de filtrado de audio, como los filtros de escala Mel 44, que crean una transformación espectral de las señales de audio digitalizadas y proporcionan una serie de representaciones o valores muestreados asociados con las señales de audio digitalizado. Los circuitos de escala Mel, incluyendo los filtros de escala Mel 44, son componentes conocidos para el procesado de audio y proporcionan generalmente una transformación espectral menos muestreada del habla digitalizada.

Según el aspecto de reducción de transmisión de datos de la presente invención, el auricular 16 utiliza los circuitos de análisis y proceso de audio, como los filtros de escala Mel 44, para reducir la cantidad de datos o información enviada al terminal. De esta forma se reduce el consumo de energía, y el tiempo de transmisión desde el auricular que lleva el usuario se ve significativamente reducido. Es decir, que el audio es procesado en el auricular en una forma que puede ser usada por un dispositivo, pero que toma menos tiempo, y por tanto menos energía, enviar al dispositivo.

Por ejemplo un auricular típico, que busca transmitir esencialmente una señal de audio primaria, puede requerir una velocidad de 64 kilobits para dicha transmisión de audio. Sin embargo, según un aspecto de la presente invención, los circuitos de proceso de audio, como los filtros de escala Mel, proporcionan una transformación espectral más bruta, o menos muestreada, del habla para la transmisión. Esto puede reducir la velocidad binaria a significativamente menos de un décimo de una velocidad de 64 kilobits. Por tanto, la cantidad de datos a transmitir puede reducirse en un factor 10 o más, o al menos un orden de magnitud, preservando al mismo tiempo la información en las señales para el posterior proceso de reconocimiento del habla.

En relación con la Figura 4, las salidas del banco de filtros de escala Mel 44 han muestreado representaciones en forma de una serie de cuadros, que son esencialmente un juego de valores de filtros producidos por el banco de filtros y que refleja el contenido espectral de las señales de audio. Los filtros de escala Mel 44 pueden proporcionar cuadros procedentes del banco de filtros, a aproximadamente 10 milisegundos, por ejemplo. Dichos proceso y análisis de audio en el auricular proporcionan una primera fase de reducción en la cantidad de información (es decir, datos) que deben ser transmitidos desde el auricular hasta el terminal para el proceso de reconocimiento de voz. Así, proporciona la reducción deseada de consumo de energía y tiempo de transmisión, y supera otros inconvenientes indeseables de la técnica anterior y de los auriculares inalámbricos de la técnica anterior.

El auricular 16 de la invención aún proporciona información de audio en una forma que puede ser utilizada eficientemente por el terminal 19 o el ordenador 20 para el reconocimiento del habla. Proporcionando el procesado de audio de las señales directamente en el auricular, la presente invención proporciona otra ventaja sobre la técnica anterior. Específicamente, reduce la potencia de proceso necesaria en el terminal 10 para el proceso de reconocimiento de voz. De esta forma, pueden utilizarse dispositivos menos inteligentes o menos potentes (y por tanto, menos caros) con el auricular 16 de la invención para proporcionar capacidades de reconocimiento de voz. Por ejemplo, puede haber disponible un dispositivo portátil, pero puede no tener la capacidad de procesar adecuadamente las señales de audio desde el micrófono. Por tanto, mientras que el dispositivo portátil tiene la potencia de proceso adecuada para gestionar el proceso de reconocimiento del habla de etapa final, puede no ser capaz de hacerlo adecuadamente a causa de la calidad de la señal digitalizada extraída de un auricular inalámbrico tradicional, y un micrófono puede no ser de calidad adecuada para el proceso de reconocimiento del habla.

La presente invención mejora esto porque ejecuta el proceso de audio en el auricular de forma que una corriente de información adecuadamente digitalizada, o bits, es suministrada al dispositivo portátil para su gestión. Dicha información digitalizada preprocesada tal como es suministrada por el auricular de la invención es mucho más fácil de procesar que las señales de audio brutas.

En otro aspecto de la presente invención, una versión inalámbrica del auricular 16 elimina la necesidad de tener un dispositivo portátil con un conector adecuado para acoplarse con el cable de un auricular.

Según otro aspecto de la presente invención, se han obtenido ventajas adicionales con más reducción en la información transmitida al dispositivo remoto o terminal. Generalmente, los datos son transmitidos desde el auricular solo cuando el habla del usuario ha sido captada por el auricular. Específicamente, los circuitos de proceso 30 en una materialización están configurados para analizar las representaciones digitalizadas o muestreadas de las señales de audio, como los cuadros de valor de filtros, para detectar si las señales de audio representan habla. A este fin, los circuitos de proceso incorporan circuitos de detección del habla 46, que proporcionan un algoritmo de detección para detectar si las señales de audio representan el habla de un usuario que lleva el auricular. Tal como ilustra la Figura 4, los circuitos de digitalización 42 y los filtros de audio 44 están acoplados a los circuitos de detección del habla. Una salida de los circuitos de detección del habla 46 es utilizada para activar circuitos de proceso 48 adicionales, ilustrados en forma de circuitos conversores, para controlar cuando el auricular realmente transmite en un formato inalámbrico al terminal 10 u otro dispositivo.

Generalmente, en una versión inalámbrica, el auricular 16 incluye transmisión inalámbrica adecuada o circuitos transceptores 50 para comunicarse con el terminal.

Alternativamente, el auricular puede incluir circuitos transceptores 51 con cable.

Los circuitos de detección del habla 46 analizan los valores de filtros o "cuadros" desde los circuitos de filtros 44. Se conocen varios de dichos algoritmos de detección del habla, y pueden ser utilizados para proporcionar una señal de control 52 para controlar los componentes de los circuitos de proceso 48 para determinar si los cuadros o cualesquiera otras representaciones muestreadas deberían ser transmitidas al terminal. Al detectarse el habla de un usuario, los circuitos de proceso son configurados para transmitir los cuadros o representaciones muestreadas al terminal. Alternativamente, cuando no se detecta el habla del usuario, los circuitos de proceso 48 generalmente no transmitirán los cuadros o representaciones muestreadas al terminal. Naturalmente, es concebible que haya veces en que señales de habla extrañas sean detectadas como habla, pero realmente no son representativas del habla del usuario del usuario del auricular, y no es probable que dichas señales puedan inadvertidamente ser transmitidas al terminal. Sin embargo, en un sentido general, los circuitos de detección del habla 46 y los circuitos de proceso 48 operan para transmitir principalmente las representaciones muestreadas solo cuando se detecta el habla. Una materialización alternativa descrita más abajo discrimina ruidos extraños del habla del usuario.

Como tales, los circuitos de proceso representan un orden de magnitud adicional de reducción de transmisión de datos, con respecto a la información transmitida al terminal. Es decir, que no solo aquellas señales son enviadas a la terminal reducidas por el proceso de audio del auricular (esto es, cuadros o muestras de filtro reducido) sino que las representaciones muestreadas ni siquiera serán enviadas a la terminal a menos que representen el habla del usuario. Naturalmente, una reducción de transmisión de datos como esta dependería del ciclo de trabajo del usuario que está hablando en los auriculares. Por ejemplo, si una aplicación requiere que el usuario hable todo el tiempo, puede haber una reducción de transmisión de datos menos significativa suministrada por los circuitos de detección del habla 46 y los circuitos de proceso 48 porque el auricular estará constantemente procesando y enviando el habla del usuario.

Sin embargo, la mayoría de aplicaciones requieren que un usuario hable solo una pequeña fracción de tiempo, y así pues la presente invención proporciona una reducción adicional significativa mediante los circuitos de detección del habla y control de cuándo el auricular realmente transmite al terminal u otro dispositivo remoto.

Ahora, en relación con el terminal 10 tal como está ilustrado en la Figura 3, el terminal incorpora circuitos adicionales 62 para el tipo específico de sistema de reconocimiento del habla utilizado. Es decir, que el proceso de los circuitos de reconocimiento del habla adicionales y de reconocimiento del habla utilizado en el terminal puede ser cualquier proceso de reconocimiento del habla adecuado, y generalmente no afectará a las ventajas que presenta el auricular de la presente invención, que utiliza circuitos de proceso de audio de entrada para proporcionar una reducción de la cantidad de información transmitida al terminal.

La materialización de ejemplo descrita aquí usa un auricular 16 para comunicarse con el terminal 10. Alternativamente, tal y como se muestra en la Figura 3, el auricular puede comunicarse directamente con un ordenador central 20, que tiene incorporados unos circuitos de reconocimiento del habla 21 apropiados. Esto evita un terminal separado. En la descripción siguiente, el terminal 10 puede también ser el ordenador 20 o cualquier otro dispositivo remoto adecuado.

En relación con la Figura 4 y el terminal 10, los cuadros que son transmitidos a través de un enlace 18, 19 al terminal son recibidos por los circuitos receptores o transceptores 61, 62 apropiados en el terminal y dirigidos a los circuitos de proceso de reconocimiento de voz para su posterior proceso de reconocimiento de voz. Los circuitos de proceso 62 utilizados dependerán del tipo de sistema de reconocimiento de voz utilizado dentro del terminal 10 y dentro del sistema general. Como se ha indicado anteriormente, un producto adecuado para implementar la presente invención es el producto Talkman® de Vocollect. Los circuitos de reconocimiento del habla utilizados aquí están ilustrados en la Figura 4 a los efectos de ilustrar una materialización ejemplar de la invención, pero ciertamente no limitan la invención al tipo de protocolo de reconocimiento del habla utilizado.

Por ejemplo, los circuitos de proceso de reconocimiento del habla 62 pueden incluir circuitos de proceso cepstral 64. Los circuitos de proceso cepstral 64 proporcionan una transformación espectral de los cuadros recibidos desde el auricular 16 de conformidad con los principios de transformación cepstral conocidos. Los circuitos de proceso de etapa final adicionales incluyen circuitos de referencia del libro de encriptación 66 y circuitos de coincidencia con el patrón 68 para gestionar los pasos restantes de la tecnología de reconocimiento del habla para el terminal 10.

Principalmente, los circuitos de proceso cepstral producen un rango de valores en forma de una transformación que es dirigido a los circuitos de referencia del libro de encriptación. La referencia del libro de encriptación generaría un juego de valores de libro de encriptación que están correlacionados con los valores de salida de los circuitos de transformación cepstral 64. Es decir, para una transformación cepstral particular de la señal, los circuitos 66 producen un juego de valores de libro de encriptación. Como es bien sabido en la tecnología de reconocimiento del habla, los valores del libro de encriptación son representativos de sonidos, como palabras, que tienen un significado particular dentro de la operación del sistema general. Los circuitos de coincidencia de patrón 68 determinan si los valores del código de salida son realmente indicativos de una palabra específica que se ha dicho. Por ejemplo, puede producirse un juego de valores del libro de encriptación que represente la palabra "uno", o posiblemente la palabra "dos". Los circuitos de coincidencia de patrón 68 miran los vectores, o valores, de entrada, desde los circuitos de referencia del libro de encriptación 66, y determinan si se ha dicho la palabra "uno" o "dos".

Más específicamente, la salida de valores del libro de encriptación por los circuitos 66 es una cadena de valores que representan los sonidos que se producen cuando se dice una palabra en particular. Una disposición de estos valores representa una palabra en particular. Se genera una cadena de dichos valores, en base a los cuadros transmitidos por el auricular, y la cadena de valores es comparada por los circuitos de coincidencia de patrón para conjuntos de palabras que están en el vocabulario de los circuitos de coincidencia de patrón. En la detección del habla a través de circuitos de coincidencia de patrón 68, la información puede ser procesada posteriormente por los circuitos 62, como en un terminal u ordenador autónomo, o puede ser enviada a un ordenador central, a través de un enlace apropiado, como por un transceptor inalámbrico o transmisor inalámbrico 70 (ver Figura 2).

En los ejemplos ilustrados, alguno de los que pueden considerarse circuitos/hardware del proceso del habla de "entrada" están ubicados en el auricular. Sin embargo, en materializaciones alternativas, circuitos adicionales, como los circuitos de transformación cepstral 64 o algunos circuitos de "etapa final" como la función de referencia del libro de encriptación pueden también implementarse en el auricular. Por tanto, la presente invención no está limitada a las materializaciones ilustradas que muestran circuitos de reconocimiento del habla específicos en el auricular, y pueden utilizarse diferentes bloques de circuito funcionales en el auricular y un dispositivo remoto para proporcionar las ventajas de la invención.

Según otro aspecto de la presente invención, el habla del usuario puede ser discriminada con respecto a ruidos de habla extraños. Los datos en ese caso no son transmitidos, a menos que se detecte el habla del usuario. A este fin, el auricular 60 puede incluir otro micrófono, como un segundo micrófono 41, como se ilustra en la Figura 4. Las salidas desde los micrófonos se usan para discriminar el habla del usuario de las señales o sonidos de audio extrañas. El segundo micrófono 41 está configurado para captar sonido y generar señales de audio de forma similar al micrófono 40. Sin embargo, según un aspecto de la invención, el micrófono 41 puede estar ubicado en una ubicación remota o a cierta distancia del micrófono 40. El micrófono 40 estará ubicado generalmente en la proximidad de la boca del usuario para captar el habla del usuario. El segundo micrófono 41 es utilizado para hacer posible la detección del habla del usuario en presencia de sonidos extraños, como sonidos de voz del sistema de dirección pública, por encima de la operación del sistema general, incorporando el auricular 16 y el terminal 10.

Específicamente, cada uno de los micrófonos 40, 41 está configurado para generar señales que tengan niveles de señal correspondientes.

Debido a su posición, el micrófono 40 está configurado para detectar una mayor proporción de sonidos del habla de un usuario de los que detectará el segundo micrófono. Sin embargo, ambos micrófonos escucharán, generalmente igualmente, estos sonidos extraños que no responden al habla del usuario, como caídas de cajas, ruidos de equipos, o sonidos P.A. Los circuitos de proceso 30 de la invención incluyen circuitos que están configurados para comparar características de señal, como niveles de energía de señal relativos, de aquellas señales que son generadas por los dos micrófonos 40, 41 para determinar si el usuario está hablando. Por ejemplo, con un sonido extraño, la diferencia relativa en los niveles de señal en los dos micrófonos permanecerá estable. Sin embargo, cuando el usuario está hablando, generalmente las características de los sonidos registrados por el primer micrófono 40 cambiarán significativamente con respecto a las características de las señales desde el segundo micrófono 41, que podría estar ubicado cerca de la oreja o en la parte superior de la cabeza del usuario, según cómo se implemente la estructura física del auricular. Esto proporcionará una indicación adicional de que el usuario está hablando. Los circuitos de proceso 30 pueden además usar esta prestación para determinar si transmitir o no al terminal según otro aspecto de la invención. Por tanto, los circuitos de proceso 30, y particularmente los circuitos 48, que reciben los cuadros muestreados desde los filtros 44, proporcionan un nivel añadido de análisis para determinar cuándo los cuadros deberían ser transmitidos al terminal 10. Así, ruidos extraños en forma de habla humana, que no son el habla del usuario o el habla directamente del usuario, pueden no ser transmitidos en base a cómo los auriculares perciben esta habla humana, como indican las características de las señales desde los múltiples micrófonos 40, 41.

En consecuencia, la presente invención proporciona ventajas significativas y se enfrenta a varios inconvenientes de la técnica anterior. La invención reduce la transmisión de datos que se requiere para transmitir la información necesaria desde el auricular hasta un dispositivo cercano, que ejecuta el reconocimiento del habla. La invención además hace a una parte del proceso de audio independiente de la tecnología. El consumo de energía se reduce, y también la exposición de un usuario de auricular a las transmisiones RF. El auricular de la presente invención puede ser utilizado con dispositivos de reconocimiento del habla que no tengan una conexión o clavija específica al auricular.

Además, la presente invención proporciona señal de habla de alta calidad para el uso por un reconocedor del habla para proporcionar cierto proceso del habla en el auricular. Otras ventajas que no se han hecho constar específicamente son también suministradas por la invención.

Puesto que la presente invención se ha ilustrado mediante la descripción de las distintas materializaciones y puesto que estas materializaciones se han descrito con mucho detalle, los expertos en la técnica podrán obtener fácilmente ventajas y modificaciones adicionales.

\vskip1.000000\baselineskip

Referencias bibliográficas mencionadas en la memoria descriptiva

Esta lista de referencias bibliográficas mencionadas por el solicitante se ha incorporado exclusivamente para información del lector. No forma parte integrante de la documentación de la patente europea. Aún habiéndose recopilado esta lista de referencias bibliográficas con sumo cuidado, no pueden excluirse errores u omisiones, por lo que la EPO declina toda responsabilidad a este respecto.

Documentación de la patente mencionada en la memoria descriptiva

\bullet US 2003118197 A

\bullet DE 2628259 A

Claims

1. Un sistema para comunicaciones inalámbricas que usa reconocimiento del habla y comprende un dispositivo (10, 20) para recibir señales de habla, un auricular (16) con un micrófono (70) para captar señales de audio, comprendiendo dicho auricular circuitos de digitalización (42) dispuestos para formar representaciones digitalizadas de las señales de audio, y circuitos de proceso (30) dispuestos para procesar las representaciones digitalizadas usando circuitos de reconocimiento del habla y transmitir inalámbricamente al dispositivo (10, 20), caracterizado por el hecho de que los circuitos de proceso (30) ejecutan el proceso de reconocimiento del habla de etapa final, siendo los circuitos de proceso operables para formar representaciones espectrales muestreadas de las representaciones digitalizadas y después procesar las representaciones espectrales muestreadas para determinar que las señales de audio captadas incluyen el habla del usuario, incluyendo los circuitos de proceso (30) circuitos conversores (48) dispuestos para controlar la transmisión al dispositivo (10, 20), siendo las representaciones espectrales muestreadas transmitidas al dispositivo (10, 20) solo cuando se detecta el habla del usuario, y no transmitiendo los circuitos de proceso (30) al dispositivo cuando no es detectada el habla del usuario, y en que el dispositivo (10, 20) incluye circuitos de proceso de reconocimiento del habla de etapa final (62) para procesar además las representaciones espectrales transmitidas por el auricular (16) para completar el reconocimiento del habla.

2. El sistema de la reivindicación 1, en el que el auricular (16) comprende circuitos de filtro de audio (44) configurados para formar las representaciones espectrales de las señales de audio.

3. El sistema de la reivindicación 1 o 2, en el que el auricular (16) comprende filtros (44) para crear las representaciones espectrales de las señales de audio captadas en forma de cuadros de señal, estando el auricular (16) configurado para transmitir los cuadros de señal.

4. El sistema de la reivindicación 3, en el que los filtros incluyen filtros de escala Mel (44) para generar los cuadros de señal.

5. El sistema de cualquiera de las reivindicaciones precedentes, en el que el dispositivo es un terminal portátil (10).

6. El sistema de cualquiera de las reivindicaciones 1 a 4 en el que el dispositivo es un ordenador (20).

7. El sistema de cualquiera de las reivindicaciones precedentes, que comprende además un segundo micrófono, estando el primer y segundo micrófonos (70) configurados para generar señales con el primer micrófono (70) para detectar una mayor proporción de sonidos del habla de un usuario que el segundo micrófono, estando los circuitos de proceso (30) configurados para procesar señales generadas por el primer y segundo micrófonos (70) para determinar si el usuario está hablando.

8. El sistema de cualquiera de las reivindicaciones precedentes en el que los circuitos de reconocimiento del habla de etapa final (62) comprenden circuitos de referencia de libro de encriptación.

9. El sistema de cualquiera de las reivindicaciones precedentes en el que los circuitos de reconocimiento del habla de etapa final comprenden circuitos de coincidencia de patrón.

10. Un método para comunicación inalámbrica entre un auricular (16) y un dispositivo (10, 20), comprendiendo el método los pasos de captar señales de audio con un auricular (16) que tiene un micrófono (70), formando representaciones digitalizadas de las señales de audio, procesando las representaciones digitalizadas usando circuitos de reconocimiento del habla y transmitiendo inalámbricamente al dispositivo (10, 20), caracterizado por el hecho de que el método comprende ejecutar reconocimiento del habla de etapa final en el auricular incluyendo la formación de representaciones espectrales muestreadas de las representaciones digitalizadas y el proceso de las representaciones espectrales muestreadas incluye el habla del usuario, y después usando circuitos conversores (48) para controlar la transmisión al dispositivo (10, 20) para transmitir las representaciones espectrales muestreadas al dispositivo (10, 20) solo cuando se detecta el habla del usuario, y en que el método además comprende proceso de reconocimiento del habla de etapa final en el dispositivo (10, 20) de las representaciones espectrales transmitidas por el auricular (16) para completar el reconocimiento del habla.

11. El método de la reivindicación 10, que comprende además el paso para formar las representaciones espectrales como cuadros de señal y transmitir los cuadros de señal.

12. El método de la reivindicación 11, que comprende además usar filtros de escala Mel (44) en el auricular (16) para generar los cuadros de señal.

13. El método de cualquiera de las reivindicaciones 10 a 12 en el que el dispositivo es un terminal portátil (10).

14. El método de cualquiera de las reivindicaciones 10 a 12 en el que el dispositivo es un ordenador (20).

15. El método de cualquiera de las reivindicaciones de 10 a 14, que comprende además el paso de captar señales de audio con un segundo micrófono ubicado en el auricular (16), detectando el primer micrófono (70) una mayor proporción de sonidos del habla de un usuario que el segundo micrófono, procesando las señales generadas por el primer y segundo micrófonos (70) para determinar si el usuario está hablando.

16. El método de cualquiera de las reivindicaciones de 10 a 15, en el que el proceso de reconocimiento del habla de etapa final comprende activar circuitos de referencia del libro de encriptación para producir valores del libro de encriptación.

17. El método de la reivindicación 16 en el que el proceso de reconocimiento del habla de etapa final comprende ejecutar un proceso de coincidencia de patrón con los valores del libro de encriptación.