ES2343323T3 - Auriculares inalambricos para su utilizacion en un entorno de reconocimiento por voz. - Google Patents
Auriculares inalambricos para su utilizacion en un entorno de reconocimiento por voz. Download PDFInfo
- Publication number
- ES2343323T3 ES2343323T3 ES04721068T ES04721068T ES2343323T3 ES 2343323 T3 ES2343323 T3 ES 2343323T3 ES 04721068 T ES04721068 T ES 04721068T ES 04721068 T ES04721068 T ES 04721068T ES 2343323 T3 ES2343323 T3 ES 2343323T3
- Authority
- ES
- Spain
- Prior art keywords
- circuits
- speech
- headset
- user
- representations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 43
- 238000004891 communication Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 96
- 230000008569 process Effects 0.000 claims description 82
- 230000005540 biological transmission Effects 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 17
- 230000003213 activating effect Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 230000009466 transformation Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000005265 energy consumption Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000001746 atrial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
- H04M1/6041—Portable telephones adapted for handsfree use
- H04M1/6058—Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone
- H04M1/6066—Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone including a wireless connection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/10—Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
- H04R2201/107—Monophonic and stereophonic headphones with microphone for two-way hands free communication
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Headphones And Earphones (AREA)
- Transmitters (AREA)
- Mobile Radio Communication Systems (AREA)
- Transceivers (AREA)
Abstract
Un sistema para comunicaciones inalámbricas que usa reconocimiento del habla y comprende un dispositivo (10, 20) para recibir señales de habla, un auricular (16) con un micrófono (70) para captar señales de audio, comprendiendo dicho auricular circuitos de digitalización (42) dispuestos para formar representaciones digitalizadas de las señales de audio, y circuitos de proceso (30) dispuestos para procesar las representaciones digitalizadas usando circuitos de reconocimiento del habla y transmitir inalámbricamente al dispositivo (10, 20), caracterizado por el hecho de que los circuitos de proceso (30) ejecutan el proceso de reconocimiento del habla de etapa final, siendo los circuitos de proceso operables para formar representaciones espectrales muestreadas de las representaciones digitalizadas y después procesar las representaciones espectrales muestreadas para determinar que las señales de audio captadas incluyen el habla del usuario, incluyendo los circuitos de proceso (30) circuitos conversores (48) dispuestos para controlar la transmisión al dispositivo (10, 20), siendo las representaciones espectrales muestreadas transmitidas al dispositivo (10, 20) solo cuando se detecta el habla del usuario, y no transmitiendo los circuitos de proceso (30) al dispositivo cuando no es detectada el habla del usuario, y en que el dispositivo (10, 20) incluye circuitos de proceso de reconocimiento del habla de etapa final (62) para procesar además las representaciones espectrales transmitidas por el auricular (16) para completar el reconocimiento del habla.
Description
Auriculares inalámbricos para su utilización en
un entorno de reconocimiento por voz.
Esta invención se refiere generalmente a los
terminales de ordenador móviles o portátiles y a los auriculares
utilizados en los sistemas activados por voz que tengan capacidades
de reconocimiento de voz.
Los terminales o dispositivos informáticos
llevables, móviles y/o portátiles se usan para una amplia variedad
de tareas. Dichos dispositivos o terminales permiten a los
trabajadores que los usan mantener la movilidad, proporcionando al
mismo tiempo al trabajador funciones deseables de computación y
proceso de datos. Además, dichos terminales pueden proporcionar un
enlace de comunicación a un sistema informático mayor más
centralizado, que además maneje la organización de las tareas a
ejecutar. Un sistema integrado global puede implicar una
combinación de un sistema informático central para seguir y
gestionar las tareas, una pluralidad de dispositivos o terminales
móviles o y periféricos asociados y las personas ("usuarios")
que usen los terminales y la interfaz con los terminales y/o el
sistema informático.
Para proporcionar una interfaz entre el sistema
informático central y los trabajadores, los terminales llevables y
los sistemas a los que están conectados a menudo son activados por
voz; esto es, activados mediante el habla humana. Como tal, el
ordenador central y los terminales incorporan tecnología de
reconocimiento de voz. Para comunicarse en un sistema activado por
voz, por ejemplo, deben pasar señales de habla hacia dentro y hacia
fuera de los dispositivos o terminales portátiles para proporcionar
el interfaz de habla adecuado con un usuario. Mediante la interfaz
de habla, los trabajadores son capaces de recibir instrucciones de
voz, hacer preguntas, informar del progreso de sus tareas e
informar de las condiciones de trabajo, por ejemplo de escasez de
inventario. Usando dichas terminales, el trabajo se hace
prácticamente sin manos, sin tener que cargar equipos ni llevar
papeles encima.
Hay varias formas de hacer pasar las señales de
habla hacia dentro y hacia fuera de un terminal u otro dispositivo.
Por ejemplo, pueden usarse un micrófono y un altavoz ubicados en el
terminal portátil actual. Sin embargo, un dispositivo así puede no
resultar práctico en muchos entornos. Como puede apreciarse, dichos
sistemas a menudo son utilizados en ambientes ruidosos donde los
trabajadores están expuestos a diversos ruidos extraños que pueden
afectar a la calidad de su comunicación de voz con su terminal y el
sistema informático central. Un terminal portátil, montado sobre
una cinturón u otro dispositivo para asegurarlo al usuario, podría
quedar demasiado lejos de la boca del usuario para una comunicación
efectiva. Por tanto, tienen que utilizarse técnicas de captación de
voz más aisladas o direccionales, como auriculares.
Los auriculares con cable tradicionales son
bastante populares para terminales o dispositivos portátiles y
requieren un cable que vaya desde el auricular hasta el terminal. Un
auricular normalmente incluye un micrófono y uno o más
hablantes.
El terminal incluye una toma apropiada a acoplar
con un conector o clavija del cable del auricular, y también
incluye electrónica de proceso de audio para procesar las señales de
habla enviadas desde/a el auricular. Una configuración tradicional
como esta presenta algunos inconvenientes. Por ejemplo, el cable
desde el terminal hasta el auricular resulta a menudo incómodo,
pues puede enredarse o engancharse, interrumpiendo el curso del
trabajo. Además, el terminal debe estar configurado específicamente
para el auricular y, por tanto, está limitado a usarse con un
auricular específico, y viceversa.
Más aún, si la electrónica de proceso de audio
del terminal es limitada, el rendimiento del terminal estará
igualmente limitado como dispositivo interfaz activado por voz,
porque el auricular proporciona solo un micrófono y altavoces para
gestionar señales de audio puras.
Para enfrentarse a algunas de estas cuestiones,
como el cable auricular-terminal, se propone usar un
periférico inalámbrico, como un auricular inalámbrico, para
comunicarse con el terminal. Un auricular inalámbrico (p. ej., que
use hardware WPAN Blue Tooth) elimina la necesidad de un conector
específico y de un cable para el auricular. Sin embargo, dicho
sistema inalámbrico también tiene varios inconvenientes.
Por ejemplo, dicho auricular que usa tecnología
inalámbrica tradicional, como Blue Tooth, debe transmitir señales
continuamente al terminal móvil. Esto requiere que se envíen
cantidades sustanciales de datos y ciclos de transmisión. Por eso
comporta ciertas implicaciones.
La transmisión constante consume rápidamente la
necesariamente pequeña batería que debería utilizarse en un
auricular inalámbrico.
Además, dicha transmisión continua expone a un
usuario a jornada completa (esto es, cuarenta horas por semana) a
continuas transmisiones RF cercanas a la cabeza del usuario. Cosa
que no es muy conveniente.
Además, usar la tecnología de auricular
inalámbrico existente para un sistema activado por voz requiere que
el terminal esté configurado para gestionar la considerable tarea de
procesar todo el audio, además del proceso de reconocimiento de
voz.
Por tanto, los auriculares inalámbricos no serán
útiles con terminales que no tengan ciertas capacidades de audio o
potencia de procesado. Como tales, los auriculares inalámbricos con
la tecnología actual no son adecuados en sistemas activados por voz
que utilizan tecnología de reconocimiento del habla. Además, dicha
transmisión continua entre el auricular inalámbrico y el terminal
inalámbrico todavía es necesaria con los sistemas existentes, ya
que no es práctico poner un reconocedor y sintetizador del habla
completo a nivel industrial en el interior de un auricular.
Por tanto, hay una particular necesidad de
superar los diversos inconvenientes de la técnica anterior. Y además
hay otra necesidad de conseguir las ventajas de un auricular
inalámbrico dentro de un sistema activado por voz sin las
características de transmisión a tiempo completo ahora requeridas.
Hay una necesidad de proporcionar comunicación mediante auricular
inalámbrico de forma asequible que asegure un funcionamiento
adecuado de las prestaciones de reconocimiento por voz. La patente
estadounidense publicada 2003/118.197 muestra un dispositivo
auricular que recibe tanto habla como, a través de comunicaciones de
radio de onda corta, sonidos externos que son captados por un
micrófono de detección de sonido. Los sonidos externos se consideran
sonidos directos. El auricular recibe tanto el habla como los
sonidos directos, y está configurado para ajustar selectivamente la
proporción de sonidos directos y el habla a usar por el
auricular.
DE-A-2628259
muestra un sistema de intercomunicación para transportar señales de
habla entre hablantes cuando hay mucho ruido ambiental de fondo.
Específicamente, el sistema de intercomunicación utiliza un diplexor
cuya frecuencia separa aquellas señales que pueden considerarse
dentro de la banda normal del habla (p. ej. 300 Hz - 3000 Hz) de
las de fuera del ruido de banda.
Por tanto, en base a la frecuencia, el sistema
de intercomunicación determina que las señales entre 300 Hz y 3000
Hz pueden ser habla, y todas las demás señales fuera de esta banda
pueden ser ruido.
La presente invención proporciona un auricular
para la comunicación con un dispositivo, estando el auricular
configurado para procesar señales de audio captadas por el auricular
y para transmitir al dispositivo representaciones muestreadas de
las señales de audio captadas, caracterizado por el hecho de que el
auricular está configurado para procesar representaciones
muestreadas de señales de audio captadas por el auricular y para
usar circuitos de detección del habla para determinar que las
señales de audio incluyen el habla del usuario, y por que el
auricular además está configurado para transmitir representaciones
muestreadas de las señales de audio captadas hacia el dispositivo,
basándose en la determinación de que el habla del usuario es
detectada en las señales de audio.
La presente invención también proporciona un
método para comunicación inalámbrica entre un auricular y al menos
un dispositivo, comprendiendo este método la captura de señales de
audio con un auricular, el proceso de las señales de audio en el
auricular y la transmisión de representaciones muestreadas de las
señales de audio al dispositivo, caracterizado por el hecho de que
el proceso es de señales muestreadas de las señales de audio en el
auricular usando circuitos de detección del habla para determinar
que las señales de audio incluyen el habla del usuario, y por que
las representaciones muestreadas de las señales de audio son
transmitidas al dispositivo basándose en la determinación de que se
ha detectado el habla del usuario.
Los dibujos anexados, que están incorporados a,
y forman parte de, estas especificaciones, ilustran
materializaciones de la invención, y junto con la descripción
general de la invención dada más arriba y la descripción detallada
dada más abajo, sirven para explicar la invención.
La figura 1 es una vista en perspectiva de un
trabajador que usa un terminal y auricular según la presente
invención.
La Fig. 2 es un diagrama sinóptico esquemático
de un sistema que incorpora la presente invención.
La Fig. 3 es un diagrama sinóptico esquemático
de una materialización de ejemplo de la presente invención.
La Fig. 4 es un diagrama sinóptico esquemático
de otra materialización de ejemplo de la presente invención.
En la Fig. 1 se muestra, en uso, un aparato que
incluye un terminal u ordenador portátil y/o llevable 10 y un
auricular 16, aparato que incorpora una materialización de la
presente invención. El terminal portátil puede ser un dispositivo
llevable, que puede ser llevado por un trabajador 11 u otro usuario,
por ejemplo sobre un cinturón 14 como se muestra.
Esto permite el uso con manos libres del
terminal. Naturalmente, el terminal podría también ser llevado
manualmente o transportado de cualquier otra forma, como sobre una
carretilla elevadora. Las prestaciones inalámbricas de la invención
permiten una mayor flexibilidad con respecto al ordenador portátil.
El uso del término "terminal" aquí no está limitado y puede
incluir cualquier ordenador, dispositivo, máquina o sistema que se
use para ejecutar una tarea específica, y que se use en combinación
con uno o más dispositivos periféricos, como el auricular 16.
Por ejemplo, el auricular puede de hecho
comunicarse con un ordenador central en lugar de un terminal, como
se describirá a continuación.
Los terminales portátiles 10 funcionan en un
sistema activado por voz y permiten que una variedad de trabajadores
11 se comuniquen con uno o más ordenadores centrales (ver Fig. 2),
que forman parte de un sistema mayor para enviar y recibir
información sobre las actividades y tareas a ejecutar por el
trabajador. El ordenador u ordenadores centrales 20 pueden activar
uno o más paquetes de software del sistema para gestionar una tarea
en particular, como la gestión de inventario y almacén.
Naturalmente, los terminales 10 pueden ser también dispositivos
autónomos, que utilizan la invención como interfaz con un
usuario.
En una materialización de ejemplo, el terminal
10 se comunica con un ordenador central 20 o con una pluralidad de
ordenadores, como con un enlace inalámbrico 22. Para permitir al
usuario comunicarse con el sistema, hay acoplados uno o más
dispositivos periféricos o periféricos, como auriculares 16, a los
terminales 10. Según un aspecto de la invención, el auricular 16
está acoplado al terminal mediante un enlace inalámbrico 19. El
auricular 16 es llevado en la cabeza por el usuario/trabajador, y
permite la operación con manos libres y el movimiento a través del
almacén o cualquier otra instalación.
Las Figuras 3 y 4 son diagramas sinópticos de
materializaciones ejemplares de terminales y auriculares para
utilizar la invención. Sin embargo, la presente invención no está
específicamente limitada a las materializaciones ilustradas. Por
ejemplo, varios componentes o bloques diferentes variarán en base al
tipo de reconocedor del habla o tecnología de reconocimiento del
habla que puede ser utilizada en la presente invención. Así, pueden
utilizarse varios reconocedores y esquemas del habla diferentes en
la presente invención sin variar por ello la segmentación de
funcionalidad entre un auricular y un terminal u ordenador, como se
argumenta más adelante. Una breve explicación de la interacción
típica de un auricular y terminal es útil a la hora de comprender
el entorno activado por voz de la invención, y las ventajas
específicas ofrecidas por la invención.
Específicamente, el terminal 10 para comunicarse
con un ordenador central puede comprender circuitos de proceso, que
pueden incluir un procesador para controlar la operación del
terminal y otros circuitos de proceso asociados.
Los circuitos de proceso incorporarán circuitos
de procesado de audio, como filtros de audio y circuitos de
correlación asociados con el reconocimiento del habla. Un terminal
adecuado para implementar la presente invención es Talkman®,
producto disponible de Vocollect de Pittsburgh, Pensilvania. Según
un aspecto de la presente invención, el terminal es usado en un
sistema accionado por voz, que usa tecnología de reconocimiento del
habla para la comunicación.
El auricular 16 proporciona comunicación de voz
con manos libres entre el trabajador 11 y el terminal 10. A este
fin, la información digital es convertida a un formato de audio, y
viceversa, para proporcionar comunicación de habla entre el
dispositivo o sistema y un trabajador. Por ejemplo, en un sistema
típico, el terminal 10 recibe instrucciones digitales desde el
ordenador central 20 y convierte estas instrucciones a audio para
ser escuchado por un trabajador 11.
El trabajador 11 después responde, en un
lenguaje hablado, y la respuesta de audio es convertida a un formato
digital utilizable para ser transferido de vuelta al ordenador
central del sistema.
La presente invención, enfocada a los
inconvenientes de la técnica anterior, proporciona un auricular
mejorado que hace algo más que simplemente captar la señal de voz
con un micrófono y dirigir esta señal de audio pura al terminal 10.
En una materialización, el auricular y sistema de la presente
invención proporcionan un proceso de audio preliminar y un
algoritmo de detección del habla justo en el auricular para efectuar
la determinación de cuándo es apropiado transmitir el habla del
usuario a un terminal. Por tanto, el auricular no está transmitiendo
continuamente. Esto proporciona una reducción de la transmisión de
datos en la comunicación entre el auricular y el terminal. El
proceso posterior de reconocimiento del habla es después gestionado
por la terminal u ordenador central. La presente invención además
ejecuta la reducción de transmisión procesando representaciones
muestreadas de las señales de audio y enviándolas al terminal, en
lugar de audio puro. La presente invención está enfocada a varios
de los inconvenientes de los auriculares inalámbricos de la presente
invención usando otros protocolos inalámbricos, como Blue Tooth, y
específicamente está enfocada a cuestiones de consumo de energía,
cuestiones de transmisión de datos, y reduce la cantidad de tiempo
que el auricular está transmitiendo al terminal o a cualquier otro
dispositivo. Específicamente, en relación con la Figura 3, se
ilustra una materialización ejemplar de la presente invención. Como
se ha indicado anteriormente, las implementaciones ilustradas están
dirigidas a un tipo de reconocedor del habla, como el actual
Talkman® de Vocollect.
Sin embargo, otras materializaciones pueden
utilizar la presente invención, que usa la tecnología de
reconocimiento del habla, sin por ello desviarse del ámbito de la
invención. Las materializaciones ejemplares ilustradas en las
Figuras 3 y 4 son útiles para ilustrar posibles sistemas, utilizando
un auricular y un terminal y/o un ordenador.
La Figura 3 ilustra un sencillo diagrama
sinóptico de una materialización ejemplar de la presente invención.
Específicamente, la Figura 3 incorpora un auricular 16, que está
configurado para comunicarse en un aspecto con un enlace conectado
por cable 18 o con un enlace inalámbrico 19 con un terminal portátil
10. El terminal portátil 10, a su vez, puede estar configurado para
comunicarse con otro enlace, como el enlace inalámbrico 22, a un
ordenador central 20. Alternativamente, el terminal portátil 10
puede ser un sistema o dispositivo autónomo que meramente se
comunica con un usuario a través del auricular 16. En aún otra
materialización alternativa, el auricular puede comunicarse
directamente con el enlace 22 a un ordenador central 20.
El auricular 16 incorpora un dispositivo
micrófono 40 configurado para captar señales de audio, como el habla
de un usuario. Según un aspecto de la presente invención, el
auricular 16 incorpora circuitos de proceso 30, que están
configurados para analizar representaciones digitalizadas de señales
de audio captadas por el micrófono 40. A este fin, los circuitos de
proceso incluirán circuitos de digitalización adecuados para
proporcionar representaciones apropiadas de las señales de audio
para su posterior proceso. Según otro aspecto de la presente
invención, los circuitos de proceso 30 incluyen circuitos de
detección del habla 46, que están configurados para analizar las
representaciones muestreadas de las señales de audio para detectar
el habla del usuario. Los circuitos de proceso 30 incluyen
circuitos, o interfaces con circuitos, que están configurados para
la transmisión de representaciones digitalizadas o muestreadas a un
dispositivo, como un terminal portátil 10, cuando el habla es
detectada. En un aspecto, los circuitos transmiten solo cuando se
detecta el habla del usuario. Según otro aspecto de la presente
invención, los circuitos generalmente no transmiten al terminal
portátil 10 si no se detecta el habla del usuario.
De esta forma, el auricular no transmite
simplemente continuamente, sino que transmite cuando tiene habla
del usuario a enviar.
La presente invención proporciona varias fases
de reducción de transmisión de datos con respecto a las
comunicaciones con terminal portátil 10. El término "transmisión
de datos", tal como aquí se utiliza, generalmente se refiere a
la cantidad de información que debe ser transferida entre el
auricular 16 y el terminal portátil 10. En los sistemas de la
técnica anterior, los auriculares que transmiten señales de audio
puras requieren la transmisión de toda esta información y, por
tanto, la transmisión de datos significativos afecta a la
comunicación entre el auricular y el terminal. La presente
invención proporciona varios niveles de reducción de transmisión de
datos en diferentes fases en el funcionamiento del auricular 16. En
un aspecto, el auricular 16 está configurado para digitalizar las
señales de audio captadas por el auricular y para el posterior
proceso y muestreo de las señales digitalizadas, como con filtros
de audio, descritos más adelante, para proporcionar representaciones
digitalizadas o muestreadas de dichas señales. Cuando el auricular
15 transmite las representaciones digitalizadas o muestreadas,
requiere significativamente menos transmisión de datos que con la
transmisión de las señales de audio analógicas puras. Otro nivel de
reducción de transmisión es proporcionado por los circuitos de
proceso, porque solo transmite cuando se detecta el habla del
usuario. Es decir, que el habla del usuario es discriminada de los
sonidos o señales de audio extraños. Por tanto, la transmisión no es
continua, a menos que el usuario esté hablando continuamente. En
una aplicación activada por voz típica, el ciclo de trabajo del
habla del usuario puede ser menor del 10% del de un usuario que
esté operando el sistema de la invención. Por lo tanto, se
proporciona una significativa reducción de transmisión de datos
mediante la discriminación en el auricular, para transmitir cuando
el habla es detectada, pero también generalmente no transmitiendo a
un dispositivo cuando el habla no se detecta. Los inventores han
estimado que la invención puede proporcionar una reducción de
transmisión de datos de varios órdenes de magnitud sobre un
auricular tradicional que transmite señales de audio
analógicas.
analógicas.
La Figura 4 ilustra una materialización ejemplar
ligeramente más detallada de la presente invención configurada para
un sistema de reconocimiento del habla específico. Como se ha
indicado anteriormente, otros sistemas de reconocimiento del habla
pueden utilizarse con la presente invención, y así pues, la presente
invención no está limitada a una tecnología de reconocimiento del
habla específica.
En relación con la Figura 4, un auricular 16
incorpora al menos un micrófono 40 para recibir o captar señales de
audio, como el habla de un usuario que lleve el auricular.
Para los propósitos del proceso de audio y
posterior proceso de dichas señales del habla, u otras señales, las
señales deben estar digitalizadas. A este fin, los circuitos de
proceso 30 incluyen circuitos de digitalización 42, utilizados para
proporcionar representaciones digitalizadas de las señales de audio
recibidas.
Para la conversión entre audio digital y
analógico, los circuitos de digitalización 42 pueden incluir un chip
codificador/decodificador de audio, o CODEC. Un circuito de audio
adecuado, por ejemplo, puede ser un CODEC de audio UDA 1341
disponible en Philips. Según un aspecto de la presente invención,
los circuitos de proceso 30 incluyen además circuitos de análisis
del habla y/o audio, y circuitos de proceso de señal para analizar
y después procesar las señales de audio o señales del habla
digitalizadas. Por ejemplo, el auricular 16 puede incluir circuitos
de transformación espectral, o circuitos de filtrado de audio, como
los filtros de escala Mel 44, que crean una transformación
espectral de las señales de audio digitalizadas y proporcionan una
serie de representaciones o valores muestreados asociados con las
señales de audio digitalizado. Los circuitos de escala Mel,
incluyendo los filtros de escala Mel 44, son componentes conocidos
para el procesado de audio y proporcionan generalmente una
transformación espectral menos muestreada del habla
digitalizada.
Según el aspecto de reducción de transmisión de
datos de la presente invención, el auricular 16 utiliza los
circuitos de análisis y proceso de audio, como los filtros de escala
Mel 44, para reducir la cantidad de datos o información enviada al
terminal. De esta forma se reduce el consumo de energía, y el tiempo
de transmisión desde el auricular que lleva el usuario se ve
significativamente reducido. Es decir, que el audio es procesado en
el auricular en una forma que puede ser usada por un dispositivo,
pero que toma menos tiempo, y por tanto menos energía, enviar al
dispositivo.
Por ejemplo un auricular típico, que busca
transmitir esencialmente una señal de audio primaria, puede requerir
una velocidad de 64 kilobits para dicha transmisión de audio. Sin
embargo, según un aspecto de la presente invención, los circuitos
de proceso de audio, como los filtros de escala Mel, proporcionan
una transformación espectral más bruta, o menos muestreada, del
habla para la transmisión. Esto puede reducir la velocidad binaria
a significativamente menos de un décimo de una velocidad de 64
kilobits. Por tanto, la cantidad de datos a transmitir puede
reducirse en un factor 10 o más, o al menos un orden de magnitud,
preservando al mismo tiempo la información en las señales para el
posterior proceso de reconocimiento del habla.
En relación con la Figura 4, las salidas del
banco de filtros de escala Mel 44 han muestreado representaciones
en forma de una serie de cuadros, que son esencialmente un juego de
valores de filtros producidos por el banco de filtros y que refleja
el contenido espectral de las señales de audio. Los filtros de
escala Mel 44 pueden proporcionar cuadros procedentes del banco de
filtros, a aproximadamente 10 milisegundos, por ejemplo. Dichos
proceso y análisis de audio en el auricular proporcionan una primera
fase de reducción en la cantidad de información (es decir, datos)
que deben ser transmitidos desde el auricular hasta el terminal para
el proceso de reconocimiento de voz. Así, proporciona la reducción
deseada de consumo de energía y tiempo de transmisión, y supera
otros inconvenientes indeseables de la técnica anterior y de los
auriculares inalámbricos de la técnica anterior.
El auricular 16 de la invención aún proporciona
información de audio en una forma que puede ser utilizada
eficientemente por el terminal 19 o el ordenador 20 para el
reconocimiento del habla. Proporcionando el procesado de audio de
las señales directamente en el auricular, la presente invención
proporciona otra ventaja sobre la técnica anterior.
Específicamente, reduce la potencia de proceso necesaria en el
terminal 10 para el proceso de reconocimiento de voz. De esta
forma, pueden utilizarse dispositivos menos inteligentes o menos
potentes (y por tanto, menos caros) con el auricular 16 de la
invención para proporcionar capacidades de reconocimiento de voz.
Por ejemplo, puede haber disponible un dispositivo portátil, pero
puede no tener la capacidad de procesar adecuadamente las señales
de audio desde el micrófono. Por tanto, mientras que el dispositivo
portátil tiene la potencia de proceso adecuada para gestionar el
proceso de reconocimiento del habla de etapa final, puede no ser
capaz de hacerlo adecuadamente a causa de la calidad de la señal
digitalizada extraída de un auricular inalámbrico tradicional, y un
micrófono puede no ser de calidad adecuada para el proceso de
reconocimiento del habla.
La presente invención mejora esto porque ejecuta
el proceso de audio en el auricular de forma que una corriente de
información adecuadamente digitalizada, o bits, es suministrada al
dispositivo portátil para su gestión. Dicha información
digitalizada preprocesada tal como es suministrada por el auricular
de la invención es mucho más fácil de procesar que las señales de
audio brutas.
En otro aspecto de la presente invención, una
versión inalámbrica del auricular 16 elimina la necesidad de tener
un dispositivo portátil con un conector adecuado para acoplarse con
el cable de un auricular.
Según otro aspecto de la presente invención, se
han obtenido ventajas adicionales con más reducción en la
información transmitida al dispositivo remoto o terminal.
Generalmente, los datos son transmitidos desde el auricular solo
cuando el habla del usuario ha sido captada por el auricular.
Específicamente, los circuitos de proceso 30 en una materialización
están configurados para analizar las representaciones digitalizadas
o muestreadas de las señales de audio, como los cuadros de valor de
filtros, para detectar si las señales de audio representan habla. A
este fin, los circuitos de proceso incorporan circuitos de detección
del habla 46, que proporcionan un algoritmo de detección para
detectar si las señales de audio representan el habla de un usuario
que lleva el auricular. Tal como ilustra la Figura 4, los circuitos
de digitalización 42 y los filtros de audio 44 están acoplados a
los circuitos de detección del habla. Una salida de los circuitos de
detección del habla 46 es utilizada para activar circuitos de
proceso 48 adicionales, ilustrados en forma de circuitos
conversores, para controlar cuando el auricular realmente transmite
en un formato inalámbrico al terminal 10 u otro dispositivo.
Generalmente, en una versión inalámbrica, el
auricular 16 incluye transmisión inalámbrica adecuada o circuitos
transceptores 50 para comunicarse con el terminal.
Alternativamente, el auricular puede incluir
circuitos transceptores 51 con cable.
Los circuitos de detección del habla 46 analizan
los valores de filtros o "cuadros" desde los circuitos de
filtros 44. Se conocen varios de dichos algoritmos de detección del
habla, y pueden ser utilizados para proporcionar una señal de
control 52 para controlar los componentes de los circuitos de
proceso 48 para determinar si los cuadros o cualesquiera otras
representaciones muestreadas deberían ser transmitidas al terminal.
Al detectarse el habla de un usuario, los circuitos de proceso son
configurados para transmitir los cuadros o representaciones
muestreadas al terminal. Alternativamente, cuando no se detecta el
habla del usuario, los circuitos de proceso 48 generalmente no
transmitirán los cuadros o representaciones muestreadas al terminal.
Naturalmente, es concebible que haya veces en que señales de habla
extrañas sean detectadas como habla, pero realmente no son
representativas del habla del usuario del usuario del auricular, y
no es probable que dichas señales puedan inadvertidamente ser
transmitidas al terminal. Sin embargo, en un sentido general, los
circuitos de detección del habla 46 y los circuitos de proceso 48
operan para transmitir principalmente las representaciones
muestreadas solo cuando se detecta el habla. Una materialización
alternativa descrita más abajo discrimina ruidos extraños del habla
del usuario.
Como tales, los circuitos de proceso representan
un orden de magnitud adicional de reducción de transmisión de
datos, con respecto a la información transmitida al terminal. Es
decir, que no solo aquellas señales son enviadas a la terminal
reducidas por el proceso de audio del auricular (esto es, cuadros o
muestras de filtro reducido) sino que las representaciones
muestreadas ni siquiera serán enviadas a la terminal a menos que
representen el habla del usuario. Naturalmente, una reducción de
transmisión de datos como esta dependería del ciclo de trabajo del
usuario que está hablando en los auriculares. Por ejemplo, si una
aplicación requiere que el usuario hable todo el tiempo, puede
haber una reducción de transmisión de datos menos significativa
suministrada por los circuitos de detección del habla 46 y los
circuitos de proceso 48 porque el auricular estará constantemente
procesando y enviando el habla del usuario.
Sin embargo, la mayoría de aplicaciones
requieren que un usuario hable solo una pequeña fracción de tiempo,
y así pues la presente invención proporciona una reducción adicional
significativa mediante los circuitos de detección del habla y
control de cuándo el auricular realmente transmite al terminal u
otro dispositivo remoto.
Ahora, en relación con el terminal 10 tal como
está ilustrado en la Figura 3, el terminal incorpora circuitos
adicionales 62 para el tipo específico de sistema de reconocimiento
del habla utilizado. Es decir, que el proceso de los circuitos de
reconocimiento del habla adicionales y de reconocimiento del habla
utilizado en el terminal puede ser cualquier proceso de
reconocimiento del habla adecuado, y generalmente no afectará a las
ventajas que presenta el auricular de la presente invención, que
utiliza circuitos de proceso de audio de entrada para proporcionar
una reducción de la cantidad de información transmitida al
terminal.
La materialización de ejemplo descrita aquí usa
un auricular 16 para comunicarse con el terminal 10.
Alternativamente, tal y como se muestra en la Figura 3, el
auricular puede comunicarse directamente con un ordenador central
20, que tiene incorporados unos circuitos de reconocimiento del
habla 21 apropiados. Esto evita un terminal separado. En la
descripción siguiente, el terminal 10 puede también ser el ordenador
20 o cualquier otro dispositivo remoto adecuado.
En relación con la Figura 4 y el terminal 10,
los cuadros que son transmitidos a través de un enlace 18, 19 al
terminal son recibidos por los circuitos receptores o transceptores
61, 62 apropiados en el terminal y dirigidos a los circuitos de
proceso de reconocimiento de voz para su posterior proceso de
reconocimiento de voz. Los circuitos de proceso 62 utilizados
dependerán del tipo de sistema de reconocimiento de voz utilizado
dentro del terminal 10 y dentro del sistema general. Como se ha
indicado anteriormente, un producto adecuado para implementar la
presente invención es el producto Talkman® de Vocollect. Los
circuitos de reconocimiento del habla utilizados aquí están
ilustrados en la Figura 4 a los efectos de ilustrar una
materialización ejemplar de la invención, pero ciertamente no
limitan la invención al tipo de protocolo de reconocimiento del
habla utilizado.
Por ejemplo, los circuitos de proceso de
reconocimiento del habla 62 pueden incluir circuitos de proceso
cepstral 64. Los circuitos de proceso cepstral 64 proporcionan una
transformación espectral de los cuadros recibidos desde el
auricular 16 de conformidad con los principios de transformación
cepstral conocidos. Los circuitos de proceso de etapa final
adicionales incluyen circuitos de referencia del libro de
encriptación 66 y circuitos de coincidencia con el patrón 68 para
gestionar los pasos restantes de la tecnología de reconocimiento del
habla para el terminal 10.
Principalmente, los circuitos de proceso
cepstral producen un rango de valores en forma de una transformación
que es dirigido a los circuitos de referencia del libro de
encriptación. La referencia del libro de encriptación generaría un
juego de valores de libro de encriptación que están correlacionados
con los valores de salida de los circuitos de transformación
cepstral 64. Es decir, para una transformación cepstral particular
de la señal, los circuitos 66 producen un juego de valores de libro
de encriptación. Como es bien sabido en la tecnología de
reconocimiento del habla, los valores del libro de encriptación son
representativos de sonidos, como palabras, que tienen un
significado particular dentro de la operación del sistema general.
Los circuitos de coincidencia de patrón 68 determinan si los
valores del código de salida son realmente indicativos de una
palabra específica que se ha dicho. Por ejemplo, puede producirse
un juego de valores del libro de encriptación que represente la
palabra "uno", o posiblemente la palabra "dos". Los
circuitos de coincidencia de patrón 68 miran los vectores, o
valores, de entrada, desde los circuitos de referencia del libro de
encriptación 66, y determinan si se ha dicho la palabra "uno"
o "dos".
Más específicamente, la salida de valores del
libro de encriptación por los circuitos 66 es una cadena de valores
que representan los sonidos que se producen cuando se dice una
palabra en particular. Una disposición de estos valores representa
una palabra en particular. Se genera una cadena de dichos valores,
en base a los cuadros transmitidos por el auricular, y la cadena de
valores es comparada por los circuitos de coincidencia de patrón
para conjuntos de palabras que están en el vocabulario de los
circuitos de coincidencia de patrón. En la detección del habla a
través de circuitos de coincidencia de patrón 68, la información
puede ser procesada posteriormente por los circuitos 62, como en un
terminal u ordenador autónomo, o puede ser enviada a un ordenador
central, a través de un enlace apropiado, como por un transceptor
inalámbrico o transmisor inalámbrico 70 (ver Figura 2).
En los ejemplos ilustrados, alguno de los que
pueden considerarse circuitos/hardware del proceso del habla de
"entrada" están ubicados en el auricular. Sin embargo, en
materializaciones alternativas, circuitos adicionales, como los
circuitos de transformación cepstral 64 o algunos circuitos de
"etapa final" como la función de referencia del libro de
encriptación pueden también implementarse en el auricular. Por
tanto, la presente invención no está limitada a las
materializaciones ilustradas que muestran circuitos de
reconocimiento del habla específicos en el auricular, y pueden
utilizarse diferentes bloques de circuito funcionales en el
auricular y un dispositivo remoto para proporcionar las ventajas de
la invención.
Según otro aspecto de la presente invención, el
habla del usuario puede ser discriminada con respecto a ruidos de
habla extraños. Los datos en ese caso no son transmitidos, a menos
que se detecte el habla del usuario. A este fin, el auricular 60
puede incluir otro micrófono, como un segundo micrófono 41, como se
ilustra en la Figura 4. Las salidas desde los micrófonos se usan
para discriminar el habla del usuario de las señales o sonidos de
audio extrañas. El segundo micrófono 41 está configurado para captar
sonido y generar señales de audio de forma similar al micrófono 40.
Sin embargo, según un aspecto de la invención, el micrófono 41
puede estar ubicado en una ubicación remota o a cierta distancia del
micrófono 40. El micrófono 40 estará ubicado generalmente en la
proximidad de la boca del usuario para captar el habla del usuario.
El segundo micrófono 41 es utilizado para hacer posible la
detección del habla del usuario en presencia de sonidos extraños,
como sonidos de voz del sistema de dirección pública, por encima de
la operación del sistema general, incorporando el auricular 16 y el
terminal 10.
Específicamente, cada uno de los micrófonos 40,
41 está configurado para generar señales que tengan niveles de
señal correspondientes.
Debido a su posición, el micrófono 40 está
configurado para detectar una mayor proporción de sonidos del habla
de un usuario de los que detectará el segundo micrófono. Sin
embargo, ambos micrófonos escucharán, generalmente igualmente,
estos sonidos extraños que no responden al habla del usuario, como
caídas de cajas, ruidos de equipos, o sonidos P.A. Los circuitos de
proceso 30 de la invención incluyen circuitos que están configurados
para comparar características de señal, como niveles de energía de
señal relativos, de aquellas señales que son generadas por los dos
micrófonos 40, 41 para determinar si el usuario está hablando. Por
ejemplo, con un sonido extraño, la diferencia relativa en los
niveles de señal en los dos micrófonos permanecerá estable. Sin
embargo, cuando el usuario está hablando, generalmente las
características de los sonidos registrados por el primer micrófono
40 cambiarán significativamente con respecto a las características
de las señales desde el segundo micrófono 41, que podría estar
ubicado cerca de la oreja o en la parte superior de la cabeza del
usuario, según cómo se implemente la estructura física del
auricular. Esto proporcionará una indicación adicional de que el
usuario está hablando. Los circuitos de proceso 30 pueden además
usar esta prestación para determinar si transmitir o no al terminal
según otro aspecto de la invención. Por tanto, los circuitos de
proceso 30, y particularmente los circuitos 48, que reciben los
cuadros muestreados desde los filtros 44, proporcionan un nivel
añadido de análisis para determinar cuándo los cuadros deberían ser
transmitidos al terminal 10. Así, ruidos extraños en forma de habla
humana, que no son el habla del usuario o el habla directamente del
usuario, pueden no ser transmitidos en base a cómo los auriculares
perciben esta habla humana, como indican las características de las
señales desde los múltiples micrófonos 40, 41.
En consecuencia, la presente invención
proporciona ventajas significativas y se enfrenta a varios
inconvenientes de la técnica anterior. La invención reduce la
transmisión de datos que se requiere para transmitir la información
necesaria desde el auricular hasta un dispositivo cercano, que
ejecuta el reconocimiento del habla. La invención además hace a una
parte del proceso de audio independiente de la tecnología. El
consumo de energía se reduce, y también la exposición de un usuario
de auricular a las transmisiones RF. El auricular de la presente
invención puede ser utilizado con dispositivos de reconocimiento
del habla que no tengan una conexión o clavija específica al
auricular.
Además, la presente invención proporciona señal
de habla de alta calidad para el uso por un reconocedor del habla
para proporcionar cierto proceso del habla en el auricular. Otras
ventajas que no se han hecho constar específicamente son también
suministradas por la invención.
Puesto que la presente invención se ha ilustrado
mediante la descripción de las distintas materializaciones y puesto
que estas materializaciones se han descrito con mucho detalle, los
expertos en la técnica podrán obtener fácilmente ventajas y
modificaciones adicionales.
\vskip1.000000\baselineskip
Esta lista de referencias bibliográficas
mencionadas por el solicitante se ha incorporado exclusivamente para
información del lector. No forma parte integrante de la
documentación de la patente europea. Aún habiéndose recopilado esta
lista de referencias bibliográficas con sumo cuidado, no pueden
excluirse errores u omisiones, por lo que la EPO declina toda
responsabilidad a este respecto.
\bullet US 2003118197 A
\bullet DE 2628259 A
Claims (17)
1. Un sistema para comunicaciones inalámbricas
que usa reconocimiento del habla y comprende un dispositivo (10,
20) para recibir señales de habla, un auricular (16) con un
micrófono (70) para captar señales de audio, comprendiendo dicho
auricular circuitos de digitalización (42) dispuestos para formar
representaciones digitalizadas de las señales de audio, y circuitos
de proceso (30) dispuestos para procesar las representaciones
digitalizadas usando circuitos de reconocimiento del habla y
transmitir inalámbricamente al dispositivo (10, 20),
caracterizado por el hecho de que los circuitos de proceso
(30) ejecutan el proceso de reconocimiento del habla de etapa
final, siendo los circuitos de proceso operables para formar
representaciones espectrales muestreadas de las representaciones
digitalizadas y después procesar las representaciones espectrales
muestreadas para determinar que las señales de audio captadas
incluyen el habla del usuario, incluyendo los circuitos de proceso
(30) circuitos conversores (48) dispuestos para controlar la
transmisión al dispositivo (10, 20), siendo las representaciones
espectrales muestreadas transmitidas al dispositivo (10, 20) solo
cuando se detecta el habla del usuario, y no transmitiendo los
circuitos de proceso (30) al dispositivo cuando no es detectada el
habla del usuario, y en que el dispositivo (10, 20) incluye
circuitos de proceso de reconocimiento del habla de etapa final (62)
para procesar además las representaciones espectrales transmitidas
por el auricular (16) para completar el reconocimiento del
habla.
2. El sistema de la reivindicación 1, en el que
el auricular (16) comprende circuitos de filtro de audio (44)
configurados para formar las representaciones espectrales de las
señales de audio.
3. El sistema de la reivindicación 1 o 2, en el
que el auricular (16) comprende filtros (44) para crear las
representaciones espectrales de las señales de audio captadas en
forma de cuadros de señal, estando el auricular (16) configurado
para transmitir los cuadros de señal.
4. El sistema de la reivindicación 3, en el que
los filtros incluyen filtros de escala Mel (44) para generar los
cuadros de señal.
5. El sistema de cualquiera de las
reivindicaciones precedentes, en el que el dispositivo es un
terminal portátil (10).
6. El sistema de cualquiera de las
reivindicaciones 1 a 4 en el que el dispositivo es un ordenador
(20).
7. El sistema de cualquiera de las
reivindicaciones precedentes, que comprende además un segundo
micrófono, estando el primer y segundo micrófonos (70) configurados
para generar señales con el primer micrófono (70) para detectar una
mayor proporción de sonidos del habla de un usuario que el segundo
micrófono, estando los circuitos de proceso (30) configurados para
procesar señales generadas por el primer y segundo micrófonos (70)
para determinar si el usuario está hablando.
8. El sistema de cualquiera de las
reivindicaciones precedentes en el que los circuitos de
reconocimiento del habla de etapa final (62) comprenden circuitos
de referencia de libro de encriptación.
9. El sistema de cualquiera de las
reivindicaciones precedentes en el que los circuitos de
reconocimiento del habla de etapa final comprenden circuitos de
coincidencia de patrón.
10. Un método para comunicación inalámbrica
entre un auricular (16) y un dispositivo (10, 20), comprendiendo el
método los pasos de captar señales de audio con un auricular (16)
que tiene un micrófono (70), formando representaciones
digitalizadas de las señales de audio, procesando las
representaciones digitalizadas usando circuitos de reconocimiento
del habla y transmitiendo inalámbricamente al dispositivo (10, 20),
caracterizado por el hecho de que el método comprende
ejecutar reconocimiento del habla de etapa final en el auricular
incluyendo la formación de representaciones espectrales muestreadas
de las representaciones digitalizadas y el proceso de las
representaciones espectrales muestreadas incluye el habla del
usuario, y después usando circuitos conversores (48) para controlar
la transmisión al dispositivo (10, 20) para transmitir las
representaciones espectrales muestreadas al dispositivo (10, 20)
solo cuando se detecta el habla del usuario, y en que el método
además comprende proceso de reconocimiento del habla de etapa final
en el dispositivo (10, 20) de las representaciones espectrales
transmitidas por el auricular (16) para completar el reconocimiento
del habla.
11. El método de la reivindicación 10, que
comprende además el paso para formar las representaciones
espectrales como cuadros de señal y transmitir los cuadros de
señal.
12. El método de la reivindicación 11, que
comprende además usar filtros de escala Mel (44) en el auricular
(16) para generar los cuadros de señal.
13. El método de cualquiera de las
reivindicaciones 10 a 12 en el que el dispositivo es un terminal
portátil (10).
14. El método de cualquiera de las
reivindicaciones 10 a 12 en el que el dispositivo es un ordenador
(20).
15. El método de cualquiera de las
reivindicaciones de 10 a 14, que comprende además el paso de captar
señales de audio con un segundo micrófono ubicado en el auricular
(16), detectando el primer micrófono (70) una mayor proporción de
sonidos del habla de un usuario que el segundo micrófono, procesando
las señales generadas por el primer y segundo micrófonos (70) para
determinar si el usuario está hablando.
16. El método de cualquiera de las
reivindicaciones de 10 a 15, en el que el proceso de reconocimiento
del habla de etapa final comprende activar circuitos de referencia
del libro de encriptación para producir valores del libro de
encriptación.
17. El método de la reivindicación 16 en el que
el proceso de reconocimiento del habla de etapa final comprende
ejecutar un proceso de coincidencia de patrón con los valores del
libro de encriptación.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US671140 | 1984-11-13 | ||
US10/671,140 US7496387B2 (en) | 2003-09-25 | 2003-09-25 | Wireless headset for use in speech recognition environment |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2343323T3 true ES2343323T3 (es) | 2010-07-28 |
Family
ID=34376084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04721068T Expired - Lifetime ES2343323T3 (es) | 2003-09-25 | 2004-03-16 | Auriculares inalambricos para su utilizacion en un entorno de reconocimiento por voz. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7496387B2 (es) |
EP (1) | EP1665741B1 (es) |
JP (1) | JP4261583B2 (es) |
AT (1) | ATE465593T1 (es) |
DE (1) | DE602004026746D1 (es) |
DK (1) | DK1665741T3 (es) |
ES (1) | ES2343323T3 (es) |
WO (1) | WO2005041543A1 (es) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6910911B2 (en) | 2002-06-27 | 2005-06-28 | Vocollect, Inc. | Break-away electrical connector |
US8204435B2 (en) | 2003-05-28 | 2012-06-19 | Broadcom Corporation | Wireless headset supporting enhanced call functions |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US7496387B2 (en) * | 2003-09-25 | 2009-02-24 | Vocollect, Inc. | Wireless headset for use in speech recognition environment |
US7778601B2 (en) | 2005-01-24 | 2010-08-17 | Broadcom Corporation | Pairing modular wireless earpiece/microphone (HEADSET) to a serviced base portion and subsequent access thereto |
US20060194621A1 (en) * | 2005-02-25 | 2006-08-31 | Nambirajan Seshadri | Modular ear-piece/microphone that anchors voice communications |
US8417185B2 (en) * | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US7885419B2 (en) | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US7848314B2 (en) * | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
WO2008008730A2 (en) * | 2006-07-08 | 2008-01-17 | Personics Holdings Inc. | Personal audio assistant device and method |
US11450331B2 (en) | 2006-07-08 | 2022-09-20 | Staton Techiya, Llc | Personal audio assistant device and method |
USD626949S1 (en) | 2008-02-20 | 2010-11-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
WO2009105652A2 (en) * | 2008-02-22 | 2009-08-27 | Vocollect, Inc. | Voice-activated emergency medical services communication and documentation system |
US20100077458A1 (en) * | 2008-09-25 | 2010-03-25 | Card Access, Inc. | Apparatus, System, and Method for Responsibility-Based Data Management |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
US20100250253A1 (en) * | 2009-03-27 | 2010-09-30 | Yangmin Shen | Context aware, speech-controlled interface and system |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
US20100304783A1 (en) * | 2009-05-29 | 2010-12-02 | Logan James R | Speech-driven system with headset |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
DK2352312T3 (da) * | 2009-12-03 | 2013-10-21 | Oticon As | Fremgangsmåde til dynamisk undertrykkelse af omgivende akustisk støj, når der lyttes til elektriske input |
US8659397B2 (en) | 2010-07-22 | 2014-02-25 | Vocollect, Inc. | Method and system for correctly identifying specific RFID tags |
USD643400S1 (en) | 2010-08-19 | 2011-08-16 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD643013S1 (en) | 2010-08-20 | 2011-08-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
EP2485213A1 (en) * | 2011-02-03 | 2012-08-08 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Semantic audio track mixer |
US8914290B2 (en) * | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
JP5247854B2 (ja) | 2011-07-06 | 2013-07-24 | 株式会社インスピーディア | 集荷システムおよび集荷方法 |
US9135915B1 (en) | 2012-07-26 | 2015-09-15 | Google Inc. | Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors |
WO2014107413A1 (en) * | 2013-01-04 | 2014-07-10 | Kopin Corporation | Bifurcated speech recognition |
US9076459B2 (en) | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
US9236050B2 (en) | 2013-03-14 | 2016-01-12 | Vocollect Inc. | System and method for improving speech recognition accuracy in a work environment |
JP2016189121A (ja) * | 2015-03-30 | 2016-11-04 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10085101B2 (en) | 2016-07-13 | 2018-09-25 | Hand Held Products, Inc. | Systems and methods for determining microphone position |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US20190068662A1 (en) | 2017-08-25 | 2019-02-28 | International Business Machines Corporation | Cognitive Headset Awareness with External Voice Interruption Detection |
US10805740B1 (en) * | 2017-12-01 | 2020-10-13 | Ross Snyder | Hearing enhancement system and method |
IL277606B1 (en) * | 2018-03-29 | 2024-10-01 | 3M Innovative Properties Company | Voice-activated audio coding for headphones using frequency domain representations of microphone signals |
CN113763649A (zh) * | 2020-06-04 | 2021-12-07 | 沈阳铝镁设计研究院有限公司 | 一种电解车间智能广播系统 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2628259C3 (de) | 1976-06-24 | 1978-11-30 | Tevog Technische-Vertriebsorganisation Gmbh, 8000 Muenchen | Gegensprechanlage |
CA1116300A (en) * | 1977-12-28 | 1982-01-12 | Hiroaki Sakoe | Speech recognition system |
US4357488A (en) * | 1980-01-04 | 1982-11-02 | California R & D Center | Voice discriminating system |
EP0084982B1 (en) * | 1982-01-27 | 1987-11-11 | Racal Acoustics Limited | Improvements in and relating to communications systems |
US4625083A (en) * | 1985-04-02 | 1986-11-25 | Poikela Timo J | Voice operated switch |
DE3604292A1 (de) | 1986-02-12 | 1987-08-20 | Comtronics Gmbh | Einrichtung fuer die sprachgesteuerte uebertragung von audio-signalen ueber funk |
AU634510B2 (en) | 1989-01-26 | 1993-02-25 | Plantronics, Inc. | Voice communication link interface apparatus |
US5381473A (en) * | 1992-10-29 | 1995-01-10 | Andrea Electronics Corporation | Noise cancellation apparatus |
US5673325A (en) * | 1992-10-29 | 1997-09-30 | Andrea Electronics Corporation | Noise cancellation apparatus |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
US5563952A (en) * | 1994-02-16 | 1996-10-08 | Tandy Corporation | Automatic dynamic VOX circuit |
US5778026A (en) * | 1995-04-21 | 1998-07-07 | Ericsson Inc. | Reducing electrical power consumption in a radio transceiver by de-energizing selected components when speech is not present |
GB2325110B (en) * | 1997-05-06 | 2002-10-16 | Ibm | Voice processing system |
US6230029B1 (en) * | 1998-01-07 | 2001-05-08 | Advanced Mobile Solutions, Inc. | Modular wireless headset system |
EP1018854A1 (en) | 1999-01-05 | 2000-07-12 | Oticon A/S | A method and a device for providing improved speech intelligibility |
US20020067825A1 (en) * | 1999-09-23 | 2002-06-06 | Robert Baranowski | Integrated headphones for audio programming and wireless communications with a biased microphone boom and method of implementing same |
US6446042B1 (en) * | 1999-11-15 | 2002-09-03 | Sharp Laboratories Of America, Inc. | Method and apparatus for encoding speech in a communications network |
US6394278B1 (en) * | 2000-03-03 | 2002-05-28 | Sort-It, Incorporated | Wireless system and method for sorting letters, parcels and other items |
US6430395B2 (en) * | 2000-04-07 | 2002-08-06 | Commil Ltd. | Wireless private branch exchange (WPBX) and communicating between mobile units and base stations |
EP1304682A1 (en) * | 2000-07-05 | 2003-04-23 | Alcatel | Distributed speech recognition system |
US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
US20020068610A1 (en) * | 2000-12-05 | 2002-06-06 | Anvekar Dinesh Kashinath | Method and apparatus for selecting source device and content delivery via wireless connection |
US7203651B2 (en) * | 2000-12-07 | 2007-04-10 | Art-Advanced Recognition Technologies, Ltd. | Voice control system with multiple voice recognition engines |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US20020110246A1 (en) * | 2001-02-14 | 2002-08-15 | Jason Gosior | Wireless audio system |
US6757651B2 (en) * | 2001-08-28 | 2004-06-29 | Intellisist, Llc | Speech detection system and method |
JP4202640B2 (ja) * | 2001-12-25 | 2008-12-24 | 株式会社東芝 | 短距離無線通信用ヘッドセット、これを用いたコミュニケーションシステム、および短距離無線通信における音響処理方法 |
JP2003204282A (ja) * | 2002-01-07 | 2003-07-18 | Toshiba Corp | 無線通信機能付きヘッドセット、これを用いたコミュニケーション記録システム、およびコミュニケーション制御方式を選択可能なヘッドセットシステム |
CA2479758A1 (en) * | 2002-03-27 | 2003-10-09 | Aliphcom | Microphone and voice activity detection (vad) configurations for use with communication systems |
US7519186B2 (en) * | 2003-04-25 | 2009-04-14 | Microsoft Corporation | Noise reduction systems and methods for voice applications |
US7496387B2 (en) * | 2003-09-25 | 2009-02-24 | Vocollect, Inc. | Wireless headset for use in speech recognition environment |
-
2003
- 2003-09-25 US US10/671,140 patent/US7496387B2/en active Active
-
2004
- 2004-03-16 ES ES04721068T patent/ES2343323T3/es not_active Expired - Lifetime
- 2004-03-16 AT AT04721068T patent/ATE465593T1/de not_active IP Right Cessation
- 2004-03-16 WO PCT/US2004/007891 patent/WO2005041543A1/en active Application Filing
- 2004-03-16 EP EP04721068A patent/EP1665741B1/en not_active Expired - Lifetime
- 2004-03-16 DK DK04721068.7T patent/DK1665741T3/da active
- 2004-03-16 DE DE602004026746T patent/DE602004026746D1/de not_active Expired - Lifetime
- 2004-03-16 JP JP2006527957A patent/JP4261583B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2005041543A1 (en) | 2005-05-06 |
US20050070337A1 (en) | 2005-03-31 |
EP1665741B1 (en) | 2010-04-21 |
JP2007507158A (ja) | 2007-03-22 |
JP4261583B2 (ja) | 2009-04-30 |
EP1665741A1 (en) | 2006-06-07 |
US7496387B2 (en) | 2009-02-24 |
ATE465593T1 (de) | 2010-05-15 |
DK1665741T3 (da) | 2010-07-19 |
DE602004026746D1 (de) | 2010-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2343323T3 (es) | Auriculares inalambricos para su utilizacion en un entorno de reconocimiento por voz. | |
US10439679B2 (en) | Multimodal communication system using induction and radio and method | |
KR100800103B1 (ko) | 헤드셋 | |
US20170345408A1 (en) | Active Noise Reduction Headset Device with Hearing Aid Features | |
CN106531165A (zh) | 一种便携式智能家居语音控制系统及控制方法 | |
US20050071158A1 (en) | Apparatus and method for detecting user speech | |
US20070249411A1 (en) | No-cable stereo handsfree accessory | |
US20070242839A1 (en) | Remote wireless microphone system for a video camera | |
WO2003039189A1 (fr) | Emetteur/recepteur place sur la sangle d'un masque ou d'un casque | |
CN103891307B (zh) | 微音器组件以及相应的系统和方法 | |
US9042564B2 (en) | Wireless communication device having speech recognition, speech translation, and hearing aid functions | |
KR101886735B1 (ko) | 스테레오 무선이어폰이 구비된 블루투스 웨어러블 워치 | |
CN203691470U (zh) | 耳挂式数字对讲机 | |
KR100809549B1 (ko) | 보청기 겸용 무선 헤드셋 및 그 제어방법 | |
CN206312567U (zh) | 一种便携式智能家居语音控制系统 | |
JP5862318B2 (ja) | 音解析装置、音解析システムおよびプログラム | |
US7251498B2 (en) | Radio headset system | |
JP6476938B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
US9699567B2 (en) | Wearable communication device | |
KR20170007114A (ko) | 음성 신호 처리 장치 및 방법, 그리고 단말 | |
KR101376175B1 (ko) | 유무선 보청 시스템 | |
KR101009885B1 (ko) | 무선 이어폰 세트 및 이를 구비한 이동통신 단말기 세트 | |
JP2013164468A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
US12028682B2 (en) | Mobile hearing aid having foldable earphone and howling prevention circuit | |
KR200363811Y1 (ko) | 핸즈프리 무전기 |