ES2231448T3 - Sistema y procedimiento para el procesamiento de voz enfocado a la vision. - Google Patents

Sistema y procedimiento para el procesamiento de voz enfocado a la vision.

Info

Publication number
ES2231448T3
ES2231448T3 ES01907355T ES01907355T ES2231448T3 ES 2231448 T3 ES2231448 T3 ES 2231448T3 ES 01907355 T ES01907355 T ES 01907355T ES 01907355 T ES01907355 T ES 01907355T ES 2231448 T3 ES2231448 T3 ES 2231448T3
Authority
ES
Spain
Prior art keywords
user
voice
vision
field
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01907355T
Other languages
English (en)
Inventor
Wolfgang Friedrich
Wolfgang Wohlgemuth
Xin Ye
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2231448T3 publication Critical patent/ES2231448T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

Sistema para el control y observación especialmente de un sistema de automatización y/o de una maquina de producción y/o maquina herramienta, ¿ con medios de detección (5) para la detección de un campo de visión (9) de un usuario (1) sobre al menos un medio de representación (2), ¿ con medios de reconocimiento de voz (4) para el reconocimiento de una información de voz (8) del usuario (1) y ¿ con medios de control (7) para el control del sistema de tal forma que en función de la información de voz (8) emitida por el usuario (1) y reconocida por los medios de reconocimiento de voz (4) y en función del campo de visión (9) detectado por los medios de detección (5), se pueden representar datos de información predeterminados de forma selectiva, combinados con el campo de visión (9) detectado y con la información de voz reconocida, sobre los medios de representación (2), y que los medios de reconocimiento de voz (4) solamente son activados cuando se detecta por los medios de detección (5), que el campo de visión del usuario se refiere a un medio de representación (2) determinado y/o al menos a zonas predeterminadas del medio de representación (2).

Description

Sistema y procedimiento para el procesamiento de voz enfocado a la visión.
La invención se refiere a un sistema y a un procedimiento para el control y observación especialmente de un sistema de automatización y/o de una máquina de producción y/o máquina herramienta.
Un sistema y un procedimiento de este tipo se emplea, por ejemplo, en el campo de la técnica de automatización, en las máquinas de producción y máquinas herramientas, como por ejemplo vehículos y máquinas industriales e instalaciones. Un sistema y un procedimiento de este tipo se publican, por ejemplo, en la publicación de patente US-A-5 668 573.
La invención tiene el cometido de indicar un sistema y un procedimiento para el control y observación especialmente de un sistema de automatización y/o de una máquina de producción y/o máquina herramienta, que posibilita un control manos libres y la posibilidad de una "navegación" en el entorno de aplicaciones de realidad aumentada también en instalaciones técnicas complejas.
Este cometido se soluciona por medio de un sistema así como por medio de un procedimiento con las características indicadas en las reivindicaciones 1 y 8, respectivamente.
En este caso, con la ayuda de los medios de detección, por ejemplo de una cámara se detecta el campo de visión del usuario, que está dirigido sobre un medio de representación, por ejemplo un monitor. Al mismo tiempo se evalúa a través de los medios de reconocimiento de voz la voz emitida por el usuario. Los medios de detección y los medios de reconocimiento de voz forman en este caso en común un sistema de reconocimiento de voz enfocado a la visión, siendo representados datos de información predeterminados sobre los medios de representación en función de la información de voz reconocida y en función del campo de visión detectado. Si se establece, por ejemplo, con la ayuda de una cámara incorporada en el medio de representación, por ejemplo en la pantalla, que el usuario mira precisamente a la pantalla y de esta manera quiere observar un proceso correspondiente, entonces se activa a través de la cámara como medio de detección el reconocimiento de voz del sistema, con lo que se lleva a cabo una evaluación de la entrada de la voz orientada al objetivo. De esta manera resulta, por lo tanto, una nueva corriente de interacción para la visualización de procesos. Si el usuario dirige su mirada sobre otro medio de representación o sobre otro campo de visión del medio de representación, entonces se puede representar, con la ayuda de los medios de control una información asociada a este campo de visión después del reconocimiento de voz con éxito, sobre los medios de representación. De este modo, el usuario puede controlar y observar manos libres por voz un proceso deseado o una máquina de producción y/o una máquina herramienta deseada de una manera intuitiva a través de la modificación de su campo de visión en combinación con el control de voz.
Se puede conseguir un reconocimiento y una interpretación imprevistos de una información de voz no destinada para el sistema o bien una activación selectiva del reconocimiento de voz porque los medios de control activan el sistema de tal forma que los medios de reconocimiento de voz solamente se activan cuando se detecta desde los medios de detección que el campo de visión del usuario se refiere a un medio de representación determinado y/o al menos a zonas predeterminadas del medio de representación.
Otra forma de realización ventajosa de los medios de detección consiste en que los medios de detección presentan una cámara para la detección del campo de visión del usuario.
Se puede asegurar una comunicación de voz interactiva porque el sistema presenta medios de reproducción acústicos, siendo transmitidos datos de información acústica al usuario a través de medios de reproducción acústica como reacción a la información de voz emitida por el usuario de una manera selectiva a través de los medios de reconocimiento de voz.
Se mejora adicionalmente un procesamiento dirigido al objetivo de la voz porque el sistema presenta otros medios de representación que sirven para la señalización del lugar de datos de información combinados con una información de voz reconocida.
Se consigue una información segura sobre el estado de procesamiento del sistema con respecto a una señal de voz para el usuario porque el sistema presenta medios para la generación de una señal de reacción visual como reacción al estado de procesamiento con respecto a la información de voz reconocida.
Una configuración que puede ser reconocida fácilmente por el usuario para la señal de reacción consiste en que la señal de reacción visual está configurada como objeto de software que se incorpora en la zona del campo de visión detectado del usuario.
Otra posibilidad para una reacción claramente manifiesta para el soporte de la información de voz consiste en que la señal de reacción visual está configurada como señal de color que caracteriza el estado de procesamiento respectivo con respecto a la información de voz reconocida.
A continuación de describe y se explica en detalle la invención con la ayuda de los ejemplos de realización representados en las figuras.
En este caso:
La figura 1 muestra un diagrama de bloques de un ejemplo de realización de un sistema controlado por voz para el control y observación de un sistema de automatización o de una máquina herramienta.
La figura 2 muestra un diagrama de bloques de un ejemplo de realización de un sistema controlado por voz para el control y observación de un sistema de automatización y de una máquina herramienta con una señal de reacción visual en forma de un objeto de software y
La figura 3 muestra un diagrama de bloques de un ejemplo de realización de un sistema controlado por voz para el control y observación de un sistema de automatización o de una máquina herramienta con una señal de reacción visual en forma de una instalación óptica.
La figura 1 muestra un diagrama de bloques de un sistema de procesamiento de voz enfocado a la visión para el control y observación de un sistema de automatización o de una máquina herramienta. El sistema de procesamiento de voz enfocado a la visión está constituido por un sistema de reconocimiento de voz 14 enfocado a la visión, que puede ser activado por un usuario. El usuario está equipado con unas gafas de datos móviles 2, en las que están acoplados un micrófono 4, un altavoz 3 y un dispositivo de transmisión de datos 15. El sistema de reconocimiento de voz 14 enfocado a la visión contiene una cámara 5 como medio de detección para la detección de un campo de visión, es decir, de los movimientos de los ojos del usuario 1. Las señales de los medios de detección 5 son alimentadas a un dispositivo de evaluación 7. El sistema de reconocimiento de voz 14 enfocado a la visión contiene, además, un dispositivo de evaluación acústico 6, por ejemplo una tarjeta de sonido de un ordenador, que detecta una señal de voz 8 del usuario 1. Cuando tanto la instalación de evaluación 7 como también la instalación de evaluación acústica 6 emiten una señal de salida positiva 17, 18, es decir, cuando, por una parte, el campo de visión 9 del usuario está dirigido sobre al menos zonas predeterminadas, por ejemplo, de un medio de representación y, por otra parte, también está presente una señal de voz correspondiente del usuario 1, entonces se emite en un identificador de voz 19 en el caso de una señal de voz 8 reconocida un comando 20 correspondiente al medio de representación 2, por ejemplo dentro de un sistema de visualización de procesos.
La particularidad del sistema de procesamiento de voz enfocado a la visión mostrado en la figura 1 consiste en la combinación de una evaluación del campo de visión 9 del usuario 1 con una evaluación de voz dirigida al objetivo. De esta manera se obtiene un reconocimiento de voz dirigido al objetivo, de manera que el usuario no tiene que buscar ya en jerarquías de control lo más profundas posible las imágenes del proceso y los valores del proceso deseados, en su lugar puede "llamar" directamente a través de la combinación de una visión selectiva sobre una imagen determinada del proceso y una señal de voz correspondiente un objeto deseado, un valor de proceso deseado, etc. De esta manera se reduce claramente también la incidencia a error en el reconocimiento de voz, puesto que el dispositivo de reconocimiento de voz solamente tiene que procesar un reconocimiento de instrucciones de control, que están combinadas con el campo de visión asociado respectivo y en la imagen del proceso conectada con el mismo, etc., Por lo tanto, se obtiene una sensibilidad elevada para la percepción de las instrucciones de voz y las señales de voz 8 del usuario 1. La transmisión de las señales de voz 8 desde el micrófono a la tarjeta de sonido 6 se puede realizar en este caso, por ejemplo, a través de una interfaz de radio unidireccional o bidireccional sin hilos. En el caso de una interfaz de transmisión direccional por radio entre el sistema de transmisión 15 y el sistema de reconocimiento de voz 14 enfocado a la visión, en el caso de que no se reconozca una señal de voz 8, se pueden emitir también consultas 22 directamente al usuario 1. De una manera alternativa o adicional a ello, es posible también una emisión de consultas 22 de este tipo a través de un altavoz 21.
La figura 2 muestra un sistema de procesamiento de voz enfocado a la visión para un sistema de control y de observación 100, por ejemplo de un sistema de automatización. El sistema de control y de observación contiene un sistema de visualización del proceso 102, que posibilita a través de una máscara de pantalla 103 representada a modo de ejemplo un control del proceso de un sistema de automatización.
El sistema de automatización no se representa en detalle en la figura 2 por razones de claridad. El sistema de control y de observación comprende, además, una unidad de reconocimiento de voz 101 enfocado a la visión, a la que se alimentan señales de entrada 104, 105 y que emite señales de salida 106, 107. La señal de entrada 105 de la unidad de reconocimiento de voz enfocada a la visión es determinada por una cámara 5 como medio de detección para la detección del enfoque de la visión 9 de un usuario 1. La señal de entrada 105 se basa en una señal de voz 8 del usuario, que es detectada, por ejemplo, a través de un micrófono 4 de un auricular 3 del usuario 1. El sistema de reconocimiento de voz 101 enfocado a la visión suministra una primera señal de salida 106, que representa el enfoque de la visión 9 del usuario así como una segunda señal de salida 107, que se basa en la señal de voz 8 del usuario. En función de las señales de salida 106, 107 de la unidad de reconocimiento de voz 1 enfocada a la visión se genera una señal de salida 108, que es incorporada en la máscara de pantalla 103 como objeto de software, asociado a la sección de la pantalla asociada al enfoque de la visión 9, en la máscara de pantalla 103.
En este caso, el ejemplo de realización de la figura 2 se basa, por ejemplo, en el siguiente escenario:
El usuario 1 observa con la ayuda del sistema de visualización del proceso 102 una instalación de automatización. El enfoque de la visión 9 del usuario 1 es seguido en este caso al mismo tiempo por el sistema de reconocimiento de voz 101 enfocado a la visión. El usuario 1 llama a través de voz, es decir, a través de la emisión de una señal de voz 8, un objeto deseado, por ejemplo un valor determinado del proceso, que está contenido en el enfoque de visión 9, o el usuario quiere modificar un valor del proceso que está contenido en el enfoque de visión 9. En estos casos, el usuario 1 llama el objeto de la voz o nombra el nuevo valor del proceso. Directamente en su enfoque de visión 9 se le incorpora a continuación un objeto visual 109, en el que están contenidas las informaciones sobre el procesamiento de un comando de voz. En el caso de ejecución con éxito de las activaciones con la ayuda del enfoque de visión del sistema de reconocimiento de voz 101, el sistema de visualización del proceso 102 y, por lo tanto, la instalación conectada con el sistema de visualización del proceso 102 y con el sistema de control y de observación 100 ejecuta los comandos y acciones correspondientes. A través del empleo del sistema de reconocimiento de voz enfocado a la visión, acoplado con una señal de reacción visual, se obtiene una interacción más intuitiva, más sencilla entre el hombre y la máquina. El usuario 1 recibe inmediatamente un mensaje de reconocimiento en forma de la señal de reacción visual 107 de corta duración y, además, informe si sus comandos de voz 105, 107 han sido registrados, comprendidos y ejecutados por el sistema 100.
La figura 3 muestra otro ejemplo de realización de un sistema de control y de observación con reconocimiento de voz y con una señal de reacción visual para el soporte de la interacción de voz en la visualización del proceso y en máquinas de producción así como en máquinas herramientas. El sistema está constituido por un sistema de interacción de voz 200, que evalúa como señal de entrada una señal de voz 8 de un usuario 1. El sistema de interacción de voz 200 proporciona, en función de la señal de voz 8 una primera señal de salida 203 así como una segunda señal de salida 204. La primera señal de salida 203 es alimentada a un medio de representación 205, que posibilita diferentes estados de funcionamiento, por ejemplo en función de la señal de voz 8 de un usuario 1. La segunda señal de salida 204 del sistema de interacción de voz 200 es alimentada a un sistema de visualización del proceso de una instalación 206 o de una máquina herramienta. La visualización y el control y la observación de la instalación 206 o bien de la máquina herramienta se lleva a cabo a través de un terminal de mando 202.
El sistema representado en la figura 3 se basa en el siguiente escenario. El usuario, por ejemplo un operario de una máquina herramienta o de una instalación 206 observa a través del sistema de visualización del proceso 201 por medio del terminal de mando 202 la instalación 206. Para realizar una acción de la instalación / de la máquina 206, el usuario 1 llama con voz comandos correspondientes en forma de señales de voz 8. A través del dispositivo de representación dispuesto separado y colocado de una manera ventajosa de forma que llama la atención, por ejemplo en forma de una lámpara, el usuario 1 es informado de cuál es el estado de procesamiento de su comando de voz. Así, por ejemplo, una señal verde de la lámpara 205 puede indicar que un comando está reconocido y ha ejecutado una acción deseada. Si se enciende la lámpara de señal roja 205, entonces de esta manera se señaliza que no ha sido reconocido un comando. Una representación naranja de la lámpara de señal 205 puede identificar, por ejemplo, que reconoce un comando, pero no ha sido ejecutada una acción en base al comando. El método mostrado en la figura 3 para la visualización de una reacción a comandos de voz para la observación del proceso es adecuado sobre todo para el control de máquinas de producción y máquinas herramientas, puesto que el usuario, es decir, el operario tiene, incluso sobre distancias mayores, una señalización clara y unívoca del estado de procesamiento de sus comandos de voz 8.
El procesamiento de voz enfocado a la visión para el soporte controlado por voz de sistemas de visualización de procesos y de máquinas herramientas se entiende en particular en el contexto especial de los campos de aplicación de "control y observación de sistemas de automatización de procesos" así como de "máquinas de producción y máquinas herramientas". En este caso, la tendencia actual es el empleo de PCs estándar como herramientas de visualización tanto en el plano de control como también en el plano de campo en el mundo de la automatización de procesos. La forma de interacción se limita, sin embargo a ratón y teclado. Debido al aumento de la complejidad de las instalaciones técnicas, se dificulta la navegación en las imágenes de procesos. Con frecuencia hay que pasar a través de jerarquías profundas de mando, antes de que se puedan encontrar la imagen del proceso o el valor del proceso correspondientes. En el campo se puede revelar como ventajoso un control "manos libres", lo que no es posible con ratón y teclado.
A través del empleo de sistemas de reconocimiento de voz y de emisión de voz, que se emplean actualmente también en muchos PCs estándar para tareas de dictado, se puede posibilitar una navegación más sencilla y más intuitiva en la visualización de procesos. De esta manera, el usuario no tiene que buscar en las jerarquías profundas de mando las imágenes deseadas de, proceso o los valores deseados del proceso, en su lugar puede "llamar" directamente el objeto.
En este contexto, es importante, por ejemplo, para puestos de mando, en los que se trabaja en varios terminales de mando adyacentes (visualización de diferentes partes de la instalación), pero también ya en un único terminal / monitor, que el sistema de interacción reconozca hacia dónde dirige el usuario precisamente su atención.
A tal fin, una cámara instalada en la pantalla servirá para determinar si el usuario mira precisamente a la pantalla y quiere observar el proceso correspondiente. En caso afirmativo, se activa el reconocimiento de voz. De esta manera se evita un reconocimiento / interpretación imprevistos. Por medio de la emisión de voz, el usuario es informado de si se realiza la acción deseada.
El núcleo de la invención consiste en este caso en la nueva forma de interacción para la visualización del proceso y en el reconocimiento de dónde dirige el usuario su atención para procesar la entrada de voz dirigida al objetivo.
Los dos escenarios siguientes describen la idea en la que se basan los ejemplos:
Escenario A: (en el plano de mando)
Un administrador de la instalación observa el estado de la instalación a través del sistema de visualización. Una parte de la instalación se encuentra en un estado crítico. La parte visualizada parpadea en rojo en la imagen total de la instalación. El administrador mira sobre la parte en la pantalla, su visión es localizada, se activa el reconocimiento de voz. El administrador llama simplemente el valor del proceso o la imagen del proceso, que quiere observar en detalle. Se confirma al administrados por medios acústicos y/o a través de reacción óptica por medio de la lámpara de señales y emisión de voz, que sus palabras fueron reconocidas por el sistema y fueron realizadas las acciones deseadas.
Escenario B: (en el campo)
Un trabajador mira el panel de control y quiere observar determinados valores del proceso o llevar a cabo determinadas acciones. Pero en este momento no tiene ninguna mano libre y se encuentra a una distancia larga del panel de control. Llama por voz el estado del proceso deseado y se confirma con una reacción óptica y acústica el reconocimiento y la realización. En caso necesario, se puede pronunciar el valor del proceso.
Por lo tanto, en resumen, la invención se refiere a un sistema y a un procedimiento para el control y la observación especialmente de un sistema de automatización y/o de una máquina de producción y/o máquina herramienta, en el que el campo de visión 9 de un usuario 1 es registrado sobre al menos un medio de representación 2 y en el que es evaluada una información de voz 8 del usuario 1 al menos temporalmente, de tal forma que en función de la información de voz 8 emitida por el usuario 1 y reconocida por los medios de reconocimiento de voz 4, 8 y en función del campo de visión 9 registrado, se pueden representar datos de información predeterminados de forma selectiva, combinados con el campo de visión 9 registrado y con la información de voz reconocida sobre los medios de representación. De esta manera, se obtiene un control manos libres y la posibilidad de una "navegación" en el entorno de aplicaciones de realidad aumentada también en instalaciones técnicas complejas.

Claims (14)

1. Sistema para el control y observación especialmente de un sistema de automatización y/o de una máquina de producción y/o máquina herramienta,
\bullet
con medios de detección (5) para la detección de un campo de visión (9) de un usuario (1) sobre al menos un medio de representación (2),
\bullet
con medios de reconocimiento de voz (4) para el reconocimiento de una información de voz (8) del usuario (1) y
\bullet
con medios de control (7) para el control del sistema de tal forma
\circ
que en función de la información de voz (8) emitida por el usuario (1) y reconocida por los medios de reconocimiento de voz (4) y en función del campo de visión (9) detectado por los medios de detección (5), se pueden representar datos de información predeterminados de forma selectiva, combinados con el campo de visión (9) detectado y con la información de voz reconocida, sobre los medios de representación (2), y
\circ
que los medios de reconocimiento de voz (4) solamente son activados cuando se detecta por los medios de detección (5), que el campo de visión del usuario se refiere a un medio de representación (2) determinado y/o al menos a zonas predeterminadas del medio de representación (2).
2. Sistema según la reivindicación 1, caracterizado porque los medios de detección (5) presentan una cámara para la detección del campo de visión (9) del usuario (1).
3. Sistema según la reivindicación 1 ó 2, caracterizado porque el sistema presenta medios de reproducción acústica (3), que están destinados a la reproducción acústica de datos de informaciones acústicas como reacción a una información de voz (8) suministrada por el usuario (1) a través de los medios de reconocimiento de voz (4), que son transmitidos a los medios de reproducción acústica (3).
4. Sistema según una de las reivindicaciones 1 a 3, caracterizado porque el sistema presenta otros medios de representación, que están destinados para la señalización del lugar de datos de información combinados con una información de voz reconocida.
5. Sistema según una de las reivindicaciones 1 a 4, caracterizado porque el sistema presenta medios para la generación de una señal de reacción visual como reacción al estado de procesamiento con respecto a la información de voz (8) reconocida.
6. Sistema según una de las reivindicaciones 1 a 5, caracterizado porque la señal de reacción visual está configurada como objeto de software incorporado en la zona del campo de visión (9) detectado del usuario.
7. Sistema según una de las reivindicaciones 1 a 6, caracterizado porque la señal de reacción visual está configurada como señal en color que identifica el estado de procesamiento respectivo con respecto a la información de voz (8) reconocida.
8. Procedimiento para el control y observación especialmente de un sistema de automatización y/o de una máquina de producción y/o máquina herramienta, en el que se detecta el campo de visión (9) de un usuario (1) sobre al menos un medio de representación (2), en el que se evalúa una información de voz (8) del usuario (1) al menos temporalmente de tal forma que en función de la información de voz (8) emitida por el usuario (1) y reconocida por los medios de reconocimiento de voz (4) y en función del campo de visión (9) detectado, se pueden representar datos de información predeterminados de forma selectiva y combinados con el campo de visión (9) detectado y con la información de voz reconocida sobre el medio de representación (2) y porque el sistema es activado de tal forma que solamente se realiza una activación de una evaluación de la información de voz (8) del usuario cuando se detecta por los medios de detección (5) que el campo de visión del usuario se refiere a un medio de representación determinado (2) y/o al menos a zonas predeterminadas del medio de representación (2).
9. Procedimiento según la reivindicación 8, caracterizado porque está prevista una cámara para la detección del campo de visión (9) del usuario (1).
10. Procedimiento según la reivindicación 8 ó 9, caracterizado porque como reacción a información de voz (8) emitida por el usuario (1) de una manera selectiva a través de los medios de reconocimiento de voz (4) se transmiten datos de información acústicos al usuario a través de medios de reproducción acústica (3).
11. Procedimiento según una de las reivindicaciones 8 a 10, caracterizado porque se señaliza al usuario (1) a través de otros medios de representación el lugar de datos de información combinados con una información de voz reconocida.
12. Procedimiento según una de las reivindicaciones 8 a 11, caracterizado porque como reacción al estado de procesamiento con respecto a la información de voz (8) reconocida, se genera una señal de reacción visual.
13. Procedimiento según una de las reivindicaciones 8 a 12, caracterizado porque la señal de reacción visual está configurada como objeto de software incorporado en la zona del campo de visión (9) detectado del usuario.
14. Procedimiento según una de las reivindicaciones 8 a 13, caracterizado porque la señal de reacción visual está configurada como señal de color que identifica el estado de procesamiento respectivo con respecto a la información de voz (8) reconocida.
ES01907355T 2000-01-27 2001-01-15 Sistema y procedimiento para el procesamiento de voz enfocado a la vision. Expired - Lifetime ES2231448T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10003550 2000-01-27
DE10003550 2000-01-27

Publications (1)

Publication Number Publication Date
ES2231448T3 true ES2231448T3 (es) 2005-05-16

Family

ID=7628920

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01907355T Expired - Lifetime ES2231448T3 (es) 2000-01-27 2001-01-15 Sistema y procedimiento para el procesamiento de voz enfocado a la vision.

Country Status (6)

Country Link
US (2) US6853972B2 (es)
EP (1) EP1250701B1 (es)
AT (1) ATE282880T1 (es)
DE (1) DE50104533D1 (es)
ES (1) ES2231448T3 (es)
WO (1) WO2001056017A1 (es)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795806B1 (en) 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
WO2002077972A1 (en) * 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US7548833B2 (en) * 2004-03-25 2009-06-16 Siemens Building Technologies, Inc. Method and apparatus for graphical display of a condition in a building system with a mobile display unit
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US7920071B2 (en) * 2006-05-26 2011-04-05 Itt Manufacturing Enterprises, Inc. Augmented reality-based system and method providing status and control of unmanned vehicles
US9323055B2 (en) * 2006-05-26 2016-04-26 Exelis, Inc. System and method to display maintenance and operational instructions of an apparatus using augmented reality
US20080218331A1 (en) * 2007-03-08 2008-09-11 Itt Manufacturing Enterprises, Inc. Augmented reality-based system and method to show the location of personnel and sensors inside occluded structures and provide increased situation awareness
US8933876B2 (en) 2010-12-13 2015-01-13 Apple Inc. Three dimensional user interface session control
US9035876B2 (en) 2008-01-14 2015-05-19 Apple Inc. Three-dimensional user interface session control
US8700332B2 (en) * 2008-11-10 2014-04-15 Volkswagen Ag Operating device for a motor vehicle
US9108513B2 (en) 2008-11-10 2015-08-18 Volkswagen Ag Viewing direction and acoustic command based operating device for a motor vehicle
WO2010147600A2 (en) * 2009-06-19 2010-12-23 Hewlett-Packard Development Company, L, P. Qualified command
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
KR101295711B1 (ko) * 2011-02-15 2013-08-16 주식회사 팬택 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법
US8881051B2 (en) 2011-07-05 2014-11-04 Primesense Ltd Zoom-based gesture user interface
US9459758B2 (en) 2011-07-05 2016-10-04 Apple Inc. Gesture-based interface with enhanced features
US9377865B2 (en) 2011-07-05 2016-06-28 Apple Inc. Zoom-based gesture user interface
US9030498B2 (en) 2011-08-15 2015-05-12 Apple Inc. Combining explicit select gestures and timeclick in a non-tactile three dimensional user interface
US9218063B2 (en) * 2011-08-24 2015-12-22 Apple Inc. Sessionless pointing user interface
US8860660B2 (en) 2011-12-29 2014-10-14 Grinbath, Llc System and method of determining pupil center position
US9910490B2 (en) 2011-12-29 2018-03-06 Eyeguide, Inc. System and method of cursor position control based on the vestibulo-ocular reflex
US9229534B2 (en) 2012-02-28 2016-01-05 Apple Inc. Asymmetric mapping for tactile and non-tactile user interfaces
US9823742B2 (en) 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
EP2871640B1 (en) * 2012-07-09 2021-01-06 LG Electronics, Inc. Speech recognition apparatus and method
US20140085198A1 (en) 2012-09-26 2014-03-27 Grinbath, Llc Correlating Pupil Position to Gaze Location Within a Scene
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
KR20140132246A (ko) * 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치
JP6221535B2 (ja) * 2013-09-11 2017-11-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9524588B2 (en) 2014-01-24 2016-12-20 Avaya Inc. Enhanced communication between remote participants using augmented and virtual reality
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9966079B2 (en) * 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
US9583105B2 (en) 2014-06-06 2017-02-28 Microsoft Technology Licensing, Llc Modification of visual content to facilitate improved speech recognition
CN104238862B (zh) * 2014-08-28 2017-12-08 广东威创视讯科技股份有限公司 一种窗口操作方法
US10317992B2 (en) * 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US10095473B2 (en) 2015-11-03 2018-10-09 Honeywell International Inc. Intent managing system
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
CN106375830A (zh) * 2016-09-21 2017-02-01 杭州当虹科技有限公司 虚拟现实视频上叠加跟随视角的图文和视频内容的方法
JP6434476B2 (ja) 2016-12-06 2018-12-05 ファナック株式会社 拡張現実シミュレーション装置及び拡張現実シミュレーションプログラム
US20190246071A1 (en) * 2018-02-07 2019-08-08 Osram Sylvania Inc. Building Monitoring System

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04372012A (ja) * 1991-06-20 1992-12-25 Fuji Xerox Co Ltd 入力装置
WO1993014454A1 (en) * 1992-01-10 1993-07-22 Foster-Miller, Inc. A sensory integrated data interface
FR2696258B1 (fr) 1992-09-25 1994-10-28 Sextant Avionique Dispositif de gestion d'un système d'interaction homme-machine.
DE4306508A1 (de) 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
DE4307590C2 (de) 1993-03-10 2002-03-07 Wuermseher Jun Vorrichtung zur visuellen Kontrolle eines Prüflings
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
ATE196560T1 (de) * 1994-12-23 2000-10-15 Siemens Ag Verfahren zur umwandlung von sprachlich eingegebenen informationen in maschinenlesbare daten
US5864815A (en) * 1995-07-31 1999-01-26 Microsoft Corporation Method and system for displaying speech recognition status information in a visual notification area
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
US5912721A (en) * 1996-03-13 1999-06-15 Kabushiki Kaisha Toshiba Gaze detection apparatus and its method as well as information display apparatus
US6847336B1 (en) * 1996-10-02 2005-01-25 Jerome H. Lemelson Selectively controllable heads-up display system
US6351273B1 (en) * 1997-04-30 2002-02-26 Jerome H. Lemelson System and methods for controlling automatic scrolling of information on a display or screen
DE19731303B4 (de) 1997-07-13 2009-02-26 Smi Senso Motoric Instruments Gmbh Verfahren und Vorrichtung zum kontaktlosen, helmfreien Messen der Blickrichtung von Augen bei Kopf- und Augenbewegungen
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition

Also Published As

Publication number Publication date
EP1250701A1 (de) 2002-10-23
ATE282880T1 (de) 2004-12-15
US6853972B2 (en) 2005-02-08
US20050177375A1 (en) 2005-08-11
WO2001056017A1 (de) 2001-08-02
DE50104533D1 (de) 2004-12-23
US7340399B2 (en) 2008-03-04
EP1250701B1 (de) 2004-11-17
US20030040914A1 (en) 2003-02-27

Similar Documents

Publication Publication Date Title
ES2231448T3 (es) Sistema y procedimiento para el procesamiento de voz enfocado a la vision.
ES2243451T3 (es) Sistema y procedimiento para el procesamiento de voz enfocado a la vision con generacion de una señal de reaccion visual.
CN106133653B (zh) 信息处理装置
US10702987B2 (en) Robot system having teach pendant communicating with robot controller
JP5359661B2 (ja) 安全管理システム、安全管理装置、安全管理方法、及びプログラム
US11854379B2 (en) Method, device, and computer-readable medium for mobile device management of collaborative industrial robot
KR20110083027A (ko) 모바일 단말의 시간 설정을 통한 자가 호출 및 긴급 신고 방법, 그 시스템 및 이를 기록한 기록매체
JP2016091165A (ja) 装置及びプログラム
US10133900B2 (en) Controlling the output of contextual information using a computing device
CN105258703A (zh) 一种导航提醒方法、装置及系统
KR20160136591A (ko) 차량 단말 및 웨어러블 기기 간 연동 장치 및 차량 단말 및 웨어러블 기기 간 연동 방법
KR102462204B1 (ko) 진동을 제공하기 위한 장치 및 방법
JP6033186B2 (ja) 携帯端末装置
KR101798515B1 (ko) 차량에서 웨어러블 기기를 이용한 길안내 방법 및 이를 수행하는 차량
JP2019114335A (ja) 設定機、照明システム、照明器具の通信設定方法およびプログラム
JP6533902B2 (ja) 装置及びプログラム
JP6829306B2 (ja) 移動体装置、端末装置、情報処理システム及び情報処理方法並びに移動体装置用プログラム及び端末装置用プログラム
JP2020149139A (ja) 作業支援システム、作業支援方法、及びプログラム
JP7075375B2 (ja) 安全確認支援システム及び方法
KR20100083371A (ko) 길 안내 방법 및 그를 수행하는 시스템
JP7227434B1 (ja) 有線通信及び無線通信を用いた機械操作システム、その方法、制御装置、及びコンピュータプログラム
JP7081841B2 (ja) 装置及びプログラム
JP6823766B2 (ja) 装置及びプログラム
KR20110133342A (ko) 시각장애인을 위한 공공 시설물의 정보를 제공하는 장치 및 사용자 단말기
JP2020027672A (ja) 装置及びプログラム