ES2231448T3 - Sistema y procedimiento para el procesamiento de voz enfocado a la vision. - Google Patents
Sistema y procedimiento para el procesamiento de voz enfocado a la vision.Info
- Publication number
- ES2231448T3 ES2231448T3 ES01907355T ES01907355T ES2231448T3 ES 2231448 T3 ES2231448 T3 ES 2231448T3 ES 01907355 T ES01907355 T ES 01907355T ES 01907355 T ES01907355 T ES 01907355T ES 2231448 T3 ES2231448 T3 ES 2231448T3
- Authority
- ES
- Spain
- Prior art keywords
- user
- voice
- vision
- field
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 title claims description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 18
- 238000004519 manufacturing process Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 230000011664 signaling Effects 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000009434 installation Methods 0.000 description 15
- 230000003993 interaction Effects 0.000 description 9
- 238000012800 visualization Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
- Document Processing Apparatus (AREA)
Abstract
Sistema para el control y observación especialmente de un sistema de automatización y/o de una maquina de producción y/o maquina herramienta, ¿ con medios de detección (5) para la detección de un campo de visión (9) de un usuario (1) sobre al menos un medio de representación (2), ¿ con medios de reconocimiento de voz (4) para el reconocimiento de una información de voz (8) del usuario (1) y ¿ con medios de control (7) para el control del sistema de tal forma que en función de la información de voz (8) emitida por el usuario (1) y reconocida por los medios de reconocimiento de voz (4) y en función del campo de visión (9) detectado por los medios de detección (5), se pueden representar datos de información predeterminados de forma selectiva, combinados con el campo de visión (9) detectado y con la información de voz reconocida, sobre los medios de representación (2), y que los medios de reconocimiento de voz (4) solamente son activados cuando se detecta por los medios de detección (5), que el campo de visión del usuario se refiere a un medio de representación (2) determinado y/o al menos a zonas predeterminadas del medio de representación (2).
Description
Sistema y procedimiento para el procesamiento de
voz enfocado a la visión.
La invención se refiere a un sistema y a un
procedimiento para el control y observación especialmente de un
sistema de automatización y/o de una máquina de producción y/o
máquina herramienta.
Un sistema y un procedimiento de este tipo se
emplea, por ejemplo, en el campo de la técnica de automatización, en
las máquinas de producción y máquinas herramientas, como por ejemplo
vehículos y máquinas industriales e instalaciones. Un sistema y un
procedimiento de este tipo se publican, por ejemplo, en la
publicación de patente US-A-5 668
573.
La invención tiene el cometido de indicar un
sistema y un procedimiento para el control y observación
especialmente de un sistema de automatización y/o de una máquina de
producción y/o máquina herramienta, que posibilita un control manos
libres y la posibilidad de una "navegación" en el entorno de
aplicaciones de realidad aumentada también en instalaciones técnicas
complejas.
Este cometido se soluciona por medio de un
sistema así como por medio de un procedimiento con las
características indicadas en las reivindicaciones 1 y 8,
respectivamente.
En este caso, con la ayuda de los medios de
detección, por ejemplo de una cámara se detecta el campo de visión
del usuario, que está dirigido sobre un medio de representación, por
ejemplo un monitor. Al mismo tiempo se evalúa a través de los medios
de reconocimiento de voz la voz emitida por el usuario. Los medios
de detección y los medios de reconocimiento de voz forman en este
caso en común un sistema de reconocimiento de voz enfocado a la
visión, siendo representados datos de información predeterminados
sobre los medios de representación en función de la información de
voz reconocida y en función del campo de visión detectado. Si se
establece, por ejemplo, con la ayuda de una cámara incorporada en el
medio de representación, por ejemplo en la pantalla, que el usuario
mira precisamente a la pantalla y de esta manera quiere observar un
proceso correspondiente, entonces se activa a través de la cámara
como medio de detección el reconocimiento de voz del sistema, con lo
que se lleva a cabo una evaluación de la entrada de la voz orientada
al objetivo. De esta manera resulta, por lo tanto, una nueva
corriente de interacción para la visualización de procesos. Si el
usuario dirige su mirada sobre otro medio de representación o sobre
otro campo de visión del medio de representación, entonces se puede
representar, con la ayuda de los medios de control una información
asociada a este campo de visión después del reconocimiento de voz
con éxito, sobre los medios de representación. De este modo, el
usuario puede controlar y observar manos libres por voz un proceso
deseado o una máquina de producción y/o una máquina herramienta
deseada de una manera intuitiva a través de la modificación de su
campo de visión en combinación con el control de voz.
Se puede conseguir un reconocimiento y una
interpretación imprevistos de una información de voz no destinada
para el sistema o bien una activación selectiva del reconocimiento
de voz porque los medios de control activan el sistema de tal forma
que los medios de reconocimiento de voz solamente se activan cuando
se detecta desde los medios de detección que el campo de visión del
usuario se refiere a un medio de representación determinado y/o al
menos a zonas predeterminadas del medio de representación.
Otra forma de realización ventajosa de los medios
de detección consiste en que los medios de detección presentan una
cámara para la detección del campo de visión del usuario.
Se puede asegurar una comunicación de voz
interactiva porque el sistema presenta medios de reproducción
acústicos, siendo transmitidos datos de información acústica al
usuario a través de medios de reproducción acústica como reacción a
la información de voz emitida por el usuario de una manera selectiva
a través de los medios de reconocimiento de voz.
Se mejora adicionalmente un procesamiento
dirigido al objetivo de la voz porque el sistema presenta otros
medios de representación que sirven para la señalización del lugar
de datos de información combinados con una información de voz
reconocida.
Se consigue una información segura sobre el
estado de procesamiento del sistema con respecto a una señal de voz
para el usuario porque el sistema presenta medios para la generación
de una señal de reacción visual como reacción al estado de
procesamiento con respecto a la información de voz reconocida.
Una configuración que puede ser reconocida
fácilmente por el usuario para la señal de reacción consiste en que
la señal de reacción visual está configurada como objeto de software
que se incorpora en la zona del campo de visión detectado del
usuario.
Otra posibilidad para una reacción claramente
manifiesta para el soporte de la información de voz consiste en que
la señal de reacción visual está configurada como señal de color que
caracteriza el estado de procesamiento respectivo con respecto a la
información de voz reconocida.
A continuación de describe y se explica en
detalle la invención con la ayuda de los ejemplos de realización
representados en las figuras.
En este caso:
La figura 1 muestra un diagrama de bloques de un
ejemplo de realización de un sistema controlado por voz para el
control y observación de un sistema de automatización o de una
máquina herramienta.
La figura 2 muestra un diagrama de bloques de un
ejemplo de realización de un sistema controlado por voz para el
control y observación de un sistema de automatización y de una
máquina herramienta con una señal de reacción visual en forma de un
objeto de software y
La figura 3 muestra un diagrama de bloques de un
ejemplo de realización de un sistema controlado por voz para el
control y observación de un sistema de automatización o de una
máquina herramienta con una señal de reacción visual en forma de una
instalación óptica.
La figura 1 muestra un diagrama de bloques de un
sistema de procesamiento de voz enfocado a la visión para el control
y observación de un sistema de automatización o de una máquina
herramienta. El sistema de procesamiento de voz enfocado a la visión
está constituido por un sistema de reconocimiento de voz 14 enfocado
a la visión, que puede ser activado por un usuario. El usuario está
equipado con unas gafas de datos móviles 2, en las que están
acoplados un micrófono 4, un altavoz 3 y un dispositivo de
transmisión de datos 15. El sistema de reconocimiento de voz 14
enfocado a la visión contiene una cámara 5 como medio de detección
para la detección de un campo de visión, es decir, de los
movimientos de los ojos del usuario 1. Las señales de los medios de
detección 5 son alimentadas a un dispositivo de evaluación 7. El
sistema de reconocimiento de voz 14 enfocado a la visión contiene,
además, un dispositivo de evaluación acústico 6, por ejemplo una
tarjeta de sonido de un ordenador, que detecta una señal de voz 8
del usuario 1. Cuando tanto la instalación de evaluación 7 como
también la instalación de evaluación acústica 6 emiten una señal de
salida positiva 17, 18, es decir, cuando, por una parte, el campo
de visión 9 del usuario está dirigido sobre al menos zonas
predeterminadas, por ejemplo, de un medio de representación y, por
otra parte, también está presente una señal de voz correspondiente
del usuario 1, entonces se emite en un identificador de voz 19 en el
caso de una señal de voz 8 reconocida un comando 20 correspondiente
al medio de representación 2, por ejemplo dentro de un sistema de
visualización de procesos.
La particularidad del sistema de procesamiento de
voz enfocado a la visión mostrado en la figura 1 consiste en la
combinación de una evaluación del campo de visión 9 del usuario 1
con una evaluación de voz dirigida al objetivo. De esta manera se
obtiene un reconocimiento de voz dirigido al objetivo, de manera que
el usuario no tiene que buscar ya en jerarquías de control lo más
profundas posible las imágenes del proceso y los valores del proceso
deseados, en su lugar puede "llamar" directamente a través de
la combinación de una visión selectiva sobre una imagen determinada
del proceso y una señal de voz correspondiente un objeto deseado, un
valor de proceso deseado, etc. De esta manera se reduce claramente
también la incidencia a error en el reconocimiento de voz, puesto
que el dispositivo de reconocimiento de voz solamente tiene que
procesar un reconocimiento de instrucciones de control, que están
combinadas con el campo de visión asociado respectivo y en la imagen
del proceso conectada con el mismo, etc., Por lo tanto, se obtiene
una sensibilidad elevada para la percepción de las instrucciones de
voz y las señales de voz 8 del usuario 1. La transmisión de las
señales de voz 8 desde el micrófono a la tarjeta de sonido 6 se
puede realizar en este caso, por ejemplo, a través de una interfaz
de radio unidireccional o bidireccional sin hilos. En el caso de una
interfaz de transmisión direccional por radio entre el sistema de
transmisión 15 y el sistema de reconocimiento de voz 14 enfocado a
la visión, en el caso de que no se reconozca una señal de voz 8, se
pueden emitir también consultas 22 directamente al usuario 1. De una
manera alternativa o adicional a ello, es posible también una
emisión de consultas 22 de este tipo a través de un altavoz 21.
La figura 2 muestra un sistema de procesamiento
de voz enfocado a la visión para un sistema de control y de
observación 100, por ejemplo de un sistema de automatización. El
sistema de control y de observación contiene un sistema de
visualización del proceso 102, que posibilita a través de una
máscara de pantalla 103 representada a modo de ejemplo un control
del proceso de un sistema de automatización.
El sistema de automatización no se representa en
detalle en la figura 2 por razones de claridad. El sistema de
control y de observación comprende, además, una unidad de
reconocimiento de voz 101 enfocado a la visión, a la que se
alimentan señales de entrada 104, 105 y que emite señales de salida
106, 107. La señal de entrada 105 de la unidad de reconocimiento de
voz enfocada a la visión es determinada por una cámara 5 como medio
de detección para la detección del enfoque de la visión 9 de un
usuario 1. La señal de entrada 105 se basa en una señal de voz 8 del
usuario, que es detectada, por ejemplo, a través de un micrófono 4
de un auricular 3 del usuario 1. El sistema de reconocimiento de voz
101 enfocado a la visión suministra una primera señal de salida 106,
que representa el enfoque de la visión 9 del usuario así como una
segunda señal de salida 107, que se basa en la señal de voz 8 del
usuario. En función de las señales de salida 106, 107 de la unidad
de reconocimiento de voz 1 enfocada a la visión se genera una señal
de salida 108, que es incorporada en la máscara de pantalla 103 como
objeto de software, asociado a la sección de la pantalla asociada al
enfoque de la visión 9, en la máscara de pantalla 103.
En este caso, el ejemplo de realización de la
figura 2 se basa, por ejemplo, en el siguiente escenario:
El usuario 1 observa con la ayuda del sistema de
visualización del proceso 102 una instalación de automatización. El
enfoque de la visión 9 del usuario 1 es seguido en este caso al
mismo tiempo por el sistema de reconocimiento de voz 101 enfocado a
la visión. El usuario 1 llama a través de voz, es decir, a través de
la emisión de una señal de voz 8, un objeto deseado, por ejemplo un
valor determinado del proceso, que está contenido en el enfoque de
visión 9, o el usuario quiere modificar un valor del proceso que
está contenido en el enfoque de visión 9. En estos casos, el usuario
1 llama el objeto de la voz o nombra el nuevo valor del proceso.
Directamente en su enfoque de visión 9 se le incorpora a
continuación un objeto visual 109, en el que están contenidas las
informaciones sobre el procesamiento de un comando de voz. En el
caso de ejecución con éxito de las activaciones con la ayuda del
enfoque de visión del sistema de reconocimiento de voz 101, el
sistema de visualización del proceso 102 y, por lo tanto, la
instalación conectada con el sistema de visualización del proceso
102 y con el sistema de control y de observación 100 ejecuta los
comandos y acciones correspondientes. A través del empleo del
sistema de reconocimiento de voz enfocado a la visión, acoplado con
una señal de reacción visual, se obtiene una interacción más
intuitiva, más sencilla entre el hombre y la máquina. El usuario 1
recibe inmediatamente un mensaje de reconocimiento en forma de la
señal de reacción visual 107 de corta duración y, además, informe si
sus comandos de voz 105, 107 han sido registrados, comprendidos y
ejecutados por el sistema 100.
La figura 3 muestra otro ejemplo de realización
de un sistema de control y de observación con reconocimiento de voz
y con una señal de reacción visual para el soporte de la interacción
de voz en la visualización del proceso y en máquinas de producción
así como en máquinas herramientas. El sistema está constituido por
un sistema de interacción de voz 200, que evalúa como señal de
entrada una señal de voz 8 de un usuario 1. El sistema de
interacción de voz 200 proporciona, en función de la señal de voz 8
una primera señal de salida 203 así como una segunda señal de salida
204. La primera señal de salida 203 es alimentada a un medio de
representación 205, que posibilita diferentes estados de
funcionamiento, por ejemplo en función de la señal de voz 8 de un
usuario 1. La segunda señal de salida 204 del sistema de
interacción de voz 200 es alimentada a un sistema de visualización
del proceso de una instalación 206 o de una máquina herramienta. La
visualización y el control y la observación de la instalación 206 o
bien de la máquina herramienta se lleva a cabo a través de un
terminal de mando 202.
El sistema representado en la figura 3 se basa en
el siguiente escenario. El usuario, por ejemplo un operario de una
máquina herramienta o de una instalación 206 observa a través del
sistema de visualización del proceso 201 por medio del terminal de
mando 202 la instalación 206. Para realizar una acción de la
instalación / de la máquina 206, el usuario 1 llama con voz comandos
correspondientes en forma de señales de voz 8. A través del
dispositivo de representación dispuesto separado y colocado de una
manera ventajosa de forma que llama la atención, por ejemplo en
forma de una lámpara, el usuario 1 es informado de cuál es el estado
de procesamiento de su comando de voz. Así, por ejemplo, una señal
verde de la lámpara 205 puede indicar que un comando está reconocido
y ha ejecutado una acción deseada. Si se enciende la lámpara de
señal roja 205, entonces de esta manera se señaliza que no ha sido
reconocido un comando. Una representación naranja de la lámpara de
señal 205 puede identificar, por ejemplo, que reconoce un comando,
pero no ha sido ejecutada una acción en base al comando. El método
mostrado en la figura 3 para la visualización de una reacción a
comandos de voz para la observación del proceso es adecuado sobre
todo para el control de máquinas de producción y máquinas
herramientas, puesto que el usuario, es decir, el operario tiene,
incluso sobre distancias mayores, una señalización clara y unívoca
del estado de procesamiento de sus comandos de voz 8.
El procesamiento de voz enfocado a la visión para
el soporte controlado por voz de sistemas de visualización de
procesos y de máquinas herramientas se entiende en particular en el
contexto especial de los campos de aplicación de "control y
observación de sistemas de automatización de procesos" así como
de "máquinas de producción y máquinas herramientas". En este
caso, la tendencia actual es el empleo de PCs estándar como
herramientas de visualización tanto en el plano de control como
también en el plano de campo en el mundo de la automatización de
procesos. La forma de interacción se limita, sin embargo a ratón y
teclado. Debido al aumento de la complejidad de las instalaciones
técnicas, se dificulta la navegación en las imágenes de procesos.
Con frecuencia hay que pasar a través de jerarquías profundas de
mando, antes de que se puedan encontrar la imagen del proceso o el
valor del proceso correspondientes. En el campo se puede revelar
como ventajoso un control "manos libres", lo que no es posible
con ratón y teclado.
A través del empleo de sistemas de reconocimiento
de voz y de emisión de voz, que se emplean actualmente también en
muchos PCs estándar para tareas de dictado, se puede posibilitar una
navegación más sencilla y más intuitiva en la visualización de
procesos. De esta manera, el usuario no tiene que buscar en las
jerarquías profundas de mando las imágenes deseadas de, proceso o
los valores deseados del proceso, en su lugar puede "llamar"
directamente el objeto.
En este contexto, es importante, por ejemplo,
para puestos de mando, en los que se trabaja en varios terminales de
mando adyacentes (visualización de diferentes partes de la
instalación), pero también ya en un único terminal / monitor, que el
sistema de interacción reconozca hacia dónde dirige el usuario
precisamente su atención.
A tal fin, una cámara instalada en la pantalla
servirá para determinar si el usuario mira precisamente a la
pantalla y quiere observar el proceso correspondiente. En caso
afirmativo, se activa el reconocimiento de voz. De esta manera se
evita un reconocimiento / interpretación imprevistos. Por medio de
la emisión de voz, el usuario es informado de si se realiza la
acción deseada.
El núcleo de la invención consiste en este caso
en la nueva forma de interacción para la visualización del proceso y
en el reconocimiento de dónde dirige el usuario su atención para
procesar la entrada de voz dirigida al objetivo.
Los dos escenarios siguientes describen la idea
en la que se basan los ejemplos:
Escenario A: (en el plano de
mando)
Un administrador de la instalación observa el
estado de la instalación a través del sistema de visualización. Una
parte de la instalación se encuentra en un estado crítico. La parte
visualizada parpadea en rojo en la imagen total de la instalación.
El administrador mira sobre la parte en la pantalla, su visión es
localizada, se activa el reconocimiento de voz. El administrador
llama simplemente el valor del proceso o la imagen del proceso, que
quiere observar en detalle. Se confirma al administrados por medios
acústicos y/o a través de reacción óptica por medio de la lámpara de
señales y emisión de voz, que sus palabras fueron reconocidas por el
sistema y fueron realizadas las acciones deseadas.
Escenario B: (en el
campo)
Un trabajador mira el panel de control y quiere
observar determinados valores del proceso o llevar a cabo
determinadas acciones. Pero en este momento no tiene ninguna mano
libre y se encuentra a una distancia larga del panel de control.
Llama por voz el estado del proceso deseado y se confirma con una
reacción óptica y acústica el reconocimiento y la realización. En
caso necesario, se puede pronunciar el valor del proceso.
Por lo tanto, en resumen, la invención se refiere
a un sistema y a un procedimiento para el control y la observación
especialmente de un sistema de automatización y/o de una máquina de
producción y/o máquina herramienta, en el que el campo de visión 9
de un usuario 1 es registrado sobre al menos un medio de
representación 2 y en el que es evaluada una información de voz 8
del usuario 1 al menos temporalmente, de tal forma que en función de
la información de voz 8 emitida por el usuario 1 y reconocida por
los medios de reconocimiento de voz 4, 8 y en función del campo de
visión 9 registrado, se pueden representar datos de información
predeterminados de forma selectiva, combinados con el campo de
visión 9 registrado y con la información de voz reconocida sobre los
medios de representación. De esta manera, se obtiene un control
manos libres y la posibilidad de una "navegación" en el entorno
de aplicaciones de realidad aumentada también en instalaciones
técnicas complejas.
Claims (14)
1. Sistema para el control y observación
especialmente de un sistema de automatización y/o de una máquina de
producción y/o máquina herramienta,
- \bullet
- con medios de detección (5) para la detección de un campo de visión (9) de un usuario (1) sobre al menos un medio de representación (2),
- \bullet
- con medios de reconocimiento de voz (4) para el reconocimiento de una información de voz (8) del usuario (1) y
- \bullet
- con medios de control (7) para el control del sistema de tal forma
- \circ
- que en función de la información de voz (8) emitida por el usuario (1) y reconocida por los medios de reconocimiento de voz (4) y en función del campo de visión (9) detectado por los medios de detección (5), se pueden representar datos de información predeterminados de forma selectiva, combinados con el campo de visión (9) detectado y con la información de voz reconocida, sobre los medios de representación (2), y
- \circ
- que los medios de reconocimiento de voz (4) solamente son activados cuando se detecta por los medios de detección (5), que el campo de visión del usuario se refiere a un medio de representación (2) determinado y/o al menos a zonas predeterminadas del medio de representación (2).
2. Sistema según la reivindicación 1,
caracterizado porque los medios de detección (5) presentan
una cámara para la detección del campo de visión (9) del usuario
(1).
3. Sistema según la reivindicación 1 ó 2,
caracterizado porque el sistema presenta medios de
reproducción acústica (3), que están destinados a la reproducción
acústica de datos de informaciones acústicas como reacción a una
información de voz (8) suministrada por el usuario (1) a través de
los medios de reconocimiento de voz (4), que son transmitidos a los
medios de reproducción acústica (3).
4. Sistema según una de las reivindicaciones 1 a
3, caracterizado porque el sistema presenta otros medios de
representación, que están destinados para la señalización del lugar
de datos de información combinados con una información de voz
reconocida.
5. Sistema según una de las reivindicaciones 1 a
4, caracterizado porque el sistema presenta medios para la
generación de una señal de reacción visual como reacción al estado
de procesamiento con respecto a la información de voz (8)
reconocida.
6. Sistema según una de las reivindicaciones 1 a
5, caracterizado porque la señal de reacción visual está
configurada como objeto de software incorporado en la zona del campo
de visión (9) detectado del usuario.
7. Sistema según una de las reivindicaciones 1 a
6, caracterizado porque la señal de reacción visual está
configurada como señal en color que identifica el estado de
procesamiento respectivo con respecto a la información de voz (8)
reconocida.
8. Procedimiento para el control y observación
especialmente de un sistema de automatización y/o de una máquina de
producción y/o máquina herramienta, en el que se detecta el campo de
visión (9) de un usuario (1) sobre al menos un medio de
representación (2), en el que se evalúa una información de voz (8)
del usuario (1) al menos temporalmente de tal forma que en función
de la información de voz (8) emitida por el usuario (1) y reconocida
por los medios de reconocimiento de voz (4) y en función del campo
de visión (9) detectado, se pueden representar datos de información
predeterminados de forma selectiva y combinados con el campo de
visión (9) detectado y con la información de voz reconocida sobre el
medio de representación (2) y porque el sistema es activado de tal
forma que solamente se realiza una activación de una evaluación de
la información de voz (8) del usuario cuando se detecta por los
medios de detección (5) que el campo de visión del usuario se
refiere a un medio de representación determinado (2) y/o al menos a
zonas predeterminadas del medio de representación (2).
9. Procedimiento según la reivindicación 8,
caracterizado porque está prevista una cámara para la
detección del campo de visión (9) del usuario (1).
10. Procedimiento según la reivindicación 8 ó 9,
caracterizado porque como reacción a información de voz (8)
emitida por el usuario (1) de una manera selectiva a través de los
medios de reconocimiento de voz (4) se transmiten datos de
información acústicos al usuario a través de medios de reproducción
acústica (3).
11. Procedimiento según una de las
reivindicaciones 8 a 10, caracterizado porque se señaliza al
usuario (1) a través de otros medios de representación el lugar de
datos de información combinados con una información de voz
reconocida.
12. Procedimiento según una de las
reivindicaciones 8 a 11, caracterizado porque como reacción
al estado de procesamiento con respecto a la información de voz (8)
reconocida, se genera una señal de reacción visual.
13. Procedimiento según una de las
reivindicaciones 8 a 12, caracterizado porque la señal de
reacción visual está configurada como objeto de software incorporado
en la zona del campo de visión (9) detectado del usuario.
14. Procedimiento según una de las
reivindicaciones 8 a 13, caracterizado porque la señal de
reacción visual está configurada como señal de color que identifica
el estado de procesamiento respectivo con respecto a la información
de voz (8) reconocida.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10003550 | 2000-01-27 | ||
DE10003550 | 2000-01-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2231448T3 true ES2231448T3 (es) | 2005-05-16 |
Family
ID=7628920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01907355T Expired - Lifetime ES2231448T3 (es) | 2000-01-27 | 2001-01-15 | Sistema y procedimiento para el procesamiento de voz enfocado a la vision. |
Country Status (6)
Country | Link |
---|---|
US (2) | US6853972B2 (es) |
EP (1) | EP1250701B1 (es) |
AT (1) | ATE282880T1 (es) |
DE (1) | DE50104533D1 (es) |
ES (1) | ES2231448T3 (es) |
WO (1) | WO2001056017A1 (es) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6795806B1 (en) | 2000-09-20 | 2004-09-21 | International Business Machines Corporation | Method for enhancing dictation and command discrimination |
US7082393B2 (en) * | 2001-03-27 | 2006-07-25 | Rast Associates, Llc | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US7548833B2 (en) * | 2004-03-25 | 2009-06-16 | Siemens Building Technologies, Inc. | Method and apparatus for graphical display of a condition in a building system with a mobile display unit |
US7904300B2 (en) * | 2005-08-10 | 2011-03-08 | Nuance Communications, Inc. | Supporting multiple speech enabled user interface consoles within a motor vehicle |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US9323055B2 (en) * | 2006-05-26 | 2016-04-26 | Exelis, Inc. | System and method to display maintenance and operational instructions of an apparatus using augmented reality |
US7920071B2 (en) * | 2006-05-26 | 2011-04-05 | Itt Manufacturing Enterprises, Inc. | Augmented reality-based system and method providing status and control of unmanned vehicles |
US20080218331A1 (en) * | 2007-03-08 | 2008-09-11 | Itt Manufacturing Enterprises, Inc. | Augmented reality-based system and method to show the location of personnel and sensors inside occluded structures and provide increased situation awareness |
US9035876B2 (en) | 2008-01-14 | 2015-05-19 | Apple Inc. | Three-dimensional user interface session control |
US8933876B2 (en) | 2010-12-13 | 2015-01-13 | Apple Inc. | Three dimensional user interface session control |
US8700332B2 (en) * | 2008-11-10 | 2014-04-15 | Volkswagen Ag | Operating device for a motor vehicle |
US9108513B2 (en) | 2008-11-10 | 2015-08-18 | Volkswagen Ag | Viewing direction and acoustic command based operating device for a motor vehicle |
WO2010147600A2 (en) * | 2009-06-19 | 2010-12-23 | Hewlett-Packard Development Company, L, P. | Qualified command |
US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
KR101295711B1 (ko) * | 2011-02-15 | 2013-08-16 | 주식회사 팬택 | 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법 |
US9377865B2 (en) | 2011-07-05 | 2016-06-28 | Apple Inc. | Zoom-based gesture user interface |
US9459758B2 (en) | 2011-07-05 | 2016-10-04 | Apple Inc. | Gesture-based interface with enhanced features |
US8881051B2 (en) | 2011-07-05 | 2014-11-04 | Primesense Ltd | Zoom-based gesture user interface |
US9030498B2 (en) | 2011-08-15 | 2015-05-12 | Apple Inc. | Combining explicit select gestures and timeclick in a non-tactile three dimensional user interface |
US9218063B2 (en) * | 2011-08-24 | 2015-12-22 | Apple Inc. | Sessionless pointing user interface |
US8860660B2 (en) | 2011-12-29 | 2014-10-14 | Grinbath, Llc | System and method of determining pupil center position |
US9910490B2 (en) | 2011-12-29 | 2018-03-06 | Eyeguide, Inc. | System and method of cursor position control based on the vestibulo-ocular reflex |
US9229534B2 (en) | 2012-02-28 | 2016-01-05 | Apple Inc. | Asymmetric mapping for tactile and non-tactile user interfaces |
US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
WO2014010879A1 (ko) * | 2012-07-09 | 2014-01-16 | 엘지전자 주식회사 | 음성 인식 장치 및 그 방법 |
US20140085198A1 (en) | 2012-09-26 | 2014-03-27 | Grinbath, Llc | Correlating Pupil Position to Gaze Location Within a Scene |
US9265458B2 (en) | 2012-12-04 | 2016-02-23 | Sync-Think, Inc. | Application of smooth pursuit cognitive testing paradigms to clinical drug development |
US9380976B2 (en) | 2013-03-11 | 2016-07-05 | Sync-Think, Inc. | Optical neuroinformatics |
KR20140132246A (ko) * | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 오브젝트 선택 방법 및 오브젝트 선택 장치 |
JP6221535B2 (ja) * | 2013-09-11 | 2017-11-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US9524588B2 (en) | 2014-01-24 | 2016-12-20 | Avaya Inc. | Enhanced communication between remote participants using augmented and virtual reality |
US9412363B2 (en) | 2014-03-03 | 2016-08-09 | Microsoft Technology Licensing, Llc | Model based approach for on-screen item selection and disambiguation |
US9966079B2 (en) * | 2014-03-24 | 2018-05-08 | Lenovo (Singapore) Pte. Ltd. | Directing voice input based on eye tracking |
US9583105B2 (en) | 2014-06-06 | 2017-02-28 | Microsoft Technology Licensing, Llc | Modification of visual content to facilitate improved speech recognition |
CN104238862B (zh) * | 2014-08-28 | 2017-12-08 | 广东威创视讯科技股份有限公司 | 一种窗口操作方法 |
US10317992B2 (en) | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
US10095473B2 (en) | 2015-11-03 | 2018-10-09 | Honeywell International Inc. | Intent managing system |
US9886958B2 (en) | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
CN106375830A (zh) * | 2016-09-21 | 2017-02-01 | 杭州当虹科技有限公司 | 虚拟现实视频上叠加跟随视角的图文和视频内容的方法 |
JP6434476B2 (ja) * | 2016-12-06 | 2018-12-05 | ファナック株式会社 | 拡張現実シミュレーション装置及び拡張現実シミュレーションプログラム |
US20190246071A1 (en) * | 2018-02-07 | 2019-08-08 | Osram Sylvania Inc. | Building Monitoring System |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04372012A (ja) * | 1991-06-20 | 1992-12-25 | Fuji Xerox Co Ltd | 入力装置 |
WO1993014454A1 (en) * | 1992-01-10 | 1993-07-22 | Foster-Miller, Inc. | A sensory integrated data interface |
FR2696258B1 (fr) * | 1992-09-25 | 1994-10-28 | Sextant Avionique | Dispositif de gestion d'un système d'interaction homme-machine. |
DE4306508A1 (de) | 1993-03-03 | 1994-09-08 | Philips Patentverwaltung | Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal |
DE4307590C2 (de) | 1993-03-10 | 2002-03-07 | Wuermseher Jun | Vorrichtung zur visuellen Kontrolle eines Prüflings |
JP3530591B2 (ja) * | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
ES2151016T3 (es) * | 1994-12-23 | 2000-12-16 | Siemens Ag | Procedimiento para la conversion de informaciones introducidas por voz en datos legibles por maquina. |
US5864815A (en) * | 1995-07-31 | 1999-01-26 | Microsoft Corporation | Method and system for displaying speech recognition status information in a visual notification area |
JPH0981309A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 入力装置 |
US5912721A (en) * | 1996-03-13 | 1999-06-15 | Kabushiki Kaisha Toshiba | Gaze detection apparatus and its method as well as information display apparatus |
US6847336B1 (en) * | 1996-10-02 | 2005-01-25 | Jerome H. Lemelson | Selectively controllable heads-up display system |
US6351273B1 (en) * | 1997-04-30 | 2002-02-26 | Jerome H. Lemelson | System and methods for controlling automatic scrolling of information on a display or screen |
DE19731303B4 (de) | 1997-07-13 | 2009-02-26 | Smi Senso Motoric Instruments Gmbh | Verfahren und Vorrichtung zum kontaktlosen, helmfreien Messen der Blickrichtung von Augen bei Kopf- und Augenbewegungen |
US6243683B1 (en) * | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
-
2001
- 2001-01-15 ES ES01907355T patent/ES2231448T3/es not_active Expired - Lifetime
- 2001-01-15 DE DE50104533T patent/DE50104533D1/de not_active Expired - Lifetime
- 2001-01-15 EP EP01907355A patent/EP1250701B1/de not_active Expired - Lifetime
- 2001-01-15 AT AT01907355T patent/ATE282880T1/de not_active IP Right Cessation
- 2001-01-15 WO PCT/DE2001/000137 patent/WO2001056017A1/de active IP Right Grant
-
2002
- 2002-07-29 US US10/206,202 patent/US6853972B2/en not_active Expired - Lifetime
-
2005
- 2005-01-03 US US11/026,033 patent/US7340399B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20030040914A1 (en) | 2003-02-27 |
US6853972B2 (en) | 2005-02-08 |
WO2001056017A1 (de) | 2001-08-02 |
DE50104533D1 (de) | 2004-12-23 |
EP1250701B1 (de) | 2004-11-17 |
EP1250701A1 (de) | 2002-10-23 |
ATE282880T1 (de) | 2004-12-15 |
US20050177375A1 (en) | 2005-08-11 |
US7340399B2 (en) | 2008-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2231448T3 (es) | Sistema y procedimiento para el procesamiento de voz enfocado a la vision. | |
ES2243451T3 (es) | Sistema y procedimiento para el procesamiento de voz enfocado a la vision con generacion de una señal de reaccion visual. | |
JP2009505219A (ja) | ユーザに情報を配信する方法およびシステム | |
JP2018043307A (ja) | ロボット制御部と通信する教示操作盤を備えたロボットシステム | |
JP5359661B2 (ja) | 安全管理システム、安全管理装置、安全管理方法、及びプログラム | |
US11854379B2 (en) | Method, device, and computer-readable medium for mobile device management of collaborative industrial robot | |
KR20180033185A (ko) | 이어셋 및 그 제어 방법 | |
US10133900B2 (en) | Controlling the output of contextual information using a computing device | |
JP2016091165A (ja) | 装置及びプログラム | |
CN105258703A (zh) | 一种导航提醒方法、装置及系统 | |
KR20160136591A (ko) | 차량 단말 및 웨어러블 기기 간 연동 장치 및 차량 단말 및 웨어러블 기기 간 연동 방법 | |
JP2020149139A (ja) | 作業支援システム、作業支援方法、及びプログラム | |
JP2022153363A (ja) | サーバ装置及び情報処理方法並びにサーバプログラム | |
KR101798515B1 (ko) | 차량에서 웨어러블 기기를 이용한 길안내 방법 및 이를 수행하는 차량 | |
JP2019114335A (ja) | 設定機、照明システム、照明器具の通信設定方法およびプログラム | |
JP2016008017A (ja) | 装置及びプログラム | |
JP2015046669A (ja) | 携帯端末装置 | |
US11184475B2 (en) | Mobile apparatus, terminal apparatus, information processing system, information processing method, program for mobile apparatus, and program for terminal apparatus | |
JP2016010126A (ja) | 装置及びプログラム | |
JP7075375B2 (ja) | 安全確認支援システム及び方法 | |
KR20100083371A (ko) | 길 안내 방법 및 그를 수행하는 시스템 | |
JP7227434B1 (ja) | 有線通信及び無線通信を用いた機械操作システム、その方法、制御装置、及びコンピュータプログラム | |
JP7081841B2 (ja) | 装置及びプログラム | |
KR20110133342A (ko) | 시각장애인을 위한 공공 시설물의 정보를 제공하는 장치 및 사용자 단말기 | |
JP2020027672A (ja) | 装置及びプログラム |