ES2795016T3

ES2795016T3 - Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición

Info

Publication number: ES2795016T3
Application number: ES17703733T
Authority: ES
Inventors: Christophe Guedon
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-02-05
Filing date: 2017-02-06
Publication date: 2020-11-20
Anticipated expiration: 2037-02-06
Also published as: FR3047628B1; WO2017134300A1; EP3412036B1; EP3412036A1; FR3047628A1

Abstract

Procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores (1), susceptible de pertenecer cada uno a por lo menos un grupo de conversación, para una persona con problemas de audición (2) provista de un equipo informático (3), estando dicho equipo informático vinculado a por lo menos un módulo de emisión de voz (4) constituido por unos altavoces directivos, a por lo menos un dispositivo de visualización (5), a por lo menos un módulo de conversión (6) de señales de voz en señales de texto, a por lo menos un sistema de detección de actividad vocal (7) y a por lo menos un dispositivo de localización, comprendiendo dicho procedimiento las etapas siguientes, realizadas por dicho equipo informático: - adquisición (E1) de una señal representativa de una actividad vocal de un primer interlocutor de entre la pluralidad de interlocutores, con la ayuda de dicho sistema de detección de actividad vocal (7), - adquisición (E2) de una señal que caracteriza un comportamiento de un segundo interlocutor de entre la pluralidad de interlocutores en reacción a dicha actividad vocal de dicho primer interlocutor, - determinación (E3) de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación, denominado primer grupo de conversación, en función de las señales adquiridas para el primer interlocutor y el segundo interlocutor, - selección (E4) del primer grupo de conversación de entre dichos grupos de conversación, caracterizado por que el equipo informático realiza las etapas siguientes: - determinación (E5) de un modo de reproducción vocal para dicho primer grupo de conversación seleccionado, - cuando el modo de reproducción vocal ha sido determinado para el primer grupo de conversación: transmisión (E6) al módulo de emisión de voz (4), de señales de voz adquiridas para los interlocutores que pertenecen al primer grupo de conversación seleccionado, para la emisión de dichas señales de voz, comprendiendo la etapa de transmisión además: - localización de la persona con problemas de audición por el sistema de localización, - determinación por el módulo de emisión (4) de por lo menos una zona de emisión de las señales de voz cerca de la localización de la persona con problemas de audición, de entre una pluralidad de zonas de emisión, estando una zona de emisión asociada a por lo menos un altavoz, - asignación de por lo menos una zona de emisión, de entre las zonas determinadas, a la persona con problemas de audición (2) por el módulo de emisión (4), y - emisión de las señales de voz en dicha zona.

Description

DESCRIPCIÓN

Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición Campo técnico general

La invención tiene por objeto el campo de la asistencia a las personas con problemas de audición, y se refiere de manera más precisa a un procedimiento de asistencia en el seguimiento por una persona con problemas de audición de una conversación con unos interlocutores que participan en diferentes conversaciones.

Estado de la técnica

Las personas con problemas de audición están equipadas generalmente con prótesis auditivas que realizan una amplificación de los sonidos con el fin de compensar sus dificultades de audición.

Unas prótesis de este tipo están bien adaptadas al seguimiento de una conversación con un número restringido de interlocutores en un entorno silencioso pero una persona con problemas de audición puede continuar teniendo problemas para seguir una conversación, a pesar de la utilización de este tipo de prótesis, en un entorno en el que se pueden superponer a la conversación numerosos ruidos parásitos. Este tipo de situación puede presentarse cuando la conversación tiene lugar en un entorno ruidoso, por ejemplo en la calle o en una sala en la que numerosas personas hablan de manera simultánea, tal como una cafetería.

Algunos sistemas de ayuda a las personas con dificultades de audición existentes permiten que una persona con dificultades de audición seleccione unos interlocutores de su elección con el fin de que sólo las palabras de estos interlocutores le sean devueltas, en forma vocal amplificada o textual, por ejemplo, como se describe en el documento US2013/144622. La persona con dificultades de audición puede así focalizar sobre una conversación en curso e ignorar las frases de las personas de su entorno que participan en otras conversaciones que no desea seguir.

Dichos sistemas adolecen no obstante del defecto de requerir una selección manual de los interlocutores que deben ser seguidos o ignorados. Dicho defecto puede resultar particularmente molesto en el caso en el que entran regularmente nuevos interlocutores en la conversación, o por el contrario la dejan, o también en el caso de interlocutores que participan en varias conversaciones al mismo tiempo.

Si desea poder continuar siguiendo únicamente una sola conversación y comprender las frases de todos los interlocutores que participan en esta conversación, pero únicamente sus frases relativas a esta conversación, una persona con dificultades de audición que utiliza un sistema existente deberá entonces corregir regularmente la selección de los interlocutores que deben ser seguidos con el fin de excluir los interlocutores que participan, incluso temporalmente, en otra conversación, y de incluir los interlocutores que entran, eventualmente de nuevo, en la conversación. Dicha corrección regular de selección puede resultar fastidiosa debido a la atención y a los esfuerzos requeridos, y puede incluso impedir que la persona con dificultades de audición comprenda todas las frases de la conversación y que participe ella misma.

Existe por lo tanto una necesidad de un procedimiento de asistencia en la conversación para una persona con dificultades de audición que permita que ésta siga eficazmente una conversación en curso incluso cuando los interlocutores que participan en esta conversación cambian regularmente y/o participan en otras conversaciones, sin requerir de la persona con dificultades de audición una atención o un esfuerzo importante para la realización de dicho procedimiento.

Presentación de la invención

La presente invención se refiere así según un primer aspecto a un procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores, susceptible cada uno de pertenecer a por lo menos un grupo de conversación, para una persona con problemas de audición provista de un equipo informático, estando dicho equipo informático vinculado a por lo menos un módulo de emisión de voz constituido por unos altavoces directivos, a por lo menos a un dispositivo de visualización, a por lo menos un módulo de conversión de señales de voz en señales de texto, y a por lo menos un sistema de detección de actividad vocal, comprendiendo dicho procedimiento las etapas siguientes, realizadas por dicho equipo informático:

- adquisición de una señal representativa de una actividad vocal de un primer interlocutor de entre la pluralidad de interlocutores, con la ayuda de dicho sistema de detección de actividad vocal,

- adquisición de una señal que caracteriza un comportamiento de un segundo interlocutor de entre la pluralidad de interlocutores en reacción a dicha actividad vocal de dicho primer interlocutor,

- determinación de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación, denominado primer grupo de conversación, en función de las señales adquiridas para el primer interlocutor y el segundo interlocutor,

- selección del primer grupo de conversación de entre dichos grupos de conversación,

- determinación de un modo de reproducción vocal para dicho primer grupo de conversación seleccionado, - transmisión, al módulo de emisión de voz de señales de voz adquiridas para los interlocutores que pertenecen al primer grupo de conversación seleccionado, para la emisión de dichas señales de voz, comprendiendo además la etapa de transmisión:

- la localización de la persona con problemas de audición por el sistema de localización,

- la determinación mediante el módulo de emisión de por lo menos una zona de emisión de las señales de voz cerca de la localización de la persona con problemas de audición, de entre una pluralidad de zonas de emisión, estando una zona de emisión asociada a por lo menos un altavoz,

- la asignación de por lo menos una zona de emisión de entre las zonas determinadas previamente a la persona con problemas de audición por el módulo de emisión, y

- la emisión de las señales de voz en dicha zona.

Por otro lado, el procedimiento puede comprender las características siguientes:

- una zona de emisión es asignada a dicha persona con problemas de audición, si ésta no está previamente asignada a una segunda persona,

- la etapa de asignación por el módulo de emisión de por lo menos una zona de emisión comprende la asignación a dicha persona con problemas de audición de las zonas de emisión entre una primera zona asignada a dicha persona con problemas de audición y una segunda zona asignada a una segunda persona,

- dicho equipo informático está vinculado además a por lo menos un módulo de conversión de señales de voz en señales de texto, y realiza las etapas siguientes:

• cuando el modo de reproducción textual ha sido determinado para el primer grupo de conversación: mando de la visualización, en el dispositivo de visualización, de señales de texto obtenidas por conversión de señales de voz adquiridas para los interlocutores que pertenecen al primer grupo de conversación seleccionado, con la ayuda del módulo de conversión de señales.

- el dispositivo de visualización es un dispositivo de proyección 3D por holograma,

- estando el equipo informático de la persona con problemas de audición vinculado a una pluralidad de micrófonos geolocalizables configurados para capturar unas señales de voz, las etapas de adquisición comprenden una fase de calibración previa de cada micrófono de la pluralidad de micrófonos en función de una distancia y de una orientación con respecto a fuentes sonoras, y después en una etapa de adquisición, la selección de un micrófono en función de una orientación de la cara y/o de una localización de un interlocutor, y de la posición y de la orientación de los micrófonos.

En un primer modo de realización del procedimiento según el primer aspecto, estando dicho equipo informático vinculado además a por lo menos un sistema de detección de orientación facial, y a un equipo de sincronización configurado para determinar una correlación entre unas señales relativas a diferentes interlocutores:

- la etapa de adquisición de una señal representativa de una actividad vocal de un primer interlocutor comprende una determinación de una primera variante binaria representativa de una actividad vocal de dicho primer interlocutor,

- la etapa de adquisición de una señal que caracteriza un comportamiento de un segundo interlocutor comprende una determinación de una segunda variable binaria representativa de una detección de una orientación facial del segundo interlocutor en dirección al primer interlocutor con la ayuda del sistema de detección de orientación facial,

- la etapa de determinación de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación comprende una determinación de una correlación con la ayuda de dicho equipo de sincronización entre dichas primera y segunda variables.

En un segundo modo de realización del procedimiento según el primer aspecto, estando dicho equipo informático vinculado además a por lo menos un sistema de detección de la orientación de la mirada, y a un equipo de sincronización configurado para determinar una correlación entre unas señales relativas a diferentes interlocutores:

- la etapa de adquisición de una señal representativa de una actividad vocal de un primer interlocutor comprende una determinación de una primera variable binaria representativa de una actividad vocal de dicho primer interlocutor,

- la etapa de adquisición de una señal que caracteriza un comportamiento de un segundo interlocutor comprende una determinación de una tercera variable binaria representativa de una detección de una orientación de la mirada del segundo interlocutor en dirección al primer interlocutor con la ayuda del sistema de detección de orientación de mirada,

- la etapa de determinación de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación comprende una determinación de una correlación con la ayuda de dicho equipo de sincronización entre dichas primera y tercera variables.

En un tercer modo de realización del procedimiento según el primer aspecto:

- la etapa de adquisición de una señal que caracteriza un comportamiento de un segundo interlocutor comprende una determinación con la ayuda de dicho sistema de detección de actividad vocal de una actividad vocal del segundo interlocutor,

- la pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación se determina en función de un plazo entre un final de actividad vocal del primer interlocutor y un inicio de actividad vocal del segundo interlocutor.

En una variante de realización, estando el equipo informático de la persona con problemas de audición vinculado a un dispositivo de detección de movimientos de la persona con problemas de audición, las etapas de selección de un grupo de conversación y/o de determinación de un modo de reproducción se realizan en función de un movimiento de la persona con problemas de audición detectado por el dispositivo de detección de movimientos.

Por otro lado, una actividad vocal de un interlocutor se puede determinar por análisis espectral de primeras señales vocales adquiridas para dicho interlocutor o por reconocimiento de palabras aplicado a dichas primeras señales vocales o por detección de un movimiento labial de dicho interlocutor.

Según un segundo aspecto, la invención se refiere a un producto de programa de ordenador que comprende unas instrucciones de código para la ejecución de un procedimiento según el primer aspecto cuando este programa es ejecutado por un procesador.

Según un tercer aspecto, la invención se refiere a un equipo informático, para la asistencia en el seguimiento de una conversación con una pluralidad de interlocutores, para una persona con problemas de audición configurado para estar vinculado a por lo menos un módulo de emisión de voz, a por lo menos un dispositivo de visualización y a por lo menos un módulo de conversión de señales de voz en señales de texto y a por lo menos un sistema de detección de actividad vocal, estando dicho equipo informático configurado además para realizar las etapas del procedimiento según el primer aspecto.

Según un cuarto aspecto, la invención se refiere a un sistema de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas de audición que comprende: un equipo informático según el tercer aspecto y un sistema de detección de orientación facial y/o de mirada que comprende por lo menos una cámara estereoscópica configurada para detectar la orientación de la cara y/o de la mirada de un interlocutor.

Según un quinto aspecto, la invención se refiere a un sistema de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas de audición que comprende: un equipo informático según el tercer aspecto y un sistema de detección de orientación facial que comprende por lo menos un sistema de geolocalización y por lo menos un girómetro y/o un acelerómetro configurados para determinar la localización de un interlocutor y la orientación de su cara con respecto a los otros interlocutores.

Por otro lado, dicho sistema de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas de audición puede comprender un dispositivo de vibración configurado para indicar a la persona con problemas de audición la localización de un interlocutor.

Presentación de las figuras

Otras características y ventajas aparecerán con la lectura de la descripción siguiente de un modo de realización. Esta descripción se dará en referencia a los dibujos adjuntos, en los que:

- la figura 1 ilustra un ejemplo de arquitectura para la realización del procedimiento según un modo de realización;

- la figura 2 es un diagrama que esquematiza una realización de un procedimiento de asistencia en el seguimiento de una conversación según la invención.

Descripción detallada

En referencia a la figura 1, una realización para la invención se refiere a un procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores 1, para una persona con problemas de audición 2 provista de un equipo informático 3. Cada uno de estos interlocutores es susceptible de pertenecer a por lo menos un grupo de conversación.

Este procedimiento tiene como objetivo determinar automáticamente dichos grupos de conversación, que agrupan cada uno varios interlocutores que participan en una misma conversación. Tiene asimismo como objetivo permitir que la persona con problemas de audición seleccione uno o varios de estos grupos con el fin de que las conversaciones llevadas a cabo dentro de estos grupos le sean reproducidas, por ejemplo de manera vocal o de manera textual. La determinación automática de dichos grupos, y sobre todo su actualización, evita que la persona con problemas de audición deba seleccionar manualmente los interlocutores cuyas frases desea seguir y tener que actualizar constantemente esta selección en función de los interlocutores que entran o salen de una conversación.

Para ello, este equipo informático 3 es susceptible de ser vinculado a por lo menos un módulo de emisión de voz 4, tal como un altavoz o un casco de audio, a por lo menos un dispositivo de visualización 5 tal como una pantalla LCD, a por lo menos un módulo de conversión de señales de voz en señales de texto 6, y a por lo menos un sistema de detección de actividad vocal 7. El equipo informático 3 puede comprender un módulo de tratamiento 8 tal como un microprocesador, y una interfaz de introducción 9 que permite que la persona con problemas de audición 2 realice una selección o introduzca una orden. Según un modo de realización, la interfaz de introducción está incluida en el dispositivo de visualización 5 en forma de una pantalla táctil.

El equipo informático puede ser vinculado a estos elementos por una o varias interfaces de comunicación por cable (cable de audio coaxial, interfaz SPDIF/Toslink, conexión HDMI, VGA, Ethernet, etc.) o inalámbrica (Bluetooth, Wifi, etc.). Alternativamente, la totalidad o parte de estos elementos pueden estar incluidos en el propio equipo informático.

El equipo informático 3 puede consistir en un dispositivo portátil tal como un teléfono inteligente ("smartphone") o una tableta. Alternativamente, el equipo informático 3 puede estar integrado en unas gafas en forma de gafas de visualización de realidad aumentada. En este caso, las informaciones suministradas a la persona con problemas de audición 2 pueden ser visualizadas en los cristales de las gafas utilizadas como dispositivo de visualización 5. La persona con problemas de audición puede entonces ver al mismo tiempo las informaciones visualizadas y su entorno en transparencia. Según otra variante, el equipo informático 3 está compartido entre unas gafas utilizadas para la visualización y que llevan algunos sensores, y un dispositivo portátil que comprende la unidad de tratamiento, la interfaz de introducción y el resto de los elementos del equipo informático 3.

En una variante de realización, el dispositivo de visualización puede comprender un proyector capaz de proyectar las informaciones con destino a la persona con problemas de audición. Dicha proyección se puede realizar clásicamente en un soporte de proyección, tal como una pared o una pantalla, o también en 3D por ejemplo en forma de holograma. Un holograma 3D se puede realizar gracias a un láser infrarrojo pulsado, por ejemplo a 1 kHz, capaz de ionizar las moléculas de aire, siendo dicho láser acoplado a un escáner 3D con el fin de reflejar en el aire unas informaciones en unos puntos predeterminados. Dicha proyección, cuando tiene como objetivo visualizar un texto que corresponde a las frases de un interlocutor, puede proyectar este texto en un emplazamiento en el espacio alineado con la persona con problemas de audición y este interlocutor, de manera que se visualice en el campo de visión de la persona con problemas de audición cerca de este interlocutor.

Para determinar la pertenencia de los interlocutores a uno o varios grupos de conversación, la invención propone, cuando toma la palabra un primer interlocutor, analizar el comportamiento de los otros interlocutores para determinar si lo escuchan o si participan en una conversación con este primer interlocutor.

Sistema de detección de actividad vocal

El sistema de detección de actividad vocal 7 se puede utilizar para determinar una actividad vocal del primer interlocutor, es decir una participación en una conversación. Dicho sistema de detección de actividad vocal puede comprender uno o varios micrófonos para captar las voces de los interlocutores situados en el entorno de la persona con problemas de audición. Se entenderá por micrófono un módulo de adquisición de señales sonoras, sea cual sea la tecnología empleada para realizar dicha adquisición. Dicho micrófono puede ser direccional para reducir la captación de las voces de interlocutores no deseadas o del ruido, o bien bidireccional u omnidireccional con el fin de capturar el conjunto de un ambiente sonoro. Dichos micrófonos pueden ser instalados de manera fija, por ejemplo en una instalación de una sala de conferencias o de restaurante. Asimismo, pueden ser amovibles e instalados por la persona con problemas de audición, incluso enganchados a ésta, por ejemplo en la ropa, o también en el propio equipo. Alternativamente, dichos micrófonos pueden ser llevados por cada uno de los interlocutores, por ejemplo dentro de un dispositivo electrónico portátil llevado por cada uno de los interlocutores.

Las señales vocales capturadas por dichos micrófonos pueden ser objeto de un análisis espectral, por ejemplo mediante el sistema de detección de actividad vocal 7 o por el módulo de tratamiento 8 del equipo informático, con el fin de determinar si las señales analizadas son representativas de una voz humana, es decir si un interlocutor está hablando.

Alternativamente, un reconocimiento vocal, es decir un reconocimiento de palabras, puede ser aplicado a las señales vocales adquiridas, con el fin de intentar reconocer unas palabras de entre los sonidos emitidos por un interlocutor. Cuando dicho reconocimiento es positivo, el interlocutor que ha pronunciado estas palabras está entonces tomando parte de una conversación.

Alternativamente, el sistema de detección de actividad vocal 7 puede comprender una o varias cámaras de vídeo con el fin de detectar un movimiento labial del primer interlocutor, movimiento sinónimo de una toma de palabra. La detección de una actividad vocal del primer interlocutor se realiza entonces por detección de un movimiento labial de este interlocutor.

Sistema de detección de orientación facial

En un primer modo de realización, la invención propone detectar los interlocutores del primer interlocutor que ha tomado la palabra analizando la orientación de su cara. Cuando una persona toma la palabra, las personas que escuchan sus frases tienden en efecto a girarse naturalmente hacia ésta. El equipo informático está entonces vinculado a un sistema de detección de orientación facial 10. Por orientación facial se entiende la dirección perpendicular al plano facial y que pasa por el centro de ésta.

Dicho sistema de detección de orientación facial puede comprender por lo menos una cámara, particularmente una cámara estereoscópica, con el fin de detectar las variaciones de orientación de la cara de los interlocutores durante la discusión. Dicho sistema permite detectar la orientación de la cara de los interlocutores a distancia, de manera no intrusiva, y cubriendo un amplio campo, por lo tanto un gran número de interlocutores con una sola cámara.

Alternativamente, dicho sistema de detección de orientación facial puede comprender por lo menos un sensor configurado para detectar una variación angular de la cara (girómetro, acelerómetro, etc.), en particular por lo menos un girómetro y/o acelerómetro montado sobre cada interlocutor con el fin de captar sus movimientos y deducir de ellos la orientación de su cara. Dicha solución presenta la ventaja de ser más precisa ya que es insensible a las condiciones del entorno tales como la luminosidad ambiental, la presencia de obstáculos tales como muebles o cortinas, pero necesita equipar cada interlocutor. Según otra alternativa, dicho sistema de detección de orientación facial puede comprender un medio de reconstrucción en 3D de la cara, tal como un escáner 3D (LIDAR, RADAR, ultrasonido, etc.).

Con el fin de determinar la localización exacta hacia la cual un interlocutor está orientado para determinar si está girado en dirección a un interlocutor que está hablando, el sistema de detección de orientación facial puede comprender asimismo por lo menos un sistema de geolocalización con el fin de determinar la posición exacta de los interlocutores en el entorno de la persona con problemas de audición. Dicha geolocalización se puede realizar de manera absoluta con la ayuda de dispositivos de geolocalización externos tales como unos receptores GPS. Dicha geolocalización puede ser realizada asimismo con la ayuda de una instalación local. Por ejemplo, los interlocutores pueden llevar unos equipos que pueden ser posicionados por triangulación con respecto a los puntos de acceso de una red local inalámbrica a la cual están conectados, tal como una red Wifi. La geolocalización de un equipo puede ser realizada asimismo de manera relativa con respecto a otros objetos cuya posición absoluta es conocida. La posición de estos objetos puede ser registrada por ejemplo en una base de datos de coordenadas de objetos y el equipo que debe ser geolocalizado puede determinar su posición con respecto a estos objetos con la ayuda de un detector de tipo radar. Estos objetos pueden ser unos objetos conectados que revelan su identidad a través de una red inalámbrica. Según otra variante, cada elemento que debe ser geolocalizado está equipado con un dispositivo de detección de movimiento que puede comprender por ejemplo un acelerómetro de tres ejes y/o un girómetro de tres ejes y/o un giroscopio. Cuando tiene lugar una inicialización, la posición de cada elemento que debe ser geolocalizado con respecto a un punto de referencia puede ser registrada. La evolución de la posición de cada elemento con respecto a este punto de referencia puede ser seguida a continuación gracias a la detección de los movimientos de estos elementos por su dispositivo de detección de movimiento. La geolocalización a partir de una base de coordenadas de objetos o con la ayuda de un dispositivo de detección de movimiento puede permitir obtener una precisión de localización más importante que la obtenida por una localización GPS o Wifi.

Con el fin de determinar si un segundo interlocutor escucha a un primer interlocutor que está hablando, el equipo informático está vinculado a un equipo de sincronización 11 configurado para determinar una potencial correlación entre una señal representativa de una actividad vocal del primer interlocutor y una señal representativa de una orientación de la cara del segundo interlocutor en dirección al primer interlocutor. Dicha correlación indica en efecto que el segundo interlocutor gira la cabeza hacia el primer interlocutor cuando éste habla, y por lo tanto que estos dos interlocutores están en una misma conversación y deben pertenecer por lo tanto a un mismo grupo de conversación. Dicho equipo de sincronización puede ser un dispositivo autónomo dotado de una memoria, de medios de tratamientos y de una interfaz de comunicación para comunicarse con el equipo informático. Alternativamente, el equipo de sincronización puede ser confundido con el equipo informático y el módulo de tratamiento 8 de éste puede ser empleado para determinar dicha correlación.

Sistema de detección de orientación de la mirada

En un segundo modo de realización, más preciso que el primer modo de realización, la invención propone detectar los interlocutores del primer interlocutor que han tomado la palabra analizando la orientación de su mirada. Cuando una persona toma la palabra, las personas que escuchan sus frases, al no haber girado su cara hacia ésta, pueden por lo menos mirarla. Dicha situación puede presentarse particularmente cuando una persona tiene dos interlocutores situados enfrente de ella que se encuentran al mismo tiempo en su campo de visión. Esta persona puede entonces mirar alternativamente a cada uno de sus interlocutores, en función de sus tomas de palabra en la conversación, sin cambiar la orientación de su cara. El equipo informático está entonces vinculado a un sistema de detección de orientación de la mirada 12.

Dicho sistema de detección de orientación de la cara puede comprender un sistema que utiliza un procedimiento de oculometría ("eye-tracking") que permite seguir la orientación de la mirada de los interlocutores, por ejemplo una o varias cámaras, particularmente unas cámaras infrarrojas, utilizables para realizar dicho procedimiento de oculometría ("Eye-tracking'). Dichas cámaras pueden ser instaladas cerca de los interlocutores, particularmente en el marco de una instalación fija como la de una sala de conferencias, o también ser portadas por los propios interlocutores, estando por ejemplo integradas en un casco o unas gafas.

En este segundo modo de realización, el sistema de detección de orientación de la mirada puede comprender asimismo por lo menos un sistema de geolocalización similar al descrito en el marco del primer modo de realización con el fin de determinar la posición exacta de los interlocutores en el entorno de la persona con problemas de audición, para determinar si un segundo interlocutor mira en dirección a un primer interlocutor que está hablando.

En un segundo modo de realización, con el fin de determinar si un segundo interlocutor escucha a un primer interlocutor que está hablando, el equipo informático está vinculado asimismo a un equipo de sincronización 11 idéntico al descrito en el marco del primer modo de realización, y configurado para determinar una potencial correlación entre una señal representativa de una actividad vocal del primer interlocutor y una señal representativa de una orientación de la mirada del segundo interlocutor en dirección al primer interlocutor. Dicho equipo de sincronización puede ser un dispositivo autónomo dotado de una memoria, de medios de tratamiento y de una interfaz de comunicación para comunicarse con el equipo informático. Alternativamente, el equipo de sincronización puede estar confundido con el equipo informático y el módulo de tratamiento 8 de éste puede ser empleado para determinar dicha correlación.

Procedimiento

Más precisamente, las etapas descritas anteriormente pueden ser realizadas por el equipo informático.

En una primera etapa de adquisición E1, el equipo informático realiza la adquisición de una señal representativa de una actividad vocal de un primer interlocutor de entre la pluralidad de interlocutores con la ayuda del sistema de detección de actividad vocal 7. Esta señal le puede ser transmitida por el sistema de detección de actividad vocal descrito anteriormente.

En una segunda etapa de adquisición E2, el equipo informático realiza la adquisición de una señal que caracteriza un comportamiento de un segundo interlocutor de entre la pluralidad de interlocutores en reacción a dicha actividad vocal de dicho primer interlocutor.

En una etapa de determinación de grupo E3, el equipo informático determina la pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación, denominado primer grupo de conversación, en función de las señales adquiridas para el primer interlocutor y el segundo interlocutor. Para ello, el equipo informático puede determinar que dichas señales están correlacionadas.

Primer y segundo modos de realización

En los primer y segundo modos de realización que se basan respectivamente en el análisis de la orientación de la cara o de la mirada de los interlocutores, en la primera etapa de adquisición E1 de una señal representativa de una actividad vocal de un primer interlocutor, el equipo informático puede determinar una primera variante binaria representativa de una actividad vocal de dicho interlocutor. Esta variable binaria puede ser determinada por el equipo informático a partir de la señal representativa de una actividad vocal transmitida por el sistema de detección de actividad vocal 7 o ser transmitida por el sistema de detección de actividad vocal 7 directamente. Dicha variable puede así adoptar el valor de 1 cuando el primer interlocutor habla, y 0 cuando no habla.

En los primer y segundo modos de realización, en la segunda etapa de adquisición E2 de una señal que caracteriza un comportamiento de un segundo interlocutor, el equipo informático puede determinar una segunda variable representativa respectivamente de una detección de una orientación facial/de la mirada del segundo interlocutor en dirección al primer interlocutor con la ayuda del sistema de detección de orientación facial/de la mirada. Dicha detección se puede realizar verificando si un vector que tiene por origen la posición del segundo interlocutor y por dirección la orientación facial/de la mirada de éste está comprendido en un cono de revolución que tiene por eje una recta que une los centros de caras del primer y del segundo interlocutor, y que tiene un radio predeterminado en el plano del primer interlocutor. Dicho radio es representativo de un margen tolerable en cuanto a la orientación de una cara/mirada para considerar que está bien dirigido hacia el primer interlocutor, incluso si no es exactamente hacia el centro de la cara de éste.

En los primer y segundo modos de realización, en la etapa de determinación de grupo E3, el equipo informático determina una correlación con la ayuda de dicho equipo de sincronización entre dichas primera y segunda variables. El equipo de sincronización puede calcular una función de inter-correlación entre la primera y la segunda variable o un coeficiente de correlación de Pearson relativo a estas dos variables binarias, y comparar el resultado de dicho cálculo con un umbral predeterminado. Dicho umbral representa el nivel de correlación mínimo esperado para considerar que los movimientos de la cara/ mirada del segundo interlocutor están correlacionados con las tomas de palabra del primer interlocutor. Si se supera este umbral, los primer y segundo interlocutores con considerados entonces como participantes en una conversación común y deben formar parte entonces del mismo grupo de conversación.

Los primer y segundo modos de realización se pueden utilizar conjuntamente con el fin de determinar la pertenencia de dos interlocutores a un mismo grupo al mismo tiempo a partir de la orientación de la cara y de la mirada del segundo interlocutor.

Opcionalmente, es posible verificar asimismo la orientación de la cara/de la mirada del primer interlocutor y considerar que los primer y segundo interlocutores deben formar parte del mismo grupo de conversación sólo si la cara/la mirada del primer interlocutor está dirigida hacia el segundo interlocutor.

Tercer modo de realización

En un tercer modo de realización, la pertenencia de dos interlocutores a un mismo grupo de conversación se puede realizar analizando la sucesión de tomas de palabra entre estos interlocutores. En el marco de una conversación, unos interlocutores obedecen en efecto generalmente a un código de conducta según el cual los interlocutores no se cortan la palabra pero toman la palabra bastante rápidamente cuando un interlocutor deja de hablar. Por lo tanto, es posible determinar que un segundo interlocutor responde a un primer interlocutor cuando el segundo interlocutor toma la palabra en un plazo no nulo, pero inferior a un umbral predefinido después de que el primer interlocutor ha terminado de hablar.

En la segunda etapa de adquisición E2 de una señal que caracteriza un comportamiento de un segundo interlocutor, el equipo informático puede entonces determinar con la ayuda de dicho sistema de detección de actividad vocal, una actividad vocal del segundo interlocutor. Las dos etapas de adquisición E1 y E2 se realizan entonces de manera similar, respectivamente para el primer y el segundo interlocutor, y de manera similar a la realización de la primera etapa de adquisición en el marco del primer o del segundo modo de realización.

En la etapa de determinación de grupo E3, la pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación se determina entonces en función de un plazo entre un final de actividad vocal del primer interlocutor y un inicio de actividad vocal del segundo interlocutor.

Es posible que un interlocutor que no está en conversación con el primer interlocutor tome la palabra en el marco de una segunda conversación justo después de que el primer interlocutor haya terminado de hablar en el marco de una primera conversación. Con el fin de evitar que estos dos interlocutores sean considerados erróneamente como pertenecientes al mismo grupo de conversación, es posible analizar las tomas de palabra de los interlocutores durante un tiempo relativamente extendido suficiente para cubrir varios intercambios dentro de una misma conversación, y considerar como perteneciente a un mismo grupo de conversación únicamente los interlocutores que han cedido la palabra más frecuentemente, o un número de veces superior a un umbral predeterminado.

Cuarto modo de realización

En un cuarto modo de realización, la pertenencia de dos interlocutores a un mismo grupo de conversación se puede realizar analizando el campo léxico de cada interlocutor. Si dos interlocutores pertenecen al mismo grupo de conversación, sus frases respectivas tendrán en efecto el mismo campo léxico. Podrán entonces emplear en particular las mismas palabras discriminantes. Se entenderá por "palabra discriminante" una palabra que pertenece a un vocabulario específico, es decir que no pertenece a un vocabulario muy corriente o común a unos locutores que pertenecen a unos grupos de conversación diferentes. Se puede realizar una fase de calibración con el fin de determinar dicho vocabulario no discriminante que podrá ser excluido en la determinación de los campos léxicos de los interlocutores.

En este modo de realización, la etapa de adquisición E1 de una señal representativa de una actividad vocal de un primer interlocutor y la etapa de adquisición E2 de una señal que caracteriza un comportamiento de un segundo interlocutor pueden comprender entonces una determinación con la ayuda de un sistema de reconocimiento vocal de palabras discriminantes empleadas por el interlocutor; y la etapa de determinación E3 de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación puede comprender una determinación de la utilización de palabras discriminantes idénticas o similares por estos interlocutores.

Este cuarto modo de realización se puede utilizar conjuntamente con los otros modos de realización detallados anteriormente con el fin de determinar la pertenencia de dos interlocutores a un mismo grupo.

Este cuarto modo de realización es particularmente interesante ya que no necesita ninguna cámara como los sistemas de detección de orientación de la cara/mirada de los primer y segundo modos de realización que son por ello sensibles a las condiciones del entorno tales como la luminosidad ambiental. Este modo permite compensar asimismo los fallos visuales de algunos interlocutores ya que no necesita ninguna detección de la orientación de la cara/de la mirada.

A final de la etapa de determinación E3, se determina que el primer y el segundo interlocutores deben pertenecer al mismo grupo de conversación:

- si ninguno de los dos interlocutores forma parte de un grupo de conversación, se crea dicho grupo y los dos interlocutores son añadidos al mismo,

- si uno de los dos interlocutores no forma parte de ningún grupo de conversación, puede ser añadido al grupo de conversación del otro interlocutor,

- si los primer y segundo interlocutores forman parte cada uno de un grupo de discusión diferente, estos grupos pueden ser fusionados.

A la inversa, si se determina que el segundo interlocutor ya no participa más en una conversación con el primer interlocutor, por ejemplo si ya no está girado o ya no mira al primer interlocutor, o también si no le ha contestado desde hace un cierto tiempo, el segundo interlocutor puede ser retirado del grupo de discusión que compartía con el primer interlocutor.

Las etapas descritas anteriormente se pueden realizar de manera repetida y aplicar al conjunto de los interlocutores en el entorno de la persona con problemas de audición, de manera que se actualicen regularmente los grupos de conversación determinados.

Existe un caso particular en el que un locutor forma parte de dos grupos de discusión distintos o más y toma la palabra alternativamente en varias conversaciones distintas. Dicha situación puede presentarse, por ejemplo, cuando un adulto que habla con otros adultos debe intervenir a intervalos regulares con sus hijos situados cerca pero que no participan en la conversación. La persona con problemas de audición puede entonces estar interesado solamente por las frases mantenidas por este locutor en una sola conversación, la conversación entre adultos en el ejemplo dado anteriormente, y no querer conocer las frases de este locutor en el marco de la otra conversación, por ejemplo las frases dirigidas a los niños.

Cuando dicho interlocutor toma la palabra, el procedimiento puede comprender una verificación de la orientación de la cara o de la mirada del locutor con el fin de determinar a qué grupo se dirige este locutor. El locutor es entonces considerado temporalmente como que pertenece sólo al grupo de discusión al que se dirige, de manera que sus frases no se apliquen al otro grupo. Así, en el ejemplo dado anteriormente, cuando el adulto se dirige a sus hijos mirándoles, se considera como que pertenece solamente al grupo de discusión formado con sus hijos. Así, sus frases a los hijos no serán comunicadas a una persona con problemas de audición que pertenece al grupo de conversación de los adultos.

Con el fin de asociar un interlocutor a un grupo de conversación, es decir a una conversación en particular, la identidad de este interlocutor debe ser memorizada. Si cada interlocutor dispone de un micrófono, puede ser identificado por un identificador del equipo que realiza la adquisición de sus frases. Dicho identificador puede ser arbitrario o bien corresponder a un parámetro tal como una dirección IP Alternativamente, el equipo informático 3 se puede unir a una base de datos de firmas vocales de interlocutores y el equipo informático de la persona con problemas de audición 3 puede comprender un módulo de reconocimiento vocal. El interlocutor puede ser identificado por la memorización de una huella vocal. Así, cuando un interlocutor cuya huella vocal ha sido memorizada recupera la palabra, su voz puede ser identificada y las frases captadas pueden ser relacionadas con este interlocutor. Dicha base de datos de firmas vocales puede asociar asimismo a cada firma vocal un dato de identidad del interlocutor correspondiente tal como su nombre. Alternativamente, el equipo informático puede estar vinculado a una cámara y a una base de datos de reconocimiento facial. Cada interlocutor puede entonces ser identificado visualmente por comparación de una imagen de la cara del interlocutor tomada por la cámara con unas imágenes de referencia registradas en la base de datos de reconocimiento facial.

Al final de la etapa de determinación E3, los interlocutores identificados que han tomado la palabra durante un tiempo pasado predeterminado pueden ser visualizados sobre el dispositivo de visualización en forma de lista o de imagen con una indicación del o de los grupos de conversación a los que pertenece cada interlocutor.

La persona con problemas de audición que desea seguir una conversación con un primer grupo de conversación, puede a continuación, en una etapa de selección de grupo E4, seleccionar este primer grupo de conversación de entre los grupos de conversación así determinados.

La persona con problemas de audición determina a continuación si desea que el conjunto de las diferentes intervenciones de cada uno de los interlocutores de este primer grupo de conversaciones le sean reproducidas en forma de texto o de voz. Para ello, determina un modo de reproducción vocal o textual para dicho primer grupo de conversación seleccionado en una etapa de determinación de modo reproducción E5.

En una variante de realización, estando el equipo informático 3 de la persona con problemas de audición vinculado a un dispositivo de detección de movimientos 13 de la persona con problemas de audición 2, las etapas de selección de un grupo de conversación y/o de determinación de un modo de reproducción se llevan a cabo en función de un movimiento de la persona con problemas de audición detectado por el dispositivo de detección de movimientos.

En esta variante de realización, el equipo informático puede estar vinculado a un dispositivo de reconocimiento gestual configurado para reconocer ciertos gestos de la persona con problemas de audición y a una base de datos que almacena en correspondencia con cada uno de estos gestos, en función eventualmente del interlocutor, la selección o no de un grupo de conversación o el modo de reproducción asociado.

Según otra variante de realización, el equipo informático de la persona con problemas de audición 3 puede comprender un módulo de reconocimiento vocal 14. Se puede realizar entonces una etapa de recepción de una orden vocal de la persona con problemas de audición 2 relativa a un grupo o un modo de reproducción que debe ser seleccionado en función de dicha orden vocal, estando el módulo de reconocimiento vocal 14 configurado entonces para analizar dicha orden vocal. La persona con problemas de audición puede así interactuar vocalmente con el equipo informático 3 para mandar la selección de un grupo o de un modo de reproducción particular. El reconocimiento por el equipo informático 3 de una orden vocal emitida por la persona con problemas de audición puede ser efectivo sólo si la persona con problemas de audición ha efectuado previamente una acción particular, como realizar un movimiento particular o pulsar un botón de interfaz, o mientras que la persona con problemas de audición efectúa dicha acción.

Alternativamente, la persona con problemas de audición puede interactuar con el equipo informático 3 por el pensamiento. El equipo informático puede, por ejemplo, estar vinculado a un casco neuronal colocado sobre el cráneo de la persona con problemas de audición y configurado para realizar un electroencefalograma de ésta. El usuario puede así someter al equipo informático a unos mandos por el pensamiento, por ejemplo unas órdenes sencillas tales como la selección de un grupo particular. La persona con problemas de audición puede así interactuar con su equipo informático sin utilizar sus manos y sin molestar a las personas de su entorno como podría hacerlo una orden vocal.

Después, cuando se ha determinado el modo de reproducción vocal para el primer grupo de conversación: en una etapa de transmisión de señales de voz E6, el equipo informático transmite unas señales de voz adquiridas para los interlocutores que pertenecen a este primer grupo de conversación al módulo de emisión de voz 4, para que este último emita estas señales de voz. La persona con problemas de audición selecciona así las conversaciones que desea escuchar en forma vocal.

Los módulos de emisión de voz son unos altavoces directivos. Dichos altavoces pueden, por ejemplo, estar dispuestos en el local en el que se encuentra la persona con problemas de audición así como sus interlocutores de manera que se forme un mallado que permite emitir un sonido de manera directiva a una persona esté donde esté situada en el conjunto del local. Esta red de altavoces puede, por ejemplo, estar fijada en el techo del local.

Siendo conocida la posición de cada altavoz y pudiendo la persona con problemas de audición ser localizada como se ha visto anteriormente, el equipo informático puede, cuando el modo de reproducción vocal ha sido determinado, transmitir las señales de voz adquiridas al altavoz más apropiado para la emisión de las señales de voz hacia la persona con problemas de audición. Dicha realización permite así que la persona con problemas de audición no tenga que proveerse de casco o de auriculares. Esta forma de realización puede ser utilizada también por personas sin problemas de audición, con el fin de personalizar su entorno sonoro de manera que les aporte un mejor bienestar auditivo.

Los altavoces directivos pueden utilizar la tecnología de los ultrasonidos para producir un haz cónico que dirige el haz de señales de voz hacia una única persona. Un haz cónico presenta, por ejemplo, un diámetro de 25 a 60 cm para una altura de 1m50. El mallado compuesto por una pluralidad de células, puede comprender en cada célula por lo menos un altavoz directivo. La célula es, por ejemplo, de una dimensión de 80x80 cm, estando las dimensiones adaptadas según las aplicaciones, los locales, etc. Una célula está asociada a una zona de emisión de las señales de voz. Dicha zona puede comprender una dimensión de 40 a 80 cm de diámetro, o de 10 a 40 cm en unos espacios más reducidos.

El mallado puede comprender asimismo unas células de tamaños diferentes. Así, en el caso de células que no se recubren, el mallado puede comprender entre dos células próximas, una zona de vacío, en la que no puede ser transmitida ninguna señal. En tal caso, se puede disponer por lo tanto una célula intermedia de tamaño más reducido, que permite reducir en gran medida las zonas blancas de transmisión, y asegurar así un bienestar de escucha a una persona seguida. El tamaño de los altavoces puede ser variable asimismo según el tamaño de las células.

Una célula puede comprender asimismo una pluralidad de micrófonos geolocalizables para capturar las señales de voz, y por lo menos una cámara configurada para seguir el desplazamiento de una persona dentro de la célula, que permite que el módulo de emisión de voz 4, realice el seguimiento de una persona, tal como una persona con problemas de audición. Así, los altavoces pueden estar adaptados para dirigir el haz de señales de voz hacia una persona que se desplaza dentro de la célula, por ejemplo por redirección de las ondas emitidas o por un dispositivo móvil, pudiendo los altavoces estar fijados sobre unas torrecillas motorizadas.

El módulo de emisión de voz 4 permite también el seguimiento de una persona que se desplaza dentro de diferentes células. Así, en el caso en el que una persona seguida salga de la célula en la que le son trasmitidas unas señales de voz, el módulo determina una dirección de desplazamiento de dicha persona y determina la futura célula en la que se encuentra la persona seguida. Si la célula futura está libre, es decir si ninguna otra persona es seguida en esta segunda célula, las señales de voz son trasmitidas a la persona seguida cuando el usuario se encuentra en ella. Este último se beneficia por lo tanto de un seguimiento fluido de la conversación en estos desplazamientos, restringiendo al mismo tiempo el alcance de las señales de voz emitidas. Las perturbaciones sonoras sobre la proximidad de la persona seguida son por lo tanto muy moderadas.

En un modo de realización, el cambio de las señales de voz de una célula a otra se realiza únicamente cuando ningún locutor del grupo de conversación de la persona seguida habla.

En otro modo de realización, el módulo de emisión de voz 4 puede ser configurado con unas reglas de prioridad para algunas personas seguidas. Así, para una persona denominada prioritaria, el módulo puede transmitir asimismo las señales de voz sobre las células libres alrededor de dicha persona. Por ejemplo, las señales pueden ser transmitidas sobre la célula de una persona prioritaria y sobre las células libres directamente próximas a ésta. En otro ejemplo, las señales son emitidas sobre todas las células libres, entre la célula de una persona prioritaria y una célula no libre. Estas reglas de prioridad permiten, por ejemplo, favorecer el seguimiento de la conversión para una persona con problemas de audición en el caso en el que las células son de dimensiones restringidas. Así, en esta configuración, adaptada para situaciones en las que las personas no están destinadas a ser móviles (por ejemplo: sala de reunión, restaurante, etc.), el módulo de emisión 4 permite a pesar de todo una libertad de movimiento.

En un modo de realización, una persona seguida puede ser localizada sobre diferentes células y el módulo de emisión 4 puede enviar las mismas señales al usuario sobre por lo menos dos células introduciendo un desfase entre las señales, por ejemplo con unas líneas de retraso. El desfase se calcula de manera que se retranscriba para el usuario una percepción del sonido en estéreo, que permite así una mejor localización del origen de las señales transmitidas.

Cuando el sistema de asistencia en el seguimiento de una conversación comprende una pluralidad de micrófonos geolocalizables, que pueden comprender una central inercial y que pueden ser unos objetos conectados a una red inalámbrica, la pluralidad de micrófonos permite capturar las señales de voz, una variante puede ser realizada para limitar los problemas relacionados con los fallos de estos micrófonos y capturar las señales de voz con la ayuda del micrófono más efectivo. Esta variante necesita una fase de calibración previa que permite determinar los rendimientos de cada micrófono de la pluralidad de micrófonos en función de su distancia y de su orientación frente al locutor. Estos rendimientos pueden ser determinados haciendo emitir unas palabras por un altavoz situado en diferentes posiciones con respecto al micrófono, aplicando un algoritmo de reconocimiento de palabra a las señales de voz capturadas por el micrófono, y después calculando un ratio de palabras reconocidas entre las palabras emitidas para cada una de estas posiciones. Después, en fase de funcionamiento, en función de la orientación de la cara y/o de la localización del interlocutor, y de la posición y de la orientación de los micrófonos, se selecciona el micrófono más eficaz para capturar las palabras de este interlocutor. La selección de un micrófono puede tener en cuenta asimismo un estado de este micrófono, por ejemplo un nivel de batería.

Sin embargo, cuando se ha determinado el modo de reproducción textual para el primer grupo de conversación: las señales de voz adquiridas para los interlocutores que pertenecen al primer grupo de conversación son convertidas en señales de texto por el módulo de conversión de señales 6 y transmitidas al equipo informático que manda a continuación su visualización en el dispositivo de visualización 5 en una etapa de mando de visualización E7. La persona con problemas de audición selecciona así las conversaciones de las cuales desea obtener una transcripción en forma textual, con el fin de poder seguirlas en segundo plano sin molestar su comprensión de la conversación seguida en forma oral.

Cuando cada interlocutor dispone de su propio micrófono, cada interlocutor puede disponer asimismo de un módulo de conversión de señales de voz en señales de texto. El procedimiento puede realizar una etapa de captura de señales de voz de cada interlocutor con la ayuda de su micrófono, una etapa de conversión de las señales de voz capturadas en señales de texto por su módulo de conversión, y una etapa de transmisión al equipo informático de la persona con problemas de audición de las señales de voz capturadas o de las señales de texto obtenidas en función del módulo de reproducción seleccionado.

Cuando la cantidad de señales de texto que debe ser visualizado en el dispositivo de visualización es importante, el equipo informático puede sustituir todo o parte del texto que debe ser visualizado mediante un resumen de éste. El texto puede ser resumido por unas frases simples o incluso por palabras aisladas que expresan unos conceptos. Dicha modificación del texto puede ser iniciada de manera manual por el usuario del equipo informático, para uno o varios de sus interlocutores, o bien de manera automática cuando la cantidad de texto que debe ser visualizado supera un umbral predeterminado. La visualización de un texto resumido puede permitir disminuir la fatiga de la persona con problemas de audición en conversaciones rápidas o con numerosos interlocutores durante las cuales puede ser difícil leer la totalidad de las frases durante largo tiempo.

En un modo de realización, la persona con problemas de audición puede seleccionar varios grupos de conversación al mismo tiempo. Puede seleccionar para cada uno de estos grupos, independientemente de los otros, el modo de reproducción vocal o el modo de reproducción textual y seguir así en paralelo varias conversaciones, algunas en forma vocal, otras en forma textual. A pesar de que el procedimiento tenga por objetivo una selección automática de los interlocutores a través de unos grupos de conversación, la persona con problemas de audición puede afinar manualmente esta selección añadiendo manualmente un interlocutor a un grupo de conversación, o bien retirándolo, o también pidiendo una reproducción de las frases de uno o varios interlocutores en función de sus grupos de conversación.

En algunas situaciones, la persona con problemas de audición puede estar implicada en una conversación con varios interlocutores que no pueden encontrarse todos simultáneamente en su campo de visión. Es por ejemplo el caso si la persona con problemas de audición está conversando en una mesa con interlocutores situados a su derecha y a su izquierda. Como las personas con problemas de audición compensan frecuentemente sus problemas de audición mediante unas informaciones visuales, tales como las expresiones faciales, es primordial para una persona con problemas de audición poder ver a sus interlocutores y poder sentir sus emociones. El equipo informático 3 puede estar vinculado a por lo menos una cámara que captura una imagen de uno o varios interlocutores de la persona con problemas de audición. Tras la selección de un grupo de conversación, el equipo informático 3 puede visualizar una imagen de los interlocutores que pertenecen a este grupo de conversación filmados por lo menos por una cámara y situados fuera del campo de visión de la persona con problemas de audición en una viñeta insertada en la imagen visualizada sobre dicho dispositivo de visualización 5. La persona con problemas de audición puede así percibir las informaciones visuales que emanen de estos interlocutores, aunque no se encuentren en su campo de visión. Con el fin de visualizar sólo la imagen de la cara de estos interlocutores, el equipo informático 3 puede comprender un sistema de reconocimiento de imagen o de tratamiento de imagen que aísla la cara de los interlocutores en las imágenes capturadas por lo menos por una cámara. Dicha visualización puede ser actualizada de manera dinámica con el fin de detectar los interlocutores que integran o que dejan el campo de visión de la persona con problemas de audición en función de los movimientos de éstos y de ésta. Las imágenes de los interlocutores visualizadas sobre el dispositivo de visualización 5 pueden ser actualizadas en función de esta detección para que la persona con problemas de audición pueda visualizar permanentemente una imagen del conjunto de estos interlocutores.

En una variante de realización, estando el equipo informático de la persona con problemas de audición vinculado a una base de datos que comprende múltiples expresiones de cada uno de los interlocutores y a un dispositivo de detección de cambio de expresión de la cara, el procedimiento puede visualizar sólo la cara de los interlocutores de la persona con problemas de audición fuera de su campo de visión y que cambian de expresión facial. La detección de dicho cambio de expresión puede estar acompañada por la emisión de una alarma, por ejemplo sonora, con el fin de atraer la atención de la persona con problemas de audición sobre este evento. La persona con problemas de audición puede ser prevenida asimismo de dicha detección por una vibración. Dicha vibración puede ser emitida por un vibrador conectado entre una pluralidad de dichos vibradores colocados en contacto con la piel de la persona con problemas de audición, por ejemplo integrados en sus prendas. El equipo informático puede seleccionar el vibrador que debe hacer vibrar de manera que se inicie la vibración del vibrador posicionado en el cuerpo de la persona con problemas de audición en la dirección del interlocutor que ha cambiado de expresión. Por ejemplo, si este interlocutor está posicionado a la izquierda de la persona con problemas de audición, el equipo informático puede hacer vibrar un vibrador posicionado sobre el brazo izquierdo o el flanco izquierdo de la persona con problemas de audición. Ésta es así avisada de la dirección en la que debe girarse para ver a la persona que ha cambiado de expresión.

En otro modo de realización, el dispositivo de vibración puede ser utilizado asimismo para indicar a la persona con problemas de audición la dirección de un interlocutor que está hablando. Los vibradores están conectados por ejemplo al equipo de sincronización 11. Asimismo, los vibradores pueden ser geolocalizados y comprender una central inercial.

Los vibradores pueden estar localizados con respecto a una central inercial local, que sirve para definir un referencial local, específico del portador del sensor, en referencia a una parte del cuerpo de dicho portador. Idealmente, esta parte está localizada en la base del cuello de éste. Esta central local puede servir para el calibrado de las centrales inerciales de los sensores.

Este referencial local está definido asimismo con respecto a un referencial global. Por ejemplo, en el caso de personas que se encuentran en un local, el referencial global será un referencial del local.

En otro modo de realización, los sensores comprenden unos emisores de ultrasonidos y emiten una secuencia predeterminada que los identifica. Unos sensores de ultrasonidos dispuestos sobre unos objetos específicos, preferentemente fijo, del cual se conoce la disposición en un referencial global, por ejemplo una silla, permiten conocer por triangulación la posición de los sensores en el referencial global.

Así, mediante el conocimiento preciso de la localización de los sensores, el equipo de sincronización puede seleccionar por lo tanto los vibradores que deben ser activados en referencia a otras personas presentes en la sala, por ejemplo con respecto a una persona que toma la palabra e identificada por un sistema de reconocimiento de imagen o de tratamiento de imagen del equipo informático 3.

El procedimiento puede, por otro lado, comprender una etapa inicial de calibración durante la cual unos interlocutores pueden ser registrados en el sistema. Dicho registro puede consistir en la memorización de un identificador del interlocutor, eventualmente su nombre, acompañado de una huella vocal y/o de una huella facial tal como una imagen 3D o una fotografía. Dicho registro puede comprender asimismo una serie de fotografías de la cara del interlocutor cuando éste forma diversos ángulos con respecto a una dirección de referencia. Dicha huella facial puede ser empleada a continuación por el sistema de detección de orientación de la cara para determinar la orientación de la cara del interlocutor con respecto a una dirección.

El equipo informático de la persona con problemas de audición 3 puede estar vinculado a una base de datos de conversación que almacena unos datos relativos a unas conversaciones pasadas seguidas por la persona con problemas de audición de manera vocal o textual. Dicha base de datos puede memorizar por ejemplo para estas conversaciones la identidad de los interlocutores identificados, las elecciones de selección realizadas por la persona con problemas de audición, datos de localización de la conversación, etc. A partir de estos datos, en una situación dada en la que la persona con problemas de audición está rodeada por diversos interlocutores, el equipo informático 3 puede preseleccionar automáticamente un grupo de conversación que comprende los interlocutores seleccionados con más frecuencia en el pasado por la persona con problemas de audición. El equipo informático 3 puede iniciar asimismo automáticamente la reproducción vocal, respectivamente la visualización en modo texto, de las palabras de los interlocutores presentes cuyo grupo ha sido seleccionado lo más frecuentemente en el pasado por la persona con problemas de audición para una reproducción vocal, respectivamente textual. Esto permite proponer automáticamente a la persona con problemas de audición las conversaciones más interesantes para ella. La selección de por lo menos un primer grupo para una reproducción vocal y/o de un segundo grupo para una reproducción textual se realiza así en función de preferencias y/o costumbres de la persona con problemas de audición. La actualización al final de cada conversación de la base de datos de conversación permite que el equipo informático 3 reaccione de manera personalizada por un aprendizaje basado en un análisis del comportamiento de la persona con problemas de audición.

El equipo informático 3 puede estar dotado de una función de registro de las conversaciones y puede proponer a la persona con problemas de audición una visualización del histórico de las conversaciones registradas. La persona con problemas de audición puede interactuar con el equipo informático 3 para examinar estos datos de histórico con la ayuda de botones de interfaz o a través de una pantalla táctil. En el caso de una visualización en 3D o de realidad aumentada, las señales de voz y texto adquiridas pueden ser escalonadas en el eje de la profundidad de la visualización en función de su fecha de adquisición. En el caso de un número significativo de interlocutores, dicha visualización, que combina una visualización según la profundidad para visualizar el histórico de las frases y una visualización en diferentes ángulos de visualización para diferenciar los interlocutores, asegura una mejor visibilidad de las conversaciones reproducidas.

La persona con problemas de audición puede seguir así eficazmente por lo menos una conversación en curso, incluso cuando los interlocutores que participan en estas conversaciones cambian regularmente y/o participan en otras conversaciones, sin tener que proporcionar una atención o un esfuerzo importante.

Claims

REIVINDICACIONES

1. Procedimiento de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores (1), susceptible de pertenecer cada uno a por lo menos un grupo de conversación, para una persona con problemas de audición (2) provista de un equipo informático (3),

estando dicho equipo informático vinculado a por lo menos un módulo de emisión de voz (4) constituido por unos altavoces directivos, a por lo menos un dispositivo de visualización (5), a por lo menos un módulo de conversión (6) de señales de voz en señales de texto, a por lo menos un sistema de detección de actividad vocal (7) y a por lo menos un dispositivo de localización,

comprendiendo dicho procedimiento las etapas siguientes, realizadas por dicho equipo informático:

- adquisición (E1) de una señal representativa de una actividad vocal de un primer interlocutor de entre la pluralidad de interlocutores, con la ayuda de dicho sistema de detección de actividad vocal (7),

- adquisición (E2) de una señal que caracteriza un comportamiento de un segundo interlocutor de entre la pluralidad de interlocutores en reacción a dicha actividad vocal de dicho primer interlocutor,

- determinación (E3) de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación, denominado primer grupo de conversación, en función de las señales adquiridas para el primer interlocutor y el segundo interlocutor,

- selección (E4) del primer grupo de conversación de entre dichos grupos de conversación, caracterizado por que el equipo informático realiza las etapas siguientes:

- determinación (E5) de un modo de reproducción vocal para dicho primer grupo de conversación seleccionado,

- cuando el modo de reproducción vocal ha sido determinado para el primer grupo de conversación: transmisión (E6) al módulo de emisión de voz (4), de señales de voz adquiridas para los interlocutores que pertenecen al primer grupo de conversación seleccionado, para la emisión de dichas señales de voz, comprendiendo la etapa de transmisión además:

- localización de la persona con problemas de audición por el sistema de localización,

- determinación por el módulo de emisión (4) de por lo menos una zona de emisión de las señales de voz cerca de la localización de la persona con problemas de audición, de entre una pluralidad de zonas de emisión, estando una zona de emisión asociada a por lo menos un altavoz,

- asignación de por lo menos una zona de emisión, de entre las zonas determinadas, a la persona con problemas de audición (2) por el módulo de emisión (4), y

- emisión de las señales de voz en dicha zona.

2. Procedimiento según una de las reivindicaciones anteriores, en el que una zona de emisión está asignada a dicha persona con problemas de audición (2), si no está asignada previamente a una segunda persona.

3. Procedimiento según la reivindicación anterior, en el que la etapa de asignación por el módulo de emisión (4) de por lo menos una zona de emisión, comprende la asignación a dicha persona con problemas de audición (2) de las zonas de emisión posicionadas entre una primera zona asignada a dicha persona con problemas de audición (2) y una segunda zona asignada a una segunda persona.

4. Procedimiento de asistencia en el seguimiento de una conversación según una de las reivindicaciones anteriores, en el que dicho equipo informático realiza las etapas siguientes:

- determinación (E5) de un modo de reproducción textual para dicho primer grupo de conversación seleccionado,

- cuando el modo de reproducción textual ha sido determinado para el primer grupo de conversación: mando de la visualización (E7), sobre el dispositivo de visualización, de señales de texto obtenidas por conversión de señales de voz adquiridas para los interlocutores que pertenecen al primer grupo de conversación seleccionado, con la ayuda del módulo de conversión (6) de señales.

5. Procedimiento de asistencia en el seguimiento de una conversación según una de las reivindicaciones anteriores, estando dicho equipo informático vinculado además a por lo menos un sistema de detección de orientación facial (10), y a un equipo de sincronización (11) configurado para determinar una correlación entre señales relativas a diferentes interlocutores,

en el que:

- la etapa de adquisición (E1) de una señal representativa de una actividad vocal de un primer interlocutor comprende una determinación de una primera variable binaria representativa de una actividad vocal de dicho primer interlocutor,

- la etapa de adquisición (E2) de una señal que caracteriza un comportamiento de un segundo interlocutor comprende una determinación de una segunda variable binaria representativa de una detección de una orientación de la cara del segundo interlocutor en dirección al primer interlocutor con la ayuda del sistema de detección de orientación facial,

- la etapa de determinación (E3) de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación comprende una determinación de una correlación con la ayuda de dicho equipo de sincronización entre dichas primera y segunda variables.

6. Procedimiento de asistencia en el seguimiento de una conversación según una de las reivindicaciones anteriores,

estando dicho equipo vinculado además a por lo menos un sistema de detección de orientación de la mirada (12), y a un equipo de sincronización (11) configurado para determinar una correlación entre unas señales relativas a diferentes interlocutores,

en el que:

- la etapa de adquisición (E2) de una señal que caracteriza un comportamiento de un segundo interlocutor comprende una determinación de una tercera variable binaria representativa de una detección de una orientación de la mirada del segundo interlocutor en dirección al primer interlocutor con la ayuda del sistema de detección de la orientación de la mirada,

- la etapa de determinación (E3) de una pertenencia del primer y del segundo interlocutor a un mismo grupo de conversación comprende una determinación de una correlación con la ayuda de dicho equipo de sincronización entre dichas primera y tercera variables.

7. Procedimiento de asistencia en el seguimiento de una conversación según una de las reivindicaciones anteriores, en el que:

- la etapa de adquisición (E2) de una señal que caracteriza un comportamiento de un segundo interlocutor comprende una determinación con la ayuda de dicho sistema de detección de actividad vocal de una actividad vocal del segundo interlocutor,

- la pertenencia (E3) del primer y del segundo interlocutor a un mismo grupo de conversación se determina en función de un plazo entre el final de actividad vocal del primer interlocutor y un inicio de actividad vocal del segundo interlocutor.

8. Producto de programa de ordenador que comprende unas instrucciones de código para la realización de un procedimiento según cualquiera de las reivindicaciones anteriores, cuando este programa es ejecutado por el equipo informático de la reivindicación 9.

9. Equipo informático (3), para la asistencia en el seguimiento de una conversación con una pluralidad de interlocutores (1), para una persona con problemas de audición (2) configurado para estar vinculado a por lo menos un módulo de emisión de voz (4), a por lo menos un dispositivo de visualización (5) y a por lo menos un módulo de conversión de señales de voz en señales de texto (6) y a por lo menos un sistema de detección de actividad vocal (7),

estando dicho equipo informático (3) configurado además para realizar las etapas del procedimiento según cualquiera de las reivindicaciones 1 a 8.

10. Sistema (14) de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas de audición (2) que comprende:

un equipo informático (3) según la reivindicación anterior, y

un sistema de detección de orientación facial (10) y/o de la mirada (12) que comprende por lo menos una cámara estereoscópica configurada para detectar la orientación de la cara y/o de la mirada de un interlocutor.

11. Sistema (14) de asistencia en el seguimiento de una conversación con una pluralidad de interlocutores para una persona con problemas de audición (2) que comprende:

un equipo informático (3) según la reivindicación 9, y

un sistema de detección de orientación facial (10) que comprende por lo menos un sistema de geolocalización y por lo menos un girómetro y/o acelerómetro configurados para determinar la localización de un interlocutor y la orientación de su cara con respecto a los otros interlocutores.