ES2973663A1

ES2973663A1 - Metodo y sistema para el reconocimiento de disfluencias atipicas en el habla tartamudeada de un usuario

Info

Publication number: ES2973663A1
Application number: ES202230905A
Authority: ES
Inventors: Frau Pedro Sabater; Pascual Silvia Santamaria
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2024-06-21

Abstract

La presente invención se refiere a un método para determinar disfluencias atípicas en el habla tartamudeada de un usuario. Comprende: recibir una entrada de voz (500) en un dispositivo electrónico; extraer un conjunto de características que comprende bloqueos, muletillas, prolongaciones, repeticiones o cambio de tono; recibir una entrada adicional con información biométrica del usuario; generar un vector de características con las características extraídas de la voz asociadas a la información biométrica; comparar el vector de características con una pluralidad de patrones de disfluencia almacenados previamente en una base de datos (530) de referencia del usuario; calcular una probabilidad de que el usuario sufra una disfluencia como resultado de la comparación; y determinar un tipo de disfluencia, reversible o irreversible, basada en la probabilidad calculada.

Description

DESCRIPCIÓN

MÉTODO Y SISTEMA PARA EL RECONOCIMIENTO DE DISFLUENCIAS ATÍPICAS

EN EL HABLA TARTAMUDEADA DE UN USUARIO

CAMPO TÉCNICO DE LA INVENCIÓN

La presente invención se refiere de forma general al campo técnico del tratamiento digital de voz y más específicamente, al procesamiento del habla y reconocimiento de voz de personas con trastornos en el habla, particularmente para el reconocimiento de disfluencias con características de tartamudez ,con el objetivo posterior de asistir al usuario facilitando la modificación de su tartamudez y la emisión de la palabra bloqueada, o proponiéndole otras opciones de comunicación en el caso de que no pueda por sí mismo decir la palabra tartamudeada.

ANTECEDENTES DE LA INVENCIÓN

La tartamudez es un complejo trastorno de la fluidez del habla de causa multifactorial, que se manifiesta con interrupciones involuntarias del flujo del habla. Estas disfluencias del habla muy frecuentemente van acompañadas de pensamientos y sentimientos negativos que pueden generar un gran impacto en la vida de la persona que tartamudea. Así pues, para comprender la tartamudez no solo hay que tener en cuenta los aspectos motores sino que también hay que contemplar su dimensión cognitiva y emocional.

En las disfluencias normales, se repiten las sílabas o las palabras una o dos veces, mientras que en las disfluencias atípicas, el número de repeticiones es mayor y suelen acompañarse de rasgos adicionales como una evidente tensión en la musculatura facial, especialmente alrededor de la boca.

Además pueden ir acompañadas de modificaciones de la voz por cambio de frecuencia o intensidad.

Con el aumento de la ansiedad que provocan en el hablante las disfluencias atípicas, aumenta la tensión muscular, la velocidad del habla. La componente motora de la tartamudez es aquella ocasionada por el aumento de la ansiedad del usuario, que a su vez aumentará la tensión muscular y la velocidad del habla. Algunas pruebas indican que pueden intervenir anomalías en el control motor del habla, como la coordinación temporal y sensorial, mientras que la componente emocional es aquella ligada a la psicología del usuario, a su autoestima y su estado mental. A menudo un usuario con tartamudez tiene lo denominado "ansiedad anticipatoria” lo que les provoca tartamudez antes de hablar o pronunciar unas determinadas silabas que el usuario sabe que tartamudeará. Todos estos parámetros hacen que la tartamudez sea más frecuente y severa.

El origen de la causa de las personas tartamudas es un problema del que existen diversas teorías, entre las que destacan las genéticas, neurológicas, psicolingüísticas y de desarrollo. Aparece en la infancia entre el tercer y quinto año. Al final, estadísticamente solo un 1% del global de niños con tartamudez lo mantendrá en edad adulta, mientras que una gran mayoría superan el trastorno en la adolescencia. El tartamudeo no distingue por clase social o raza, sin embargo, el 80% de la población que tartamudea son hombres, frente a un porcentaje aproximado 20% son mujeres.

Neuro fisiológicamente, la persona con discapacidad en el habla como la tartamudez tiene un funcionamiento menos eficiente de los centros del habla en el hemisferio izquierdo del cerebro. Un mecanismo en el hemisferio derecho intenta compensar esto. Su prevalencia se calcula en 7 por 1000, lo que significa que hay aproximadamente 40 millones de personas con tartamudez en el mundo.

Las personas con tartamudez no suelen aceptar su discapacidad. Intentan evitar situaciones difíciles mientras que la sociedad no sabe cómo lidiar con los tartamudos. Al mismo tiempo, la tartamudez genera ansiedad en las personas que la padecen, y eventualmente se convierte en una fobia social. Los tartamudos acostumbran a temer tartamudear frente al resto de personas, lo que a menudo provoca el aislamiento social de quienes tartamudean. Hablar en público en un auditorio o sala de congresos para un público plural, siempre ha resultado un tema imposible y/o tabú para personas que sufren tartamudez. Por tanto, las discapacidades en el habla tienen un impacto diario en la vida que afecta a la interacción social, afecta a la carrera profesional y los pacientes reciben a menudo situaciones de acoso o burla.

A veces el discurso y las manifestaciones lingüísticas típicas de las personas con tartamudez pueden parecer incoherentes por los comportamientos verbales secundarios, como son el: uso de "muletillas” verbales, evitaciones de palabras, circunloquios, lenguaje redundante, frases incompletas o, discurso incoherente. Las manifestaciones conductuales de personas que sufren tartamudez son el mutismo e inhibición temporales, ansiedad a la hora de comunicarse y logofobia o miedo a las palabras. Las manifestaciones corporales de personas que sufren tartamudez son tics, espasmos e hipertensión y respuestas psicogalvánicas (sudoración, palidez, etc.).

En la práctica, el gremio de logopedas, psicólogos y foniatras proporcionan técnicas al paciente tartamudo in situ a través de la visita del usuario a un centro médico o gabinete de logopedia a partir de una o unas pocas sesiones terapéuticas a la semana de duración limitada. Una vez el usuario ha finalizado la sesión, puede ejercitarse en modalidad desasistida u offline para practicar ejercicios del tipo: respiración, velocidad de habla o relajación. Sin embargo, los usuarios cuando se encuentran en proceso de habla en tiempo real no disponen de auto control y auto aprendizaje en el habla, para aplicar las técnicas practicadas con los profesionales médicos que les asisten en las sesiones de terapia. Además, gran parte de las sesiones no siempre son efectivas, dada la falta de algún tipo de soporte que acompañe al usuario cuando habla en tiempo real. En resumen, este tipo de terapias no son suficientes para hacer frente al desafío. Los ejercicios y la medicación solo tienen un resultado limitado y, en algunas ocasiones, la tartamudez cuando no es tratada adecuadamente y va complicándose en sus aspectos cognitivos y emocionales, puede desembocar en trastornos como fobia social, depresión o ansiedad.

Por otra parte, todos los días, personas realizan millones de llamadas aCall Centersde instituciones (como banca, administración, seguros u operadores de telecomunicaciones), siendo en muchos casos la única forma de contactar con ellos por medio de un asistente virtual automatizado con preguntas y respuestas deterministas, para interactuar de acuerdo a preguntas y la elección de opciones a través del teclado alfanumérico o en modo verbal. Las soluciones actuales utilizadas por la gran mayoría de instituciones son ineficientes y no están adaptadas a personas con discapacidad en el habla. De hecho la tendencia de futuro consistirá en asistentes de voz y/o texto tipo chatboat y/o avatar y/o operadores virtuales inteligentes basados en el reconocimiento de voz y procesamiento del lenguaje natural.

El estado de arte ofrece actualmente algunas aplicaciones para terminales móviles, tabletas, televisiones inteligentes "Smart TV” y/o ordenadores personales para poner en práctica a modo virtual las técnicas de habla, relajación, respiración, ritmo y velocidad en la pronunciación de palabras o lo equivalente a la terapia impartida en una o varias sesiones presenciales de logopedia. El problema es que estas soluciones son totalmente desasistidas. Están concebidas de un modo determinista y sin ningún dinamismo, por lo que son soluciones poco integrales, con apenas interacción y faltas de inteligencia, aprendizaje y adaptación al usuario.

En general, el estado del arte actual para ayudar a personas con tartamudez se basa en tecnología cerrada y específica a partir de dispositivos específicos de cada fabricante, entre ellos se conocen varios dispositivos electrónicos y aplicaciones móviles que ayudan a corregir los trastornos del habla en los pacientes, a través de técnicas denominadas DAF y FAF que han creado los programas "speech-coach" y "speech easy".

SpeechEasy es similar en apariencia a un audífono. Sin embargo, en lugar de amplificar el sonido, los sonidos SpeechEasy alteran los que pasan por el dispositivo para que escuche su voz en un tiempo de retardo leve y en un tono diferente. El propósito de la demora en el paso es volver a crear un fenómeno natural conocido como el «efecto de coro.» El efecto de coro se produce cuando el paciente tartamudo se anula drásticamente a la hora de hablar o cantar al unísono con los demás. Este efecto coral ha sido bien documentado durante décadas. . Específicamente,speech easyconsiste en “engañar” al cerebro del usuario haciéndole creer que la persona está hablando con alguien ya que, como se ha demostrado, en la mayoría de los casos las personas que tartamudean hablan con fluidez cuando están solas, y el problema solo surge cuando lo hacen en público, lo que se conoce como terapia de habla coral. Así, existen dispositivos, similares a los audífonos, denominados Retroalimentación Auditiva Retrasada (DAF) y Retroalimentación Alterada en Frecuencia (FAF), que, en el primer caso, ofrece al paciente un sonido con su propia voz ligeramente retardada, dándole la sensación de que está envuelto en una conversación múltiple. Quienes utilizan el sistema FAF, por su parte, consisten en modificar la frecuencia de la voz, de modo que el usuario perciba su voz con una modificación del tono, ayudándole a corregir sus defectos de comunicación.

SpeechCoach es una herramienta portatil de la fluidez del habla para ayudar a tratar a las personas que tartamudean. SpeechCoach utiliza la retroalimentación auditiva retardada (DAF) y Comentarios de frecuencia alterada (FAF) para emular los efectos de la voz coral. Durante años, el uso de la palabra coral ha demostrado ser una herramienta eficaz en la reducción de comportamientos de la tartamudez.

De acuerdo a todo lo anterior, la industria software de soluciones para personas con discapacidad en el habla echa en falta soluciones/aplicaciones específicas adaptadas al perfil del habla de la persona que sufre tartamudez, respaldando al usuario durante su discurso y adaptándose de manera dinámica a los diferentes tipos de disfluencia atípica, principalmente bloqueos, que pueden resultar en una interrupción de la comunicación.

DESCRIPCIÓN GENERAL DE LA INVENCIÓN

Con objeto de aportar una solución a la problemática citada anteriormente, la presente invención se refiere, en un primer aspecto, a un método implementado por ordenador para determinar una disfluencia atípica en el habla tartamudeada de un usuario recibida por un micrófono de un dispositivo electrónico, que puede ser fijo o portátil, con medios de procesamiento y acceso a una base de datos de referencia con información biométrica del usuario, donde el método comprende: recibir una primera entrada de voz del usuario por el micrófono del dispositivo; extraer un conjunto de características de la primera entrada de voz, que comprende al menos identificar muletillas, prolongaciones, repeticiones o cambio de tono; recibir al menos una segunda entrada con información biométrica del usuario a seleccionar entre: imagen labio facial, pulso cardíaco, humedad, temperatura, tensión laringe y vibraciones cuerdas vocales; generar un vector de características que comprende las características extraídas de la primera entrada de voz asociadas temporalmente con la información biométrica de la segunda entrada; comparar el vector de características generado con una pluralidad de patrones de disfluencias atípicas almacenados en la base de datos de referencia del usuario; calcular, por un módulo detector de disfluencias atípicas, una probabilidad de que el usuario sufra una disfluencia atípica como resultado de la comparación; y determinar un tipo de disfluencia atípica, bloqueo reversible o bloqueo irreversible, basado en la probabilidad calculada. Así, ventajosamente, el método se anticipa a una interrupción en la comunicación y puede sugerir, o incluso participar activamente, en las acciones de superar la disfluencia pertinentes para conseguir que la comunicación de la persona con tartamudez pueda continuar, evitando que sea interrumpida.

En una de las realizaciones, el método de la presente invención además comprende: transcribir, por un módulo de reconocimiento automático de voz, la primera entrada de voz a texto; y determinar, por un módulo predictor, un conjunto de posibles palabras a pronunciar por el usuario como continuación de la primera entrada de voz, basado en un registro histórico del usuario almacenado en la base de datos. Adicionalmente, una vez determinada una disfluencia atípica de tipo bloqueo irreversible para el usuario, en una de las realizaciones se contemplan los pasos de: mostrar el conjunto de posibles palabras a pronunciar por una pantalla del dispositivo; seleccionar, por el usuario interaccionando con la pantalla del dispositivo, una palabra del conjunto mostrado; y reproducir, por el dispositivo la palabra seleccionada por el usuario. Opcionalmente, en una de las realizaciones de la invención se contempla además almacenar estadísticamente en la base de datos de referencia las disfluencias identificadas para el usuario y las selecciones de palabra realizadas ante una disfluencia de tipo bloqueo irreversible.

De acuerdo a una de las realizaciones de la invención, una vez determinado una disfluencia de tipo bloqueo reversible para el usuario, se contempla generar, por un módulo de gestión de disfluencias, un mensaje de desbloqueo para el usuario con información para llevar a cabo una de las técnicas de fluidez almacenadas en la base de datos. En una realización específica de la presente invención, se contempla además convertir, por un módulo conversor de texto a voz, el mensaje de desbloqueo para el usuario a voz, reproducible por un altavoz del dispositivo. Opcionalmente, en caso de que el bloqueo reversible continúe, además se contempla generar un sonido de efecto coral para enmascarar la propia voz del usuario y ayudarle a superar el bloqueo.

En una de las realizaciones de la invención se contemplan los pasos de: determinar, para cada uno de los vectores de características generados, si la información que contienen es estadísticamente independiente de la información almacenada previamente en la base de datos; en caso afirmativo, almacenar la información en la base de datos en modo escritura/modificación; y en caso negativo, eliminar la información redundante.

En una de las realizaciones de la presente invención se contempla además traducir, por un módulo traductor, la primera entrada de voz a un idioma diferente.

La comparación del vector de características con la pluralidad de patrones de disfluencia y cálculo de probabilidad de disfluencia, de acuerdo a una de las realizaciones de la invención, se realiza por un módulo de inteligencia artificial con algoritmos de aprendizaje automático, profundo y reforzado implementados en una red neuronal.

La extracción del conjunto de características de la primera entrada de voz comprende, de acuerdo a una de las realizaciones de la invención, mapear la entrada de voz en un eje en el dominio tiempo/frecuencia.

En una de las realizaciones de la invención se contempla además entrenar un modelo de predicción de disfluencias a partir de la base de datos de referencia del usuario.

De acuerdo a una de las realizaciones de la invención, la base de datos se alimenta con los vectores de características generados en archivos CSV, etiquetados a partir de un contexto dado y que incluyen la siguiente información: marca temporal, voz, imagen, pulsaciones, conductancia, temperatura corporal, tensión laringe, vibraciones cuerdas vocales, direccionamiento en disco, tipo disfluencia, notificación/mensaje.

Un segundo aspecto de la invención se refiere a un sistema para determinar una disfluencia atípica en el habla tartamudeada de un usuario que comprende:

- un dispositivo electrónico, que puede ser fijo o portátil, que comprende: un micrófono configurado para recibir una primera entrada de voz del usuario; unos medios sensores biométricos configurados para recibir al menos una segunda entrada a seleccionar entre: imagen labio facial, pulso cardíaco, humedad y temperatura; unos medios de procesamiento configurados para extraer un conjunto de características de la primera entrada de voz, que comprende al menos identificar muletillas, prolongaciones, repeticiones o cambio de tono; y generar un vector de características que comprende las características extraídas de la primera entrada de voz asociadas temporalmente con la información biométrica de la segunda entrada;

- una base de datos de referencia con información biométrica del usuario; y

- un servidor central en la nube, en comunicación con el dispositivo y la base de datos, donde el servidor central está configurado para comparar el vector de características generado con una pluralidad de patrones de disfluencia almacenados en la base de datos de referencia del usuario; calcular una probabilidad de que el usuario sufra una disfluencia atípica como resultado de la comparación; y determinar un tipo de disfluencia atípica, bloqueo reversible o bloqueo irreversible, basado en la probabilidad calculada.

De acuerdo a una de las realizaciones de la invención, el dispositivo portátil se selecciona entre un teléfono móvil, una tableta electrónica, televisor inteligente o un terminal específico y los medios sensores biométricos comprenden al menos uno de los siguientes sensores: cámara de video, termómetro, pulsómetro, sensor de humedad o conductancia.

En una de las realizaciones de la invención se contempla adicionalmente un dispositivo electrónico auxiliar de sensado de tipo reloj inteligente.

En una de las realizaciones de la invención se contempla adicionalmente un dispositivo electrónico auxiliar de visualización que comprende unas lentes oculares.

En una de las realizaciones de la invención se contempla adicionalmente un dispositivo electrónico auxiliar con un sensor de tonos graves y agudos, configurado para obtener una estimación de frecuencia en Hz.

De acuerdo a una de las realizaciones de la invención, el servidor central está además configurado para establecer una conexión externa con un terminal remoto y accesible por personal sanitario, donde la conexión externa es una conexión segura.

Opcionalmente, una de las realizaciones de la invención contempla una red privada virtual configurada para securizar la comunicación entre el dispositivo y el servidor central.

En una de las realizaciones de la invención se contempla en la base de datos un sistema de acceso y búsqueda de información a través de la distancia entre vectores, basado en un conteo de desigualdades/igualdades entre 0 y 1, independientemente del tamaño de los vectores.

Opcionalmente, en una de las realizaciones de la invención, el servidor central puede incorporar un módulo de aprendizaje automatizado configurado para predecir la tensión de la laringe o la vibración de las cuerdas vocales, basado en técnicas de inteligencia artificial.

La base de datos de referencia con información biométrica del usuario comprende, de acuerdo a una de las realizaciones de la invención, una estructura de información almacenada de acuerdo a un modelo combinado de bases SQL y bases NoSQL.

Por tanto, de acuerdo a todo lo anterior, la presente invención asiste ventajosamente al usuario con tartamudez de manera específica y personalizada, adaptando su funcionamiento y operativa automáticamente a cada usuario. El usuario puede recibir feedback en tiempo real mientras está hablando o en diferido, de manera que, una vez identificada el tipo de disfluencia que está experimentando, el método ofrece pautas y/o guías a fin de dar continuidad en la fluidez del habla si se trata de una disfluencia identificada como potencialmente reversible; mientras que para aquellas disfluencias abruptas y potencialmente irreversibles el método dispone de su propia "válvula de escape” a partir de la traducción del mensaje a cualquier formato.

Se contempla además una aplicación (app) móvil desde un centro computacional en la nube. Lasappsson alimentadas en tiempo real por un repositorio de datos de biométricos de usuario, a partir de aprendizaje automático y profundo, con el objetivo de realizar reconocimiento de voz basado en inteligencia artificial (IA) y la extracción de patrones en el habla de los usuarios tartamudos.

El modo de funcionamiento de la invención tiene como punto de partida las características del perfil de habla, y/o manera y/o modos de comunicarse del usuario con tartamudez en formato estadístico por conteo (muletillas, prolongaciones, bloqueos, repeticiones o cambios de tono) las cuales se almacenan en formato digitalizado y estructurado en unas bases de datos "biométricas” personalizadas de usuario debidamente securizadas. En combinación con lo anterior, las características intrínsecas del habla en tiempo real de usuario, a modo de patrones y correlaciones entre la voz del usuario con otras señales biométricas (imagen facial y/o latido cardiaco y/o temperatura y/o conductancia), así como vocabulario frecuente, se utilizan para hacer la predicción de voz. En una realización de la invención, la solución del problema se acota adicionalmente por el contexto y/o escenario y/o identidad de participantes /oyentes en la conversación.

En lugar de someter a los pacientes a tratamientos clásicos, el sistema de la presente invención es capaz de reconocer el habla tartamuda y guiar al usuario durante la conversación, traduciendo automáticamente a un formato comprensible (audible y/o legible) las situaciones que pueden llevar a una disfluencia mediante dispositivos electrónicos comunes (i.e. smartphones, SmartGlasses, smartwatches, tabletas y/o dispositivos específicos).

La combinación de técnicas de aprendizaje automático y profundo y reforzado de IA para el reconocimiento y la predicción del habla, permite un nivel de procesamiento en tiempo real que ofrece la posibilidad de enviar notificaciones y alertas al usuario a medida que avanza su conversación, en forma de apoyo continuo y solución dinámica.

El sistema de la invención facilita la comunicación de personas con tartamudez, a partir de tecnología digital de la información y comunicación existente fundamentada en software, comunicaciones de muy baja latencia, computación, bases de datos, algoritmos de inteligencia artificial y diferentes sensores.

La presente invención puede implementarse mediante un software en un dispositivo de telefonía móvil o similar con capacidad de procesamiento distribuido de la información en tiempo real, como podría ser tanto en la frontera (Edge) como en la nube (Cloud) y/o local (usuario); a partir de comunicaciones móviles de alta capacidad y baja latencia de última generación (i.e. LTE, 5G, 6G).

La presente invención contempla la integración de un asistente virtual comercial, tipoSiri, BixbyoGooglepara aprovechar su funcionamiento, tanto en tiempo real como en modo diferido, para un entrenamiento previo del usuario en el que mantener conversaciones guiadas de una forma natural con dicho asistente acerca de, por ejemplo, sus preferencias, gustos o actividades de ocio.

BREVE DESCRIPCIÓN DE LAS FIGURAS

Como parte de la explicación de al menos una forma de realización preferente de la presente invención, se incluyen las siguientes figuras, en donde con carácter ilustrativo y no limitativo se representa lo siguiente:

Lafigura 1muestra un diagrama general de los dispositivos electrónicos implicados en una realización de la presente invención.

Lafigura 2muestra de manera esquemática el flujo de comunicación entre el dispositivo electrónico y el centro computacional en la nube, según una de las realizaciones.

Lafigura 3muestra de manera esquemática las distintas capas o niveles que conforman el módulo predictor de voz de la presente invención.

Lafigura 4representa un esquema general de los bloques intervinientes en la predicción de una variable biométrica del habla de usuario.

Lafigura 5representa esquemáticamente los bloques/etapas que intervienen en la predicción de una variable biométrica del habla de usuario para una de las realizaciones de la invención.

Lafigura 6representa esquemáticamente el diagrama de flujo detallado del proceso que se sigue en una de las realizaciones de la invención para determinar el tipo de disfluencia/bloqueo del usuario y las posibles soluciones.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

Se describe a continuación, y con apoyo en lasfiguras 1-6, el método y sistema para reconocimiento de voz y disfluencias atípicas de personas con transtornos en el habla, por tartamudez para hacerla visible y/o legible al oyente.

En un primer nivel del método implementado por ordenador, el usuario se comunica con un asistente de voz, que puede funcionar en "directo” durante la conversación real de un usuario o en "diferido” y,entre otras funcionalidades, puede facilitarle feedback en tiempo real. Cuando el usuario habla, la aplicación activa el reconocimiento de la voz del usuario en un módulo ASR510de manera dinámica, continua y realimentada, convirtiendo a texto las distintas palabras o vocablos, y aplicando un conteo de las diferentes variables a través del módulo estadístico de gestión del Dato545. Los usuarios de la presente invención son los encargados de enriquecer el repositorio de minería de datos (hablando, recitando, leyendo) o archivos de perfil alojados en el servidor de Internet que servirán de entrenamiento para las semillas de los algoritmos de inteligencia artificial, en donde se asocian conjuntos de fonemas o sonidos con una palabra en lenguaje natural. Posteriormente en tiempo "casi real” la aplicación implementa en un módulo predictor540la predicción de voz, es decir predicción de la palabra posterior a la actual, ya sea por palabra y/o silaba y/o fonema en base a un contexto de una determinada temática. Una vez la frase ha sido pronunciada y visualizada por la pantalla del dispositivo electrónico, ésta debe ser confirmada de manera automatizada o por interacción del usuario (pantalla táctil, lente ocular). En lugar de transcribir literalmente palabras desconocidas y con fonemas repetidos, se revisa la frase y eliminan ciertas palabras para producir una traducción que tenga sentido. Esto se realiza a través de componentes de Procesamiento de Lenguaje Natural. Paralelamente el modulo gestor de la estadística 545 contabiliza cada unos de los ítems del sistema para dotar a la aplicación de minería de datos preprocesada y normalizada para el cálculo estadístico. En cuanto a la predicción, en una implementación preferente de la invención, el módulo de reconocimiento de voz ASR 510 incluye una funcionalidad de reconocimiento de vocablos.

En un segundo nivel de la aplicación en un módulo detector de disfluencias atípicas 520 se estima la detección de disfluencias atípicas, principalmente bloqueos, mientras que el modulo de Gestión del Dato (estadística) 545 proporciona la probabilidad estadística de disfluencia/bloqueo el usuario específico. Así, es posible se facilitar diferentes estimaciones del cálculo de probabilidades, probabilidades acumuladas o función percentil, obtenidas en el modulo estadístico 545. De tal manera que al usuario la aplicación del terminal móvil le genera mediante un módulo de gestión de disfluencia/bloqueo 550 una serie de alertas y/o mensajes y/o recomendaciones 560 y/o notificaciones desglosadas en cinco grandes grupos (reducir la velocidad, iniciar la palabra con suavidad, parar, tartamudeo voluntario, hablar con pausa, alargar la primera silaba...) para mitigar la disfluencia atípica, principalmente los bloqueos profundos, y poder ayudar al usuario mediante texto, voz o audio 595.

En un tercer nivel de la aplicación, al igual que el segundo nivel, el usuario interacciona con la aplicación en tiempo real. La arquitectura dispone de un subsistema de visualización y/o audición y/o traducción de idioma (a través de un modulo especifico traductor 515), de manera que el usuario pueda sobreponerse a las disfluencias atípicas (disfluencia/bloqueos) profundos en el habla. El usuario puede interaccionar con el terminal y seleccionar desde pantalla la palabra que desea pronunciar entre una serie de opciones probables facilitadas por el módulo de predicción; de manera que cuando el usuario entra en un bloqueo profundo, o bien el dispositivo móvil puede pronunciar la palabra por él (formato audible de voz 580 mediante un módulo TTS 570,texto a voz)o bien, en una comunicación "1 a 1”, el usuario puede seleccionar una de las "posibles palabras” con el dedo índice, girar la pantalla del terminal móvil y mostrarla en pantalla a su interlocutor (formato legible).

Opcionalmente, entre la interfaz del segundo y tercer nivel, el usuario puede interaccionar con el terminal móvil de una manera cómoda sin necesidad de aguantar el terminal móvil con las manos, a partir de un interfaz añadido de gafas inteligentes, de una o dos lentes. Las gafas inteligentes se conectan inalámbricamente al terminal móvil a partir de una conexión bluetooth o bien de la máquina virtual en la nube a través de una conexión 5G a partir de una eSIM virtual. De manera que el usuario puede interaccionar con el oyente y la aplicación del sistema de manera directa, cómoda y eficiente; al poder visualizar la mensajería de alertas y hacer la selección de palabras del traductor de voz a través de técnicas de procesamiento de la imagen por rastreo ocular desde la lente de las gafas. Pudiendo ser reproducido a audio a través de los altavoces del dispositivo electrónico, la palabra o conjunto de vocablos del conversor texto a voz TTS570.

Se dispone de un repositorio en unas bases de datos (biométricas) debidamente etiquetadas, físicamente en unidad de almacenamiento (i.e. disco, cartucho ...) para que cada elemento de voz, tal como palabras, fonemas, silabas o frases, quede asociado a las diversas variables y señales de usuario de entrada procedentes de cada uno de los sensores (imágenes, vídeos 501, ritmo cardíaco 502 o la conductancia y la temperatura corporal 504 para un determinado contexto) pudiendo contar adicionalmente con información cualitativa acerca de la tensión de la laringe506y vibraciones de las cuerdas vocales507. La información de contexto puede englobar desde la ubicación de usuario hasta la identidad de los oyentes (a modo de registro con diferentes campos en una base de datos).

El módulo detector de disfluencia/bloqueo520, calcula los parámetros adecuados (por ejemplo, si es la señal de voz calcula ciertos parámetros espectrales cada período predefinido de tiempo (por ejemplo cada 10 milisegundos); o si se trata de la señal cardíaca se calculan las pulsaciones por minuto) y después, esos parámetros se envían al modulo545de Gestion del Dato (estadística) para estimar las probabilidades de disfluencia/bloqueo.

Para ello se efectúa el conteo y preparación de estadísticas en el modulo estadístico545: como velocidad (palabras/segundo), duración, disfluencia/bloqueos por palabra/frase, prolongaciones o repeticiones de palabra. De esta manera a partir de contabilizar los casos favorables y desfavorables para cada una de las variables en el habla, a partir de métodos estadísticos de la información preprocesada se estima la probabilidad de disfluencia/bloqueo, ya sea en modo continuo, discreto, o a través de unos intervalos de confianza. Además, unos registros en memoria almacenan la información a modo de trazas/log o valores estadísticos, para poder compartir con personal sanitario y con el propio usuario, ya sea en diferido o en tiempo real a modo de feedback. Los registros se procesan a modo de semillas de habla para el entrenamiento, permitiendo así adaptarse a diferentes escenarios y/o contextos de usuario mediante módulos de inteligencia artificial con algoritmos de Aprendizaje: Automático, Profundo y Reforzado e implementados con métodos tales como redes neuronales (RN), KNN (k vecinos más cercanos), SVM (máquinas de vectores soporte).

La información entrante, procedente de los sensores, se criba a base de desechar información superflua y almacenar información poco correlacionada con la almacenada previamente. La información se inserta en tablas de las bases de datos a modo de registros "multi campo” indexados por marcas temporales "time stamp”. Los algoritmos que implementan los métodos de IA se encargan de modelar distintos patrones temporales.

Mientras el usuario está hablando, su voz y otras características se están recogiendo de forma continua:

- El ASR 510(Automatic Speech Recognition)reconoce la voz y genera el texto correspondiente.

- Opcionalmente y para un modo específico de operación, la salida del ASR puede traducirse a otro idioma en el módulo traductor 515.

- Con dicho texto, el módulo de predicción 540 (Predictor) está siempre preparado para ofrecer alternativas a la próxima palabra, para cuando lo solicite el módulo de detección de disfluencia/bloqueo 520.

- El módulo estadístico 545 de gestión del dato estima la disfluencia/bloqueo de cada una de las posibles alternativas, ordenadas bajo un patrón según las probabilidades de disfluencia/bloqueo.

- El detector de disfluencia/bloqueo 520 genera una salida activa cuando el usuario se ha bloqueado. Este sistema utiliza todas las señales disponibles 500-507 para generar una señal de disfluencia/bloqueo. Esta señal puede tener diferentes niveles en función de las señales captadas por los sensores.

- Cuando la señal de disfluencia/bloqueo se activa, pueden ocurrir diferentes eventos en función de la configuración del dispositivo y del nivel de la señal de disfluencia/bloqueo generada:

oA) la palabra predicha por el predictor se muestra en pantalla en modo texto 590 (idealmente sería la palabra que quiere pronunciar el usuario).

oB) la palabra predicha por el predictor se lleva a la entrada del TTS (Text to Speech) para que se genere el audio correspondiente 580.

oC) se pone en marcha un módulo de gestión de disfluencia/bloqueo 550 que genera mensajes y/o efectos y/o sonidos 595 de apoyo al usuario (consejos para salir de la situación de disfluencia/bloqueo). - Desactivación de la disfluencia/bloqueo: puede producirse de forma manual por el usuario, o bien de forma automática por el detector de disfluencia/bloqueo.

- Una vez se desactiva la situación de disfluencia/bloqueo, se vuelve al funcionamiento normal.

La entrada de voz 500 a través del ASR 510 se transcribe de voz a texto, posteriormente se normaliza el texto, se extrae un vector (fonemas, palabras, frases...) y se actualiza el registro del archivo de control. Posteriormente la aplicación determina si los vectores son nuevos o ya existe duplicidad de estos. En caso de ser nuevos se registran los vectores en las bases de datos 530 en modo de auto aprendizaje, en caso de haber duplicidad entre la entrada de voz y registros de vectores previamente almacenados, el recurso fuente puede bien refrescar las bases de datos 530 o bien ser purgado.

En una realización de la invención, a partir de la entrada de voz y técnicas de aprendizaje automático se extrae información complementaria de la voz (como tensión laríngea 506 o vibración cuerdas vocales 507) o también pulsaciones y/o sudoración y/o temperatura, así como procesarla para obtener un vector de información con un nivel de abstracción mayor y poder actualizar las bases de datos 530 de usuario.

A la salida del módulo predictor 540 se muestra textualmente 590 el habla del usuario y opcionalmente se añade un módulo TTS 570 a la salida del predictor 540, de manera que si el usuario no puede pronunciar la palabra por una disfluencia atipica de tipo bloqueo profundo irreversible, el usuario puede delegar en el terminal para que genere la voz del vocablo o palabra del usuario.

Ante una detección de disfluencia/bloqueo, el módulo predictor muestra posibles alternativas a la próxima palabra, donde el patrón está ordenado por orden de mayor probabilidad, según los primeros fonemas o silabas pronunciadas. Para cada una de las alternativas se estima la probabilidad de que al ser pronunciado el usuario experimente una disfluencia atípica..

El módulo predictor540se implementa con métodos de inteligencia artificial fundamentados en modelos matemáticos de procesado de la señal e información, tales como redes neuronales (RN) en cualquier configuración posible (i.e. realimentadas hacia adelante o hacia atrás, multi capa, recursivas, en lazo abierto, de procesado de señales estáticas ...) del tipo temporal (Reservoir Computing, LSTM) y/o convolucional (CNN) del tipo, minimización del error cuadrático medio y/o multi regresión y/o procesado de la imagen de espectrogramas, para así hacer la predicción de palabra, disfluencia/bloqueo o de mensaje/alarma/notificación de manera continua, concurrente y dinámica.

Detección de Disfluencia/bloqueo

Una de las funcionalidades principales de la presente invención consiste en la estimación de la probabilidad de disfluencia/bloqueo dinámicamente de manera cualitativa y/o cuantitativa. La probabilidad de disfluencia/bloqueo se determina instantáneamente antes de pronunciar la siguiente palabra. Dispone de una interfaz con el módulo gestor del dato (estadísticas), gestor de notificaciones y consejos a modo de técnicas para mejorar la fluencia de usuario.

Una vez obtenida la información de las señales de entrada se dispone de uno o más de un vector de características. Los vectores de características procedentes de cada uno de los sensores (voz, imagen, latido, presión...) se recogen en redes neuronales independientes. Cada red produce su propia predicción de disfluencia/bloqueo, y estas predicciones se procesan en una red neuronal final. Otra de las realizaciones de la invención, genera un único vector de características de todas las entradas, el cual es procesado por una única red neuronal para realizar la predicción del disfluencia/bloqueo.

La probabilidad de disfluencia/bloqueo se determina preferentemente con al menos una de las siguientes entradas de información:

- Entrada de voz.

- Rasgos labio faciales (i.e. boca, ojos, cejas...) asociados con cada correspondiente palabra y/o sonido y/o fonema con la finalidad de poder predecir el disfluencia/bloqueo o la probabilidad de disfluencia/bloqueo.

- Pulsaciones cardiacas del usuario.

De manera opcional y redundante, con información de:

- Conductancia (humedad) en las manos y/o

- Temperatura corporal de usuario.

- Tensión Laríngea

- Vibración cuerdas vocales

Para la adquisición de las entradas de información seleccionadas se contemplan varios sensores físicos, especialmente los siguientes:

- Micrófono

- Videocámara

- Sensor pulsaciones cardiacas.

- Sensor de humedad

- Cámara térmica.

Los sensores seleccionados pueden disponerse en el propio terminal móvil o en otros dispositivos adicionales, como relojes inteligentes de muñeca o gafas inteligentes. Alternativamente, pueden disponerse instalaciones específicas equipadas con sensores fijos preparados para la captación de las señales de entrada, como por ejemplo en aulas escolares o salas de reuniones).

La información principal de usuario que se debe extraer es el audio:

- audio del momento y/o palabra y/o fonema y/o sonido a pronunciar; registrado por el micrófono del terminal.

Una vez el usuario se dispone a hablar, comienza la captación de uno o varios de los siguientes datos adicionales:

- imágen/es de rasgos labiofaciales basadas en la palabra y/o fonema y/o sonido que se dispone a pronunciar, registrado a partir de la cámara del dispositivo electrónico.

- Pulsaciones o latidos cardiacos en base al momento y la palabra y/o fonema y/o sonido que se dispone a pronunciar, registrado a partir de un sensor dispuesto en un dispositivo dedicado como un reloj inteligente de muñeca.

- Temperatura corporal en base al momento y la palabra y/o fonema y/o sonido que se dispone a pronunciar, registrado a partir un dispositivo electrónico que incorpora cámara térmica.

- Humedad corporal / conductancia, más concretamente en las manos, en base al momento y la palabra y/o fonema y/o sonido que se dispone a pronunciar registrado a partir de un dispositivo electrónico que incorpora un sensor para tal efecto (reloj de muñeca o terminal móvil).

- Tensión Laríngea corporal en base al momento y la palabra y/o fonema y/o sonido que se dispone a pronunciar, se aplican técnicas de inteligencia artificial a partir de métodos de aprendizaje automatizado.

- Vibración de las cuerdas vocales, en base al momento y la palabra y/o fonema y/o sonido registrado por el micrófono del terminal, se aplican técnicas de inteligencia artificial a partir de métodos de aprendizaje automatizado.

Análogamente el sistema estima las magnitudes de habla de usuario para una mayor precisión, ya sea por error técnico de los sensores o indisponibilidad de alguno de ellos, a partir de técnicas de inteligencia artificial de aprendizaje automático (machine learning) a partir de una magnitud como podría ser la voz de usuario, y a partir de esta, predecir el ritmo cardiaco y/o temperatura y/o sudoración junto a la estimación cualitativa, por predicción, del estado de tensión de la laringe y/o cualitativa a través de la estimación de vibraciones de las cuerdas vocales.

Gestión de Disfluencias

El módulo detector de disfluencias atípicas 520 realimenta en lazo cerrado al módulo predictor 540 junto la entrada proveniente de la salida del ASR 510. Su sensibilidad permite discriminar una pausa o un silencio de un atasco reversible o una disfluencia atípica, como un bloqueo profundo irreversible del usuario.

La salida del módulo detector de disfluencias atípicas520junto a la del módulo predictor540, alimenta el sistema de gestión de la disfluencia550. El módulo gestor de la disfluencia550dispone de una interfaz para alertar al usuario de la técnica de fluidez en el habla más aconsejable, implementado a partir de procesamiento de señal digital basado en, por ejemplo, la temática hablada, el oyente específico o el escenario concreto. La aplicación del sistema proporciona información preventiva con mensajes/alertas/sugerencias relacionadas con técnicas rápidas que mejoran la fluidez como habla prolongada, relajación rápida, respiración o simplemente mejorando emocionalmente al usuario mediante imágenes o fotos. De esta manera, el modulo de gestión de disfluencias550facilita al usuario en tiempo real diferentes notificaciones y mensajes como consecuencia de: contexto de la conversación (ubicación, oyentes), siguiente palabra más equiprobable a pronunciar y un orden de magnitud de la probabilidad de disfluencia atípica.

El gestor de disfluencias tiene al menos cuatro posibles salidas:

- A) texto por pantalla;

- B) voz con el TTS (la palabra predicha);

- C) Mensajes sobre estrategias de relajación, modificación del tartamudeo o modelado de la fluidez;

- D) efecto coral.

Las técnicas generales de habla que puede proporcionar el gestor de disfluencias para mejorar la fluencia para personas tartamudas se fundamentan en los siguientes dos grupos, que son consecuencia de la parte de control motora de usuario.

Técnicas de modificación del tartamudeo:

- Tartamudeo voluntario

- Parar cuando empieza la disfluencia.

- Parar cuando estoy en la disfluencia y salida suave.

- Si se anticipa la disfluencia, iniciar la palabra suavemente.

- Apretar/aflojar zona en la que se aprecia la tensión

Técnicas de modelado de la fluidez:

- Reducir la velocidad articulatoria.

- Hablar con pausas

- Respuesta demorada (cuando preguntan, esperar unos segundos antes de contestar)

- Alargar la primera sílaba

- Alargar las palabras, principalmente alargando las vocales.

Las técnicas generales que puede proporcionar el gestor de disfluencias para mejorar la fluencia para personas tartamudas como consecuencia de la parte emocional de usuario comprenden:

• Enmascaramiento: enviar un sonido al oído del paciente tartamudo para que enmascare su habla (efecto coral). Esta técnica corta retroalimentación negativa.

• Psicología/Emocional: reduce la ansiedad anticipadamente mediante distracción emocional del usuario, de manera que instantáneamente mejora su confianza y autoestima. Por lo tanto el usuario podrá recibir mensajería, notificaciones o imágenes a través del terminal móvil, procedentes del propio terminal o de redes sociales.

En una implementación práctica de la invención, el módulo gestor de disfluencias visualiza por pantalla de terminal de usuario alertas, mensajería, consejos, recomendaciones de la aplicación. También reproduce tonos y/o zumbidos de tipo coral. La aplicación puede acceder a datos de usuario (i.e. fotografías almacenadas en la propia memoria del teléfono y/o en la nube o bien acceso a datos de aplicaciones de mensajería (i.e. WhatsApp, SMS/MMS, Messenger a través de proveedores de plataformas de datos tales como Google)).

El sistema de la presente invención cuenta con unas bases de datos distribuidas 30. Las bases de datos son del tipo relacionales (SQL), para datos estructurados, o del tipo Non-SQL, para datos de longitud variable, que sirven para almacenar toda la información de la pluralidad de información de entrada. La información, una vez es sensorizada por los dispositivos electrónicos de usuario, se pre-procesa para obtener un vector de la información con mayor nivel de abstracción. Una vez determinada la pureza o calidad del dato, se procede a almacenar el recurso digital en las bases de datos, refrescar/actualizar directamente un registro existente o eliminar el dato si este fuera redundante o superfluo u obsoleto.

En la presente invención se contempla al menos una técnica para hacer reversible un disfluencia atípica, como un bloqueo profundo, lo que coloquialmente se conoce porválvula de escape de usuario.En ese caso, una vez detectada la disfluencia o bloqueo, el usuario selecciona con el dedo índice en la pantalla táctil del terminal la palabra que está intentando decir dentro de un subconjunto de palabras/emojis propuestos por el módulo predictor540. De esta manera puede transmitir la palabra al oyente, ya sea mostrándola textualmente mediante un giro de 180° del terminal, o mediante el altavoz del dispositivo electrónico que reproduce por audio la salida del TTS.

El usuario recibe feedback de la aplicación de manera implícita, como por ejemplo si la velocidad de habla (palabras/segundo) es la correcta o incluso a partir de zumbidos "en clave” que el usuario pueda saber en todo momento si la progresión es la adecuada, dotándole de confianza o, si por el contrario, debería parar completamente su habla en el caso más remoto.

Lafigura 1muestra un esquema general a modo de implementación del escenario del método asistido por ordenador de reconocimiento de voz para personas con discapacidad en el habla por tartamudeo. Donde el usuario10utiliza la aplicación para interaccionar con la presente invención a través de un terminal electrónico40,que puede ser un smartphone, tableta, Smart TV o incluso un terminal especifico. El terminal electrónico40comprende una serie de componentes de sensado o sensorización20tales como micrófono o cámara. Los terminales electrónicos40disponen de una interfaz de comunicaciones habilitada junto a una capa de aplicación software combinada con aprendizaje automático/profundo/reforzado e inteligencia artificial (IA)50para dar asistencia en tiempo real al usuario con discapacidad en el habla mientras interacciona con otras personas. Por otro lado, el terminal electrónico40se comunica con la nube de internet30donde se halla la máquina virtual alojada en el centro de proceso de datos (CPD) o Big Data y unas bases de datos biométricas, a través de un interfaz de comunicaciones de baja latencia y muy bajo retardo.

En lafigura 2se representa una de las realizaciones de la arquitectura del método asistido por ordenador para el reconocimiento de voz y disfluencias atípicas en el habla de personas tartamudas. Se muestran las diferentes etapas de la arquitectura a modo de bloques. Ésta se compone de distintos dispositivos informáticos/electrónicos que se encargan de las distintas funciones descritas en esta memoria. Una aplicación210que puede desplegarse en distintos dispositivos (PC, móviles, Tablet, Smart TV, etc.) y que se conecta a Internet 230 para acceder a un Servidor Central/Big Data Cloud 220 que consta de distintos elementos desplegados encargados de dar funcionalidad a la aplicación.

La información recogida por la aplicación 210 mediante altavoces, videocámara u otros sistemas inteligentes conectados al dispositivo (como un medidor de pulsaciones) sobre el que funciona la aplicación, se envía a un Servidor Cloud 220 para llegar al Procesador de información 250, que mediante sistemas de inteligencia artificial a través de algoritmos de procesado natural de lenguaje y facial, (PNL y PNF) 240 se encarga de procesar la información entrante del usuario. Mediante estos métodos inteligentes 240, tales como redes neuronales, se procesa una respuesta para dar soporte al usuario, donde la respuesta se genera como resultado de las dificultades encontradas en la comunicación.

Por otro lado, en el Servidor Cloud, un Procesador de la Información 250 se encarga de determinar la respuesta que se le dará al usuario y gestionará el recurso lógico. En unas Bases de Datos 260 se alojan los recursos lógicos como multiarchivo, con sus respectivas componentes de datos, control para almacenar/extraer información estadística de la sesión de usuario con la aplicación. Con parámetros tales como duración del habla registrada, palabras y frases, temática, disfluencia: irreversible o reversible. Dicho módulo Procesador implementa los mecanismos de búsqueda y restauración de información histórica en las bases de datos, disco físico, cinta u otros. A su vez, al existir una base de datos que registra estos eventos, es importante incluir un módulo Gestor de Perfiles 270 de usuario en la aplicación para registrar, dentro de un perfil, los problemas/incidencias aparecidas en la comunicación y si estas han sido reversibles o no, con el fin de tener un registro de eventos asociado a los distintos usuarios.

Una vez ha finalizado el procesamiento de la información, se graban unas trazas o unos registros de los distintos eventos en la base de datos asociada con un perfil de usuario y se devuelve la respuesta desde el Servidor Cloud 220 a la aplicación 210 a través de Internet 230, de manera que personal sanitario puede analizar y auditar toda la información a posteriori para, así, adaptar el método asistido por ordenador o aplicación a las necesidades de usuario.

En cuanto a la estructura de la información, ésta vendrá dada a modo de trama de bits que, a modo de mensajes transaccionales, viajarán desde el terminal electrónico hasta la nube de internet. Para ello, pasarán por distintos algoritmos y procesos, cuya información está almacenada en memoria de forma temporal hasta que pase a un almacenamiento permanente (de forma completa o en fragmentos) como es la base de datos.

Una vez estimado el mensaje de respuesta por el centro computacional en la nube, este viajará desde la nube hasta el terminal móvil. Esta nueva trama de bits se almacena en la memoria del terminal móvil de manera temporal, dado que no se precisa almacenar esta información de forma permanente en el terminal móvil.

En lafigura 3se sintetiza el predictor de voz540compuesto por tres niveles, siendo el nivel inferior la captación300de minería de datos, donde se proporciona la extracción y selección de características de, entre otros posibles, audio500, video501, latido cardíaco502, humedad503,temperatura504,tensión laringe506 yvibración cuerdas vocales507además de los repositorios coincidentes508, grabaciones509y vocabularios511disponibles El nivel medio comprende los algoritmos que procesan, por un lado la entrada del hablante310y, por otro lado, los datos de entrenamiento disponibles315, y en el nivel superior la palabra predicha320,que incorpora un campo de valor numérico de la estimación del cálculo de la probabilidad de disfluencia/bloqueo para esta palabra.

Mientras el usuario que experimenta tartamudez en el habla está en conversación e interaccionando con la aplicación, frente a las distintas difluencias atípicas o /bloqueos, el módulo predictor de la voz ofrece posibles palabras ordenadas de probabilidad mayor a probabilidad menor de que el usuario haga uso de ellas. El usuario debe seleccionar o desechar dentro de mensajes durante cada transacción. Cuando el usuario selecciona una palabra, ésta se envía de nuevo a la nube para que se almacene de forma permanente y quede registrada cuál fue la opción seleccionada ante una dificultad en el habla, disfluencia atípica o bloqueo profundo irreversible.

Concretamente, los flujos de información son tramas de bits que forman tramas de bytes y viajan bidireccionalmente entre el dispositivo y la nube. Una vez ha finalizado el proceso, la información emitida por la nube al terminal móvil se elimina total o parcialmente de la memoria. En la nube queda almacenado un histórico de la información procesada a un nivel de abstracción superior en la componente de datos (archivos) del multiarchivo y se actualiza la parte de control, mientras que la información fuente de audio, video e imagen se almacena dentro de la base de datos para entrenar los algoritmos con la utilización de estos inputs/outputs de comunicaciones pasadas.

La presente invención se fundamenta en tecnologías de la información y comunicación basadas en técnicas de inteligencia artificial (IA)50, técnicas de aprendizaje automático y/o aprendizaje profundo y/o aprendizaje reforzado a partir de la minería de datos. Una vez capturada la información mediante sensores de audio500, video501, latido cardiaco502, humedad503, temperatura504, entorno505, tensión laríngea506, vibración cuerdas vocales507los diferentes datos, a modo de variables de usuario, se criban para actualizar las bases de datos y desechar información superflua para el perfil de habla del usuario. En el servidor central las respectivas informaciones variables se normalizaran para poderse almacenar y hacer el entrenamiento de los distintos algoritmos codificados a partir de métodos de Inteligencia Artificial y redes neuronales.

En una realización técnica de la presente invención, se utilizan técnicas de procesado de la imagen para tratar la voz. Consiste en un mapeado de la voz, en un eje en el dominio tiempo/frecuencia. Esta funcionalidad resulta de utilidad para aplicar técnicas de aprendizaje automático (AA) y predecir distintos vectores de información provenientes de las variables de entrada de temperatura, pulsaciones, conductancia...

En otra realización de la invención el sistema cuenta con hasta 2 bases de datos biométricas adicionales alimentadas con minería de datos del estado de la laringe y grado de vibración de las cuerdas vocales mientras el usuario está en habla y supervisado por personal sanitario.

Paralelamente pueden estimarse las vibraciones de las cuerdas vocales a partir de una base de datos biométrica adicional. El proceso de minado de la semilla se hace en diferido mientras el usuario habla, por ejemplo con información de una laringoscopia, y posteriormente cuando el usuario en real habla poder hacer predicción del estado de las cuerdas vocales. Alternativamente se contempla directamente desde el micrófono del propio terminal de la aplicación, estimar por medios digitales las frecuencias de los tonos graves y agudos. De esta manera se dispone de una entrada de datos adicional a modo de vector, para ayudar al usuario a la predecir el bloqueo.

Ambas entradas adicionales506y507resultan de gran utilidad al personal sanitario a la hora de auditar las trazas y diagnosticar y parametrizar la operativa de la aplicación.

Se dispone de un algoritmo de IA para cada entrada, que procesa el vector de información entrante para cada variable; a fin de obtener un vector más concentrado a partir de un nivel de abstracción mayor (agrupación de ‘0’ a ‘1’ que podrían ir de unos pocos bytes a varios bytes). De tal manera que aquella información "nueva” para un determinado contexto, aquella que es estadísticamente independiente de la información almacenada previamente en memoria, se almacena en las bases de datos en modo escritura/modificación. Sin embargo, aquella información redundante/superflua o repetida puede almacenarse temporalmente en la memoria del área de trabajo del computador para ser eliminada posteriormente.

En una realización de la invención, un proceso gestor de registros conforma el registro multidimensional a partir de una etiqueta o timestamp para insertarlo en una tabla a partir de una página y actualizar o refrescar la memoria de trabajo, así como las bases de datos y archivo de control del sistema.

Las distintas etapas de la aplicación software que implementa el método de la presente invención pueden implementarse de muchas maneras. En las diferentes realizaciones se contempla partir de redes neuronales convolucionales y/o redes neuronales secuenciales o un mix en serie/paralelo de ambas

En otra realización preferente de la invención, el perfil del habla del usuario se implementa a través de un multiarchivo del tipo *.CSV y/o *.TXT. Donde cada archivo CSV o sheet dispone de un histórico de registros para un contexto especifico, a partir de las coordenadas geográficas del emplazamiento del terminal de usuario y/o personas intervinientes en la conversación. Cada "sheet” dispone de múltiples registros de un periodo de tiempo, que engloba desde meses a unidades de año, donde el registro queda indexado por un "timestamp” con valores de variables entrantes preprocesadas y con un valor de abstracción mayor en cada una de los campos del registro.

Análogamente existe un modulo Gestor Dato (estadísticas) 545, implementado por la misma aplicación software, para hacer conteos de las diferentes incidencias del usuario tartamudo y poder almacenar la información en registros así como formatear la información a modo de trazas para ser compartida con personal sanitario de una manera entendible.

La información contenida en las tablas del área de trabajo se indexa y clasifica en función del contexto y/o temática y/o de la frase y/o palabra y/o fonema y/o sonido pronunciado hasta el momento y la previsión de lo que se estima que se pronunciará.

La indexación en las bases de datos para restaurar o almacenar un recurso consiste en un algoritmo de búsqueda de un recurso digital a partir de unos patrones o datos de referencia (i.e. audio, datos, imagen...) constituido físicamente por un vector de bits (flujo de bits de distinta longitud) con una etiqueta identificativa. El concepto consiste en direccionar múltiples datos de usuario cruzados en múltiples bases de datos así como en crear un nivel de abstracción entre la búsqueda del dato y la ubicación física.

En otra realización preferente de la invención para el algoritmo de búsqueda en las bases de datos, normalmente alojadas en discos independientes, se introduce la idea de distancia de dos vectores contando las igualdades (o desigualdades) entre 0 y 1 para cada posición, suponiendo que ambos tienen la misma longitud. Por norma general en una Base de datos BBDD las longitudes de los vectores serán distantes. La longitud de un registro /archivo de voz será distinta a la longitud fichero de una imagen. Es necesario redefinir la definición para este caso que será lo más habitual. A partir de una correlación cruzada discreta promediada entre pares de vectores. Para ello se recurre a técnicas de clasificación o agrupamiento consistente en formar grupos homogéneos de vectores.

En otra posible realización de la invención del método asistido por ordenador de reconocimiento de voz de personas con tartamudez, la aplicación en modo operación dispondría de un proceso concurrente indexador. De manera que componentes *.CSV y/o *.TXT del multiarchivo, a través de etiquetas e indexado cronológicamente por timestamp contienen el direccionamiento lógico de los distintos recursos digitales para cada unidad de habla para cada contexto de usuario (i.e. palabras, fonemas, sonidos, frases) hacia las bases de datos en disco y/o cinta.

En el terminal de usuario (local), la aplicación tiene un proceso software con acceso limitado a cada tabla correspondiente al área de trabajo del usuario, a la página desde el servidor/computador central alocado en el Edge o en el iCloud. Donde el terminal puede descargar la tabla desde la nube al terminal de usuario y actualizarla concurrentemente durante el transcurso de la sesión para, posteriormente, guardarla en el servidor / computador central

Un proceso de la aplicación indexa páginas de registros e información de habla a partir de información de estado, tal como: contexto, localización, patrones y palabras utilizadas frecuentemente a partir de una determinada probabilidad, estimado desde545gestor de dato, etc, etc. En una realización de la invención existe un sheet o página por escenario/contexto en donde la información histórica o de repositorio se genera “artificialmente” a partir de otras páginas con similitud. Se contempla también generar páginas para un evento puntual o fecha concreta para posteriormente ser eliminada, por lo que la página podría ser vista como un área lógica de trabajo a nivel READ/UPDATE/WRITE, puesto que la aplicación tiene acceso a las coordenadas geográficas y/o información de geolocalización a través del propio terminal de usuario (i.e. GPS).

Para cada unidad lingüística se dispone un“ground truth”con nivel “1”, si no se esperan dificultades para el usuario en su pronunciación (probabilidades bajas de tartamudear) y “0” si se esperan dificultades para este usuario al intentar pronunciar la palabra (probabilidades altas de tartamudear).

En el método asistido por ordenador de reconocimiento de voz para personas con tartamudeo, el dato principal lo representa la voz500, de manera que para introducir la información en los diferentes algoritmos de métodos de inteligencia artificial se hace preciso el modulo ASR510; el sistema incorpora un modulo adyacente traductor515multidioma, que permite, por ejemplo, tener de entrada una lengua de origen latino y tener a la salida del TTS570de voz580o texto590una lengua anglosajona o viceversa.

Los datos de entrada procedentes del usuario junto a los almacenados previamente en el repositorio, se procesan en tiempo “casi real” desde un interfaz de comunicaciones de bajo retardo y baja latencia y la utilización de arquitectura optimizada de base de datos NoSQL/SQL, pensadas para procesar grandes volúmenes de datos en modo “lectura”, en el propio servidor central para poder efectuar la transcripción y la predicción540y poder reportarlo al terminal de usuario. A partir de los algoritmos de IA con técnicas de aprendizaje automatizado, profundo y reforzado con métodos como redes neuronales o similares a partir de fundamentos matemáticos de minimización del error cuadrático medio y multiregresión, tales como las del tipo convolucionales (CNN, redes GAN) (adecuado para clasificar la información) y recurrentes (Reservoir Computing, LSTM) (adecuado para procesar secuencias temporales de palabras).

Los algoritmos que implementan los métodos de IA modelan también distintos patrones temporales del tipo: <estación del año>; <días de la semana>; <24 horas día>; <minutos hora>; <fracciones de minuto>, etc.

En otra realización de la invención la detección de disfluencias atípicas520se determina en términos probabilísticos cuantitativamente y/o cualitativamente, a partir de procesar datos históricos en forma de tabla, página o área de trabajo. De manera que los algoritmos por técnicas de predicción determinan o estiman las características de la disfluencia, ya sea de manera numérica continua y/o numérica discreta y/o a través de intervalos de confianza.

Los algoritmos de IA50,para procesar las entradas de video y/o imágenes501, disponen, además de un submódulo para el reconocimiento de voz52, de un submódulo que detecta el rostro de la cara51.

Enla figura 4se observa como esta información de reconocimiento facial se proporciona, al igual que la información de voz, como datos de entrada130al algoritmo de predicción. Posteriormente se alinea el contenido de voz junto a las imágenes, para extraer los vectores del procesado de la información140y cumplimentar el registro del archivo de control para este timestamp en concreto. Una vez preprocesado el recurso, otro proceso de la aplicación determina su pureza al emparejar los vectores o strings de bytes150con vectores de bytes previamente aprendidos120tras un proceso de entrenamiento en el que,un conjunto de datos de entrenamiento100han sido preprocesados para extraer los vectores de características correspondientes110.El resultado de este emparejamiento es que si una imagen es redundante se elimina y, en cambio, si presenta pureza se guarda, para así actualizar la correspondiente tabla del archivo en concreto. Una vez que el proceso gestor de registros haya insertado la información en el archivo CSV y/o TXT se ofrece a la salida el resultado de la predicción160..

Otra posible entrada130son las pulsaciones cardiacas502, donde a partir de un submódulo normalizador se ajusta la escala de los datos de las pulsaciones cardiacas a los de la aplicación, posteriormente se alienan las pulsaciones con el contenido del habla140y finalmente se obtiene un vector150que cumplimenta el campo o la celda para este timestamp, de manera que el campo de este registro es una entrada del módulo detector de disfluencias atípicas para cuantificar cuantitativamente y/o cualitativamente la probabilidad de disfluencia atípicas para esta entrada. Al igual que para la entrada de imagen, el vector de pulsaciones (bits) podrá ser guardado en bases de datos o al poco tiempo eliminarse tras previa actualización del archivo CSV y/o TXT.

Análogamente, como se observa en lafigura 5,se dispone de un módulo para procesar las entradas de humedad/conductancia503o temperatura corporal504para que una vez ajustada la escala se cumplimente el registro de información para este timestamp. De manera que el módulo detector de disfluencias cuantifica de manera ponderada la probabilidad de disfluencia cualitativa y/o cuantitativa. Cuando el usuario habla se ponderan de manera dinámica y adaptativa las distintas entradas posibles500voz,501video,502latido,503humedad,504temperatura,505entorno,506tensión laringe y507vibración cuerdas vocales.

La salida del modulo detector de disfluencias atípicas520,cuenta con un interfaz con el modulo gestor dato545,implementado a través de un puerto de comunicación, y alimenta el modulo de gestión del disfluencias550a base de mapear la estimación de disfluencias con un560consejo y/o sugerencia y/o alarma para hacer reversibles dichas disfluencias/bloqueos del usuario. Una de las posibles respuestas del módulo gestor de disfluencias es la activación de sonidos de efecto coral a fin de dar continuidad en el habla de usuario. El módulo gestor podría ser parametrizado para cada usuario en base a instrucciones de personal sanitario a partir de un terminal remoto conectada al perfil de usuario.

Cada página o archivo CSV o área de trabajo, es una tabla que en el eje vertical incluye la siguiente información y está etiquetada a partir de un contexto:

- Timestamp

- Voz

- Imagen

- Pulsaciones

- Conductancia

- Temperatura Corporal

- Tensión Laringe

- Vibración cuerdas vocales

- Direccionamiento en disco

- Tipo disfluencia

- Notificación / mensaje

En una realización de la invención, se contempla una combinación de redes neuronales en cascada del tipo CNN y Reservoir Computing (RC) o LSTM en modo Lectura/Escritura. Es decir, un primer sub-bloque CNN (Convolutional Neural Networks) para procesar señales estáticas o dinámicas a partir de información inconexa para obtener un nivel de abstracción mayor, para posteriormente atacar a redes neuronales recurrentes realimentadas (RC) Reservoir Computing del tipo multi regresión y/o (LSTM) Long Short Term Memory para asi modelar distintos patrones temporales.

El módulo predictor 540 se alimenta de las salidas del ASR 510 y del sistema de detección de disfluencias atípicas 520. El modulo 520 viene dado por un registro con un campo para cada magnitud como una batería de entradas en paralelo. A su vez, la salida del detector de disfluencias atípicas 520, junto a la salida del módulo predictor 540, son una entrada para el módulo de gestión del disfluencias 550. De esta manera, si no hay previsión de que en el siguiente lote de palabras el usuario no tartamudee no se generaría ningún mensaje/ruido y en caso de no ser así se generaría uno o más mensajes para mejorar la fluidez del habla, pudiendo estar la mensajería apilada o concatenada.

El tartamudeo en el habla se identifica principalmente gracias al módulo especifico detección del disfluencias atípicas 520 alimentado por al menos un entrada, más concretamente la voz 500, de la batería de entradas posibles. El bloque tiene acceso a las tablas del archivo de contexto y registros históricos de cada una de las posibles entradas: voz 500, imagen 501, pulsaciones 502 y/o conductancia 503 y/o temperatura 504 y/o entorno 505 y/o 506 tensión laringe y/o 507 vibración cuerdas vocales y/o disfluencias, ordenados por timestamp, de registro más reciente a más antiguo. El registro histórico incorpora un campo adicional (columna) indicando si la disfluencia ha sido leve y/o profunda reversible y/o profunda irreversible. De esta manera, la imagen estática de un rasgo facial durante una disfluencia atípica de tipo bloqueo profundo, juntamente con las pulsaciones y resto de entradas registradas que se introducen en los algoritmos del detector de disfluencias atípicas 520 como vectores de bits, podrán predecir si la disfluencia será leve y/o profunda reversible o profunda irreversible e incluso la duración y la probabilidad a nivel cualitativo y/o cuantitativo. Adicionalmente, el detector de disfluencias discrimina entre silencios y disfluencias atípicas.

Los algoritmos de las etapas en cascada de redes neuronales CNN-RC y/o CNN-LSTM con el histórico de minería de datos, se ejecutan continua y concurrentemente para predecir cualitativa y cuantitativamente la disfluencia. De este modo, se modelan distintos patrones temporales.

La red de inteligencia artificial de la presente invención tiene una componente de computación (hardware y software) y una componente de transmisión de la información.

La parte hardware consiste en un sistema plataformado y debidamente securizado, a modo de red virtual, para garantizar la seguridad en un ecosistema con varios agentes intervinientes que no necesariamente pertenecen al mismo núcleo de confianza, entre el terminal de usuario master [(i.e. smartphone, tableta, Smart TV, dispositivo especifico) con sensores (micrófonos, sensores de conductancia y temperatura ...) y actuadores (altavoces)], que pueden tener dispositivos electrónicos, a modo de esclavos, como un reloj inteligente o gafas inteligentes con tecnología de Internet de las Cosas (IoT) habilitada para sensorizar las distintas magnitudes físicas de habla del usuario tartamudo y un servidor/computador central en la nube con sistemas de almacenamiento, seguridad y privacidad de la información.

Las componentes software descritas se hallan integradas en una o varias capas de aplicación a partir de recursos lógicos (bases de datos, archivos...) donde la aplicación de usuario puede estar motorizada a través de una máquina virtual compartida o dedicada en la nube y, finalmente, un sistema de comunicaciones inalámbricas para el intercambio de información bidireccionalmente de baja latencia y banda ancha entre la nube y el terminal de usuario.

A nivel software la máquina virtual ejecuta una aplicación software distribuida, implementada a través de procesos concurrentes software. La arquitectura consta de un recurso lógico multiarchivo que contiene una tabla con datos provenientes de la sensorización (voz, imagen labio facial, pulsaciones, conductancia, temperatura, ...) que se actualiza constante y periódicamente cuando el usuario tiene activada la aplicación y paralela y concurrentemente se ejecutan algoritmos de métodos de IA, tales como redes neuronales, para predecir la siguiente palabra y detectar posibles disfluencias del usuario.

En una configuración común de redes neuronales, la presente invención cuenta con una primera etapa de red neuronal convolucional, para pasar de datos inconexos a una abstracción, y finalmente atacar en cascada las redes neuronales recurrentes o de series temporales.

En la figura 6 se ilustra un diagrama de flujo completo de un ejemplo de uso de la presente invención, donde se asume, en primer lugar, que el usuario previamente ha descargado la aplicación software y la ha instalado en su terminal móvil. Entonces una partición de una máquina virtual en la nube toma el control y genera un archivo de perfiles vacío. A medida que el usuario entrena la aplicación (hablando sin más o en una modalidad guiada de logopeda virtual) e introduce algunos datos biométricos de su perfil de habla, la aplicación estaría mínimamente disponible para su uso, aunque el rendimiento mejorará a medida que el usuario haga un mayor uso.

El usuario con discapacidad en el habla por tartamudez inicia una sesión de voz 300 con la aplicación a través del asistente de voz 305 de la aplicación con su terminal móvil. El usuario se encuentra en un escenario y/o contexto 505 que el terminal móvil podrá cuantificar a partir de las coordenadas GPS; paralelamente en base a la temática, el sistema podrá determinar y/o caracterizar y/o identificar los oyentes/hablantes participantes a través de una comunicación entre el área local de usuario y la nube.

La información se estructura a partir de registros multi campo a partir de un archivo o página del tipo CSV y/o TXT y/o similar a modo de tabla que actualizará el área de trabajo. Una vez finalizada la configuración inicial en el servidor central, se carga en memoria lasheeto página de trabajo junto a su información histórica, a modo de tabla multiregistro indexada por timestamp.

Las respectivas variables de entrada sensorizadas 315 (voz, rasgos labiofaciales, temperatura, humedad, pulsaciones cardiacas, medidas como datos de entrenamiento) y las no sensorizadas, pero estimadas por predicción (como tensión laringe y vibración de las cuerdas vocales) son procesadas localmente en el terminal móvil para convertirlas de analógico a digital (A/D) y analizarlas en la propia aplicación. Un proceso en el servidor/computador central carga la información en memoria y pre procesa cada una de las entradas a fin de obtener un vector de bytes con un nivel de abstracción mayor, para así normalizar los datos antes de entrar en los respectivos algoritmos de IA (redes neuronales convolucionales, redes GAN...).

Una vez obtenidos los respectivos vectores de datos y debidamente normalizados, se procede a verificar si la información fuente es redundante/superflua o presenta pureza al tener una alta independencia con la información existente en el repositorio de datos para así almacenarla en bases de datos o desecharla.

Si el vector de entrada presentara pureza, se genera un registro donde en la primera columna habrá un timestamp en base la fecha actual del tipo: "Saturday 27.11.2021 18:35:23”. En el segundo campo del registro se depositará el vector de bytes para la parte de voz, en la tercera el vector de bytes de imagen/video para la magnitud labiofacial y así sucesivamente para las pulsaciones, conductancia y temperatura, tensión laringe y vibraciones cuerdas.

Para cada registro añadido a la tabla de la página del área de trabajo se ejecutan de manera automatizada, desasistida y concurrentemente algoritmos de redes neuronales: por ejemplo, redes convolucionales en cascada con redes neuronales recurrentes a fin de poder modelar en series temporales (fracciones de minuto, unidades de segundo) acerca de la siguiente palabra, la probabilidad de si habrá una disfluencia atípica y, si lo hay, qué sugerencia ofrecer. Este proceso se mantiene durante el transcurso de la sesión de usuario frente al terminal.

Se describe a continuación un ejemplo práctico en el que un usuario con discapacidad en el habla por tartamudez es aficionado al fútbol en general. El usuario cada vez que habla de futbol presenta tartamudez al intentar pronunciar la palabra "Pelota”, con lo que el usuario tendrá ansiedad anticipada porque sabe que potencialmente al decir "pelota” tartamudeara. La aplicación dispone de una tabla en memoria a modo de archivo CSV o TXT con un histórico de datos para el contexto FUTBOL XX, donde XX es un código identificador de ubicación, oyentes etc. A fin de poder determinar unos patrones de habla del usuario en base a la palabra actual junto al histórico.

Funcionalmente, se ejecutan algoritmos de métodos de IA para la detección de disfluencias o bloqueos del usuario 320 en base a la información de los distintos vectores de entrada 500, 501, 502, 503, 504, 505, 506, 507 (voz, imagen, video, temperatura, conductancia, latido cardiaco, contexto, tensión laringe, vibración cuerdas vocales). Por otra parte el módulo de gestión del dato (estadísticas) estima la probabilidad de disfluencias, o bloqueos, una vez pre procesada la información entrante del módulo detector de disfluencias atípicas. El preprocesado de la información consiste en un conteo de las diferentes variables normalizadas que se encuentran almacenadas en los registros disponibles. Para cada variable, se obtiene una relación de casos favorables entre el total de casos posibles,. Dicho proceso analiza en tiempo real o casi real el hilo de la conversación entre el usuario y el asistente de voz 305 (i.e. chatbot). Basado en esta estimación, se ofrecen en la salida alertas, notificaciones, consejos o mensajería, toda ella automatizada, que puede consistir, por ejemplo, en un simple mensaje en el interfaz de la pantalla del terminal o en un mensaje de voz.

En la presente invención, bajo la modalidad de asistente de voz 305, se permite un entrenamiento previo al usuario, lanzando preguntas acerca sus preferencias, por ejemplo, futbolísticas. Para ello una vez iniciada la comunicación el usuario recibe del chatbot sugerencias de manera continua, dinámica y periódica a partir de un módulo predictor de palabra 325 y paralelamente el modulo de estadísticas estima la probabilidad de disfluencia atípica 320 de manera cuantitativa o cualitativa, para lo que también se recolectan estadísticas a partir del conteo 330. Los algoritmos se implementan a partir de redes neuronales y algoritmos de aprendizaje automático y profundo en la máquina virtual del servidor en la nube, donde el resultado de la ejecución se vuelca en la aplicación del terminal móvil. Si la máquina virtual le pide al usuario “-Hola, que te pareció el partido de fútbol de la selección española en las olimpiadas de Japón”,el usuario podrá empezar diciendo “El ...” y automáticamente el módulo predictor enseñaría por este orden: 1)partido2)gol3)Mallorca.siguiendo el patrón de orden establecido e internamente la aplicación estimaría una probabilidad de disfluencia atípica 320 para la opción 1) del 20% 2) 10% 3) 15%, entonces la aplicación deja hablar al usuario y en base a la respuesta actualiza el archivo de perfil. En el supuesto de que el usuario quiera decir“El gol de la selección Japonesa era inválido puesto que la pelota había salido previamente por la línea de banda”.El usuario cuando hubiera pronunciado palabra a palabra la frase con mayor o menor dificultad, pero con una probabilidad de disfluencia atípica baja 320, se encontraría con la palabra“pelota”donde el predictor de voz 325 daría como opciones 1)pelota,2)portero3)público,siendo la probabilidad de disfluencia alta, pero considerada todavía reversible 355, pongamos por caso 1) 70% 2) 30% 3) 50%, entonces la aplicación o el avatar le envía una señal o mensaje de alerta categorizado como técnicas de fluidez 360 en el habla y el gestor de mensajes y alarmas 370 le mostraría un mensaje:“Para unos segundos y ALARGA la primera silaba“, y el usuario diría peeeeelota, y la frase de voz a texto quedaría como“decir “El gol de la selección Japonesa era inválido puesto que la peeeeeelota había salido previamente por la línea de banda” que sería visualizable 380 por el usuario desde la propia pantalla del terminal o con el interfaz de gafas inteligentes podría operar por rastreo ocular sin necesidad del interfaz táctil. Para confirmar la introducción de la frase en la aplicación debería de dar a "Enter” de manera táctil o mirar al simbolito "Enter” a través de las gafas de manera visual. En caso de que el usuario, a pesar de la ayuda o mensaje para pronunciar "Pelota”, se hallase frente a una disfluencia profunda 340 y no es capaz de pronunciarlo, la aplicación para tratar de sobrepasar el bloqueo, puede generar sonido de efecto coral 365 para enmascarar el audio del usuario para sobreponerse al bloqueo o generarle una alarma al móvil (i.e. fotografía o mensaje) que le produjera distracción parcial y que emocionalmente le fuera beneficiosa. En caso de una disfluencia profunda irreversible 345; entonces el usuario podría seleccionar con el interfaz táctil u ocular 350, en la pantalla del dispositivo electrónico la palabra "pelota” del display del módulo predictor. Quedando la frase textual corregida, simplificada y lista para transmitir 375 al interlocutor, mediante reproducción de voz 385 por altavoces o mediante visualización textual 380 por pantalla de la frase:“El gol de la selección Japonesa era inválido, la pelota había salido por la línea de banda” .El proceso descrito es iterativo durante el tiempo que tarda la sesión, mientras tanto la comunicación entre servidor central y terminal de usuario se mantiene continua. Una vez terminada la sesión se podrán ejecutar finalmente algoritmos de cierre y generación de estadísticas para que el personal sanitario se conecte al servidor central pueda auditar la información.

A continuación se esquematizan algunos de los procedimientos llevados a cabo en realizaciones particulares de la presente invención mediante ejemplos concretos de uso.

Predicción de voz.

PRECONDICION. - El usuario a partir de un terminal habrá realizado previamente los procedimientos 1) Acceso a la aplicación y 2) Setup de la aplicación. Dispondrá de un terminal (i.e. smartphone, Tablets, Smart TV) pudiendo disponer de terminales periféricos tales como relojes inteligentes y/o gafas inteligentes . El usuario dispondrá de un terminal o dispositivo electrónico con medios de comunicación inalámbrica 4G/5G/WiFi con al menos un sensor y una pantalla para visualizar de manera legible para el usuario la predicción ya sea a través de la pantalla de móvil y/o lente de la gafa inteligente. El usuario podrá interaccionar con la pantalla de manera táctil cuando el dispositivo es un terminal móvil o por rastreo ocular cuando se trata de las gafas inteligentes.

1. - El usuario se dispone a hablar dentro en una localización concreta, dentro de un contexto, asistente de voz, oyente/s, temática.

2. - El usuario poco antes de pronunciar o intentar pronunciar la primera palabra ya tendrá por pantalla la estimación de la siguiente palabra correspondiente a la predicción de voz a partir de los patrones de habla.

3. - La estimación de la siguiente palabra incluye información complementaria para el sistema, como el cálculo de la probabilidad de disfluencias atípicas estimativa.

4. - El Sistema una vez arranca se realimenta constantemente existiendo un transitorio menor cuando la comunicación es con el asistente de voz y algo mayor cuando es nuevo o en real, y periódicamente se llevará a cabo este proceso de predicción.

5. - La pantalla, (entendiendo por pantalla tanto la pantalla del terminal móvil, como pantalla TV o las lente/s de las gafas), visualiza las opciones ordenadas probabilísticamente, unas 4 por mapa de pantalla, y el usuario tendrá capacidad de seleccionar la palabra cuando no le sea posible pronunciarla y parsearlo en la aplicación.

POSTCONDICION. - El usuario podrá visualizar por orden probabilístico la palabra siguiente ya sea con disfluencias en el habla o no. El usuario podrá interaccionar con la pantalla de manera táctil cuando el dispositivo es un terminal móvil o por rastreo ocular cuando se trata de las gafas inteligentes o ambas. El proceso es concurrente con el subsistema de predicción de disfluencias/bloqueo .

Predicción de Disfluencias/bloqueos

PRECONDICION - El usuario se encuentra hablando operando los subsistemas predictor de voz y predictor de disfluencias de manera concurrente.

1.- El usuario se dispone a hablar dentro en una localización concreta, dentro de un contexto, oyente, determinado oyente/s real o virtual a través de un asistente de voz, temática.

2. - El usuario poco antes de pronunciar o intentar pronunciar la primera palabra ya tendrá por pantalla la estimación de la palabra correspondiente a la predicción de voz.

3. - El sistema cuantificará la probabilidad de disfluencia atípica a partir de fuentes de información en tiempo real: palabra actual, rasgos labiofaciales y/o pulsaciones cardiacas y datos históricos.

4. - La cuantificación de la probabilidad de disfluencia atípica se determinada cuantitativa o cualitativamente, y la información podrá ser mostrada o ser ocultada al usuario mientras está en proceso de comunicación.

POSTCONDICION. - El sistema estima y cuantifica la probabilidad de disfluencia por orden y visualizable probabilísticamente por la palabra que el sistema prevé que el usuario desea pronunciar. El subsistema detector de disfluencias es concurrente a la vez al subsistema de notificaciones, alarmas, mensajes para mejorar la fluidez del usuario.

Mensaje de alerta de ante una situación de disfluencia preventivo

PRECONDICION. - El usuario se halla en proceso de comunicación operando en la aplicación concurrentemente los procesos de Predicción de habla, Detección de Disfluencia y Gestor de mensajería y alertas. Por otra parte, el agente externo de la aplicación (personal sanitario) habrá parametrizado el gestor de alertas a partir de semillas para los algoritmos de aprendizaje de inteligencia artificial desde el archivo de perfil. A fin de determinar en base el estado del habla del usuario (tono, ritmo, velocidad, concentración...) qué recomendación dar o tratar de guiar al usuario a partir de técnicas para la fluidez en personas con tartamudez.

1.- El usuario se dispone a hablar, leer, expresarse frente al terminal frente a un/as persona/s reales o directamente el asistente de voz de la aplicación. El personal sanitario del tipo logopeda-psicólogo, podrá estar in situ en tiempo real o diferido a través de una conexión de un terminal informático tipo PC para la interpretación de las trazas del log correspondiente al archivo de perfil de habla. y así poder hacer los ajustes de la aplicación en base al chequeo del usuario más concretamente el archivo digital de perfil de habla para cada usuario en concreto.

2. -El personal sanitario y/o asistente de voz determinará aquellos rasgos en el habla que indican ansiedad, nerviosismo, falta de concentración junto a las correlaciones que pudieran tener con el contexto, tipo de oyente, temática...

3. - El personal sanitario y/o asistente de voz podrá ponerdata entry(marcas) en el archivo de perfil, para que así cuando se de la condición la aplicación pueda reportar la alerta.

4. - La pantalla, (entendiendo por pantalla del terminal móvil o lente/s de las gafas), visualizará las alertas y/o sugerencias para cada intervalo de tiempo en base al estado del usuario.

POSTCONDICIÓN. - Las alertas son continuas, realimentadas y dinámicas; de manera que tras la publicación de una alerta esta podrá ir seguida al poco tiempo de otra/s en base al contexto del usuario. El usuario podrá interaccionar con la pantalla de manera táctil cuando el dispositivo es un terminal móvil o por rastreo ocular cuando se trata de las gafas inteligentes o ambas.

A modo de ejemplo, se definen 9 tipos de mensajes:

Msg. 1: el mensaje para disfluencias por bloqueo propone hacer relajación rápida: "Tensar y Relajar determinados grupos de músculos (Técnica Koeppen)”.

Msg. 2: el mensaje tiene la finalidad de producir relajación hacia al usuario a partir de alguna foto o imagen de su galería del terminal o incluso palabras clave de la memoria de aplicaciones de envío de texto (SMS, WhatsApp, Messenger...).

Msg. 3: si la aplicación predice que el usuario no respira de forma adecuada, el mensaje indica hacer respiración y temporizar los segundos, tales como inspiración, retención y espiración.

Msg. 4: si el usuario ha empezado a tartamudear y no puede parar, la aplicación muestra al usuario el mensaje de "PARAR”.

Msg 5: si la aplicación detecta que el ritmo del habla no es el adecuado, se le da feedback acerca de la velocidad (feedback velocidad visual).

Msg 6: indicador de pausas y habla con pausas. Se monitorizan para ello estos dos parámetros y número de pausas entre palabras ( pausas en los momentos apropiados, por ejemplo no una pausa entre un artículo y el sustantivo que le sigue)

Msg 7: indicar al usuario un tartamudeo voluntario.

Msg 8: modelado palabra suave (alargado), el mensaje de usuario puede modular la velocidad de habla con información tal como alargar la primera palabra en modo recitado de poesía e incluso ajustar el tempo marcado por el personal sanitario; paralelamente el mensaje podría ir asistido por el terminal electrónico en modo metrónomo, por ejemplo mediante vibración.

Msg 9: El propio asistente de voz de la aplicación indica al usuario el contenido de un mensaje de texto o de voz durante o después de la comunicación, a modo de valorar al usuario y resumirle dónde mejorar para futuras conversaciones y aquello que hizo bien.

Continuidad en el habla ante una disfluencia abrupta

PRECONDICION. - El usuario ha iniciado ya la conversación donde continuamente se hace la predicción de la voz del habla del usuario (i.e. palabras, frases...). El usuario ha ido recibiendo alertas, notificaciones y mensajes como técnicas para mejorar la fluidez. El usuario está vinculado a un terminal (i.e. smartphone) o varios terminales (i.e. smartphone y/o gafas inteligentes). El oyente puede ser una o más de una persona.

1. - El usuario inicia o ha iniciado una comunicación oral con un/os oyente/s ya sea real o virtual. Con el apoyo de uno o más dispositivos electrónicos. El subsistema de predicción de la voz ya habrá iniciado su función con ordenación de palabras de mayor a menor orden probabilístico. Y paralelamente el sistema de alarmas, notificaciones y/o mensajería también estará activo.

2. - Paralelamente con el subsistema de predicción de voz y mensajería de alertas el subsistema de predicción de disfluencias cuantifica la probabilidad de disfluencias atípicas en tiempo real, hasta que ésta sea una probabilidad alta que precise activar la "válvula de escape”.

3. - El usuario seleccionara la palabra ya sea de manera táctil a través de la pantalla del terminal móvil y/o de manera ocular a través de la pantalla del terminal móvil o lente de la gafa inteligente para que el sistema “parsee” la palabra en tiempo “casi real”.

4. - El Sistema para esta situación crítica dispone de un triple backup para dar continuidad a la comunicación a través de la pronunciación de la palabra que genera la disfluencia: 1) Enmascarar el oído del usuario mediante la pronunciación en voz baja de la palabra para que así haga un último intento. 2) Dar legibilidad al oyente a través de enseñar la pantalla del móvil. 3) Que el propio dispositivo electrónico suplante artificialmente la voz del usuario.

5. - La aplicación utiliza los métodos 1) 2) 3) del punto anterior, en base a las preferencias o ajustes de usuario en la aplicación

POSTCONDICION. - Una vez accionada la válvula de escape, el proceso se repetirá cíclicamente durante el transcurso de la comunicación.

Implementación “Disfluencia/bloqueo Terminado”(Block Over)

PRECONDICION. El subsistema de detección de disfluencias atípicas determina que la probabilidad de disfluencias es muy alta a pesar de que el usuario ha recibido soporte de la interfaz de alertas y mensajería. El usuario habrá seleccionado a través de la interfaz de predicción de la voz de la aplicación, la palabra que le ha generado la disfluencia de manera táctil y/o ocular. El usuario está conectado a través de su/s dispositivo/s electrónicos a computación en la nube a través de una máquina virtual en un servidor.

1. - El usuario se encuentra en estado de disfluencia profunda y selecciona mentalmente una palabra/s de entre las opciones de la pantalla del dispositivo electrónico.

2. - El usuario selecciona de manera táctil u ocular la palabra para introducirla digitalmente a la aplicación.

3. - Acto seguido el dispositivo electrónico generara un zumbido para enmascarar el oído del usuario o reproducirle a bajo volumen la palabra/s para así minimizar su auto escucha o tener la sensación de acompañamiento, para dar el definitivo empuje al usuario para la pronunciación.

4. - De manera opcional, la comunicación y la pronunciación de la/s palabra/s que originan la disfluencia puede ser legible a través de una comunicación de hablante a oyente de manera textual

5. - De manera opcional la continuidad en la comunicación oral podrá ser llevada a cabo a través de un "parche” o la introducción de la/s palabra/s a partir de que los dispositivos electrónicos suplanten la voz del usuario a través de técnicas de NLP con el volumen adecuado.

6. - Una vez superada satisfactoriamente la disfluencia el proceso es cíclico y periódico.

POSTCONDICION. - Una vez efectuada la válvula de escape, el proceso se repetirá cíclicamente durante el transcurso de la comunicación.

El sistema de la invención permite que, cada usuario suscrito a la aplicación, disponga de acceso a una maquina virtual de un centro computacional virtual (Edge o Cloud) donde se aloja la aplicación junto a unas bases de datos biométricas. El usuario accede a la app a través de unaapp store,tal como las existentes Google Play, Itunes y/o Microsoft. Físicamente, la máquina virtual de usuario podría ser una partición computacional compartida y/o partición computacional dedicada a través de un operador de servicios de computación en la nube.

El flujo de información es transaccional, compuesto por una comunicación bidireccional full-dúplex entre terminal de usuario y el centro computacional. Por este motivo se precisa un sistema de telefonía móvil de muy baja latencia y suficiente capacidad (banda ancha). También se requiere un sistema distribuido de capacidad computacional elevado, a fin de minimizar retardos de transmisión y retardos por procesamiento de la información, así como maximizar la fiabilidad y resiliencia de la aplicación.

En este aspecto la 5 generación de telefonía móvil (a partir de 5G o sucesivas como 6G) o incluso LTE (4G) hace que la tecnología de comunicaciones esté disponible.

La aplicación es accesible y operativa a partir de una infraestructura con herramientas de seguridad informática y de las comunicaciones, que garantizan: la identidad de los agentes participantes, la integridad de los datos intercambiados y el no repudio de los justificantes de servicios prestados, emitidos tanto por el proveedor como por el consumidor del servicio.

Por otra parte, la tecnología de microelectrónica de semiconductores, para la fabricación de procesadores en computadores, va progresando en base a las necesidades computacionales de procesamiento de la información. Cada computador cuenta con más de un núcleo de procesamiento: real o virtual; a fin de aumentar los MIPS (millones de instrucciones por segundo) a la par de los requerimientos de latencia de las aplicaciones en tiempo real. Para que la aplicación alcance requisitos de tiempos de latencia casi en tiempo real, los computadores se apoyan en tecnologías de memoria dinámica de estado sólido o similares.

Finalmente, se remarca que la presente invención se basa en el desarrollo de una aplicación informática concebida para ser desplegada en distintos dispositivos, lo cuales deben disponer de elementos como altavoces, micrófonos, cámaras, sensores y la posibilidad de conectar dispositivos externos como medidores de pulsaciones. Es por ello que no resulta necesario desarrollar una arquitectura de dispositivos físicos adicionales, dado que preferiblemente se respetarán los estándares actuales de diseño que exigen dichos dispositivos.

En el presente texto, los términosdisfluencia, disfluencia atípicaybloqueopueden ser utilizados indistintamente en algunos pasajes, asumiendo que el contexto es suficiente para una comprensión total sin necesidad de especificar los detalles que los diferencian en cada momento.

Claims

REIVINDICACIONES

1. Método implementado por ordenador para determinar una disfluencia atípica en el habla tartamudeada de un usuario recibida por un micrófono de un dispositivo electrónico con medios de procesamiento y acceso a una base de datos (530) de referencia con información biométrica del usuario, donde el método está caracterizado por que comprende:

- recibir una primera entrada de voz (500) del usuario por el micrófono del dispositivo;

- extraer un conjunto de características de la primera entrada de voz (500), que comprende al menos identificar muletillas, prolongaciones, repeticiones o cambio de tono;

- recibir al menos una segunda entrada con información biométrica del usuario a seleccionar entre: imagen labio facial (501), pulso cardíaco (502), humedad (503), temperatura (504), tensión laringe (506), y vibraciones cuerdas vocales (507);

- generar un vector de características que comprende las características extraídas de la primera entrada de voz asociadas temporalmente con la información biométrica de la segunda entrada;

- comparar el vector de características generado con una pluralidad de patrones de disfluencias atípicas almacenados en la base de datos (530) de referencia del usuario;

- calcular, por un módulo detector de disfluencias atípicas (520), una probabilidad de que el usuario sufra una disfluencia atípicas como resultado de la comparación; y

- determinar un tipo de disfluencia atípica, bloqueo reversible o bloqueo irreversible, basado en la probabilidad calculada.

2. Método de acuerdo a la reivindicación 1 que además comprende:

- transcribir, por un módulo de reconocimiento automático de voz (510), la primera entrada de voz a texto; y

- determinar, por un módulo predictor (540), un conjunto de posibles palabras a pronunciar por el usuario como continuación de la primera entrada de voz, basado en un registro histórico del usuario almacenado en la base de datos (530).

3. Método de acuerdo a la reivindicación 2, donde una vez determinada una disfluencia atípica de tipo bloqueo irreversible para el usuario, además comprende:

- mostrar el conjunto de posibles palabras a pronunciar por una pantalla del dispositivo;

- seleccionar, por el usuario interaccionando con la pantalla del dispositivo, una palabra del conjunto mostrado; y

- reproducir, por el dispositivo la palabra seleccionada por el usuario.

4. Método de acuerdo a la reivindicación 3 que además comprende almacenar estadísticamente en la base de datos de referencia las disfluencias atípicas identificadas para el usuario y las selecciones de palabra realizadas ante una disfluencia atípica de tipo bloqueo irreversible.

5. Método de acuerdo a cualquier de las reivindicaciones anteriores que además comprende:

- determinar, para cada uno de los vectores de características generados, si la información que contienen es estadísticamente independiente de la información almacenada previamente en la base de datos;

- en caso afirmativo, almacenar la información en la base de datos en modo escritura/modificación; y

- en caso negativo, eliminar la información redundante.

6. Método de acuerdo a la reivindicación 2, donde una vez determinado una disfluencia atípica de tipo bloqueo reversible para el usuario, además comprende generar, por un módulo de gestión de disfluencias (550), un mensaje de desbloqueo para el usuario con información para llevar a cabo una de las técnicas de fluidez en el habla almacenadas en la base de datos.

7. Método de acuerdo a la reivindicación 6, donde en caso de que la disfluencia de tipo bloqueo reversible continúe, además comprende generar un sonido de efecto coral (365) para enmascarar la propia voz del usuario y ayudarle a superar la disfluencia.

8. Método de acuerdo a cualquiera de las reivindicaciones anteriores que además comprende traducir, por un módulo traductor (515), la primera entrada de voz a un idioma diferente.

9. Método de acuerdo a la reivindicación 6 que además comprende convertir, por un módulo conversor de texto a voz (570), el mensaje de desbloqueo para el usuario a voz, reproducible por un altavoz del dispositivo.

10. Método de acuerdo a cualquiera de las reivindicaciones anteriores donde la comparación del vector de características con la pluralidad de patrones de disfluencia y cálculo de probabilidad de disfluencias se realiza por un módulo de inteligencia artificial con algoritmos de aprendizaje automático, profundo y reforzado implementados en una red neuronal o similar.

11. Método de acuerdo a cualquiera de las reivindicaciones anteriores donde la extracción del conjunto de características de la primera entrada de voz (500) comprende mapear la entrada de voz en un eje en el dominio tiempo/frecuencia.

12. Método de acuerdo a cualquiera de las reivindicaciones anteriores que además comprende entrenar un modelo de predicción de disfluencia a partir de la base de datos (530) de referencia del usuario.

13. Método de acuerdo a cualquiera de las reivindicaciones anteriores que comprende alimentar la base de datos (530) con los vectores de características generados en archivos CSV, etiquetados a partir de un contexto dado y que incluyen la siguiente información: marca temporal, voz, imagen, pulsaciones, conductancia, temperatura corporal, tensión laringe, vibraciones cuerdas vocales, direccionamiento en disco, tipo de disfluencia, notificación/mensaje.

14. Sistema para determinar una disfluencia atípica en el habla tartamudeada de un usuario caracterizado por que comprende:

- un dispositivo electrónico (40) que comprende:

- un micrófono configurado para recibir una primera entrada de voz del usuario;

- unos medios sensores biométricos configurados para recibir al menos una segunda entrada a seleccionar entre: imagen labio facial (501), pulso cardíaco (502), humedad (503), temperatura (504), tensión laringe (506) y vibración cuerdas vocales (507);

- unos medios de procesamiento configurados para extraer un conjunto de características de la primera entrada de voz (500), que comprende al menos identificar muletillas, prolongaciones, repeticiones o cambio de tono; y generar un vector de características que comprende las características extraídas de la primera entrada de voz asociadas temporalmente con la información biométrica de la segunda entrada;

- una base de datos (530) de referencia con información biométrica del usuario; y

- un servidor central (220) en la nube en comunicación con el dispositivo y la base de datos, donde el servidor central está configurado para comparar el vector de características generado con una pluralidad de patrones de disfluencia almacenados en la base de datos (530) de referencia del usuario; calcular una probabilidad de que el usuario sufra una disfluencia como resultado de la comparación; y determinar un tipo de disfluencia, bloqueo reversible o bloqueo irreversible, basado en la probabilidad calculada.

15. Sistema de acuerdo a la reivindicación 14 donde el dispositivo se selecciona entre un teléfono móvil, una tableta electrónica, televisor inteligente o un terminal específico y donde los medios sensores biométricos comprenden al menos uno de los siguientes sensores: cámara de video, termómetro, pulsómetro, sensor de humedad o conductancia.

16. Sistema de acuerdo a cualquiera de las reivindicaciones 14-15, que además comprende un dispositivo electrónico auxiliar de sensado de tipo reloj inteligente.

17. Sistema de acuerdo a cualquiera de las reivindicaciones 14-16 que además comprende un dispositivo electrónico auxiliar de visualización que comprende unas lentes oculares.

18. Sistema de acuerdo a cualquiera de las reivindicaciones 14-17 que además comprende un dispositivo electrónico auxiliar con un sensor de tonos graves y agudos, configurado para obtener una estimación de frecuencia en Hz.

19. Sistema de acuerdo a cualquiera de las reivindicaciones 14-18 donde el servidor central (220) está además configurado para establecer una conexión externa con un terminal remoto y accesible por personal sanitario, donde la conexión externa es una conexión segura.

20. Sistema de acuerdo a cualquiera de las reivindicaciones 14-19 que además comprende una red privada virtual configurada para securizar la comunicación entre el dispositivo (40) y el servidor central (220).

21. Sistema de acuerdo a cualquiera de las reivindicaciones 14-20 donde la base de datos (530) comprende un sistema de acceso y búsqueda de información a través de la distancia entre vectores, basado en un conteo de desigualdades/igualdades entre 0 y 1, independientemente del tamaño de los vectores.

22. Sistema de acuerdo a cualquiera de las reivindicaciones 14-21 donde el servidor central (220) además comprende un módulo de aprendizaje automatizado configurado para predecir la tensión de la laringe o la vibración de las cuerdas vocales, basado en técnicas de inteligencia artificial.

23. Sistema de acuerdo a cualquiera de las reivindicaciones 14-22 donde la base de datos (530) de referencia con información biométrica del usuario comprende una estructura de información almacenada de acuerdo a un modelo combinado de bases SQL y bases NoSQL.