ES2965480T3 - Procesamiento y evaluación de señales del habla - Google Patents

Procesamiento y evaluación de señales del habla Download PDF

Info

Publication number
ES2965480T3
ES2965480T3 ES18811792T ES18811792T ES2965480T3 ES 2965480 T3 ES2965480 T3 ES 2965480T3 ES 18811792 T ES18811792 T ES 18811792T ES 18811792 T ES18811792 T ES 18811792T ES 2965480 T3 ES2965480 T3 ES 2965480T3
Authority
ES
Spain
Prior art keywords
text
route
user
base
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18811792T
Other languages
English (en)
Inventor
Peter Bell
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Auris Tech Ltd
Original Assignee
Auris Tech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Auris Tech Ltd filed Critical Auris Tech Ltd
Application granted granted Critical
Publication of ES2965480T3 publication Critical patent/ES2965480T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

Se divulga un sistema que, cuando está en funcionamiento, evalúa el habla, por ejemplo evalúa una señal de voz generada usando un micrófono para grabar una expresión oral. El sistema comprende: un dispositivo de usuario que recibe un texto definido por el usuario; y una unidad de procesamiento que está operativamente acoplada al dispositivo de usuario, en donde la unidad de procesamiento: refina el texto definido por el usuario para formar un texto base que tiene una pluralidad de unidades de texto base; define al menos una ruta que atraviesa la pluralidad de unidades de texto base, en donde la al menos una ruta atraviesa secuencialmente al menos una de la pluralidad de unidades de texto base; recibe una expresión para el texto definido por el usuario desde el dispositivo del usuario; procesa la expresión para generar un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación; mapea la pluralidad de unidades de texto de interpretación con la pluralidad de unidades de texto base; asigna una puntuación a al menos una ruta basándose en la calidad mapeada; identifica un camino recorrido a partir de al menos un camino; y calcula la puntuación asignada asociada al camino recorrido para evaluar el discurso. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procesamiento y evaluación de señales del habla
Campo técnico
La presente descripción se refiere generalmente a sistemas de reconocimiento del habla; y más específicamente, a sistemas de reconocimiento del habla que realizan procesamiento de señal de habla y reconocimiento de un usuario que lee un texto definido por el usuario; opcionalmente, el habla se captura usando un micrófono para generar una señal del habla que después se procesa para extraer información incluida en el habla, a saber, para evaluar el habla, por ejemplo, para usar la evaluación del habla para controlar los sistemas operados por voz de manos libres. Además, la presente descripción se refiere a métodos para evaluar el habla, por ejemplo, mediante el uso de sistemas de reconocimiento del habla mencionados anteriormente. Además, la presente descripción se refiere a un producto de programa informático que comprende un medio de almacenamiento legible por ordenador no transitorio que tiene instrucciones legibles por ordenador almacenadas en el mismo, siendo ejecutables las instrucciones legibles por ordenador mediante un dispositivo computarizado que comprende hardware de procesamiento para ejecutar los métodos mencionados anteriormente.
Antecedentes
Con avances en la tecnología, muchos dispositivos portátiles, por ejemplo, dispositivos de comunicación tales como teléfonos inteligentes, relojes inteligentes, PDA y similares, están provistos de sistemas de reconocimiento de voz. Estos sistemas de reconocimiento de voz están instalados en los dispositivos de comunicación y reciben de forma interactiva una entrada de audio (a saber, expresiones orales, por ejemplo) de una persona. Además, los sistemas de reconocimiento de voz, cuando están en funcionamiento, convierten las expresiones orales, a saber, la entrada de audio, en un formato de texto correspondiente, a partir del cual se deriva una determinación de las palabras correspondientes habladas. Convencionalmente, tales sistemas de reconocimiento de voz incluyen disposiciones de reconocimiento del habla automática que convierten la entrada de audio en texto. En general, el reconocimiento automático del habla tiene muchas aplicaciones, tales como asistentes personales virtuales, subtítulos de búsqueda de voz de difusiones de TV o procedimientos parlamentarios y sistemas de dictado, pero no se limitan a los mismos.
Cuando se realiza el reconocimiento de voz, se sabe que emplear una adaptación mejora el rendimiento del sistema de reconocimiento de voz. Dicha adaptación es un proceso matemático, en donde los modelos descriptivos se afinan para adaptarse a los matices de una entrada de audio determinada, por ejemplo debido a las aberraciones de dialecto o vocales de una persona que genera por vía oral la entrada de audio. En particular, la adaptación de orador adapta los modelos para ajustar mejores características del habla, y la adaptación del lenguaje se adapta al uso de palabras de un orador determinado.
Un desafío en el reconocimiento de voz es que el rendimiento de un sistema de reconocimiento de voz determinado se degrada cuando la interferencia acústica está presente en una señal de habla de entrada proporcionada al sistema determinado. Esta interferencia acústica conduce a complicaciones al realizar una parte de reconocimiento de un proceso de reconocimiento de voz. Por ejemplo, la interferencia acústica da como resultado al menos uno de:
(i) variaciones que surgen de los usuarios/oradores correspondientes, por ejemplo, que surgen de diferentes nacionalidades y acentos variables;
(ii) variaciones en el suministro de las mismas expresiones determinadas por un mismo orador/usuario determinado de una ocasión a otra, por ejemplo, debido a una infección de pliegue vocal, laringitis, entre otras;
(iii) variaciones en el estilo de voz de un orador/usuario a otro de entre una misma nacionalidad determinada; y
(iv) sonidos extraños (ruido añadido) recibidos de una persona asociada, por ejemplo un ceceo o tartamudeo, o incluso que surge de una modificación corporal de corte de lengua(“ lengua bífida” ).
Típicamente, los sistemas de reconocimiento de voz existentes se adaptan a tales variaciones en el suministro de expresiones. Por ejemplo, los sistemas acceden, cuando están en funcionamiento, a las bases de datos que contienen muchas versiones de una expresión determinada o versiones promediadas o agregadas de las expresiones determinadas utilizadas por los sistemas cuando realizan correlaciones o coincidencias. Sin embargo, debido a complejidades mencionadas anteriormente, el software de reconocimiento de voz más conocido no produce resultados precisos cuando se analizan señales de habla, y requiere un tiempo significativo cuando se realiza tal análisis. Además, los sistemas de reconocimiento de voz conocidos son incluso más ineficientes cuando se trata de reconocer expresiones de niños por debajo de un cierto umbral de edad, porque sus patrones de voz varían mucho dependiendo de su edad, sexo de los niños y similares. Además, los sistemas de reconocimiento de voz conocidos son potencialmente incapaces de reconocer errores de lectura y errores de pronunciación, y de proporcionar una retroalimentación a una persona asociada. Además, un coste computacional para reconocer expresiones es a menudo muy alto, cuando se encuentran las variaciones mencionadas anteriormente.
El documento GB2544070 A describe un sistema de procesamiento de habla (p. ej., para evaluar la fluidez y el dominio) que incluye una unidad de alineación de textos que toma características acústicas extraídas de un regulador y alinea posibles coincidencias de modelo acústico con cada expresión, junto con posibles palabras omitidas, palabras repetidas o palabras adicionales insertadas (er, um, etc.), cuyas tales posibilidades para cada expresión se almacenan en un diccionario de pronunciación múltiple.
Por lo tanto, a la luz de la discusión anterior, existen problemas asociados con los sistemas de reconocimiento del habla conocidos, en donde los sistemas realizan, por ejemplo, conversión de habla a texto.
Resumen
La presente descripción busca proporcionar un sistema mejorado de reconocimiento del habla, en donde, cuando está en funcionamiento, el sistema de reconocimiento del habla evalúa el habla.
La presente descripción también busca proporcionar un método para (de) evaluar las señales de habla capturadas. Según un primer aspecto de la invención, se proporciona un sistema como se define en la reivindicación 1.
La presente descripción busca proporcionar un sistema mejorado, más eficiente, más fiable que evalúa el habla; y además, la presente descripción busca proporcionar un sistema que emplee un algoritmo basado en transductor finito ponderado que proporcione un coste computacional y de latencia menor al realizar reconocimiento del habla y evaluación del habla.
Se apreciará que “ atravesar secuencialmente las unidades de texto base” se refiere a, por ejemplo, una secuencia temporal en la que las unidades de texto base potencialmente surgen en una expresión de habla capturada mediante el uso de un micrófono y almacenada en la memoria de datos de una disposición de procesamiento de datos.
La unidad de procesamiento comprende al menos un módulo de factor.
Opcionalmente, la puntuación asignada se calcula empleando el algoritmo basado en transductor finito ponderado. Opcionalmente, los algoritmos basados en transductores de estado finito ponderados se modifican dinámicamente en base a parámetros acústicos y pronunciación del usuario. En otras palabras, los algoritmos basados en transductores de estado finito ponderados, cuando se usan, potencialmente cambian de manera dinámica y temporal de manera adaptativa.
Opcionalmente, los parámetros acústicos incluyen al menos uno de: acento al hablar, estilo al hablar, pronunciación. Según la invención, el módulo de factor refina el texto definido por el usuario eliminando puntuaciones no léxicas y contenido no hablado adicional del texto definido por el usuario.
Más opcionalmente, la unidad de procesamiento supera una penalización a partir de la puntuación asignada cuando la expresión está sujeta a parámetros acústicos deficientes, por ejemplo, sujetos a un ceceo o tartamudeo de usuario, ruidos externos extraños de un entorno de usuario, entre otros.
Además, opcionalmente, la unidad de procesamiento transmite una señal de realimentación al dispositivo de usuario basada en la evaluación del habla. Por ejemplo, la unidad de procesamiento solicita una confirmación del usuario de que la unidad de procesamiento ha realizado una interpretación correcta de una expresión determinada.
Tal confirmación es, por ejemplo, altamente beneficiosa cuando ajusta de forma adaptativa los parámetros de los algoritmos basados en transductores de estado finito ponderados.
Según un segundo aspecto de la invención, se proporciona un método como se define en la reivindicación 8.
Según la invención, la calidad mapeada se basa en al menos uno de:
(i) pronunciación del texto base;
(ii) omisión de una unidad de texto base; y
(iii) uso de una unidad de texto de interpretación adicional que no está presente en la unidad de texto base. Opcionalmente, la ruta atravesada se identifica basada en la pluralidad de unidades de texto de interpretación.
Más opcionalmente, la puntuación asignada se calcula mediante el algoritmo basado en transductor de estado finito ponderado.
Según un tercer aspecto de la invención, se proporciona un producto de programa informático como se define en la reivindicación 11.
Se deducirán otros aspectos, ventajas, características y objetos de la presente descripción a partir de los dibujos y la descripción detallada de las realizaciones ilustrativas interpretadas junto con las reivindicaciones anexas que siguen.
Se apreciará que las características de la presente descripción pueden combinarse en diversas combinaciones sin abandonar el ámbito de la invención definido por las reivindicaciones adjuntas.
Breve descripción de las figuras
El sumario anterior, así como la siguiente descripción detallada de realizaciones ilustrativas, se comprende mejor al leerlo junto con los dibujos anexos. Para ilustrar la presente descripción, se muestran estructuras ilustrativas de la descripción en los dibujos. Sin embargo, la presente descripción no se limita a métodos e instrumentales específicos descritos en la presente memoria. Además, los expertos en la técnica entenderán que los dibujos no están a escala. En la medida de lo posible, los elementos similares se han indicado con números idénticos.
A continuación se describirán realizaciones de la presente descripción, a modo de ejemplo únicamente, con referencia a los siguientes diagramas, en donde:
La Figura 1 es una ilustración esquemática de un sistema que realiza reconocimiento del habla cuando está en funcionamiento;
las Figuras 2-5 son implementaciones ejemplares de un módulo de factor basado en algoritmos basados en transductores de estado finito ponderados que se usan en el sistema de la Figura 1, en donde el módulo de factor emplea al menos una ruta cuando realiza cálculos para ejecutar procesamiento y evaluación del habla;
la Figura 6 es una ilustración de la ruta atravesada identificada desde al menos una ruta mostrada en la Figura 2; y
la Figura 7 es una ilustración de las etapas de un método para usar el sistema de la Figura 1 para implementar el reconocimiento del habla, por ejemplo, el procesamiento y evaluación del habla, de un usuario que lee un texto definido por el usuario.
En los dibujos adjuntos, se emplea un número subrayado para representar un elemento sobre el que se coloca el número subrayado o un elemento al que está adyacente el número subrayado. Un número no subrayado se refiere a un elemento identificado por una línea que vincula el número no subrayado al elemento. Cuando un número no está subrayado y está acompañado por una flecha asociada, el número no subrayado se utiliza para identificar un elemento general al que la flecha apunta.
Descripción detallada de las realizaciones
La siguiente descripción detallada ilustra realizaciones de la presente descripción y formas en las que pueden implementarse. Aunque se han descrito algunos modos de realización de la presente descripción, los expertos en la técnica reconocerán que también son posibles otras realizaciones para llevar a cabo o poner en práctica la presente descripción.
En general, las realizaciones de la presente descripción se refieren a un sistema eficiente y adaptable para evaluar el habla.
Con referencia a la Figura 1, se muestra una ilustración esquemática de un sistema100,en donde, cuando está en funcionamiento, el sistema100realiza una evaluación del habla, según una realización de la presente descripción. Como se muestra, el sistema comprende un dispositivo de usuario102que se configura, a saber, se dispone cuando está en funcionamiento, para recibir un texto definido por el usuario. En una realización, el dispositivo de usuario102puede implementarse en hardware, software, firmware o una combinación de estos, en donde el dispositivo102recibe, cuando está en funcionamiento, el texto definido por el usuario. En un ejemplo, el dispositivo de usuario102puede almacenar el texto definido por el usuario, por ejemplo en la memoria de datos. En una realización, el dispositivo de usuario102puede ser un dispositivo portátil. Ejemplos del dispositivo de usuario102incluyen, aunque no de forma limitativa, un teléfono inteligente, una tableta y un asistente digital personal. En otra realización, el dispositivo de usuario102puede ser un dispositivo de escritorio (por ejemplo, un ordenador personal).
A lo largo de la presente descripción, el término“ texto definido por el usuario” utilizado en la presente memoria se refiere a una secuencia de comandos escrita que tiene contenido predefinido por el usuario; opcionalmente, el contenido está predefinido por un tercero. En un ejemplo, el texto definido por el usuario puede ser un pasaje de un libro. En otro ejemplo, el texto definido por el usuario puede incluir todos los contenidos de un libro. En otro ejemplo más, el texto definido por el usuario puede incluir todos los contenidos de una pluralidad de libros. En otro ejemplo más, el texto definido por el usuario puede ser cualquier tipo de contenido de texto que el usuario desee leer. En otro ejemplo más, el texto definido por el usuario que tiene cualquier tipo de contenido de texto puede ser de cualquier longitud arbitraria y no se limita a ningún recuento de caracteres, recuento de palabras o recuento de páginas. En una realización, el texto definido por el usuario es proporcionado por el usuario. En tal realización, el dispositivo de usuario102comprende una unidad de memoria, por ejemplo, implementada como memoria de datos que es accesible a un procesador de datos, en donde la unidad de memoria se configura, a saber, se dispone, cuando está en funcionamiento, para almacenar el texto definido por el usuario. En otra realización, el dispositivo de usuario102se configura, a saber, cuando está en funcionamiento, para recibir el texto definido por el usuario desde un servidor remoto. En tal realización, el dispositivo de usuario102comprende un módulo de comunicación que, cuando está en funcionamiento, recibe el texto definido por el usuario desde el servidor remoto.
A lo largo de la presente descripción, el término“módulo de comunicación” se refiere a una disposición de componentes programables y/o no programables interconectados, por ejemplo componentes de hardware tales como ASIC o hardware de circuito integrado digital diseñado a medida, que se configuran, a saber, se disponen cuando están en funcionamiento, para facilitar la comunicación de datos entre uno o más dispositivos electrónicos, módulos de software y/o bases de datos. El módulo de comunicación puede ser software, hardware, firmware y/o una combinación de los mismos.
Como se muestra, el sistema100comprende además una unidad de procesamiento104que se acopla, cuando está en funcionamiento, al dispositivo de usuario102.En una realización, la unidad de procesamiento104puede ser hardware, software, firmware o una combinación de estos que, cuando está en funcionamiento, procesa el texto definido por el usuario. Específicamente, la unidad de procesamiento104se ubica en una ubicación remota. La unidad de procesamiento104se acopla de forma comunicable, cuando está en funcionamiento, al dispositivo de usuario102a través de una red. Específicamente, la red puede ser cableada, inalámbrica o una combinación de la misma. Los ejemplos de la red incluyen, aunque no de forma limitativa, redes de área Local (LAN), redes de área amplia (WAN), red de radio, Internet®, redes de radio y redes de telecomunicaciones.
La unidad de procesamiento104, cuando está en funcionamiento, refina el texto definido por el usuario para formar un texto base que tiene una pluralidad de unidades de texto base. A lo largo de la presente descripción, el término“ texto base” como se utiliza en la presente memoria se refiere a un guion escrito filtrado, en donde la puntuación no léxica y el contenido no hablado adicional se eliminan del texto definido por el usuario; el “ texto base” , por ejemplo, puede generarse aplicando procesamiento basado en reglas o usando una disposición de red neuronal a la que se enseña cómo generar el “texto base” del texto definido por el usuario; opcionalmente, la disposición de red neuronal se implementa como una jerarquía de aprendizaje profundo de máquinas de estado variable pseudoanalógico implementadas usando hardware de procesamiento digital. La unidad de procesamiento104comprende al menos un módulo106, en donde el al menos un módulo106incluye un módulo de factor para refinar el texto definido por el usuario eliminando puntuaciones no léxicas y contenido no hablado adicional del texto definido por el usuario. Se apreciará que el contenido no hablado adicional incluya, aunque no de forma limitativa, números de página, números de línea, entre otros. En un ejemplo, el texto definido por el usuario ilustra “The lazy old king, who got nothing done! “ chocolate for breakfast” , “ he did command” . En tal ejemplo, la unidad de procesamiento104refina el texto definido por el usuario para eliminar la puntuación no léxica y el contenido no hablado adicional del mismo para formar el texto base empleando el módulo de factor. En un caso de este tipo, el texto base ilustra “The lazy old king who got nothing done chocolate for breakfast he did command” . Se apreciará que tal manera de funcionamiento corresponde a recibir una entrada oral de audio para generar una señal correspondiente, procesar la señal para convertir en datos de texto correspondientes por medio de emplear procesos de comparación y/o correlación, y después filtrar selectivamente los datos de texto para eliminar ciertos tipos de firma de datos a partir de los mismos para generar datos filtrados de forma selectiva correspondientes, a saber, el texto base ilustra “ The lazy old king who got nothing done chocolate for breakfast he did command” , como se mencionó anteriormente. A continuación, el texto base se procesa adicionalmente, como se describirá más adelante.
A lo largo de la presente descripción, el término “ unidades de texto base” usado en la presente descripción se refiere a un elemento usado para formar una oración y que se muestra típicamente con un espacio a cada lado. Opcionalmente, se utiliza una pluralidad de unidades de texto base para constituir el texto base. Como se ha mencionado en el ejemplo anterior, el texto base ilustra “ The lazy old king who got nothing done chocolate for breakfast he did command” . En tal ejemplo, las palabras “The” , “ lazy” , “ old” , “ king” , “who” , “ got” , “ nothing” , “ done” , “ chocolate” , “ for” , “ breakfast” , “ he” , “ did” , y “ command” , son la pluralidad de unidades de texto base. Además, opcionalmente, el módulo de factor, cuando está en funcionamiento, reconoce subsecuencias completas del texto base; tal reconocimiento de subsecuencias se puede lograr realizando una comparación o correlación contra varias plantillas de palabra múltiple, en donde las plantillas se generan por máquina a partir de palabras que están mutuamente relacionadas por medio de una o más reglas gramaticales, por ejemplo. En un ejemplo, el módulo de factor puede reconocer “ The lazy old king who got nothing” . En otro ejemplo, el módulo de factor puede reconocer “ nothing done chocolate for breakfast” . En otro ejemplo más, el módulo de factor también puede reconocer “ breakfast he did command” .
La unidad de procesamiento104además, cuando está en funcionamiento, define al menos una ruta que atraviesa la pluralidad de unidades de texto base, en donde la al menos una ruta atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente. Específicamente, el módulo de factor de la unidad de procesamiento104se configura, a saber, cuando está en funcionamiento, para definir al menos una ruta que atraviesa la pluralidad de unidades de texto base (explicadas más adelante con la Figura 2). Se apreciará que al menos una ruta se define para cada una de las unidades de texto base. Opcionalmente, la unidad de procesamiento evalúa múltiples rutas de texto104.
La unidad de procesamiento104además, cuando está en funcionamiento, recibe una expresión de un usuario determinado para cualquier punto arbitrario dentro del texto definido por el usuario desde el dispositivo de usuario102. En tal caso de ejemplo, el dispositivo de usuario102se configura, a saber, se dispone cuando esté en funcionamiento, para recibir la expresión del usuario determinado que lee el texto definido por el usuario, en donde el usuario puede comenzar a leer desde cualquier punto dentro del texto definido por el usuario. A lo largo de la presente descripción, el término “expresión para cualquier punto arbitrario dentro del texto definido por el usuario” como se utiliza en la presente memoria se refiere a una secuencia de habla audible que consiste en una o más palabras presentes en cualquier lugar en el texto definido por el usuario. Específicamente, el usuario proporciona una o más expresiones audibles habladas en un micrófono del dispositivo de usuario, o en un micrófono de manos libres u otro aparato de transducción sensible al sonido. A continuación, la expresión proporcionada por el usuario se transmite a la unidad de procesamiento104a través del módulo de comunicación del dispositivo de usuario102.
La unidad de procesamiento104procesa la expresión de generar un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación. Por ejemplo, la unidad de procesamiento104,cuando está en funcionamiento, procesa la expresión de extraer características acústicas, y después, genera un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación, en donde el texto de interpretación está en una forma digital que después se convierte en una representación espectral, por ejemplo una forma de espectro armónico de Fourier temporal, que atraviesa un análisis para hacer coincidir la representación espectral con un guion escrito. A lo largo de la presente descripción, el término “texto de interpretación’ como se utiliza en la presente memoria se refiere a un texto legible por el sistema generado convirtiendo la expresión recibida en una forma digital.
Se apreciará que el término “pluralidad de unidades de texto de interpretación’ como se utiliza en la presente memoria se refiere a un elemento más pequeño del texto de interpretación en la forma digital. En una realización, una pluralidad de unidades de texto de interpretación comprende fonemas. A lo largo de la presente descripción, el término “fonemas” utilizado en la presente memoria, se refiere a una de las unidades de sonido que permiten la diferenciación de diferentes palabras en un lenguaje. Por ejemplo, en las palabras ‘sun’ y ‘ bun’ , los fonemas /s/ y /b/ permiten la diferenciación de las palabras, para permitir que un oyente entienda el contexto y el significado del habla que comprende las palabras. En una realización, los fonemas comprenden al menos uno de los fonemas y/o fonemas consonantes. Por ejemplo, los fonemas pueden comprender fonemas vocales tales como /e/, /u/ e /<i>/ y fonemas consonantes tales como /b/, /g/ y /m/. Además, es bien sabido que los fonemasvocalestienen diferentes niveles de energía sonora y/o elementos armónicos de sonido (es decir, componentes) en comparación con los fonemasconsonantes. Específicamente, los fonemas vocales tienen un mayor nivel de energía sonora que los fonemas consonantes. En tal ejemplo, la unidad de procesamiento104se configura opcionalmente, a saber, cuando está en funcionamiento, para identificar los fonemas basados en una diferencia de nivel de energía sonora de los fonemas. Por ejemplo, en la palabra “tub” la diferencia en el nivel de energía sonora de los fonemas consonantes /t/ y /b/ frente al fonema vocal /<a>/ puede permitir la identificación y diferenciación del fonema vocal /A/de los fonemas consonantes /t/ y /b/.
La unidad de procesamiento104mapea la pluralidad de unidades de texto de interpretación a la pluralidad de unidades de texto base. Tal mapeo se ha mostrado junto con la Figura 2, como se explica en detalle a continuación. Opcionalmente, la unidad de procesamiento104comprende algoritmos basados en transductores de estado finito ponderados. Más opcionalmente, la unidad de procesamiento104se configura, a saber, cuando está en funcionamiento, para mapear la pluralidad de unidades de texto de interpretación a la pluralidad de unidades de texto base empleando algoritmos basados en transductores finitos ponderados; tales algoritmos deben apreciarse que son aproximadamente similares a una forma de coincidencia o correlación. A lo largo de la presente descripción, el término “ algoritmos basados entransductores de estado finito ponderados” , como se utiliza en la presente memoria, se refiere a un algoritmo basado en la noción algebraica de semianillo. Se apreciará que la noción de semianillo permite una definición de representaciones de autómatas y algoritmos sobre una amplia clase de conjuntos de pesos y operaciones algebraicas. Específicamente, los algoritmos basados en transductores de estado finito ponderados permiten realizar transiciones de estado de etiquetado con símbolos de entrada y salida. Según la presente descripción, el símbolo de entrada se refiere al texto base y el símbolo de salida se refiere al texto de interpretación. Por lo tanto, la unidad de procesamiento104permite codificar un mapeo del texto base y el texto de interpretación, secuencialmente, empleando algoritmos basados en transductores de estado finito ponderados. En una realización, los algoritmos basados en transductores de estado finito ponderados encapsulan el modelo acústico, modelo de lenguaje y diccionario de pronunciación. En tal realización, el modelo acústico comprende determinar los fonemas, las unidades básicas de habla que distinguen una palabra de otra. Por ejemplo, el modelo acústico comprende un acento al hablar, un estilo al hablar y un entorno acústico. El modelo de lenguaje asigna una puntuación a cada posible oración de salida, que representa una probabilidad previa de que esta oración se hablara independientemente de cualquier información acústica. Opcionalmente, los algoritmos basados en transductores de estado finito ponderados encapsulan al menos un modelo acústico, modelo de lenguaje y diccionario de pronunciación. En una realización, el modelo de lenguaje incluye un modelo de gramática. Se apreciará que el modelo de gramática comprende una secuencia contigua de fonemas, sílabas, letras, palabras o pares de bases. Más opcionalmente, el modelo de gramática cambia dinámicamente según los parámetros acústicos y la pronunciación de la persona, por ejemplo sustancialmente en tiempo real, a saber, en menos de unos pocos segundos, por ejemplo, en menos de 5 segundos. Por ejemplo, mientras que la persona (por ejemplo, el usuario determinado) pronuncia la palabra “who” como “wu-hoo” , el modelo de gramática puede guardar la palabra “wu-hoo” para que se determine como “who” en el futuro; el modelo de gramática, por lo tanto, se adapta temporalmente dinámicamente en su forma de funcionamiento. T al implementación de la unidad de procesamiento104es ventajosa en términos de proporcionar una implementación más rápida, que implica menos costes computacionales y menos funcionamiento propenso a errores.
Además, la unidad de procesamiento104se configura, a saber, cuando está en funcionamiento, para asignar una puntuación a la al menos una ruta basada en una calidad mapeada. A lo largo de la presente descripción, el término“puntuación”como se utiliza en la presente memoria se refiere a pesos asignados en transiciones a los símbolos de entrada y salida empleando los algoritmos basados en transductores de estado finito ponderados. Específicamente, la puntuación a al menos una ruta basada en la calidad mapeada se calcula empleando una probabilidad logarítmica negativa. Según la invención, la calidad mapeada se basa en al menos uno de: una pronunciación del texto base, la omisión de una unidad de texto base, la utilización de una unidad de texto de interpretación adicional que no está presente en la unidad de texto base. Opcionalmente, la puntuación se calcula en base a probabilidades, duraciones, penalizaciones o cualquier otra cantidad que se acumule a lo largo de al menos una ruta para calcular la puntuación general de mapeo. A continuación, la unidad de procesamiento104se configura, a saber, cuando está en funcionamiento, para identificar una ruta atravesada desde la al menos una ruta. A lo largo de la presente descripción, el término“ ruta atravesada”como se utiliza en la presente memoria, se refiere a una ruta seleccionada por la unidad de procesamiento104basada en el texto de interpretación. Se apreciará que la ruta atravesada se determina basada en la calidad acústica, tal como el acento al hablar, el estilo al hablar y el entorno acústico. En un ejemplo, cuando el usuario está leyendo el texto definido por el usuario y omite una palabra o pronuncia la palabra incorrectamente, la unidad de procesamiento104seleccionará una ruta que identifique correctamente la expresión. Específicamente, la ruta atravesada se selecciona basada en una ruta más corta disponible para el cálculo. En otro ejemplo, según la invención, si el usuario que lee el texto definido por el usuario omite una palabra o pronuncia la palabra incorrectamente, la unidad de procesamiento104seleccionará una ruta que identifique correctamente la expresión que incluye una palabra omitida o una palabra pronunciada incorrectamente. Se apreciará que la ruta más corta se determina basada en la puntuación asignada a la al menos una ruta basada en la calidad mapeada. Tal asignación de la puntuación se ha mostrado junto con las Figuras 2-5, como se explica en detalle a continuación.
Se apreciará que una “ ruta” es representativa de una transición de un estado dentro de una disposición de procesamiento de datos, dentro de un entorno de datos, en donde las rutas son representativas de transiciones potencialmente fonéticas que se producen dentro de una señal de habla digitalizada; tal transición del estado es similar a las transiciones de estado neural que se producen dentro de un cerebro humano al escuchar e interpretar el habla humana.
Además, la unidad de procesamiento104se configura, a saber, cuando está en funcionamiento, para calcular la puntuación asignada asociada con la ruta atravesada para evaluar el habla. Específicamente, la puntuación asignada de la pluralidad de rutas presentes en la ruta atravesada se compone computacionalmente, por ejemplo se acumula, para evaluar el habla del usuario. En un ejemplo, un usuario expresa el texto definido por el usuario que ilustra “The lazy old king, who got nothing done! “ chocolate for breakfast” , he did command” . En tal ejemplo, la unidad de procesamiento104refina el texto definido por el usuario para generar un texto base que tiene una pluralidad de unidades de texto base, en donde el texto base ilustra “The lazy old king who got nothing done chocolate for breakfast he did command” . A continuación, la unidad de procesamiento104recibe la expresión del dispositivo de usuario102y genera un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación. En tal ejemplo, si al menos una de la pluralidad de unidades de texto de interpretación es diferente de la pluralidad de unidades de texto base (por ejemplo, el usuario habla incorrectamente la oración mencionada anteriormente, o usa una pronunciación incorrecta, u omite una palabra), la unidad de procesamiento104determina que la expresión no es coherente con el texto definido por el usuario. En tal caso, la unidad de procesamiento104puede transmitir una retroalimentación al dispositivo de usuario102lo que indica una incoherencia en la expresión. Alternativamente, si al menos una de la pluralidad de unidades de texto de interpretación es la misma que la pluralidad de unidades de texto base, la unidad de procesamiento104puede transmitir una señal al dispositivo de usuario102indicando la coherencia. Opcionalmente, la realimentación proporcionada por la unidad de procesamiento104está en forma de una señal de audio, una señal visual o una combinación de las mismas. La realimentación proporcionada por la unidad de procesamiento104es ventajosa en términos de aumentar, por ejemplo, maximizar, el potencial del usuario y ayudar a mejorar el rendimiento del usuario. Además, la retroalimentación también ayuda a analizar el rendimiento del propio usuario, por ejemplo, en forma de un aparato de autoevaluación oral que monitoriza un rendimiento oral de un individuo determinado, un aparato deportivomutatis mutandisen un centro de entrenamiento (centro) que evaluará un rendimiento atlético del usuario determinado. A muchos de estos aparatos deportivos se le ha otorgado derechos de patente tanto en Europa, China como en Estados Unidos, por ejemplo. La presente descripción puede considerarse que recae en tal categoría de invención.
Con referencia a las Figuras 2-5, los estados se representan por círculos y se marcan con su número único, en donde círculos individuales representan estados de inicio, ilustrados como un estado de inicio1,mientras los círculos dobles ilustran posibles estados finales, ilustrados como un estado final2,un estado final3,un estado final4,un estado final5,un estado final6,un estado final7,y un estado final8.Además, en notación de transductor de estado finito ponderado, una transición de un estado anterior a un nuevo estado está representada por al menos una ruta, ilustrada en forma de P<xyz>, en donde el elemento “x” representa un estado anterior, “ y” representa un estado posterior, y “z” representa el número correspondiente de ruta desde “x” hasta “ y” .
Con referencia a la Figura 2, se muestra una implementación de un módulo de factor200basado en un algoritmo de transductor de estado finito ponderado en un sistema, por ejemplo, en el sistema mencionado anteriormente100,según una modalidad de la presente descripción. Como se muestra en la Figura 2, al menos una ruta, ilustrada como rutaP<12A>, P<12B>, P13A, P<23A>, P<14A>, P<34A>, P<45A>, P<56A>, P<67A>, P<15A>, P<16A>yP<18A>,que atraviesa la pluralidad de unidades de texto base se define, en donde la al menos una rutaP<12A>, P<12B>, P13A, P<23A>, P<14A>, P<34A>, P<45A>, P<56A>, P<67A>, P<15A>, P<16A>yP<18A>,atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente. En un ejemplo, el módulo de factor200reconoce la subsecuencia que ilustra “ old king who got nothing done” y genera una pluralidad de unidades de texto base, como por ejemplo, “ old” , “ king” , “who” , “ got” , “ nothing” y “ done” . Una unidad de procesamiento (por ejemplo, tal como la unidad de procesamiento104de la Figura 1) recibe el texto definido por el usuario de un usuario. La unidad de procesamiento104,cuando está en funcionamiento, procesa la expresión para extraer características acústicas de la misma y genera un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación. En tal ejemplo, el usuario lee correctamente el texto definido por el usuario, es decir, el texto de interpretación ilustra “ old king who got nothing done” . La unidad de procesamiento104,cuando está en funcionamiento, mapea las unidades de texto de interpretación a la pluralidad de unidades de texto base, empleando algoritmos basados en transductores de estado finito ponderados. En notación de transductor de estado finito ponderado, el mapeo se representa como A:B, en donde A representa una pluralidad de unidades de texto de interpretación y B representa una pluralidad de unidades de texto base. En tal ejemplo, la unidad de procesamiento104mapea las unidades de texto de interpretación con (a saber, sobre) las unidades de texto base correspondientes. Por lo tanto, en una notación de transductor de estado finito ponderado, un mapeo se representa como old:old en la rutaP<12A>, king:king en la rutaP<23A>,who:who en la rutaP<34A>,got:got en la rutaP<45A>,nothing:nothing en la rutaP<56A>,y done:done en la rutaP<67A>,en donde la rutaP<67A>representa el estado final. Se apreciará que, en este ejemplo, las rutasP<12B>, P13A, P<14A>, P<15A>, P<16A>,yP<18A>ilustran que no hay entrada ni salida.
De forma ventajosa, el módulo de factor200permite al usuario comenzar a leer desde cualquier punto del texto definido por el usuario. Particularmente, el módulo de factor200permite al usuario leer libremente, es decir, comenzar a leer y terminar de leer en cualquier punto arbitrario dentro del texto definido por el usuario. En un ejemplo, el usuario comienza a leer “ rey que no hacía nada” . En tal ejemplo, la rutaP<12B>se selecciona para iniciar directamente el mapeo de la palabra “ king” . En otro ejemplo, el usuario comienza a leer “ no hacía nada” . En tal ejemplo, la rutaP<14A>se selecciona para iniciar el mapeo directamente de la palabra “ got” .
Posteriormente, la unidad de procesamiento se configura, a saber, se dispone cuando está en funcionamiento, para asignar una puntuación a la al menos una rutaP<12A>, P<12B>, P13A, P<23A>, P<14A>, P<34A>, P<45A>, P<56A>, P<67A>, P<15A>, P<16A>yP<18A>,basado en el mapeo empleando el algoritmo basado en transductor de estado finito ponderado e identifica una ruta atravesada, ilustrada comoP<12A>, P<23A>, P<34A>, P<45A>, P<56A>,yP<67A>de la al menos una rutaP<12A>, P<12B>, P13A, P<23A>, P<14A>, P<34A>, P<45A>, P<56A>, P<67A>, P<15A>, P<16A>yP<18A>.Opcionalmente, la puntuación asignada se calcula empleando los algoritmos basados en transductores finitos ponderados. Específicamente, la puntuación de al menos una rutaP<12A>, P<12B>, P13A, P<23A>, P<14A>, P<34A>, P<45A>, P<56A>, P<67A>, P<15A>, P<16A>,oP<18A>se calcula empleando una probabilidad logarítmica negativa para determinar una ruta más corta.
Con referencia a la Figura 3, se muestra una implementación de un módulo de factor300basado en un algoritmo de transductor de estado finito ponderado en un sistema, por ejemplo en el sistema100, según la invención. Como se muestra en la Figura 3, al menos una ruta, ilustrada como rutaP<12A>, P<12B>, P13A, P<15A>, P<16A>,P<23A>, P<23B>, P<14A>, P<34A>, P<34B>, P<45A>, P<45B>, P<56A>, P<56B>, P<67A>,yP<67B>,que atraviesa la pluralidad de unidades de texto base se define, en donde la al menos unaP<12A>, P<12B>, P13A, P<15A>, P<16A>, P<23A>, P<23B>, P<14A>, P<34A>, P<34B>, P<45A>, P<45B>, P<56A>, P<56B>, P<67A>,oP<67B>,atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente.
Opcionalmente, la unidad de procesamiento se configurada, a saber, cuando está en funcionamiento, para desacelerar una penalización de la puntuación asignada cuando se somete a parámetros acústicos deficientes. Según la invención, el sistema (por ejemplo, tal como el sistema100de la Figura 1) para evaluar el habla permite la omisión de palabra única en cualquier punto del texto. Sin embargo, para evitar la omisión de una gran cantidad de palabras, el sistema deduce una penalización de omisión a partir de la puntuación asignada. Además, opcionalmente, la penalización por omisión de cada palabra omitida es impuesta por la unidad de procesamiento (por ejemplo, tal como la unidad de procesamiento104de la Figura 1) empleando un algoritmo basado en transductor de estado finito ponderado. En una notación de transductor de estado finito ponderado, un mapeo determinado se representa como A: B/x, en donde A representa una pluralidad de unidades de texto de interpretación, B representa una pluralidad de unidades de texto base y x representa la penalización por omisión. Como se ha aclarado anteriormente, en una notación de transductor de estado finito ponderado, un mapeo se representa como old:old/1 en la rutaP<12A>, king:king/1 en una rutaP<23A>,who:who/1 en una rutaP<34A>,got:got/1 en una rutaP<45A>,nothing:nothing/1 en una rutaP<56A>,y done:done/1 en una rutaP<67A>,en donde la rutaP<67A>representa el estado final. En tal ejemplo, si el usuario omite la palabra “who” , la rutaP<34B>se selecciona en lugar de la rutaP<34A>. Además, la ruta se representa como#0: <esp>/5 en notación de transductor de estado finito ponderado, que muestra que una penalización de 5 se deduciría de la puntuación asignada. Además, opcionalmente, el sistema para el procesamiento y evaluación del habla además deduce una penalización de inserción para evitar producir palabras adicionales. Más opcionalmente, la penalización de inserción se deduce por la unidad de procesamiento104empleando un algoritmo basado en transductor finito ponderado. La deducción de penalización proporciona una ventaja de ayudar al usuario a identificar los errores del usuario en términos de una pronunciación incorrecta y omisión de una o más palabras. Por lo tanto, deducir una penalización obliga al usuario a aumentar la atención mientras lee.
Con referencia a continuación a la Figura 4, se muestra una implementación de un módulo de factor400basado en algoritmos basados en transductores de estado finito ponderados en un sistema, por ejemplo en el sistema100,según otra modalidad de la presente descripción. Como se muestra en la Figura 3, al menos una ruta, ilustrada como rutaP<12A>, P<12B>, P13A, P<l 5A>, P<l 6A>,P<l 8A>, P<23A>, P<23B>, P<23C>,P<l 4A>,P<34A>, P<34B>, P<34C>,P<45A>,P<45B>, P<45C>,P<56A>, P<56B>,P<56C>,P<67A>yP<67B>que atraviesa la pluralidad de unidades de texto base se define, en donde la al menos unaP<12A>, P<12B>, P13A, P<15A>, P<16A>, P<18A>, P<23A>, P<23B>, P<23C>, P<14A>, P<34A>, P<34B>, P<34C>, P<45A>, P<45B>, P<45C>, P<56A>, P<56B>, P<56C>, P<67A>oP<67B>,atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente.
Opcionalmente, la unidad de procesamiento104se configura, a saber, se dispone cuando esté en funcionamiento, para determinar errores de lectura causados debido a una pronunciación diferente de una palabra en el texto definido por el usuario. Por ejemplo, el texto definido por el usuario ilustra “ old king who got nothing done” . En tal ejemplo, el usuario puede pronunciar la palabra “ king” como “ kin-guh” . En tal ejemplo, la unidad de procesamiento se configura para determinar que el usuario ha pronunciado erróneamente una ‘g’ muda al final de la palabra “ king” . A este respecto, el módulo de factor400puede definir una ruta adicional, ilustrada como la rutaP<23C>. En notación de transductor de estado finito ponderado, el mapeo para la rutaP<23C>se representa como kin-guh:king/3, en donde, kinguh representa una pronunciación errónea de la palabra “ king” , ‘ king’ representa una unidad de texto base y ‘3’ representa una penalización para la pronunciación errónea de la palabra.
En otro ejemplo, el usuario puede anunciar la palabra “who” como “wu-hoo” (pronunció erróneamente la ‘w ’ muda). En tal ejemplo, la unidad de procesamiento104se configura, a saber, se dispone cuando está en funcionamiento, para determinar que el usuario ha pronunciado erróneamente una ‘w ’ muda al inicio de la palabra “who” . A este respecto, el módulo de factor400puede definir una ruta adicional, ilustrada como la rutaP<34C>. En una notación de transductor de estado finito ponderado, el mapeo para la rutaP<34C>se representa como wu-hoo:who/3, en donde, wuhoo: representa una pronunciación errónea de la palabra “who” , ‘who’ representa una unidad de texto base y ‘3’ representa una penalización para la pronunciación errónea de la palabra. Similarmente, en otro ejemplo, el usuario puede hacer una sustitución de pronunciación “ r” en lugar de “ d” en “ nada” . A este respecto, el módulo de factor400puede definir una ruta adicional, ilustrada como la rutaP<56C>. Opcionalmente, tales rutas adicionales, por ejemplo, tales como las rutasP<23C>, P<34C>yP<56C>pueden definirse basadas en el estilo del habla, la edad y la pronunciación del usuario que lee el texto definido por el usuario.
Más opcionalmente, algoritmos basados en transductores de estado finito ponderados, como se emplea en el sistema100,se modifican dinámicamente en base a parámetros acústicos y pronunciación del usuario. Además, opcionalmente, los parámetros acústicos incluyen al menos uno de: acento al hablar, estilo al hablar, pronunciación. Se apreciará que los algoritmos basados en transductores de estado finito ponderados son modificados por el usuario asociado con el sistema para evaluar el habla. En un ejemplo, la pronunciación de un usuario que pertenece a India puede ser diferente de la pronunciación del usuario que pertenece a Japón. Una modificación dinámica de algoritmos basados en transductores de estado finito ponderados que utilizan parámetros acústicos y la pronunciación del usuario es ventajosa en términos de hacer el sistema100adaptable y más preciso.
Con referencia a la Figura 5, se muestra una implementación de un módulo de factor500basado en un algoritmo de transductor de estado finito ponderado en un sistema, por ejemplo en el sistema100, según otra realización de la presente descripción. Opcionalmente, el módulo de factor500de la Figura 5 es una variante determinada del módulo de factor300de la Figura 3. El módulo de factor determinado500define al menos una ruta, ilustrada como rutasP<12A>, P13A, P<13B>, P<14A>, P<14B>, P<15A>, P<15B>, P<16A>,P<16B>, P<17A>, P<17B>, P<18A>, P<23A>, P<23B>, P<34A>, P<34B>, P<45A>,P<45B>, P<56A>, P<56B>, P<67A>yP<67B>,que atraviesan la pluralidad de unidades de texto base se definen, en donde la al menos unaP<12A>, P<12B>, P13A, P<15A>, P<16A>, P<17A>, P<23A>, P<23B>, P<14A>,P<34A>, P<34B>, P<45A>, P<45B>, P<56A>, P<56B>, P<67A>, P<67B>, P13AP<13B>, P<14A>, P<14B>P<15A>, P<15B>P<16A>, P<16B>, P<17A>, P<17B>oP<18B>,atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente.
Como se ha aclarado anteriormente, el módulo de factor500reconoce la subsecuencia que ilustra “ old king who got nothing done” y genera una pluralidad de unidades de texto base, como por ejemplo, “ old” , “ king” , “who” , “ got” , “ nothing” y “ done” . A continuación, la unidad de procesamiento104es operable para procesar la expresión de extraer características acústicas de la misma y genera un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación. En un ejemplo, un usuario inicia la expresión de la palabra “who” . En tal ejemplo, una rutaP<14B>se proporciona que determina que el usuario está iniciando la expresión de la palabra “who” sin atravesar las rutasP<12A>yP<23A>. Similarmente, en otro ejemplo, si el usuario comienza a leer aleatoriamente y comienza a leer desde la palabra “ hacía” . En tal ejemplo, una rutaP<15A>se proporciona que determina que el usuario está iniciando la expresión de la palabra “ got” sin atravesar las rutasP<12A>, P<23A>, P34A.
De forma ventajosa, el módulo de factor determinado500contiene como máximo una ruta que coincide con cualquier expresión determinada, reduciendo así una cantidad de recursos computacionales y acceso a la memoria de datos necesarios para procesar la expresión. Por lo tanto, el módulo de factor determinado500permite que la unidad de procesador104aumente una eficacia computacional, por ejemplo del sistema100, identificando una ruta única de manera eficiente sin ningún retardo, para cualquier expresión.
En un ejemplo, el módulo de factor determinado500codifica una pluralidad de unidades de texto base en una forma de transductor de estado finito ponderado para realizar el reconocimiento de todas las subcadenas posibles del texto definido por el usuario. Posteriormente, para realizar el reconocimiento y la coincidencia de la pluralidad de unidades de texto base con características acústicas, la unidad de procesamiento104realiza una extracción de la pluralidad de unidades de texto de interpretación. Dicha coincidencia se logra al componer primero un transductor G de gramática con un transductor L de estado finito de léxico para formar un transductor de LG compuesto en donde, el transductor G de gramática y el transductor L de estado finito de léxico son parte del modelo de lenguaje. El término“ Compuesto o composición”como se utiliza en la presente memoria se refiere a una operación estándar usada con referencia a transductores de estado finito.
El transductor L de léxico comprende pronunciaciones estándar de una o más formas fonéticas codificadas en inglés. Opcionalmente, el transductor L de léxico también puede incluir errores de pronunciación, tales como “ kin-guh” , como ya se ha aclarado con referencia a la Figura 4. Tal error de pronunciación puede diseñarse a mano y sugerirse por diversos profesionales educativos o puede inferirse automáticamente de las expresiones recibidas del usuario.
Además, el transductor LG compuesto a continuación se compone de un transductor C de contexto (que es parte del modelo de lenguaje) para formar un transductor CLG compuesto que permite el modelado de un contexto fonético de izquierda a derecha. Tal modelado convierte la representación acústica de los fonemas individuales a las unidades dependientes del contexto llamadas fonemas triples. El término “ fonema triple” como se utiliza en la presente memoria se refiere a una secuencia de tres fonemas. Los fonemas triples son útiles en el procesamiento de lenguaje natural donde se usan para establecer los diversos contextos en los que un fonema puede producirse en un lenguaje natural particular.
El transductor CLG compuesto se compone además de un transductor H (que forma parte del modelo de lenguaje) que mapea unidades de fonemas triples dependientes del contexto en agrupaciones y también establece en un modelo oculto de Markov. Durante el procesamiento acústico por la unidad de procesamiento104,a cada posible oración de salida se asigna una puntuación por un transductor H del transductor compuesto HCLG. Esto permite calcular una puntuación de coincidencia acústica completa para todas las rutas en el transductor de gramática G, al incorporar dependencia de contexto fonético, el léxico de pronunciación y gramática relevante al lenguaje.
Como se describe con referencia a la Figura 3, el sistema (por ejemplo, tal como el sistema100de la Figura 1) para evaluar el habla permite omitir una sola palabra en cualquier punto en el texto definido por el usuario. Sin embargo, una omisión de palabra única conduce a la posibilidad de muchas rutas únicas en un algoritmo de transductor de estado finito ponderado y, por lo tanto, conduce a requisitos de almacenamiento prohibitivos y de memoria cuando el texto definido por el usuario es relativamente grande. Por lo tanto, para superar tal problema, el transductor G de gramática se determina antes de reconocer rutas de omisión de palabra única, y se compone del transductor L de léxico, el transductor C de contexto y el transductor H. Opcionalmente, la unidad de procesamiento104incluye un decodificador de Viterbi especializado que aumenta dinámicamente el transductor determinado con posibles rutas de omisión de palabra durante el mapeo de unidades de texto de interpretación a la pluralidad de unidades de texto base. Dicho aumento dinámico del transductor determinado y las posibles rutas de omisión de palabra ayuda a determinar las rutas de omisión de palabra, que potencialmente proporciona una posibilidad de lograr una mejor puntuación.
Haciendo referencia a la Figura 6, se muestra una ilustración de una ruta atravesada identificada desde al menos una ruta descrita con referencia a la Figura 2, según una realización de la presente descripción. Específicamente, la ruta atravesada identificada se basa en la pluralidad de unidades de texto de interpretación. Como se muestra, si el usuario expresa correctamente el texto definido por el usuario, la unidad de procesador104se configurado, a saber, se dispone cuando está en funcionamiento, para identificar la ruta a partir deP<12A>,y a continuación atravesar las rutasP<23A>, P<34A>, P<45A>, P<56A>,yP<67A>.A continuación, la unidad de procesamiento104se configura, a saber, cuando está en funcionamiento, para calcular la puntuación de la pluralidad de rutas a través deP<12A>, P<23A>, P<34A>, P<45A>, P<56A>,yP<67A>,empleando algoritmos basados en transductores de estado finito ponderados. Específicamente, la puntuación de al menos una rutaP<12A>, P<23A>, P<34A>, P<45A>, P<56A>,yP<67A>,se calcula empleando una probabilidad logarítmica negativa para determinar una ruta más corta.
Opcionalmente, el transductor de factor identifica de manera fiable porciones de un habla de usuario que puede usarse como material de entrenamiento para mejorar aún más los modelos acústicos con experiencia durante un tiempo transcurrido.
Con referencia a la Figura 7, se muestra una ilustración de las etapas de un método700para evaluar el habla utilizando un sistema (por ejemplo, tal como el sistema100de la Figura 1). En una etapa702, se recibe un texto definido por el usuario, por ejemplo, a partir del análisis de una señal de habla capturada proporcionada desde un micrófono. En una etapa704el texto definido por el usuario se refina para formar un texto base que tiene una pluralidad de unidades de texto base. En una etapa706, se define al menos una ruta que atraviesa la pluralidad de unidades de texto base, en donde la al menos una ruta atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente. En una etapa708, se recibe una expresión para cualquier punto arbitrario dentro del texto definido por el usuario. A continuación, en una etapa710,la expresión se procesa para generar un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación. Además, en una etapa712,la pluralidad de unidades de texto de interpretación se mapean a la pluralidad de unidades de texto base.
En una etapa714,se calcula una puntuación y a continuación se asigna a la al menos una ruta basada en una calidad mapeada. En una etapa716,se identifica una ruta atravesada desde al menos una ruta. A continuación, en una etapa718,una puntuación asignada asociada con la ruta atravesada se calcula para evaluar el habla.
Las etapas702a718son solamente ilustrativas y pueden proporcionarse otras alternativas en las cuales se añadan, eliminen o proporcionen más etapas adicionales en un orden diferente sin salirse del ámbito de aplicación de las reivindicaciones de la presente memoria. Por ejemplo, en el método700,la calidad mapeada se basa en la pronunciación del texto base, a saber, saltando una unidad de texto base, en donde una unidad de texto de interpretación adicional no está presente en la unidad de texto base. Opcionalmente, en el método700,la ruta atravesada se identifica basada en la pluralidad de unidades de texto de interpretación. Además, opcionalmente, en el método700la puntuación asignada se calcula por el algoritmo basándose en un algoritmo basado en transductor de estado finito ponderado.
La presente descripción proporciona un sistema mejorado, más eficiente y más fiable para evaluar el habla. El sistema reduce un espacio de búsqueda requerido para buscarse basado en el texto disponible y, por lo tanto, permite que una parte continua del texto sea reconocida por el sistema mientras que también proporciona un cálculo de baja latencia, por ejemplo, cuando se usan recursos informáticos modestos (por ejemplo, como los disponibles en un reloj inteligente o teléfono inteligente). Dado que el espacio de búsqueda se reduce, el sistema permite un bajo coste computacional, como se mencionó anteriormente. Además, el sistema funciona de manera muy eficiente, al tiempo que logra altos niveles de precisión de palabra incluso con modelos acústicos relativamente deficientes. De manera beneficiosa, el sistema identifica de manera fiable porciones de las expresiones de los usuarios que pueden usarse como material de entrenamiento para mejorar aún más los modelos acústicos a lo largo del tiempo que se usan para implementar el sistema, por ejemplo, el sistema100.Es posible realizar modificaciones a las realizaciones de la presente descripción descritas anteriormente sin desviarse del ámbito de la invención definido por las reivindicaciones adjuntas. Se prevé que expresiones tales como “ que incluye” , “ que comprende” , “ que incorpora” , “ tienen” , “ es” , utilizadas para describir y reivindicar la presente descripción, se interpreten de un modo no exclusivo, a saber, permitiendo que partes, componentes o elementos no descritos explícitamente también estén presentes. Las expresiones tales como “ puede” y “ pueden” se usan para describir características opcionales, salvo que se indique lo contrario. También debe interpretarse que el singular se refiere al plural.

Claims (11)

  1. REIVINDICACIONES
    i.Un sistema adaptado, cuando está en funcionamiento, para evaluar el habla mientras permite omisiones de palabra única en cualquier punto de un texto, en donde el sistema comprende:
    -un dispositivo de usuario que se configura para recibir el texto;
    -una unidad de procesamiento que se acopla operativamente al dispositivo de usuario y comprende un módulo de factor para refinar el texto al eliminar una puntuación no léxica y contenido no hablado adicional del texto, en donde la unidad de procesamiento, cuando está en funcionamiento, se configura para:
    -refinar el texto recibido para formar un texto base que tiene una pluralidad de unidades de texto base que utilizan el módulo de factor al eliminar puntuaciones no léxicas y contenido no hablado adicional del texto recibido;
    -definir al menos una ruta que atraviesa la pluralidad de unidades de texto base, en donde la al menos una ruta atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente;
    -recibir una expresión que comienza y termina en cualquier punto arbitrario dentro del texto recibido por el dispositivo de usuario;
    -procesar la expresión para generar un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación;
    -mapear la pluralidad de unidades de texto de interpretación a la pluralidad de unidades de texto base;
    -asignar una puntuación a la al menos una ruta basada en una calidad mapeada que se basa al menos en uno de: una pronunciación del texto base que omite una unidad de texto base usando una unidad de texto de interpretación adicional que no está presente en la unidad de texto base;
    -identificar una ruta atravesada desde la al menos una ruta, cuya ruta atravesada correctamente identifica la expresión recibida, que incluye una palabra omitida o una palabra pronunciada incorrectamente; y
    -calcular la puntuación asignada asociada con la ruta atravesada para evaluar el habla.
  2. 2. Un sistema de la reivindicación 1,caracterizado porquela unidad de procesamiento comprende un módulo adicional, en donde el módulo adicional incluye algoritmos basados en transductores de estado finito ponderados.
  3. 3. Un sistema de la reivindicación 2,caracterizado porquela unidad de procesamiento calcula la puntuación asignada empleando los algoritmos basados en transductores de estado finito ponderados.
  4. 4. Un sistema de la reivindicación 2,caracterizado porquela unidad de procesamiento modifica dinámicamente los algoritmos basados en transductores de estado finito ponderados basados en parámetros acústicos y pronunciación del usuario.
  5. 5. Un sistema de la reivindicación 4,caracterizado porquela unidad de procesamiento emplea parámetros acústicos que incluyen al menos uno de: acento al hablar, estilo al hablar, pronunciación.
  6. 6. Un sistema de la reivindicación 5,caracterizado porquela unidad de procesamiento deduce una penalización de la puntuación asignada cuando el texto está sujeto a parámetros acústicos deficientes.
  7. 7. Un sistema de la reivindicación 1,caracterizado porquela unidad de procesamiento transmite una señal de retroalimentación al dispositivo de usuario basado en la evaluación de un habla.
  8. 8. Un método para evaluar el habla mientras permite omisiones de palabra única en cualquier punto de un texto, comprendiendo el método:
    -recibir el texto;
    -refinar el texto recibido eliminando puntuaciones no léxicas y contenido no hablado adicional del texto recibido para formar un texto base que tiene una pluralidad de unidades de texto base; -definir al menos una ruta que atraviesa la pluralidad de unidades de texto base, en donde la al menos una ruta atraviesa al menos una de la pluralidad de unidades de texto base secuencialmente; -recibir una expresión que comienza y termina en cualquier punto arbitrario dentro del texto recibido; -procesar la expresión para generar un texto de interpretación que tiene una pluralidad de unidades de texto de interpretación;
    -mapear la pluralidad de unidades de texto de interpretación a la pluralidad de unidades de texto base;
    -asignar una puntuación a la al menos una ruta basada en una calidad mapeada basada en al menos uno de: una pronunciación del texto base, omitir una unidad de texto base, usar una unidad de texto de interpretación adicional que no está presente en la unidad de texto base;
    -identificar una ruta atravesada desde la al menos una ruta, cuya ruta atravesada correctamente identifica la expresión recibida que incluye una palabra omitida o una palabra pronunciada incorrectamente; y
    -calcular la puntuación asignada asociada con la ruta atravesada para evaluar el habla.
  9. 9. Un método de la reivindicación 8,caracterizado porqueel método incluye identificar la ruta atravesada basada en la pluralidad de unidades de texto de interpretación.
  10. 10. Un método de la reivindicación 8,caracterizado porqueel método incluye calcular la puntuación asignada usando el algoritmo basado en transductor de estado finito ponderado.
  11. 11. Un producto de programa informático que comprende un medio de almacenamiento legible por ordenador no transitorio que tiene instrucciones legibles por ordenador almacenadas en el mismo, siendo ejecutables las instrucciones legibles por ordenador por un dispositivo computarizado que comprende hardware de procesamiento para ejecutar un método de una cualquiera de las reivindicaciones 8 a 10.
ES18811792T 2017-11-29 2018-11-29 Procesamiento y evaluación de señales del habla Active ES2965480T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1719871.4A GB2568902B (en) 2017-11-29 2017-11-29 System for speech evaluation
PCT/EP2018/082952 WO2019106068A1 (en) 2017-11-29 2018-11-29 Speech signal processing and evaluation

Publications (1)

Publication Number Publication Date
ES2965480T3 true ES2965480T3 (es) 2024-04-15

Family

ID=60950693

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18811792T Active ES2965480T3 (es) 2017-11-29 2018-11-29 Procesamiento y evaluación de señales del habla

Country Status (5)

Country Link
US (1) US11043212B2 (es)
EP (1) EP3718107B1 (es)
ES (1) ES2965480T3 (es)
GB (1) GB2568902B (es)
WO (1) WO2019106068A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2568902B (en) * 2017-11-29 2020-09-09 Auris Tech Ltd System for speech evaluation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
KR100309207B1 (ko) * 1993-03-12 2001-12-17 에드워드 이. 데이비스 음성-대화식언어명령방법및장치
US6115482A (en) * 1996-02-13 2000-09-05 Ascent Technology, Inc. Voice-output reading system with gesture-based navigation
US6212498B1 (en) * 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
EP1688914A1 (en) * 2005-02-05 2006-08-09 20/20 Speech Limited Method and apparatus relating to searching of spoken audio data
US8226416B2 (en) * 2006-12-08 2012-07-24 Sri International Method and apparatus for reading education
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US20120089400A1 (en) * 2010-10-06 2012-04-12 Caroline Gilles Henton Systems and methods for using homophone lexicons in english text-to-speech
US20140025366A1 (en) * 2012-07-20 2014-01-23 Hristo Tzanev Georgiev Txtvoicetrans
US20140192140A1 (en) * 2013-01-07 2014-07-10 Microsoft Corporation Visual Content Modification for Distributed Story Reading
US20140191976A1 (en) * 2013-01-07 2014-07-10 Microsoft Corporation Location Based Augmentation For Story Reading
US20140195222A1 (en) * 2013-01-07 2014-07-10 Microsoft Corporation Speech Modification for Distributed Story Reading
US20140278428A1 (en) * 2013-03-15 2014-09-18 Coho Software LLC Tracking spoken language using a dynamic active vocabulary
US9672810B2 (en) * 2014-09-26 2017-06-06 Intel Corporation Optimizations to decoding of WFST models for automatic speech recognition
GB2544070B (en) * 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
US10049668B2 (en) * 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
DE102016106747B4 (de) 2016-04-12 2019-04-18 Balluff Gmbh Wellenleiter-Kopplungsvorrichtung und Positionssensorvorrichtung für einen Hydraulikzylinder, Hydraulikzylinder, sowie Verfahren zum Betreiben einer Wellenleiter-Kopplungsvorrichtung
GB2568902B (en) * 2017-11-29 2020-09-09 Auris Tech Ltd System for speech evaluation

Also Published As

Publication number Publication date
US11043212B2 (en) 2021-06-22
US20200372900A1 (en) 2020-11-26
WO2019106068A1 (en) 2019-06-06
EP3718107A1 (en) 2020-10-07
GB2568902A (en) 2019-06-05
EP3718107C0 (en) 2023-11-08
GB201719871D0 (en) 2018-01-10
EP3718107B1 (en) 2023-11-08
GB2568902B (en) 2020-09-09

Similar Documents

Publication Publication Date Title
Holmes Speech synthesis and recognition
US20100057435A1 (en) System and method for speech-to-speech translation
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US9147392B2 (en) Speech synthesis device and speech synthesis method
CN104899192B (zh) 用于自动通译的设备和方法
CN110853616A (zh) 一种基于神经网络的语音合成方法、系统与存储介质
Dunbar et al. Self-supervised language learning from raw audio: Lessons from the zero resource speech challenge
Middag et al. Robust automatic intelligibility assessment techniques evaluated on speakers treated for head and neck cancer
CN115101046A (zh) 一种特定说话人语音合成方法和装置
Ghai et al. Phone based acoustic modeling for automatic speech recognition for punjabi language
CN117678013A (zh) 使用合成的训练数据的两级文本到语音系统
Wang et al. Pronunciation modeling of foreign words for mandarin ASR by considering the effect of language transfer
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
ES2965480T3 (es) Procesamiento y evaluación de señales del habla
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
Johnson et al. Comparison of algorithms to divide noisy phone sequences into syllables for automatic unconstrained English speaking proficiency scoring
Dalva Automatic speech recognition system for Turkish spoken language
KR20210059581A (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
Anh et al. Development of a high quality text to speech system for lao
Lunde Modeling the Interpretability of an End-to-End Automatic Speech Recognition System Adapted to Norwegian Speech
JP2001188556A (ja) 音声認識方法及び装置
Hanani Computer and human recognition of regional accents of British English
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations
Enarvi Finnish Language Speech Recognition for Dental Health Care