ES2375283T3 - Procedimiento para deletreo nemotécnico genérico. - Google Patents

Procedimiento para deletreo nemotécnico genérico. Download PDF

Info

Publication number
ES2375283T3
ES2375283T3 ES05109732T ES05109732T ES2375283T3 ES 2375283 T3 ES2375283 T3 ES 2375283T3 ES 05109732 T ES05109732 T ES 05109732T ES 05109732 T ES05109732 T ES 05109732T ES 2375283 T3 ES2375283 T3 ES 2375283T3
Authority
ES
Spain
Prior art keywords
character
language model
pronunciation
pronunciations
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05109732T
Other languages
English (en)
Inventor
Ciprian I. Chelba
David Mowatt
Robert L. Chambers
Qiang Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Application granted granted Critical
Publication of ES2375283T3 publication Critical patent/ES2375283T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Devices For Executing Special Programs (AREA)
  • Compounds Of Unknown Constitution (AREA)

Abstract

Un procedimiento para crear un Modelo de Lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla, comprendiendo el procedimiento: generar (302) un Modelo de Lenguaje de n - gramas (112) de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y de cadenas de caracteres; construir (304) una unidad lexical nueva del Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico; que se caracteriza por extraer (306), de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación del carácter; crear (308) al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado, a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; y compilar (310) el citado Modelo de Lenguaje de n - gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n - gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.

Description

Procedimiento para deletreo nemotécnico genérico
Campo de la invención
La presente invención se refiere en general a las aplicaciones de software de reconocimiento de voz y más en particular, a un procedimiento para manipular los caracteres de una frase por medio de una aplicación de reconocimiento de voz.
Antecedentes de la invención
El lenguaje es quizá la forma más antigua de comunicación humana y muchos científicos creen ahora que la capacidad de comunicarse a través del lenguaje existe inherentemente en la biología del cerebro humano. Por lo tanto, ha sido un objetivo largamente buscado permitir a los usuarios comunicarse con los ordenadores utilizando una Interfaz de Usuario Natural (NUI), tal como el lenguaje. De hecho, se han realizado grandes avances recientemente en la obtención de este objetivo. Por ejemplo, algunos ordenadores incluyen ahora aplicaciones de reconocimiento del habla que permiten a un usuario introducir verbalmente comandos para operar el ordenador así como dictado para que se convierta en texto. Estas aplicaciones típicamente operan registrando periódicamente muestras de sonido que se toman por medio de un micrófono, analizando las muestras para reconocer los fonemas que son dictados por el usuario e identificando las palabras formadas por los fonemas dictados.
Aunque el reconocimiento del habla es cada vez más común, todavía hay algunas desventajas en el uso convencional de las aplicaciones de reconocimiento del habla que tienden a frustrar al usuario experimentado y alienar al usuario principiante. Una desventaja de este tipo implica la interacción entre el orador y el ordenador. Por ejemplo, con interacción humana, las personas tienden a controlar su habla en base a la reacción que perciben en un oyente. Por lo tanto, durante una conversación, un oyente puede proporcionar retroinformación asintiendo con la cabeza o dando respuestas vocales, tales como "sí" o "ajá", para indicar que él o ella entiende lo que se le dice. Además, si el oyente no entiende lo que se le está diciendo, el oyente puede adoptar una expresión burlona, inclinarse hacia adelante, o dar otras pistas vocales o no vocales. En respuesta a esta retroinformación, el orador cambiará por lo general la forma en que él o ella está hablando y en algunos casos, el orador puede hablar más despacio, más fuerte, hacer pausas más a menudo, o incluso repetir una exposición, por lo general sin que el oyente ni siquiera se de cuenta de que el orador está cambiando la forma en que interactúa con el oyente. Por lo tanto, la retroinformación durante una conversación es un elemento muy importante que informa al orador si está, o no, siendo entendido por el oyente. Lamentablemente, sin embargo, las aplicaciones convencionales de reconocimiento del habla todavía no pueden ofrecer este tipo de respuesta de retroinformación de "Interfaz de Usuario Natural (NUI)" a las entradas / comandos vocales facilitados por una interfaz persona -máquina.
Actualmente, las aplicaciones de reconocimiento de voz han alcanzado una tasa de precisión de aproximadamente el 90% al 98%. Esto significa que cuando un usuario dicta en un documento utilizando una aplicación de reconocimiento del habla típica, sus dictados serán reconocidos con precisión por la aplicación de reconocimiento del habla aproximadamente del 90% al 98% del tiempo. Por lo tanto, por cada cien (100) letras registradas por la aplicación de reconocimiento del habla, aproximadamente de dos (2) a diez (10) letras tienen que ser corregidas. En particular, las aplicaciones de reconocimiento del habla existentes tienden a tener dificultades para reconocer algunas letras, tales como la "s" (por ejemplo, ess) y "f" (por ejemplo, eff). Uno de los enfoques que las aplicaciones de reconocimiento del habla actuales utilizan para solucionar este problema consiste en dar al usuario la posibilidad de utilizar reglas nemotécnicas predefinidas para aclarar la letra que se está pronunciando. Por ejemplo, un usuario tiene la capacidad de decir "a como en apple" o "b como en boy" al dictar.
Lamentablemente, sin embargo, este enfoque tiene desventajas asociadas con el mismo que tienden a limitar la facilidad de uso de la aplicación de reconocimiento del habla. Una desventaja implica el uso de la regla nemotécnica predefinida para cada letra, que tiende a ser el alfabeto militar estándar (por ejemplo, alfa, bravo, charlie,....). Esto se debe a que, aunque un usuario puede tener una lista de reglas nemotécnicas para decirlas cuando dicta, (por ejemplo, "I como en iglú"), los usuarios tienden a formar su propio alfabeto nemotécnico (por ejemplo, "I, como en India") e ignorar el alfabeto nemotécnico predefinido. Como era de esperar, puesto que las aplicaciones de reconocimiento del habla no reconocen reglas nemotécnicas no predefinidas, los errores de reconocimiento de letras llegan a ser algo común. Otra desventaja implica el hecho de que aunque algunas letras tienen un pequeño conjunto de reglas nemotécnicas predominantes (por ejemplo, superior al 80%) asociadas a ellas (A, como en Apple, A como en Adán
o D como en Dog, D como en David o Z como en Zebra, Z como en Zulú), otras letras no tienen reglas nemotécnicas predominantes asociadas a ellas (por ejemplo, L, P, R y S). Esto hace que la creación de un Modelo de Lenguaje genérico adecuado, no sólo sea muy difícil, sino que es virtualmente imposible. Debido a esto, el lenguaje de comunicación para una aplicación de software de reconocimiento del habla sigue produciendo un número relativamente elevado de errores y no sólo estos errores tienden a crear frustración en los usuarios frecuentes, sino que también tienden a desalentar a los usuarios principiantes, haciendo posiblemente que el usuario rehúse seguir empleando la aplicación de reconocimiento del habla.
El documento US 6.694.296 B1 se refiere a un reconocedor de palabras que incluye un Modelo de Lenguaje de dictado que proporciona una salida de modelo de dictado indicativo de una secuencia de palabras probables que se reconocen en base a una expresión introducida. Un Modelo de Lenguaje de deletreo proporciona una salida del modelo de deletreo que es indicativa de una secuencia de letras probables reconocidas en base a la expresión de entrada. Un modelo acústico proporciona una salida de modelo acústico indicativo de una unidad de habla probable reconocida en base a las pronunciaciones de entrada. Un componente de reconocimiento del habla está configurado para acceder al Modelo de Lenguaje de dictado, al Modelo de Lenguaje de deletreo y al modelo acústico.
El documento US 6.321.196 B1 se refiere a un aparato de reconocimiento del habla que incluye un medio para determinar cuando un orador desea deletrear una primera palabra. El orador puede pronunciar entonces una secuencia de palabras seleccionadas de un amplio vocabulario, sin estar restringido a un alfabeto fonético pre especificado. El aparato reconoce las palabras habladas, las letras asociadas con estas palabras y entonces dispone las letras para formar la primera palabra.
]El documento US 2003/167166 A1 se refiere a un procedimiento para realizar el reconocimiento del habla con el fin de determinar un carácter alfabético particular, incluyendo la recepción de la entrada hablada acústica que incluye un carácter alfabético único y una asociación de palabras con el carácter único, de tal manera que el primer carácter de la palabra pretende ser el mismo que el carácter alfabético único. La entrada acústica puede ser procesada usando un sistema de reconocimiento de vocabulario de palabras para reconocer el carácter alfabético único y la palabra. Un intento para que coincida el carácter alfabético único con el primer carácter de la palabra puede ser realizado.
El documento US 2002/184035 A1 se refiere a un procedimiento de deletreo por voz.
Sumario de la invención
El de objetivo de la presente invención es proporcionar un procedimiento y un sistema para la creación de un modelo de lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla.
Este de objetivo se resuelve por medio del sujeto de las reivindicaciones independientes.
Las realizaciones se dan en las reivindicaciones dependientes.
Se proporciona un procedimiento para la creación de un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, por ejemplo, letras, números, símbolos, etc., en el que el Modelo de Lenguaje de n -gramas incluye al menos un carácter del cuerpo grande predefinido de caracteres. El procedimiento incluye, además, construir un unidad lexical nueva de Modelo de Lenguaje (LM) para cada uno de los al menos un carácter y extraer pronunciaciones para cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de la pronunciación del carácter. Además, el procedimiento incluye crear por lo menos una pronunciación alternativa para cada uno de los al menos un carácter que responde a la representación de la pronunciación del carácter para crear un diccionario de pronunciaciones alternativas y compilar el Modelo de Lenguaje de n -gramas para su uso con la aplicación de software de reconocimiento del habla, en el que la compilación del Modelo de Lenguaje responde a la unidad lexical nueva del Modelo de Lenguaje y al diccionario de pronunciaciones alternativas.
Se proporciona un procedimiento para la creación de un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, en el que el Modelo de Lenguaje de n -gramas incluye al menos un carácter del cuerpo grande predefinido de caracteres. Además, el procedimiento incluye extraer las pronunciaciones de cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de la pronunciación de caracteres y crear por lo menos una pronunciación alternativa para cada uno de los al menos un carácter que responde a la representación de pronunciación de caracteres para crear un diccionario de pronunciaciones alternativas.
Se proporciona un sistema para implementar un procedimiento para crear un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el sistema incluye un dispositivo de almacenamiento para almacenar la Aplicación de Software de Reconocimiento del habla y al menos una aplicación de software objetivo. El sistema incluye, además, un dispositivo de entrada para introducir vocalmente datos y comandos en el sistema, un dispositivo de visualización, en el que el dispositivo de visualización incluye la pantalla para la visualización de los datos introducidos y un dispositivo de procesamiento. El dispositivo de procesamiento se comunica con el dispositivo de almacenamiento, con el dispositivo de entrada y con el dispositivo de visualización, de manera que el dispositivo de procesamiento recibe instrucciones para hacer que la Aplicación de Software de Reconocimiento del habla muestre los datos introducidos en la pantalla y para manipular los datos introducidos que responden a los comandos introducidos.
Se proporciona un código de programa informático legible por máquina, en el que el código del programa incluye las instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento se comunica con un dispositivo de almacenamiento y con un dispositivo de visualización y en el que el dispositivo de almacenamiento incluye un Software de Aplicación de Reconocimiento del habla. El procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, en el que el Modelo de Lenguaje de n -gramas incluye, al menos, un carácter del cuerpo grande predefinido de caracteres, y la construcción de una unidad lexical nueva de Modelo de Lenguaje (LM) para cada uno de los al menos un carácter. El procedimiento incluye, además, la extracción de pronunciaciones de cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de la pronunciación de caracteres y la creación de al menos una pronunciación alternativa para cada uno de los al menos un carácter que responde a la representación de pronunciaciones de caracteres para crear un diccionario de pronunciaciones alternativas. Por otra parte, el procedimiento incluye la compilación del Modelo de Lenguaje de n -gramas para su uso con la aplicación de software de reconocimiento del habla, en el que la compilación del Modelo de Lenguaje responde a la unidad lexical nueva del Modelo de Lenguaje y al diccionario de pronunciaciones alternativas.
Se proporciona un medio codificado con un código de programa informático legible por máquina, en el que el código de programa incluye las instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento se comunica con un dispositivo de almacenamiento y con un dispositivo de visualización y en el que el dispositivo de almacenamiento incluye una Aplicación de Software de Reconocimiento del habla. El procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, en el que el Modelo de Lenguaje de n -gramas incluye al menos un carácter del cuerpo grande predefinido de caracteres y la construcción de una unidad lexical nueva de Modelo de Lenguaje (LM) para cada uno de al menos un carácter. El procedimiento incluye, además, la extracción de pronunciaciones de cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres y la creación de al menos unas pronunciaciones alternativas para cada uno de los al menos un carácter que responde a la representación de pronunciación de caracteres para crear un diccionario de pronunciaciones alternativas. Por otra parte, el procedimiento incluye la compilación del Modelo de Lenguaje de n -gramas para su uso con la aplicación de software de reconocimiento del habla, en el que la compilación del Modelo de Lenguaje es sensible a la unidad lexical nueva del Modelo de Lenguaje y al diccionario de pronunciaciones alternativas.
Breve descripción de las figuras
Las anteriores y otras características y ventajas de la presente invención se comprenderán más completamente a partir de la descripción detallada que sigue de realizaciones ilustrativas, tomadas en conjunto con los dibujos que se acompañan, en los que los mismos elementos están numerados de la misma manera en las diversas figuras:
La figura 1 es un diagrama de bloques que ilustra un sistema de reconocimiento del habla típico;
La figura 2 es un diagrama de bloques esquemático que ilustra un sistema para implementar un procedimiento para crear un modelo de lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, de acuerdo con una realización ejemplar;
La figura 3 es un diagrama de bloques que ilustra un procedimiento para crear un modelo de lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, de acuerdo con una realización ejemplar, y
La figura 4 es una tabla de Fonemas de Inglés Americano.
Descripción detallada de la invención
La mayor parte de las aplicaciones de reconocimiento del habla utilizan un modelo de patrones acústicos típicos y de patrones de palabras típicos con el fin de determinar una transcripción palabra por palabra de una expresión acústica determinada. Estos patrones de palabras son utilizados entonces por las aplicaciones de reconocimiento del habla y se conocen colectivamente como Modelos de lenguaje (LM). De esta manera, un Modelo de Lenguaje representa secuencias de palabras y la probabilidad de que la secuencia se produzca en un contexto dado. Por lo tanto, con el fin de ser eficaz en las aplicaciones de reconocimiento del habla, un Modelo de Lenguaje debe ser construido a partir de una gran cantidad de datos de entrenamiento textual. También se debe tener en cuenta que las reglas nemotécnicas pueden ser utilizadas con gran efectividad cuando se utilizan para corregir el deletreo de una palabra utilizando una aplicación de software de reconocimiento del habla. Por ejemplo, un escenario puede implicar un usuario que intenta escribir una palabra sin utilizar reglas nemotécnicas y ahora se encuentra en la situación en la que la aplicación de software de reconocimiento del habla no ha reconocido una (o más) de las letras que han sido comunicadas. La utilización de técnicas mnemotécnicas que volver a pronunciar una letra aumenta en gran medida la probabilidad de que el usuario tenga éxito al volver a pronunciar esa letra.
Haciendo referencia a la figura 1, se muestra un diagrama de bloques que ilustra un sistema de reconocimiento del habla típico 100 e incluye un dispositivo de procesamiento 102, un dispositivo de entrada 104, un dispositivo de almacenamiento 106 y un dispositivo de visualización 108, en el que un modelo acústico 110 y un Modelo de Lenguaje 112 están almacenados en el dispositivo de almacenamiento 106. El modelo acústico 110 contiene típicamente información que ayudará al descodificador a determinar qué palabras han sido pronunciadas. El modelo acústico 110 logra esto mediante la hipótesis de una serie de fonemas basados en los parámetros espectrales proporcionados por el dispositivo de entrada 104, en el que un fonema es la unidad fonética más pequeña en un idioma que es capaz de transmitir una distinción en el significado y que típicamente implica el uso de un diccionario y modelos ocultos de Markov. Por ejemplo, el modelo acústico 110 puede incluir un diccionario (léxico) de palabras y sus pronunciaciones fonéticas correspondientes, en el que estas pronunciaciones contienen un indicador de la probabilidad de que una secuencia de fonemas dados se produzcan juntas para formar una palabra. Además, el modelo acústico 110 también puede incluir información sobre la probabilidad de fonemas distintos que posiblemente se produzcan en el contexto de otros fonemas. Por ejemplo, un "trifono" es un fonema distintivo usado en el contexto de un fonema distintivo a la izquierda (antepuesto) y otro fonema distintivo a la derecha (añadido). Por lo tanto, los contenidos del modelo acústico 110 son utilizados por el dispositivo de procesamiento 102 para predecir que palabras están representadas por los parámetros espectrales calculados.
Además, el Modelo de Lenguaje (LM) 112 especifica cómo y en qué frecuencias, las palabras se producirán juntas. Por ejemplo, un Modelo de Lenguaje de n -gramas 112 estima de la probabilidad de que una palabra siga una secuencia de palabras. Estos valores de probabilidad en conjunto forman el Modelo de Lenguaje de n -gramas 112. El dispositivo de procesamiento 102 utiliza entonces las probabilidades del Modelo de Lenguaje de n -gramas 112 para elegir entre las mejores hipótesis de secuencia de palabras, como se identifican usando el modelo acústico 110, para obtener la palabra, o secuencia de palabras más probable representada por los parámetros espectrales, en el que la hipótesis más probable puede ser mostrada por el dispositivo de visualización 108.
La presente invención, como se describe en la presente memoria descriptiva, se describe en el contexto de un módulo de aplicación independiente y / o integrado que se utiliza con un sistema implementado en un ordenador de propósito general que utiliza una aplicación de reconocimiento del habla para recibir y reconocer comandos por voz introducidos por un usuario. Como una aplicación orientada a de objetivo, el módulo de aplicación puede exponer una interfaz estándar a la que los programas cliente pueden acceder para comunicarse con el módulo de aplicación. El módulo de aplicación también puede permitir a un número de programas cliente diferentes, tales como un programa procesador de textos, un programa de autoedición, un programa de aplicación, y así sucesivamente, para utilizar el módulo de aplicación a nivel local y / o en una red, tal como una WAN, una red local y / o un vehículo basado en Internet. Por ejemplo, el módulo de aplicación puede ser accedido y utilizado con cualquier aplicación y / o control que tenga un campo de texto, tal como una aplicación de correo electrónico o de Microsoft® Word, a nivel local o a través de un punto de acceso a Internet. Sin embargo, antes de describir aspectos de la presente invención, una realización de un entorno informático adecuado que puede incorporar y beneficiarse de esta invención se describirá a continuación.
Haciendo referencia a la figura 2, se muestra un diagrama de bloques que ilustra un sistema 200 para implementar un procedimiento para crear un Modelo de Lenguaje nemotécnico 112 para usar con una aplicación de software de reconocimiento del habla e incluye un sistema informático de uso general 202, que incluye un dispositivo de procesamiento 204, una memoria de sistema 206, y un bus de sistema 208, en el que el bus de sistema 208 acopla la memoria de sistema 206 al dispositivo de procesamiento 204. La memoria de sistema 206 puede incluir memoria de sólo lectura (ROM) 210 y memoria de acceso aleatorio (RAM) 212. Un sistema básico de entradas / salidas 214 (BIOS), que contiene las rutinas básicas que ayudan a la transferencia de información entre los elementos en el sistema informático de uso general 202, por ejemplo, durante el arranque, está almacenado en la ROM 210. El sistema informático de uso general 202 incluye, además, un dispositivo de almacenamiento 216, tal como un controlador de disco duro 218, un controlador de disco magnético 220, por ejemplo, para leer o escribir en un disco removible magnético 222, y un controlador de disco óptico 224, por ejemplo, para leer un disco CD-ROM226 o para leer o escribir en otros medios ópticos. El dispositivo de almacenamiento 216 puede estar conectado al sistema de bus 208 por una interfaz de dispositivo de almacenamiento, tal como una interfaz de controlador de disco duro 230, una interfaz de controlador de disco magnético 232 y una interfaz de controlador óptico 234. Los controladores y sus correspondientes soportes legibles por ordenador proporcionan un almacenamiento no volátil para el sistema informático de uso general 202. Aunque la descripción de un soporte informático y los medios de comunicación anterior se refieren a un disco duro, un disco magnético removible y un disco CD-ROM, se debe tener en cuenta que se pueden utilizar otros tipos de medios que pueden ser leídos por un sistema informático y que son adecuados para el fin deseado, tales como cintas magnéticas, tarjetas de memoria flash, discos de vídeo digitales, cartuchos de Bernoulli, y otros similares.
Un usuario puede introducir comandos e información en el sistema informático de uso general 202 a través de un dispositivo de entrada convencional 235, incluyendo un teclado 236, un dispositivo señalizador tal como un ratón 238 y un micrófono 240, en el que el micrófono 240 se puede usar para introducir entradas de audio, tal como habla, en el sistema informático de uso general 202. Además, un usuario puede introducir información gráfica, tal como un dibujo o escritura manual, en el sistema informático de uso general 202 dibujando la información gráfica sobre una tableta de escritura 242 por medio de un lápiz óptico. El sistema informático de uso general 202 también puede incluir otros dispositivos de entrada adecuados para el propósito final deseado, tal como una palanca de mando, almohadilla de juegos, antena parabólica, escáner u otros similares. El micrófono 240 puede estar conectado al dispositivo de procesamiento 204 por medio de un adaptador de audio 244 que se acopla al del sistema de bus 208. Además, otros dispositivos de entrada frecuentemente están conectados al dispositivo de procesamiento 204 por medio de una interfaz de puerto serie 246 que está acoplada al sistema de bus 208, pero también pueden ser conectados por medio de otras interfaces, tales como una interfaz de puerto paralelo, un puerto de juegos o un bus serie universal (USB).
Un dispositivo de visualización 247, tal como un monitor u otro tipo de dispositivo de visualización 247, que tiene una pantalla 248, también está conectado al sistema de bus 208 por medio de una interfaz, tal como un adaptador de vídeo 250. Además de la pantalla248, el sistema informático de uso general 202 también incluye típicamente otros dispositivos de salida periféricos, tales como altavoces y / o impresoras. El sistema informático de uso general 202 puede operar en un entorno de red utilizando conexiones lógicas con uno o más sistemas informáticos remotos 252. El sistema informático remoto 252 puede ser un servidor, un router, un dispositivo de pares u otros nodos de red común, y puede incluir cualquiera o todos los elementos que se han descritos en relación con el sistema informático de uso general 202, aunque sólo un dispositivo de almacenamiento de memoria remoto 254 se ha se ilustra en la figura 2. Las conexiones lógicas, como se muestra en la figura 2, incluyen una red de área local (LAN) 256 y una red de área amplia (WAN) 258. Esos entornos de redes son comunes en las oficinas, redes informáticas a nivel de empresa, intranets e Internet.
Cuando se utiliza en un entorno de red LAN, el sistema informático de uso general 202 se conecta a la LAN 256 por medio de una interfaz de red 260. Cuando se utiliza en un entorno de red WAN, el sistema informático de uso general 202 típicamente incluye un módem 262 u otros medios para establecer comunicaciones a través de una WAN 258, tales como el Internet. El módem 262, que puede ser interno o externo, puede estar conectado al bus de sistema 208 por medio de la interfaz de puerto serie 246. En un entorno de red, los módulos del programa que se muestran en relación con el sistema informático de uso general 202, o partes del mismo, pueden ser almacenados en el dispositivo de memoria de almacenamiento remoto 254. Se debe tener en cuenta que las conexiones de red que se muestran son ejemplares y otros medios para establecer un enlace de comunicación entre los sistemas informáticos pueden ser utilizados. También se debe apreciar que el módulo de aplicación podría ser implementado de manera equivalente en los sistemas de ordenador principal o servidor distintos de los sistemas informáticos de uso general, y podrían ser transmitidos de manera equivalente al sistema de ordenador principal por otros medios distintos que un CD-ROM, por ejemplo, por medio de la interfaz de conexión a la red 260.
Además, un número de módulos de programa se puede almacenar en los controladores y RAM 212 del sistema informático de uso general 202. Los módulos del programa controlan cómo el sistema informático de uso general 202 funciona e interactúa con el usuario, con los dispositivos de E / S o con otros ordenadores. Los módulos de programa incluyen rutinas, sistemas operativos 264, módulos de programa de aplicación de objetivo 266, estructuras de datos, navegadores y otros componentes de software o de micro programas. El procedimiento de la presente invención puede estar incluido en un módulo de aplicación y el módulo de aplicación puede ser implementado convenientemente en uno o más módulos de programa, tal como un módulo de corrección del motor de palabras 270 basado en los procedimientos que se han descritos en la presente memoria descriptiva. Los módulos de programa de aplicación de objetivo 266 pueden comprender una gran variedad de aplicaciones que se utilizan en conjunto con la presente invención, algunas de las cuales se muestran en la figura 3. Los propósitos de, y las interacciones entre, algunos de estos módulos de programa se explican más completamente en el texto que describe la figura 3. Esto incluye cualquier aplicación y / o control que tenga un campo de texto, por ejemplo, una aplicación de correo electrónico, un programa de procesador de textos (tal como Microsoft® Word, producido por la Microsoft Corporation de Redmond, Washington), un módulo de programa de reconocimiento de escritura manual, el módulo de corrección del motor de palabras 270, y un editor de procedimiento de entrada (IME).
Se debe apreciar que ningún lenguaje de programación particular se describe para la realización de los diversos procedimientos que se han descrito en la descripción detallada, ya que se considera que las operaciones, pasos y procedimientos que se han descrito e ilustrado en los dibujos que se acompañan han sido suficientemente divulgados para permitir que un experto en la técnica pueda practicar una realización ejemplar de la presente invención. Por otra parte, hay muchos ordenadores y sistemas operativos que pueden ser utilizados en la práctica de una realización ejemplar, y por lo tanto no se puede proporcionar ningún programa informático detallado que pudiese ser aplicable a todos estos sistemas diferentes. Cada usuario de un ordenador en particular conocerá el lenguaje y las herramientas que son más útiles para las necesidades y los propósitos de ese usuario.
Haciendo referencia a la figura 3, se muestra en la misma un diagrama de bloques que ilustra un procedimiento 300 para crear un modelo de lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla implementada utilizando el sistema informático de uso general 202 de la figura 2, en el que el sistema informático de uso general 202 incluye un dispositivo de procesamiento 204 que comunica con un dispositivo de entrada 235, un dispositivo de almacenamiento 216 y un dispositivo de visualización 247, en el que el dispositivo de visualización 247 incluye la pantalla 248, como se muestra en la figura 2. Como se ha explicado más arriba, el dispositivo de entrada 235 puede ser cualquier dispositivo adecuado para el propósito final deseado, tal como un micrófono. Además, la aplicación de software de reconocimiento del habla puede ser almacenada en el dispositivo de almacenamiento 216 para permitir que el dispositivo de procesamiento 204 acceda a la aplicación de software de reconocimiento del habla. Por otra parte, al menos una aplicación de software de objetivo 266, tales como Microsoft® Windows, también puede ser almacenada en el dispositivo de almacenamiento 216 para permitir a un usuario ejecutar la aplicación de software de objetivo por medio de una instrucción comunicada al dispositivo de procesamiento 204.
El procedimiento 300 incluye generar un Modelo de Lenguaje de n -gramas 112 de cada carácter y / o cadena de caracteres en un cuerpo grande predefinido de caracteres y / o de cadenas de caracteres, como se muestra en el bloque operativo 302. Como brevemente se ha explicado más arriba, esto asignaría una probabilidad a la ocurrencia de un carácter específico que sigue a otros caracteres. Por ejemplo, se considera la ocurrencia de la letra "a" después de la cadena de caracteres "er" en la palabra "era". Generar un Modelo de Lenguaje de n -gramas 112 podría causar una probabilidad, P (a | e, r), que se asignará a esta ocurrencia. En otras palabras, la probabilidad P (a | e, r) representaría la probabilidad de que la letra “a” se produzca después de la secuencia de letras “er”. Se debe apreciar que el Modelo de Lenguaje de n -gramas 112 puede ser escrito como un archivo en el formato ARPA estándar de comunidad y puede ser sensible a mayúsculas y minúsculas para permitir la asignación de probabilidades a ambas mayúsculas y minúsculas. El procedimiento 300 también incluye la construcción de una unidad lexical nueva de Modelo de Lenguaje para cada uno de los caracteres y / o cadenas de caracteres en el cuerpo grande predefinido de caracteres y / o cadenas de caracteres, como se muestra en el bloque operativo 304. Por ejemplo, se considere el carácter "a", en el que una unidad lexical de Modelo de Lenguaje ya existe. Una unidad lexical nueva de Modelo de Lenguaje "a-As | n", se construye para su uso con el deletreo nemotécnico, mientras que la unidad lexical antigua de Modelo de Lenguaje, "a", se retiene para su uso con el deletreo de caracteres. Esto permite que un Modelo de Lenguaje de n -gramas 112 se construya para las técnicas de deletreo regular y técnicas de deletreo nemotécnico al mismo tiempo que se mantiene el rendimiento y sin aumentar el tamaño del Modelo de Lenguaje.
El procedimiento 300 incluye, además, extraer pronunciaciones de cada uno de los caracteres y / o cadenas de caracteres que responden a un diccionario de pronunciaciones predefinida para la aplicación de software de reconocimiento del habla con el fin de crear un diccionario de pronunciaciones alternativas de representaciones de pronunciaciones de caracteres, como se muestra en el bloque operativo 306. Por ejemplo, una vez más, se considera el carácter "a", en el que las pronunciaciones de las palabras que comienzan con "a" se extraen del diccionario de pronunciaciones de la aplicación de software de reconocimiento del habla que se está utilizando para el dictado de escritorio. Usando este diccionario, se encuentra que la palabra "ARON" tiene una representación de pronunciación de caracteres de "ae r ax n", como se muestra en la figura 4. Para cada uno de los caracteres y / o cadenas de caracteres en el diccionario de pronunciaciones predefinidas, se puede crear una pronunciación alternativa anteponiendo a cada carácter su unidad lexical nueva de Modelo de Lenguaje y añadiendo un silencio largo "sil", como se muestra en el bloque operativo 308. Por ejemplo, se considere la unidad lexical nueva de Modelo de Lenguaje "AsIn" (“ComoEn”) y la palabra "ARON". Dada la relación anterior, la pronunciación alternativa estaría representada por "ey AA1 ey ae z ih n ae r ax n sil", en la que "ey AA1 ey ae z ih n" es la pronunciación antepuesta de "AsIn", "ae r ax n"es la pronunciación de "Aron"y "sil"es el silencio largo añadido. Además, las letras mayúsculas son tratadas de una manera similar. Por ejemplo, se considera la frase "capital a as in ARON." ("A mayúscula como en ARON"). Teniendo en cuenta la relación anterior, la pronunciación alternativa estaría representada por "k ae p ih t ax 1 ey AA1 ey ae z ih n ae r ax n sil", en la que "k ae p ih t ax 1" es la pronunciación de mayúscula, "ey ey ae z AA1 ih n" es la pronunciación antepuesta de "AsIn", "ae r ax n" es la pronunciación de "Aron" y "sil" es el silencio largo añadido.
El Modelo de Lenguaje de n -gramas para su uso en el reconocedor de vocabulario grande, puede ser entonces compilado usando un compilador estándar, como se muestra en el bloque operativo 310, en el que la entrada al compilador incluye el Modelo de Lenguaje de n -gramas (en formato ARPA) construido en el bloque operativo 302 y el diccionario de pronunciaciones (que codifica las variantes de pronunciaciones diferentes para cada letra), construido en el bloque operativo 304 y en el bloque operativo 306. Se debe apreciar que el Modelo de Lenguaje de n gramas 112 podrá compilarse utilizando cualquier dispositivo de compilación adecuado para el producto final deseado, tal como un compilador Justo A Tiempo (JIT).
Se debe apreciar que el procedimiento 300 facilita la creación de un modelo de lenguaje de habla basado en trigrama que le da al usuario la posibilidad de utilizar un Modelo de Lenguaje que tienen más de 120.000 reglas nemotécnicas. Esto puede lograrse mediante la codificación del hecho de que un usuario puede decir una de entre 120.000 palabras, codificar la pronunciación de las palabras y codificar las probabilidades de trigrama de que aparezca una palabra teniendo en cuenta las dos palabras anteriores en contexto. Por ejemplo, dada la frase "esto está", y la siguiente palabra que el usuario podría pronunciar, podría ser la palabra "cerca" o "arrodillado", entonces, debido a que la frase "esto está cerca" es mucho más común en inglés que "esto está arrodillado", la palabra "arrodillado” se elige. De una manera similar, para el modelo de lenguaje de deletreo, el término "palabra" se refiere en realidad a los caracteres, en el que los caracteres incluyen las veintiséis letras minúsculas, las veintiséis letras mayúsculas, números y símbolos. De esta manera, el procedimiento 300 que se describe en la presente memoria descriptiva utiliza un promedio de 5000 pronunciaciones por letra (S como en Salmón = S, S como en Sugar = S, S como en Salamandra = S…) y, de hecho, cada palabra en el modelo de dictado de 120.000 palabras se utiliza como una regla nemotécnica posible. A cada regla nemotécnica se le asigna un peso diferente para cada letra o pronunciación, teniendo algunas más peso que otras. Por ejemplo, a la fase nemotécnica "T como en Tom" se da más peso que a "T como terciario", debido a que la probabilidad de que la fase nemotécnica "T como en Tom" se ha utilizado más frecuentemente. Además, las secuencias nemotécnicas también tienen probabilidades, por ejemplo, la probabilidad de que "D" como en Donkey (Burro) sea seguida por "F", como en Fun (Diversión) es menor que la probabilidad de que "D" como en Donkey (Burro) sea seguida por "S" como en Sun (Sol). Estas probabilidades se pueden generar en especial o se pueden obtener de una simple lista de reglas nemotécnicas como toman muestras las encuestas. También se debe apreciar que el procedimiento 300, como se divulga en la presente memoria descriptiva, permite que el sistema 200 "aprenda" caracteres y / o cadenas de caracteres adicionales. Además, aunque el procedimiento 300 se desvela y se explica en la presente memoria descriptiva con respecto a los Fonemas de Inglés Americano, el procedimiento 300 también puede ser usado con los fonemas de cualquier lengua, tal como el chino, ruso, español y francés.
De acuerdo con una realización ejemplar, el procesamiento de la figura 3 puede ser implementado total o parcialmente, por un controlador que funciona en respuesta a un programa informático legible por máquina. Con el fin de ejecutar las funciones prescritas y el procesamiento deseado, así como los cálculos del mismo (por ejemplo, el o los algoritmo (s) de control de la ejecución, los procesos de control prescritos en este la presente memoria descriptiva, y similares), el controlador puede incluir, pero no está limitado a, un o unos procesador (es), ordenador (es), memoria, almacenamiento, registro (s), temporización, interrupción (es), interfaz o interfaces de comunicación, e interfaz o interfaces de la señal de entrada / salida, así como una combinación que comprenda al menos uno de los anteriores.
Además, la invención se puede realizar en forma de procesos implementados por ordenador o por un controlador. La invención también se puede realizar en forma de código de programa informático que contiene las instrucciones recogidas en soportes tangibles, como disquetes, CD -ROM, discos duros y / o cualquier otro medio legible por máquina, en el que, cuando el código de programa informático se carga y es ejecutado por un ordenador o por un controlador, el ordenador o el controlador se convierte en un aparato para practicar la invención. La invención también puede ser realizada en forma de código de programa informático, por ejemplo, cuando está almacenado en un medio de almacenamiento, cargado en y / o ejecutado por un ordenador o un controlador, o transmitido por medio de un medio de transmisión, tal como por hilos eléctricos o cableado, por medio de fibra óptica, o por medio de la radiación electromagnética, en el que, cuando el código de programa de ordenador se ha cargado y es ejecutado por un ordenador o por un controlador, el ordenador o el controlador se convierte en un aparato para practicar la invención. Cuando se implementa en un microprocesador de propósito general, los segmentos de código del programa informático pueden configurar el microprocesador para crear circuitos lógicos específicos.
Aunque la invención ha sido descrita con referencia a una realización ejemplar, los expertos en la técnica entenderán que varios cambios, omisiones y / o adiciones se pueden realizar y los equivalentes pueden ser sustituidos por elementos sin apartarse del alcance de la invención. Además, muchas modificaciones se pueden hacer para adaptar una situación o material particular a las enseñanzas de la invención sin apartarse del alcance de la misma. Por lo tanto, se pretende que la invención no se limite a la realización particular que se describe como el mejor modo contemplado para realizar esta invención, sino que la invención incluirá todas las realizaciones que se encuentran en el alcance de las reivindicaciones adjuntas. Además, a no ser que se indique específicamente cualquier uso de los términos primero, segundo, etc., los mismos no denotan ningún orden de importancia, sino que los términos primero, segundo, etc. se utilizan para distinguir un elemento de otro.

Claims (18)

  1. REIVINDICACIONES
    1. Un procedimiento para crear un Modelo de Lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla, comprendiendo el procedimiento:
    generar (302) un Modelo de Lenguaje de n -gramas (112) de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y de cadenas de caracteres;
    construir (304) una unidad lexical nueva del Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico;
    que se caracteriza por
    extraer (306), de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación del carácter;
    crear (308) al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado, a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; y
    compilar (310) el citado Modelo de Lenguaje de n -gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n -gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.
  2. 2.
    El procedimiento de la reivindicación 1, en el que el citado cuerpo grande de caracteres predefinido incluye al menos uno de entre letras minúsculas, letras mayúsculas, números y carácter gráficos predefinidos.
  3. 3.
    El procedimiento de la reivindicación 2, en el que al menos uno de entre el citado cuerpo grande de caracteres predefinidos, el citado diccionario de pronunciaciones predefinidas y el citado diccionario de pronunciaciones alternativas responde al idioma Inglés.
  4. 4.
    El procedimiento de la reivindicación 1, en el que la citada construcción incluye la construcción de una unidad lexical nueva del Modelo de Lenguaje para cada uno de los citados al menos un carácter que responde a un deletreo mnemotécnico para el citado cada uno de los citados al menos un carácter.
  5. 5.
    El procedimiento de la reivindicación 1, en el que la citada creación incluye, además, añadir un silencio largo "sil" a la citada representación de pronunciación del carácter para formar la citada pronunciación alternativa.
  6. 6.
    El procedimiento de la reivindicación 1, en el que si el citado al menos un carácter es un carácter en mayúsculas, la citada creación incluye anteponer, además, "k ae p ih t I hacha" al citado Modelo de Lenguaje nuevo.
  7. 7.
    El procedimiento de la reivindicación 1, en el que la compilación del Modelo de Lenguaje de n -gramas se compila usando una herramienta estándar de compilación.
  8. 8.
    El procedimiento de la reivindicación 7, en el que la herramienta estándar de compilación es herramienta de compilación Justo a Tiempo, JIT.
  9. 9.
    El procedimiento de la reivindicación 1, en el que Modelo de Lenguaje de n -gramas es generado utilizando un formato predefinido.
  10. 10.
    El procedimiento de la reivindicación 9, en el que el citado formato predefinido es el formato ARPA.
  11. 11.
    Un sistema adaptado para implementar el procedimiento para crear un Modelo de Lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla de acuerdo con una de las reivindicaciones 1 a 10, en el que el sistema comprende:
    un dispositivo de almacenamiento (106, 216) para almacenar la Aplicación de Software de Reconocimiento del habla y
    al menos una aplicación de software de objetivo;
    un dispositivo de entrada (104, 235) para introducir vocalmente datos y comandos en el sistema;
    un dispositivo de visualización (247, 248), en el que el dispositivo de visualización incluye la pantalla para la visualización de los citados datos introducidos, y
    un dispositivo de procesamiento (102, 204), en el que el citado dispositivo de procesamiento comunica con el citado dispositivo de almacenamiento, con el citado dispositivo de entrada y con el citado dispositivo de pantalla, de manera que el citado dispositivo de procesamiento recibe instrucciones para hacer que la Aplicación de Software de Reconocimiento del habla muestre los datos introducidos en la pantalla y manipule los datos introducidos en respuesta a los citados comandos introducidos.
  12. 12.
    El sistema de la reivindicación 11, que incluye, además, un módulo de software de modelo acústico (110) y un módulo de software de Modelo de Lenguaje (112), en el que el citado módulo de software de modelo acústico y el citado módulo de software de Modelo de Lenguaje están dispuestos en el citado dispositivo de almacenamiento.
  13. 13.
    El sistema de la reivindicación 11, que incluye además un compilador, en el que el citado compilador es una herramienta de compilación estándar capaz de compilar en formato ARPA.
  14. 14.
    El sistema de la reivindicación 11, en el que el citado dispositivo de almacenamiento es al menos uno de entre un dispositivo de medios ópticos y un dispositivo de medios magnéticos, un dispositivo de almacenamiento interno, un dispositivo de almacenamiento externo, un dispositivo de almacenamiento removible y un dispositivo de almacenamiento no removible.
  15. 15.
    El sistema de la reivindicación 11, en el que el citado dispositivo de entrada es un micrófono.
  16. 16.
    El sistema de la reivindicación 11, en el que el dispositivo de visualización es al menos uno de entre un CRT, un LCD y un dispositivo de pantalla de plasma.
  17. 17.
    Un código de programa informático legible por máquina, incluyendo el código de programa instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje de n gramas para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento comunica con un dispositivo de almacenamiento y con un dispositivo de visualización y en el que el dispositivo de almacenamiento incluye una Aplicación de Software de Reconocimiento del habla, comprendiendo el procedimiento:
    generar un Modelo de Lenguaje de n -gramas de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y cadenas de caracteres;
    construir una unidad lexical nueva de Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico,
    que se caracteriza por
    extraer de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres;
    crear por lo menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva de Modelo de Lenguaje del carácter dado a una pronunciación extraída de una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas;
    y
    compilar el citado Modelo de Lenguaje de n -gramas para el uso con la aplicación de software de reconocimiento del habla por medio de la introducción en un compilador del citado Modelo de Lenguaje de n -gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.
  18. 18. Un medio codificado con un código de programa informático legible por máquina , incluyendo el código de programa instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento comunica con un dispositivo de almacenamiento y con un dispositivo de visualización, en el que el dispositivo de almacenamiento incluye una Aplicación de Software de reconocimiento del habla, comprendiendo el procedimiento:
    generar un Modelo de Lenguaje de n -gramas de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y cadenas de caracteres;
    construir una unidad lexical nueva de Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico;
    que se caracteriza por
    extraer de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres;
    crear al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas;
    y compilar, el citado Modelo de Lenguaje de n -gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n -gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.
    Tabla de Fonemas de Inglés Americano
    símbolo
    Ejemplo ID Fonema
    -
    Syllable Boundary (hyphen) Límite de sílaba (guión) 1
    !
    Sentence terminator (exclamation mark) Finalizador de sentencia (símbolo de exclamación 2
    &
    Word Boundary (límite de palabra) 3
    ,
    Sentence terminator (coma) (Finalizador de Sentencia (coma)) 4
    .
    Sentence terminator (period) (Finalizador de Sentencia (punto))
    ?
    Sentence terminator (question mark) (Finalizador de sentencia (interrogación)) 6
    _
    Silence ( underscore) (Silencio (subrayado)) 7
    1
    Primary Stress (Énfasis Primario) 8
    2
    Secondary Stress (Énfasis Secundario) 9
    aa
    father (padre)
    ae
    cat (gato) 11
    ah
    cut (corte) 12
    ao
    dog (perro) 13
    aw
    foul (sucio) 14
    ax
    ago (ago)
    ay
    bite (mordisco) 16
    b
    big (grande) 17
    ch
    chin (barbilla) 18
    d
    dig (cavar) 19
    dh
    then (entonces)
    eh
    pet (mascota) 21
    er
    fur (pieles) 22
    ey
    ate (comer) 23
    f
    fork (tenedor) 24
    g
    gut (tripa)
    h
    help (ayuda) 26
    ih
    fill (llenar) 27
    iy
    feel (sentir) 28
    jh
    joy (alegría) 29
    k
    cut (cortar)
    FIGURA 4 FIGURA 4 (continuación)
    símbolo
    Ejemplo ID Fonema
    l
    lid (tapa) 31
    m
    mat (estera) 32
    n
    no (no) 33
    ng
    sing (cantar) 34
    ow
    go (ir) 35
    oy
    toy (juguete) 36
    p
    put (poner) 37
    r
    red (rojo) 38
    s
    sit (sentar) 39
    sh
    she (ella) 40
    t
    talk (hablar) 41
    th
    thin (delgado) 42
    uh
    book (libro) 43
    uw
    too (también) 44
    v
    vat (cuba) 45
    w
    with (con) 46
    y
    yard (yarda) 47
    z
    zap (borrar) 48
    zh
    pleasure (placer) 49
ES05109732T 2004-11-24 2005-10-19 Procedimiento para deletreo nemotécnico genérico. Active ES2375283T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/996,732 US7418387B2 (en) 2004-11-24 2004-11-24 Generic spelling mnemonics
US996732 2004-11-24

Publications (1)

Publication Number Publication Date
ES2375283T3 true ES2375283T3 (es) 2012-02-28

Family

ID=35466493

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05109732T Active ES2375283T3 (es) 2004-11-24 2005-10-19 Procedimiento para deletreo nemotécnico genérico.

Country Status (14)

Country Link
US (2) US7418387B2 (es)
EP (1) EP1662482B1 (es)
JP (1) JP4818683B2 (es)
KR (1) KR101183310B1 (es)
CN (1) CN1779783B (es)
AT (1) ATE534988T1 (es)
AU (2) AU2005229636B2 (es)
BR (1) BRPI0504510A (es)
CA (1) CA2523933C (es)
ES (1) ES2375283T3 (es)
MX (1) MXPA05011448A (es)
PL (1) PL1662482T3 (es)
PT (1) PT1662482E (es)
RU (1) RU2441287C2 (es)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
KR100930714B1 (ko) 2007-12-14 2009-12-09 한국전자통신연구원 음성인식 장치 및 방법
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US8447613B2 (en) * 2008-04-28 2013-05-21 Irobot Corporation Robot and server with optimized message decoding
JP2011007862A (ja) * 2009-06-23 2011-01-13 Fujitsu Ltd 音声認識装置、音声認識プログラム、および音声認識方法
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8914286B1 (en) * 2011-04-14 2014-12-16 Canyon IP Holdings, LLC Speech recognition with hierarchical networks
CN103827962B (zh) * 2011-09-09 2016-12-07 旭化成株式会社 声音识别装置
KR101193362B1 (ko) * 2012-04-13 2012-10-19 최병기 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
US20140068443A1 (en) * 2012-08-28 2014-03-06 Private Group Networks, Inc. Method and system for creating mnemonics for locations-of-interests
US10235358B2 (en) 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
US10073840B2 (en) 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training
WO2019203016A1 (ja) * 2018-04-19 2019-10-24 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP7332486B2 (ja) * 2020-01-08 2023-08-23 株式会社東芝 記号列変換装置および記号列変換方法
US11735169B2 (en) * 2020-03-20 2023-08-22 International Business Machines Corporation Speech recognition and training for data inputs

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2820093B2 (ja) * 1995-12-26 1998-11-05 日本電気株式会社 単音節認識装置
US6321196B1 (en) * 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
GB2353887B (en) * 1999-09-04 2003-09-24 Ibm Speech recognition system
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6694296B1 (en) * 2000-07-20 2004-02-17 Microsoft Corporation Method and apparatus for the recognition of spelled spoken words
WO2002029613A1 (en) * 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) Method and system for building a domain specific statistical language model from rule-based grammar specifications
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6975986B2 (en) * 2001-05-30 2005-12-13 International Business Machines Corporation Voice spelling in an audio-only interface
US7225130B2 (en) * 2001-09-05 2007-05-29 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model

Also Published As

Publication number Publication date
CA2523933C (en) 2014-01-28
CN1779783A (zh) 2006-05-31
CA2523933A1 (en) 2006-05-24
BRPI0504510A (pt) 2006-07-11
JP2006146193A (ja) 2006-06-08
KR101183310B1 (ko) 2012-09-17
KR20060058004A (ko) 2006-05-29
AU2005229636A1 (en) 2006-06-08
RU2005136460A (ru) 2007-05-27
AU2010212370A1 (en) 2010-09-09
RU2441287C2 (ru) 2012-01-27
ATE534988T1 (de) 2011-12-15
PL1662482T3 (pl) 2012-04-30
AU2010212370B2 (en) 2012-05-10
EP1662482A2 (en) 2006-05-31
PT1662482E (pt) 2011-12-19
AU2005229636B2 (en) 2010-09-30
CN1779783B (zh) 2011-08-03
US20080319749A1 (en) 2008-12-25
EP1662482A3 (en) 2010-02-17
US7418387B2 (en) 2008-08-26
US7765102B2 (en) 2010-07-27
MXPA05011448A (es) 2007-12-11
US20060111907A1 (en) 2006-05-25
JP4818683B2 (ja) 2011-11-16
EP1662482B1 (en) 2011-11-23

Similar Documents

Publication Publication Date Title
ES2375283T3 (es) Procedimiento para deletreo nemotécnico genérico.
CN109036464B (zh) 发音检错方法、装置、设备及存储介质
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
US7624013B2 (en) Word competition models in voice recognition
Dickinson et al. Language and computers
KR101990021B1 (ko) 영어 발음기호를 이용한 외국어 및 자국어 표시장치 및 방법
CN108091185B (zh) 基于音节拼读的单词学习系统及其单词学习方法
KR20180025559A (ko) 발음 사전 학습 방법 및 장치
Gemmeke et al. A Self-Learning Assistive Vocal Interface Based on Vocabulary Learning and Grammar Induction.
JP3621624B2 (ja) 外国語学習装置、外国語学習方法および媒体
Shockey Understanding L2 and the perspicacious Pole
JP7195593B2 (ja) 語学学習用装置および語学学習用プログラム
Hernández-Mena et al. Creating a grammar-based speech recognition parser for Mexican Spanish using HTK, compatible with CMU Sphinx-III system
KR101983031B1 (ko) 언어 교육 방법 및 언어 교육 시스템
Hartanto et al. Rule-based Approach for English-Indonesian Code-switching Acoustic Model
Neef Translation in the context of theoretical writing system research
Kioko et al. Harmonizing THE orTHograpHy of gĨkŨyŨ and kĨkamba
KR20240071045A (ko) 알파벳 음소 인지 훈련 시스템 및 방법
KR20230155836A (ko) 난발음 표기 방법
CN118786473A (zh) 方法和系统
Odriozola Sustaeta Speech recognition based strategies for on-line Computer Assisted Language Learning (CALL) systems in Basque
JPH02308194A (ja) 外国語学習装置
Amro Pronunciation Variation Modeling for Improving Speech Recognition of Holy Quran Recitation
Broersma et al. Spoken Word Recognition in Bilingualism
Sazhok et al. Modeling of language distinctive features for Ukrainian real-time speech recognition system