ES2375283T3 - Procedimiento para deletreo nemotécnico genérico. - Google Patents
Procedimiento para deletreo nemotécnico genérico. Download PDFInfo
- Publication number
- ES2375283T3 ES2375283T3 ES05109732T ES05109732T ES2375283T3 ES 2375283 T3 ES2375283 T3 ES 2375283T3 ES 05109732 T ES05109732 T ES 05109732T ES 05109732 T ES05109732 T ES 05109732T ES 2375283 T3 ES2375283 T3 ES 2375283T3
- Authority
- ES
- Spain
- Prior art keywords
- character
- language model
- pronunciation
- pronunciations
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000001343 mnemonic effect Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 4
- 241000282326 Felis catus Species 0.000 claims 2
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 claims 1
- NIXOWILDQLNWCW-UHFFFAOYSA-N Acrylic acid Chemical compound OC(=O)C=C NIXOWILDQLNWCW-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 241000283074 Equus asinus Species 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000972773 Aulopiformes Species 0.000 description 1
- 241000269333 Caudata Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Devices For Executing Special Programs (AREA)
- Compounds Of Unknown Constitution (AREA)
Abstract
Un procedimiento para crear un Modelo de Lenguaje de n - gramas para usar con una aplicación de software de reconocimiento del habla, comprendiendo el procedimiento: generar (302) un Modelo de Lenguaje de n - gramas (112) de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y de cadenas de caracteres; construir (304) una unidad lexical nueva del Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico; que se caracteriza por extraer (306), de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación del carácter; crear (308) al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado, a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; y compilar (310) el citado Modelo de Lenguaje de n - gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n - gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.
Description
Procedimiento para deletreo nemotécnico genérico
Campo de la invención
La presente invención se refiere en general a las aplicaciones de software de reconocimiento de voz y más en particular, a un procedimiento para manipular los caracteres de una frase por medio de una aplicación de reconocimiento de voz.
El lenguaje es quizá la forma más antigua de comunicación humana y muchos científicos creen ahora que la capacidad de comunicarse a través del lenguaje existe inherentemente en la biología del cerebro humano. Por lo tanto, ha sido un objetivo largamente buscado permitir a los usuarios comunicarse con los ordenadores utilizando una Interfaz de Usuario Natural (NUI), tal como el lenguaje. De hecho, se han realizado grandes avances recientemente en la obtención de este objetivo. Por ejemplo, algunos ordenadores incluyen ahora aplicaciones de reconocimiento del habla que permiten a un usuario introducir verbalmente comandos para operar el ordenador así como dictado para que se convierta en texto. Estas aplicaciones típicamente operan registrando periódicamente muestras de sonido que se toman por medio de un micrófono, analizando las muestras para reconocer los fonemas que son dictados por el usuario e identificando las palabras formadas por los fonemas dictados.
Aunque el reconocimiento del habla es cada vez más común, todavía hay algunas desventajas en el uso convencional de las aplicaciones de reconocimiento del habla que tienden a frustrar al usuario experimentado y alienar al usuario principiante. Una desventaja de este tipo implica la interacción entre el orador y el ordenador. Por ejemplo, con interacción humana, las personas tienden a controlar su habla en base a la reacción que perciben en un oyente. Por lo tanto, durante una conversación, un oyente puede proporcionar retroinformación asintiendo con la cabeza o dando respuestas vocales, tales como "sí" o "ajá", para indicar que él o ella entiende lo que se le dice. Además, si el oyente no entiende lo que se le está diciendo, el oyente puede adoptar una expresión burlona, inclinarse hacia adelante, o dar otras pistas vocales o no vocales. En respuesta a esta retroinformación, el orador cambiará por lo general la forma en que él o ella está hablando y en algunos casos, el orador puede hablar más despacio, más fuerte, hacer pausas más a menudo, o incluso repetir una exposición, por lo general sin que el oyente ni siquiera se de cuenta de que el orador está cambiando la forma en que interactúa con el oyente. Por lo tanto, la retroinformación durante una conversación es un elemento muy importante que informa al orador si está, o no, siendo entendido por el oyente. Lamentablemente, sin embargo, las aplicaciones convencionales de reconocimiento del habla todavía no pueden ofrecer este tipo de respuesta de retroinformación de "Interfaz de Usuario Natural (NUI)" a las entradas / comandos vocales facilitados por una interfaz persona -máquina.
Actualmente, las aplicaciones de reconocimiento de voz han alcanzado una tasa de precisión de aproximadamente el 90% al 98%. Esto significa que cuando un usuario dicta en un documento utilizando una aplicación de reconocimiento del habla típica, sus dictados serán reconocidos con precisión por la aplicación de reconocimiento del habla aproximadamente del 90% al 98% del tiempo. Por lo tanto, por cada cien (100) letras registradas por la aplicación de reconocimiento del habla, aproximadamente de dos (2) a diez (10) letras tienen que ser corregidas. En particular, las aplicaciones de reconocimiento del habla existentes tienden a tener dificultades para reconocer algunas letras, tales como la "s" (por ejemplo, ess) y "f" (por ejemplo, eff). Uno de los enfoques que las aplicaciones de reconocimiento del habla actuales utilizan para solucionar este problema consiste en dar al usuario la posibilidad de utilizar reglas nemotécnicas predefinidas para aclarar la letra que se está pronunciando. Por ejemplo, un usuario tiene la capacidad de decir "a como en apple" o "b como en boy" al dictar.
Lamentablemente, sin embargo, este enfoque tiene desventajas asociadas con el mismo que tienden a limitar la facilidad de uso de la aplicación de reconocimiento del habla. Una desventaja implica el uso de la regla nemotécnica predefinida para cada letra, que tiende a ser el alfabeto militar estándar (por ejemplo, alfa, bravo, charlie,....). Esto se debe a que, aunque un usuario puede tener una lista de reglas nemotécnicas para decirlas cuando dicta, (por ejemplo, "I como en iglú"), los usuarios tienden a formar su propio alfabeto nemotécnico (por ejemplo, "I, como en India") e ignorar el alfabeto nemotécnico predefinido. Como era de esperar, puesto que las aplicaciones de reconocimiento del habla no reconocen reglas nemotécnicas no predefinidas, los errores de reconocimiento de letras llegan a ser algo común. Otra desventaja implica el hecho de que aunque algunas letras tienen un pequeño conjunto de reglas nemotécnicas predominantes (por ejemplo, superior al 80%) asociadas a ellas (A, como en Apple, A como en Adán
o D como en Dog, D como en David o Z como en Zebra, Z como en Zulú), otras letras no tienen reglas nemotécnicas predominantes asociadas a ellas (por ejemplo, L, P, R y S). Esto hace que la creación de un Modelo de Lenguaje genérico adecuado, no sólo sea muy difícil, sino que es virtualmente imposible. Debido a esto, el lenguaje de comunicación para una aplicación de software de reconocimiento del habla sigue produciendo un número relativamente elevado de errores y no sólo estos errores tienden a crear frustración en los usuarios frecuentes, sino que también tienden a desalentar a los usuarios principiantes, haciendo posiblemente que el usuario rehúse seguir empleando la aplicación de reconocimiento del habla.
El documento US 6.694.296 B1 se refiere a un reconocedor de palabras que incluye un Modelo de Lenguaje de dictado que proporciona una salida de modelo de dictado indicativo de una secuencia de palabras probables que se reconocen en base a una expresión introducida. Un Modelo de Lenguaje de deletreo proporciona una salida del modelo de deletreo que es indicativa de una secuencia de letras probables reconocidas en base a la expresión de entrada. Un modelo acústico proporciona una salida de modelo acústico indicativo de una unidad de habla probable reconocida en base a las pronunciaciones de entrada. Un componente de reconocimiento del habla está configurado para acceder al Modelo de Lenguaje de dictado, al Modelo de Lenguaje de deletreo y al modelo acústico.
El documento US 6.321.196 B1 se refiere a un aparato de reconocimiento del habla que incluye un medio para determinar cuando un orador desea deletrear una primera palabra. El orador puede pronunciar entonces una secuencia de palabras seleccionadas de un amplio vocabulario, sin estar restringido a un alfabeto fonético pre especificado. El aparato reconoce las palabras habladas, las letras asociadas con estas palabras y entonces dispone las letras para formar la primera palabra.
]El documento US 2003/167166 A1 se refiere a un procedimiento para realizar el reconocimiento del habla con el fin de determinar un carácter alfabético particular, incluyendo la recepción de la entrada hablada acústica que incluye un carácter alfabético único y una asociación de palabras con el carácter único, de tal manera que el primer carácter de la palabra pretende ser el mismo que el carácter alfabético único. La entrada acústica puede ser procesada usando un sistema de reconocimiento de vocabulario de palabras para reconocer el carácter alfabético único y la palabra. Un intento para que coincida el carácter alfabético único con el primer carácter de la palabra puede ser realizado.
El documento US 2002/184035 A1 se refiere a un procedimiento de deletreo por voz.
El de objetivo de la presente invención es proporcionar un procedimiento y un sistema para la creación de un modelo de lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla.
Este de objetivo se resuelve por medio del sujeto de las reivindicaciones independientes.
Las realizaciones se dan en las reivindicaciones dependientes.
Se proporciona un procedimiento para la creación de un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, por ejemplo, letras, números, símbolos, etc., en el que el Modelo de Lenguaje de n -gramas incluye al menos un carácter del cuerpo grande predefinido de caracteres. El procedimiento incluye, además, construir un unidad lexical nueva de Modelo de Lenguaje (LM) para cada uno de los al menos un carácter y extraer pronunciaciones para cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de la pronunciación del carácter. Además, el procedimiento incluye crear por lo menos una pronunciación alternativa para cada uno de los al menos un carácter que responde a la representación de la pronunciación del carácter para crear un diccionario de pronunciaciones alternativas y compilar el Modelo de Lenguaje de n -gramas para su uso con la aplicación de software de reconocimiento del habla, en el que la compilación del Modelo de Lenguaje responde a la unidad lexical nueva del Modelo de Lenguaje y al diccionario de pronunciaciones alternativas.
Se proporciona un procedimiento para la creación de un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, en el que el Modelo de Lenguaje de n -gramas incluye al menos un carácter del cuerpo grande predefinido de caracteres. Además, el procedimiento incluye extraer las pronunciaciones de cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de la pronunciación de caracteres y crear por lo menos una pronunciación alternativa para cada uno de los al menos un carácter que responde a la representación de pronunciación de caracteres para crear un diccionario de pronunciaciones alternativas.
Se proporciona un sistema para implementar un procedimiento para crear un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el sistema incluye un dispositivo de almacenamiento para almacenar la Aplicación de Software de Reconocimiento del habla y al menos una aplicación de software objetivo. El sistema incluye, además, un dispositivo de entrada para introducir vocalmente datos y comandos en el sistema, un dispositivo de visualización, en el que el dispositivo de visualización incluye la pantalla para la visualización de los datos introducidos y un dispositivo de procesamiento. El dispositivo de procesamiento se comunica con el dispositivo de almacenamiento, con el dispositivo de entrada y con el dispositivo de visualización, de manera que el dispositivo de procesamiento recibe instrucciones para hacer que la Aplicación de Software de Reconocimiento del habla muestre los datos introducidos en la pantalla y para manipular los datos introducidos que responden a los comandos introducidos.
Se proporciona un código de programa informático legible por máquina, en el que el código del programa incluye las instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento se comunica con un dispositivo de almacenamiento y con un dispositivo de visualización y en el que el dispositivo de almacenamiento incluye un Software de Aplicación de Reconocimiento del habla. El procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, en el que el Modelo de Lenguaje de n -gramas incluye, al menos, un carácter del cuerpo grande predefinido de caracteres, y la construcción de una unidad lexical nueva de Modelo de Lenguaje (LM) para cada uno de los al menos un carácter. El procedimiento incluye, además, la extracción de pronunciaciones de cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de la pronunciación de caracteres y la creación de al menos una pronunciación alternativa para cada uno de los al menos un carácter que responde a la representación de pronunciaciones de caracteres para crear un diccionario de pronunciaciones alternativas. Por otra parte, el procedimiento incluye la compilación del Modelo de Lenguaje de n -gramas para su uso con la aplicación de software de reconocimiento del habla, en el que la compilación del Modelo de Lenguaje responde a la unidad lexical nueva del Modelo de Lenguaje y al diccionario de pronunciaciones alternativas.
Se proporciona un medio codificado con un código de programa informático legible por máquina, en el que el código de programa incluye las instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento se comunica con un dispositivo de almacenamiento y con un dispositivo de visualización y en el que el dispositivo de almacenamiento incluye una Aplicación de Software de Reconocimiento del habla. El procedimiento incluye la generación de un Modelo de Lenguaje de n -gramas que contiene un cuerpo grande predefinido de caracteres, en el que el Modelo de Lenguaje de n -gramas incluye al menos un carácter del cuerpo grande predefinido de caracteres y la construcción de una unidad lexical nueva de Modelo de Lenguaje (LM) para cada uno de al menos un carácter. El procedimiento incluye, además, la extracción de pronunciaciones de cada uno de los al menos un carácter que responde a un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres y la creación de al menos unas pronunciaciones alternativas para cada uno de los al menos un carácter que responde a la representación de pronunciación de caracteres para crear un diccionario de pronunciaciones alternativas. Por otra parte, el procedimiento incluye la compilación del Modelo de Lenguaje de n -gramas para su uso con la aplicación de software de reconocimiento del habla, en el que la compilación del Modelo de Lenguaje es sensible a la unidad lexical nueva del Modelo de Lenguaje y al diccionario de pronunciaciones alternativas.
Breve descripción de las figuras
Las anteriores y otras características y ventajas de la presente invención se comprenderán más completamente a partir de la descripción detallada que sigue de realizaciones ilustrativas, tomadas en conjunto con los dibujos que se acompañan, en los que los mismos elementos están numerados de la misma manera en las diversas figuras:
La figura 1 es un diagrama de bloques que ilustra un sistema de reconocimiento del habla típico;
La figura 2 es un diagrama de bloques esquemático que ilustra un sistema para implementar un procedimiento para crear un modelo de lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, de acuerdo con una realización ejemplar;
La figura 3 es un diagrama de bloques que ilustra un procedimiento para crear un modelo de lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla, de acuerdo con una realización ejemplar, y
La figura 4 es una tabla de Fonemas de Inglés Americano.
Descripción detallada de la invención
La mayor parte de las aplicaciones de reconocimiento del habla utilizan un modelo de patrones acústicos típicos y de patrones de palabras típicos con el fin de determinar una transcripción palabra por palabra de una expresión acústica determinada. Estos patrones de palabras son utilizados entonces por las aplicaciones de reconocimiento del habla y se conocen colectivamente como Modelos de lenguaje (LM). De esta manera, un Modelo de Lenguaje representa secuencias de palabras y la probabilidad de que la secuencia se produzca en un contexto dado. Por lo tanto, con el fin de ser eficaz en las aplicaciones de reconocimiento del habla, un Modelo de Lenguaje debe ser construido a partir de una gran cantidad de datos de entrenamiento textual. También se debe tener en cuenta que las reglas nemotécnicas pueden ser utilizadas con gran efectividad cuando se utilizan para corregir el deletreo de una palabra utilizando una aplicación de software de reconocimiento del habla. Por ejemplo, un escenario puede implicar un usuario que intenta escribir una palabra sin utilizar reglas nemotécnicas y ahora se encuentra en la situación en la que la aplicación de software de reconocimiento del habla no ha reconocido una (o más) de las letras que han sido comunicadas. La utilización de técnicas mnemotécnicas que volver a pronunciar una letra aumenta en gran medida la probabilidad de que el usuario tenga éxito al volver a pronunciar esa letra.
Haciendo referencia a la figura 1, se muestra un diagrama de bloques que ilustra un sistema de reconocimiento del habla típico 100 e incluye un dispositivo de procesamiento 102, un dispositivo de entrada 104, un dispositivo de almacenamiento 106 y un dispositivo de visualización 108, en el que un modelo acústico 110 y un Modelo de Lenguaje 112 están almacenados en el dispositivo de almacenamiento 106. El modelo acústico 110 contiene típicamente información que ayudará al descodificador a determinar qué palabras han sido pronunciadas. El modelo acústico 110 logra esto mediante la hipótesis de una serie de fonemas basados en los parámetros espectrales proporcionados por el dispositivo de entrada 104, en el que un fonema es la unidad fonética más pequeña en un idioma que es capaz de transmitir una distinción en el significado y que típicamente implica el uso de un diccionario y modelos ocultos de Markov. Por ejemplo, el modelo acústico 110 puede incluir un diccionario (léxico) de palabras y sus pronunciaciones fonéticas correspondientes, en el que estas pronunciaciones contienen un indicador de la probabilidad de que una secuencia de fonemas dados se produzcan juntas para formar una palabra. Además, el modelo acústico 110 también puede incluir información sobre la probabilidad de fonemas distintos que posiblemente se produzcan en el contexto de otros fonemas. Por ejemplo, un "trifono" es un fonema distintivo usado en el contexto de un fonema distintivo a la izquierda (antepuesto) y otro fonema distintivo a la derecha (añadido). Por lo tanto, los contenidos del modelo acústico 110 son utilizados por el dispositivo de procesamiento 102 para predecir que palabras están representadas por los parámetros espectrales calculados.
Además, el Modelo de Lenguaje (LM) 112 especifica cómo y en qué frecuencias, las palabras se producirán juntas. Por ejemplo, un Modelo de Lenguaje de n -gramas 112 estima de la probabilidad de que una palabra siga una secuencia de palabras. Estos valores de probabilidad en conjunto forman el Modelo de Lenguaje de n -gramas 112. El dispositivo de procesamiento 102 utiliza entonces las probabilidades del Modelo de Lenguaje de n -gramas 112 para elegir entre las mejores hipótesis de secuencia de palabras, como se identifican usando el modelo acústico 110, para obtener la palabra, o secuencia de palabras más probable representada por los parámetros espectrales, en el que la hipótesis más probable puede ser mostrada por el dispositivo de visualización 108.
La presente invención, como se describe en la presente memoria descriptiva, se describe en el contexto de un módulo de aplicación independiente y / o integrado que se utiliza con un sistema implementado en un ordenador de propósito general que utiliza una aplicación de reconocimiento del habla para recibir y reconocer comandos por voz introducidos por un usuario. Como una aplicación orientada a de objetivo, el módulo de aplicación puede exponer una interfaz estándar a la que los programas cliente pueden acceder para comunicarse con el módulo de aplicación. El módulo de aplicación también puede permitir a un número de programas cliente diferentes, tales como un programa procesador de textos, un programa de autoedición, un programa de aplicación, y así sucesivamente, para utilizar el módulo de aplicación a nivel local y / o en una red, tal como una WAN, una red local y / o un vehículo basado en Internet. Por ejemplo, el módulo de aplicación puede ser accedido y utilizado con cualquier aplicación y / o control que tenga un campo de texto, tal como una aplicación de correo electrónico o de Microsoft® Word, a nivel local o a través de un punto de acceso a Internet. Sin embargo, antes de describir aspectos de la presente invención, una realización de un entorno informático adecuado que puede incorporar y beneficiarse de esta invención se describirá a continuación.
Haciendo referencia a la figura 2, se muestra un diagrama de bloques que ilustra un sistema 200 para implementar un procedimiento para crear un Modelo de Lenguaje nemotécnico 112 para usar con una aplicación de software de reconocimiento del habla e incluye un sistema informático de uso general 202, que incluye un dispositivo de procesamiento 204, una memoria de sistema 206, y un bus de sistema 208, en el que el bus de sistema 208 acopla la memoria de sistema 206 al dispositivo de procesamiento 204. La memoria de sistema 206 puede incluir memoria de sólo lectura (ROM) 210 y memoria de acceso aleatorio (RAM) 212. Un sistema básico de entradas / salidas 214 (BIOS), que contiene las rutinas básicas que ayudan a la transferencia de información entre los elementos en el sistema informático de uso general 202, por ejemplo, durante el arranque, está almacenado en la ROM 210. El sistema informático de uso general 202 incluye, además, un dispositivo de almacenamiento 216, tal como un controlador de disco duro 218, un controlador de disco magnético 220, por ejemplo, para leer o escribir en un disco removible magnético 222, y un controlador de disco óptico 224, por ejemplo, para leer un disco CD-ROM226 o para leer o escribir en otros medios ópticos. El dispositivo de almacenamiento 216 puede estar conectado al sistema de bus 208 por una interfaz de dispositivo de almacenamiento, tal como una interfaz de controlador de disco duro 230, una interfaz de controlador de disco magnético 232 y una interfaz de controlador óptico 234. Los controladores y sus correspondientes soportes legibles por ordenador proporcionan un almacenamiento no volátil para el sistema informático de uso general 202. Aunque la descripción de un soporte informático y los medios de comunicación anterior se refieren a un disco duro, un disco magnético removible y un disco CD-ROM, se debe tener en cuenta que se pueden utilizar otros tipos de medios que pueden ser leídos por un sistema informático y que son adecuados para el fin deseado, tales como cintas magnéticas, tarjetas de memoria flash, discos de vídeo digitales, cartuchos de Bernoulli, y otros similares.
Un usuario puede introducir comandos e información en el sistema informático de uso general 202 a través de un dispositivo de entrada convencional 235, incluyendo un teclado 236, un dispositivo señalizador tal como un ratón 238 y un micrófono 240, en el que el micrófono 240 se puede usar para introducir entradas de audio, tal como habla, en el sistema informático de uso general 202. Además, un usuario puede introducir información gráfica, tal como un dibujo o escritura manual, en el sistema informático de uso general 202 dibujando la información gráfica sobre una tableta de escritura 242 por medio de un lápiz óptico. El sistema informático de uso general 202 también puede incluir otros dispositivos de entrada adecuados para el propósito final deseado, tal como una palanca de mando, almohadilla de juegos, antena parabólica, escáner u otros similares. El micrófono 240 puede estar conectado al dispositivo de procesamiento 204 por medio de un adaptador de audio 244 que se acopla al del sistema de bus 208. Además, otros dispositivos de entrada frecuentemente están conectados al dispositivo de procesamiento 204 por medio de una interfaz de puerto serie 246 que está acoplada al sistema de bus 208, pero también pueden ser conectados por medio de otras interfaces, tales como una interfaz de puerto paralelo, un puerto de juegos o un bus serie universal (USB).
Un dispositivo de visualización 247, tal como un monitor u otro tipo de dispositivo de visualización 247, que tiene una pantalla 248, también está conectado al sistema de bus 208 por medio de una interfaz, tal como un adaptador de vídeo 250. Además de la pantalla248, el sistema informático de uso general 202 también incluye típicamente otros dispositivos de salida periféricos, tales como altavoces y / o impresoras. El sistema informático de uso general 202 puede operar en un entorno de red utilizando conexiones lógicas con uno o más sistemas informáticos remotos 252. El sistema informático remoto 252 puede ser un servidor, un router, un dispositivo de pares u otros nodos de red común, y puede incluir cualquiera o todos los elementos que se han descritos en relación con el sistema informático de uso general 202, aunque sólo un dispositivo de almacenamiento de memoria remoto 254 se ha se ilustra en la figura 2. Las conexiones lógicas, como se muestra en la figura 2, incluyen una red de área local (LAN) 256 y una red de área amplia (WAN) 258. Esos entornos de redes son comunes en las oficinas, redes informáticas a nivel de empresa, intranets e Internet.
Cuando se utiliza en un entorno de red LAN, el sistema informático de uso general 202 se conecta a la LAN 256 por medio de una interfaz de red 260. Cuando se utiliza en un entorno de red WAN, el sistema informático de uso general 202 típicamente incluye un módem 262 u otros medios para establecer comunicaciones a través de una WAN 258, tales como el Internet. El módem 262, que puede ser interno o externo, puede estar conectado al bus de sistema 208 por medio de la interfaz de puerto serie 246. En un entorno de red, los módulos del programa que se muestran en relación con el sistema informático de uso general 202, o partes del mismo, pueden ser almacenados en el dispositivo de memoria de almacenamiento remoto 254. Se debe tener en cuenta que las conexiones de red que se muestran son ejemplares y otros medios para establecer un enlace de comunicación entre los sistemas informáticos pueden ser utilizados. También se debe apreciar que el módulo de aplicación podría ser implementado de manera equivalente en los sistemas de ordenador principal o servidor distintos de los sistemas informáticos de uso general, y podrían ser transmitidos de manera equivalente al sistema de ordenador principal por otros medios distintos que un CD-ROM, por ejemplo, por medio de la interfaz de conexión a la red 260.
Además, un número de módulos de programa se puede almacenar en los controladores y RAM 212 del sistema informático de uso general 202. Los módulos del programa controlan cómo el sistema informático de uso general 202 funciona e interactúa con el usuario, con los dispositivos de E / S o con otros ordenadores. Los módulos de programa incluyen rutinas, sistemas operativos 264, módulos de programa de aplicación de objetivo 266, estructuras de datos, navegadores y otros componentes de software o de micro programas. El procedimiento de la presente invención puede estar incluido en un módulo de aplicación y el módulo de aplicación puede ser implementado convenientemente en uno o más módulos de programa, tal como un módulo de corrección del motor de palabras 270 basado en los procedimientos que se han descritos en la presente memoria descriptiva. Los módulos de programa de aplicación de objetivo 266 pueden comprender una gran variedad de aplicaciones que se utilizan en conjunto con la presente invención, algunas de las cuales se muestran en la figura 3. Los propósitos de, y las interacciones entre, algunos de estos módulos de programa se explican más completamente en el texto que describe la figura 3. Esto incluye cualquier aplicación y / o control que tenga un campo de texto, por ejemplo, una aplicación de correo electrónico, un programa de procesador de textos (tal como Microsoft® Word, producido por la Microsoft Corporation de Redmond, Washington), un módulo de programa de reconocimiento de escritura manual, el módulo de corrección del motor de palabras 270, y un editor de procedimiento de entrada (IME).
Se debe apreciar que ningún lenguaje de programación particular se describe para la realización de los diversos procedimientos que se han descrito en la descripción detallada, ya que se considera que las operaciones, pasos y procedimientos que se han descrito e ilustrado en los dibujos que se acompañan han sido suficientemente divulgados para permitir que un experto en la técnica pueda practicar una realización ejemplar de la presente invención. Por otra parte, hay muchos ordenadores y sistemas operativos que pueden ser utilizados en la práctica de una realización ejemplar, y por lo tanto no se puede proporcionar ningún programa informático detallado que pudiese ser aplicable a todos estos sistemas diferentes. Cada usuario de un ordenador en particular conocerá el lenguaje y las herramientas que son más útiles para las necesidades y los propósitos de ese usuario.
Haciendo referencia a la figura 3, se muestra en la misma un diagrama de bloques que ilustra un procedimiento 300 para crear un modelo de lenguaje nemotécnico para usar con una aplicación de software de reconocimiento del habla implementada utilizando el sistema informático de uso general 202 de la figura 2, en el que el sistema informático de uso general 202 incluye un dispositivo de procesamiento 204 que comunica con un dispositivo de entrada 235, un dispositivo de almacenamiento 216 y un dispositivo de visualización 247, en el que el dispositivo de visualización 247 incluye la pantalla 248, como se muestra en la figura 2. Como se ha explicado más arriba, el dispositivo de entrada 235 puede ser cualquier dispositivo adecuado para el propósito final deseado, tal como un micrófono. Además, la aplicación de software de reconocimiento del habla puede ser almacenada en el dispositivo de almacenamiento 216 para permitir que el dispositivo de procesamiento 204 acceda a la aplicación de software de reconocimiento del habla. Por otra parte, al menos una aplicación de software de objetivo 266, tales como Microsoft® Windows, también puede ser almacenada en el dispositivo de almacenamiento 216 para permitir a un usuario ejecutar la aplicación de software de objetivo por medio de una instrucción comunicada al dispositivo de procesamiento 204.
El procedimiento 300 incluye generar un Modelo de Lenguaje de n -gramas 112 de cada carácter y / o cadena de caracteres en un cuerpo grande predefinido de caracteres y / o de cadenas de caracteres, como se muestra en el bloque operativo 302. Como brevemente se ha explicado más arriba, esto asignaría una probabilidad a la ocurrencia de un carácter específico que sigue a otros caracteres. Por ejemplo, se considera la ocurrencia de la letra "a" después de la cadena de caracteres "er" en la palabra "era". Generar un Modelo de Lenguaje de n -gramas 112 podría causar una probabilidad, P (a | e, r), que se asignará a esta ocurrencia. En otras palabras, la probabilidad P (a | e, r) representaría la probabilidad de que la letra “a” se produzca después de la secuencia de letras “er”. Se debe apreciar que el Modelo de Lenguaje de n -gramas 112 puede ser escrito como un archivo en el formato ARPA estándar de comunidad y puede ser sensible a mayúsculas y minúsculas para permitir la asignación de probabilidades a ambas mayúsculas y minúsculas. El procedimiento 300 también incluye la construcción de una unidad lexical nueva de Modelo de Lenguaje para cada uno de los caracteres y / o cadenas de caracteres en el cuerpo grande predefinido de caracteres y / o cadenas de caracteres, como se muestra en el bloque operativo 304. Por ejemplo, se considere el carácter "a", en el que una unidad lexical de Modelo de Lenguaje ya existe. Una unidad lexical nueva de Modelo de Lenguaje "a-As | n", se construye para su uso con el deletreo nemotécnico, mientras que la unidad lexical antigua de Modelo de Lenguaje, "a", se retiene para su uso con el deletreo de caracteres. Esto permite que un Modelo de Lenguaje de n -gramas 112 se construya para las técnicas de deletreo regular y técnicas de deletreo nemotécnico al mismo tiempo que se mantiene el rendimiento y sin aumentar el tamaño del Modelo de Lenguaje.
El procedimiento 300 incluye, además, extraer pronunciaciones de cada uno de los caracteres y / o cadenas de caracteres que responden a un diccionario de pronunciaciones predefinida para la aplicación de software de reconocimiento del habla con el fin de crear un diccionario de pronunciaciones alternativas de representaciones de pronunciaciones de caracteres, como se muestra en el bloque operativo 306. Por ejemplo, una vez más, se considera el carácter "a", en el que las pronunciaciones de las palabras que comienzan con "a" se extraen del diccionario de pronunciaciones de la aplicación de software de reconocimiento del habla que se está utilizando para el dictado de escritorio. Usando este diccionario, se encuentra que la palabra "ARON" tiene una representación de pronunciación de caracteres de "ae r ax n", como se muestra en la figura 4. Para cada uno de los caracteres y / o cadenas de caracteres en el diccionario de pronunciaciones predefinidas, se puede crear una pronunciación alternativa anteponiendo a cada carácter su unidad lexical nueva de Modelo de Lenguaje y añadiendo un silencio largo "sil", como se muestra en el bloque operativo 308. Por ejemplo, se considere la unidad lexical nueva de Modelo de Lenguaje "AsIn" (“ComoEn”) y la palabra "ARON". Dada la relación anterior, la pronunciación alternativa estaría representada por "ey AA1 ey ae z ih n ae r ax n sil", en la que "ey AA1 ey ae z ih n" es la pronunciación antepuesta de "AsIn", "ae r ax n"es la pronunciación de "Aron"y "sil"es el silencio largo añadido. Además, las letras mayúsculas son tratadas de una manera similar. Por ejemplo, se considera la frase "capital a as in ARON." ("A mayúscula como en ARON"). Teniendo en cuenta la relación anterior, la pronunciación alternativa estaría representada por "k ae p ih t ax 1 ey AA1 ey ae z ih n ae r ax n sil", en la que "k ae p ih t ax 1" es la pronunciación de mayúscula, "ey ey ae z AA1 ih n" es la pronunciación antepuesta de "AsIn", "ae r ax n" es la pronunciación de "Aron" y "sil" es el silencio largo añadido.
El Modelo de Lenguaje de n -gramas para su uso en el reconocedor de vocabulario grande, puede ser entonces compilado usando un compilador estándar, como se muestra en el bloque operativo 310, en el que la entrada al compilador incluye el Modelo de Lenguaje de n -gramas (en formato ARPA) construido en el bloque operativo 302 y el diccionario de pronunciaciones (que codifica las variantes de pronunciaciones diferentes para cada letra), construido en el bloque operativo 304 y en el bloque operativo 306. Se debe apreciar que el Modelo de Lenguaje de n gramas 112 podrá compilarse utilizando cualquier dispositivo de compilación adecuado para el producto final deseado, tal como un compilador Justo A Tiempo (JIT).
Se debe apreciar que el procedimiento 300 facilita la creación de un modelo de lenguaje de habla basado en trigrama que le da al usuario la posibilidad de utilizar un Modelo de Lenguaje que tienen más de 120.000 reglas nemotécnicas. Esto puede lograrse mediante la codificación del hecho de que un usuario puede decir una de entre 120.000 palabras, codificar la pronunciación de las palabras y codificar las probabilidades de trigrama de que aparezca una palabra teniendo en cuenta las dos palabras anteriores en contexto. Por ejemplo, dada la frase "esto está", y la siguiente palabra que el usuario podría pronunciar, podría ser la palabra "cerca" o "arrodillado", entonces, debido a que la frase "esto está cerca" es mucho más común en inglés que "esto está arrodillado", la palabra "arrodillado” se elige. De una manera similar, para el modelo de lenguaje de deletreo, el término "palabra" se refiere en realidad a los caracteres, en el que los caracteres incluyen las veintiséis letras minúsculas, las veintiséis letras mayúsculas, números y símbolos. De esta manera, el procedimiento 300 que se describe en la presente memoria descriptiva utiliza un promedio de 5000 pronunciaciones por letra (S como en Salmón = S, S como en Sugar = S, S como en Salamandra = S…) y, de hecho, cada palabra en el modelo de dictado de 120.000 palabras se utiliza como una regla nemotécnica posible. A cada regla nemotécnica se le asigna un peso diferente para cada letra o pronunciación, teniendo algunas más peso que otras. Por ejemplo, a la fase nemotécnica "T como en Tom" se da más peso que a "T como terciario", debido a que la probabilidad de que la fase nemotécnica "T como en Tom" se ha utilizado más frecuentemente. Además, las secuencias nemotécnicas también tienen probabilidades, por ejemplo, la probabilidad de que "D" como en Donkey (Burro) sea seguida por "F", como en Fun (Diversión) es menor que la probabilidad de que "D" como en Donkey (Burro) sea seguida por "S" como en Sun (Sol). Estas probabilidades se pueden generar en especial o se pueden obtener de una simple lista de reglas nemotécnicas como toman muestras las encuestas. También se debe apreciar que el procedimiento 300, como se divulga en la presente memoria descriptiva, permite que el sistema 200 "aprenda" caracteres y / o cadenas de caracteres adicionales. Además, aunque el procedimiento 300 se desvela y se explica en la presente memoria descriptiva con respecto a los Fonemas de Inglés Americano, el procedimiento 300 también puede ser usado con los fonemas de cualquier lengua, tal como el chino, ruso, español y francés.
De acuerdo con una realización ejemplar, el procesamiento de la figura 3 puede ser implementado total o parcialmente, por un controlador que funciona en respuesta a un programa informático legible por máquina. Con el fin de ejecutar las funciones prescritas y el procesamiento deseado, así como los cálculos del mismo (por ejemplo, el o los algoritmo (s) de control de la ejecución, los procesos de control prescritos en este la presente memoria descriptiva, y similares), el controlador puede incluir, pero no está limitado a, un o unos procesador (es), ordenador (es), memoria, almacenamiento, registro (s), temporización, interrupción (es), interfaz o interfaces de comunicación, e interfaz o interfaces de la señal de entrada / salida, así como una combinación que comprenda al menos uno de los anteriores.
Además, la invención se puede realizar en forma de procesos implementados por ordenador o por un controlador. La invención también se puede realizar en forma de código de programa informático que contiene las instrucciones recogidas en soportes tangibles, como disquetes, CD -ROM, discos duros y / o cualquier otro medio legible por máquina, en el que, cuando el código de programa informático se carga y es ejecutado por un ordenador o por un controlador, el ordenador o el controlador se convierte en un aparato para practicar la invención. La invención también puede ser realizada en forma de código de programa informático, por ejemplo, cuando está almacenado en un medio de almacenamiento, cargado en y / o ejecutado por un ordenador o un controlador, o transmitido por medio de un medio de transmisión, tal como por hilos eléctricos o cableado, por medio de fibra óptica, o por medio de la radiación electromagnética, en el que, cuando el código de programa de ordenador se ha cargado y es ejecutado por un ordenador o por un controlador, el ordenador o el controlador se convierte en un aparato para practicar la invención. Cuando se implementa en un microprocesador de propósito general, los segmentos de código del programa informático pueden configurar el microprocesador para crear circuitos lógicos específicos.
Aunque la invención ha sido descrita con referencia a una realización ejemplar, los expertos en la técnica entenderán que varios cambios, omisiones y / o adiciones se pueden realizar y los equivalentes pueden ser sustituidos por elementos sin apartarse del alcance de la invención. Además, muchas modificaciones se pueden hacer para adaptar una situación o material particular a las enseñanzas de la invención sin apartarse del alcance de la misma. Por lo tanto, se pretende que la invención no se limite a la realización particular que se describe como el mejor modo contemplado para realizar esta invención, sino que la invención incluirá todas las realizaciones que se encuentran en el alcance de las reivindicaciones adjuntas. Además, a no ser que se indique específicamente cualquier uso de los términos primero, segundo, etc., los mismos no denotan ningún orden de importancia, sino que los términos primero, segundo, etc. se utilizan para distinguir un elemento de otro.
Claims (18)
- REIVINDICACIONES1. Un procedimiento para crear un Modelo de Lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla, comprendiendo el procedimiento:generar (302) un Modelo de Lenguaje de n -gramas (112) de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y de cadenas de caracteres;construir (304) una unidad lexical nueva del Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico;que se caracteriza porextraer (306), de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación del carácter;crear (308) al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado, a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas; ycompilar (310) el citado Modelo de Lenguaje de n -gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n -gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.
-
- 2.
- El procedimiento de la reivindicación 1, en el que el citado cuerpo grande de caracteres predefinido incluye al menos uno de entre letras minúsculas, letras mayúsculas, números y carácter gráficos predefinidos.
-
- 3.
- El procedimiento de la reivindicación 2, en el que al menos uno de entre el citado cuerpo grande de caracteres predefinidos, el citado diccionario de pronunciaciones predefinidas y el citado diccionario de pronunciaciones alternativas responde al idioma Inglés.
-
- 4.
- El procedimiento de la reivindicación 1, en el que la citada construcción incluye la construcción de una unidad lexical nueva del Modelo de Lenguaje para cada uno de los citados al menos un carácter que responde a un deletreo mnemotécnico para el citado cada uno de los citados al menos un carácter.
-
- 5.
- El procedimiento de la reivindicación 1, en el que la citada creación incluye, además, añadir un silencio largo "sil" a la citada representación de pronunciación del carácter para formar la citada pronunciación alternativa.
-
- 6.
- El procedimiento de la reivindicación 1, en el que si el citado al menos un carácter es un carácter en mayúsculas, la citada creación incluye anteponer, además, "k ae p ih t I hacha" al citado Modelo de Lenguaje nuevo.
-
- 7.
- El procedimiento de la reivindicación 1, en el que la compilación del Modelo de Lenguaje de n -gramas se compila usando una herramienta estándar de compilación.
-
- 8.
- El procedimiento de la reivindicación 7, en el que la herramienta estándar de compilación es herramienta de compilación Justo a Tiempo, JIT.
-
- 9.
- El procedimiento de la reivindicación 1, en el que Modelo de Lenguaje de n -gramas es generado utilizando un formato predefinido.
-
- 10.
- El procedimiento de la reivindicación 9, en el que el citado formato predefinido es el formato ARPA.
-
- 11.
- Un sistema adaptado para implementar el procedimiento para crear un Modelo de Lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla de acuerdo con una de las reivindicaciones 1 a 10, en el que el sistema comprende:
un dispositivo de almacenamiento (106, 216) para almacenar la Aplicación de Software de Reconocimiento del habla yal menos una aplicación de software de objetivo;un dispositivo de entrada (104, 235) para introducir vocalmente datos y comandos en el sistema;un dispositivo de visualización (247, 248), en el que el dispositivo de visualización incluye la pantalla para la visualización de los citados datos introducidos, yun dispositivo de procesamiento (102, 204), en el que el citado dispositivo de procesamiento comunica con el citado dispositivo de almacenamiento, con el citado dispositivo de entrada y con el citado dispositivo de pantalla, de manera que el citado dispositivo de procesamiento recibe instrucciones para hacer que la Aplicación de Software de Reconocimiento del habla muestre los datos introducidos en la pantalla y manipule los datos introducidos en respuesta a los citados comandos introducidos. -
- 12.
- El sistema de la reivindicación 11, que incluye, además, un módulo de software de modelo acústico (110) y un módulo de software de Modelo de Lenguaje (112), en el que el citado módulo de software de modelo acústico y el citado módulo de software de Modelo de Lenguaje están dispuestos en el citado dispositivo de almacenamiento.
-
- 13.
- El sistema de la reivindicación 11, que incluye además un compilador, en el que el citado compilador es una herramienta de compilación estándar capaz de compilar en formato ARPA.
-
- 14.
- El sistema de la reivindicación 11, en el que el citado dispositivo de almacenamiento es al menos uno de entre un dispositivo de medios ópticos y un dispositivo de medios magnéticos, un dispositivo de almacenamiento interno, un dispositivo de almacenamiento externo, un dispositivo de almacenamiento removible y un dispositivo de almacenamiento no removible.
-
- 15.
- El sistema de la reivindicación 11, en el que el citado dispositivo de entrada es un micrófono.
-
- 16.
- El sistema de la reivindicación 11, en el que el dispositivo de visualización es al menos uno de entre un CRT, un LCD y un dispositivo de pantalla de plasma.
-
- 17.
- Un código de programa informático legible por máquina, incluyendo el código de programa instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje de n gramas para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento comunica con un dispositivo de almacenamiento y con un dispositivo de visualización y en el que el dispositivo de almacenamiento incluye una Aplicación de Software de Reconocimiento del habla, comprendiendo el procedimiento:
generar un Modelo de Lenguaje de n -gramas de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y cadenas de caracteres;construir una unidad lexical nueva de Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico,que se caracteriza porextraer de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres;crear por lo menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva de Modelo de Lenguaje del carácter dado a una pronunciación extraída de una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas;ycompilar el citado Modelo de Lenguaje de n -gramas para el uso con la aplicación de software de reconocimiento del habla por medio de la introducción en un compilador del citado Modelo de Lenguaje de n -gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter. - 18. Un medio codificado con un código de programa informático legible por máquina , incluyendo el código de programa instrucciones para hacer que un dispositivo de procesamiento implemente un procedimiento para crear un Modelo de Lenguaje de n -gramas para usar con una aplicación de software de reconocimiento del habla, en el que el dispositivo de procesamiento comunica con un dispositivo de almacenamiento y con un dispositivo de visualización, en el que el dispositivo de almacenamiento incluye una Aplicación de Software de reconocimiento del habla, comprendiendo el procedimiento:generar un Modelo de Lenguaje de n -gramas de cada carácter y cadena de caracteres en un cuerpo grande predefinido de caracteres y cadenas de caracteres;construir una unidad lexical nueva de Modelo de Lenguaje de cada carácter para su uso con el deletreo nemotécnico;que se caracteriza porextraer de cada carácter dado, pronunciaciones de palabras que comienzan con el carácter dado de un diccionario de pronunciaciones predefinidas para obtener una representación de pronunciación de caracteres;crear al menos una pronunciación alternativa de cada carácter dado anteponiendo la unidad lexical nueva del Modelo de Lenguaje del carácter dado a una pronunciación extraída para una palabra que comienza con el carácter indicado para crear un diccionario de pronunciaciones alternativas;y compilar, el citado Modelo de Lenguaje de n -gramas para el uso con la aplicación de software de reconocimiento del habla mediante la introducción en un compilador del citado Modelo de Lenguaje de n -gramas generado y un diccionario de pronunciaciones que codifica las diferentes pronunciaciones de cada carácter.Tabla de Fonemas de Inglés Americano
- símbolo
- Ejemplo ID Fonema
- -
- Syllable Boundary (hyphen) Límite de sílaba (guión) 1
- !
- Sentence terminator (exclamation mark) Finalizador de sentencia (símbolo de exclamación 2
- &
- Word Boundary (límite de palabra) 3
- ,
- Sentence terminator (coma) (Finalizador de Sentencia (coma)) 4
- .
- Sentence terminator (period) (Finalizador de Sentencia (punto))
- ?
- Sentence terminator (question mark) (Finalizador de sentencia (interrogación)) 6
- _
- Silence ( underscore) (Silencio (subrayado)) 7
- 1
- Primary Stress (Énfasis Primario) 8
- 2
- Secondary Stress (Énfasis Secundario) 9
- aa
- father (padre)
- ae
- cat (gato) 11
- ah
- cut (corte) 12
- ao
- dog (perro) 13
- aw
- foul (sucio) 14
- ax
- ago (ago)
- ay
- bite (mordisco) 16
- b
- big (grande) 17
- ch
- chin (barbilla) 18
- d
- dig (cavar) 19
- dh
- then (entonces)
- eh
- pet (mascota) 21
- er
- fur (pieles) 22
- ey
- ate (comer) 23
- f
- fork (tenedor) 24
- g
- gut (tripa)
- h
- help (ayuda) 26
- ih
- fill (llenar) 27
- iy
- feel (sentir) 28
- jh
- joy (alegría) 29
- k
- cut (cortar)
FIGURA 4 FIGURA 4 (continuación)- símbolo
- Ejemplo ID Fonema
- l
- lid (tapa) 31
- m
- mat (estera) 32
- n
- no (no) 33
- ng
- sing (cantar) 34
- ow
- go (ir) 35
- oy
- toy (juguete) 36
- p
- put (poner) 37
- r
- red (rojo) 38
- s
- sit (sentar) 39
- sh
- she (ella) 40
- t
- talk (hablar) 41
- th
- thin (delgado) 42
- uh
- book (libro) 43
- uw
- too (también) 44
- v
- vat (cuba) 45
- w
- with (con) 46
- y
- yard (yarda) 47
- z
- zap (borrar) 48
- zh
- pleasure (placer) 49
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/996,732 US7418387B2 (en) | 2004-11-24 | 2004-11-24 | Generic spelling mnemonics |
US996732 | 2004-11-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2375283T3 true ES2375283T3 (es) | 2012-02-28 |
Family
ID=35466493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05109732T Active ES2375283T3 (es) | 2004-11-24 | 2005-10-19 | Procedimiento para deletreo nemotécnico genérico. |
Country Status (14)
Country | Link |
---|---|
US (2) | US7418387B2 (es) |
EP (1) | EP1662482B1 (es) |
JP (1) | JP4818683B2 (es) |
KR (1) | KR101183310B1 (es) |
CN (1) | CN1779783B (es) |
AT (1) | ATE534988T1 (es) |
AU (2) | AU2005229636B2 (es) |
BR (1) | BRPI0504510A (es) |
CA (1) | CA2523933C (es) |
ES (1) | ES2375283T3 (es) |
MX (1) | MXPA05011448A (es) |
PL (1) | PL1662482T3 (es) |
PT (1) | PT1662482E (es) |
RU (1) | RU2441287C2 (es) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
KR100930714B1 (ko) | 2007-12-14 | 2009-12-09 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
US8010465B2 (en) | 2008-02-26 | 2011-08-30 | Microsoft Corporation | Predicting candidates using input scopes |
US8447613B2 (en) * | 2008-04-28 | 2013-05-21 | Irobot Corporation | Robot and server with optimized message decoding |
JP2011007862A (ja) * | 2009-06-23 | 2011-01-13 | Fujitsu Ltd | 音声認識装置、音声認識プログラム、および音声認識方法 |
EP2339576B1 (en) * | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US8914286B1 (en) * | 2011-04-14 | 2014-12-16 | Canyon IP Holdings, LLC | Speech recognition with hierarchical networks |
CN103827962B (zh) * | 2011-09-09 | 2016-12-07 | 旭化成株式会社 | 声音识别装置 |
KR101193362B1 (ko) * | 2012-04-13 | 2012-10-19 | 최병기 | 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체 |
US20140068443A1 (en) * | 2012-08-28 | 2014-03-06 | Private Group Networks, Inc. | Method and system for creating mnemonics for locations-of-interests |
US10235358B2 (en) | 2013-02-21 | 2019-03-19 | Microsoft Technology Licensing, Llc | Exploiting structured content for unsupervised natural language semantic parsing |
US10073840B2 (en) | 2013-12-20 | 2018-09-11 | Microsoft Technology Licensing, Llc | Unsupervised relation detection model training |
WO2019203016A1 (ja) * | 2018-04-19 | 2019-10-24 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
JP7332486B2 (ja) * | 2020-01-08 | 2023-08-23 | 株式会社東芝 | 記号列変換装置および記号列変換方法 |
US11735169B2 (en) * | 2020-03-20 | 2023-08-22 | International Business Machines Corporation | Speech recognition and training for data inputs |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2820093B2 (ja) * | 1995-12-26 | 1998-11-05 | 日本電気株式会社 | 単音節認識装置 |
US6321196B1 (en) * | 1999-07-02 | 2001-11-20 | International Business Machines Corporation | Phonetic spelling for speech recognition |
GB2353887B (en) * | 1999-09-04 | 2003-09-24 | Ibm | Speech recognition system |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6694296B1 (en) * | 2000-07-20 | 2004-02-17 | Microsoft Corporation | Method and apparatus for the recognition of spelled spoken words |
WO2002029613A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation (A Corporation Of Delaware) | Method and system for building a domain specific statistical language model from rule-based grammar specifications |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6975986B2 (en) * | 2001-05-30 | 2005-12-13 | International Business Machines Corporation | Voice spelling in an audio-only interface |
US7225130B2 (en) * | 2001-09-05 | 2007-05-29 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
US7315811B2 (en) * | 2003-12-31 | 2008-01-01 | Dictaphone Corporation | System and method for accented modification of a language model |
-
2004
- 2004-11-24 US US10/996,732 patent/US7418387B2/en not_active Expired - Fee Related
-
2005
- 2005-10-06 KR KR1020050093842A patent/KR101183310B1/ko not_active IP Right Cessation
- 2005-10-18 BR BRPI0504510-0A patent/BRPI0504510A/pt not_active IP Right Cessation
- 2005-10-19 PL PL05109732T patent/PL1662482T3/pl unknown
- 2005-10-19 PT PT05109732T patent/PT1662482E/pt unknown
- 2005-10-19 ES ES05109732T patent/ES2375283T3/es active Active
- 2005-10-19 AT AT05109732T patent/ATE534988T1/de active
- 2005-10-19 EP EP05109732A patent/EP1662482B1/en not_active Not-in-force
- 2005-10-20 CA CA2523933A patent/CA2523933C/en not_active Expired - Fee Related
- 2005-10-24 JP JP2005308459A patent/JP4818683B2/ja not_active Expired - Fee Related
- 2005-10-24 MX MXPA05011448A patent/MXPA05011448A/es active IP Right Grant
- 2005-10-26 CN CN2005101186009A patent/CN1779783B/zh not_active Expired - Fee Related
- 2005-10-31 AU AU2005229636A patent/AU2005229636B2/en not_active Ceased
- 2005-11-23 RU RU2005136460/08A patent/RU2441287C2/ru not_active IP Right Cessation
-
2008
- 2008-07-11 US US12/171,309 patent/US7765102B2/en not_active Expired - Fee Related
-
2010
- 2010-08-16 AU AU2010212370A patent/AU2010212370B2/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
CA2523933C (en) | 2014-01-28 |
CN1779783A (zh) | 2006-05-31 |
CA2523933A1 (en) | 2006-05-24 |
BRPI0504510A (pt) | 2006-07-11 |
JP2006146193A (ja) | 2006-06-08 |
KR101183310B1 (ko) | 2012-09-17 |
KR20060058004A (ko) | 2006-05-29 |
AU2005229636A1 (en) | 2006-06-08 |
RU2005136460A (ru) | 2007-05-27 |
AU2010212370A1 (en) | 2010-09-09 |
RU2441287C2 (ru) | 2012-01-27 |
ATE534988T1 (de) | 2011-12-15 |
PL1662482T3 (pl) | 2012-04-30 |
AU2010212370B2 (en) | 2012-05-10 |
EP1662482A2 (en) | 2006-05-31 |
PT1662482E (pt) | 2011-12-19 |
AU2005229636B2 (en) | 2010-09-30 |
CN1779783B (zh) | 2011-08-03 |
US20080319749A1 (en) | 2008-12-25 |
EP1662482A3 (en) | 2010-02-17 |
US7418387B2 (en) | 2008-08-26 |
US7765102B2 (en) | 2010-07-27 |
MXPA05011448A (es) | 2007-12-11 |
US20060111907A1 (en) | 2006-05-25 |
JP4818683B2 (ja) | 2011-11-16 |
EP1662482B1 (en) | 2011-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2375283T3 (es) | Procedimiento para deletreo nemotécnico genérico. | |
CN109036464B (zh) | 发音检错方法、装置、设备及存储介质 | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
US7624013B2 (en) | Word competition models in voice recognition | |
Dickinson et al. | Language and computers | |
KR101990021B1 (ko) | 영어 발음기호를 이용한 외국어 및 자국어 표시장치 및 방법 | |
CN108091185B (zh) | 基于音节拼读的单词学习系统及其单词学习方法 | |
KR20180025559A (ko) | 발음 사전 학습 방법 및 장치 | |
Gemmeke et al. | A Self-Learning Assistive Vocal Interface Based on Vocabulary Learning and Grammar Induction. | |
JP3621624B2 (ja) | 外国語学習装置、外国語学習方法および媒体 | |
Shockey | Understanding L2 and the perspicacious Pole | |
JP7195593B2 (ja) | 語学学習用装置および語学学習用プログラム | |
Hernández-Mena et al. | Creating a grammar-based speech recognition parser for Mexican Spanish using HTK, compatible with CMU Sphinx-III system | |
KR101983031B1 (ko) | 언어 교육 방법 및 언어 교육 시스템 | |
Hartanto et al. | Rule-based Approach for English-Indonesian Code-switching Acoustic Model | |
Neef | Translation in the context of theoretical writing system research | |
Kioko et al. | Harmonizing THE orTHograpHy of gĨkŨyŨ and kĨkamba | |
KR20240071045A (ko) | 알파벳 음소 인지 훈련 시스템 및 방법 | |
KR20230155836A (ko) | 난발음 표기 방법 | |
CN118786473A (zh) | 方法和系统 | |
Odriozola Sustaeta | Speech recognition based strategies for on-line Computer Assisted Language Learning (CALL) systems in Basque | |
JPH02308194A (ja) | 外国語学習装置 | |
Amro | Pronunciation Variation Modeling for Improving Speech Recognition of Holy Quran Recitation | |
Broersma et al. | Spoken Word Recognition in Bilingualism | |
Sazhok et al. | Modeling of language distinctive features for Ukrainian real-time speech recognition system |