ES2281626T3 - Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. - Google Patents

Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. Download PDF

Info

Publication number
ES2281626T3
ES2281626T3 ES03708045T ES03708045T ES2281626T3 ES 2281626 T3 ES2281626 T3 ES 2281626T3 ES 03708045 T ES03708045 T ES 03708045T ES 03708045 T ES03708045 T ES 03708045T ES 2281626 T3 ES2281626 T3 ES 2281626T3
Authority
ES
Spain
Prior art keywords
word
voice recognizer
different languages
phonemes
mother tongue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03708045T
Other languages
English (en)
Inventor
Tobias Schneider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2281626T3 publication Critical patent/ES2281626T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

Procedimiento de funcionamiento de un reconocedor automático de voz para el reconocimiento por voz, independiente del orador, de palabras (10) de distintos idiomas, en particular para el reconocimiento de nombres de distintos idiomas, que parte de un idioma definido como idioma materno y que presenta una fase de introducción para confeccionar un vocabulario del reconocedor de voz con las siguientes etapas: (a) averiguación de la transcripciones fonéticas de palabras en cada caso para N idiomas diferentes, para obtener (S1) por cada palabra N secuencias de fonemas (12) correspondientes a N primeras variantes de expresión, (b) implementación de una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno (S2), (c1) utilización de la reproducción implementada en la etapa (b) sobre las N primeras secuencias de fonemas (12) averiguadas en la etapa (a) para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas (14), correspondientes a las N segundas variantes de pronunciación, que se pueden reconocer mediante un reconocedor de voz de idioma materno (S3) y (d) confección de un vocabulario del reconocedor de voz con las N segundas secuencias de fonemas obtenidas en la etapa precedente por cada palabra para el reconocedor de voz de idioma materno (S6).

Description

Procedimiento de funcionamiento de un reconocedor automático de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automático de voz.
La invención se refiere a un procedimiento de funcionamiento de un reconocedor automático de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas, según la reivindicación 1 y al correspondiente reconocedor automático de voz según la reivindicación 6.
Para el reconocimiento de voz basado en fonemas es necesario un vocabulario de reconocimiento de voz, que incluya las descripciones fonéticas de todas las palabras a reconocer. Esta es una premisa básica para el reconocimiento de voz basado en fonemas. Al respecto, las palabras son representadas por secuencias o cadenas de fonemas en el vocabulario. Durante un proceso de reconocimiento de voz se realiza una búsqueda de la mejor ruta a través de las secuencias de fonemas en el vocabulario. Esta búsqueda puede realizarse por ejemplo con el llamado algoritmo de Viterbi. Cuando se trata de un reconocimiento de voz continuo, pueden además modelizarse las probabilidades de las transiciones entre palabras e incluirse en el algoritmo de Viterbi.
Las transcripciones fonéticas para las palabras a reconocer son la base del reconocimiento de voz basado en fonemas. Por ello al comienzo de la utilización de un reconocedor de voz basado en fonemas se formula siempre la pregunta de cómo pueden obtenerse tales transcripciones fonéticas. Bajo transcripciones fonéticas se entienden aquí las descripciones fonéticas de las palabras a partir de un vocabulario meta. En particular se formula esta cuestión en palabras que no le son conocidas al reconocedor de voz.
Se conocen teléfonos móviles o inalámbricos que permiten la elección de nombres en función del orador. Un usuario de un teléfono de este tipo debe para ello entrenar con las inscripciones contenidas en el listín telefónico electrónico del teléfono, para posteriormente poder utilizar las mismas para la elección de nombres por voz. Desde luego, por lo general no puede utilizar ningún otro usuario esta característica, ya que la elección de nombres en función del orador sólo es adecuada para una persona, precisamente para aquélla que ha entrenado el sistema de elección de voz. Para solventar este problema, pueden transformarse las inscripciones del listín telefónico electrónico en transcripciones fonéticas.
Para averiguar la transcripción fonética a partir una palabra escrita, por ejemplo una inscripción en el listín telefónico, se conocen distintos principios. Remitimos aquí por ejemplo a los llamados sistemas de dictado, que en general se ejecutan sobre un PC. En tales sistemas de dictado está archivado en el caso normal un vocabulario de típicamente varias decenas de miles de palabras con las asociaciones entre secuencias de letras y secuencias de fonemas. Puesto que un vocabulario como el indicado desde luego necesita un espacio de memoria muy grande, no es practicable el mismo para aparatos terminales móviles como por ejemplo teléfonos móviles o inalámbricos.
También se conocen sistemas en los cuales se realiza la conversión de una palabra en su transcripción fonética basada en reglas o mediante redes neuronales especialmente entrenadas. Estos procedimientos poseen, al igual que el vocabulario, el inconveniente de que debe determinarse en qué idioma debe realizarse la secuencia de fonemas. Por supuesto pueden existir, en particular en listines telefónicos electrónicos, nombres procedentes de diferentes idiomas. Una conversión no sería entonces posible, o sólo de forma incompleta, con el procedimiento antes descrito.
Por ello se han desarrollado los llamados sistemas multiidioma para la averiguación de cadenas de fonemas y el reconocimiento de voz. Estos sistemas permiten la generación de cadenas de fonemas a partir de distintos idiomas, tal como por ejemplo en la WO 0003386.
Finalmente, existe adicionalmente otra solución: Un usuario pronuncia las palabras en un sistema de reconocimiento de voz, que a partir de ello genera automáticamente secuencias de fonemas. Cuando se trata de grandes vocabularios, pero también ya cuando hay varias docenas de palabras, como por ejemplo en un listín telefónico electrónico con 80 inscripciones, esto ya no es aceptable para el usuario.
Es tarea de la presente invención por lo tanto proponer un procedimiento de funcionamiento de un reconocedor automático de voz para el reconocimiento de voz independiente del orador de palabras procedentes de distintos idiomas, así como el correspondiente reconocedor automático de voz, que sean sencillos de implementar, que sean particularmente adecuados para su utilización en aparatos terminales móviles, y que sean de realización económica.
Esta tarea se resuelve mediante un procedimiento de funcionamiento con las particularidades de la reivindicación 1 y mediante un reconocedor automático de voz con las particularidades de la reivindicación 6.
La invención se basa esencialmente en la idea de averiguar transcripciones fonéticas de palabras en cada caso para N idiomas distintos, reelaborar éstas a continuación y llevarlas a un reconocedor de voz basado en fonemas para un solo idioma. Este proceder se basa esencialmente en el conocimiento de que un usuario del reconocedor de voz normalmente habla en su idioma materno. También palabras de otros idiomas, por ejemplo nombres, las pronuncia el mismo normalmente con un "color de idioma materno", es decir, con un acento que puede ser modelado a grandes rasgos mediante un llamado reconocedor de voz de idioma materno. El procedimiento de funcionamiento parte por lo tanto de un idioma definido como idioma materno.
Cada idioma puede describirse ahora con distintos fonemas propios del correspondiente idioma. No obstante, tal como se sabe, son similares muchos fonemas de distintos idiomas. Un ejemplo de ello es la "p" en inglés y en alemán.
Este hecho se aprovecha en el reconocimiento de voz multiidioma. Para un conjunto idiomas se confecciona aquí un único modelo Hidden-Markov, con el que pueden reconocerse simultáneamente varios idiomas. Por supuesto, esto da lugar a un modelo Hidden-Markov muy grande, que posee un coeficiente de reconocimiento inferior al que posee un modelo Hidden-Markov de un solo idioma. Además, al ampliar el conjunto de idiomas en por ejemplo otro idioma adicional, debe confeccionarse un nuevo modelo Hidden-Markov, lo cual es muy costoso. Esto se evita con la invención.
En el marco de la invención, se averiguan en una primera etapa de la fase de introducción, para confeccionar un vocabulario del reconocedor de voz de un procedimiento de funcionamiento de un reconocedor automático de voz para el reconocimiento de voz independiente del orador de palabras procedentes de distintos idiomas, en particular para reconocer nombres procedentes de distintos idiomas, las transcripciones fonéticas de palabras en cada caso para N idiomas distintos, para obtener por cada palabra N primeras secuencias de fonemas correspondientes a N primeras variantes de pronunciación. En una segunda etapa se aprovechan las similitudes entre los idiomas. Para ello se implementa una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno. Además, se utiliza en una tercera etapa la reproducción implementada sobre las N primeras secuencias de fonemas averiguadas en la primera etapa para cada palabra. De esta manera se obtienen por cada palabra N segundas secuencias de fonemas correspondientes a N segundas variantes de pronunciación. Con el reconocedor de voz de idioma materno, puede ya entonces reconocerse una cierta cantidad N de distintos idiomas tras confeccionar un vocabulario para el reconocedor de voz con las N segundas secuencias de fonemas obtenidas en la etapa anterior por cada palabra para el reconocedor de voz de idioma materno.
La invención tiene esencialmente las siguientes ventajas:
Mientras que un procedimiento Look-up (de búsqueda) en un vocabulario queda eliminado para aparatos terminales móviles debido a la gran necesidad de espacio de memoria y en el reconocimiento de voz multiidioma, que se ha optimizado para un conjunto de idiomas, deben ser confeccionados y optimizados para cada nuevo idioma nuevos modelos Hidden-Markov, se logra mediante la conversión grafemas/fonemas en varios idiomas, según la invención, un sistema multiidioma, que se implementa con medios relativamente sencillos, es adecuado por lo tanto sobre todo para su utilización en aparatos terminales móviles y, no en último lugar, es económico de realizar. Para la invención es necesario, además de la conversión de grafema a fonema, esencialmente sólo un mapeado, es decir, una reproducción entre los distintos idiomas, tal como se ha descrito antes. La averiguación de la secuencia de fonemas y el subsiguiente mapeado o bien reproducción, discurren normalmente "off-line" sobre un aparato, por ejemplo un teléfono móvil, un asistente digital personal o un ordenador personal con el correspondiente software, y por lo tanto no son críticos en el tiempo. Los recursos necesarios para ello pueden alojarse en una memoria externa lenta.
Puesto que el vocabulario para el reconocedor de voz confeccionado con el procedimiento antes descrito incluye no obstante para cada palabra N variantes de pronunciación, el coste de la búsqueda durante el reconocimiento de voz es grande. Para reducir el mismo puede introducirse otra etapa en el procedimiento, que se ejecuta aún antes de confeccionar el vocabulario del reconocedor de voz y tras generar las N segundas secuencias de fonemas por palabra. En esta etapa se procesan, las N segundas secuencias de fonemas correspondientes a las N segundas variantes de pronunciación de cada palabra, analizándose y clasificándose cada segunda secuencia de fonemas mediante distancias adecuadas, en particular la distancia Leveshtein, y se reducen las N segundas secuencias de fonemas de cada palabra a pocas secuencias de fonemas, ventajosamente dos a tres, en particular dejando aparte las variantes de pronunciación que son menos similares a la variantes de pronunciación del idioma materno. Dicho simplificadamente, se dejan fuera mediante esta reducción las variantes de pronunciación menos importantes, con lo que se reduce el coste de búsqueda en el reconocimiento de voz.
Otra reducción de coste puede lograrse realizando antes de la primera etapa una identificación y reducción de idiomas. En el marco de esta identificación de idiomas, se determina para cada palabra a reconocer la probabilidad de la pertenencia a cada uno de los N idiomas distintos. En base al resultado de esta identificación de idiomas, se reduce la cantidad de idiomas a procesar en la primera etapa del procedimiento, ventajosamente a dos hasta tres idiomas diferentes. Esta reducción de idiomas se realiza preferentemente no siguiendo el procesamiento de los idiomas con la probabilidad más baja. Para una determinada palabra puede ser el resultado de la identificación de idiomas por ejemplo como sigue: "alemán 55%, inglés UK 16%, inglés US 14%, sueco 3%, ...". Ya tras este resultado puede realizarse la reducción a tres idiomas distintos, eliminando el sueco, es decir, no siguiendo su procesamiento.
La averiguación de las transcripciones fonéticas en la primera etapa del procedimiento se realiza preferentemente mediante al menos una red neuronal. Las redes neuronales se han acreditado para averiguar transcripciones fonéticas a partir de palabras escritas, ya que aportan buenos resultados en cuanto a la precisión y ante todo la velocidad de procesamiento, así como son de fácil implementación, en particular en cuanto al software.
Como reconocedores de voz de idioma materno, puede utilizarse en particular un modelo Hidden-Markov, que se ha confeccionado para el idioma definido como idioma materno.
La invención se refiere además a un reconocedor de voz para el reconocimiento de voz independiente del orador de palabras procedentes de distintos idiomas, en particular para reconocer nombres en distintos idiomas. Al respecto, se ha definido uno de los distintos idiomas como idioma materno. El reconocedor de voz incluye
-
un reconocedor de voz de idioma materno,
-
un primer módulo de procesamiento para averiguar las transcripciones fonéticas de palabras en cada caso para N idiomas distintos, para obtener por cada palabra N primeras secuencias de fonemas correspondientes a N primeras variantes de pronunciación,
-
un segundo módulo de procesamiento para implementar una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno,
-
un tercer módulo de procesamiento para aplicar la reproducción implementada con el segundo módulo de procesamiento sobre las N primeras secuencias de fonemas averiguadas con el primer módulo de procesamiento para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas correspondientes a N segundas variantes de pronunciación, que pueden reconocerse con el reconocedor de voz de idioma materno y
-
un cuarto módulo de procesamiento para confeccionar un vocabulario de reconocedor de voz con las N segundas secuencias de fonemas por cada palabra obtenidas mediante el tercer módulo de procesamiento para el reconocedor de voz del idioma materno.
En una forma constructiva preferente, incluye el reconocedor automático de voz un quinto módulo de procesamiento para procesar las N segundas secuencias de fonemas correspondientes a las N segundas variantes de pronunciación de cada palabra. El quinto módulo de procesamiento está configurado tal que cada segunda secuencia de fonemas se analiza y clasifica mediante distancias adecuadas, en particular la distancia de Levenshtein, y se reducen las N segundas secuencias de fonemas de cada palabra a pocas secuencias de fonemas, ventajosamente a dos hasta tres.
Además, puede incluir el reconocedor automático de voz un identificador de idioma y un reductor de idiomas. El identificador de idioma está conectado antes del primer módulo de procesamiento y determina para cada palabra a reconocer la probabilidad de la pertenencia a cada uno de los N idiomas distintos. El reductor de idiomas reduce la cantidad de idiomas a procesar por el primer módulo de procesamiento, ventajosamente a dos hasta tres idiomas distintos, haciendo que no se sigan procesando los idiomas con la probabilidad más baja. El identificador de idiomas y el reductor de idiomas reducen considerablemente el coste del procesamiento del reconocedor automático de voz tanto en la fase de introducción como también en la fase de reconocimiento.
Ventajosamente presenta el primer módulo de procesamiento al menos una red neuronal para averiguar las transcripciones fonéticas.
Finalmente, presenta el reconocedor de voz de idioma materno, en una forma constructiva preferente, un modelo Hidden-Markov, que ha sido confeccionado para el idioma definido como idioma materno.
Las ventajas y aspectos convenientes de la invención resultan por lo demás de la siguiente descripción de un ejemplo de ejecución de la invención en base a la única figura. Esta muestra un diagrama secuencial esquemático de la fase de introducción para confeccionar un vocabulario del reconocedor de voz según la invención.
Supongamos que debe realizarse la elección de nombres en función del orador sobre un teléfono móvil con el nombre a partir del listín telefónico para un usuario de idioma alemán. En el listín telefónico se encuentran, junto a nombres predominantemente en idioma alemán, también algunos nombres en idiomas extranjeros. Un convertidor para la representación en grafemas, de los nombres está ajustado para los idiomas alemán, italiano, checo, griego, turco, en total por lo tanto N = 5 distintos idiomas.
En una etapa inicial S0 se realiza una identificación de idioma de las palabras llevadas 10 o bien inscripciones del listín telefónico. Dicho con más precisión, se analiza cada palabra individual en cuanto a la probabilidad de la pertenencia a uno de los cinco idiomas. Si se procesa por ejemplo un nombre alemán, entonces la probabilidad del alemán será muy elevada y para los otros cuatro idiomas, a saber, italiano, checo, griego y turco, por el contrario, muy inferior. En base a las probabilidades calculadas para cada palabra, se elimina el idioma con la probabilidad más inferior para continuar el procesamiento. Esto significa que en la siguiente secuencia de procesamiento sólo deben procesarse cuatro en lugar de cinco idiomas.
En una primera etapa del procedimiento S1 se averigua para cada palabra la transcripción fonética para cada uno de los cuatro idiomas distintos. De esta manera se obtienen para cada palabra cuatro secuencias de fonemas correspondientes a las cuatro primeras variantes de pronunciación.
En una segunda etapa del procedimiento S2 se implementa a continuación una reproducción de los fonemas de cada uno de los cuatro idiomas sobre el correspondiente juego de fonemas del idioma materno.
Esta reproducción se utiliza en una tercera etapa del procedimiento S3 sobre las cuatro primeras secuencias de fonemas 12 obtenidas en la primera etapa del procedimiento S1. De esta manera se obtienen para cada palabra cuatro segundas secuencias de fonemas 14 correspondientes a cuatro segundas variantes de expresión. Las cuatro segundas secuencias de fonemas 14 pueden ya ser reconocidas con un reconocedor de voz de idioma materno.
Para seguir reduciendo desde luego el coste del procesamiento para el reconocedor de voz, se analiza y clasifica (etapa S4) para cada palabra cada segunda secuencia de fonemas mediante la distancia de Levenshtein. A continuación sigue una quinta etapa de procedimiento S5, en la que se reducen las segundas secuencias de fonemas analizadas y clasificadas por cada palabra a tres secuencias de fonemas.
Finalmente, se confecciona en la última etapa S6 un vocabulario de reconocedor de voz con las tres segundas secuencias de fonemas por palabra obtenidas en la quinta etapa de procedimiento S5 para el reconocedor de voz de idioma materno. Mediante la nueva reducción de las secuencias de fonemas en la quinta etapa del procedimiento S5, se reduce apreciablemente por lo tanto el vocabulario para el reconocedor de voz a memorizar y a recorrer durante un reconocimiento de voz. Esto aporta en la utilización práctica del reconocimiento de voz por un lado la ventaja de una necesidad inferior del espacio de memoria y por otro lado de un procesamiento más rápido, ya que ha de recorrerse un vocabulario más pequeño.
Una vez transcurrido el procedimiento descrito, puede el usuario realizar mediante el reconocimiento de voz una elección del nombre, es decir, la llamada controlada por voz a números de llamada memorizados a través de nombre del abonado, sin que tenga que pronunciar con antelación explícitamente por una vez en nombre del abonado a llamar, es decir, sin entrenar.
A continuación se describirá brevemente lo que tiene que hacer el usuario del teléfono móvil para mejorar el reconocimiento de voz. Si el mismo ha observado una vez que un determinado nombre no es reconocido bien, puede llamar al menú del reconocedor de voz de su teléfono móvil y elegir allí la aplicación "elección de nombres". Bajo esta aplicación pueden ofrecérsele ahora una o varias posibilidades para mejorar el reconocimiento de voz de una determinada palabra, o dicho con más precisión de un determinado nombre, a partir del listín telefónico electrónico del teléfono móvil. A continuación se describirán brevemente a modo de ejemplo algunas de estas posibilidades:
1.
El usuario puede pronunciar de nuevo en el teléfono móvil la palabra mal reconocida o no reconocida y a continuación hacer que se convierta mediante el reconocedor de voz contenido en el teléfono móvil en una secuencia de fonemas. En este caso se eliminan automáticamente del vocabulario del reconocedor de voz, total o parcialmente, variantes de pronunciación previamente averiguadas en función de qué proximidad tengan respecto a la nueva secuencia de fonemas averiguada.
2.
Alternativamente, puede el usuario hacerse mostrar sobre el display del teléfono móvil una especie de transcripción fonética de la inscripción mal reconocida o no reconocida del listín telefónico. El tipo de transcipción fonética puede editarlo el usuario entonces cuando no sea correcto, es decir, cuando hay una mala coincidencia con su pronunciación. Por ejemplo, puede estar memorizada mediante la conversión automática de la inscripción "Jacques Chirac", como transcripción fonética, "Jakwes Schirack". Si ahora le resulta al usuario defectuosa esta transcripción fonética, puede el mismo editar mediante su teléfono móvil por ejemplo "Schack Schirack". A continuación puede averiguar el sistema al respecto la descripción fonética e introducirla como nueva en el vocabulario del reconocedor de voz. Con ello debería funcionar de manera fiable el reconocimiento automático de voz.
3.
Finalmente puede el usuario mejorar sensiblemente el reconocimiento mediante una indicación explícita del idioma del que procede un nombre defectuoso o no reconocido en absoluto, o mediante la elección explícita de un determinado idioma para un determinado nombre. En un caso como el indicado, se eliminan para el nombre todas las variantes de pronunciación que no estén asignadas al idioma explícitamente indicado del vocabulario del reconocedor de voz para el nombre.
La invención puede también utilizarse ventajosamente en otros aparatos móviles distintos de un teléfono móvil, por ejemplo en un asistente personal o también un ordenador personal.

Claims (11)

1. Procedimiento de funcionamiento de un reconocedor automático de voz para el reconocimiento por voz, independiente del orador, de palabras (10) de distintos idiomas, en particular para el reconocimiento de nombres de distintos idiomas, que parte de un idioma definido como idioma materno y que presenta una fase de introducción para confeccionar un vocabulario del reconocedor de voz con las siguientes etapas:
(a)
averiguación de la transcripciones fonéticas de palabras en cada caso para N idiomas diferentes, para obtener (S1) por cada palabra N secuencias de fonemas (12) correspondientes a N primeras variantes de expresión,
(b)
implementación de una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno (S2),
(c1)
utilización de la reproducción implementada en la etapa (b) sobre las N primeras secuencias de fonemas (12) averiguadas en la etapa (a) para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas (14), correspondientes a las N segundas variantes de pronunciación, que se pueden reconocer mediante un reconocedor de voz de idioma materno (S3) y
(d)
confección de un vocabulario del reconocedor de voz con las N segundas secuencias de fonemas obtenidas en la etapa precedente por cada palabra para el reconocedor de voz de idioma materno (S6).
2. Procedimiento de funcionamiento según la reivindicación 1,
caracterizado además por las siguientes etapas a ejecutar antes de la etapa (d) y tras la etapa (c1):
(c2)
procesamiento de las N segundas secuencias de fonemas (14) correspondientes a las N segundas variantes de expresión de cada palabra,
(c21)
analizándose y clasificándose (S4) cada segunda secuencia de fonemas (14) mediante distancias adecuadas, en particular la distancia de Levenshtein, y
(c22)
reduciéndose (S5) las N segundas secuencias de fonemas de cada palabra a pocas secuencias de fonemas, ventajosamente dos a tres.
3. Procedimiento de funcionamiento según la reivindicación 1 ó 2,
caracterizado porque antes de la etapa (a) se realiza una identificación de voz, mediante la que para cada palabra a reconocer se determina la probabilidad de pertenencia a cada uno de los N idiomas diferentes y en base al resultado de la identificación del idioma, se reduce la cantidad de idiomas a procesar de la etapa (a), ventajosamente a dos hasta tres idiomas diferentes, no siguiendo el procesamiento (S0) de los idiomas con la probabilidad más baja.
4. Procedimiento de funcionamiento según una de las reivindicaciones 1 a 3,
caracterizado porque la averiguación de las transcripciones fonéticas en la etapa (a) se realiza mediante al menos una red neuronal.
5. Procedimiento de funcionamiento según una de las reivindicaciones 1 a 4,
caracterizado porque como reconocedor de voz de idioma materno se utiliza un modelo Hidden-Markov, que se ha confeccionado para el idioma definido como idioma materno.
6. Reconocedor automático de voz para el reconocimiento de voz, independiente del orador, de palabras procedentes de distintos idiomas, en particular para el reconocimiento de nombres procedentes de distintos idiomas, estando definido uno de las distintos idiomas como idioma materno, con
-
un reconocedor de voz de idioma materno,
-
un primer módulo de procesamiento para averiguar las transcripciones fonéticas de palabras en cada caso para N idiomas distintos, para obtener por cada palabra N primeras secuencias de fonemas correspondientes a N primeras variantes de pronunciación,
-
un segundo módulo de procesamiento para implementar una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno,
-
un tercer módulo de procesamiento para aplicar la reproducción implementada con el segundo módulo de procesamiento sobre las N primeras secuencias de fonemas averiguadas con el primer módulo de procesamiento para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas correspondientes a N segundas variantes de pronunciación, que pueden reconocerse con el reconocedor de voz de idioma materno y
-
un cuarto módulo de procesamiento para confeccionar un vocabulario de reconocedor de voz con las N segundas secuencias de fonemas por cada palabra obtenidas mediante el tercer módulo de procesamiento para el reconocedor de voz de idioma materno.
7. Reconocedor automático de voz según la reivindicación 6,
caracterizado por un quinto módulo de procesamiento para procesar las N segundas secuencias de fonemas correspondientes a las N segundas variantes de pronunciación de cada palabra. que está configurado de tal manera que cada segunda secuencia de fonemas se analiza y clasifica mediante distancias adecuadas, en particular la distancia Levenshtein, y se reducen las N segundas secuencias de fonemas de cada palabra a pocas secuencias de fonemas, ventajosamente a dos hasta tres.
8. Reconocedor automático de voz según la reivindicación 6 ó 7,
caracterizado por un identificador de idioma que está conectado antes del primer módulo de procesamiento y determina para cada palabra a reconocer la probabilidad de la pertenencia a cada uno de los N idiomas distintos, y un reductor de idiomas que reduce la cantidad de idiomas a procesar por el primer módulo de procesamiento, ventajosamente a dos hasta tres idiomas distintos, haciendo que no se sigan procesando los idiomas con la probabilidad más baja.
9. Reconocedor automático de voz según una de las reivindicaciones 6 a 8,
caracterizado porque el primer módulo de procesamiento presenta al menos una red neuronal para averiguar las transcripciones fonéticas.
10. Reconocedor automático de voz según una de las reivindicaciones 6 a 9,
caracterizado porque el reconocedor de voz de idioma materno presenta un modelo Hidden-Markov, que ha sido confeccionado para el idioma definido como idioma materno.
11. Utilización del procedimiento de funcionamiento según una de las reivindicaciones 1 a 5 y del reconocedor automático de voz según una de la reivindicaciones 6 a 10 en un aparato móvil, como un teléfono móvil, asistente digital personal o un ordenador personal.
ES03708045T 2002-01-17 2003-01-02 Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. Expired - Lifetime ES2281626T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02001256 2002-01-17
EP02001256 2002-01-17

Publications (1)

Publication Number Publication Date
ES2281626T3 true ES2281626T3 (es) 2007-10-01

Family

ID=8185291

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03708045T Expired - Lifetime ES2281626T3 (es) 2002-01-17 2003-01-02 Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz.

Country Status (5)

Country Link
US (1) US7974843B2 (es)
EP (1) EP1466317B1 (es)
DE (1) DE50307074D1 (es)
ES (1) ES2281626T3 (es)
WO (1) WO2003060877A1 (es)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959019B2 (en) 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7430503B1 (en) * 2004-08-24 2008-09-30 The United States Of America As Represented By The Director, National Security Agency Method of combining corpora to achieve consistency in phonetic labeling
US7406408B1 (en) * 2004-08-24 2008-07-29 The United States Of America As Represented By The Director, National Security Agency Method of recognizing phones in speech of any language
DE102004055230B3 (de) * 2004-11-16 2006-07-20 Siemens Ag Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
US8265930B1 (en) * 2005-04-13 2012-09-11 Sprint Communications Company L.P. System and method for recording voice data and converting voice data to a text file
DE102005030380B4 (de) * 2005-06-29 2014-09-11 Siemens Aktiengesellschaft Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
SG133419A1 (en) * 2005-12-12 2007-07-30 Creative Tech Ltd A method and apparatus for accessing a digital file from a collection of digital files
DE102006039126A1 (de) * 2006-08-21 2008-03-06 Robert Bosch Gmbh Verfahren zur Spracherkennung und Sprachwiedergabe
US7873517B2 (en) 2006-11-09 2011-01-18 Volkswagen Of America, Inc. Motor vehicle with a speech interface
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
WO2009016729A1 (ja) * 2007-07-31 2009-02-05 Fujitsu Limited 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US9202460B2 (en) * 2008-05-14 2015-12-01 At&T Intellectual Property I, Lp Methods and apparatus to generate a speech recognition library
US20090326945A1 (en) * 2008-06-26 2009-12-31 Nokia Corporation Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
US20100105015A1 (en) * 2008-10-23 2010-04-29 Judy Ravin System and method for facilitating the decoding or deciphering of foreign accents
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
CN102725790B (zh) 2010-02-05 2014-04-16 三菱电机株式会社 识别词典制作装置及声音识别装置
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8600730B2 (en) * 2011-02-08 2013-12-03 Microsoft Corporation Language segmentation of multilingual texts
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US9569439B2 (en) 2011-10-31 2017-02-14 Elwha Llc Context-sensitive query enrichment
US10261994B2 (en) * 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9240181B2 (en) * 2013-08-20 2016-01-19 Cisco Technology, Inc. Automatic collection of speaker name pronunciations
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
CN104681036B (zh) * 2014-11-20 2018-09-25 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
US10109219B2 (en) * 2015-04-16 2018-10-23 Robert Bosch Gmbh System and method for automated sign language recognition
US20170011735A1 (en) * 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN109145145A (zh) 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10783873B1 (en) * 2017-12-15 2020-09-22 Educational Testing Service Native language identification with time delay deep neural networks trained separately on native and non-native english corpora
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995002879A1 (en) * 1993-07-13 1995-01-26 Theodore Austin Bordeaux Multi-language speech recognition system
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
DE19636739C1 (de) * 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
EP0925579B1 (de) * 1996-09-10 2001-11-28 Siemens Aktiengesellschaft Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
US6549883B2 (en) * 1999-11-02 2003-04-15 Nortel Networks Limited Method and apparatus for generating multilingual transcription groups
EP1134726A1 (de) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US20020083029A1 (en) * 2000-10-23 2002-06-27 Chun Won Ho Virtual domain name system using the user's preferred language for the internet
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models

Also Published As

Publication number Publication date
DE50307074D1 (de) 2007-05-31
US20050033575A1 (en) 2005-02-10
US7974843B2 (en) 2011-07-05
EP1466317A1 (de) 2004-10-13
WO2003060877A1 (de) 2003-07-24
EP1466317B1 (de) 2007-04-18

Similar Documents

Publication Publication Date Title
ES2281626T3 (es) Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz.
Kanthak et al. Context-dependent acoustic modeling using graphemes for large vocabulary speech recognition
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
JP5968774B2 (ja) 単語識別方法、単語識別装置、及びコンピュータ可読コード
McGraw et al. Learning lexicons from speech using a pronunciation mixture model
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
ATE449401T1 (de) Automatische erzeugung einer wortaussprache für die spracherkennung
Wang et al. Pronunciation modeling of foreign words for mandarin ASR by considering the effect of language transfer
Schmid et al. Automatically generated word pronunciations from phoneme classifier output
US11817079B1 (en) GAN-based speech synthesis model and training method
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
ES2965480T3 (es) Procesamiento y evaluación de señales del habla
JP3378547B2 (ja) 音声認識方法及び装置
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Phuong et al. Development of high-performance and large-scale vietnamese automatic speech recognition systems
Sakti et al. Rapid development of initial Indonesian phoneme-based speech recognition using the cross-language approach
Nguyen et al. Intonation issues in HMM-based speech synthesis for Vietnamese
Suontausta et al. Low memory decision tree method for text-to-phoneme mapping
Stouten et al. Dealing with cross-lingual aspects in spoken name recognition
Sawada et al. The NITECH HMM-based text-to-speech system for the Blizzard Challenge 2015
Ma et al. Dialect-based speaker classification using speaker-invariant dialect features
Uraga et al. A set of phonological rules for Mexican Spanish
Choueiter et al. Automatic lexical pronunciations generation and update
Lyu et al. An experimental study on continuous phone recognition with little or no language-specific training data
JPH0667686A (ja) 音声認識装置