ES2281626T3 - Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. - Google Patents
Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. Download PDFInfo
- Publication number
- ES2281626T3 ES2281626T3 ES03708045T ES03708045T ES2281626T3 ES 2281626 T3 ES2281626 T3 ES 2281626T3 ES 03708045 T ES03708045 T ES 03708045T ES 03708045 T ES03708045 T ES 03708045T ES 2281626 T3 ES2281626 T3 ES 2281626T3
- Authority
- ES
- Spain
- Prior art keywords
- word
- voice recognizer
- different languages
- phonemes
- mother tongue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013518 transcription Methods 0.000 claims abstract description 17
- 230000035897 transcription Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 34
- 238000011017 operating method Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000003638 chemical reducing agent Substances 0.000 claims description 4
- 230000008774 maternal effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000011835 investigation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
Procedimiento de funcionamiento de un reconocedor automático de voz para el reconocimiento por voz, independiente del orador, de palabras (10) de distintos idiomas, en particular para el reconocimiento de nombres de distintos idiomas, que parte de un idioma definido como idioma materno y que presenta una fase de introducción para confeccionar un vocabulario del reconocedor de voz con las siguientes etapas: (a) averiguación de la transcripciones fonéticas de palabras en cada caso para N idiomas diferentes, para obtener (S1) por cada palabra N secuencias de fonemas (12) correspondientes a N primeras variantes de expresión, (b) implementación de una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno (S2), (c1) utilización de la reproducción implementada en la etapa (b) sobre las N primeras secuencias de fonemas (12) averiguadas en la etapa (a) para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas (14), correspondientes a las N segundas variantes de pronunciación, que se pueden reconocer mediante un reconocedor de voz de idioma materno (S3) y (d) confección de un vocabulario del reconocedor de voz con las N segundas secuencias de fonemas obtenidas en la etapa precedente por cada palabra para el reconocedor de voz de idioma materno (S6).
Description
Procedimiento de funcionamiento de un
reconocedor automático de voz para el reconocimiento por voz,
independiente del orador, de palabras en distintos idiomas y
reconocedor automático de voz.
La invención se refiere a un procedimiento de
funcionamiento de un reconocedor automático de voz para el
reconocimiento por voz, independiente del orador, de palabras en
distintos idiomas, según la reivindicación 1 y al correspondiente
reconocedor automático de voz según la reivindicación 6.
Para el reconocimiento de voz basado en fonemas
es necesario un vocabulario de reconocimiento de voz, que incluya
las descripciones fonéticas de todas las palabras a reconocer. Esta
es una premisa básica para el reconocimiento de voz basado en
fonemas. Al respecto, las palabras son representadas por secuencias
o cadenas de fonemas en el vocabulario. Durante un proceso de
reconocimiento de voz se realiza una búsqueda de la mejor ruta a
través de las secuencias de fonemas en el vocabulario. Esta búsqueda
puede realizarse por ejemplo con el llamado algoritmo de Viterbi.
Cuando se trata de un reconocimiento de voz continuo, pueden además
modelizarse las probabilidades de las transiciones entre palabras e
incluirse en el algoritmo de Viterbi.
Las transcripciones fonéticas para las palabras
a reconocer son la base del reconocimiento de voz basado en
fonemas. Por ello al comienzo de la utilización de un reconocedor de
voz basado en fonemas se formula siempre la pregunta de cómo pueden
obtenerse tales transcripciones fonéticas. Bajo transcripciones
fonéticas se entienden aquí las descripciones fonéticas de las
palabras a partir de un vocabulario meta. En particular se formula
esta cuestión en palabras que no le son conocidas al reconocedor de
voz.
Se conocen teléfonos móviles o inalámbricos que
permiten la elección de nombres en función del orador. Un usuario
de un teléfono de este tipo debe para ello entrenar con las
inscripciones contenidas en el listín telefónico electrónico del
teléfono, para posteriormente poder utilizar las mismas para la
elección de nombres por voz. Desde luego, por lo general no puede
utilizar ningún otro usuario esta característica, ya que la
elección de nombres en función del orador sólo es adecuada para una
persona, precisamente para aquélla que ha entrenado el sistema de
elección de voz. Para solventar este problema, pueden transformarse
las inscripciones del listín telefónico electrónico en
transcripciones fonéticas.
Para averiguar la transcripción fonética a
partir una palabra escrita, por ejemplo una inscripción en el listín
telefónico, se conocen distintos principios. Remitimos aquí por
ejemplo a los llamados sistemas de dictado, que en general se
ejecutan sobre un PC. En tales sistemas de dictado está archivado en
el caso normal un vocabulario de típicamente varias decenas de
miles de palabras con las asociaciones entre secuencias de letras y
secuencias de fonemas. Puesto que un vocabulario como el indicado
desde luego necesita un espacio de memoria muy grande, no es
practicable el mismo para aparatos terminales móviles como por
ejemplo teléfonos móviles o inalámbricos.
También se conocen sistemas en los cuales se
realiza la conversión de una palabra en su transcripción fonética
basada en reglas o mediante redes neuronales especialmente
entrenadas. Estos procedimientos poseen, al igual que el
vocabulario, el inconveniente de que debe determinarse en qué idioma
debe realizarse la secuencia de fonemas. Por supuesto pueden
existir, en particular en listines telefónicos electrónicos, nombres
procedentes de diferentes idiomas. Una conversión no sería entonces
posible, o sólo de forma incompleta, con el procedimiento antes
descrito.
Por ello se han desarrollado los llamados
sistemas multiidioma para la averiguación de cadenas de fonemas y
el reconocimiento de voz. Estos sistemas permiten la generación de
cadenas de fonemas a partir de distintos idiomas, tal como por
ejemplo en la WO 0003386.
Finalmente, existe adicionalmente otra solución:
Un usuario pronuncia las palabras en un sistema de reconocimiento
de voz, que a partir de ello genera automáticamente secuencias de
fonemas. Cuando se trata de grandes vocabularios, pero también ya
cuando hay varias docenas de palabras, como por ejemplo en un listín
telefónico electrónico con 80 inscripciones, esto ya no es
aceptable para el usuario.
Es tarea de la presente invención por lo tanto
proponer un procedimiento de funcionamiento de un reconocedor
automático de voz para el reconocimiento de voz independiente del
orador de palabras procedentes de distintos idiomas, así como el
correspondiente reconocedor automático de voz, que sean sencillos de
implementar, que sean particularmente adecuados para su utilización
en aparatos terminales móviles, y que sean de realización
económica.
Esta tarea se resuelve mediante un procedimiento
de funcionamiento con las particularidades de la reivindicación 1 y
mediante un reconocedor automático de voz con las particularidades
de la reivindicación 6.
La invención se basa esencialmente en la idea de
averiguar transcripciones fonéticas de palabras en cada caso para N
idiomas distintos, reelaborar éstas a continuación y llevarlas a un
reconocedor de voz basado en fonemas para un solo idioma. Este
proceder se basa esencialmente en el conocimiento de que un usuario
del reconocedor de voz normalmente habla en su idioma materno.
También palabras de otros idiomas, por ejemplo nombres, las
pronuncia el mismo normalmente con un "color de idioma
materno", es decir, con un acento que puede ser modelado a
grandes rasgos mediante un llamado reconocedor de voz de idioma
materno. El procedimiento de funcionamiento parte por lo tanto de
un idioma definido como idioma materno.
Cada idioma puede describirse ahora con
distintos fonemas propios del correspondiente idioma. No obstante,
tal como se sabe, son similares muchos fonemas de distintos idiomas.
Un ejemplo de ello es la "p" en inglés y en alemán.
Este hecho se aprovecha en el reconocimiento de
voz multiidioma. Para un conjunto idiomas se confecciona aquí un
único modelo Hidden-Markov, con el que pueden
reconocerse simultáneamente varios idiomas. Por supuesto, esto da
lugar a un modelo Hidden-Markov muy grande, que
posee un coeficiente de reconocimiento inferior al que posee un
modelo Hidden-Markov de un solo idioma. Además, al
ampliar el conjunto de idiomas en por ejemplo otro idioma
adicional, debe confeccionarse un nuevo modelo
Hidden-Markov, lo cual es muy costoso. Esto se
evita con la invención.
En el marco de la invención, se averiguan en una
primera etapa de la fase de introducción, para confeccionar un
vocabulario del reconocedor de voz de un procedimiento de
funcionamiento de un reconocedor automático de voz para el
reconocimiento de voz independiente del orador de palabras
procedentes de distintos idiomas, en particular para reconocer
nombres procedentes de distintos idiomas, las transcripciones
fonéticas de palabras en cada caso para N idiomas distintos, para
obtener por cada palabra N primeras secuencias de fonemas
correspondientes a N primeras variantes de pronunciación. En una
segunda etapa se aprovechan las similitudes entre los idiomas. Para
ello se implementa una reproducción de los fonemas de cada idioma
sobre el correspondiente juego de fonemas del idioma materno.
Además, se utiliza en una tercera etapa la reproducción implementada
sobre las N primeras secuencias de fonemas averiguadas en la
primera etapa para cada palabra. De esta manera se obtienen por cada
palabra N segundas secuencias de fonemas correspondientes a N
segundas variantes de pronunciación. Con el reconocedor de voz de
idioma materno, puede ya entonces reconocerse una cierta cantidad N
de distintos idiomas tras confeccionar un vocabulario para el
reconocedor de voz con las N segundas secuencias de fonemas
obtenidas en la etapa anterior por cada palabra para el reconocedor
de voz de idioma materno.
La invención tiene esencialmente las siguientes
ventajas:
Mientras que un procedimiento
Look-up (de búsqueda) en un vocabulario queda
eliminado para aparatos terminales móviles debido a la gran
necesidad de espacio de memoria y en el reconocimiento de voz
multiidioma, que se ha optimizado para un conjunto de idiomas,
deben ser confeccionados y optimizados para cada nuevo idioma nuevos
modelos Hidden-Markov, se logra mediante la
conversión grafemas/fonemas en varios idiomas, según la invención,
un sistema multiidioma, que se implementa con medios relativamente
sencillos, es adecuado por lo tanto sobre todo para su utilización
en aparatos terminales móviles y, no en último lugar, es económico
de realizar. Para la invención es necesario, además de la
conversión de grafema a fonema, esencialmente sólo un mapeado, es
decir, una reproducción entre los distintos idiomas, tal como se ha
descrito antes. La averiguación de la secuencia de fonemas y el
subsiguiente mapeado o bien reproducción, discurren normalmente
"off-line" sobre un aparato, por ejemplo un
teléfono móvil, un asistente digital personal o un ordenador
personal con el correspondiente software, y por lo tanto no son
críticos en el tiempo. Los recursos necesarios para ello pueden
alojarse en una memoria externa lenta.
Puesto que el vocabulario para el reconocedor de
voz confeccionado con el procedimiento antes descrito incluye no
obstante para cada palabra N variantes de pronunciación, el coste de
la búsqueda durante el reconocimiento de voz es grande. Para
reducir el mismo puede introducirse otra etapa en el procedimiento,
que se ejecuta aún antes de confeccionar el vocabulario del
reconocedor de voz y tras generar las N segundas secuencias de
fonemas por palabra. En esta etapa se procesan, las N segundas
secuencias de fonemas correspondientes a las N segundas variantes
de pronunciación de cada palabra, analizándose y clasificándose cada
segunda secuencia de fonemas mediante distancias adecuadas, en
particular la distancia Leveshtein, y se reducen las N segundas
secuencias de fonemas de cada palabra a pocas secuencias de fonemas,
ventajosamente dos a tres, en particular dejando aparte las
variantes de pronunciación que son menos similares a la variantes de
pronunciación del idioma materno. Dicho simplificadamente, se dejan
fuera mediante esta reducción las variantes de pronunciación menos
importantes, con lo que se reduce el coste de búsqueda en el
reconocimiento de voz.
Otra reducción de coste puede lograrse
realizando antes de la primera etapa una identificación y reducción
de idiomas. En el marco de esta identificación de idiomas, se
determina para cada palabra a reconocer la probabilidad de la
pertenencia a cada uno de los N idiomas distintos. En base al
resultado de esta identificación de idiomas, se reduce la cantidad
de idiomas a procesar en la primera etapa del procedimiento,
ventajosamente a dos hasta tres idiomas diferentes. Esta reducción
de idiomas se realiza preferentemente no siguiendo el procesamiento
de los idiomas con la probabilidad más baja. Para una determinada
palabra puede ser el resultado de la identificación de idiomas por
ejemplo como sigue: "alemán 55%, inglés UK 16%, inglés US 14%,
sueco 3%, ...". Ya tras este resultado puede realizarse la
reducción a tres idiomas distintos, eliminando el sueco, es decir,
no siguiendo su procesamiento.
La averiguación de las transcripciones fonéticas
en la primera etapa del procedimiento se realiza preferentemente
mediante al menos una red neuronal. Las redes neuronales se han
acreditado para averiguar transcripciones fonéticas a partir de
palabras escritas, ya que aportan buenos resultados en cuanto a la
precisión y ante todo la velocidad de procesamiento, así como son
de fácil implementación, en particular en cuanto al software.
Como reconocedores de voz de idioma materno,
puede utilizarse en particular un modelo
Hidden-Markov, que se ha confeccionado para el
idioma definido como idioma materno.
La invención se refiere además a un reconocedor
de voz para el reconocimiento de voz independiente del orador de
palabras procedentes de distintos idiomas, en particular para
reconocer nombres en distintos idiomas. Al respecto, se ha definido
uno de los distintos idiomas como idioma materno. El reconocedor de
voz incluye
- -
- un reconocedor de voz de idioma materno,
- -
- un primer módulo de procesamiento para averiguar las transcripciones fonéticas de palabras en cada caso para N idiomas distintos, para obtener por cada palabra N primeras secuencias de fonemas correspondientes a N primeras variantes de pronunciación,
- -
- un segundo módulo de procesamiento para implementar una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno,
- -
- un tercer módulo de procesamiento para aplicar la reproducción implementada con el segundo módulo de procesamiento sobre las N primeras secuencias de fonemas averiguadas con el primer módulo de procesamiento para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas correspondientes a N segundas variantes de pronunciación, que pueden reconocerse con el reconocedor de voz de idioma materno y
- -
- un cuarto módulo de procesamiento para confeccionar un vocabulario de reconocedor de voz con las N segundas secuencias de fonemas por cada palabra obtenidas mediante el tercer módulo de procesamiento para el reconocedor de voz del idioma materno.
En una forma constructiva preferente, incluye el
reconocedor automático de voz un quinto módulo de procesamiento
para procesar las N segundas secuencias de fonemas correspondientes
a las N segundas variantes de pronunciación de cada palabra. El
quinto módulo de procesamiento está configurado tal que cada segunda
secuencia de fonemas se analiza y clasifica mediante distancias
adecuadas, en particular la distancia de Levenshtein, y se reducen
las N segundas secuencias de fonemas de cada palabra a pocas
secuencias de fonemas, ventajosamente a dos hasta tres.
Además, puede incluir el reconocedor automático
de voz un identificador de idioma y un reductor de idiomas. El
identificador de idioma está conectado antes del primer módulo de
procesamiento y determina para cada palabra a reconocer la
probabilidad de la pertenencia a cada uno de los N idiomas
distintos. El reductor de idiomas reduce la cantidad de idiomas a
procesar por el primer módulo de procesamiento, ventajosamente a dos
hasta tres idiomas distintos, haciendo que no se sigan procesando
los idiomas con la probabilidad más baja. El identificador de
idiomas y el reductor de idiomas reducen considerablemente el coste
del procesamiento del reconocedor automático de voz tanto en la
fase de introducción como también en la fase de reconocimiento.
Ventajosamente presenta el primer módulo de
procesamiento al menos una red neuronal para averiguar las
transcripciones fonéticas.
Finalmente, presenta el reconocedor de voz de
idioma materno, en una forma constructiva preferente, un modelo
Hidden-Markov, que ha sido confeccionado para el
idioma definido como idioma materno.
Las ventajas y aspectos convenientes de la
invención resultan por lo demás de la siguiente descripción de un
ejemplo de ejecución de la invención en base a la única figura. Esta
muestra un diagrama secuencial esquemático de la fase de
introducción para confeccionar un vocabulario del reconocedor de voz
según la invención.
Supongamos que debe realizarse la elección de
nombres en función del orador sobre un teléfono móvil con el nombre
a partir del listín telefónico para un usuario de idioma alemán. En
el listín telefónico se encuentran, junto a nombres
predominantemente en idioma alemán, también algunos nombres en
idiomas extranjeros. Un convertidor para la representación en
grafemas, de los nombres está ajustado para los idiomas alemán,
italiano, checo, griego, turco, en total por lo tanto N = 5
distintos idiomas.
En una etapa inicial S0 se realiza una
identificación de idioma de las palabras llevadas 10 o bien
inscripciones del listín telefónico. Dicho con más precisión, se
analiza cada palabra individual en cuanto a la probabilidad de la
pertenencia a uno de los cinco idiomas. Si se procesa por ejemplo un
nombre alemán, entonces la probabilidad del alemán será muy elevada
y para los otros cuatro idiomas, a saber, italiano, checo, griego y
turco, por el contrario, muy inferior. En base a las probabilidades
calculadas para cada palabra, se elimina el idioma con la
probabilidad más inferior para continuar el procesamiento. Esto
significa que en la siguiente secuencia de procesamiento sólo deben
procesarse cuatro en lugar de cinco idiomas.
En una primera etapa del procedimiento S1 se
averigua para cada palabra la transcripción fonética para cada uno
de los cuatro idiomas distintos. De esta manera se obtienen para
cada palabra cuatro secuencias de fonemas correspondientes a las
cuatro primeras variantes de pronunciación.
En una segunda etapa del procedimiento S2 se
implementa a continuación una reproducción de los fonemas de cada
uno de los cuatro idiomas sobre el correspondiente juego de fonemas
del idioma materno.
Esta reproducción se utiliza en una tercera
etapa del procedimiento S3 sobre las cuatro primeras secuencias de
fonemas 12 obtenidas en la primera etapa del procedimiento S1. De
esta manera se obtienen para cada palabra cuatro segundas
secuencias de fonemas 14 correspondientes a cuatro segundas
variantes de expresión. Las cuatro segundas secuencias de fonemas
14 pueden ya ser reconocidas con un reconocedor de voz de idioma
materno.
Para seguir reduciendo desde luego el coste del
procesamiento para el reconocedor de voz, se analiza y clasifica
(etapa S4) para cada palabra cada segunda secuencia de fonemas
mediante la distancia de Levenshtein. A continuación sigue una
quinta etapa de procedimiento S5, en la que se reducen las segundas
secuencias de fonemas analizadas y clasificadas por cada palabra a
tres secuencias de fonemas.
Finalmente, se confecciona en la última etapa S6
un vocabulario de reconocedor de voz con las tres segundas
secuencias de fonemas por palabra obtenidas en la quinta etapa de
procedimiento S5 para el reconocedor de voz de idioma materno.
Mediante la nueva reducción de las secuencias de fonemas en la
quinta etapa del procedimiento S5, se reduce apreciablemente por lo
tanto el vocabulario para el reconocedor de voz a memorizar y a
recorrer durante un reconocimiento de voz. Esto aporta en la
utilización práctica del reconocimiento de voz por un lado la
ventaja de una necesidad inferior del espacio de memoria y por otro
lado de un procesamiento más rápido, ya que ha de recorrerse un
vocabulario más pequeño.
Una vez transcurrido el procedimiento descrito,
puede el usuario realizar mediante el reconocimiento de voz una
elección del nombre, es decir, la llamada controlada por voz a
números de llamada memorizados a través de nombre del abonado, sin
que tenga que pronunciar con antelación explícitamente por una vez
en nombre del abonado a llamar, es decir, sin entrenar.
A continuación se describirá brevemente lo que
tiene que hacer el usuario del teléfono móvil para mejorar el
reconocimiento de voz. Si el mismo ha observado una vez que un
determinado nombre no es reconocido bien, puede llamar al menú del
reconocedor de voz de su teléfono móvil y elegir allí la aplicación
"elección de nombres". Bajo esta aplicación pueden ofrecérsele
ahora una o varias posibilidades para mejorar el reconocimiento de
voz de una determinada palabra, o dicho con más precisión de un
determinado nombre, a partir del listín telefónico electrónico del
teléfono móvil. A continuación se describirán brevemente a modo de
ejemplo algunas de estas posibilidades:
- 1.
- El usuario puede pronunciar de nuevo en el teléfono móvil la palabra mal reconocida o no reconocida y a continuación hacer que se convierta mediante el reconocedor de voz contenido en el teléfono móvil en una secuencia de fonemas. En este caso se eliminan automáticamente del vocabulario del reconocedor de voz, total o parcialmente, variantes de pronunciación previamente averiguadas en función de qué proximidad tengan respecto a la nueva secuencia de fonemas averiguada.
- 2.
- Alternativamente, puede el usuario hacerse mostrar sobre el display del teléfono móvil una especie de transcripción fonética de la inscripción mal reconocida o no reconocida del listín telefónico. El tipo de transcipción fonética puede editarlo el usuario entonces cuando no sea correcto, es decir, cuando hay una mala coincidencia con su pronunciación. Por ejemplo, puede estar memorizada mediante la conversión automática de la inscripción "Jacques Chirac", como transcripción fonética, "Jakwes Schirack". Si ahora le resulta al usuario defectuosa esta transcripción fonética, puede el mismo editar mediante su teléfono móvil por ejemplo "Schack Schirack". A continuación puede averiguar el sistema al respecto la descripción fonética e introducirla como nueva en el vocabulario del reconocedor de voz. Con ello debería funcionar de manera fiable el reconocimiento automático de voz.
- 3.
- Finalmente puede el usuario mejorar sensiblemente el reconocimiento mediante una indicación explícita del idioma del que procede un nombre defectuoso o no reconocido en absoluto, o mediante la elección explícita de un determinado idioma para un determinado nombre. En un caso como el indicado, se eliminan para el nombre todas las variantes de pronunciación que no estén asignadas al idioma explícitamente indicado del vocabulario del reconocedor de voz para el nombre.
La invención puede también utilizarse
ventajosamente en otros aparatos móviles distintos de un teléfono
móvil, por ejemplo en un asistente personal o también un ordenador
personal.
Claims (11)
1. Procedimiento de funcionamiento de un
reconocedor automático de voz para el reconocimiento por voz,
independiente del orador, de palabras (10) de distintos idiomas, en
particular para el reconocimiento de nombres de distintos idiomas,
que parte de un idioma definido como idioma materno y que presenta
una fase de introducción para confeccionar un vocabulario del
reconocedor de voz con las siguientes etapas:
- (a)
- averiguación de la transcripciones fonéticas de palabras en cada caso para N idiomas diferentes, para obtener (S1) por cada palabra N secuencias de fonemas (12) correspondientes a N primeras variantes de expresión,
- (b)
- implementación de una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno (S2),
- (c1)
- utilización de la reproducción implementada en la etapa (b) sobre las N primeras secuencias de fonemas (12) averiguadas en la etapa (a) para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas (14), correspondientes a las N segundas variantes de pronunciación, que se pueden reconocer mediante un reconocedor de voz de idioma materno (S3) y
- (d)
- confección de un vocabulario del reconocedor de voz con las N segundas secuencias de fonemas obtenidas en la etapa precedente por cada palabra para el reconocedor de voz de idioma materno (S6).
2. Procedimiento de funcionamiento según la
reivindicación 1,
caracterizado además por las siguientes
etapas a ejecutar antes de la etapa (d) y tras la etapa (c1):
- (c2)
- procesamiento de las N segundas secuencias de fonemas (14) correspondientes a las N segundas variantes de expresión de cada palabra,
- (c21)
- analizándose y clasificándose (S4) cada segunda secuencia de fonemas (14) mediante distancias adecuadas, en particular la distancia de Levenshtein, y
- (c22)
- reduciéndose (S5) las N segundas secuencias de fonemas de cada palabra a pocas secuencias de fonemas, ventajosamente dos a tres.
3. Procedimiento de funcionamiento según la
reivindicación 1 ó 2,
caracterizado porque antes de la etapa
(a) se realiza una identificación de voz, mediante la que para cada
palabra a reconocer se determina la probabilidad de pertenencia a
cada uno de los N idiomas diferentes y en base al resultado de la
identificación del idioma, se reduce la cantidad de idiomas a
procesar de la etapa (a), ventajosamente a dos hasta tres idiomas
diferentes, no siguiendo el procesamiento (S0) de los idiomas con
la probabilidad más baja.
4. Procedimiento de funcionamiento según una de
las reivindicaciones 1 a 3,
caracterizado porque la averiguación de
las transcripciones fonéticas en la etapa (a) se realiza mediante
al menos una red neuronal.
5. Procedimiento de funcionamiento según una de
las reivindicaciones 1 a 4,
caracterizado porque como reconocedor de
voz de idioma materno se utiliza un modelo
Hidden-Markov, que se ha confeccionado para el
idioma definido como idioma materno.
6. Reconocedor automático de voz para el
reconocimiento de voz, independiente del orador, de palabras
procedentes de distintos idiomas, en particular para el
reconocimiento de nombres procedentes de distintos idiomas, estando
definido uno de las distintos idiomas como idioma materno, con
- -
- un reconocedor de voz de idioma materno,
- -
- un primer módulo de procesamiento para averiguar las transcripciones fonéticas de palabras en cada caso para N idiomas distintos, para obtener por cada palabra N primeras secuencias de fonemas correspondientes a N primeras variantes de pronunciación,
- -
- un segundo módulo de procesamiento para implementar una reproducción de los fonemas de cada idioma sobre el correspondiente juego de fonemas del idioma materno,
- -
- un tercer módulo de procesamiento para aplicar la reproducción implementada con el segundo módulo de procesamiento sobre las N primeras secuencias de fonemas averiguadas con el primer módulo de procesamiento para cada palabra, con lo que por cada palabra se obtienen N segundas secuencias de fonemas correspondientes a N segundas variantes de pronunciación, que pueden reconocerse con el reconocedor de voz de idioma materno y
- -
- un cuarto módulo de procesamiento para confeccionar un vocabulario de reconocedor de voz con las N segundas secuencias de fonemas por cada palabra obtenidas mediante el tercer módulo de procesamiento para el reconocedor de voz de idioma materno.
7. Reconocedor automático de voz según la
reivindicación 6,
caracterizado por un quinto módulo de
procesamiento para procesar las N segundas secuencias de fonemas
correspondientes a las N segundas variantes de pronunciación de
cada palabra. que está configurado de tal manera que cada segunda
secuencia de fonemas se analiza y clasifica mediante distancias
adecuadas, en particular la distancia Levenshtein, y se reducen las
N segundas secuencias de fonemas de cada palabra a pocas secuencias
de fonemas, ventajosamente a dos hasta tres.
8. Reconocedor automático de voz según la
reivindicación 6 ó 7,
caracterizado por un identificador de
idioma que está conectado antes del primer módulo de procesamiento y
determina para cada palabra a reconocer la probabilidad de la
pertenencia a cada uno de los N idiomas distintos, y un reductor de
idiomas que reduce la cantidad de idiomas a procesar por el primer
módulo de procesamiento, ventajosamente a dos hasta tres idiomas
distintos, haciendo que no se sigan procesando los idiomas con la
probabilidad más baja.
9. Reconocedor automático de voz según una de
las reivindicaciones 6 a 8,
caracterizado porque el primer módulo de
procesamiento presenta al menos una red neuronal para averiguar las
transcripciones fonéticas.
10. Reconocedor automático de voz según una de
las reivindicaciones 6 a 9,
caracterizado porque el reconocedor de
voz de idioma materno presenta un modelo
Hidden-Markov, que ha sido confeccionado para el
idioma definido como idioma materno.
11. Utilización del procedimiento de
funcionamiento según una de las reivindicaciones 1 a 5 y del
reconocedor automático de voz según una de la reivindicaciones 6 a
10 en un aparato móvil, como un teléfono móvil, asistente digital
personal o un ordenador personal.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02001256 | 2002-01-17 | ||
EP02001256 | 2002-01-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2281626T3 true ES2281626T3 (es) | 2007-10-01 |
Family
ID=8185291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03708045T Expired - Lifetime ES2281626T3 (es) | 2002-01-17 | 2003-01-02 | Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. |
Country Status (5)
Country | Link |
---|---|
US (1) | US7974843B2 (es) |
EP (1) | EP1466317B1 (es) |
DE (1) | DE50307074D1 (es) |
ES (1) | ES2281626T3 (es) |
WO (1) | WO2003060877A1 (es) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8959019B2 (en) | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7430503B1 (en) * | 2004-08-24 | 2008-09-30 | The United States Of America As Represented By The Director, National Security Agency | Method of combining corpora to achieve consistency in phonetic labeling |
US7406408B1 (en) * | 2004-08-24 | 2008-07-29 | The United States Of America As Represented By The Director, National Security Agency | Method of recognizing phones in speech of any language |
DE102004055230B3 (de) * | 2004-11-16 | 2006-07-20 | Siemens Ag | Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular |
EP1693830B1 (en) * | 2005-02-21 | 2017-12-20 | Harman Becker Automotive Systems GmbH | Voice-controlled data system |
US8265930B1 (en) * | 2005-04-13 | 2012-09-11 | Sprint Communications Company L.P. | System and method for recording voice data and converting voice data to a text file |
DE102005030380B4 (de) * | 2005-06-29 | 2014-09-11 | Siemens Aktiengesellschaft | Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems |
SG133419A1 (en) * | 2005-12-12 | 2007-07-30 | Creative Tech Ltd | A method and apparatus for accessing a digital file from a collection of digital files |
DE102006039126A1 (de) * | 2006-08-21 | 2008-03-06 | Robert Bosch Gmbh | Verfahren zur Spracherkennung und Sprachwiedergabe |
US7873517B2 (en) | 2006-11-09 | 2011-01-18 | Volkswagen Of America, Inc. | Motor vehicle with a speech interface |
DE102006057159A1 (de) * | 2006-12-01 | 2008-06-05 | Deutsche Telekom Ag | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen |
WO2009016729A1 (ja) * | 2007-07-31 | 2009-02-05 | Fujitsu Limited | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 |
KR101300839B1 (ko) * | 2007-12-18 | 2013-09-10 | 삼성전자주식회사 | 음성 검색어 확장 방법 및 시스템 |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
US9202460B2 (en) * | 2008-05-14 | 2015-12-01 | At&T Intellectual Property I, Lp | Methods and apparatus to generate a speech recognition library |
US20090326945A1 (en) * | 2008-06-26 | 2009-12-31 | Nokia Corporation | Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system |
US20100105015A1 (en) * | 2008-10-23 | 2010-04-29 | Judy Ravin | System and method for facilitating the decoding or deciphering of foreign accents |
US8190420B2 (en) * | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
CN102725790B (zh) | 2010-02-05 | 2014-04-16 | 三菱电机株式会社 | 识别词典制作装置及声音识别装置 |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8600730B2 (en) * | 2011-02-08 | 2013-12-03 | Microsoft Corporation | Language segmentation of multilingual texts |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US9569439B2 (en) | 2011-10-31 | 2017-02-14 | Elwha Llc | Context-sensitive query enrichment |
US10261994B2 (en) * | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9240181B2 (en) * | 2013-08-20 | 2016-01-19 | Cisco Technology, Inc. | Automatic collection of speaker name pronunciations |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
CN104681036B (zh) * | 2014-11-20 | 2018-09-25 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
US10109219B2 (en) * | 2015-04-16 | 2018-10-23 | Robert Bosch Gmbh | System and method for automated sign language recognition |
US20170011735A1 (en) * | 2015-07-10 | 2017-01-12 | Electronics And Telecommunications Research Institute | Speech recognition system and method |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN109145145A (zh) | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10783873B1 (en) * | 2017-12-15 | 2020-09-22 | Educational Testing Service | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995002879A1 (en) * | 1993-07-13 | 1995-01-26 | Theodore Austin Bordeaux | Multi-language speech recognition system |
US5805771A (en) * | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
EP0925579B1 (de) * | 1996-09-10 | 2001-11-28 | Siemens Aktiengesellschaft | Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem |
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
US6549883B2 (en) * | 1999-11-02 | 2003-04-15 | Nortel Networks Limited | Method and apparatus for generating multilingual transcription groups |
EP1134726A1 (de) * | 2000-03-15 | 2001-09-19 | Siemens Aktiengesellschaft | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem |
US7047493B1 (en) * | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
US20020083029A1 (en) * | 2000-10-23 | 2002-06-27 | Chun Won Ho | Virtual domain name system using the user's preferred language for the internet |
EP1217610A1 (de) * | 2000-11-28 | 2002-06-26 | Siemens Aktiengesellschaft | Verfahren und System zur multilingualen Spracherkennung |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
-
2003
- 2003-01-02 US US10/501,700 patent/US7974843B2/en not_active Expired - Fee Related
- 2003-01-02 ES ES03708045T patent/ES2281626T3/es not_active Expired - Lifetime
- 2003-01-02 DE DE50307074T patent/DE50307074D1/de not_active Expired - Lifetime
- 2003-01-02 EP EP03708045A patent/EP1466317B1/de not_active Expired - Lifetime
- 2003-01-02 WO PCT/EP2003/000003 patent/WO2003060877A1/de active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
DE50307074D1 (de) | 2007-05-31 |
US20050033575A1 (en) | 2005-02-10 |
US7974843B2 (en) | 2011-07-05 |
EP1466317A1 (de) | 2004-10-13 |
WO2003060877A1 (de) | 2003-07-24 |
EP1466317B1 (de) | 2007-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2281626T3 (es) | Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. | |
Kanthak et al. | Context-dependent acoustic modeling using graphemes for large vocabulary speech recognition | |
US8990089B2 (en) | Text to speech synthesis for texts with foreign language inclusions | |
JP5968774B2 (ja) | 単語識別方法、単語識別装置、及びコンピュータ可読コード | |
McGraw et al. | Learning lexicons from speech using a pronunciation mixture model | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
ATE449401T1 (de) | Automatische erzeugung einer wortaussprache für die spracherkennung | |
Wang et al. | Pronunciation modeling of foreign words for mandarin ASR by considering the effect of language transfer | |
Schmid et al. | Automatically generated word pronunciations from phoneme classifier output | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
ES2965480T3 (es) | Procesamiento y evaluación de señales del habla | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
Iyanda et al. | Development of a Yorúbà Textto-Speech System Using Festival | |
Phuong et al. | Development of high-performance and large-scale vietnamese automatic speech recognition systems | |
Sakti et al. | Rapid development of initial Indonesian phoneme-based speech recognition using the cross-language approach | |
Nguyen et al. | Intonation issues in HMM-based speech synthesis for Vietnamese | |
Suontausta et al. | Low memory decision tree method for text-to-phoneme mapping | |
Stouten et al. | Dealing with cross-lingual aspects in spoken name recognition | |
Sawada et al. | The NITECH HMM-based text-to-speech system for the Blizzard Challenge 2015 | |
Ma et al. | Dialect-based speaker classification using speaker-invariant dialect features | |
Uraga et al. | A set of phonological rules for Mexican Spanish | |
Choueiter et al. | Automatic lexical pronunciations generation and update | |
Lyu et al. | An experimental study on continuous phone recognition with little or no language-specific training data | |
JPH0667686A (ja) | 音声認識装置 |