ES2288897T3

ES2288897T3 - Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion.

Info

Publication number: ES2288897T3
Application number: ES01115523T
Authority: ES
Inventors: Steffen Harengel; Meinrad Niemoller
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-07-14
Filing date: 2001-06-27
Publication date: 2008-02-01
Anticipated expiration: 2021-06-27
Also published as: EP1172802B1; EP1172802A3; DE50112815D1; EP1172802A2

Abstract

Procedimiento para la adaptación explícita al orador de las transcripciones fonéticas de un diccionario de pronunciación de transcripciones fonéticas elegidas como formas canónicas de un vocabulario en un formato predeterminado y ejecutando una adaptación al orador mediante un reconocedor de fonemas, que a partir de cada palabra pronunciada por un orador específico genera una secuencia de fonemas, caracterizado porque - para cada orador y para cada palabra pronunciada, la secuencia de fonemas P generada en asociación con una forma canónica K memorizada en el diccionario de pronunciación, se memoriza como bloque K-P, - la asociación memorizada se lleva a un nudo de entrada de una red neuronal definido por la forma canónica K y - en la red neuronal se realiza el entrenamiento con la adaptación al orador, prescribiéndose la secuencia de fonemas P a la red neuronal como valor de destino para nudos de salida.

Description

Adaptación específica al orador de las transcripciones fonéticas de un diccionario de pronunciación.

La invención se refiere a un procedimiento para la adaptación específica al orador de las transcripciones fonéticas de un diccionario de pronunciación de transcripciones fonéticas según el preámbulo de la reivindicación 1.

Para la aplicación práctica de sistemas de reconocimiento de voz es irrenunciable una adaptación al orador efectiva y flexible, es decir, la adaptación del sistema a la tonalidad concreta de voz y a la pronunciación y a los hábitos fonéticos de oradores reales. Además de la flexibilidad citada, es decir, de la capacidad de adaptación para oradores con pronunciación muy distinta salvaguardando una elevada precisión de reconocimiento, el tiempo de entrenamiento necesario es un criterio de utilización esencial de los procedimientos y los sistemas para el reconocimiento de voz. En este contexto, tiene un gran valor una cierta capacidad de aprendizaje del sistema.

Los sistemas de reconocimiento de voz conocidos utilizan diccionarios de pronunciación como base de conocimiento para el reconocimiento de voz independiente del orador. En tales diccionarios de pronunciación se indica para cada palabra del vocabulario una transcripción fonética en un determinado formato (por ejemplo el formato Sampa). Al respecto se trata de las llamadas "formas canónicas", que corresponden a un estándar de pronunciación. También es posible la memorización y utilización de varias transcripciones fonéticas para una palabra. Esta posibilidad se utiliza en especial para palabras para las que existen varias variantes de pronunciación reconocidas en general. El estándar de pronunciación que sirve de base a las formas canónicas sólo se mantiene condicionadamente con los oradores reales, debido a su tonalidad de voz, su dialecto o características personales de la voz.

Es por lo tanto necesario adaptar las formas canónicas de las transcripciones en un diccionario de pronunciación para un usuario (o para múltiples usuarios) de un sistema de reconocimiento de voz tal que el sistema de reconocimiento de voz tenga en cuenta en medida muy amplia las características específicas del orador y logre resultados de reconocimiento óptimos.

Según el estado de la técnica se realizan adaptaciones o bien procesos de entrenamiento específicos del orador predominantemente a nivel de sonidos. Aquí, se entrena en un sistema de reconocimiento de voz basado en modelos Hidden-Markov (HMN) con fonemas o segmentos de fonemas como estados en el modelo Hidden-Markov. En una etapa posterior pronuncia un orador respecto al que hay que entrenar al sistema textos predeterminados, y el sistema de reconocimiento de voz realiza la adaptación al nivel de estados HMM en base a este texto de modelo.

Otra solución conocida consiste en la utilización de un reconocedor de fonemas. Aquí no se someten las manifestaciones verbales a adaptar a una búsqueda integrada de palabras y frases con un modelo lingüístico, sino que como resultado de un proceso de búsqueda especial sólo se emite la secuencia de fonemas más probable para la correspondiente manifestación verbal. Con ello puede determinarse para cada palabra adaptada una secuencia de fonemas y, en lugar de la forma canónica o alternativamente a ésta, inscribirse en el diccionario de pronunciación. Un inconveniente de este método es que el sistema de reconocimiento de voz no recibe ninguna información sobre las modificaciones de las pronunciaciones canónicas por parte del orador especial y por lo tanto tampoco puede utilizarlas en el marco de un proceso de autoaprendizaje. Esto da lugar a que cada palabra adaptada deba ser inscrita como una variante de pronunciación adicionalmente en el diccionario de pronunciación. El diccionario de pronunciación como base del conocimiento para el reconocimiento de voz se vuelve pronto muy voluminoso, lo cual reduce la velocidad de reconocimiento del sistema.

La invención tiene por lo tanto como tarea básica indicar un procedimiento mejorado para el reconocimiento de voz del tipo genérico que en particular permita un entrenamiento rápido, así como una elevada velocidad de reconocimiento del sistema entrenado (adaptado).

Esta tarea se resuelve mediante un procedimiento con las particularidades de la reivindicación 1.

La invención incluye la idea básica de utilizar para el entrenamiento de un sistema de reconocimiento de voz, en el marco de la adaptación al orador, una red neuronal. La misma incluye además la idea de procesar en el sistema las modificaciones de las formas canónicas de un diccionario de pronunciación debidas al correspondiente orador. Para ello se presentan - lo cual es conocido de por sí - las manifestaciones verbales de un orador a un reconocedor de fonemas, que a partir de ello genera en cada caso una secuencia de fonemas. No obstante, en lugar de inscribir las secuencias de fonemas generadas como tales directamente en el diccionario de pronunciación, se memoriza más bien para cada palabra adaptada o bien entrenada un bloque K-P de la forma canónica K de la pronunciación y de la secuencia de fonemas P generada por el reconocedor de fonemas.

En la evolución del entrenamiento se presentan a continuación los bloques K-P de todas las palabras pronunciadas a la red neuronal, y ésta se entrena, prescribiéndose la secuencia de fonemas P generadas por el reconocedor de fonemas en la representación análoga como valores de destino para nudos de salida de la red. Como nudos de entrada, se elige una representación adecuada de la forma canónica K de la pronunciación de la palabra correspondiente.

El procedimiento propuesto tiene como una ventaja esencial que en el entrenamiento o bien la adaptación no se aprenden solamente contextos cortos en el tiempo en base a fonemas, sino que se procesa específicamente para cada orador la típica pronunciación de contextos más grandes, en particular sílabas. Una ventaja adicional reside en que una asociación aprendida por la red neuronal entre forma canónica y secuencia de fonemas especifica del orador (representación K-P*) puede utilizarse no sólo para palabras que se den durante la fase de entrenamiento. Más bien pueden generarse también para palabras que durante la adaptación aún no eran parte del vocabulario, es decir, no estaban contenidas en el diccionario de pronunciación, transcripciones específicas del orador y finalmente inscribirse en el diccionario de pronunciación.

Para la red neuronal se utiliza en particular un llamado "perceptrón multicapa" (MLP). Al respecto se trata de una red orientada a capas, dirigida hacia delante ("feed forward") con enmallado completo entre las distintas capas.

Como función de activación se utiliza la función sigmoidal Sc(x) o la función tangente hiperbólica tanh(x), no tratándose de la elección concreta de la función de activación, así como de la cantidad de capas de la red neuronal. Para lograr una elevada precisión de entrenamiento, debe ser desde luego suficientemente grande la cantidad de los parámetros variables. Esta viene determinada por la cantidad de capas, así como la cantidad de neuronas en la capa oculta o bien capas ocultas.

La capa de entrada de la red neuronal presenta múltiples nudos como ventanas (canónicas) de fonemas, en las que se "inserta" la correspondiente forma canónica K. Un nudo central de la capa de entrada es en cada caso el fonema a considerar, para el que se realiza el entrenamiento de la asignación al correspondiente fonema de la secuencia de fonemas P (especifica del orador) en la fase de entrenamiento o bien en la fase de aplicación. Otros nudos de la capa de entrada contienen los fonemas (canónicos) contiguos en el tiempo a la forma canónica considerada, es decir, precedentes y siguientes en el tiempo. Estos son necesarios para lograr una elevada precisión en la adaptación del fonema considerado como conocimiento del contexto (por ejemplo en relación con la pronunciación de una sílaba).

Para una conducción óptima del procedimiento, es importante que como tamaño de la ventana de la capa de entrada se elija sólo el tamaño que sea necesario para la captación del conocimiento de contexto mencionado. El tamaño de la ventana se elige razonablemente tal que no se procesa la forma canónica de una palabra completa, sino solamente el conocimiento contextual a nivel de sílaba. De esta manera se asegura en especial que pueden trasladarse correctamente los fonemas de nuevas palabras, aún desconocidas para el sistema, que por lo tanto no son parte integrante del entrenamiento.

La capa de salida contiene ante todo una cantidad de nudos de salida correspondiente a la cantidad de posibles fonemas, con los que por lo tanto se cubre el "inventario de fonemas" completo. Además, hay para la capa de salida un "conservador de lugar", para poder reproducir distintas longitudes de fonemas del bloque (K, P).

La red neuronal se entrena en particular mediante un procedimiento iterativo, en el que se utiliza como regla de aprendizaje especialmente la llamada "retropropagación del error" ("Error Backpropagation"). En este procedimiento se minimiza el error cuadrático medio. Con esta regla de aprendizaje es posible el cálculo de probabilidades de deducciones, y durante el aprendizaje se calculan estas probabilidades de deducciones para todos los nudos de salida (fonemas) para la ventana de fonemas canónica prescrita de la capa de entrada. La red se entrena con los modelos de entrenamiento en varias iteraciones, determinándose ventajosamente de manera aleatoria para cada iteración la secuencia de entrenamiento. Tras cada iteración se comprueba con una secuencia de validación independiente del material de entrenamiento la precisión de transcripción lograda. El proceso de entrenamiento prosigue mientras tras cada siguiente iteración se logre un aumento de la precisión de la transcripción. Por lo tanto, en el momento en el que ya no aumente la precisión de la transcripción para la secuencia de validación, finaliza el entrenamiento.

Tras finalizar el entrenamiento, es decir, una vez que la red neuronal ha aprendido la reproducción de las formas canónicas K sobre secuencias de fonemas P específicos del orador, se actualiza el diccionario de pronunciación. Las transcripciones allí inscritas con formas canónicas K se complementan con transcripciones con secuencias de fonemas específicas P* (como variante de pronunciación). En particular, se presenta tras el cierre de un ciclo de entrenamiento para cada palabra en el diccionario de pronunciación la correspondiente forma canónica a la red neuronal, a partir de los valores de salida de los correspondientes nudos de salida se genera la transcripción P* específica del orador y se inscribe la misma bajo la correspondiente palabra en el vocabulario de pronunciación.

La utilización de sistemas de reconocimiento de voz conocidos presupone por lo general la ejecución de un llamado "Enrollment" (inclusión) por parte de un orador que planifica la utilización. Este Enrollment contiene por lo general la pronunciación de textos predeterminados por parte del orador y el sistema ejecuta sobre esta base la adaptación específica del orador de la base de conocimiento. En el marco de esta pronunciación se aprende la reproducción K-P* antes descrita por parte de la red neuronal utilizada según la invención y se utiliza directamente para mejorar el diccionario de pronunciación que se suministra a la vez. En la utilización práctica que sigue del sistema de reconocimiento de voz, se prevé por lo general - en el marco de un "entrenamiento de perfeccionamiento" - la corrección de palabras incorrectamente reconocidas por parte del usuario. Los resultados de las correcciones se reúnen para una siguiente etapa de adaptación. También en el marco de la ampliación del vocabulario, cuando se utiliza el sistema de reconocimiento de voz por parte del usuario, se solicita con frecuencia al mismo introducir nuevas palabras no sólo como texto, es decir, ortográficamente, sino también como muestra oral. Las nuevas inscripciones reunidas de esta manera a lo largo de un periodo de tiempo determinado pueden utilizarse en combinación con las manifestaciones verbales de la fase de Enrollment (inclusión) para mejorar el entrenamiento de la red neuronal.

Las ventajas y aspectos convenientes de la invención resultan por lo demás de las reivindicaciones subordinadas.

La invención no queda limitada a las mejoras y aspectos preferentes antes mencionados, sino que puede ejecutarse en el marco de las exigencias también en una serie de variantes que se encuentran en el mercado especializado.

Claims

1. Procedimiento para la adaptación explícita al orador de las transcripciones fonéticas de un diccionario de pronunciación de transcripciones fonéticas elegidas como formas canónicas de un vocabulario en un formato predeterminado y ejecutando una adaptación al orador mediante un reconocedor de fonemas, que a partir de cada palabra pronunciada por un orador específico genera una secuencia de fonemas,

caracterizado porque

-: para cada orador y para cada palabra pronunciada, la secuencia de fonemas P generada en asociación con una forma canónica K memorizada en el diccionario de pronunciación, se memoriza como bloque K-P,

-: la asociación memorizada se lleva a un nudo de entrada de una red neuronal definido por la forma canónica K y

-: en la red neuronal se realiza el entrenamiento con la adaptación al orador, prescribiéndose la secuencia de fonemas P a la red neuronal como valor de destino para nudos de salida.

2. Procedimiento según la reivindicación 1,

caracterizado porque

la red neuronal es tal que se minimiza el error cuadrático medio, utilizándose como función de activación en particular la función sigmoidal Sc(x) o la función de tangente hiperbólica tanh(x).

3. Procedimiento según la reivindicación 1 ó 2,

caracterizado porque

como red neuronal se utiliza una red orientada a capas, orientada hacia delante, con enmallado completo entre las distintas capas, cuya capa de entrada presenta múltiples nudos como ventanas canónicas de fonemas.

4. Procedimiento según la reivindicación 3,

caracterizado porque

la capa de entrada presenta un nudo central para un fonema a considerar de la secuencia de fonemas y otros nudos que contienen los fonemas contiguos a ambos lados en el tiempo al fonema a considerar de la forma canónica considerada como conocimiento contextual.

5. Procedimiento según la reivindicación 3 ó 4,

caracterizado porque

el tamaño de ventana de las ventanas de fonemas se determina previamente tal que esencialmente asume el conocimiento contextual a nivel de sílaba.

6. Procedimiento según una de las reivindicaciones precedentes,

caracterizado porque

el entrenamiento se realiza como proceso iterativo, en particular en base a la regla de aprendizaje de la de la retroprogamación del error ("Error Backpropagation").

7. Procedimiento según la reivindicación 6,

caracterizado porque

-: para cada iteración se determina una secuencia de modelos de entrenamiento mediante un generador aleatorio,

-: tras cada iteración en base a una secuencia de validación independiente del material de entrenamiento, se averigua la precisión de transcripción lograda y

-: las iteraciones prosiguen mientras con cada nueva iteración se logre un aumento de la precisión de transcripción de la secuencia de validación.

8. Procedimiento según una de las reivindicaciones precedentes,

caracterizado porque tras un proceso de entrenamiento en el diccionario de la pronunciación de la transcripción ya con el entrenamiento en forma canónica, se añade al menos una secuencia de fonemas especifica del orador.

9. Procedimiento según la reivindicación 8,

caracterizado porque

tras un ciclo de entrenamiento para cada palabra del diccionario de pronunciación, se presenta la correspondiente forma canónica a la red neuronal y a partir del correspondiente valor de salida de los nudos de salida, se genera la correspondiente transcripción especifica del orador y se memoriza en la palabra.