ES2288897T3 - Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion. - Google Patents

Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion. Download PDF

Info

Publication number
ES2288897T3
ES2288897T3 ES01115523T ES01115523T ES2288897T3 ES 2288897 T3 ES2288897 T3 ES 2288897T3 ES 01115523 T ES01115523 T ES 01115523T ES 01115523 T ES01115523 T ES 01115523T ES 2288897 T3 ES2288897 T3 ES 2288897T3
Authority
ES
Spain
Prior art keywords
speaker
sequence
training
neural network
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01115523T
Other languages
English (en)
Inventor
Steffen Harengel
Meinrad Niemoller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Application granted granted Critical
Publication of ES2288897T3 publication Critical patent/ES2288897T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

Procedimiento para la adaptación explícita al orador de las transcripciones fonéticas de un diccionario de pronunciación de transcripciones fonéticas elegidas como formas canónicas de un vocabulario en un formato predeterminado y ejecutando una adaptación al orador mediante un reconocedor de fonemas, que a partir de cada palabra pronunciada por un orador específico genera una secuencia de fonemas, caracterizado porque - para cada orador y para cada palabra pronunciada, la secuencia de fonemas P generada en asociación con una forma canónica K memorizada en el diccionario de pronunciación, se memoriza como bloque K-P, - la asociación memorizada se lleva a un nudo de entrada de una red neuronal definido por la forma canónica K y - en la red neuronal se realiza el entrenamiento con la adaptación al orador, prescribiéndose la secuencia de fonemas P a la red neuronal como valor de destino para nudos de salida.

Description

Adaptación específica al orador de las transcripciones fonéticas de un diccionario de pronunciación.
La invención se refiere a un procedimiento para la adaptación específica al orador de las transcripciones fonéticas de un diccionario de pronunciación de transcripciones fonéticas según el preámbulo de la reivindicación 1.
Para la aplicación práctica de sistemas de reconocimiento de voz es irrenunciable una adaptación al orador efectiva y flexible, es decir, la adaptación del sistema a la tonalidad concreta de voz y a la pronunciación y a los hábitos fonéticos de oradores reales. Además de la flexibilidad citada, es decir, de la capacidad de adaptación para oradores con pronunciación muy distinta salvaguardando una elevada precisión de reconocimiento, el tiempo de entrenamiento necesario es un criterio de utilización esencial de los procedimientos y los sistemas para el reconocimiento de voz. En este contexto, tiene un gran valor una cierta capacidad de aprendizaje del sistema.
Los sistemas de reconocimiento de voz conocidos utilizan diccionarios de pronunciación como base de conocimiento para el reconocimiento de voz independiente del orador. En tales diccionarios de pronunciación se indica para cada palabra del vocabulario una transcripción fonética en un determinado formato (por ejemplo el formato Sampa). Al respecto se trata de las llamadas "formas canónicas", que corresponden a un estándar de pronunciación. También es posible la memorización y utilización de varias transcripciones fonéticas para una palabra. Esta posibilidad se utiliza en especial para palabras para las que existen varias variantes de pronunciación reconocidas en general. El estándar de pronunciación que sirve de base a las formas canónicas sólo se mantiene condicionadamente con los oradores reales, debido a su tonalidad de voz, su dialecto o características personales de la voz.
Es por lo tanto necesario adaptar las formas canónicas de las transcripciones en un diccionario de pronunciación para un usuario (o para múltiples usuarios) de un sistema de reconocimiento de voz tal que el sistema de reconocimiento de voz tenga en cuenta en medida muy amplia las características específicas del orador y logre resultados de reconocimiento óptimos.
Según el estado de la técnica se realizan adaptaciones o bien procesos de entrenamiento específicos del orador predominantemente a nivel de sonidos. Aquí, se entrena en un sistema de reconocimiento de voz basado en modelos Hidden-Markov (HMN) con fonemas o segmentos de fonemas como estados en el modelo Hidden-Markov. En una etapa posterior pronuncia un orador respecto al que hay que entrenar al sistema textos predeterminados, y el sistema de reconocimiento de voz realiza la adaptación al nivel de estados HMM en base a este texto de modelo.
Otra solución conocida consiste en la utilización de un reconocedor de fonemas. Aquí no se someten las manifestaciones verbales a adaptar a una búsqueda integrada de palabras y frases con un modelo lingüístico, sino que como resultado de un proceso de búsqueda especial sólo se emite la secuencia de fonemas más probable para la correspondiente manifestación verbal. Con ello puede determinarse para cada palabra adaptada una secuencia de fonemas y, en lugar de la forma canónica o alternativamente a ésta, inscribirse en el diccionario de pronunciación. Un inconveniente de este método es que el sistema de reconocimiento de voz no recibe ninguna información sobre las modificaciones de las pronunciaciones canónicas por parte del orador especial y por lo tanto tampoco puede utilizarlas en el marco de un proceso de autoaprendizaje. Esto da lugar a que cada palabra adaptada deba ser inscrita como una variante de pronunciación adicionalmente en el diccionario de pronunciación. El diccionario de pronunciación como base del conocimiento para el reconocimiento de voz se vuelve pronto muy voluminoso, lo cual reduce la velocidad de reconocimiento del sistema.
La invención tiene por lo tanto como tarea básica indicar un procedimiento mejorado para el reconocimiento de voz del tipo genérico que en particular permita un entrenamiento rápido, así como una elevada velocidad de reconocimiento del sistema entrenado (adaptado).
Esta tarea se resuelve mediante un procedimiento con las particularidades de la reivindicación 1.
La invención incluye la idea básica de utilizar para el entrenamiento de un sistema de reconocimiento de voz, en el marco de la adaptación al orador, una red neuronal. La misma incluye además la idea de procesar en el sistema las modificaciones de las formas canónicas de un diccionario de pronunciación debidas al correspondiente orador. Para ello se presentan - lo cual es conocido de por sí - las manifestaciones verbales de un orador a un reconocedor de fonemas, que a partir de ello genera en cada caso una secuencia de fonemas. No obstante, en lugar de inscribir las secuencias de fonemas generadas como tales directamente en el diccionario de pronunciación, se memoriza más bien para cada palabra adaptada o bien entrenada un bloque K-P de la forma canónica K de la pronunciación y de la secuencia de fonemas P generada por el reconocedor de fonemas.
En la evolución del entrenamiento se presentan a continuación los bloques K-P de todas las palabras pronunciadas a la red neuronal, y ésta se entrena, prescribiéndose la secuencia de fonemas P generadas por el reconocedor de fonemas en la representación análoga como valores de destino para nudos de salida de la red. Como nudos de entrada, se elige una representación adecuada de la forma canónica K de la pronunciación de la palabra correspondiente.
El procedimiento propuesto tiene como una ventaja esencial que en el entrenamiento o bien la adaptación no se aprenden solamente contextos cortos en el tiempo en base a fonemas, sino que se procesa específicamente para cada orador la típica pronunciación de contextos más grandes, en particular sílabas. Una ventaja adicional reside en que una asociación aprendida por la red neuronal entre forma canónica y secuencia de fonemas especifica del orador (representación K-P*) puede utilizarse no sólo para palabras que se den durante la fase de entrenamiento. Más bien pueden generarse también para palabras que durante la adaptación aún no eran parte del vocabulario, es decir, no estaban contenidas en el diccionario de pronunciación, transcripciones específicas del orador y finalmente inscribirse en el diccionario de pronunciación.
Para la red neuronal se utiliza en particular un llamado "perceptrón multicapa" (MLP). Al respecto se trata de una red orientada a capas, dirigida hacia delante ("feed forward") con enmallado completo entre las distintas capas.
Como función de activación se utiliza la función sigmoidal Sc(x) o la función tangente hiperbólica tanh(x), no tratándose de la elección concreta de la función de activación, así como de la cantidad de capas de la red neuronal. Para lograr una elevada precisión de entrenamiento, debe ser desde luego suficientemente grande la cantidad de los parámetros variables. Esta viene determinada por la cantidad de capas, así como la cantidad de neuronas en la capa oculta o bien capas ocultas.
La capa de entrada de la red neuronal presenta múltiples nudos como ventanas (canónicas) de fonemas, en las que se "inserta" la correspondiente forma canónica K. Un nudo central de la capa de entrada es en cada caso el fonema a considerar, para el que se realiza el entrenamiento de la asignación al correspondiente fonema de la secuencia de fonemas P (especifica del orador) en la fase de entrenamiento o bien en la fase de aplicación. Otros nudos de la capa de entrada contienen los fonemas (canónicos) contiguos en el tiempo a la forma canónica considerada, es decir, precedentes y siguientes en el tiempo. Estos son necesarios para lograr una elevada precisión en la adaptación del fonema considerado como conocimiento del contexto (por ejemplo en relación con la pronunciación de una sílaba).
Para una conducción óptima del procedimiento, es importante que como tamaño de la ventana de la capa de entrada se elija sólo el tamaño que sea necesario para la captación del conocimiento de contexto mencionado. El tamaño de la ventana se elige razonablemente tal que no se procesa la forma canónica de una palabra completa, sino solamente el conocimiento contextual a nivel de sílaba. De esta manera se asegura en especial que pueden trasladarse correctamente los fonemas de nuevas palabras, aún desconocidas para el sistema, que por lo tanto no son parte integrante del entrenamiento.
La capa de salida contiene ante todo una cantidad de nudos de salida correspondiente a la cantidad de posibles fonemas, con los que por lo tanto se cubre el "inventario de fonemas" completo. Además, hay para la capa de salida un "conservador de lugar", para poder reproducir distintas longitudes de fonemas del bloque (K, P).
La red neuronal se entrena en particular mediante un procedimiento iterativo, en el que se utiliza como regla de aprendizaje especialmente la llamada "retropropagación del error" ("Error Backpropagation"). En este procedimiento se minimiza el error cuadrático medio. Con esta regla de aprendizaje es posible el cálculo de probabilidades de deducciones, y durante el aprendizaje se calculan estas probabilidades de deducciones para todos los nudos de salida (fonemas) para la ventana de fonemas canónica prescrita de la capa de entrada. La red se entrena con los modelos de entrenamiento en varias iteraciones, determinándose ventajosamente de manera aleatoria para cada iteración la secuencia de entrenamiento. Tras cada iteración se comprueba con una secuencia de validación independiente del material de entrenamiento la precisión de transcripción lograda. El proceso de entrenamiento prosigue mientras tras cada siguiente iteración se logre un aumento de la precisión de la transcripción. Por lo tanto, en el momento en el que ya no aumente la precisión de la transcripción para la secuencia de validación, finaliza el entrenamiento.
Tras finalizar el entrenamiento, es decir, una vez que la red neuronal ha aprendido la reproducción de las formas canónicas K sobre secuencias de fonemas P específicos del orador, se actualiza el diccionario de pronunciación. Las transcripciones allí inscritas con formas canónicas K se complementan con transcripciones con secuencias de fonemas específicas P* (como variante de pronunciación). En particular, se presenta tras el cierre de un ciclo de entrenamiento para cada palabra en el diccionario de pronunciación la correspondiente forma canónica a la red neuronal, a partir de los valores de salida de los correspondientes nudos de salida se genera la transcripción P* específica del orador y se inscribe la misma bajo la correspondiente palabra en el vocabulario de pronunciación.
La utilización de sistemas de reconocimiento de voz conocidos presupone por lo general la ejecución de un llamado "Enrollment" (inclusión) por parte de un orador que planifica la utilización. Este Enrollment contiene por lo general la pronunciación de textos predeterminados por parte del orador y el sistema ejecuta sobre esta base la adaptación específica del orador de la base de conocimiento. En el marco de esta pronunciación se aprende la reproducción K-P* antes descrita por parte de la red neuronal utilizada según la invención y se utiliza directamente para mejorar el diccionario de pronunciación que se suministra a la vez. En la utilización práctica que sigue del sistema de reconocimiento de voz, se prevé por lo general - en el marco de un "entrenamiento de perfeccionamiento" - la corrección de palabras incorrectamente reconocidas por parte del usuario. Los resultados de las correcciones se reúnen para una siguiente etapa de adaptación. También en el marco de la ampliación del vocabulario, cuando se utiliza el sistema de reconocimiento de voz por parte del usuario, se solicita con frecuencia al mismo introducir nuevas palabras no sólo como texto, es decir, ortográficamente, sino también como muestra oral. Las nuevas inscripciones reunidas de esta manera a lo largo de un periodo de tiempo determinado pueden utilizarse en combinación con las manifestaciones verbales de la fase de Enrollment (inclusión) para mejorar el entrenamiento de la red neuronal.
Las ventajas y aspectos convenientes de la invención resultan por lo demás de las reivindicaciones subordinadas.
La invención no queda limitada a las mejoras y aspectos preferentes antes mencionados, sino que puede ejecutarse en el marco de las exigencias también en una serie de variantes que se encuentran en el mercado especializado.

Claims (9)

1. Procedimiento para la adaptación explícita al orador de las transcripciones fonéticas de un diccionario de pronunciación de transcripciones fonéticas elegidas como formas canónicas de un vocabulario en un formato predeterminado y ejecutando una adaptación al orador mediante un reconocedor de fonemas, que a partir de cada palabra pronunciada por un orador específico genera una secuencia de fonemas,
caracterizado porque
-
para cada orador y para cada palabra pronunciada, la secuencia de fonemas P generada en asociación con una forma canónica K memorizada en el diccionario de pronunciación, se memoriza como bloque K-P,
-
la asociación memorizada se lleva a un nudo de entrada de una red neuronal definido por la forma canónica K y
-
en la red neuronal se realiza el entrenamiento con la adaptación al orador, prescribiéndose la secuencia de fonemas P a la red neuronal como valor de destino para nudos de salida.
2. Procedimiento según la reivindicación 1,
caracterizado porque
la red neuronal es tal que se minimiza el error cuadrático medio, utilizándose como función de activación en particular la función sigmoidal Sc(x) o la función de tangente hiperbólica tanh(x).
3. Procedimiento según la reivindicación 1 ó 2,
caracterizado porque
como red neuronal se utiliza una red orientada a capas, orientada hacia delante, con enmallado completo entre las distintas capas, cuya capa de entrada presenta múltiples nudos como ventanas canónicas de fonemas.
4. Procedimiento según la reivindicación 3,
caracterizado porque
la capa de entrada presenta un nudo central para un fonema a considerar de la secuencia de fonemas y otros nudos que contienen los fonemas contiguos a ambos lados en el tiempo al fonema a considerar de la forma canónica considerada como conocimiento contextual.
5. Procedimiento según la reivindicación 3 ó 4,
caracterizado porque
el tamaño de ventana de las ventanas de fonemas se determina previamente tal que esencialmente asume el conocimiento contextual a nivel de sílaba.
6. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque
el entrenamiento se realiza como proceso iterativo, en particular en base a la regla de aprendizaje de la de la retroprogamación del error ("Error Backpropagation").
7. Procedimiento según la reivindicación 6,
caracterizado porque
-
para cada iteración se determina una secuencia de modelos de entrenamiento mediante un generador aleatorio,
-
tras cada iteración en base a una secuencia de validación independiente del material de entrenamiento, se averigua la precisión de transcripción lograda y
-
las iteraciones prosiguen mientras con cada nueva iteración se logre un aumento de la precisión de transcripción de la secuencia de validación.
8. Procedimiento según una de las reivindicaciones precedentes,
caracterizado porque tras un proceso de entrenamiento en el diccionario de la pronunciación de la transcripción ya con el entrenamiento en forma canónica, se añade al menos una secuencia de fonemas especifica del orador.
9. Procedimiento según la reivindicación 8,
caracterizado porque
tras un ciclo de entrenamiento para cada palabra del diccionario de pronunciación, se presenta la correspondiente forma canónica a la red neuronal y a partir del correspondiente valor de salida de los nudos de salida, se genera la correspondiente transcripción especifica del orador y se memoriza en la palabra.
ES01115523T 2000-07-14 2001-06-27 Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion. Expired - Lifetime ES2288897T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10034249 2000-07-14
DE10034249 2000-07-14

Publications (1)

Publication Number Publication Date
ES2288897T3 true ES2288897T3 (es) 2008-02-01

Family

ID=7648906

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01115523T Expired - Lifetime ES2288897T3 (es) 2000-07-14 2001-06-27 Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion.

Country Status (3)

Country Link
EP (1) EP1172802B1 (es)
DE (1) DE50112815D1 (es)
ES (1) ES2288897T3 (es)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
JPH0642157B2 (ja) * 1990-10-15 1994-06-01 株式会社エイ・ティ・アール自動翻訳電話研究所 話者適応化装置
EP0838073B1 (en) * 1995-05-26 2002-07-24 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system

Also Published As

Publication number Publication date
EP1172802B1 (de) 2007-08-08
EP1172802A3 (de) 2002-11-13
DE50112815D1 (de) 2007-09-20
EP1172802A2 (de) 2002-01-16

Similar Documents

Publication Publication Date Title
Haffner et al. Integrating time alignment and neural networks for high performance continuous speech recognition.
ES2233002T3 (es) Sistema de reconocimiento de habla con lexico actualizable mediante introduccion de palabras deletreadas.
Woodland et al. The 1994 HTK large vocabulary speech recognition system
ES2281626T3 (es) Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz.
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
Zue et al. The SUMMIT speech recognition system: Phonological modelling and lexical access
Hazen et al. Pronunciation modeling using a finite-state transducer representation
US20060058996A1 (en) Word competition models in voice recognition
Hwang et al. Online keyword spotting with a character-level recurrent neural network
ES2244499T3 (es) Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz.
Mariani Recent advances in speech processing
Klusácek et al. Conditional pronunciation modeling in speaker detection
Schmid et al. Automatically generated word pronunciations from phoneme classifier output
US6430532B2 (en) Determining an adequate representative sound using two quality criteria, from sound models chosen from a structure including a set of sound models
rn Svendsen et al. Optimizing baseforms for HMM-based speech recognition
Lamel et al. Continuous speech recognition at LIMSI
ES2288897T3 (es) Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion.
Fanty et al. City name recognition over the telephone
US20020095282A1 (en) Method for online adaptation of pronunciation dictionaries
Tian Data-driven approaches for automatic detection of syllable boundaries.
JPH08123470A (ja) 音声認識装置
Siniscalchi et al. A phonetic feature based lattice rescoring approach to LVCSR
Kane et al. Multiple source phoneme recognition aided by articulatory features
Rotovnik et al. A comparison of HTK, ISIP and julius in slovenian large vocabulary continuous speech recognition