ES2273885T3

ES2273885T3 - Combinacion de dtw y hmm en modos dependiente e independiente del orador para reconocimiento de voz.

Info

Publication number: ES2273885T3
Application number: ES01968568T
Authority: ES
Inventors: Yingyong Qi; Ning Bi; Harinath Garudadri
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-09-08
Filing date: 2001-09-05
Publication date: 2007-05-16
Anticipated expiration: 2021-09-05
Also published as: WO2002021513A8; KR20030061797A; CN1454381A; BR0113725A; AU2001288808A1; EP1316086B1; EP1316086A1; KR100901092B1; HK1058428A1; ATE344959T1; CN1238836C; US6754629B1; DE60124408D1; DE60124408T2; JP2004518155A; TW548630B; WO2002021513A1

Abstract

Un sistema de reconocimiento de voz (100), que comprende: una pluralidad de motores RV de reconocimiento de voz (104, 106, 108) con cada uno de los motores de reconocimiento de voz configurados para producir una palabra candidato; y un módulo de mapeo (110) que se configura para aceptar como entrada la palabra candidato de la pluralidad de motores de RV (104, 106, 108) y selecciona un candidato de palabra basado en una función de mapeo; Donde la función de mapeo es: En donde F es un primer motor de reconocimiento de voz, S es un segundo motor de reconocimiento de voz, F1wi es la distancia entre la pronunciación TU y la palabra candidato Wi, F2wi es la distancia para el segundo mejor candidato exluyendo Wi. Dg denota la distancia entre TU y la plantilla de desecho, S1wi es la distancia entre la pronunciación TU y Wi, S2wi es la distancia para el segundo mejor candidato excluyendo Wi, Sg denota la distancia entre TU y la plantilla de desecho, y ci = (i = 0, 1, ....n) es un coeficiente y el limite superior n es igual a la suma del número de motores RV más la suma de palabras candidato para cada motor RV.

Description

Combinación de DTW y HMM en modos dependiente e independiente del orador para reconocimiento de voz.

I. Campo

La presente invención pertenece en general al campo de las comunicaciones y más específicamente a un novedoso y mejorado sistema y procedimiento para el reconocimiento de voz.

II. Antecedentes

El reconocimiento de voz (RV) representa una de las técnicas más importantes para dotar a una máquina con inteligencia simulada del reconocimiento de comandos de usuario ó hablados por el usuario y facilitar la interfaz humana con la máquina. El RV también representa una técnica clave para el entendimiento de la voz humana. Los sistemas que emplean técnicas para recuperar un mensaje ligüístico de una señal de voz acústica se llaman reconocedores de voz. El término "reconocedor de voz" se utiliza aquí para referirse en general a cualquier dispositivo capacitado con interfaz de usuario para el habla.

La utilización del RV (al que también se refiere comúnmente como reconocimiento del habla) se está convirtiendo en algo de creciente importancia por motivos de seguridad. Por ejemplo, El RV se puede usar para reemplazar la tarea manual de presionar botones en el teclado de un teléfono inalámbrico. Esto es especialmente importante cuando un usuario está iniciando una llamada telefónica mientras conduce un coche. Cuando se utiliza un teléfono sin RV, el conductor tiene que retirar una mano del volante y mirar el teclado mientras pulsa los botones para marcar. Hechos como este aumentan la probabilidad de un accidente de coche. Un teléfono con capacidad de voz (es decir, un teléfono designado para reconocimiento de voz) permitiría al conductor hacer llamadas telefónicas sin apartar la vista de la carretera. Además, un kit de manos libres para coche, permitiría al conductor mantener ambas manos sobre el volante durante la iniciación de la llamada.

Los dispositivos de reconocimiento de voz se clasifican en dispositivos dependientes del orador (DV) ó independientes del orador (IV). Los dispositivos dependientes del orador, que son más comunes, están entrenados para reconocer comandos de usuarios particulares. En contraste, los dispositivos independientes del orador son capaces de aceptar comandos de voz de cualquier usuario. Para aumentar el rendimiento de un sistema de RV dado, ya sea dependiente o independiente del orador, se necesita entrenamiento para equipar al sistema con parámetros válidos. En otras palabras, el sistema aprender antes de que pueda funcionar óptimamente.

Un dispositivo de RV dependiente de la voz opera típicamente en dos fases, una fase de entrenamiento y una fase de reconocimiento. En la fase de entrenamiento, el sistema de RV pide al usuario que diga cada una de las palabras en el vocabulario del sistema una ó dos veces (típicamente dos veces), de forma que el sistema pueda aprender las características de la voz del usuario para estas palabras particulares ó frases. Un vocabulario ejemplar para un kit de manos libres de coche podría incluir los dígitos del teclado; las palabras clave "llamar", "enviar", "marcar", "cancelar", "despejar", "añadir", "borrar", "historia", "programa", "si" y "no"; y los nombres de un número predefinido de los comúnmente llamados compañeros de trabajo, amigos, ó familiares. Una vez completado el entrenamiento, el usuario puede iniciar llamadas en la fase de reconocimiento diciendo las palabras clave entrenadas, que el dispositivo VR reconoce comparando las pronunciaciones emitidas con las pronunciaciones previamente entrenadas (almacenadas como plantillas) y cogiendo el mejor emparejamiento. Por ejemplo, si el nombre "John" fuese uno de los nombre entrenados, el usuario podría iniciar una llamada a John diciendo la frase "Llamar John". El sistema RV reconocería las palabras "Llamar" y "John", y marcaría el número que el usuario había introducido previamente como el número de teléfono de John. Sistemas y procedimientos para el entrenamiento.

Un dispositivo de RV independiente de la voz también utiliza una plantilla de entrenamiento que contiene un vocabulario de un tamaño predefinido (por ejemplo, ciertas palabras de control, los números ceros al nueve, y si y no). Se deben grabar un gran número de voces (Por ejemplo, 100) diciendo cada palabra del vocabulario.

Diferentes dispositivos de RV independientes de la voz pueden dar resultados diferentes. Por ejemplo, un motor independiente de la voz del modelo Hidden Markov (HMM) puede dar un resultado diferente al de un motor independiente Dynamic Time Warping (DTW). La combinación de los resultados de ambos motores puede resultar en un sistema con mejor precisión de reconocimiento y tasas más bajas de rechazo que utilizando los resultados de solamente uno de los motores.

Un RV dependiente de la voz y un RV independiente de la voz pueden dar resultados diferentes. Un motor dependiente de la voz realiza el reconocimiento utilizando plantillas que pertenecen a un usuario específico. Un motor independiente de la voz realiza el reconocimiento utilizando plantillas que han sido generadas utilizando ejemplares de un conjunto de usuarios. Como las plantillas específicas de voz son más cercanas a un estilo de voz de usuario dado, los motores DV proporcionan mejor precisión que los motores IV. De todas formas, los motores IV tienen la ventaja de que los usuarios no necesitan llevar a cabo el "proceso de entrenamiento" antes de utilizar el sistema.

Se desea un sistema y un procedimiento que combinen motores de diferentes tipos. La combinación de múltiples motores proporciona una precisión mejorada y utiliza una cantidad de información más grande en la señal de voz de entrada. Se describe un sistema y procedimiento para combinar motores RV en la Solicitud de Patente de EE.UU. No. 09/618,177 titulada "Sistema y Procedimiento de Motor Combinado para Reconocimiento de Voz", presentada el 18 Julio, 2000, que se asigna al asignado de la presente invención.

Un sistema RV de lógica de decisión puede utilizar la lógica heurística para elaborar reglas de decisión. La decisión lógica típicamente comienza con las distancias medidas entre una pronunciación de prueba y las plantillas candidatas superiores (palabra) de cada motor. Por ejemplo, supóngase que se utilizan dos motores (motores D y H). Llámese d_{1} y d_{2} a la distancia entre la pronunciación de prueba y las dos palabras candidatas superiores del motor D, y h_{1} y h_{2} la distancia entre la pronunciación de prueba y las dos palabras candidatas superiores del motor H. Llámese d_{g} y h_{g} a la distancia entre la pronunciación de prueba y las plantillas "de desecho" de los motores D y H, respectivamente. Las plantillas de desecho se utilizan para representar todas las palabras que no estan en el vocabulario. La lógica de decisión comprende una secuencia de comparaciones entre estas distancias medidas y un juego de tolerancias predefinidas. De cualquier forma, las reglas de comparación y tolerancias, tienen que ser sintetizadas y ajustadas en bases de ensayo-error, en parte, porque no pueden ser sistemáticamente optimizadas. Esto consume mucho tiempo y es un proceso difícil. Además, las reglas heurísticas pueden ser dependientes de la aplicación. Por ejemplo, se tiene que sintetizar un nuevo juego de reglas si en vez de utilizarse las dos primeras palabras se utilizan las tres primeras palabras para cada motor. Es probable que el juego de reglas para reconocer voz sin ruido sea diferente de aquellas para reconocer voz con ruido.

Por tanto, se desea un sistema y procedimiento para resolver resultados diferentes de una pluralidad de diferentes motores de RV.

Se llama la atención sobre el documento US-A-5,754,978, que revela un sistema de reconocimiento de voz con dos motores de reconocimiento. Los motores de reconocimiento de voz proporcionan una señal de salida de texto reconocida, cada una de las cuales es enviada a un comparador de texto. El comparador compara las señales de salida de texto reconocidas y acepta o rechaza el texto en base al grado de acuerdo entre las señales de salida de cada uno de los motores.

También se llama la atención sobre un artículo por Bouchaffra et al. "Una metodología para mapear resultados con probabilidades"; transacciones de IEEE en análisis de patrones e inteligencia de máquinas, IEEE Inc. Nueva York, EE.UU., Volumen 21, No. 9 XP, 000851870. El artículo describe una derivación de la probabilidad de exactitud de resultados asignados por la mayoría de los reconocedores. La derivación de valores de probabilidad sitúa los resultados de diferentes reconocedores en la misma escala, que hace una comparación en la parte trivial de los
reconocedores.

Finalmente se llama la atención sobre el documento de conocimiento previo US-A-5 734 793, que describe un sistema para reconocer sonidos hablados de voz contínua e incluye una pluralidad de clasificadores y un selector. Cada uno de los clasificadores implementa una función discriminada que se basa en una extensión apolinómica. Mediante la determinación de coeficientes polinómicos de una función discriminada, la clasificación se ajusta para clasificar un sonido hablado específico. El selector utiliza los resultados clasificados para identificar los sonidos hablados. También se describe un procedimiento para utilizar el sistema.

De acuerdo con la presente invención se proporcionan un sistema de reconocimiento de voz, como se establece en las reivindicaciones 1 y 15, y un procedimiento para el reconocimiento de voz, como se establece en las reivindicaciones 16 y 20. Las realizaciones de la invención se describen en las reivindicaciones dependientes.

Resumen

Las realizaciones descritas están dirigidas a un sistema y procedimiento para reconocimiento de voz. En una realización, se proporciona un procedimiento de combinación de varios motores de reconocimiento de voz para mejorar el reconocimiento de voz. El procedimiento ventajosamente incluye el acoplamiento de varios motores de reconocimiento de voz a un módulo de mapeo. Cada motor de RV produce una hipótesis, es decir, un candidato de palabra; entonces el módulo de mapeo aplica una función de mapeo para seleccionar una hipótesis producida por el conjunto de motores de RV.

En una realización se combinan motores de reconocimiento de voz independientes del orador. En otra realización se combinan motores de reconocimiento de voz dependientes del orador. En una última realización se combina un motor de reconocimiento de voz independientes del orador con un motor de reconocimiento de voz dependientes del orador.

En una realización, un motor de reconocimiento de voz independiente del orador es el motor de reconocimiento de voz Dynamic Time Warping. En una realización, un motor de reconocimiento de voz independiente del orador es el motor de reconocimiento de voz Modelo Hidden Markov. En una realización, un motor de reconocimiento de voz dependiente del orador es el motor de reconocimiento de voz Dynamic Time Warping. En una realización, un motor de reconocimiento de voz dependiente del orador es el motor de reconocimiento de voz Modelo Hidden
Markov.

Breve descripción de los dibujos

Las características, objetos y ventajas de la presente invención serán más evidentes a partir de la descripción detallada expuesta a continuación, tomada en conjunción con los dibujos en los que se identifican caracteres de referencia similares correspondientemente en todo el texto y donde:

Fig. 1 muestra una realización de un sistema de reconocimiento de voz que tiene tres tipos de motores de reconocimiento de voz;

Fig. 2 muestra un sistema de reconocimiento de voz que incluye un motor DTW y un motor HMM; y

Fig. 3 muestra una realización de un sistema de reconocimiento de voz con dos motores de reconocimiento de voz.

Descripción detallada

En una realización, un sistema 100 de reconocimiento de voz como se muestra en la figura Fig. 1 tiene tres tipos de motores de reconocimiento de voz capaces de realizar tareas aisladas de reconocimiento de palabras: un motor de alabeo de tiempo dinámico independiente del orador (DTW-IH) 104, un motor de alabeo de tiempo dinámico dependiente del orador (DTW-DH) 106, y un motor del hidden Markov model (HMM) 108. Estos motores se utilizan para mandar en el reconocimiento de la voz y reconocimiento de dígitos para proporcionar interfaces de usuario habladas sonoras para tareas comunes realizadas por un dispositivo de mano, tal como, por ejemplo, un teléfono móvil, un asistente digital personal (PDA) etc. En otra realización, el sistema de reconocimiento de voz 100 comprende un motor DTW-IH 104 y un DTW-DH 106. En otra realización, el sistema de reconocimiento de voz 100 comprende un motor DTW-IH 104 y un motor HMM 108. En otra realización, el sistema de reconocimiento de voz 100 comprende un motor DTW-DH 106 y un motor HMM 108. En una realización, el motor HMM 108 es independiente del habla. En otra realización, el motor HMM 108 is dependiente del habla. Se puede comprender por parte de aquellos instruidos en la técnica, que se puede utilizar cualquier motor de RV conocido en la técnica. En otra realización, se combina una variedad de otros tipos de motores RV. También será evidente para aquellos instruidos en la técnica, que los motores se pueden configurar en cualquier combinación.

De acuerdo con una realización, como se ilustra en la Fig. 1, un sistema de reconocimiento de voz 100 incluye un convertidor de analógico a digital (A/D) 102, un motor DTW-IH 104, un motor DTW-DH 106, y un motor HMM 108. En una realización, el A/D es un A/D de hardware. En otra realización el A/D 102 se implementa en software. En una realización, el A/D 102 y los motores 104, 106, 108, se implementan como un dispositivo. Se puede comprender por parte de aquellos instruidos en la técnica, que el A/D 102 y los motores 104, 206,108 se pueden implementar y distribuir entre cualquier número de dispositivos.

El A/D 102 se acopla al motor DTW-IH 104, al motor DTW-DH 106, y al motor HMM 108. El motor DTW-IH 104, el motor DTW-DH 106, y el motor HMM 108 se acoplan al módulo de mapeo 110. El módulo de mapeo toma como entrada las salidas de los motores 104,106, 108 y produce una palabra que corresponde a una señal de habla
s(t).

El sistema de reconocimiento de voz 100 puede residir, por ejemplo, en un teléfono inalámbrico ó un kit de manos libres para coche. Un usuario (que no se muestra) dice una palabra o frase, generando una señal de habla.

La señal de habla se convierte en señal de habla eléctrica, s(t), con un transductor convencional (que no se muestra). La señal de habla, s(t), se envia al A/D 102, que convierte la señal de habla en muestras de habla digital de acuerdo con un procedimiento de muestreo conocido como, por ejemplo, modulación codificada mediante pulsos (PCM), Ley-A, ó ley-\mu. En una realización, típicamente, hay N muestras de habla de 16-bit cada segundo. Por tanto, N=8.000 para una frecuencia de muestreo de 8.000 Hz y N=16.000 para una frecuencia de muestreo de 16.000 Hz.

Las muestra de habla se envian al motor DTW-IH 104, al motor DTW-DH 106, y al motor HMM 108. Cada motor procesa las muestras de habla y produce hipótesis, es decir, palabras candidato para la señal de habla s(t). Entonces el módulo de mapeo mapea las palabras candidato en un espacio de decisión, que se evalúa para seleccionar la palabra candidato que mejor refleja la señal de habla s(t).

En una realización, el sistema de reconocimiento de voz incluye dos motores de RV como se muestra en la figura Fig. 2. El sistema de reconocimiento de voz 100 incluye un motor DTW 112 y un motor HMM 114. En una realización, el motor DTW es un motor de RV independiente del habla. En otra realización, el motor DTW es un motor de RV dependiente del habla. En una realización, el motor HMM es un motor de RV independiente del habla. En otra realización, el motor HMM es un motor de RV dependiente del habla.

En estas realizaciones, el sistema tiene las ventajas de ambos motores DTW y HMM. En una realización, las plantillas DTW y HMM se crean explícitamente durante un fase de entrenamiento en la que se entrena el sistema de reconocimiento de voz para reconocer las señales de habla de entrada. En otra realización, las plantillas DTW y HMM son creadas implícitamente durante el uso típico del sistema de reconocimiento de voz. Se describen sistemas y procedimientos de entrenamiento de ejemplo en la Solicitud de Patente No. 09/248,513 titulada "Esquema de rechazo de reconocimiento de voz", archivado el 8 de Febrero, 1999, que se cede al cesionario de la presente invención, y la Solicitud de Patente EE.UU. No. 09/225,891, titulada "Sistema y procedimiento para la segmentación y reconocimiento de señales de habla", presentador el 4 de Enero de 1999, que se cede al cesionario de la presente invención.

Un conjunto de plantillas para todas las palabras de vocabulario del sistema de reconocimiento de voz se almacenan el cualquier forma convencional de medio de almacenaje no volátil, como, por ejemplo, memoria flash. Esto permite que las plantillas permanezcan en el medio de almacenamiento cuando la energía del sistema de reconocimiento de voz 100 se apaga. En una realización, el conjunto de plantillas se construye con un sistema de construcción de plantilla independiente del habla. En una realización, las palabras de orden se incluyen en un vocabulario de un motor de
RV.

La técnica de DTW se conoce en la técnica y se describe en Lawrence Rabiner& Biing-Hwang Juang, Fundamentos del Reconocimiento de Habla 200-238 (1993). De acuerdo con la técnica de DTW se forma una estructura ploteando una secuencia de tiempo de la pronunciación a testar contra una secuencia de tiempo de cada pronunciación almacenada en una base de datos de plantillas. La pronunciación a la que se le realiza la prueba se compara entonces, punto por punto (por ejemplo, cada 10 ms), con cada pronunciación de la base de datos de plantillas, una pronunciación en cada momento. Para cada pronunciación de la base de datos, la pronunciación bajo prueba se ajusta, ó se "alabea" en el tiempo, bien siendo comprimida o expandida en puntos particulares hasta que se consiga el emparejamiento más próximo posible con la pronunciación de la base de datos. En cada punto en el tiempo las dos pronunciaciones son comparadas, y o bien se declara un emparejamiento en ese punto (costo zero), ó se declara un mal emparejamiento. En el caso de un mal emparejamiento en un punto en particular, la pronunciación bajo prueba se comprime, se expande, ó si es necesario se mal empareja. El proceso se continua hasta que las dos pronunciaciones han sido completamente comparadas. Es posible un gran número (típicamente miles) de pronunciaciones ajustadas diferentemente. Se selecciona la pronunciación ajustada que tenga la función de costo más baja (es decir, la que requiera menos numero de compresiones y/o expansiones y/o mal emparejamientos). De forma similar a un algoritmo de decodificación Viterbi, la selección se realiza ventajosamente mirando hacia atras desde cada punto en la pronunciación en la base de datos de plantillas para determinar el camino que tenga el costo total más bajo. Esto permite determinar la pronunciación ajustada de más bajo costo (es decir, la que más se ajusta al emparejamiento) sin tener que recurrir al procedimiento de "fuerza bruta" de generar cada una de las posibles pronunciaciones ajustadas. Las pronunciaciones ajustadas de más bajo costo para todas las pronunciaciones de la base de datos de plantillas son entonces comparadas y la que tiene el costo más bajo se selecciona como la pronunciación almacenada más próxima a la pronunciación bajo
prueba.

Aunque los esquemas de emparejado DTW en un motor DTW 104 y el decodificado Viterbi en un motor HMM 108 son similares, los motores DTW y HMM utilizan diferentes esquemas de extremo frontal, es decir, extractores de características, para proporcionar vectores de características a la fase de emparejado. Por esta razón, los patrones de error de los motores DTW y HMM son bastante dirferentes. Un sistema de reconocimiento de voz con un motor combinado lleva la ventaja de diferencias en los patrones de error. Mediante la combinación de los resultados de ambos motores correctamente, se puede conseguir una precisión de reconocimiento global más alta. Lo que es más importante, se pueden conseguir unas tasas de rechazo más bajas para la precisión del reconocimiento
deseada.

En una realización, se combinan motores de reconocimiento de voz independientes del orador que operan con el mismo juego de vocabulario. En otra realización, se combinan motores de reconocimiento de voz dependientes del orador. En otra realización, un motor de reconocimiento de voz independiente del orador se combina con un motor de reconocimiento de voz dependiente del orador, operando ambos motores con el mismo juego de vocabulario. En otra realización, un motor de reconocimiento de voz independiente del orador se combina con un motor de reconocimiento de voz dependiente del orador, operando ambos motores con diferentes juegos de vocabulario.

Cada motor produce una salida conforme a palabra en su vocabulario que fue hablada. Cada salida incluye una palabra candidato para la señal de entrada. Las palabras que no corresponden con la señal de entrada son rechazadas. Se describen ejemplos de esquemas de rechazo en la Solicitud de Patente EE.UU. No. 09/248,513.

El reconocimiento del habla preciso es difícil para un sistema integrado, en parte debido a su limitado recurso de computación. Para incrementar la precisión del sistema en reconocimiento del habla, el reconocimiento del habla se consigue utilizando múltiples motores de reconocimiento. Sin embargo, diferentes motores de RV, pueden producir diferentes resultados. Por ejemplo, un motor podría elegir "Jane" y "Joe" como palabras candidatas superiores, mientras que otro motor de RV podría elegir "Julie" y "Joe" como palabras candidatas superiores. Estas diferencias en los resultados deben ser resueltas. Se debe dar un respuesta, es decir, se tiene que seleccionar una palabra candidato. El sistema de RV tiene que llegar a tomar una decisión basándose en estas palabras candidato para que los múltiples motores sean funcionales.

En una realización hay X (X= 2, 3, ...) motores combinados, donde cada motor produce Y (Y= 1, 2, ...) palabras candidato. Por tanto, hay X*Y candidatos de los cuales uno es la respuesta correcta. En otra realización, cada motor puede producir un número diferente de candidatos.

En una realización con dos motores D y H, d_{1} y d_{2} son las distancias entre la pronunciación de prueba y las dos palabras candidato superiores del motor D, y h_{1} y h_{2} son las distancias entre la pronunciación de prueba y las dos palabras candidato superiores del motor H. Las variables d_{g} y h_{g} son las distancias entre la pronunciación de prueba y las plantillas "de desecho" de los motores D y H, respectivamente. las plantillas "de desecho" se utilizan para representar todas la palabras que no están en el vocabulario.

En una realización, la decisión de seleccionar un candidato de los candidatos producidos por los motores de RV se realiza basado en un mapeo del espacio de medición (d_{1},d_{2},...d_{g} y h_{1},h_{2}... . h_{g}) al espacio de decisión (aceptar/rechazar la pronunciación de prueba como una de las palabras en la lista). En una realización, el mapeo es un mapeo linear. En otra realización, el mapeo es un mapeo no linear.

De acuerdo con una realización, Se muestra en la Fig. 3 el diagrama de flujo de los pasos del procedimiento realizado por un dispositivo que tiene un motor de RV basado en DTW y un motor de RV basado en HMM. En el paso 200, se obtiene una pronunciación de prueba T_{U}. Una vez que se obtiene la pronunciación de prueba T_{U} se realiza un análisis de reconocimiento de voz DTW sobre la pronunciación de prueba T_{U} en el paso 202, y se realiza un análisis de reconocimiento de voz HMM sobre la pronunciación de prueba T_{U} en el paso 204. En el paso 206, se obtiene un juego D_{i} de palabras candidatas DTW. En el paso 208, se obtiene un juego H_{i} de palabras candidatas. En el paso 210, se aplica una función de mapeo linear a cada palabra candidato DTW de D, y a cada palabra candidato HMM de H. En el paso 212, el reconocimiento de una palabra candidato se basa en los resultados del mapeo linear. En el paso 212 se elige la palabra candidata con el mínimo valor de función de mapeo como palabra reconocida W(T_{U}). En el paso 214, el valor de la función de mapeo de la palabra reconocida W(T_{U}) se compara con un umbral. Si el valor de la función de mapeo de la palabra reconocida W(T_{U}) es menor que el umbral, la palabra reconocida es rechazada en el paso 216. Si el valor de la función de mapeo de la palabra reconocida W(T_{U}) es mayor que el umbral, la palabra reconocida es aceptada en el paso 218.

D_{i}^{wj} es al distancia entre una pronunciación de prueba T_{U} 200 y las palabras de vocabulario incluidas, W_{j}, j=1,2,...,N.

W_{j} es un juego de palabras candidatas donde el índice j es el número del juego y N es el número de juegos. Cada juego tiene un número de palabras candidatas, siendo este número un entero positivo. El índice i es el número del motor de RV.

Cada motor de RV también produce una distancia D_{g} entre la pronunciación de prueba T_{U} y la plantilla de palabras fuera de vocabulario W_{g}. Una palabra de vocabulario incluida es una palabra que está en el vocabulario de un motor de RV. Una palabra fuera del vocabulario, es una palabra que no está incluida en el vocabulario de un motor
RV.

Si el resultado de una función de mapeo es más grande que un umbral, la palabra candidata evaluada es válida y la entrada es aceptada. De otra forma, la entrada es rechazada.

La Tabla 1 muestra una matrix de distancias en una realización con un motor DTW y un motor HMM, donde las dos palabras superiores de cada motos son escogidas para ser el conjunto de candidatos. D_{1} y D_{2} son las distancias de las dos palabras candidatas superiores del motor de RV DTW, y H_{1} y H_{2} son las distancias de las dos palabras candidatas superiores del motor de RV HMM.

En una realización con dos motores de RV, donde un motor RV produce X distancias y el otro motor produce Y distancias, se produce un total de palabras candidatas X*Y.

Sólo una palabra de un conjunto de candidatas será reconocida, y se toma una decisión que determina si el reconocimiento debe ser aceptado/rechazado. En otra realización, una función de mapeo linear se utiliza para elegir una palabra del conjunto de candidatas, y tomar una decisión de aceptación ó rechazo.

Cada juego de palabras candidatas, W_{i}, i=1, 2, 3, 4, tiene sus vectores de medición correspondientes como se muestra en la tabla 1.

\vskip1.000000\baselineskip

TABLA 1

\vskip1.000000\baselineskip

1

\newpage

D denota un motor DTW. H denota un motor HMM. D_{1}^{Wi} es la distancia entre T_{U} y W_{i}. D_{2}^{Wi} es la distancia para el segundo mejor candidato excluyendo W_{i}. D_{g} denota la distancia entre T_{U} y la plantilla de desecho. H_{1}^{wi}, H_{2}^{wi}, H_{g} representan, respectivamente, las mismas cantidades que para el motor DTW. La función de mapeo linear tiene la forma:

2

Donde c_{i} (i=0,1,... n) es una constante real en una realización y un parámetro de habla en otra realización. El límite superior del índice i es n. El límite superior n es igual al número de motores de RV en el sistema de reconocimiento de voz más el número de palabras candidato para cada motor de RV. En una realización con dos motores de RV y dos palabras candidato por motor de RV, n=6. El cálculo de n se muestra a continuación:

	Dos Motores de RV	2
	Dos palabras candidato para el primer motor de RV	+2
	Dos palabras candidato para el segundo motor de RV	+2
		\overline{n=6}

las reglas de decisión para reconocimiento de palabras y aceptación de palabras son como sigue:

1.: La palabra que maximiza M_{i} (D_{f}H) se escoge como palabra a ser reconocida; y

2.: El reconocimiento se acepta cuando M_{i}(D_{f}H)>0 y se rechaza cuando M_{i} (D,H)\leq 0.

La función de mapeo puede ser construida o entrenada objetivamente para minimizar falsos errores de aceptación/rechazo. En una realización, las constantes c_{i} (i=0,1,..n) se obtienen a partir de entrenamiento. En el proceso de entrenamiento, se conoce la identidad de cada muestra de prueba. El vector de medición de una palabra (de entre W_{1}, W_{2}, W_{3}, y W_{4}) se marca como correcto (+1), y el resto son marcadas como incorrectos (-1). El entrenamiento determina el valor del vector de coeficiente c= c_{i} {i=0,1... . n} para minimizar el número de clasificaciones erróneas.

El vector b es un vector que indica la naturaleza correcta/incorrecta del vector de entrenamiento, y W es la matriz de

medida donde cada fila es un vector de medición D_{1}^{Wi}, D_{2}^{Wi}, D_{g}, H_{1}^{wi}, H_{2}^{wi}, H_{g} (i=1,...,4). En una realización, el vector de coeficiente c se obtiene computando la pseudo-inversa of W:

3

Este procedimiento minimiza el error cuadrado medio (ECM). En otra realización, se utilizan también procedimientos de minimización de errores, tales como la minimización de la cuenta de error total, para resolver el vector de coeficiente c. También sería evidente para aquellos instruidos en la técnica que se pueden utilizar otros procedimientos de minimización de errores para resolver el vector de coeficiente c.

El procedimiento de función de mapeo es igualmente aplicable a motores múltiples (>2) y palabras candidato múltiples (>2).

Donde hay L motores de RV y cada uno produce N palabras candidato, la función de mapeo generalizada tiene la forma:

4

C_{o} es la contante del umbral. C^{l}_{k} es la k-ésima constante de mapeo para el motor l de RV. V(l)_{k}^{wi} es la k-ésima distancia para el candidato de palabra W_{i} del motor l de RV.

Se utilizan una ó más variables/parámetros en la función de mapeo en vez de coeficientes. En una realización, esa ó esas variables/parámetros utilizadas en la función de mapeo son parámetros de habla de un motor de RV. También será evidente para aquellos instruidos en la técnica que la variable/parámetro ó las variables/parámetros pueden ser parámetros de habla tomados de la medición o procesamiento de la señal de habla s(t).

Por tanto, se ha descrito un moderno y mejorado procedimiento y aparato para combinar motores para el reconocimiento de voz. Aquellos instruidos en la técnica comprenderán que los diversos bloques lógicos ilustrativos, módulos, y mapeo descritos en conexión con las realizaciones aquí reveladas pueden ser implementados con hardware electrónico, software de ordenador, ó combinaciones de ambos. Los diversos componentes ilustrativos, bloques, módulos, circuitos, y pasos han sido descritos en general en términos de su funcionalidad. El que la funcionalidad sea implementada como hardware o software depende de la aplicación particular y de las limitaciones del diseño impuestas sobre el sistema en su conjunto. Los artesanos instruidos reconocen la intercambiabilidad del hardware y del software bajo estas circunstancias, y cuál es la mejor forma de implementar la funcionalidad descrita para cada aplicación particular. Como ejemplos, los diversos bloques lógicos ilustrativos, módulos, y mapeo descritos en conexión con las realizaciones aquí reveladas pueden ser implementados ó realizados con un procesador que ejecute un conjunto de instrucciones de firmware, una palicación especifica de circuito integrado (ASIC), una colección de puertas programables de campo (FPGA) u otro dispositivo lógico programable, puerta discreta ó lógica de transistor, componentes de hardware discretos como, por ejemplo, registradores, cualquier módulo de software programable convencional y un procesador, ó cualquier combinación de los designados para realizar las funciones aquí descritas. El A/D 102, los motores de RV, y el módulo de mapeo 110 pueden ser ventajosamente ejecutados en un microporcesador, pero como alternativa, el A/D 102, los motores de RV, y el módulo de mapeo 110 pueden ser ejecutados en cualquier procesador convencional, controlador, microcontrolador, ó máquina de estado. Las plantillas pueden residir en memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria EEPROM, registradores, disco duro, disco externo, un CD-ROM, ó cualquier otra forma de medio de almacenaje conocido en la técnica. La memoria (no se muestra) puede ser integral a cualquier procesador de los mencionados (no se muestra). Un procesador (no se muestra) y memoria (no se muestra) pueden residir en un ASIC (no se muestra). El ASIC puede residir en un teléfono.

La descripción previa de las realizaciones de la invención se proporciona para permitir a cualquier persona instruida en la técnica hacer ó utilizar la presente invención. Las diversas modificaciones a estas realizaciones serán fácilmente evidentes para aquellos instruidos en la técnica, y los principios genéricos aquí definidos pueden ser aplicados a otras realizaciones sin la utilización de la facultad de la inventiva. Por tanto, la presente invención no pretende limitarse a las realizaciones aquí mostradas, sino que está de acuerdo con el mayor alcance consistente con los principios y características novedosas aquí reveladas.

Claims

1. Un sistema de reconocimiento de voz (100), que comprende:

una pluralidad de motores RV de reconocimiento de voz (104, 106, 108) con cada uno de los motores de reconocimiento de voz configurados para producir una palabra candidato; y un módulo de mapeo (110) que se configura para aceptar como entrada la palabra candidato de la pluralidad de motores de RV (104, 106, 108) y selecciona un candidato de palabra basado en una función de mapeo;

Donde la función de mapeo es:

5

En donde F es un primer motor de reconocimiento de voz, S es un segundo motor de reconocimiento de voz, F_{1}^{wi} es la distancia entre la pronunciación T_{U} y la palabra candidato W_{i}, F_{2}^{wi} es la distancia para el segundo mejor candidato excluyendo W_{i}. D_{g} denota la distancia entre T_{U} y la plantilla de desecho, S_{1}^{wi} es la distancia entre la pronunciación T_{U} y W_{i}, S_{2}^{wi} es la distancia para el segundo mejor candidato excluyendo W_{i}, S_{g} denota la distancia entre T_{U} y la plantilla de desecho, y c_{i} = (i = 0,1,....n) es un coeficiente y el limite superior n es igual a la suma del número de motores RV más la suma de palabras candidato para cada motor RV.

2. El sistema de reconocimiento de voz (100) de la reivindicación 1, en donde la pluralidad de motores de reconocimiento de voz incluye un motor de de reconocimiento de voz independiente del orador (104).

3. El sistema de reconocimiento de voz (100) de la reivindicación 1, en donde la pluralidad de motores de reconocimiento de voz incluye un motor de de reconocimiento de voz dependiente del orador (106).

4. El sistema de reconocimiento de voz (100) de la reivindicación 2, en donde la pluralidad de motores de reconocimiento de voz incluye un motor de de reconocimiento de voz dependiente del orador (106).

5. El sistema de reconocimiento de voz (100) de la reivindicación 4, en donde al menos un motor de reconocimiento de voz independiente del orador (104) es un motor de reconocimiento de Alabeo de Tiempo Dinámico (DTW).

6. El sistema de reconocimiento de voz (100) de la reivindicación 4, en donde al menos un motor de reconocimiento de voz independiente del orador (104) es un motor de reconocimiento del Modelo Hidden Markov (HMM).

7. El sistema de reconocimiento de voz (100) de la reivindicación 4, en donde al menos un motor de reconocimiento de voz dependiente del orador (106) es un motor de reconocimiento de Alabeo de Tiempo Dinámico (DTW).

8. El sistema de reconocimiento de voz (100) de la reivindicación 4, en donde al menos un motor de reconocimiento de voz dependiente del orador (106) es un motor de reconocimiento del Modelo Hidden Markov (HMM).

9. El sistema de reconocimiento de voz (100) de la reivindicación 1, en donde la función de mapeo mapea linealmente las palabras candidato desde un espacio de medición hasta un espacio de decisión.

10. El sistema de reconocimiento de voz (100) de la reivindicación 1, en donde la palabra candidato se representa mediante una distancia entre una plantilla de palabras candidato y la pronunciación.

11. El sistema de reconocimiento de voz (100) de la reivindicación 10, en donde el módulo de mapeo multiplica la distancia de cada motor de RV por un coeficiente y añade el producto y otro coeficiente C_{o}, produciendo por tanto una suma.

12. El sistema de reconocimiento de voz (100) de la reivindicación 11, en donde un candidato de palabra se selecciona en base a la suma.

13. El sistema de reconocimiento de voz (100) de la reivindicación 12, en donde el coeficiente es una constante real.

14. El sistema de reconocimiento de voz (100) de la reivindicación 12, en donde el coeficiente es un parámetro de habla.

15. Un sistema de reconocimiento de voz (100), que comprende:

: una pluralidad de motores de reconocimiento de voz (RV) (104, 106, 108), con cada uno de los motores de reconocimiento de voz configurado para producir un candidato de palabra; y

: un módulo de mapeo (110) que se configura para tomar como entrada los candidatos de palabra de la pluralidad de motores de RV (104, 106, 108) y selecciona una candidato de palabra basado en la función de mapeo;

En donde la función de mapeo es:

6

En donde C_{o} es una contante de umbral, C_{k}^{l} es una constante de mapeo k-ésima para el motor l de RV, y V(l)_{k}^{wi} es una distancia k-ésima de los candidatos de palabra W_{i} desde el motor de RV 1.

16. Un procedimiento de reconocimiento de voz, que comprende:

: obtener al menos una palabra candidato para una pronunciación de prueba (200) y;

: seleccionar una palabra reconocida de la menos una palabra candidato basada en la función de mapeo;

en donde la función de mapeo es:

7

17. El procedimiento de la reivindicación 16, en donde la función de mapeo mapea linealmente al menos una palabra candidata desde un espacio de medición a un espacio de decisión.

18. El procedimiento de la reivindicación 16, en donde el coeficiente es una constante real.

19. El procedimiento de la reivindicación 16 en donde el coeficiente es un parámetro de habla.

20. Un procedimiento de reconocimiento de voz, que comprende:

: obtener al menos una palabra candidato para una pronunciación de prueba (200); y

en donde la función de mapeo es:

8

21. El procedimiento de la reivindicación 16 ó de la reivindicación 20, en donde el paso de obtención además comprende los pasos de:

: obtener la pronunciación de prueba mencionada;

: analizar la pronunciación de prueba;

: proporcionar al menos una palabra candidato para la pronunciación de prueba basada en el análisis de la pronunciación de prueba; y en donde el paso de selección además comprende los pasos de:

: aplicar la función de mapeo mencionada a al menos una palabra candidato (210);

: seleccionar una palabra candidato de al menos una palabra candidato basada en el valor de la función de mapeo de al menos una palabra candidato (212); y

: comparar el valor de la función de mapeo de la palabra candidato seleccionada con un umbral (214).

22. El procedimiento de la reivindicación 21 comprendiendo además la aceptación de la palabra candidato seleccionada basada en la comparación (218).

23. El procedimiento de la reivindicación 21 comprendiendo además el rechazo de la palabra candidato seleccionada basado en la comparación (216).