ES2330857T3

ES2330857T3 - Sistema de reconocimiento de voz que usa adaptacion implicita del que habla.

Info

Publication number: ES2330857T3
Application number: ES05025989T
Authority: ES
Inventors: Narendranath Malayath; Andrew P. Dejaco; Chienchung Chang; Suhail Jalil; Bi Ning; Harinath Garudadri
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2001-03-28
Filing date: 2002-03-22
Publication date: 2009-12-16
Anticipated expiration: 2022-03-22
Also published as: JP2008077099A; EP1374223B1; JP2013152475A; DE60222249T2; JP2008203876A; KR20070106809A; CN101221759B; KR20090106628A; EP1850324B1; KR20090106630A; ATE443316T1; ATE372573T1; WO2002080142A3; KR100933107B1; KR101031744B1; KR100933109B1; EP1628289B1; JP4546555B2; TW577043B; EP1850324A1

Abstract

Un procedimiento para realizar un entrenamiento no supervisado para el reconocimiento de voz, que comprende: la realización de la casación (308) de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de una pluralidad de modelos independientes del hablante para producir una pluralidad puntuaciones de concordancia del patrón de entrada y para determinar una respectiva clase de locución reconocida; la combinación de la pluralidad de puntuaciones de concordancia asociadas con la misma clase de locución para generar una puntuación de concordancia combinada; la comparación (312) de la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida; si la puntuación combinada es mejor que la puntuación de concordancia del patrón, la sustitución (314) de la plantilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y la sustitución de la puntuación de concordancia del modelo asociada con la plantilla acústica almacenada del modelo dependiente del hablante con la puntuación combinada asociada con la nueva plantilla.

Description

Sistema de reconocimiento de voz que usa adaptación implícita del que habla.

Antecedentes Campo

La presente invención se refiere al procesado de señal de voz. De manera particular, la presente invención se refiere a un procedimiento y a un aparato novedosos de reconocimiento de voz para conseguir el funcionamiento mejorado a través de una formación sin supervisión.

Antecedentes

El reconocimiento de voz representa una de las técnicas más importantes para dotar a una máquina con inteligencia simulada para reconocer órdenes habladas del usuario y para facilitar la interfaz humana con la máquina. Los sistemas que emplean técnicas para recuperar un mensaje lingüístico a partir de una señal de voz acústica, se denominan sistemas de reconocimiento de voz (VR). La figura 1 muestra un sistema VR básico que tiene un filtro de preénfasis 102, una unidad de extracción de la característica acústica (AFE) 104 y un motor de casación de patrones 110. La unidad AFE 104 convierte una serie de muestras digitales de voz en un conjunto de valores de medida (por ejemplo, las componentes de frecuencia extraídas) denominadas un vector de característica acústica. El motor de casación de patrones 110 casa una serie de vectores de característica acústica con las plantillas contenidas en el modelo acústico VR 112. Los motores de adaptación de patrones VR emplean por lo general técnicas de distorsión dinámica en el tiempo (DTW) o el Modelo de Markov Oculto (HMM). Tanto DTW como HMM son bien conocidas en la técnica y se describen con detalle en Rabiner, L. R. y Juang, B. H. "Fundamentos del reconocimiento de voz", Prentice-Hall, 1993. Cuando una serie de características acústicas coincide con una plantilla del modelo acústico 112, la plantilla identificada se usa para generar un formato de salida deseado, tal como una secuencia identificada de palabras lingüísticas correspondientes a la voz de entrada.

Como se ha hecho notar anteriormente el modelo acústico 112 generalmente es un modelo HMM o un modelo DTW. Se puede pensar en un modelo acústico DTW como en una base de datos de plantillas asociadas con cada una de las palabras que necesitan ser reconocidas. En general, una plantilla DTW consiste en una secuencia de vectores de característica que han sido promediados sobre muchas muestras de la palabra asociada. El patrón DTW de casación generalmente implica la localización de una plantilla almacenada que tiene una distancia mínima a la secuencia del vector de característica de entrada que representa la voz de entrada. Una plantilla usada en un modelo acústico basado en HMM contiene una descripción estadística detallada de la forma de pronunciación de la voz asociada. En general, una plantilla HMM almacena una secuencia de vectores de media, vectores de varianza y un conjunto de probabilidades de transición. Estos parámetros se usan para describir las estadísticas de una unidad de voz y se estiman a partir de muchos ejemplos de la unidad de voz. El patrón de casación HMM generalmente implica la generación de una probabilidad para cada plantilla del modelo basada en una serie de vectores de característica de entrada asociados con la voz de entrada. La plantilla que tenga la probabilidad más alta se selecciona como la palabra de entrada más probable.

La "formación" se refiere al proceso de recoger muestras de voz de un segmento o sílaba particular de voz de uno o más hablantes con el fin de generar plantillas en el modelo acústico 112. Cada plantilla del modelo acústico está asociada con una palabra o segmento de voz particulares denominados una clase de forma de pronunciación. Puede haber múltiples plantillas en el modelo acústico asociadas con la misma clase de palabras. "Prueba" se refiere al procedimiento para casar las plantillas del modelo acústico con una secuencia de vectores de característica extraídos de la voz de entrada. El funcionamiento de un sistema dado depende en gran medida del grado de coincidencia entre la voz de entrada del usuario final y el contenido de la base de datos, y de esta forma de la coincidencia entre las plantillas de referencia creadas a través de la formación y las muestras de voz usadas para la prueba VR.

Los dos tipos comunes de formación son la formación supervisada y la voz no supervisada. En la formación supervisada, la clase de forma de pronunciación asociada con cada conjunto de vectores de característica de formación se conoce a priori. Al hablante que proporciona la voz de entrada a menudo se le proporciona un guión de palabras o segmentos de voz correspondientes a las clases de forma de pronunciación predeterminadas. El vector de característica resultante de la lectura del guión puede ser incorporado dentro de las plantillas del modelo acústico asociado con las clases de forma de pronunciación correctas.

En la formación no supervisada, la clase de forma de pronunciación asociada con un conjunto de vectores de característica de formación no se conoce a priori. La clase de forma de pronunciación debe ser identificada de manera correcta antes de que se pueda incorporar un conjunto de vectores de característica de formación dentro de la plantilla correcta del modelo acústico. En la formación no supervisada, un error al identificar la clase de forma de pronunciación para un conjunto de vectores de característica de formación puede conducir a una modificación de la plantilla del modelo acústico errónea. Dicho error por lo general degrada, en lugar de mejorar, el funcionamiento del reconocimiento de la voz. Con el fin de evitar dichos errores, cualquier modificación del modelo acústico basada en la formación no supervisada se debe hacer por lo general de una manera muy conservadora. Se incorpora un conjunto de vectores de característica de formación dentro del modelo acústico solamente si hay una confianza relativamente alta de que la clase de forma de pronunciación se ha identificado de manera correcta. Dicho conservadurismo necesario hace que la construcción de un modelo acústico SD a través de una formación no supervisada sea un proceso muy lento. Hasta que se construya de esta manera el modelo acústico SD, el funcionamiento VR probablemente será inaceptable para la mayoría de los usuarios.

De manera óptima, el usuario final proporciona vectores de característica acústica de voz tanto durante la formación como durante la prueba, de forma que el modelo acústico 112 coincidirá fuertemente con la voz del usuario final. Un modelo acústico individualizado que esté confeccionado para un único hablante también se denomina un modelo acústico dependiente del hablante (SD). La generación de un modelo acústico SD por lo general requiere que el usuario final proporcione una gran cantidad de muestras de formación supervisadas. Primero, el usuario debe proporcionar muestras de formación para una gran variedad de clases de formas de habla. También, con el fin de conseguir el mejor funcionamiento, el usuario final debe proporcionar múltiples plantillas, que representen una variedad de posibles entornos acústicos para cada clase de forma de pronunciación. Debido a que la mayoría de los usuarios son incapaces o están poco dispuestos a proporcionar la voz de entrada necesaria para generar un modelo acústico SD, muchos sistemas VR existentes, en lugar de esto, usan modelos acústicos generalizados que son formados usando la voz de muchos hablantes "representativos". Se hace referencia a dichos modelos acústicos como modelos acústicos independientes del hablante (SI), y están diseñados para tener el mejor funcionamiento sobre un amplio intervalo de usuarios. Los modelos acústicos SI, sin embargo, pueden no estar optimizados para un único usuario. Un sistema VR que use un modelo acústico SI no funcionará tan bien para un usuario específico como un sistema VR que use un modelo acústico SD confeccionado para ese usuario. Para algunos usuarios, tales como los que tienen acentos extranjeros fuertes, el funcionamiento de un sistema VR que use un modelo acústico SI puede ser tan pobre que no pueda usar de manera efectiva los servicios VR en absoluto.

De manera óptima, un modelo acústico SD sería generado para cada usuario independiente. Como se ha tratado con anterioridad, la construcción de modelos acústicos SD que usen formación supervisada es impracticable. Pero el uso de formación no supervisada para generar un modelo acústico SD puede llevar mucho tiempo, durante el que el funcionamiento VR basado en un modelo acústico SD parcial puede ser muy pobre. Existe una necesidad en la técnica de un sistema VR que funcione razonablemente bien antes y durante la generación de un modelo acústico SD usando la formación no supervisada.

También llama la atención en el documento EP-A-1 011 094, que se refiere a un procedimiento para evitar la adaptación a palabras no reconocidas en sistemas automáticos de reconocimiento de voz no supervisados o en línea que usan medidas de la confianza o que interpretan la reacción del usuario para decidir si un fonema, varios fonemas, una palabra, varias palabras o una locución completa que se hayan reconocido deben utilizarse o no para la adaptación del conjunto de modelos independientes del hablante a un conjunto de modelos adaptados al hablante, en el caso de que se ejecute una adaptación, cuán marcada debe realizarse la adaptación a esta locución reconocida o a una parte de esta locución reconocida. Además, se propone una verificación del rendimiento de adaptación del hablante para asegurarse de que la tasa de reconocimiento nunca descienda, sino que sólo aumente o continúe en el mismo
nivel.

El documento US-A-5 734 793 se refiere a un sistema para reconocer los sonidos pronunciados a partir de la voz continua que incluye una pluralidad de clasificadores y un selector. Cada uno de los clasificadores implementa una función de discriminación que se basa en una expansión polinómica. Determinando los coeficientes polinómicos de una función de discriminación se afina el clasificador correspondiente para clasificar un sonido específico pronunciado. El selector utiliza las salidas del clasificador para identificar los sonidos pronunciados. También se muestra un procedimiento para usar el sistema.

También llama la atención el documento EP-A-5 091 947, que se refiere a un aparato de reconocimiento de voz que incluye una memoria de coeficientes para almacenar al menos un coeficiente para corregir un grado de similitud que se obtiene bien mediante reconocimiento independiente del hablante o bien mediante el reconocimiento dependiente del hablante. El aparato incluye un circuito de identificación de voz para comparar los grados de similitud de los candidatos, obtenidos bien mediante el reconocimiento independiente del hablante o bien mediante el reconocimiento dependiente del hablante, con grados corregidos de similitud de los candidatos en relación con otro tipo de reconocimientos que se obtienen realizando una operación predeterminada con el grado de similitud de cada candidato que se suministra desde otro tipo de reconocimiento. Entonces la identificación de voz selecciona el candidato que tiene el mayor grado de similitud para que sea el resultado de la identificación.

De acuerdo con la presente invención, se suministran un procedimiento para realizar un reconocimiento de voz, tal como se pone de manifiesto en la reivindicación 1, y un aparato para realizar un reconocimiento de voz, tal como se pone de manifiesto en la reivindicación 5. Realizaciones de la presente invención se reivindican en las reivindicaciones dependientes.

Los procedimientos y aparatos descritos en este documento están dirigidos a un sistema de reconocimiento de voz (VR) mejorado novedoso que utiliza una combinación de modelos acústicos independientes del hablante (SI) y dependientes del hablante (SD). Al menos se usa un modelo acústico SI en combinación con al menos un modelo acústico SD para proporcionar un nivel funcionamiento de reconocimiento de voz que sea igual al menos que el de un modelo acústico puramente SI. El sistema híbrido descrito VR SI/SD usa de manera continua formación no supervisada para actualizar las plantillas acústicas de uno o más modelos acústicos SD. El sistema híbrido VR usa después los modelos acústicos SD actualizados, solos o en combinación con al menos un modelo acústico SI, para proporcionar un funcionamiento VR mejorado durante la prueba de VR.

La palabra "ejemplar" se usa en este documento para significar "sirviendo como un ejemplo, caso o ilustración". Cualquier realización descrita como una "realización ejemplar" no se va a construir necesariamente como la preferida o con ventajas con respecto a otra realización.

Breve descripción de los dibujos

Las características, objetos y ventajas del procedimiento y del aparato descritos en este momento serán más aparentes a partir de la siguiente descripción detallada tomada junto con los dibujos en los que idénticos caracteres de referencia identifican de manera correspondiente en todo el documento y en la que:

La figura 1 muestra un sistema básico de reconocimiento de voz;

La figura 2 muestra un sistema de reconocimiento de voz de acuerdo con una realización ejemplar;

La figura 3 muestra un procedimiento para realizar la formación no supervisada.

La figura 4 muestra un enfoque ejemplar para generar una referencia de casación combinada usada en la formación no supervisada.

La figura 5 es un diagrama de flujo que muestra un procedimiento para realizar el reconocimiento de voz (prueba) usando referencias de casación independientes del hablante (SI) y dependientes del hablante (SD);

La figura 6 muestra un enfoque para generar una referencia de casación combinada a partir tanto de referencias de casación independientes del hablante (SI) como dependientes del hablante (SD); y

Descripción detallada

La figura 2 muestra una realización ejemplar de un sistema de reconocimiento de voz (VR) híbrido como se podría implementar dentro de una estación remota sin hilos 202. En una realización ejemplar, la estación remota 202 comunica a través de un canal sin hilos (que no se muestra) con una red de comunicaciones sin hilos (que no se muestra). Por ejemplo, la estación remota 202 puede ser un teléfono sin hilos que comunique con un sistema de teléfono sin hilos. Alguien que sea experto en la técnica reconocerá que las técnicas descritas en este documento se pueden aplicar de igual manera a un sistema VR que sea fijo (no portátil) o no implique un canal sin hilos.

En la realización mostrada, las señales de voz de un usuario se convierten a señales eléctricas en un micrófono (MIC) 210 y se convierten a muestras digitales de voz en un conversor analógico a digital (ADC) 212. El flujo de muestras digitales se filtra después usando un filtro de preénfasis (PE) 214, por ejemplo un filtro de respuesta finita al impulso (FIR) que atenúa las componentes de la señal de baja frecuencia.

Las muestras filtradas se analizan después en una unidad de extracción de la característica acústica (AFE) 216. La unidad AFE 216 convierte las muestras digitales de voz en vectores de característica acústica. En la realización ejemplar, la unidad AFE 216 realiza una transformada de Fourier sobre un segmento de muestras digitales consecutivas para generar un vector de intensidades de la señal correspondiente a diferentes compartimentos de frecuencia. En una realización ejemplar, los compartimentos de frecuencia tienen anchos de banda variables de acuerdo con una escala de tono de voz. En una escala de tono de voz, el ancho de banda de cada compartimento de frecuencia soporta una relación respecto a la frecuencia central del compartimento, de forma que los compartimentos de frecuencia más alta tienen bandas de frecuencia más anchas que los compartimentos de frecuencia más baja. La escala de tono de voz se describe en Rabiner, L. R. y Juang, B. H., "Fundamentos del reconocimiento de voz", Prentice-Hall, 1993 y es bien conocida en la técnica.

En una realización ejemplar, cada vector de característica acústica se extrae de una serie de muestras de voz recogidas sobre un intervalo de tiempo fijo. En una realización ejemplar, estos intervalos de tiempo se solapan. Por ejemplo, las características acústicas se pueden obtener a partir de intervalos de 20 ms de datos de voz que comienzan cada diez milisegundos, de forma que cada dos intervalos consecutivos comparten un segmento de 10 ms. Alguien que sea experto en la técnica reconocería que en lugar de esto, los intervalos de tiempo podrían no ser solapantes o podrían tener una duración no fijada sin salirse del alcance de las realizaciones descritas en este documento.

Los vectores de característica acústica generados por la unidad AFE 216 se entregan a un motor VR 220, que realiza la casación de patrones para caracterizar el vector de característica acústica en base al contenido de uno o más modelos acústicos, 230, 232 y 234.

En la realización ejemplar mostrada en la figura 2, se muestran tres modelos acústicos: un modelo de Markov Oculto (HMM) independiente del hablante 230, un modelo de Distorsión Dinámica en el Tiempo (DTW) independiente del hablante 232, y un modelo acústico dependiente del hablante (SD) 234. Alguien que sea experto en la técnica reconocerá que se pueden usar diferentes combinaciones de modelos acústicos SI en realizaciones alternativas. Por ejemplo, una estación remota 202 podría incluir solamente el modelo acústico SIHMM 230 y el modelo acústico SD 234 y omitir el modelo acústico SIDTW 232. De manera alternativa, una estación remota 202 podría incluir un único modelo acústico SIHMM 230, un modelo acústico SD 234 y dos modelos acústicos SIDTW diferentes 232. Además, alguien que sea experto en la técnica reconocerá que el modelo acústico SD 234 puede ser del tipo HMM o del tipo DTW o una combinación de los dos. En la realización ejemplar, el modelo acústico SD 234 es un modelo acústico DTW.

Como se ha descrito anteriormente, el motor VR 220 realiza una casación de patrones para determinar el grado de coincidencia entre los vectores de característica acústica y el contenido de uno o más modelos acústicos 230, 232 y 234. En una realización ejemplar, el motor VR 220 genera referencias de casación en base a la casación de los vectores de característica acústica con las diferentes plantillas acústicas de cada uno de los modelos acústicos 230, 232 y 234. Por ejemplo, el motor VR 220 genera referencias de casación HMM en base a un conjunto de vectores de característica acústica con múltiples plantillas HMM en el modelo acústico SIHMM 230. Igualmente, el motor 220 genera referencias de casación DTW en base a la casación de los vectores de característica acústica con múltiples plantillas DTW en el modelo acústico SIDTW 232. El motor VR 220 genera referencias de casación en base a la casación de los vectores de característica acústica con las plantillas del modelo acústico SD 234.

Como se ha descrito anteriormente, cada plantilla del modelo acústico está asociada con una clase de forma de pronunciación. En una realización ejemplar, el motor VR 220 combina referencias para las plantillas asociadas con la misma clase de forma de pronunciación para crear una referencia de casación combinada para su uso en la formación sin supervisión. Por ejemplo, el motor VR 220 combina referencias SIHMM y SIDTW obtenidas a partir de la correlación de un conjunto de entrada de vectores de característica acústica para generar una referencia SI combinada. En base a esa referencia de casación combinada, el motor VR 220 determina si almacenar o no el conjunto de entrada de vectores de característica acústica como una plantilla SD del modelo acústico SD 234. En una realización ejemplar, la formación sin supervisión para actualizar el modelo acústico SD se realiza usando exclusivamente referencias de casación SI. Esto evita errores aditivos que en cualquier otro caso podrían resultar de usar un modelo acústico SD evolutivo 234 para la autoformación sin supervisión. A continuación se describe con mayor detalle un procedimiento ejemplar para realizar esta formación sin supervisión.

Además de la formación sin supervisión, el motor VR 220 usa los distintos modelos acústicos (230, 232, 234) durante la prueba. En una realización de ejemplo, el motor VR 220 recupera las referencias de casación de los modelos acústicos (230, 232, 234) y genera referencias de casación combinadas para cada clase de forma de pronunciación. Las referencias de casación combinadas se usan para seleccionar la clase de forma de pronunciación que mejor se adapta a la voz de entrada. El motor VR 220 agrupa las clases de forma de pronunciación consecutivas juntas según sea necesario para reconocer palabras o frases completas. El motor VR 220 proporciona entonces información acerca de la palabra o la frase reconocida a un procesador de control 222, que usa la información para determinar la respuesta apropiada a la información u orden de voz. Por ejemplo, en respuesta a la palabra o frase reconocida, el procesador de control 222 puede proporcionar realimentación al usuario a través de una pantalla o de otra interfaz de usuario. En otro ejemplo, el procesador de control 222 puede enviar un mensaje a través de un módem sin hilos 218 y una antena 224 a una red sin hilos (que no se muestra), iniciando una llamada de un teléfono móvil a un número de teléfono de destino asociado con la persona cuyo nombre fue pronunciado y reconocido.

El módem sin hilos 218 puede transmitir señales a través de una variedad de tipos de canal incluyendo CDMA, TDMA o FDMA. Además, el módem sin hilos 218 puede ser sustituido con otros tipos de interfaces de comunicaciones que comunican sobre un canal sin hilos sin salirse del alcance de las realizaciones descritas. Por ejemplo, la estación remota 202 puede transmitir información de señalización a través de cualquiera de una variedad de tipos de canal de comunicaciones incluyendo módems de línea terrestre, T1/E1, RDSI, DSL, Ethernet o incluso pistas sobre una placa de circuito impreso (PCB).

La figura 3 es un diagrama de flujo que muestra un procedimiento ejemplar para realizar formación sin supervisión. En el paso 302, se muestrean datos analógicos de voz en un conversor analógico a digital (ADC) (212 en la figura 2). La muestra digital se filtra después en el paso 304 usando un filtro de de énfasis (PE) (214 en la figura 2). En el paso 306, se extraen los vectores de característica acústica de entrada de las muestras filtradas en una unidad de extracción de característica acústica (AFE) (216 en la figura 2). El motor VR (220 de la figura 2) recibe los vectores de característica acústica de entrada desde la unidad AFE 216 y realiza la casación de patrones de los vectores de característica acústica de entrada frente al contenido de los modelos acústicos SI (230 y 232 de la figura 2). En el paso 308, el motor VR 220 genera referencias de casación a partir de los resultados de la casación de patrones. El motor VR 220 genera referencias de casación SIHMM mediante la casación de los vectores de característica acústica de entrada con el modelo acústico SIHMM 230, y genera referencias de casación SIDTW mediante la casación de los vectores de característica acústica de entrada con el modelo acústico SIDTW 232. Cada plantilla acústica en los modelos acústicos SIHMM y SIDTW (230 y 232) está asociada con una clase de forma de pronunciación particular. En el paso 310, las referencias SIHMM y SIDTW se combinan para formar referencias de casación combinadas.

La figura 4 muestra la generación de referencias de casación combinadas para su uso en formación sin supervisión. En la realización de ejemplo mostrada, la referencia de casación combinada independiente del hablante S_{COMB\_SI} para una clase particular de forma de pronunciación es una suma ponderada de acuerdo con la ecuación 1, como se muestra, en la que:

: SIHMM_{T} es la referencia de casación SIHMM para la clase de forma de habla objetivo;

: SIHMM_{NT} es la siguiente mejor referencia de casación para una plantilla en el modelo acústico SIHMM que está asociada con una clase de forma de pronunciación no objetivo (una clase de forma de pronunciación distinta a la clase de forma de pronunciación objetivo);

: SIHMM_{G} es la referencia de casación SIHMM para la clase de forma de pronunciación "inservible";

: SIDTW_{T} es la referencia de casación para la clase de forma de pronunciación objetivo;

: SIDTW_{NT} es la siguiente mejor referencia de casación para una plantilla del modelo acústico SIDTW que está asociada con una clase de forma de habla no objetivo; y

: SIDTW_{G} es la referencia de casación SIDTW para la clase de forma de pronunciación "inservible".

Las distintas referencias de casación individuales SIHMM_{n} y SIDTW_{n} pueden verse como representantes de un valor de distancia entre una serie de vectores de característica acústica de entrada y una plantilla del modelo acústico. Cuando mayor es la distancia entre los vectores de característica acústica de entrada y una plantilla, mayor es la referencia de casación. Una coincidencia próxima entre una plantilla y los vectores de característica acústica de entrada produce una referencia de casación muy baja. Si se compara una serie de vectores de característica acústica de entrada a dos plantillas asociadas con diferentes clases de forma de pronunciación, se producen dos referencias de casación que son casi iguales; entonces el sistema VR puede ser incapaz de reconocer qué clase de forma de pronunciación es la "correcta".

SIHMM_{G} y SIDTW_{G} son referencias de casación para las clases de forma de pronunciación "inservible". La plantilla o las plantillas asociadas con la clase de forma de pronunciación inservible se denominan plantillas de información inservible y no corresponden a una palabra o frase específica. Por esta razón, tienden a estar igualmente incorreladas con respecto a toda la voz de entrada. Las referencias de casación de información inservible son útiles como una clasificación de medida de fondo de ruido en un sistema VR. Generalmente, una serie de vectores de característica acústica de entrada debería tener un mejor grado de casación con una plantilla asociada con una clase de forma de pronunciación objetivo que con la plantilla de información inservible antes de que se reconozca de una manera más segura la clase de forma de pronunciación.

Antes de que el sistema VR pueda reconocer de manera más segura una clase de forma de pronunciación como la "correcta", los vectores de característica acústica de entrada deberían tener un grado más alto de coincidencia con las plantillas asociadas con esa clase de forma de pronunciación que con las plantillas de de información inservible o con las plantillas asociadas con otras clases de forma de pronunciación. Las referencias de casación combinadas generadas a partir de una variedad de modelos acústicos pueden discriminar de manera más segura entre clases de forma de pronunciación que las referencias de casación basadas solamente en un modelo acústico. En una realización ejemplar, el sistema VR usa dichas referencias de casación combinadas para determinar si sustituir una plantilla en el modelo acústico SD (234 en la figura 2) con una derivada a partir de un nuevo conjunto de vectores de característica acústica de entrada.

Los factores de ponderación (W_{1}, ..., W_{6}) se seleccionan para proporcionar el mejor funcionamiento de formación sobre todos los entornos acústicos. En una realización ejemplar, los factores de ponderación (W_{1}, ..., W_{6}) son constantes para las clases de forma de pronunciación. En otras palabras, los W_{n} usados para crear la referencia de casación combinada para una primera clase de forma de pronunciación objetivo es la misma que el valor W_{n} usado para crear la referencia de casación combinada para otra clase de forma de pronunciación objetivo. En una realización alternativa, los factores de ponderación están muy basados en la clase de forma de pronunciación objetivo. En la figura 4 se muestran otras maneras de combinación que serán obvias para alguien que sea experto en la técnica, y se deben ver como dentro del alcance de las realizaciones descritas en este documento. Por ejemplo, se pueden usar más de seis o menos de seis entradas ponderadas. Otra variación obvia sería para generar una referencia de casación combinada basada en un tipo de modelo acústico. Por ejemplo, se podría generar una referencia de casación combinada en base a SIHMM_{T}, SIHMM_{NT}, SIHMM_{G}. O se podría generar una referencia de casación combinada en base a SIDTW_{T}, SIDTW_{NT}, SIDTW_{G}.

En una realización ejemplar, W_{1} y W_{4} son números negativos, y un valor mayor (o menos negativo) de S_{COMB} indica un mayor grado de coincidencia (distancia menor) entre una clase de forma de pronunciación objetivo y una serie de vectores de característica acústica de entrada. Alguien que sea experto en la técnica apreciará que los signos de los factores de ponderación pueden ser fácilmente reconfigurados de forma que un grado mayor de coincidencia corresponda con un valor menor sin salirse del alcance de las realizaciones descritas.

Volviendo de nuevo a la figura 3, en el paso 310, las referencias de casación combinadas se generan para las clases de forma de pronunciación asociadas con las plantillas de los modelos acústicos HMM y DTW (230 y 232). En una realización ejemplar, referencias de casación se generan solamente para las clases de forma de pronunciación asociadas con las mejores n referencias de casación SIHMM y para las clases de forma de pronunciación asociadas con las mejores m referencias de casación SIDTW. Este límite puede ser deseable para conservar los recursos de cómputo, incluso aunque se consuma una cantidad mucho mayor de potencia de cómputo a la vez que se generan las referencias de casación individuales. Por ejemplo, si n = m = 3, las referencias de casación combinados se generan para las clases de forma de pronunciación asociadas con los tres SIHMM superiores y las clases de forma de pronunciación asociadas con las tres referencias de casación SIDTW superiores. Dependiendo de si las clases de forma de pronunciación asociadas con las tres referencias de casación superiores SIHMM son los mismos que las clases de forma de pronunciación asociadas con las tres referencias de casación superiores SIDTW, esta aproximación producirá tres a seis referencias de casación combinados diferentes.

En el paso 312, la estación remota 202 compara las referencias de casación combinadas con las referencias de casación combinadas almacenadas con las correspondientes plantillas (asociadas con la misma clase de forma de pronunciación) en el modelo acústico SD. Si la nueva serie de vectores de característica acústica de entrada tiene un grado mayor de coincidencia que los de la plantilla más antigua almacenada en el modelo SD para la misma clase de forma de pronunciación, entonces se genera una nueva plantilla SD a partir de la nueva serie de vectores de característica acústica de entrada. En una realización en la que un modelo acústico SD sea un modelo acústico DTW, la serie de vectores de característica acústica de entrada por sí sola constituye la nueva plantilla SD. La vieja plantilla se sustituye entonces con la nueva plantilla y la referencia de casación combinada asociada con la nueva plantilla se almacena en el modelo acústico SD para su uso en comparaciones futuras.

En una realización alternativa, la formación sin supervisión se usa para actualizar una o más plantillas en un modelo acústico de Markov Oculto dependiente del hablante (SDHMM). Este modelo acústico SDHMM se podría usar o en lugar de un modelo SDHMM o además de un modelo acústico SDDTW dentro del modelo acústico SD 234.

En una realización ejemplar, la casación en el paso 312 incluye también la comparación de la referencia de casación combinada de una nueva plantilla SD probable con un umbral de formación constante. Incluso si no hubiese ninguna plantilla almacenada en un modelo acústico SD para una clase de forma de pronunciación particular, no se almacenará una nueva plantilla en el modelo acústico SD a menos que haya una referencia de casación combinada que sea mejor (indicativo de un grado mayor de coincidencia) que el valor umbral de formación.

En una realización alternativa, antes de que se haya sustituido cualquier plantilla del modelo acústico SD, el modelo acústico SD se puebla por defecto con plantillas del modelo acústico SI. Dicha inicialización proporciona una aproximación alternativa para asegurar que el funcionamiento VR que usa el modelo acústico SD comienza al menos tan bien como el funcionamiento VR que usa solamente el modelo acústico SI. Cuantas más plantillas del modelo acústico SD se actualicen, el funcionamiento VR que use el modelo acústico SD sobrepasará el funcionamiento VR que usa sólo el modelo acústico SI.

En una realización alternativa, el sistema VR permite a un usuario realizar la formación supervisada. El usuario debe poner al sistema VR en un modo de formación supervisada antes de realizar dicha formación supervisada. Durante la formación supervisada, el sistema VR tiene un conocimiento a priori de la clase de forma de pronunciación correcta. Si la referencia de casación combinada para la voz de entrada es mejor que la referencia de casación combinada para la plantilla SD anteriormente almacenada para esa clase de forma de pronunciación, entonces la voz de salida se usa para formar una plantilla SD sustituta. En una realización alternativa, el sistema VR permite al usuario forzar la sustitución de las plantillas SD existentes durante la formación supervisada.

El modelo acústico SD puede ser diseñado con espacio para múltiples (dos o más) plantillas para una única clase de forma de pronunciación. En una realización ejemplar, se almacenan dos plantillas en el modelo acústico SD para cada clase de forma de pronunciación. La comparación en el paso 312 supone por lo tanto la comparación de la referencia de casación obtenida con una nueva plantilla con las referencias de casación obtenidas para ambas plantillas en el modelo acústico SD para la misma clase de forma de pronunciación. Si la nueva plantilla tiene una mejor referencia de coincidencia que cualquiera de las antiguas plantillas del modelo acústico SD, entonces en el paso 314 la plantilla del modelo acústico SD que tenga la peor referencia de coincidencia es sustituida por la nueva plantilla. Si la referencia de casación de la nueva plantilla no es mejor que cualquier plantilla antigua, entonces se omite el paso 314. De manera adicional, en el paso 312, la referencia de casación obtenida con la nueva plantilla se compara con un umbral referencia de casación. Así, hasta que se almacenen en el modelo acústico SD nuevas plantillas que tengan una referencia de casación que sea mejor que el umbral, las nuevas plantillas son casadas frente a este valor umbral antes de que sean usadas para sobrescribir el contenido anterior del modelo acústico SD. Se anticipan y se consideran dentro del alcance de las realizaciones descritas en este documento variaciones obvias, tales como el almacenamiento de las plantillas del modelo acústico SD en orden clasificado de acuerdo con la referencia de casación combinada y la comparación de nuevas referencias de casación solamente con las referencias más bajas. También se anticipan variaciones obvias acerca de los números de plantillas almacenadas en el modelo acústico para cada clase de forma de pronunciación. Por ejemplo, el modelo acústico SD puede contener más de dos plantillas para cada clase de forma de pronunciación, o puede contener diferentes números de plantillas para diferentes clases de formas de habla.

La figura 5 es un diagrama de flujo que muestra un procedimiento ejemplar para realizar la prueba VR usando una combinación de modelos acústicos SI y SD. Los pasos 302, 304, 306 y 308 son los mismos que los descritos para la figura 3. El procedimiento ejemplar se diferencia del procedimiento mostrado en la figura 3 en el paso 510. En el paso 510, el motor VR 220 genera referencias de casación SD basadas en la comparación de los vectores de característica acústica de entrada con las plantillas del modelo acústico SD. En una realización ejemplar, las referencias de casación SD se generan solamente para las clases de forma de pronunciación asociadas con las n mejores referencias de casación SIHMM y las m mejores referencias de casación SIDTW. En una realización ejemplar, n = m = 3. Dependiendo del grado de solapamiento entre los dos conjuntos de clases de formas de habla, esto dará como resultado la generación de referencias de casación SD para tres o seis clases de formas de habla. Como se ha tratado con anterioridad, el modelo acústico SD puede contener múltiples plantillas para una clase de forma de pronunciación única. En el paso 512, el motor VR 220 genera referencias de casación combinados híbridos para su uso en la prueba VR. En una realización ejemplar, estas referencias de casación combinadas híbridas se basan tanto en las referencias de casación SI como en las referencias de casación SD. En el paso 514, selecciona la palabra o la forma de pronunciación que tiene la mejor referencia de casación combinada y se compara frente al umbral de prueba. Una forma de pronunciación solamente se considera como reconocida si su referencia de casación combinada sobrepasa este umbral. En una realización ejemplar, los pesos [W_{1}, ..., W_{6}] usados para generar referencias combinadas para la formación (como se muestra en la figura 4) son iguales a los pesos [W_{1}, ..., W_{6}] usados para generar referencias combinadas para prueba (como se muestra en la figura 6), pero el umbral de formación no es igual al umbral de prueba.

La figura 6 muestra la generación de referencias de casación combinadas híbridos realizada en el paso 512. La realización ejemplar mostrada funciona de manera idéntica al combinador mostrado en la figura 4, excepto que el factor de ponderación W_{4} se aplica a DTW_{T} en lugar de a SIDTW_{T} y el factor de ponderación W_{5} se aplica a DTW_{NT} en lugar de SIDTW_{NT}. DTW_{T} (la referencia de casación de Distorsión Dinámica en el Tiempo para la clase de forma de pronunciación objetivo) se selecciona a partir de la mejor referencia, SIDTW y SDDTW asociados con la clase de forma de pronunciación objetivo. De manera similar, DTW_{NT} (la referencia de casación de Distorsión Dinámica en el Tiempo para las restantes clases de forma de pronunciación no objetivo) se selecciona a partir de las mejores referencias SIDTW y SDDTW asociados con clases de forma de pronunciación no objetivo.

La referencia híbrida SI/SD S_{COMB_H} para una clase de forma de pronunciación particular es una suma ponderada de acuerdo con la ecuación 2, como se muestra, donde SIHMM_{T}, SIHMM_{NT}, SIHMM_{G} y SIDTW_{G} son los mismos que en la ecuación 1. De manera específica, en la ecuación 2:

: DTW_{T} es la mejor referencia de casación DTW para las plantillas SI y SD correspondientes a las clases de forma de pronunciación objetivo;

: DTW_{NT} es la mejor referencia de casación DTW para las plantillas SI y SD correspondientes a las clases de forma de pronunciación no objetivo; y

De esta forma, la referencia híbrida SI/SD S_{COM_H} es una combinación de referencias de casación SI y SD individuales. La referencia de casación de combinación resultante no depende enteramente de ninguno de los modelos acústicos SI o SD. Si la referencia de casación SIDTW_{T} es mejor que cualquier referencia SDDTW_{T}, entonces la referencia híbrida SI/SD se calcula a partir de la mejor referencia SIDTW_{T}. De manera similar, si la referencia de casación SDDTW_{T} es mejor que cualquier referencia SIDTW_{T}, entonces la referencia híbrida SI/SD se calcula a partir de la mejor referencia SDDTW_{T}. Como resultado de esto, si la plantilla en el modelo acústico SD produce referencias de casación pobres, el sistema VR puede reconocer aún la voz de entrada en base a las partes SI de las referencias híbridas SI/SD. Dichas referencias de casación SD pobres podrían tener una variedad de causas incluyendo diferencias entre entornos acústicos durante la formación y las pruebas o quizá una entrada de pobre calidad usada para formación.

En una realización alternativa, la referencias SI son ponderadas de una manera menos pesada que las referencias SD, o incluso pueden ser ignoradas por completo. Por ejemplo, DTW_{T} se selecciona de las mejores referencias SDDTW asociados con la clase de forma de pronunciación objetivo, ignorando las referencias SIDTW para la clase de forma de pronunciación objetivo. También, DTW_{T} se puede seleccionar a partir de las mejores referencias SIDTW o SDDTW asociados con clases de forma de pronunciación no objetivo, en lugar de usar ambos conjuntos de referencias.

Aunque la realización ejemplar se describe usando solamente modelos acústicos SDDTW para modelado dependiente del hablante, la aproximación híbrida descrita en este documento es igualmente aplicable a un sistema VR que use modelos acústicos SDHMM o incluso una combinación de modelos acústicos SDDTW y SDHMM. Por ejemplo, mediante la modificación de la aproximación mostrada en la figura 6, el factor de ponderación W_{1} se podría aplicar a una referencia de casación seleccionado de las mejores referencias SIHMM_{T} y SDHMM_{T}. El factor de ponderación W_{2} se podría aplicar a una referencia de casación seleccionada de las mejores referencias SIHMM_{NT} y SDHMM_{NT}.

De esta forma, se describe en el presente documento un procedimiento y un aparato VR que utilizan una combinación de modelos acústicos SI y SD para el funcionamiento mejorado VR durante la formación sin supervisión y la prueba. Los que sean expertos en la técnica comprenderían que la información y las señales pueden ser representadas usando cualquiera de una variedad de diferentes tecnologías y técnicas. Por ejemplo, datos, instrucciones, órdenes, información, señales, bits, símbolos y segmentos a los que se puede hacer referencia a lo largo de toda la descripción anterior, pueden ser representados por medio de tensiones, corrientes, ondas electromagnéticas, campos magnéticos o partículas magnéticas, campos ópticos o partículas ópticas o cualquier combinación de los mismos. También, aunque las realizaciones se describen en primer lugar en términos de modelos acústicos tales como el modelo de Distorsión Dinámica en el Tiempo (DTW) o el modelo de Markov Oculto (HMM), las técnicas descritas se pueden aplicar a otros tipos de modelos acústicos tales como modelos acústicos de redes neuronales.

Los expertos en la técnica apreciarán además que los varios bloques lógicos, módulos, circuitos y pasos de algoritmo ilustrativos descritos junto con las realizaciones descritas en este documento se pueden implementar como hardware electrónico, software de ordenador o una combinación de ambos. Para ilustrar de manera clara esta capacidad de intercambio entre hardware y de software, se han descrito varios componentes, bloques, módulos, circuitos y pasos ilustrativos, anteriormente generalmente en términos de su funcionalidad. Si se implementa dicha funcionalidad como hardware o software, dependerá de la aplicación particular y de las restricciones del diseño impuestas sobre el sistema global. Los expertos pueden implementar la funcionalidad descrita de varias maneras para cada aplicación particular, pero dichas decisiones de implementación no se deberían interpretar como causantes de una salida del alcance de la presente invención.

Los varios bloques lógicos, módulos y circuitos ilustrativos descritos junto con las realizaciones descritas en este documento se pueden implementar o realizar con un procesador de propósito general, un procesador digital de la señal (DSP), un circuito integrado específico de la aplicación (ASIC), una matriz de puertas programable en campo (FPGA) u otro dispositivo lógico programable, puerta discreta o lógica de transistores, componentes hardware discretos o cualquier combinación de los mismos diseñada para realizar las funciones descritas en este documento. Un procesador de propósito general puede ser un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador convencional, controlador, microcontrolador o máquina de estados. Un procesador también se puede implementar como una combinación de dispositivos de computación, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo DSP o cualquier otra de tales configuraciones.

Los pasos de un procedimiento o algoritmo descrito junto con las realizaciones descritas en este documento se pueden realizar directamente en hardware, en un módulo software ejecutado por un procesador o en una combinación de los dos. Un módulo software puede residir en memoria RAM, en memoria instantánea, en memoria ROM, en memoria EPROM, en memoria EEPROM, en registros, en disco duro, en un disco extraíble, en un CD-ROM o en cualquier otro formato de medio de almacenamiento conocido en la técnica. Un medio de almacenamiento ejemplar se acopla al microprocesador de forma que el microprocesador pueda leer la información de, y escribir información en el medio de almacenamiento. En la alternativa, el medio de almacenamiento puede estar integrado en el procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. En la alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.

La descripción anterior de las realizaciones descritas se proporciona para hacer posible a una persona experta en la técnica el que haga uso de la presente invención. Varias modificaciones a estas realizaciones serán rápidamente aparentes para los expertos en la técnica, y los principios genéricos definidos en este documento se pueden aplicar a otras realizaciones sin salirse del ámbito de la invención. De esta manera no se pretende que la presente invención esté limitada a las realizaciones mostradas en este documento, sino que esté de acuerdo con el ámbito más amplio consecuente con los principios y características novedosas descritas en el presente documento.

Claims

1. Un procedimiento para realizar un entrenamiento no supervisado para el reconocimiento de voz, que comprende:

la realización de la casación (308) de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de una pluralidad de modelos independientes del hablante para producir una pluralidad puntuaciones de concordancia del patrón de entrada y para determinar una respectiva clase de locución reconocida;

la combinación de la pluralidad de puntuaciones de concordancia asociadas con la misma clase de locución para generar una puntuación de concordancia combinada;

la comparación (312) de la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida;

si la puntuación combinada es mejor que la puntuación de concordancia del patrón, la sustitución (314) de la plantilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y la sustitución de la puntuación de concordancia del modelo asociada con la plantilla acústica almacenada del modelo dependiente del hablante con la puntuación combinada asociada con la nueva plantilla.

2. El procedimiento de la reivindicación 1, en el que dicha realización de la casación de patrones comprende además:

la ejecución de una casación (308) de un patrón de un modelo de Markov Oculto (HMM) del primer segmento de entrada de voz con al menos una plantilla de HMM para generar al menos una puntuación de concordancia del
HMM;

la ejecución de una casación (308) de un patrón de distorsión dinámica en el tiempo (DTW) del primer segmento de entrada de voz con al menos una plantilla de DTW para generar al menos una puntuación de concordancia de DTW; y

la realización de al menos una suma ponderada (310) de dicha o dichas puntuaciones de concordancia de HMM y de dicha o dichas puntuaciones de concordancia de DTW para generar dicha o dichas puntuaciones de concordancia del patrón de entrada.

3. El procedimiento de la reivindicación 1, que comprende además:

la ejecución (308) de una casación de un patrón de un segundo segmento de entrada de voz con al menos una plantilla acústica independiente del hablante para generar al menos una puntuación de concordancia independiente del hablante;

la ejecución (510) de una casación de un patrón del segundo segmento de entrada de voz con la plantilla acústica almacenada para generar una puntuación de concordancia dependiente del hablante; y

la combinación (512) de al menos una puntuación de concordancia independiente del hablante con la puntuación de la concordancia dependiente del hablante para generar al menos una puntuación de concordancia combinada.

4. El procedimiento de la reivindicación 3, que comprende además la identificación de una clase de locución asociada con la mejor de las puntuaciones de concordancia combinadas.

5. Un aparato (202) para realizar un entrenamiento no supervisado para el reconocimiento de voz que comprende:

medios para realizar la casación de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de la pluralidad de modelos independientes del hablante para producir una pluralidad de puntuaciones de concordancia del patrón y para determinar una respectiva clase de locución reconocida;

medios para combinar una pluralidad de puntuaciones de concordancia de patrones de entrada asociadas con la misma clase de locución para generar una puntuación de concordancia combinada;

medios para comparar la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida:

medios para sustituir la platilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y para sustituir la puntuación de concordancia del patrón asociada con la plantilla acústica almacenada del modelo dependiente del hablante con al menos una puntuación de concordancia del patrón de entrada con la nueva plantilla, en el que la plantilla acústica almacenada y la puntuación de concordancia del patrón son sustituidas si la puntuación combinada es mejor que la puntuación de concordancia del patrón.