ES2330857T3 - Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. - Google Patents

Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. Download PDF

Info

Publication number
ES2330857T3
ES2330857T3 ES05025989T ES05025989T ES2330857T3 ES 2330857 T3 ES2330857 T3 ES 2330857T3 ES 05025989 T ES05025989 T ES 05025989T ES 05025989 T ES05025989 T ES 05025989T ES 2330857 T3 ES2330857 T3 ES 2330857T3
Authority
ES
Spain
Prior art keywords
acoustic
template
speaker
matching
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES05025989T
Other languages
English (en)
Inventor
Narendranath Malayath
Andrew P. Dejaco
Chienchung Chang
Suhail Jalil
Bi Ning
Harinath Garudadri
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2330857T3 publication Critical patent/ES2330857T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

Un procedimiento para realizar un entrenamiento no supervisado para el reconocimiento de voz, que comprende: la realización de la casación (308) de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de una pluralidad de modelos independientes del hablante para producir una pluralidad puntuaciones de concordancia del patrón de entrada y para determinar una respectiva clase de locución reconocida; la combinación de la pluralidad de puntuaciones de concordancia asociadas con la misma clase de locución para generar una puntuación de concordancia combinada; la comparación (312) de la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida; si la puntuación combinada es mejor que la puntuación de concordancia del patrón, la sustitución (314) de la plantilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y la sustitución de la puntuación de concordancia del modelo asociada con la plantilla acústica almacenada del modelo dependiente del hablante con la puntuación combinada asociada con la nueva plantilla.

Description

Sistema de reconocimiento de voz que usa adaptación implícita del que habla.
Antecedentes Campo
La presente invención se refiere al procesado de señal de voz. De manera particular, la presente invención se refiere a un procedimiento y a un aparato novedosos de reconocimiento de voz para conseguir el funcionamiento mejorado a través de una formación sin supervisión.
Antecedentes
El reconocimiento de voz representa una de las técnicas más importantes para dotar a una máquina con inteligencia simulada para reconocer órdenes habladas del usuario y para facilitar la interfaz humana con la máquina. Los sistemas que emplean técnicas para recuperar un mensaje lingüístico a partir de una señal de voz acústica, se denominan sistemas de reconocimiento de voz (VR). La figura 1 muestra un sistema VR básico que tiene un filtro de preénfasis 102, una unidad de extracción de la característica acústica (AFE) 104 y un motor de casación de patrones 110. La unidad AFE 104 convierte una serie de muestras digitales de voz en un conjunto de valores de medida (por ejemplo, las componentes de frecuencia extraídas) denominadas un vector de característica acústica. El motor de casación de patrones 110 casa una serie de vectores de característica acústica con las plantillas contenidas en el modelo acústico VR 112. Los motores de adaptación de patrones VR emplean por lo general técnicas de distorsión dinámica en el tiempo (DTW) o el Modelo de Markov Oculto (HMM). Tanto DTW como HMM son bien conocidas en la técnica y se describen con detalle en Rabiner, L. R. y Juang, B. H. "Fundamentos del reconocimiento de voz", Prentice-Hall, 1993. Cuando una serie de características acústicas coincide con una plantilla del modelo acústico 112, la plantilla identificada se usa para generar un formato de salida deseado, tal como una secuencia identificada de palabras lingüísticas correspondientes a la voz de entrada.
Como se ha hecho notar anteriormente el modelo acústico 112 generalmente es un modelo HMM o un modelo DTW. Se puede pensar en un modelo acústico DTW como en una base de datos de plantillas asociadas con cada una de las palabras que necesitan ser reconocidas. En general, una plantilla DTW consiste en una secuencia de vectores de característica que han sido promediados sobre muchas muestras de la palabra asociada. El patrón DTW de casación generalmente implica la localización de una plantilla almacenada que tiene una distancia mínima a la secuencia del vector de característica de entrada que representa la voz de entrada. Una plantilla usada en un modelo acústico basado en HMM contiene una descripción estadística detallada de la forma de pronunciación de la voz asociada. En general, una plantilla HMM almacena una secuencia de vectores de media, vectores de varianza y un conjunto de probabilidades de transición. Estos parámetros se usan para describir las estadísticas de una unidad de voz y se estiman a partir de muchos ejemplos de la unidad de voz. El patrón de casación HMM generalmente implica la generación de una probabilidad para cada plantilla del modelo basada en una serie de vectores de característica de entrada asociados con la voz de entrada. La plantilla que tenga la probabilidad más alta se selecciona como la palabra de entrada más probable.
La "formación" se refiere al proceso de recoger muestras de voz de un segmento o sílaba particular de voz de uno o más hablantes con el fin de generar plantillas en el modelo acústico 112. Cada plantilla del modelo acústico está asociada con una palabra o segmento de voz particulares denominados una clase de forma de pronunciación. Puede haber múltiples plantillas en el modelo acústico asociadas con la misma clase de palabras. "Prueba" se refiere al procedimiento para casar las plantillas del modelo acústico con una secuencia de vectores de característica extraídos de la voz de entrada. El funcionamiento de un sistema dado depende en gran medida del grado de coincidencia entre la voz de entrada del usuario final y el contenido de la base de datos, y de esta forma de la coincidencia entre las plantillas de referencia creadas a través de la formación y las muestras de voz usadas para la prueba VR.
Los dos tipos comunes de formación son la formación supervisada y la voz no supervisada. En la formación supervisada, la clase de forma de pronunciación asociada con cada conjunto de vectores de característica de formación se conoce a priori. Al hablante que proporciona la voz de entrada a menudo se le proporciona un guión de palabras o segmentos de voz correspondientes a las clases de forma de pronunciación predeterminadas. El vector de característica resultante de la lectura del guión puede ser incorporado dentro de las plantillas del modelo acústico asociado con las clases de forma de pronunciación correctas.
En la formación no supervisada, la clase de forma de pronunciación asociada con un conjunto de vectores de característica de formación no se conoce a priori. La clase de forma de pronunciación debe ser identificada de manera correcta antes de que se pueda incorporar un conjunto de vectores de característica de formación dentro de la plantilla correcta del modelo acústico. En la formación no supervisada, un error al identificar la clase de forma de pronunciación para un conjunto de vectores de característica de formación puede conducir a una modificación de la plantilla del modelo acústico errónea. Dicho error por lo general degrada, en lugar de mejorar, el funcionamiento del reconocimiento de la voz. Con el fin de evitar dichos errores, cualquier modificación del modelo acústico basada en la formación no supervisada se debe hacer por lo general de una manera muy conservadora. Se incorpora un conjunto de vectores de característica de formación dentro del modelo acústico solamente si hay una confianza relativamente alta de que la clase de forma de pronunciación se ha identificado de manera correcta. Dicho conservadurismo necesario hace que la construcción de un modelo acústico SD a través de una formación no supervisada sea un proceso muy lento. Hasta que se construya de esta manera el modelo acústico SD, el funcionamiento VR probablemente será inaceptable para la mayoría de los usuarios.
De manera óptima, el usuario final proporciona vectores de característica acústica de voz tanto durante la formación como durante la prueba, de forma que el modelo acústico 112 coincidirá fuertemente con la voz del usuario final. Un modelo acústico individualizado que esté confeccionado para un único hablante también se denomina un modelo acústico dependiente del hablante (SD). La generación de un modelo acústico SD por lo general requiere que el usuario final proporcione una gran cantidad de muestras de formación supervisadas. Primero, el usuario debe proporcionar muestras de formación para una gran variedad de clases de formas de habla. También, con el fin de conseguir el mejor funcionamiento, el usuario final debe proporcionar múltiples plantillas, que representen una variedad de posibles entornos acústicos para cada clase de forma de pronunciación. Debido a que la mayoría de los usuarios son incapaces o están poco dispuestos a proporcionar la voz de entrada necesaria para generar un modelo acústico SD, muchos sistemas VR existentes, en lugar de esto, usan modelos acústicos generalizados que son formados usando la voz de muchos hablantes "representativos". Se hace referencia a dichos modelos acústicos como modelos acústicos independientes del hablante (SI), y están diseñados para tener el mejor funcionamiento sobre un amplio intervalo de usuarios. Los modelos acústicos SI, sin embargo, pueden no estar optimizados para un único usuario. Un sistema VR que use un modelo acústico SI no funcionará tan bien para un usuario específico como un sistema VR que use un modelo acústico SD confeccionado para ese usuario. Para algunos usuarios, tales como los que tienen acentos extranjeros fuertes, el funcionamiento de un sistema VR que use un modelo acústico SI puede ser tan pobre que no pueda usar de manera efectiva los servicios VR en absoluto.
De manera óptima, un modelo acústico SD sería generado para cada usuario independiente. Como se ha tratado con anterioridad, la construcción de modelos acústicos SD que usen formación supervisada es impracticable. Pero el uso de formación no supervisada para generar un modelo acústico SD puede llevar mucho tiempo, durante el que el funcionamiento VR basado en un modelo acústico SD parcial puede ser muy pobre. Existe una necesidad en la técnica de un sistema VR que funcione razonablemente bien antes y durante la generación de un modelo acústico SD usando la formación no supervisada.
También llama la atención en el documento EP-A-1 011 094, que se refiere a un procedimiento para evitar la adaptación a palabras no reconocidas en sistemas automáticos de reconocimiento de voz no supervisados o en línea que usan medidas de la confianza o que interpretan la reacción del usuario para decidir si un fonema, varios fonemas, una palabra, varias palabras o una locución completa que se hayan reconocido deben utilizarse o no para la adaptación del conjunto de modelos independientes del hablante a un conjunto de modelos adaptados al hablante, en el caso de que se ejecute una adaptación, cuán marcada debe realizarse la adaptación a esta locución reconocida o a una parte de esta locución reconocida. Además, se propone una verificación del rendimiento de adaptación del hablante para asegurarse de que la tasa de reconocimiento nunca descienda, sino que sólo aumente o continúe en el mismo
nivel.
El documento US-A-5 734 793 se refiere a un sistema para reconocer los sonidos pronunciados a partir de la voz continua que incluye una pluralidad de clasificadores y un selector. Cada uno de los clasificadores implementa una función de discriminación que se basa en una expansión polinómica. Determinando los coeficientes polinómicos de una función de discriminación se afina el clasificador correspondiente para clasificar un sonido específico pronunciado. El selector utiliza las salidas del clasificador para identificar los sonidos pronunciados. También se muestra un procedimiento para usar el sistema.
También llama la atención el documento EP-A-5 091 947, que se refiere a un aparato de reconocimiento de voz que incluye una memoria de coeficientes para almacenar al menos un coeficiente para corregir un grado de similitud que se obtiene bien mediante reconocimiento independiente del hablante o bien mediante el reconocimiento dependiente del hablante. El aparato incluye un circuito de identificación de voz para comparar los grados de similitud de los candidatos, obtenidos bien mediante el reconocimiento independiente del hablante o bien mediante el reconocimiento dependiente del hablante, con grados corregidos de similitud de los candidatos en relación con otro tipo de reconocimientos que se obtienen realizando una operación predeterminada con el grado de similitud de cada candidato que se suministra desde otro tipo de reconocimiento. Entonces la identificación de voz selecciona el candidato que tiene el mayor grado de similitud para que sea el resultado de la identificación.
De acuerdo con la presente invención, se suministran un procedimiento para realizar un reconocimiento de voz, tal como se pone de manifiesto en la reivindicación 1, y un aparato para realizar un reconocimiento de voz, tal como se pone de manifiesto en la reivindicación 5. Realizaciones de la presente invención se reivindican en las reivindicaciones dependientes.
Los procedimientos y aparatos descritos en este documento están dirigidos a un sistema de reconocimiento de voz (VR) mejorado novedoso que utiliza una combinación de modelos acústicos independientes del hablante (SI) y dependientes del hablante (SD). Al menos se usa un modelo acústico SI en combinación con al menos un modelo acústico SD para proporcionar un nivel funcionamiento de reconocimiento de voz que sea igual al menos que el de un modelo acústico puramente SI. El sistema híbrido descrito VR SI/SD usa de manera continua formación no supervisada para actualizar las plantillas acústicas de uno o más modelos acústicos SD. El sistema híbrido VR usa después los modelos acústicos SD actualizados, solos o en combinación con al menos un modelo acústico SI, para proporcionar un funcionamiento VR mejorado durante la prueba de VR.
La palabra "ejemplar" se usa en este documento para significar "sirviendo como un ejemplo, caso o ilustración". Cualquier realización descrita como una "realización ejemplar" no se va a construir necesariamente como la preferida o con ventajas con respecto a otra realización.
Breve descripción de los dibujos
Las características, objetos y ventajas del procedimiento y del aparato descritos en este momento serán más aparentes a partir de la siguiente descripción detallada tomada junto con los dibujos en los que idénticos caracteres de referencia identifican de manera correspondiente en todo el documento y en la que:
La figura 1 muestra un sistema básico de reconocimiento de voz;
La figura 2 muestra un sistema de reconocimiento de voz de acuerdo con una realización ejemplar;
La figura 3 muestra un procedimiento para realizar la formación no supervisada.
La figura 4 muestra un enfoque ejemplar para generar una referencia de casación combinada usada en la formación no supervisada.
La figura 5 es un diagrama de flujo que muestra un procedimiento para realizar el reconocimiento de voz (prueba) usando referencias de casación independientes del hablante (SI) y dependientes del hablante (SD);
La figura 6 muestra un enfoque para generar una referencia de casación combinada a partir tanto de referencias de casación independientes del hablante (SI) como dependientes del hablante (SD); y
Descripción detallada
La figura 2 muestra una realización ejemplar de un sistema de reconocimiento de voz (VR) híbrido como se podría implementar dentro de una estación remota sin hilos 202. En una realización ejemplar, la estación remota 202 comunica a través de un canal sin hilos (que no se muestra) con una red de comunicaciones sin hilos (que no se muestra). Por ejemplo, la estación remota 202 puede ser un teléfono sin hilos que comunique con un sistema de teléfono sin hilos. Alguien que sea experto en la técnica reconocerá que las técnicas descritas en este documento se pueden aplicar de igual manera a un sistema VR que sea fijo (no portátil) o no implique un canal sin hilos.
En la realización mostrada, las señales de voz de un usuario se convierten a señales eléctricas en un micrófono (MIC) 210 y se convierten a muestras digitales de voz en un conversor analógico a digital (ADC) 212. El flujo de muestras digitales se filtra después usando un filtro de preénfasis (PE) 214, por ejemplo un filtro de respuesta finita al impulso (FIR) que atenúa las componentes de la señal de baja frecuencia.
Las muestras filtradas se analizan después en una unidad de extracción de la característica acústica (AFE) 216. La unidad AFE 216 convierte las muestras digitales de voz en vectores de característica acústica. En la realización ejemplar, la unidad AFE 216 realiza una transformada de Fourier sobre un segmento de muestras digitales consecutivas para generar un vector de intensidades de la señal correspondiente a diferentes compartimentos de frecuencia. En una realización ejemplar, los compartimentos de frecuencia tienen anchos de banda variables de acuerdo con una escala de tono de voz. En una escala de tono de voz, el ancho de banda de cada compartimento de frecuencia soporta una relación respecto a la frecuencia central del compartimento, de forma que los compartimentos de frecuencia más alta tienen bandas de frecuencia más anchas que los compartimentos de frecuencia más baja. La escala de tono de voz se describe en Rabiner, L. R. y Juang, B. H., "Fundamentos del reconocimiento de voz", Prentice-Hall, 1993 y es bien conocida en la técnica.
En una realización ejemplar, cada vector de característica acústica se extrae de una serie de muestras de voz recogidas sobre un intervalo de tiempo fijo. En una realización ejemplar, estos intervalos de tiempo se solapan. Por ejemplo, las características acústicas se pueden obtener a partir de intervalos de 20 ms de datos de voz que comienzan cada diez milisegundos, de forma que cada dos intervalos consecutivos comparten un segmento de 10 ms. Alguien que sea experto en la técnica reconocería que en lugar de esto, los intervalos de tiempo podrían no ser solapantes o podrían tener una duración no fijada sin salirse del alcance de las realizaciones descritas en este documento.
Los vectores de característica acústica generados por la unidad AFE 216 se entregan a un motor VR 220, que realiza la casación de patrones para caracterizar el vector de característica acústica en base al contenido de uno o más modelos acústicos, 230, 232 y 234.
En la realización ejemplar mostrada en la figura 2, se muestran tres modelos acústicos: un modelo de Markov Oculto (HMM) independiente del hablante 230, un modelo de Distorsión Dinámica en el Tiempo (DTW) independiente del hablante 232, y un modelo acústico dependiente del hablante (SD) 234. Alguien que sea experto en la técnica reconocerá que se pueden usar diferentes combinaciones de modelos acústicos SI en realizaciones alternativas. Por ejemplo, una estación remota 202 podría incluir solamente el modelo acústico SIHMM 230 y el modelo acústico SD 234 y omitir el modelo acústico SIDTW 232. De manera alternativa, una estación remota 202 podría incluir un único modelo acústico SIHMM 230, un modelo acústico SD 234 y dos modelos acústicos SIDTW diferentes 232. Además, alguien que sea experto en la técnica reconocerá que el modelo acústico SD 234 puede ser del tipo HMM o del tipo DTW o una combinación de los dos. En la realización ejemplar, el modelo acústico SD 234 es un modelo acústico DTW.
Como se ha descrito anteriormente, el motor VR 220 realiza una casación de patrones para determinar el grado de coincidencia entre los vectores de característica acústica y el contenido de uno o más modelos acústicos 230, 232 y 234. En una realización ejemplar, el motor VR 220 genera referencias de casación en base a la casación de los vectores de característica acústica con las diferentes plantillas acústicas de cada uno de los modelos acústicos 230, 232 y 234. Por ejemplo, el motor VR 220 genera referencias de casación HMM en base a un conjunto de vectores de característica acústica con múltiples plantillas HMM en el modelo acústico SIHMM 230. Igualmente, el motor 220 genera referencias de casación DTW en base a la casación de los vectores de característica acústica con múltiples plantillas DTW en el modelo acústico SIDTW 232. El motor VR 220 genera referencias de casación en base a la casación de los vectores de característica acústica con las plantillas del modelo acústico SD 234.
Como se ha descrito anteriormente, cada plantilla del modelo acústico está asociada con una clase de forma de pronunciación. En una realización ejemplar, el motor VR 220 combina referencias para las plantillas asociadas con la misma clase de forma de pronunciación para crear una referencia de casación combinada para su uso en la formación sin supervisión. Por ejemplo, el motor VR 220 combina referencias SIHMM y SIDTW obtenidas a partir de la correlación de un conjunto de entrada de vectores de característica acústica para generar una referencia SI combinada. En base a esa referencia de casación combinada, el motor VR 220 determina si almacenar o no el conjunto de entrada de vectores de característica acústica como una plantilla SD del modelo acústico SD 234. En una realización ejemplar, la formación sin supervisión para actualizar el modelo acústico SD se realiza usando exclusivamente referencias de casación SI. Esto evita errores aditivos que en cualquier otro caso podrían resultar de usar un modelo acústico SD evolutivo 234 para la autoformación sin supervisión. A continuación se describe con mayor detalle un procedimiento ejemplar para realizar esta formación sin supervisión.
Además de la formación sin supervisión, el motor VR 220 usa los distintos modelos acústicos (230, 232, 234) durante la prueba. En una realización de ejemplo, el motor VR 220 recupera las referencias de casación de los modelos acústicos (230, 232, 234) y genera referencias de casación combinadas para cada clase de forma de pronunciación. Las referencias de casación combinadas se usan para seleccionar la clase de forma de pronunciación que mejor se adapta a la voz de entrada. El motor VR 220 agrupa las clases de forma de pronunciación consecutivas juntas según sea necesario para reconocer palabras o frases completas. El motor VR 220 proporciona entonces información acerca de la palabra o la frase reconocida a un procesador de control 222, que usa la información para determinar la respuesta apropiada a la información u orden de voz. Por ejemplo, en respuesta a la palabra o frase reconocida, el procesador de control 222 puede proporcionar realimentación al usuario a través de una pantalla o de otra interfaz de usuario. En otro ejemplo, el procesador de control 222 puede enviar un mensaje a través de un módem sin hilos 218 y una antena 224 a una red sin hilos (que no se muestra), iniciando una llamada de un teléfono móvil a un número de teléfono de destino asociado con la persona cuyo nombre fue pronunciado y reconocido.
El módem sin hilos 218 puede transmitir señales a través de una variedad de tipos de canal incluyendo CDMA, TDMA o FDMA. Además, el módem sin hilos 218 puede ser sustituido con otros tipos de interfaces de comunicaciones que comunican sobre un canal sin hilos sin salirse del alcance de las realizaciones descritas. Por ejemplo, la estación remota 202 puede transmitir información de señalización a través de cualquiera de una variedad de tipos de canal de comunicaciones incluyendo módems de línea terrestre, T1/E1, RDSI, DSL, Ethernet o incluso pistas sobre una placa de circuito impreso (PCB).
La figura 3 es un diagrama de flujo que muestra un procedimiento ejemplar para realizar formación sin supervisión. En el paso 302, se muestrean datos analógicos de voz en un conversor analógico a digital (ADC) (212 en la figura 2). La muestra digital se filtra después en el paso 304 usando un filtro de de énfasis (PE) (214 en la figura 2). En el paso 306, se extraen los vectores de característica acústica de entrada de las muestras filtradas en una unidad de extracción de característica acústica (AFE) (216 en la figura 2). El motor VR (220 de la figura 2) recibe los vectores de característica acústica de entrada desde la unidad AFE 216 y realiza la casación de patrones de los vectores de característica acústica de entrada frente al contenido de los modelos acústicos SI (230 y 232 de la figura 2). En el paso 308, el motor VR 220 genera referencias de casación a partir de los resultados de la casación de patrones. El motor VR 220 genera referencias de casación SIHMM mediante la casación de los vectores de característica acústica de entrada con el modelo acústico SIHMM 230, y genera referencias de casación SIDTW mediante la casación de los vectores de característica acústica de entrada con el modelo acústico SIDTW 232. Cada plantilla acústica en los modelos acústicos SIHMM y SIDTW (230 y 232) está asociada con una clase de forma de pronunciación particular. En el paso 310, las referencias SIHMM y SIDTW se combinan para formar referencias de casación combinadas.
La figura 4 muestra la generación de referencias de casación combinadas para su uso en formación sin supervisión. En la realización de ejemplo mostrada, la referencia de casación combinada independiente del hablante S_{COMB\_SI} para una clase particular de forma de pronunciación es una suma ponderada de acuerdo con la ecuación 1, como se muestra, en la que:
SIHMM_{T} es la referencia de casación SIHMM para la clase de forma de habla objetivo;
SIHMM_{NT} es la siguiente mejor referencia de casación para una plantilla en el modelo acústico SIHMM que está asociada con una clase de forma de pronunciación no objetivo (una clase de forma de pronunciación distinta a la clase de forma de pronunciación objetivo);
SIHMM_{G} es la referencia de casación SIHMM para la clase de forma de pronunciación "inservible";
SIDTW_{T} es la referencia de casación para la clase de forma de pronunciación objetivo;
SIDTW_{NT} es la siguiente mejor referencia de casación para una plantilla del modelo acústico SIDTW que está asociada con una clase de forma de habla no objetivo; y
SIDTW_{G} es la referencia de casación SIDTW para la clase de forma de pronunciación "inservible".
Las distintas referencias de casación individuales SIHMM_{n} y SIDTW_{n} pueden verse como representantes de un valor de distancia entre una serie de vectores de característica acústica de entrada y una plantilla del modelo acústico. Cuando mayor es la distancia entre los vectores de característica acústica de entrada y una plantilla, mayor es la referencia de casación. Una coincidencia próxima entre una plantilla y los vectores de característica acústica de entrada produce una referencia de casación muy baja. Si se compara una serie de vectores de característica acústica de entrada a dos plantillas asociadas con diferentes clases de forma de pronunciación, se producen dos referencias de casación que son casi iguales; entonces el sistema VR puede ser incapaz de reconocer qué clase de forma de pronunciación es la "correcta".
SIHMM_{G} y SIDTW_{G} son referencias de casación para las clases de forma de pronunciación "inservible". La plantilla o las plantillas asociadas con la clase de forma de pronunciación inservible se denominan plantillas de información inservible y no corresponden a una palabra o frase específica. Por esta razón, tienden a estar igualmente incorreladas con respecto a toda la voz de entrada. Las referencias de casación de información inservible son útiles como una clasificación de medida de fondo de ruido en un sistema VR. Generalmente, una serie de vectores de característica acústica de entrada debería tener un mejor grado de casación con una plantilla asociada con una clase de forma de pronunciación objetivo que con la plantilla de información inservible antes de que se reconozca de una manera más segura la clase de forma de pronunciación.
Antes de que el sistema VR pueda reconocer de manera más segura una clase de forma de pronunciación como la "correcta", los vectores de característica acústica de entrada deberían tener un grado más alto de coincidencia con las plantillas asociadas con esa clase de forma de pronunciación que con las plantillas de de información inservible o con las plantillas asociadas con otras clases de forma de pronunciación. Las referencias de casación combinadas generadas a partir de una variedad de modelos acústicos pueden discriminar de manera más segura entre clases de forma de pronunciación que las referencias de casación basadas solamente en un modelo acústico. En una realización ejemplar, el sistema VR usa dichas referencias de casación combinadas para determinar si sustituir una plantilla en el modelo acústico SD (234 en la figura 2) con una derivada a partir de un nuevo conjunto de vectores de característica acústica de entrada.
Los factores de ponderación (W_{1}, ..., W_{6}) se seleccionan para proporcionar el mejor funcionamiento de formación sobre todos los entornos acústicos. En una realización ejemplar, los factores de ponderación (W_{1}, ..., W_{6}) son constantes para las clases de forma de pronunciación. En otras palabras, los W_{n} usados para crear la referencia de casación combinada para una primera clase de forma de pronunciación objetivo es la misma que el valor W_{n} usado para crear la referencia de casación combinada para otra clase de forma de pronunciación objetivo. En una realización alternativa, los factores de ponderación están muy basados en la clase de forma de pronunciación objetivo. En la figura 4 se muestran otras maneras de combinación que serán obvias para alguien que sea experto en la técnica, y se deben ver como dentro del alcance de las realizaciones descritas en este documento. Por ejemplo, se pueden usar más de seis o menos de seis entradas ponderadas. Otra variación obvia sería para generar una referencia de casación combinada basada en un tipo de modelo acústico. Por ejemplo, se podría generar una referencia de casación combinada en base a SIHMM_{T}, SIHMM_{NT}, SIHMM_{G}. O se podría generar una referencia de casación combinada en base a SIDTW_{T}, SIDTW_{NT}, SIDTW_{G}.
En una realización ejemplar, W_{1} y W_{4} son números negativos, y un valor mayor (o menos negativo) de S_{COMB} indica un mayor grado de coincidencia (distancia menor) entre una clase de forma de pronunciación objetivo y una serie de vectores de característica acústica de entrada. Alguien que sea experto en la técnica apreciará que los signos de los factores de ponderación pueden ser fácilmente reconfigurados de forma que un grado mayor de coincidencia corresponda con un valor menor sin salirse del alcance de las realizaciones descritas.
Volviendo de nuevo a la figura 3, en el paso 310, las referencias de casación combinadas se generan para las clases de forma de pronunciación asociadas con las plantillas de los modelos acústicos HMM y DTW (230 y 232). En una realización ejemplar, referencias de casación se generan solamente para las clases de forma de pronunciación asociadas con las mejores n referencias de casación SIHMM y para las clases de forma de pronunciación asociadas con las mejores m referencias de casación SIDTW. Este límite puede ser deseable para conservar los recursos de cómputo, incluso aunque se consuma una cantidad mucho mayor de potencia de cómputo a la vez que se generan las referencias de casación individuales. Por ejemplo, si n = m = 3, las referencias de casación combinados se generan para las clases de forma de pronunciación asociadas con los tres SIHMM superiores y las clases de forma de pronunciación asociadas con las tres referencias de casación SIDTW superiores. Dependiendo de si las clases de forma de pronunciación asociadas con las tres referencias de casación superiores SIHMM son los mismos que las clases de forma de pronunciación asociadas con las tres referencias de casación superiores SIDTW, esta aproximación producirá tres a seis referencias de casación combinados diferentes.
En el paso 312, la estación remota 202 compara las referencias de casación combinadas con las referencias de casación combinadas almacenadas con las correspondientes plantillas (asociadas con la misma clase de forma de pronunciación) en el modelo acústico SD. Si la nueva serie de vectores de característica acústica de entrada tiene un grado mayor de coincidencia que los de la plantilla más antigua almacenada en el modelo SD para la misma clase de forma de pronunciación, entonces se genera una nueva plantilla SD a partir de la nueva serie de vectores de característica acústica de entrada. En una realización en la que un modelo acústico SD sea un modelo acústico DTW, la serie de vectores de característica acústica de entrada por sí sola constituye la nueva plantilla SD. La vieja plantilla se sustituye entonces con la nueva plantilla y la referencia de casación combinada asociada con la nueva plantilla se almacena en el modelo acústico SD para su uso en comparaciones futuras.
En una realización alternativa, la formación sin supervisión se usa para actualizar una o más plantillas en un modelo acústico de Markov Oculto dependiente del hablante (SDHMM). Este modelo acústico SDHMM se podría usar o en lugar de un modelo SDHMM o además de un modelo acústico SDDTW dentro del modelo acústico SD 234.
En una realización ejemplar, la casación en el paso 312 incluye también la comparación de la referencia de casación combinada de una nueva plantilla SD probable con un umbral de formación constante. Incluso si no hubiese ninguna plantilla almacenada en un modelo acústico SD para una clase de forma de pronunciación particular, no se almacenará una nueva plantilla en el modelo acústico SD a menos que haya una referencia de casación combinada que sea mejor (indicativo de un grado mayor de coincidencia) que el valor umbral de formación.
En una realización alternativa, antes de que se haya sustituido cualquier plantilla del modelo acústico SD, el modelo acústico SD se puebla por defecto con plantillas del modelo acústico SI. Dicha inicialización proporciona una aproximación alternativa para asegurar que el funcionamiento VR que usa el modelo acústico SD comienza al menos tan bien como el funcionamiento VR que usa solamente el modelo acústico SI. Cuantas más plantillas del modelo acústico SD se actualicen, el funcionamiento VR que use el modelo acústico SD sobrepasará el funcionamiento VR que usa sólo el modelo acústico SI.
En una realización alternativa, el sistema VR permite a un usuario realizar la formación supervisada. El usuario debe poner al sistema VR en un modo de formación supervisada antes de realizar dicha formación supervisada. Durante la formación supervisada, el sistema VR tiene un conocimiento a priori de la clase de forma de pronunciación correcta. Si la referencia de casación combinada para la voz de entrada es mejor que la referencia de casación combinada para la plantilla SD anteriormente almacenada para esa clase de forma de pronunciación, entonces la voz de salida se usa para formar una plantilla SD sustituta. En una realización alternativa, el sistema VR permite al usuario forzar la sustitución de las plantillas SD existentes durante la formación supervisada.
El modelo acústico SD puede ser diseñado con espacio para múltiples (dos o más) plantillas para una única clase de forma de pronunciación. En una realización ejemplar, se almacenan dos plantillas en el modelo acústico SD para cada clase de forma de pronunciación. La comparación en el paso 312 supone por lo tanto la comparación de la referencia de casación obtenida con una nueva plantilla con las referencias de casación obtenidas para ambas plantillas en el modelo acústico SD para la misma clase de forma de pronunciación. Si la nueva plantilla tiene una mejor referencia de coincidencia que cualquiera de las antiguas plantillas del modelo acústico SD, entonces en el paso 314 la plantilla del modelo acústico SD que tenga la peor referencia de coincidencia es sustituida por la nueva plantilla. Si la referencia de casación de la nueva plantilla no es mejor que cualquier plantilla antigua, entonces se omite el paso 314. De manera adicional, en el paso 312, la referencia de casación obtenida con la nueva plantilla se compara con un umbral referencia de casación. Así, hasta que se almacenen en el modelo acústico SD nuevas plantillas que tengan una referencia de casación que sea mejor que el umbral, las nuevas plantillas son casadas frente a este valor umbral antes de que sean usadas para sobrescribir el contenido anterior del modelo acústico SD. Se anticipan y se consideran dentro del alcance de las realizaciones descritas en este documento variaciones obvias, tales como el almacenamiento de las plantillas del modelo acústico SD en orden clasificado de acuerdo con la referencia de casación combinada y la comparación de nuevas referencias de casación solamente con las referencias más bajas. También se anticipan variaciones obvias acerca de los números de plantillas almacenadas en el modelo acústico para cada clase de forma de pronunciación. Por ejemplo, el modelo acústico SD puede contener más de dos plantillas para cada clase de forma de pronunciación, o puede contener diferentes números de plantillas para diferentes clases de formas de habla.
La figura 5 es un diagrama de flujo que muestra un procedimiento ejemplar para realizar la prueba VR usando una combinación de modelos acústicos SI y SD. Los pasos 302, 304, 306 y 308 son los mismos que los descritos para la figura 3. El procedimiento ejemplar se diferencia del procedimiento mostrado en la figura 3 en el paso 510. En el paso 510, el motor VR 220 genera referencias de casación SD basadas en la comparación de los vectores de característica acústica de entrada con las plantillas del modelo acústico SD. En una realización ejemplar, las referencias de casación SD se generan solamente para las clases de forma de pronunciación asociadas con las n mejores referencias de casación SIHMM y las m mejores referencias de casación SIDTW. En una realización ejemplar, n = m = 3. Dependiendo del grado de solapamiento entre los dos conjuntos de clases de formas de habla, esto dará como resultado la generación de referencias de casación SD para tres o seis clases de formas de habla. Como se ha tratado con anterioridad, el modelo acústico SD puede contener múltiples plantillas para una clase de forma de pronunciación única. En el paso 512, el motor VR 220 genera referencias de casación combinados híbridos para su uso en la prueba VR. En una realización ejemplar, estas referencias de casación combinadas híbridas se basan tanto en las referencias de casación SI como en las referencias de casación SD. En el paso 514, selecciona la palabra o la forma de pronunciación que tiene la mejor referencia de casación combinada y se compara frente al umbral de prueba. Una forma de pronunciación solamente se considera como reconocida si su referencia de casación combinada sobrepasa este umbral. En una realización ejemplar, los pesos [W_{1}, ..., W_{6}] usados para generar referencias combinadas para la formación (como se muestra en la figura 4) son iguales a los pesos [W_{1}, ..., W_{6}] usados para generar referencias combinadas para prueba (como se muestra en la figura 6), pero el umbral de formación no es igual al umbral de prueba.
La figura 6 muestra la generación de referencias de casación combinadas híbridos realizada en el paso 512. La realización ejemplar mostrada funciona de manera idéntica al combinador mostrado en la figura 4, excepto que el factor de ponderación W_{4} se aplica a DTW_{T} en lugar de a SIDTW_{T} y el factor de ponderación W_{5} se aplica a DTW_{NT} en lugar de SIDTW_{NT}. DTW_{T} (la referencia de casación de Distorsión Dinámica en el Tiempo para la clase de forma de pronunciación objetivo) se selecciona a partir de la mejor referencia, SIDTW y SDDTW asociados con la clase de forma de pronunciación objetivo. De manera similar, DTW_{NT} (la referencia de casación de Distorsión Dinámica en el Tiempo para las restantes clases de forma de pronunciación no objetivo) se selecciona a partir de las mejores referencias SIDTW y SDDTW asociados con clases de forma de pronunciación no objetivo.
La referencia híbrida SI/SD S_{COMB_H} para una clase de forma de pronunciación particular es una suma ponderada de acuerdo con la ecuación 2, como se muestra, donde SIHMM_{T}, SIHMM_{NT}, SIHMM_{G} y SIDTW_{G} son los mismos que en la ecuación 1. De manera específica, en la ecuación 2:
SIHMM_{T} es la referencia de casación SIHMM para la clase de forma de habla objetivo;
SIHMM_{NT} es la siguiente mejor referencia de casación para una plantilla en el modelo acústico SIHMM que está asociada con una clase de forma de pronunciación no objetivo (una clase de forma de pronunciación distinta a la clase de forma de pronunciación objetivo);
SIHMM_{G} es la referencia de casación SIHMM para la clase de forma de pronunciación "inservible";
DTW_{T} es la mejor referencia de casación DTW para las plantillas SI y SD correspondientes a las clases de forma de pronunciación objetivo;
DTW_{NT} es la mejor referencia de casación DTW para las plantillas SI y SD correspondientes a las clases de forma de pronunciación no objetivo; y
SIDTW_{G} es la referencia de casación SIDTW para la clase de forma de pronunciación "inservible".
De esta forma, la referencia híbrida SI/SD S_{COM_H} es una combinación de referencias de casación SI y SD individuales. La referencia de casación de combinación resultante no depende enteramente de ninguno de los modelos acústicos SI o SD. Si la referencia de casación SIDTW_{T} es mejor que cualquier referencia SDDTW_{T}, entonces la referencia híbrida SI/SD se calcula a partir de la mejor referencia SIDTW_{T}. De manera similar, si la referencia de casación SDDTW_{T} es mejor que cualquier referencia SIDTW_{T}, entonces la referencia híbrida SI/SD se calcula a partir de la mejor referencia SDDTW_{T}. Como resultado de esto, si la plantilla en el modelo acústico SD produce referencias de casación pobres, el sistema VR puede reconocer aún la voz de entrada en base a las partes SI de las referencias híbridas SI/SD. Dichas referencias de casación SD pobres podrían tener una variedad de causas incluyendo diferencias entre entornos acústicos durante la formación y las pruebas o quizá una entrada de pobre calidad usada para formación.
En una realización alternativa, la referencias SI son ponderadas de una manera menos pesada que las referencias SD, o incluso pueden ser ignoradas por completo. Por ejemplo, DTW_{T} se selecciona de las mejores referencias SDDTW asociados con la clase de forma de pronunciación objetivo, ignorando las referencias SIDTW para la clase de forma de pronunciación objetivo. También, DTW_{T} se puede seleccionar a partir de las mejores referencias SIDTW o SDDTW asociados con clases de forma de pronunciación no objetivo, en lugar de usar ambos conjuntos de referencias.
Aunque la realización ejemplar se describe usando solamente modelos acústicos SDDTW para modelado dependiente del hablante, la aproximación híbrida descrita en este documento es igualmente aplicable a un sistema VR que use modelos acústicos SDHMM o incluso una combinación de modelos acústicos SDDTW y SDHMM. Por ejemplo, mediante la modificación de la aproximación mostrada en la figura 6, el factor de ponderación W_{1} se podría aplicar a una referencia de casación seleccionado de las mejores referencias SIHMM_{T} y SDHMM_{T}. El factor de ponderación W_{2} se podría aplicar a una referencia de casación seleccionada de las mejores referencias SIHMM_{NT} y SDHMM_{NT}.
De esta forma, se describe en el presente documento un procedimiento y un aparato VR que utilizan una combinación de modelos acústicos SI y SD para el funcionamiento mejorado VR durante la formación sin supervisión y la prueba. Los que sean expertos en la técnica comprenderían que la información y las señales pueden ser representadas usando cualquiera de una variedad de diferentes tecnologías y técnicas. Por ejemplo, datos, instrucciones, órdenes, información, señales, bits, símbolos y segmentos a los que se puede hacer referencia a lo largo de toda la descripción anterior, pueden ser representados por medio de tensiones, corrientes, ondas electromagnéticas, campos magnéticos o partículas magnéticas, campos ópticos o partículas ópticas o cualquier combinación de los mismos. También, aunque las realizaciones se describen en primer lugar en términos de modelos acústicos tales como el modelo de Distorsión Dinámica en el Tiempo (DTW) o el modelo de Markov Oculto (HMM), las técnicas descritas se pueden aplicar a otros tipos de modelos acústicos tales como modelos acústicos de redes neuronales.
Los expertos en la técnica apreciarán además que los varios bloques lógicos, módulos, circuitos y pasos de algoritmo ilustrativos descritos junto con las realizaciones descritas en este documento se pueden implementar como hardware electrónico, software de ordenador o una combinación de ambos. Para ilustrar de manera clara esta capacidad de intercambio entre hardware y de software, se han descrito varios componentes, bloques, módulos, circuitos y pasos ilustrativos, anteriormente generalmente en términos de su funcionalidad. Si se implementa dicha funcionalidad como hardware o software, dependerá de la aplicación particular y de las restricciones del diseño impuestas sobre el sistema global. Los expertos pueden implementar la funcionalidad descrita de varias maneras para cada aplicación particular, pero dichas decisiones de implementación no se deberían interpretar como causantes de una salida del alcance de la presente invención.
Los varios bloques lógicos, módulos y circuitos ilustrativos descritos junto con las realizaciones descritas en este documento se pueden implementar o realizar con un procesador de propósito general, un procesador digital de la señal (DSP), un circuito integrado específico de la aplicación (ASIC), una matriz de puertas programable en campo (FPGA) u otro dispositivo lógico programable, puerta discreta o lógica de transistores, componentes hardware discretos o cualquier combinación de los mismos diseñada para realizar las funciones descritas en este documento. Un procesador de propósito general puede ser un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador convencional, controlador, microcontrolador o máquina de estados. Un procesador también se puede implementar como una combinación de dispositivos de computación, por ejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo DSP o cualquier otra de tales configuraciones.
Los pasos de un procedimiento o algoritmo descrito junto con las realizaciones descritas en este documento se pueden realizar directamente en hardware, en un módulo software ejecutado por un procesador o en una combinación de los dos. Un módulo software puede residir en memoria RAM, en memoria instantánea, en memoria ROM, en memoria EPROM, en memoria EEPROM, en registros, en disco duro, en un disco extraíble, en un CD-ROM o en cualquier otro formato de medio de almacenamiento conocido en la técnica. Un medio de almacenamiento ejemplar se acopla al microprocesador de forma que el microprocesador pueda leer la información de, y escribir información en el medio de almacenamiento. En la alternativa, el medio de almacenamiento puede estar integrado en el procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. En la alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.
La descripción anterior de las realizaciones descritas se proporciona para hacer posible a una persona experta en la técnica el que haga uso de la presente invención. Varias modificaciones a estas realizaciones serán rápidamente aparentes para los expertos en la técnica, y los principios genéricos definidos en este documento se pueden aplicar a otras realizaciones sin salirse del ámbito de la invención. De esta manera no se pretende que la presente invención esté limitada a las realizaciones mostradas en este documento, sino que esté de acuerdo con el ámbito más amplio consecuente con los principios y características novedosas descritas en el presente documento.

Claims (5)

1. Un procedimiento para realizar un entrenamiento no supervisado para el reconocimiento de voz, que comprende:
la realización de la casación (308) de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de una pluralidad de modelos independientes del hablante para producir una pluralidad puntuaciones de concordancia del patrón de entrada y para determinar una respectiva clase de locución reconocida;
la combinación de la pluralidad de puntuaciones de concordancia asociadas con la misma clase de locución para generar una puntuación de concordancia combinada;
la comparación (312) de la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida;
si la puntuación combinada es mejor que la puntuación de concordancia del patrón, la sustitución (314) de la plantilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y la sustitución de la puntuación de concordancia del modelo asociada con la plantilla acústica almacenada del modelo dependiente del hablante con la puntuación combinada asociada con la nueva plantilla.
2. El procedimiento de la reivindicación 1, en el que dicha realización de la casación de patrones comprende además:
la ejecución de una casación (308) de un patrón de un modelo de Markov Oculto (HMM) del primer segmento de entrada de voz con al menos una plantilla de HMM para generar al menos una puntuación de concordancia del
HMM;
la ejecución de una casación (308) de un patrón de distorsión dinámica en el tiempo (DTW) del primer segmento de entrada de voz con al menos una plantilla de DTW para generar al menos una puntuación de concordancia de DTW; y
la realización de al menos una suma ponderada (310) de dicha o dichas puntuaciones de concordancia de HMM y de dicha o dichas puntuaciones de concordancia de DTW para generar dicha o dichas puntuaciones de concordancia del patrón de entrada.
3. El procedimiento de la reivindicación 1, que comprende además:
la ejecución (308) de una casación de un patrón de un segundo segmento de entrada de voz con al menos una plantilla acústica independiente del hablante para generar al menos una puntuación de concordancia independiente del hablante;
la ejecución (510) de una casación de un patrón del segundo segmento de entrada de voz con la plantilla acústica almacenada para generar una puntuación de concordancia dependiente del hablante; y
la combinación (512) de al menos una puntuación de concordancia independiente del hablante con la puntuación de la concordancia dependiente del hablante para generar al menos una puntuación de concordancia combinada.
4. El procedimiento de la reivindicación 3, que comprende además la identificación de una clase de locución asociada con la mejor de las puntuaciones de concordancia combinadas.
5. Un aparato (202) para realizar un entrenamiento no supervisado para el reconocimiento de voz que comprende:
medios para realizar la casación de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de la pluralidad de modelos independientes del hablante para producir una pluralidad de puntuaciones de concordancia del patrón y para determinar una respectiva clase de locución reconocida;
medios para combinar una pluralidad de puntuaciones de concordancia de patrones de entrada asociadas con la misma clase de locución para generar una puntuación de concordancia combinada;
medios para comparar la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida:
medios para sustituir la platilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y para sustituir la puntuación de concordancia del patrón asociada con la plantilla acústica almacenada del modelo dependiente del hablante con al menos una puntuación de concordancia del patrón de entrada con la nueva plantilla, en el que la plantilla acústica almacenada y la puntuación de concordancia del patrón son sustituidas si la puntuación combinada es mejor que la puntuación de concordancia del patrón.
ES05025989T 2001-03-28 2002-03-22 Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. Expired - Lifetime ES2330857T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US821606 2001-03-28
US09/821,606 US20020143540A1 (en) 2001-03-28 2001-03-28 Voice recognition system using implicit speaker adaptation

Publications (1)

Publication Number Publication Date
ES2330857T3 true ES2330857T3 (es) 2009-12-16

Family

ID=25233818

Family Applications (3)

Application Number Title Priority Date Filing Date
ES07014802T Expired - Lifetime ES2371094T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptación implícita al orador.
ES02725288T Expired - Lifetime ES2288549T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptacion implicita del hablante.
ES05025989T Expired - Lifetime ES2330857T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de voz que usa adaptacion implicita del que habla.

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES07014802T Expired - Lifetime ES2371094T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptación implícita al orador.
ES02725288T Expired - Lifetime ES2288549T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptacion implicita del hablante.

Country Status (13)

Country Link
US (1) US20020143540A1 (es)
EP (3) EP1374223B1 (es)
JP (5) JP2004530155A (es)
KR (6) KR100933108B1 (es)
CN (3) CN1531722B (es)
AT (3) ATE372573T1 (es)
AU (1) AU2002255863A1 (es)
DE (2) DE60222249T2 (es)
DK (1) DK1374223T3 (es)
ES (3) ES2371094T3 (es)
HK (2) HK1092269A1 (es)
TW (1) TW577043B (es)
WO (1) WO2002080142A2 (es)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
KR20050059766A (ko) * 2003-12-15 2005-06-21 엘지전자 주식회사 동적 시간 워핑을 이용한 음성 인식 방법
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7440894B2 (en) 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
EP2019985B1 (en) * 2006-05-12 2018-04-04 Nuance Communications Austria GmbH Method for changing over from a first adaptive data processing version to a second adaptive data processing version
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US7552871B2 (en) * 2006-12-19 2009-06-30 Nordic Id Oy Method for collecting data fast in inventory systems and wireless apparatus thereto
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
WO2011071484A1 (en) * 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
US9966065B2 (en) * 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US20170011406A1 (en) * 2015-02-10 2017-01-12 NXT-ID, Inc. Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
RU2704746C2 (ru) * 2015-08-24 2019-10-30 ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи Динамическая акустическая модель для транспортного средства
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102458805B1 (ko) 2017-04-20 2022-10-25 구글 엘엘씨 장치에 대한 다중 사용자 인증
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
CN111243606B (zh) * 2017-05-12 2023-07-21 苹果公司 用户特定的声学模型
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
KR20180128037A (ko) * 2017-05-12 2018-11-30 애플 인크. 사용자-특정 음향 모델
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896673B1 (en) * 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
KR102135182B1 (ko) 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
KR102263973B1 (ko) 2019-04-05 2021-06-11 주식회사 솔루게이트 인공지능 기반 일정관리 시스템
EP4086904A1 (en) * 2019-12-04 2022-11-09 Google LLC Speaker awareness using speaker dependent speech model(s)

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6045298A (ja) * 1983-08-22 1985-03-11 富士通株式会社 単語音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
JPH01309099A (ja) * 1987-06-04 1989-12-13 Ricoh Co Ltd 音声応答装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH02232696A (ja) * 1989-03-06 1990-09-14 Toshiba Corp 音声認識装置
JP2989231B2 (ja) * 1989-10-05 1999-12-13 株式会社リコー 音声認識装置
JPH04280299A (ja) * 1991-03-08 1992-10-06 Ricoh Co Ltd 音声認識装置
JPH05188991A (ja) * 1992-01-16 1993-07-30 Oki Electric Ind Co Ltd 音声認識装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
CN1160450A (zh) * 1994-09-07 1997-09-24 摩托罗拉公司 从连续语音中识别讲话声音的系统及其应用方法
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
JP3865924B2 (ja) * 1998-03-26 2007-01-10 松下電器産業株式会社 音声認識装置
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
JP2000137495A (ja) * 1998-10-30 2000-05-16 Toshiba Corp 音声認識装置および音声認識方法
EP1011094B1 (en) * 1998-12-17 2005-03-02 Sony International (Europe) GmbH Semi-supervised speaker adaption
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation

Also Published As

Publication number Publication date
JP4546512B2 (ja) 2010-09-15
JP2004530155A (ja) 2004-09-30
EP1850324A1 (en) 2007-10-31
WO2002080142A2 (en) 2002-10-10
TW577043B (en) 2004-02-21
JP2008077099A (ja) 2008-04-03
ES2288549T3 (es) 2008-01-16
AU2002255863A1 (en) 2002-10-15
DK1374223T3 (da) 2007-10-08
JP2013152475A (ja) 2013-08-08
KR100933109B1 (ko) 2009-12-21
KR20070106809A (ko) 2007-11-05
WO2002080142A3 (en) 2003-03-13
KR101031744B1 (ko) 2011-04-29
EP1850324B1 (en) 2011-09-21
CN101221758A (zh) 2008-07-16
ATE372573T1 (de) 2007-09-15
EP1374223A2 (en) 2004-01-02
KR100933108B1 (ko) 2009-12-21
DE60222249T2 (de) 2008-06-12
CN1531722B (zh) 2011-07-27
KR20070106808A (ko) 2007-11-05
KR101031660B1 (ko) 2011-04-29
JP2008203876A (ja) 2008-09-04
JP2010211221A (ja) 2010-09-24
CN1531722A (zh) 2004-09-22
ATE443316T1 (de) 2009-10-15
EP1374223B1 (en) 2007-09-05
JP4546555B2 (ja) 2010-09-15
EP1628289A3 (en) 2006-03-01
KR20090106630A (ko) 2009-10-09
KR20030085584A (ko) 2003-11-05
HK1092269A1 (en) 2007-02-02
US20020143540A1 (en) 2002-10-03
CN101221759A (zh) 2008-07-16
KR100933107B1 (ko) 2009-12-21
KR20090106628A (ko) 2009-10-09
EP1628289B1 (en) 2009-09-16
KR20090106625A (ko) 2009-10-09
ES2371094T3 (es) 2011-12-27
KR101031717B1 (ko) 2011-04-29
HK1117260A1 (en) 2009-01-09
CN101221759B (zh) 2015-04-22
ATE525719T1 (de) 2011-10-15
EP1628289A2 (en) 2006-02-22
DE60222249D1 (de) 2007-10-18
DE60233763D1 (de) 2009-10-29

Similar Documents

Publication Publication Date Title
ES2330857T3 (es) Sistema de reconocimiento de voz que usa adaptacion implicita del que habla.
CA2609247C (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
Li et al. Comparison of discriminative input and output transformations for speaker adaptation in the hybrid NN/HMM systems.
Tan et al. Denoised senone i-vectors for robust speaker verification
JPH0486899A (ja) 標準パターン適応化方式
Herbig et al. Evaluation of two approaches for speaker specific speech recognition
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
Herbig et al. Detection of unknown speakers in an unsupervised speech controlled system
JPH06175678A (ja) 音声認識装置
Chen Comparison between Traditional Models and Novel Methods for Speaker Recognition
Huo et al. Robust speech recognition based on structured modeling, irrelevant variability normalization and unsupervised online adaptation
Liao et al. An overview of RNN‐based mandarin speech recognition approaches
Soğanci et al. Parallel implementation of a VQ-based text-independent speaker identification
Kannan Robust estimation of stochastic segment models for word recognition
Zhong et al. A rejection model based on multi-layer perceptrons for Mandarin digit recognition
Ullah A soft computing based approach for multi-accent classification in ivr systems
Li et al. Hidden logistic linear regression for support vector machine based phone verification.
Dong et al. A boosting approach for utterance verification
Burget et al. Recognition of speech with non-random attributes
Modi Discriminative utterance verification by integrating multiple confidence measures: A unified training and testing approach