ES2371094T3 - Sistema de reconocimiento de la voz que usa adaptación implícita al orador. - Google Patents

Sistema de reconocimiento de la voz que usa adaptación implícita al orador. Download PDF

Info

Publication number
ES2371094T3
ES2371094T3 ES07014802T ES07014802T ES2371094T3 ES 2371094 T3 ES2371094 T3 ES 2371094T3 ES 07014802 T ES07014802 T ES 07014802T ES 07014802 T ES07014802 T ES 07014802T ES 2371094 T3 ES2371094 T3 ES 2371094T3
Authority
ES
Spain
Prior art keywords
template
speaker
acoustic
pairing
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES07014802T
Other languages
English (en)
Inventor
Narendranath Malayath
Andrew P. Dejaco
Chienchung Chang
Suhail Jalil
Ning Bi
Harinath Garudadri
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2371094T3 publication Critical patent/ES2371094T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Complex Calculations (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Un procedimiento para realizar el reconocimiento de voz que comprende: realizar el apareo de patrones de un primer segmento de voz de entrada con al menos una primera plantilla acústica de un modelo acústico (230, 232) independiente del orador, para producir al menos una plantilla de apareo de patrones de entrada y para determinar una clase de emisión vocal reconocida, en el cual la clase de emisión vocal es una palabra o segmento de habla específico; comparar dicha(s) plantilla(s) de apareo de patrones de entrada con una plantilla correspondiente asociada a al menos una segunda plantilla acústica proveniente del modelo acústico (234) del orador de la primera voz de entrada, la segunda plantilla acústica asociada a la clase de emisión vocal reconocida; y determinar si se actualiza o no dicha(s) segunda(s) plantilla(s) acústica(s), en donde dicha(s) segunda(s) plantilla(s) acústica(s) se actualiza(n) si dicha(s) plantilla(s) de apareo de patrones de entrada es (son) mejor(es) que la correspondiente plantilla asociada a dicha(s) segunda(s) plantilla(s) acústica(s).

Description

Sistema de reconocimiento de la voz que usa adaptación implícita al orador
ANTECEDENTES
Campo
La presente invención se refiere al procesamiento de señales de voz. De manera particular, la presente invención se refiere a un procedimiento y aparato novedosos de reconocimiento de voz para conseguir prestaciones mejoradas através de un entrenamiento sin supervisión.
Antecedentes
El reconocimiento de voz representa una de las técnicas más importantes para dotar a una máquina con inteligenciasimulada para reconocer órdenes habladas del usuario y para facilitar la interfaz humana con la máquina. Los sistemas que emplean técnicas para recuperar un mensaje lingüístico a partir de una señal de voz acústica, sedenominan sistemas de reconocimiento de voz (VR). La FIG. 1 muestra un sistema de VR básico que tiene un filtro 102 de preénfasis, una unidad 104 de extracción de características acústicas (AFE) y un motor 110 de apareo de patrones. La unidad AFE 104 convierte una serie de muestras digitales de voz en un conjunto de valores de medida(por ejemplo, las componentes de frecuencia extraídas) denominados un vector de características acústicas. El motor 110 de apareo de patrones aparea una serie de vectores de características acústicas con las plantillascontenidas en un modelo acústico 112 de VR. Los motores de apareo de patrones de VR emplean por lo generaltécnicas de distorsión dinámica en el tiempo (DTW) o el Modelo de Markov Oculto (HMM). Tanto DTW como HMMson bien conocidas en la técnica y se describen con detalle en el documento de Rabiner, L. R., y Juang, B. H.,“FUNDAMENTOS DEL RECONOCIMIENTO DE VOZ”, Prentice-Hall, 1993. Cuando una serie de características acústicas coincide con una plantilla en el modelo acústico 112, la plantilla identificada se usa para generar unformato de salida deseado, tal como una secuencia identificada de palabras lingüísticas correspondientes a la vozde entrada.
Como se ha hecho notar anteriormente el modelo acústico 112 generalmente es un modelo HMM o un modelo DTW.Se puede pensar en un modelo acústico DTW como en una base de datos de plantillas asociadas con cada una de las palabras que necesitan ser reconocidas. En general, una plantilla DTW consiste en una secuencia de vectoresde características que han sido promediados sobre muchas muestras de la palabra asociada. El apareo de patronesdel DTW generalmente implica la localización de una plantilla almacenada que tiene una distancia mínima a lasecuencia del vector de características de entrada que representa la voz de entrada. Una plantilla usada en unmodelo acústico basado en HMM contiene una descripción estadística detallada de la emisión vocal de la voz asociada. En general, una plantilla HMM almacena una secuencia de vectores de media, vectores de varianza y unconjunto de probabilidades de transición. Estos parámetros se usan para describir las estadísticas de una unidad devoz y se estiman a partir de muchos ejemplos de la unidad de voz. El apareo de patrones de HMM generalmenteimplica la generación de una probabilidad para cada plantilla del modelo basada en la serie de vectores decaracterísticas de entrada asociados a la voz de entrada. La plantilla que tenga la probabilidad más alta se selecciona como la emisión vocal de entrada más probable.
El “entrenamiento” se refiere al proceso de recoger muestras de voz de un segmento o sílaba particular del habla deuno o más oradores con el fin de generar plantillas en el modelo acústico 112. Cada plantilla en el modelo acústicoestá asociada a una palabra o segmento de voz particulares denominados una clase de emisión vocal. Puede habermúltiples plantillas en el modelo acústico asociadas a la misma clase de emisiones vocales. “Prueba” se refiere al procedimiento para aparear las plantillas del modelo acústico con una secuencia de vectores de característicasextraídos de la voz de entrada. Las prestaciones de un sistema dado dependen en gran medida del grado decoincidencia entre la voz de entrada del usuario final y el contenido de la base de datos, y por ello de la coincidenciaentre las plantillas de referencia creadas a través del entrenamiento y las muestras de voz usadas para la prueba deVR.
Los dos tipos comunes de entrenamiento son el entrenamiento supervisado y el entrenamiento no supervisado. Enel entrenamiento supervisado, la clase de emisión vocal asociada a cada conjunto de vectores de características deentrenamiento se conoce a priori. Al hablante que proporciona la voz de entrada a menudo se le proporciona unguión de palabras o segmentos de voz correspondientes a las clases de emisión vocal predeterminadas. Losvectores de características resultantes de la lectura del guión pueden ser incorporados entonces en las plantillas del modelo acústico asociado a las clases de emisiones vocales correctas.
En el entrenamiento no supervisado, la clase de emisión vocal asociada a un conjunto de vectores de característicasde entrenamiento no se conoce a priori. La clase de emisión vocal debe ser identificada de manera correcta antes deque se pueda incorporar un conjunto de vectores de características de entrenamiento en la plantilla correcta delmodelo acústico. En el entrenamiento no supervisado, un error al identificar la clase de emisión vocal para un conjunto de vectores de características de entrenamiento puede conducir a una modificación de la plantilla delmodelo acústico erróneo. Dicho error por lo general degrada, en lugar de mejorar, el funcionamiento del reconocimiento de la voz. Con el fin de evitar dichos errores, cualquier modificación del modelo acústico basada enel entrenamiento no supervisado se debe hacer por lo general de una manera muy conservadora. Se incorpora unconjunto de vectores de características de entrenamiento en el modelo acústico solamente si hay una confianza relativamente alta de que la clase de emisión vocal se ha identificado de manera correcta. Dicho conservadurismonecesario hace que la construcción de un modelo acústico SD a través de un entrenamiento no supervisado sea unproceso muy lento. Hasta que se construya de esta manera el modelo acústico SD, las prestaciones de la VRprobablemente serán inaceptables para la mayoría de los usuarios.
De manera óptima, el usuario final proporciona vectores de características acústicas de voz tanto durante el
55 E07014802 03-11-2011
entrenamiento como durante la prueba, de forma que el modelo acústico 112 coincidirá notablemente con la voz del usuario final. Un modelo acústico individualizado que esté personalizado para un único hablante también se denomina un modelo acústico dependiente del orador (SD). La generación de un modelo acústico SD por lo generalrequiere que el usuario final proporcione una gran cantidad de muestras de entrenamiento supervisadas. Primero, elusuario debe proporcionar muestras de entrenamiento para una gran variedad de clases de formas de habla. Además, con el fin de conseguir las mejores prestaciones, el usuario final debe proporcionar múltiples plantillas, que representen una variedad de posibles entornos acústicos para cada clase de emisión vocal. Debido a que la mayoríade los usuarios son incapaces o están poco dispuestos a proporcionar la voz de entrada necesaria para generar unmodelo acústico SD, muchos sistemas de VR existentes, en lugar de esto, usan modelos acústicos generalizadosque están entrenados usando la voz de muchos hablantes “representativos”. Se hace referencia a dichos modelosacústicos como modelos acústicos independientes del orador (SI), y están diseñados para tener las mejores prestaciones sobre una amplia gama de usuarios. Los modelos acústicos SI, sin embargo, pueden no estar optimizados para cualquier usuario único. Un sistema de VR que use un modelo acústico SI no funcionará tan bienpara un usuario específico como un sistema de VR que use un modelo acústico SD personalizado para ese usuario.Para algunos usuarios, tales como los que tienen fuertes acentos extranjeros, las prestaciones de un sistema de VR que use un modelo acústico SI pueden ser tan pobres que no puedan usar de manera efectiva los servicios de VRen absoluto.
De manera óptima, un modelo acústico SD sería generado para cada usuario independiente. Como se ha expuestocon anterioridad, la construcción de modelos acústicos SD que usen entrenamiento supervisado no es práctica. Peroel uso de entrenamiento no supervisado para generar un modelo acústico SD puede llevar mucho tiempo, durante elque las prestaciones de VR basadas en un modelo acústico SD parcial pueden ser muy pobres. Existe una necesidad en la técnica de un sistema de VR que funcione razonablemente bien antes y durante la generación de unmodelo acústico SD usando el entrenamiento no supervisado.
Se reclama atención al documento EP-A-1 011 094, que se refiere a un procedimiento para impedir la adaptación apalabras mal reconocidas en sistemas de reconocimiento automático de voz en línea o no supervisados. Se usan medidas de confianza o bien la reacción del usuario se interpreta para decidir si debería usarse o no un fonemareconocido, varios fonemas, una palabra, varias palabras o una emisión vocal completa para la adaptación delconjunto modelo independiente del orador al conjunto modelo adaptado al orador y, en caso de que se ejecute unaadaptación, con cuánta energía debería realizarse la adaptación con esta emisión vocal reconocida, o parte de estaemisión vocal reconocida. Además, se propone una verificación de las prestaciones de la adaptación al orador paraasegurar que la tasa de reconocimiento nunca disminuye, sino que sólo aumenta o permanece en el mismo nivel.
Resumen
De acuerdo a la presente invención, se proporciona un procedimiento para realizar el reconocimiento de la voz,según lo que se declara en la reivindicación 1. Realizaciones adicionales se reivindican en las reivindicaciones dependientes.
Los procedimientos y aparatos descritos en este documento están dirigidos a un novedoso y mejorado sistema dereconocimiento de voz (VR) que utiliza una combinación de modelos acústicos independientes del orador (SI) ydependientes del orador (SD). Al menos un modelo acústico SI se usa en combinación con al menos un modeloacústico SD para proporcionar un nivel prestaciones del reconocimiento de voz que al menos iguale el de un modeloacústico puramente SI. El sistema híbrido revelado SI / SD de VR usa de manera continua entrenamiento nosupervisado para actualizar las plantillas acústicas en uno o más modelos acústicos SD. El sistema híbrido de VRusa después los modelos acústicos SD actualizados, solos o en combinación con al menos un modelo acústico SI,para proporcionar prestaciones de VR mejoradas durante la prueba del VR.
La palabra “ejemplar” se usa en este documento para significar “que sirve como un ejemplo, caso o ilustración”.Cualquier realización descrita como una “realización ejemplar” no ha de interpretarse necesariamente como preferida o ventajosa con respecto a otra realización.
Breve descripción de los dibujos
Las características, objetos y ventajas del procedimiento y del aparato descritos en la presente se harán másevidentes a partir de la siguiente descripción detallada expuesta a continuación, cuando se considere junto con losdibujos, en los que idénticos caracteres de referencia identifican de manera correspondiente en todo el documento, yen los que:
la FIG. 1 muestra un sistema básico de reconocimiento de voz;
la FIG. 2 muestra un sistema de reconocimiento de voz de acuerdo a una realización ejemplar;
la FIG. 3 muestra un procedimiento para realizar el entrenamiento no supervisado.
la FIG. 4 muestra un enfoque ejemplar para generar una plantilla de apareo combinada usada en el entrenamiento no supervisado.
la FIG. 5 es un diagrama de flujo que muestra un procedimiento para realizar el reconocimiento (prueba) de vozusando plantillas de apareo tanto independientes del orador (SI) como dependientes del orador (SD);
la FIG. 6 muestra un enfoque para generar una plantilla de apareo combinada a partir tanto de plantillas de apareoindependientes del orador (SI) como dependientes del orador (SD); y
E07014802 03-11-2011
Descripción detallada
La FIG. 2 muestra una realización ejemplar de un sistema de reconocimiento de voz (VR) híbrido como se podríaimplementar dentro de una estación remota inalámbrica 202. En una realización ejemplar, la estación remota 202 se comunica a través de un canal inalámbrico (que no se muestra) con una red de comunicaciones inalámbrica (que nose muestra). Por ejemplo, la estación remota 202 puede ser un teléfono inalámbrico que comunique con un sistema de teléfono inalámbrico. Alguien que sea experto en la técnica reconocerá que las técnicas descritas en estedocumento se pueden aplicar de igual manera a un sistema de VR que sea fijo (no portátil) o que no implique uncanal inalámbrico.
En la realización mostrada, las señales de voz de un usuario se convierten en señales eléctricas en un micrófono(MIC) 210 y se convierten en muestras digitales de voz en un convertidor de analógico a digital (ADC) 212. El flujo de muestras digitales se filtra después usando un filtro 214 de preénfasis (PE), por ejemplo un filtro de respuestafinita al impulso (FIR) que atenúa los componentes de la señal de baja frecuencia.
Las muestras filtradas se analizan después en una unidad 216 de extracción de las características acústicas (AFE). La unidad AFE 216 convierte las muestras digitales de voz en vectores de características acústicas. En una realización ejemplar, la unidad AFE 216 realiza una transformada de Fourier sobre un segmento de muestras digitales consecutivas para generar un vector de intensidades de señal correspondientes a diferentes compartimentos de frecuencia. En una realización ejemplar, los compartimentos de frecuencia tienen anchos debanda variables de acuerdo a una escala de tonos del habla. En una escala de tonos del habla, el ancho de banda de cada compartimento de frecuencia soporta una relación respecto a la frecuencia central del compartimento, deforma que los compartimentos de frecuencia más alta tienen bandas de frecuencia más anchas que los compartimentos de frecuencia más baja. La escala de tonos del habla se describe en el documento de Rabiner, L. R.y Juang, B. H., “FUNDAMENTOS DEL RECONOCIMIENTO DE VOZ”, Prentice-Hall, 1993 y es bien conocida en latécnica.
En una realización ejemplar, cada vector de características acústicas se extrae de una serie de muestras de voz recogidas durante un intervalo de tiempo fijo. En una realización ejemplar, estos intervalos de tiempo se solapan. Por ejemplo, las características acústicas se pueden obtener a partir de intervalos de 20 ms de datos de voz que comienzan cada diez milisegundos, de forma que cada dos intervalos consecutivos comparten un segmento de 10ms. Alguien que sea experto en la técnica reconocería que, en lugar de esto, los intervalos de tiempo podrían no sersolapados o podrían tener una duración no fijada sin apartarse del alcance de las realizaciones descritas en estedocumento.
Los vectores de características acústicas generados por la unidad AFE 216 se entregan a un motor 220 de VR, querealiza el apareo de patrones para caracterizar el vector de características acústicas en base al contenido de uno omás modelos acústicos, 230, 232 y 234.
En la realización ejemplar mostrada en la FIG. 2, se muestran tres modelos acústicos: un modelo 230 de Markov Oculto (HMM) independiente del orador, un modelo 232 de Distorsión Dinámica en el Tiempo (DTW) independiente del orador, y un modelo acústico 234 dependiente del orador (SD). Alguien que sea experto en la técnica reconoceráque se pueden usar diferentes combinaciones de modelos acústicos SI en realizaciones alternativas. Por ejemplo,una estación remota 202 podría incluir solamente el modelo acústico SIHMM 230 y el modelo acústico SD 234 yomitir el modelo acústico SIDTW 232. De manera alternativa, una estación remota 202 podría incluir un únicomodelo acústico SIHMM 230, un modelo acústico SD 234 y dos modelos acústicos SIDTW diferentes 232. Además, alguien que sea experto en la técnica reconocerá que el modelo acústico SD 234 puede ser del tipo HMM o del tipoDTW o una combinación de los dos. En una realización ejemplar, el modelo acústico SD 234 es un modelo acústicoDTW.
Como se ha descrito anteriormente, el motor 220 de VR realiza un apareo de patrones para determinar el grado decoincidencia entre los vectores de características acústicas y el contenido de uno o más modelos acústicos 230, 232 y 234. En una realización ejemplar, el motor 220 de VR genera plantillas de apareo en base al apareo de losvectores de características acústicas con las diferentes plantillas acústicas en cada uno de los modelos acústicos230, 232 y 234. Por ejemplo, el motor 220 de VR genera plantillas de apareo HMM en base a un conjunto devectores de características acústicas con múltiples plantillas HMM en el modelo acústico SIHMM 230. Igualmente, el motor 220 de VR genera plantillas de apareo DTW en base al apareo de los vectores de características acústicas con múltiples plantillas DTW en el modelo acústico SIDTW 232. El motor 220 de VR genera plantillas de apareo enbase al apareo de los vectores de características acústicas con las plantillas del modelo acústico SD 234.
Como se ha descrito anteriormente, cada plantilla en un modelo acústico está asociada a una clase de emisiónvocal. En una realización ejemplar, el motor 220 de VR combina plantillas para las plantillas asociadas a la misma clase de emisión vocal para crear una plantilla de apareo combinada, para su uso en el entrenamiento sin supervisión. Por ejemplo, el motor 220 de VR combina plantillas de SIHMM y SIDTW obtenidas a partir de la correlación de un conjunto de entrada de vectores de características acústicas para generar una plantilla SIcombinada. En base a esa plantilla de apareo combinada, el motor 220 de VR determina si almacena o no el conjunto de entrada de vectores de características acústicas como una plantilla SD en el modelo acústico SD 234. En una realización ejemplar, el entrenamiento sin supervisión para actualizar el modelo acústico 234 se realiza usando exclusivamente plantillas de apareo SI. Esto evita errores aditivos que en cualquier otro caso podríanresultar del uso de un modelo acústico SD evolutivo 234 para el autoentrenamiento sin supervisión. A continuaciónse describe con mayor detalle un procedimiento ejemplar para realizar este entrenamiento sin supervisión.
Además del entrenamiento sin supervisión, el motor 220 de VR usa los diversos modelos acústicos (230, 232, 234)durante la prueba. En una realización ejemplar, el motor 220 de VR recupera las plantillas de apareo de los modelos acústicos (230, 232, 234) y genera plantillas de apareo combinadas para cada clase de emisión vocal. Las plantillasde apareo combinadas se usan para seleccionar la clase de emisión vocal que mejor se adapte a la voz de entrada.
E07014802 03-11-2011
El motor 220 de VR agrupa entre sí las clases de emisión vocal consecutivas según sea necesario para reconocerpalabras o frases completas. El motor 220 de VR proporciona entonces información acerca de la palabra o la frase reconocida a un procesador 222 de control, que usa la información para determinar la respuesta apropiada a lainformación o comando de voz. Por ejemplo, en respuesta a la palabra o frase reconocida, el procesador 222 de control puede proporcionar realimentación al usuario a través de una pantalla o de otra interfaz de usuario. En otro ejemplo, el procesador 222 de control puede enviar un mensaje a través de un módem inalámbrico 218 y una antena 224 a una red inalámbrica (que no se muestra), iniciando una llamada de un teléfono móvil a un número de teléfonode destino asociado a la persona cuyo nombre fue pronunciado y reconocido.
El módem inalámbrico 218 puede transmitir señales a través de cualquiera entre una gran variedad de tipos de canalinalámbrico, incluyendo CDMA, TDMA o FDMA. Además, el módem inalámbrico 218 puede ser sustituido por otrostipos de interfaces de comunicaciones que comunican sobre un canal inalámbrico sin apartarse del alcance de lasrealizaciones descritas. Por ejemplo, la estación remota 202 puede transmitir información de señalización a travésde cualquiera entre una gran variedad de tipos de canal de comunicaciones, incluyendo módems de línea terrestre,T1/E1, RDSI, DSL, Ethernet o incluso pistas sobre una placa de circuitos impresos (PCB).
La FIG. 3 es un diagrama de flujo que muestra un procedimiento ejemplar para realizar el entrenamiento sin supervisión. En la etapa 302, se muestrean datos analógicos de voz en un convertidor de analógico a digital (ADC) (212 en la FIG. 2). El flujo de muestras digitales se filtra después en la etapa 304 usando un filtro de preénfasis (PE) (214 en la FIG. 2). En la etapa 306, se extraen los vectores de características acústicas de entrada de las muestras filtradas en una unidad de extracción de características acústicas (AFE) (216 en la FIG. 2). El motor de VR (220 en la FIG. 2) recibe los vectores de características acústicas de entrada desde la unidad AFE 216 y realiza el apareo depatrones de los vectores de características acústicas de entrada frente al contenido de los modelos acústicos SI(230 y 232 en la FIG. 2). En la etapa 308, el motor 220 de VR genera plantillas de apareo a partir de los resultados del apareo de patrones. El motor 220 de VR genera plantillas de apareo SIHMM mediante el apareo de los vectoresde características acústicas de entrada con el modelo acústico SIHMM 230, y genera plantillas de apareo SIDTWmediante el apareo de los vectores de características acústicas de entrada con el modelo acústico SIDTW 232. Cada plantilla acústica en los modelos acústicos SIHMM y SIDTW (230 y 232) está asociada a una clase de emisión vocal particular. En la etapa 310, las plantillas SIHMM y SIDTW se combinan para formar plantillas de apareo combinadas.
La FIG. 4 muestra la generación de plantillas de apareo combinadas para su uso en el entrenamiento sin supervisión. En la realización ejemplar mostrada, la plantilla de apareo combinada independiente del orador SCOMB_SI para una clase particular de emisión vocal es una suma ponderada de acuerdo a la ecuación 1, como se muestra, enla que:
SIHMMT es la plantilla de apareo SIHMM para la clase de emisión vocal de destino;
SIHMMNT es la siguiente mejor plantilla de apareo para una plantilla en el modelo acústico SIHMM que estáasociada a una clase de emisión vocal no de destino (una clase de emisión vocal distinta a la clase de emisión vocal de destino);
SIHMMG es la plantilla de apareo SIHMM para la clase de emisión vocal “inservible”;
SIDTWT es la plantilla de apareo para la clase de emisión vocal de destino;
SIDTWNT es la siguiente mejor plantilla de apareo para una plantilla en el modelo acústico SIDTW que está asociada a una clase de emisión vocal no de destino; y
SIDTWG es la plantilla de apareo SIDTW para la clase de emisión vocal “inservible”.
Las distintas plantillas de apareo individuales SIHMMn y SIDTWn pueden verse como representantes de un valor dedistancia entre una serie de vectores de características acústicas de entrada y una plantilla en el modelo acústico.Cuanto mayor es la distancia entre los vectores de características acústicas de entrada y una plantilla, mayor es laplantilla de apareo. Una coincidencia próxima entre una plantilla y los vectores de características acústicas de entrada produce una plantilla de apareo muy bajo. Si la comparación de una serie de vectores de característicasacústicas de entrada con dos plantillas asociadas a diferentes clases de emisión vocal produce dos plantillas deapareo que son casi iguales; entonces el sistema de VR puede ser incapaz de reconocer qué clase de emisión vocales la “correcta”.
SIHMMG y SIDTWG son plantillas de apareo para las clases de emisión vocal “inservible”. La plantilla o las plantillasasociadas a la clase de emisión vocal inservible se denominan plantillas de información inservible y no corresponden a una palabra o frase específica. Por esta razón, tienden a estar igualmente incorrelacionadas con respecto a toda lavoz de entrada. Las plantillas de apareo de información inservible son útiles como una clase de medición de fondo del ruido en un sistema de VR. Generalmente, una serie de vectores de características acústicas de entrada debería tener un grado mucho mejor de apareo con una plantilla asociada a una clase de emisión vocal de destino que con la plantilla de información inservible antes de que pueda reconocerse de manera segura la clase de emisión vocal.
Antes de que el sistema de VR pueda reconocer de manera segura una clase de emisión vocal como la “correcta”,los vectores de características acústicas de entrada deberían tener un grado más alto de coincidencia con lasplantillas asociadas a esa clase de emisión vocal que con las plantillas de información inservible o con las plantillasasociadas a otras clases de emisión vocal. Las plantillas de apareo combinadas generadas a partir de una granvariedad de modelos acústicos pueden discriminar de manera segura entre clases de emisión vocal que las plantillasde apareo basadas solamente en un modelo acústico. En una realización ejemplar, el sistema de VR usa dichasplantillas de apareo combinadas para determinar si sustituye o no una plantilla en el modelo acústico SD (234 en la FIG. 2) por una obtenida a partir de un nuevo conjunto de vectores de características acústicas de entrada.
65 E07014802 03-11-2011
Los factores de ponderación (W1,..., W6) se seleccionan para proporcionar las mejores prestaciones deentrenamiento sobre todos los entornos acústicos. En una realización ejemplar, los factores de ponderación (W1,..., W6) son constantes para todas las clases de emisión vocal. En otras palabras, el Wn usado para crear la plantilla deapareo combinada para una primera clase de emisión vocal de destino es el mismo que el valor Wn usado para crearla plantilla de apareo combinada para otra clase de emisión vocal de destino. En una realización alternativa, los factores de ponderación varían en base a la clase de emisión vocal de destino. Otras formas de combinaciónmostradas en la FIG. 4 serán obvias para alguien que sea experto en la técnica, y deben verse dentro del alcance delas realizaciones descritas en este documento. Por ejemplo, se pueden usar también más de seis o menos de seisentradas ponderadas. Otra variación obvia sería generar una plantilla de apareo combinada basada en un tipo demodelo acústico. Por ejemplo, se podría generar una plantilla de apareo combinada en base a SIHMMT, SIHMMNT ySIHMMG. O se podría generar una plantilla de apareo combinada en base a SIDTWT, SIDTWNT y SIDTWG.
En una realización ejemplar, W1 y W4 son números negativos, y un valor mayor (o menos negativo) de SCOMB indica un mayor grado de coincidencia (distancia menor) entre una clase de emisión vocal de destino y una serie devectores de características acústicas de entrada. Alguien que sea experto en la técnica apreciará que los signos delos factores de ponderación pueden ser fácilmente redispuestos de forma que un grado mayor de coincidencia corresponda a un valor menor sin apartarse del alcance de las realizaciones descritas.
Volviendo de nuevo a la FIG. 3, en la etapa 310, se generan plantillas de apareo combinadas para las clases deemisión vocal asociadas a las plantillas en los modelos acústicos HMM y DTW (230 y 232). En una realizaciónejemplar, se generan plantillas de apareo solamente para las clases de emisión vocal asociadas a las mejores n plantillas de apareo SIHMM y para las clases de emisión vocal asociadas a las mejores m plantillas de apareoSIDTW. Este límite puede ser deseable para conservar recursos de cómputo, incluso aunque se consuma una cantidad mucho mayor de potencia de cómputo a la vez que se generan las plantillas de apareo individuales. Porejemplo, si n=m=3, se generan plantillas de apareo combinados para las clases de emisión vocal asociadas a lostres primeros SIHMM y las clases de emisión vocal asociadas a las tres primeras plantillas de apareo SIDTW. Según que las clases de emisión vocal asociadas a las tres primeras plantillas de apareo SIHMM sean o no las mismas que las clases de emisión vocal asociadas a las tres primeras plantillas de apareo SIDTW, este enfoque producirá entretres y seis plantillas distintas de apareo combinadas.
En la etapa 312, la estación remota 202 compara las plantillas de apareo combinadas con las plantillas de apareocombinadas almacenadas con las correspondientes plantillas (asociadas a la misma clase de emisión vocal) en elmodelo acústico SD. Si la nueva serie de vectores de características acústicas de entrada tiene un grado mayor decoincidencia que los de una plantilla más antigua almacenada en el modelo SD para la misma clase de emisiónvocal, entonces se genera una nueva plantilla SD a partir de la nueva serie de vectores de características acústicasde entrada. En una realización en la que un modelo acústico SD sea un modelo acústico DTW, la serie de vectoresde características acústicas de entrada por sí sola constituye la nueva plantilla SD. La vieja plantilla se sustituyeentonces por la nueva plantilla y la plantilla de apareo combinada asociada a la nueva plantilla se almacena en el modelo acústico SD para su uso en comparaciones futuras.
En una realización alternativa, el entrenamiento sin supervisión se usa para actualizar una o más plantillas en unmodelo acústico de Markov Oculto dependiente del orador (SDHMM). Este modelo acústico SDHMM se podría usarbien en lugar de un modelo SDHMM o bien además de un modelo acústico SDDTW dentro del modelo acústico SD
234.
En una realización ejemplar, la comparación en la etapa 312 incluye también la comparación de la plantilla deapareo combinada de una nueva plantilla SD probable con un umbral de entrenamiento constante. Incluso si nohubiese todavía ninguna plantilla almacenada en un modelo acústico SD para una clase de emisión vocal particular,no se almacenará una nueva plantilla en el modelo acústico SD a menos que haya una plantilla de apareocombinada que sea mejor (que indique un grado mayor de coincidencia) que el valor umbral de entrenamiento.
En una realización alternativa, antes de que se haya sustituido cualquier plantilla del modelo acústico SD, el modeloacústico SD se puebla por omisión con plantillas del modelo acústico SI. Dicha inicialización proporciona unaaproximación alternativa para asegurar que las prestaciones del VR que usa el modelo acústico SD comenzarán almenos tan bien como las prestaciones del VR que usa solamente el modelo acústico SI. Cuantas más y másplantillas del modelo acústico SD se actualicen, las prestaciones del VR que use el modelo acústico SD sobrepasarán las prestaciones del VR que usa sólo el modelo acústico SI.
En una realización alternativa, el sistema de VR permite a un usuario realizar el entrenamiento supervisado. Elusuario debe poner al sistema de VR en una modalidad de entrenamiento supervisado antes de realizar dicho entrenamiento supervisado. Durante el entrenamiento supervisado, el sistema de VR tiene un conocimiento a prioride la clase de emisión vocal correcta. Si la plantilla de apareo combinada para la voz de entrada es mejor que la plantilla de apareo combinada para la plantilla SD anteriormente almacenada para esa clase de emisión vocal,entonces la voz de salida se usa para formar una plantilla SD sustituta. En una realización alternativa, el sistema deVR permite al usuario forzar la sustitución de las plantillas SD existentes durante el entrenamiento supervisado.
El modelo acústico SD puede ser diseñado con espacio para múltiples (dos o más) plantillas para una única clase deemisión vocal. En una realización ejemplar, se almacenan dos plantillas en el modelo acústico SD para cada clasede emisión vocal. La comparación en la etapa 312 supone por lo tanto la comparación de la plantilla de apareoobtenida con una nueva plantilla con las plantillas de apareo obtenidas para ambas plantillas en el modelo acústicoSD para la misma clase de emisión vocal. Si la nueva plantilla tiene una mejor plantilla de apareo que cualquiera delas antiguas plantillas del modelo acústico SD, entonces en la etapa 314 la plantilla del modelo acústico SD que tenga la peor plantilla de apareo es sustituida por la nueva plantilla. Si la plantilla de apareo de la nueva plantilla no es mejor que cualquier plantilla antigua, entonces se omite la etapa 314. De manera adicional, en la etapa 312, la plantilla de apareo obtenida con la nueva plantilla se compara con un umbral de plantilla de apareo. Así, hasta quese almacenen en el modelo acústico SD nuevas plantillas que tengan una plantilla de apareo que sea mejor que el
E07014802 03-11-2011
umbral, las nuevas plantillas son comparadas con este valor de umbral antes de que sean usadas para sobrescribirel contenido anterior del modelo acústico SD. Se anticipan y se consideran dentro del alcance de las realizacionesdescritas en este documento variaciones obvias, tales como el almacenamiento de las plantillas del modelo acústicoSD en orden clasificado de acuerdo a la plantilla de apareo combinada y la comparación de nuevas plantillas deapareo solamente con las más bajas. También se anticipan variaciones obvias acerca de los números de plantillas almacenadas en el modelo acústico para cada clase de emisión vocal. Por ejemplo, el modelo acústico SD puede contener más de dos plantillas para cada clase de emisión vocal, o puede contener diferentes números de plantillaspara diferentes clases de emisiones vocales.
La FIG. 5 es un diagrama de flujo que muestra un procedimiento ejemplar para realizar la prueba del VR usando unacombinación de modelos acústicos SI y SD. Las etapas 302, 304, 306 y 308 son las mismas que las descritas para la FIG. 3. El procedimiento ejemplar se diferencia del procedimiento mostrado en la FIG. 3 en la etapa 510. En la etapa 510, el motor 220 de VR genera plantillas de apareo SD basadas en la comparación de los vectores decaracterísticas acústicas de entrada con las plantillas en el modelo acústico SD. En una realización ejemplar, lasplantillas de apareo SD se generan solamente para las clases de emisión vocal asociadas a las n mejores plantillas de apareo SIHMM y las m mejores plantillas de apareo SIDTW. En una realización ejemplar, n = m = 3. Según el grado de solapamiento entre los dos conjuntos de clases de emisiones vocales, esto dará como resultado lageneración de plantillas de apareo SD para entre tres y seis clases de emisiones vocales. Como se ha expuesto conanterioridad, el modelo acústico SD puede contener múltiples plantillas para una clase de emisión vocal única. En la etapa 512, el motor 220 de VR genera plantillas de apareo combinadas híbridas para su uso en la prueba del VR. Enuna realización ejemplar, estas plantillas de apareo combinadas híbridas se basan tanto en las plantillas individualesde apareo SI como en las plantillas individuales de apareo SD. En la etapa 514, se selecciona la palabra o laemisión vocal que tiene la mejor plantilla de apareo combinada y se compara con un umbral de prueba. Una emisiónvocal solamente se considera como reconocida si su plantilla de apareo combinada sobrepasa este umbral. En unarealización ejemplar, los pesos [W1, ..., W6] usados para generar plantillas combinadas para el entrenamiento (como se muestra en la FIG. 4) son iguales a los pesos [W1, ..., W6] usados para generar plantillas combinadas para prueba (como se muestra en la FIG. 6), pero el umbral de entrenamiento no es igual al umbral de prueba.
La FIG. 6 muestra la generación de plantillas de apareo combinadas híbridas realizada en la etapa 512. La realización ejemplar mostrada funciona de manera idéntica al combinador mostrado en la FIG. 4, excepto que el factor de ponderación W4 se aplica a DTWT en lugar de a SIDTWT y el factor de ponderación W5 se aplica a DTWNT en lugar de SIDTWNT. DTWT (la plantilla de apareo de Distorsión Dinámica en el Tiempo para la clase de emisiónvocal de destino) se selecciona a partir de la mejor de las plantillas SIDTW y SDDTW asociadas a la clase deemisión vocal de destino. De manera similar, DTWNT (la plantilla de apareo de Distorsión Dinámica en el Tiempopara las restantes clases de emisión vocal no de destino) se selecciona a partir de las mejores plantillas SIDTW ySDDTW asociadas a clases de emisión vocal no de destino.
La plantilla híbrida SI/SD SCOMB_H para una clase de emisión vocal particular es una suma ponderada de acuerdo a la ecuación 2, como se muestra, donde SIHMMT, SIHMMNT, SIHMMG y SIDTWG son los mismos que en la ecuación
1. De manera específica, en la ecuación 2:
SIHMMT es la plantilla de apareo SIHMM para la clase de emisión vocal de destino;
SIHMMNT es la siguiente mejor plantilla de apareo para una plantilla en el modelo acústico SIHMM que está asociada a una clase de emisión vocal no de destino (una clase de emisión vocal distinta a la clase de emisión vocal de destino);
SIHMMG es la plantilla de apareo SIHMM para la clase de emisión vocal “inservible”;
DTWT es la mejor plantilla de apareo DTW para las plantillas SI y SD correspondientes a las clases de emisión vocalde destino;
DTWNT es la mejor plantilla de apareo DTW para las plantillas SI y SD correspondientes a las clases de emisión vocal no de destino; y
SIDTWG es la plantilla de apareo SIDTW para la clase de emisión vocal “inservible”.
De esta forma, la referencia híbrida SI/SD SCOM_H es una combinación de plantillas de apareo SI y SD individuales.La plantilla de apareo de combinación resultante no depende enteramente de ninguno de los modelos acústicos SI oSD. Si la plantilla de apareo SIDTWT es mejor que cualquier plantilla SDDTWT, entonces la referencia híbrida SI/SD se calcula a partir de la mejor referencia SIDTWT. De manera similar, si la plantilla de apareo SDDTWT es mejor que cualquier plantilla SIDTWT, entonces la plantilla híbrida SI/SD se calcula a partir de la mejor plantilla SDDTWT. Como resultado de esto, si las plantillas en el modelo acústico SD producen plantillas de apareo pobres, el sistema de VRpuede reconocer aún la voz de entrada en base a las partes SI de las plantillas híbridas SI/SD. Dichas plantillaspobres de apareo SD podrían tener una gran variedad de causas, incluyendo diferencias entre entornos acústicos durante el entrenamiento y las pruebas, o quizá una entrada de pobre calidad usada para el entrenamiento.
En una realización alternativa, la plantillas SI son ponderadas de una manera menos pesada que las plantillas SD, oincluso pueden ser ignoradas por completo. Por ejemplo, DTWT se selecciona entre las mejores plantillas SDDTWasociadas a la clase de emisión vocal de destino, ignorando las plantillas SIDTW para la clase de emisión vocal dedestino. También, DTWT se puede seleccionar a partir de las mejores plantillas bien de SIDTW o bien de SDDTW,asociadas a clases de emisión vocal no de destino, en lugar de usar ambos conjuntos de plantillas.
Aunque la realización ejemplar se describe usando solamente modelos acústicos SDDTW para la modelizacióndependiente del orador, la aproximación híbrida descrita en este documento es igualmente aplicable a un sistema deVR que use modelos acústicos SDHMM o incluso una combinación de modelos acústicos SDDTW y SDHMM. Por ejemplo, mediante la modificación de la aproximación mostrada en la FIG. 6, el factor de ponderación W1 se podría
E07014802 03-11-2011
aplicar a una plantilla de apareo seleccionada entre las mejores plantillas SIHMMT y SDHMMT. El factor de ponderación W2 se podría aplicar a una plantilla de apareo seleccionada entre las mejores plantillas SIHMMNT ySDHMMNT.
De esta forma, se describe en este documento un procedimiento y un aparato de VR que utilizan una combinaciónde modelos acústicos SI y SD para prestaciones mejoradas de VR durante el entrenamiento sin supervisión y la prueba. Los que sean expertos en la técnica comprenderán que la información y las señales pueden serrepresentadas usando cualquiera entre una gran variedad de diferentes tecnologías y técnicas. Por ejemplo, datos,instrucciones, órdenes, información, señales, bits, símbolos y segmentos a los que se puede hacer referencia a lolargo de toda la descripción anterior, pueden ser representados por medio de tensiones, corrientes, ondas electromagnéticas, campos magnéticos o partículas magnéticas, campos ópticos o partículas ópticas o cualquier combinación de los mismos. También, aunque las realizaciones se describen en primer lugar en términos demodelos acústicos tales como el modelo de Distorsión Dinámica en el Tiempo (DTW) o el modelo de Markov Oculto (HMM), las técnicas descritas se pueden aplicar a otros tipos de modelos acústicos tales como modelos acústicos deredes neuronales.
Los que sean expertos en la técnica apreciarán además que los varios bloques lógicos, módulos, circuitos y etapas de algoritmos ilustrativos descritos con respecto a las realizaciones reveladas en este documento se puedenimplementar como hardware electrónico, software de ordenador o una combinación de ambos. Para ilustrar demanera clara esta capacidad de intercambiabilidad entre hardware y software, se han descrito anteriormente varioscomponentes, bloques, módulos, circuitos y etapas ilustrativos, generalmente en términos de su funcionalidad. Si seimplementa dicha funcionalidad como hardware o software depende de la aplicación particular y de las restricciones del diseño impuestas sobre el sistema global. Los expertos pueden implementar la funcionalidad descrita de variasmaneras para cada aplicación particular, pero dichas decisiones de implementación no se deberían interpretar comocausantes de un alejamiento del alcance de la presente invención.
Los diversos bloques lógicos, módulos y circuitos ilustrativos descritos con relación a las realizaciones descritas eneste documento se pueden implementar o realizar con un procesador de propósito general, un procesador de señales digitales (DSP), un circuito integrado específico de la aplicación (ASIC), una matriz de compuertasprogramable en el terreno (FPGA) u otro dispositivo lógico programable, compuerta discreta o lógica de transistores,componentes de hardware discretos o cualquier combinación de los mismos diseñada para realizar las funcionesdescritas en este documento. Un procesador de propósito general puede ser un microprocesador, pero comoalternativa, el procesador puede ser cualquier procesador convencional, controlador, microcontrolador o máquina de estados. Un procesador también se puede implementar como una combinación de dispositivos de computación, porejemplo, una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o másmicroprocesadores junto con un núcleo de DSP o cualquier otra de tales configuraciones.
Las etapas de un procedimiento o algoritmo descrito con relación a las realizaciones descritas en este documento sepueden realizar directamente en hardware, en un módulo de software ejecutado por un procesador o en una combinación de los dos. Un módulo de software puede residir en memoria RAM, en memoria flash, en memoriaROM, en memoria EPROM, en memoria EEPROM, en registros, en disco duro, en un disco extraíble, en un CD-ROM o en cualquier otro formato de medio de almacenamiento conocido en la técnica. Un medio de almacenamiento ejemplar se acopla al microprocesador de forma tal que el microprocesador pueda leer la información de, y escribir información en, el medio de almacenamiento. Como alternativa, el medio de almacenamiento puede estar integrado en el procesador. El procesador y el medio de almacenamiento puedenresidir en un ASIC. Como alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.
La descripción anterior de las realizaciones descritas se proporciona para permitir a una persona experta en latécnica hacer o usar la presente invención. Varias modificaciones a estas realizaciones serán inmediatamente evidentes para los expertos en la técnica, y los principios genéricos definidos en este documento se pueden aplicar aotras realizaciones sin apartarse del alcance de la invención, según lo definido por las reivindicaciones.
E07014802 03-11-2011

Claims (18)

  1. REIVINDICACIONES
    1. Un procedimiento para realizar el reconocimiento de voz que comprende:
    realizar el apareo de patrones de un primer segmento de voz de entrada con al menos una primera plantilla acústicade un modelo acústico (230, 232) independiente del orador, para producir al menos una plantilla de apareo depatrones de entrada y para determinar una clase de emisión vocal reconocida, en el cual la clase de emisión vocal es una palabra o segmento de habla específico;
    comparar dicha(s) plantilla(s) de apareo de patrones de entrada con una plantilla correspondiente asociada a almenos una segunda plantilla acústica proveniente del modelo acústico (234) del orador de la primera voz de entrada, la segunda plantilla acústica asociada a la clase de emisión vocal reconocida; y
    determinar si se actualiza o no dicha(s) segunda(s) plantilla(s) acústica(s), en donde dicha(s) segunda(s) plantilla(s) acústica(s) se actualiza(n) si dicha(s) plantilla(s) de apareo de patrones de entrada es (son) mejor(es) que lacorrespondiente plantilla asociada a dicha(s) segunda(s) plantilla(s) acústica(s).
  2. 2. El procedimiento de la reivindicación 1, en el cual la realización del apareo de patrones comprende adicionalmente:
    realizar el apareo de patrones (230) del modelo oculto de Markov (HMM) del primer segmento de voz de entrada con al menos una plantilla HMM, para generar al menos una plantilla HMM de apareo;
    realizar el apareo de patrones (232) de la distorsión dinámica en el tiempo (DTW) con al menos una plantilla deDTW, para generar al menos una plantilla de apareo DTW; y
    realizar al menos una suma ponderada de al menos una plantilla de apareo HMM y al menos una plantilla de apareoDTW para generar al menos una plantilla de apareo del patrón de entrada.
  3. 3. El procedimiento de la reivindicación 1, que comprende adicionalmente:
    generar al menos una plantilla de apareo independiente del orador, realizando el apareo de patrones de un segundosegmento de voz de entrada con al menos una primera plantilla acústica, en donde al menos dicha primera plantillaacústica es independiente del orador;
    generar al menos una plantilla de apareo dependiente del orador, realizando el apareo de patrones de un segundo segmento de voz de entrada con al menos dicha segunda plantilla acústica, en donde dicha al menos una plantillaacústica es dependiente del orador; y
    combinar dicha al menos una plantilla de apareo independiente del orador con dicha al menos una plantilla deapareo dependiente del orador para generar al menos una plantilla de apareo combinada.
  4. 4.
    El procedimiento de la reivindicación 3, que comprende adicionalmente identificar la clase de emisión vocal asociada a la mejor entre dicha(s) plantilla(s) de apareo combinada(s).
  5. 5.
    El procedimiento de la reivindicación 1, en el cual el procedimiento es adicionalmente para realizar el entrenamiento y prueba del reconocimiento de voz sin supervisión, que comprende:
    realizar en un motor (220) de reconocimiento de voz el apareo de patrones de la voz de entrada de un orador con elcontenido de un modelo acústico (230, 232) independiente del orador, para producir plantillas de apareo de patrones independientes del orador;
    comparar las plantillas de apareo de patrones independientes del orador con plantillas asociadas a plantillas de unmodelo acústico (234) dependiente del orador por el motor (220) de reconocimiento de voz, en donde el modeloacústico dependiente del orador está personalizado para el orador; y
    si las plantillas de apareo de patrones independientes del orador son mejores que las plantillas asociadas a plantillas del modelo acústico (234) dependiente del orador, generar una nueva plantilla para el modelo acústico (234)dependiente del orador, en base a las plantillas de apareo del patrón independiente del orador.
  6. 6.
    El procedimiento de la reivindicación 5, en el cual el modelo acústico (230, 232) independiente del oradorcomprende al menos un modelo acústico del modelo oculto de Markov (HMM).
  7. 7.
    El procedimiento de la reivindicación 5, en el cual el modelo acústico (230, 232) independiente del orador comprende al menos un modelo acústico de distorsión dinámica en el tiempo (DTW).
  8. 8.
    El procedimiento de la reivindicación 5, en el cual el modelo acústico (230, 232) independiente del oradorcomprende al menos un modelo acústico del modelo oculto de Markov (HMM) y al menos un modelo acústico dedistorsión dinámica en el tiempo (DTW).
  9. 9.
    El procedimiento de la reivindicación 5, en el cual el modelo acústico (230, 232) independiente del orador incluye al menos una plantilla de información inservible, en donde la comparación incluye comparar la voz de entrada condicha al menos una plantilla de información inservible.
  10. 10.
    El procedimiento de la reivindicación 5, en el cual el modelo acústico (234) dependiente del orador comprende almenos un modelo acústico de distorsión dinámica en el tiempo (DTW).
  11. 11.
    El procedimiento de la reivindicación 5, que comprende adicionalmente:
    configurar el motor (220) de reconocimiento de voz para comparar un segundo segmento de voz de entrada con elcontenido del modelo acústico independiente del orador y el modelo acústico dependiente del orador, para generaral menos una plantilla de apareo combinada, dependiente del orador e independiente del orador, e
    5 identificar una clase de emisión vocal con la mejor plantilla combinada de apareo dependiente del orador e independiente del orador.
  12. 12. El procedimiento de la reivindicación 11, en el cual el modelo acústico (230, 232) independiente del oradorcomprende al menos un modelo acústico (230) del modelo oculto de Markov (HMM).
  13. 13. El procedimiento de la reivindicación 11, en el cual el modelo acústico (230, 232) independiente del orador10 comprende al menos un modelo acústico (232) de distorsión dinámica en el tiempo (DTW).
  14. 14. El procedimiento de la reivindicación 11, en el cual el modelo acústico (230, 232) independiente del oradorcomprende al menos un modelo acústico (230) del modelo oculto de Markov (HMM) y al menos un modelo acústico
    (232) de distorsión dinámica del tiempo (DTW).
  15. 15. El procedimiento de la reivindicación 11, en el cual el modelo acústico (234) dependiente del orador comprende15 al menos un modelo acústico de distorsión dinámica del tiempo (DTW).
  16. 16. El procedimiento de la reivindicación 1, que comprende adicionalmente:
    realizar el apareo de patrones del segmento de voz de entrada con una plantilla acústica dependiente del orador,para generar al menos una plantilla de apareo dependiente del orador; y
    combinar dicha al menos una plantilla de apareo independiente del orador con dicha al menos una plantilla de
    20 apareo dependiente del orador para generar al menos una plantilla de apareo combinada, en donde cada plantilla de apareo combinada corresponde a una clase de emisión vocal y depende de la plantilla de apareo del patrónindependiente del orador para la clase de emisión vocal, y de la plantilla de apareo del patrón dependiente delorador para la clase de emisión vocal.
  17. 17. El procedimiento de la reivindicación 1, en el cual la etapa de realizar y la etapa de combinar son llevadas a cabo 25 por un motor (220) de reconocimiento de voz.
  18. 18. Un producto de programa de ordenador que comprende instrucciones que, cuando son ejecutadas por unprocesador, causan que el procesador realice un procedimiento de cualquiera de las reivindicaciones 1 a 17.
ES07014802T 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptación implícita al orador. Expired - Lifetime ES2371094T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/821,606 US20020143540A1 (en) 2001-03-28 2001-03-28 Voice recognition system using implicit speaker adaptation
US821606 2001-03-28

Publications (1)

Publication Number Publication Date
ES2371094T3 true ES2371094T3 (es) 2011-12-27

Family

ID=25233818

Family Applications (3)

Application Number Title Priority Date Filing Date
ES05025989T Expired - Lifetime ES2330857T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de voz que usa adaptacion implicita del que habla.
ES07014802T Expired - Lifetime ES2371094T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptación implícita al orador.
ES02725288T Expired - Lifetime ES2288549T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptacion implicita del hablante.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES05025989T Expired - Lifetime ES2330857T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de voz que usa adaptacion implicita del que habla.

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES02725288T Expired - Lifetime ES2288549T3 (es) 2001-03-28 2002-03-22 Sistema de reconocimiento de la voz que usa adaptacion implicita del hablante.

Country Status (13)

Country Link
US (1) US20020143540A1 (es)
EP (3) EP1628289B1 (es)
JP (5) JP2004530155A (es)
KR (6) KR100933108B1 (es)
CN (3) CN1531722B (es)
AT (3) ATE525719T1 (es)
AU (1) AU2002255863A1 (es)
DE (2) DE60233763D1 (es)
DK (1) DK1374223T3 (es)
ES (3) ES2330857T3 (es)
HK (2) HK1092269A1 (es)
TW (1) TW577043B (es)
WO (1) WO2002080142A2 (es)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
KR20050059766A (ko) * 2003-12-15 2005-06-21 엘지전자 주식회사 동적 시간 워핑을 이용한 음성 인식 방법
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7440894B2 (en) 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
WO2007132404A2 (en) * 2006-05-12 2007-11-22 Koninklijke Philips Electronics N.V. Method for changing over from a first adaptive data processing version to a second adaptive data processing version
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
US7552871B2 (en) * 2006-12-19 2009-06-30 Nordic Id Oy Method for collecting data fast in inventory systems and wireless apparatus thereto
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US9478216B2 (en) 2009-12-08 2016-10-25 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
EP3480811A1 (en) * 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US20170011406A1 (en) * 2015-02-10 2017-01-12 NXT-ID, Inc. Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
RU2704746C2 (ru) * 2015-08-24 2019-10-30 ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи Динамическая акустическая модель для транспортного средства
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102458805B1 (ko) 2017-04-20 2022-10-25 구글 엘엘씨 장치에 대한 다중 사용자 인증
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
CN111243606B (zh) * 2017-05-12 2023-07-21 苹果公司 用户特定的声学模型
EP3905242A1 (en) * 2017-05-12 2021-11-03 Apple Inc. User-specific acoustic models
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896673B1 (en) * 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
KR102263973B1 (ko) 2019-04-05 2021-06-11 주식회사 솔루게이트 인공지능 기반 일정관리 시스템
KR102135182B1 (ko) 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
EP4086904A1 (en) * 2019-12-04 2022-11-09 Google LLC Speaker awareness using speaker dependent speech model(s)

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6045298A (ja) * 1983-08-22 1985-03-11 富士通株式会社 単語音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
JPH01309099A (ja) * 1987-06-04 1989-12-13 Ricoh Co Ltd 音声応答装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH02232696A (ja) * 1989-03-06 1990-09-14 Toshiba Corp 音声認識装置
JP2989231B2 (ja) * 1989-10-05 1999-12-13 株式会社リコー 音声認識装置
JPH04280299A (ja) * 1991-03-08 1992-10-06 Ricoh Co Ltd 音声認識装置
JPH05188991A (ja) * 1992-01-16 1993-07-30 Oki Electric Ind Co Ltd 音声認識装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
WO1996008005A1 (en) * 1994-09-07 1996-03-14 Motorola Inc. System for recognizing spoken sounds from continuous speech and method of using same
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
JP3865924B2 (ja) * 1998-03-26 2007-01-10 松下電器産業株式会社 音声認識装置
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
JP2000137495A (ja) * 1998-10-30 2000-05-16 Toshiba Corp 音声認識装置および音声認識方法
EP1426923B1 (en) * 1998-12-17 2006-03-29 Sony Deutschland GmbH Semi-supervised speaker adaptation
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation

Also Published As

Publication number Publication date
JP2008077099A (ja) 2008-04-03
EP1374223B1 (en) 2007-09-05
JP2013152475A (ja) 2013-08-08
DE60222249T2 (de) 2008-06-12
JP2008203876A (ja) 2008-09-04
KR20070106809A (ko) 2007-11-05
CN101221759B (zh) 2015-04-22
KR20090106628A (ko) 2009-10-09
EP1850324B1 (en) 2011-09-21
KR20090106630A (ko) 2009-10-09
ATE443316T1 (de) 2009-10-15
ATE372573T1 (de) 2007-09-15
WO2002080142A3 (en) 2003-03-13
KR100933107B1 (ko) 2009-12-21
KR101031744B1 (ko) 2011-04-29
KR100933109B1 (ko) 2009-12-21
EP1628289B1 (en) 2009-09-16
JP4546555B2 (ja) 2010-09-15
TW577043B (en) 2004-02-21
EP1850324A1 (en) 2007-10-31
EP1628289A3 (en) 2006-03-01
ATE525719T1 (de) 2011-10-15
JP4546512B2 (ja) 2010-09-15
US20020143540A1 (en) 2002-10-03
HK1092269A1 (en) 2007-02-02
DE60233763D1 (de) 2009-10-29
KR100933108B1 (ko) 2009-12-21
CN101221759A (zh) 2008-07-16
KR101031717B1 (ko) 2011-04-29
JP2004530155A (ja) 2004-09-30
KR20090106625A (ko) 2009-10-09
WO2002080142A2 (en) 2002-10-10
KR20030085584A (ko) 2003-11-05
ES2330857T3 (es) 2009-12-16
KR101031660B1 (ko) 2011-04-29
CN101221758A (zh) 2008-07-16
CN1531722B (zh) 2011-07-27
EP1374223A2 (en) 2004-01-02
DK1374223T3 (da) 2007-10-08
CN1531722A (zh) 2004-09-22
JP2010211221A (ja) 2010-09-24
AU2002255863A1 (en) 2002-10-15
KR20070106808A (ko) 2007-11-05
HK1117260A1 (en) 2009-01-09
ES2288549T3 (es) 2008-01-16
DE60222249D1 (de) 2007-10-18
EP1628289A2 (en) 2006-02-22

Similar Documents

Publication Publication Date Title
ES2371094T3 (es) Sistema de reconocimiento de la voz que usa adaptación implícita al orador.
US7043431B2 (en) Multilingual speech recognition system using text derived recognition models
US6836758B2 (en) System and method for hybrid voice recognition
CA2609247A1 (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
JP2004053742A (ja) 音声認識装置
Sim et al. Context-sensitive probabilistic phone mapping model for cross-lingual speech recognition.
Sivaraman et al. Higher Accuracy of Hindi Speech Recognition Due to Online Speaker Adaptation
Liu et al. A constrained line search optimization method for discriminative training of HMMs
Herbig et al. Evaluation of two approaches for speaker specific speech recognition
Han et al. Trajectory clustering for automatic speech recognition
JPH06175678A (ja) 音声認識装置
Han et al. Trajectory Clustering using longer length units for automatic speech recognition
Heck et al. Automatic speech recognition of co-channel speech: integrated speaker and speech recognition approach.
Soong et al. Speech recognition-a tutorial and a commentary
MXPA98003964A (es) Integracion de modelos multiples para el reconocimiento del habla en ambientes multiples
JP2002189493A (ja) 音声認識方法及びその装置、ならびに音声制御装置