ES2330857T3 - Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. - Google Patents
Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. Download PDFInfo
- Publication number
- ES2330857T3 ES2330857T3 ES05025989T ES05025989T ES2330857T3 ES 2330857 T3 ES2330857 T3 ES 2330857T3 ES 05025989 T ES05025989 T ES 05025989T ES 05025989 T ES05025989 T ES 05025989T ES 2330857 T3 ES2330857 T3 ES 2330857T3
- Authority
- ES
- Spain
- Prior art keywords
- acoustic
- template
- speaker
- matching
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Abstract
Un procedimiento para realizar un entrenamiento no supervisado para el reconocimiento de voz, que comprende: la realización de la casación (308) de un patrón de un primer segmento de entrada de voz con al menos una plantilla acústica independiente del hablante de cada uno de una pluralidad de modelos independientes del hablante para producir una pluralidad puntuaciones de concordancia del patrón de entrada y para determinar una respectiva clase de locución reconocida; la combinación de la pluralidad de puntuaciones de concordancia asociadas con la misma clase de locución para generar una puntuación de concordancia combinada; la comparación (312) de la puntuación de concordancia combinada con una puntuación de concordancia del patrón asociada con una plantilla acústica almacenada de un modelo dependiente del hablante que se corresponde con la clase de locución reconocida; si la puntuación combinada es mejor que la puntuación de concordancia del patrón, la sustitución (314) de la plantilla acústica almacenada del modelo dependiente del hablante con una nueva plantilla derivada del primer segmento de entrada de voz y la sustitución de la puntuación de concordancia del modelo asociada con la plantilla acústica almacenada del modelo dependiente del hablante con la puntuación combinada asociada con la nueva plantilla.
Description
Sistema de reconocimiento de voz que usa
adaptación implícita del que habla.
La presente invención se refiere al procesado de
señal de voz. De manera particular, la presente invención se refiere
a un procedimiento y a un aparato novedosos de reconocimiento de voz
para conseguir el funcionamiento mejorado a través de una formación
sin supervisión.
El reconocimiento de voz representa una de las
técnicas más importantes para dotar a una máquina con inteligencia
simulada para reconocer órdenes habladas del usuario y para
facilitar la interfaz humana con la máquina. Los sistemas que
emplean técnicas para recuperar un mensaje lingüístico a partir de
una señal de voz acústica, se denominan sistemas de reconocimiento
de voz (VR). La figura 1 muestra un sistema VR básico que tiene un
filtro de preénfasis 102, una unidad de extracción de la
característica acústica (AFE) 104 y un motor de casación de patrones
110. La unidad AFE 104 convierte una serie de muestras digitales de
voz en un conjunto de valores de medida (por ejemplo, las
componentes de frecuencia extraídas) denominadas un vector de
característica acústica. El motor de casación de patrones 110 casa
una serie de vectores de característica acústica con las plantillas
contenidas en el modelo acústico VR 112. Los motores de adaptación
de patrones VR emplean por lo general técnicas de distorsión
dinámica en el tiempo (DTW) o el Modelo de Markov Oculto (HMM).
Tanto DTW como HMM son bien conocidas en la técnica y se describen
con detalle en Rabiner, L. R. y Juang, B. H. "Fundamentos del
reconocimiento de voz", Prentice-Hall, 1993.
Cuando una serie de características acústicas coincide con una
plantilla del modelo acústico 112, la plantilla identificada se usa
para generar un formato de salida deseado, tal como una secuencia
identificada de palabras lingüísticas correspondientes a la voz de
entrada.
Como se ha hecho notar anteriormente el modelo
acústico 112 generalmente es un modelo HMM o un modelo DTW. Se puede
pensar en un modelo acústico DTW como en una base de datos de
plantillas asociadas con cada una de las palabras que necesitan ser
reconocidas. En general, una plantilla DTW consiste en una secuencia
de vectores de característica que han sido promediados sobre muchas
muestras de la palabra asociada. El patrón DTW de casación
generalmente implica la localización de una plantilla almacenada que
tiene una distancia mínima a la secuencia del vector de
característica de entrada que representa la voz de entrada. Una
plantilla usada en un modelo acústico basado en HMM contiene una
descripción estadística detallada de la forma de pronunciación de la
voz asociada. En general, una plantilla HMM almacena una secuencia
de vectores de media, vectores de varianza y un conjunto de
probabilidades de transición. Estos parámetros se usan para
describir las estadísticas de una unidad de voz y se estiman a
partir de muchos ejemplos de la unidad de voz. El patrón de casación
HMM generalmente implica la generación de una probabilidad para cada
plantilla del modelo basada en una serie de vectores de
característica de entrada asociados con la voz de entrada. La
plantilla que tenga la probabilidad más alta se selecciona como la
palabra de entrada más probable.
La "formación" se refiere al proceso de
recoger muestras de voz de un segmento o sílaba particular de voz de
uno o más hablantes con el fin de generar plantillas en el modelo
acústico 112. Cada plantilla del modelo acústico está asociada con
una palabra o segmento de voz particulares denominados una clase de
forma de pronunciación. Puede haber múltiples plantillas en el
modelo acústico asociadas con la misma clase de palabras.
"Prueba" se refiere al procedimiento para casar las plantillas
del modelo acústico con una secuencia de vectores de característica
extraídos de la voz de entrada. El funcionamiento de un sistema dado
depende en gran medida del grado de coincidencia entre la voz de
entrada del usuario final y el contenido de la base de datos, y de
esta forma de la coincidencia entre las plantillas de referencia
creadas a través de la formación y las muestras de voz usadas para
la prueba VR.
Los dos tipos comunes de formación son la
formación supervisada y la voz no supervisada. En la formación
supervisada, la clase de forma de pronunciación asociada con cada
conjunto de vectores de característica de formación se conoce a
priori. Al hablante que proporciona la voz de entrada a menudo
se le proporciona un guión de palabras o segmentos de voz
correspondientes a las clases de forma de pronunciación
predeterminadas. El vector de característica resultante de la
lectura del guión puede ser incorporado dentro de las plantillas del
modelo acústico asociado con las clases de forma de pronunciación
correctas.
En la formación no supervisada, la clase de
forma de pronunciación asociada con un conjunto de vectores de
característica de formación no se conoce a priori. La clase
de forma de pronunciación debe ser identificada de manera correcta
antes de que se pueda incorporar un conjunto de vectores de
característica de formación dentro de la plantilla correcta del
modelo acústico. En la formación no supervisada, un error al
identificar la clase de forma de pronunciación para un conjunto de
vectores de característica de formación puede conducir a una
modificación de la plantilla del modelo acústico errónea. Dicho
error por lo general degrada, en lugar de mejorar, el funcionamiento
del reconocimiento de la voz. Con el fin de evitar dichos errores,
cualquier modificación del modelo acústico basada en la formación no
supervisada se debe hacer por lo general de una manera muy
conservadora. Se incorpora un conjunto de vectores de característica
de formación dentro del modelo acústico solamente si hay una
confianza relativamente alta de que la clase de forma de
pronunciación se ha identificado de manera correcta. Dicho
conservadurismo necesario hace que la construcción de un modelo
acústico SD a través de una formación no supervisada sea un proceso
muy lento. Hasta que se construya de esta manera el modelo acústico
SD, el funcionamiento VR probablemente será inaceptable para la
mayoría de los usuarios.
De manera óptima, el usuario final proporciona
vectores de característica acústica de voz tanto durante la
formación como durante la prueba, de forma que el modelo acústico
112 coincidirá fuertemente con la voz del usuario final. Un modelo
acústico individualizado que esté confeccionado para un único
hablante también se denomina un modelo acústico dependiente del
hablante (SD). La generación de un modelo acústico SD por lo general
requiere que el usuario final proporcione una gran cantidad de
muestras de formación supervisadas. Primero, el usuario debe
proporcionar muestras de formación para una gran variedad de clases
de formas de habla. También, con el fin de conseguir el mejor
funcionamiento, el usuario final debe proporcionar múltiples
plantillas, que representen una variedad de posibles entornos
acústicos para cada clase de forma de pronunciación. Debido a que
la mayoría de los usuarios son incapaces o están poco dispuestos a
proporcionar la voz de entrada necesaria para generar un modelo
acústico SD, muchos sistemas VR existentes, en lugar de esto, usan
modelos acústicos generalizados que son formados usando la voz de
muchos hablantes "representativos". Se hace referencia a dichos
modelos acústicos como modelos acústicos independientes del hablante
(SI), y están diseñados para tener el mejor funcionamiento sobre un
amplio intervalo de usuarios. Los modelos acústicos SI, sin embargo,
pueden no estar optimizados para un único usuario. Un sistema VR que
use un modelo acústico SI no funcionará tan bien para un usuario
específico como un sistema VR que use un modelo acústico SD
confeccionado para ese usuario. Para algunos usuarios, tales como
los que tienen acentos extranjeros fuertes, el funcionamiento de un
sistema VR que use un modelo acústico SI puede ser tan pobre que no
pueda usar de manera efectiva los servicios VR en absoluto.
De manera óptima, un modelo acústico SD sería
generado para cada usuario independiente. Como se ha tratado con
anterioridad, la construcción de modelos acústicos SD que usen
formación supervisada es impracticable. Pero el uso de formación no
supervisada para generar un modelo acústico SD puede llevar mucho
tiempo, durante el que el funcionamiento VR basado en un modelo
acústico SD parcial puede ser muy pobre. Existe una necesidad en la
técnica de un sistema VR que funcione razonablemente bien antes y
durante la generación de un modelo acústico SD usando la formación
no supervisada.
También llama la atención en el documento
EP-A-1 011 094, que se refiere a un
procedimiento para evitar la adaptación a palabras no reconocidas en
sistemas automáticos de reconocimiento de voz no supervisados o en
línea que usan medidas de la confianza o que interpretan la reacción
del usuario para decidir si un fonema, varios fonemas, una palabra,
varias palabras o una locución completa que se hayan reconocido
deben utilizarse o no para la adaptación del conjunto de modelos
independientes del hablante a un conjunto de modelos adaptados al
hablante, en el caso de que se ejecute una adaptación, cuán marcada
debe realizarse la adaptación a esta locución reconocida o a una
parte de esta locución reconocida. Además, se propone una
verificación del rendimiento de adaptación del hablante para
asegurarse de que la tasa de reconocimiento nunca descienda, sino
que sólo aumente o continúe en el mismo
nivel.
nivel.
El documento
US-A-5 734 793 se refiere a un
sistema para reconocer los sonidos pronunciados a partir de la voz
continua que incluye una pluralidad de clasificadores y un selector.
Cada uno de los clasificadores implementa una función de
discriminación que se basa en una expansión polinómica. Determinando
los coeficientes polinómicos de una función de discriminación se
afina el clasificador correspondiente para clasificar un sonido
específico pronunciado. El selector utiliza las salidas del
clasificador para identificar los sonidos pronunciados. También se
muestra un procedimiento para usar el sistema.
También llama la atención el documento
EP-A-5 091 947, que se refiere a un
aparato de reconocimiento de voz que incluye una memoria de
coeficientes para almacenar al menos un coeficiente para corregir un
grado de similitud que se obtiene bien mediante reconocimiento
independiente del hablante o bien mediante el reconocimiento
dependiente del hablante. El aparato incluye un circuito de
identificación de voz para comparar los grados de similitud de los
candidatos, obtenidos bien mediante el reconocimiento independiente
del hablante o bien mediante el reconocimiento dependiente del
hablante, con grados corregidos de similitud de los candidatos en
relación con otro tipo de reconocimientos que se obtienen realizando
una operación predeterminada con el grado de similitud de cada
candidato que se suministra desde otro tipo de reconocimiento.
Entonces la identificación de voz selecciona el candidato que tiene
el mayor grado de similitud para que sea el resultado de la
identificación.
De acuerdo con la presente invención, se
suministran un procedimiento para realizar un reconocimiento de voz,
tal como se pone de manifiesto en la reivindicación 1, y un aparato
para realizar un reconocimiento de voz, tal como se pone de
manifiesto en la reivindicación 5. Realizaciones de la presente
invención se reivindican en las reivindicaciones dependientes.
Los procedimientos y aparatos descritos en este
documento están dirigidos a un sistema de reconocimiento de voz (VR)
mejorado novedoso que utiliza una combinación de modelos acústicos
independientes del hablante (SI) y dependientes del hablante (SD).
Al menos se usa un modelo acústico SI en combinación con al menos un
modelo acústico SD para proporcionar un nivel funcionamiento de
reconocimiento de voz que sea igual al menos que el de un modelo
acústico puramente SI. El sistema híbrido descrito VR SI/SD usa de
manera continua formación no supervisada para actualizar las
plantillas acústicas de uno o más modelos acústicos SD. El sistema
híbrido VR usa después los modelos acústicos SD actualizados, solos
o en combinación con al menos un modelo acústico SI, para
proporcionar un funcionamiento VR mejorado durante la prueba de
VR.
La palabra "ejemplar" se usa en este
documento para significar "sirviendo como un ejemplo, caso o
ilustración". Cualquier realización descrita como una
"realización ejemplar" no se va a construir necesariamente como
la preferida o con ventajas con respecto a otra realización.
Las características, objetos y ventajas del
procedimiento y del aparato descritos en este momento serán más
aparentes a partir de la siguiente descripción detallada tomada
junto con los dibujos en los que idénticos caracteres de referencia
identifican de manera correspondiente en todo el documento y en la
que:
La figura 1 muestra un sistema básico de
reconocimiento de voz;
La figura 2 muestra un sistema de reconocimiento
de voz de acuerdo con una realización ejemplar;
La figura 3 muestra un procedimiento para
realizar la formación no supervisada.
La figura 4 muestra un enfoque ejemplar para
generar una referencia de casación combinada usada en la formación
no supervisada.
La figura 5 es un diagrama de flujo que muestra
un procedimiento para realizar el reconocimiento de voz (prueba)
usando referencias de casación independientes del hablante (SI) y
dependientes del hablante (SD);
La figura 6 muestra un enfoque para generar una
referencia de casación combinada a partir tanto de referencias de
casación independientes del hablante (SI) como dependientes del
hablante (SD); y
La figura 2 muestra una realización ejemplar de
un sistema de reconocimiento de voz (VR) híbrido como se podría
implementar dentro de una estación remota sin hilos 202. En una
realización ejemplar, la estación remota 202 comunica a través de un
canal sin hilos (que no se muestra) con una red de comunicaciones
sin hilos (que no se muestra). Por ejemplo, la estación remota 202
puede ser un teléfono sin hilos que comunique con un sistema de
teléfono sin hilos. Alguien que sea experto en la técnica reconocerá
que las técnicas descritas en este documento se pueden aplicar de
igual manera a un sistema VR que sea fijo (no portátil) o no
implique un canal sin hilos.
En la realización mostrada, las señales de voz
de un usuario se convierten a señales eléctricas en un micrófono
(MIC) 210 y se convierten a muestras digitales de voz en un
conversor analógico a digital (ADC) 212. El flujo de muestras
digitales se filtra después usando un filtro de preénfasis (PE) 214,
por ejemplo un filtro de respuesta finita al impulso (FIR) que
atenúa las componentes de la señal de baja frecuencia.
Las muestras filtradas se analizan después en
una unidad de extracción de la característica acústica (AFE) 216. La
unidad AFE 216 convierte las muestras digitales de voz en vectores
de característica acústica. En la realización ejemplar, la unidad
AFE 216 realiza una transformada de Fourier sobre un segmento de
muestras digitales consecutivas para generar un vector de
intensidades de la señal correspondiente a diferentes compartimentos
de frecuencia. En una realización ejemplar, los compartimentos de
frecuencia tienen anchos de banda variables de acuerdo con una
escala de tono de voz. En una escala de tono de voz, el ancho de
banda de cada compartimento de frecuencia soporta una relación
respecto a la frecuencia central del compartimento, de forma que los
compartimentos de frecuencia más alta tienen bandas de frecuencia
más anchas que los compartimentos de frecuencia más baja. La escala
de tono de voz se describe en Rabiner, L. R. y Juang, B. H.,
"Fundamentos del reconocimiento de voz",
Prentice-Hall, 1993 y es bien conocida en la
técnica.
En una realización ejemplar, cada vector de
característica acústica se extrae de una serie de muestras de voz
recogidas sobre un intervalo de tiempo fijo. En una realización
ejemplar, estos intervalos de tiempo se solapan. Por ejemplo, las
características acústicas se pueden obtener a partir de intervalos
de 20 ms de datos de voz que comienzan cada diez milisegundos, de
forma que cada dos intervalos consecutivos comparten un segmento de
10 ms. Alguien que sea experto en la técnica reconocería que en
lugar de esto, los intervalos de tiempo podrían no ser solapantes o
podrían tener una duración no fijada sin salirse del alcance de las
realizaciones descritas en este documento.
Los vectores de característica acústica
generados por la unidad AFE 216 se entregan a un motor VR 220, que
realiza la casación de patrones para caracterizar el vector de
característica acústica en base al contenido de uno o más modelos
acústicos, 230, 232 y 234.
En la realización ejemplar mostrada en la figura
2, se muestran tres modelos acústicos: un modelo de Markov Oculto
(HMM) independiente del hablante 230, un modelo de Distorsión
Dinámica en el Tiempo (DTW) independiente del hablante 232, y un
modelo acústico dependiente del hablante (SD) 234. Alguien que sea
experto en la técnica reconocerá que se pueden usar diferentes
combinaciones de modelos acústicos SI en realizaciones alternativas.
Por ejemplo, una estación remota 202 podría incluir solamente el
modelo acústico SIHMM 230 y el modelo acústico SD 234 y omitir el
modelo acústico SIDTW 232. De manera alternativa, una estación
remota 202 podría incluir un único modelo acústico SIHMM 230, un
modelo acústico SD 234 y dos modelos acústicos SIDTW diferentes 232.
Además, alguien que sea experto en la técnica reconocerá que el
modelo acústico SD 234 puede ser del tipo HMM o del tipo DTW o una
combinación de los dos. En la realización ejemplar, el modelo
acústico SD 234 es un modelo acústico DTW.
Como se ha descrito anteriormente, el motor VR
220 realiza una casación de patrones para determinar el grado de
coincidencia entre los vectores de característica acústica y el
contenido de uno o más modelos acústicos 230, 232 y 234. En una
realización ejemplar, el motor VR 220 genera referencias de casación
en base a la casación de los vectores de característica acústica con
las diferentes plantillas acústicas de cada uno de los modelos
acústicos 230, 232 y 234. Por ejemplo, el motor VR 220 genera
referencias de casación HMM en base a un conjunto de vectores de
característica acústica con múltiples plantillas HMM en el modelo
acústico SIHMM 230. Igualmente, el motor 220 genera referencias de
casación DTW en base a la casación de los vectores de característica
acústica con múltiples plantillas DTW en el modelo acústico SIDTW
232. El motor VR 220 genera referencias de casación en base a la
casación de los vectores de característica acústica con las
plantillas del modelo acústico SD 234.
Como se ha descrito anteriormente, cada
plantilla del modelo acústico está asociada con una clase de forma
de pronunciación. En una realización ejemplar, el motor VR 220
combina referencias para las plantillas asociadas con la misma clase
de forma de pronunciación para crear una referencia de casación
combinada para su uso en la formación sin supervisión. Por ejemplo,
el motor VR 220 combina referencias SIHMM y SIDTW obtenidas a partir
de la correlación de un conjunto de entrada de vectores de
característica acústica para generar una referencia SI combinada. En
base a esa referencia de casación combinada, el motor VR 220
determina si almacenar o no el conjunto de entrada de vectores de
característica acústica como una plantilla SD del modelo acústico SD
234. En una realización ejemplar, la formación sin supervisión para
actualizar el modelo acústico SD se realiza usando exclusivamente
referencias de casación SI. Esto evita errores aditivos que en
cualquier otro caso podrían resultar de usar un modelo acústico SD
evolutivo 234 para la autoformación sin supervisión. A continuación
se describe con mayor detalle un procedimiento ejemplar para
realizar esta formación sin supervisión.
Además de la formación sin supervisión, el motor
VR 220 usa los distintos modelos acústicos (230, 232, 234) durante
la prueba. En una realización de ejemplo, el motor VR 220 recupera
las referencias de casación de los modelos acústicos (230, 232, 234)
y genera referencias de casación combinadas para cada clase de forma
de pronunciación. Las referencias de casación combinadas se usan
para seleccionar la clase de forma de pronunciación que mejor se
adapta a la voz de entrada. El motor VR 220 agrupa las clases de
forma de pronunciación consecutivas juntas según sea necesario para
reconocer palabras o frases completas. El motor VR 220 proporciona
entonces información acerca de la palabra o la frase reconocida a un
procesador de control 222, que usa la información para determinar la
respuesta apropiada a la información u orden de voz. Por ejemplo, en
respuesta a la palabra o frase reconocida, el procesador de control
222 puede proporcionar realimentación al usuario a través de una
pantalla o de otra interfaz de usuario. En otro ejemplo, el
procesador de control 222 puede enviar un mensaje a través de un
módem sin hilos 218 y una antena 224 a una red sin hilos (que no se
muestra), iniciando una llamada de un teléfono móvil a un número de
teléfono de destino asociado con la persona cuyo nombre fue
pronunciado y reconocido.
El módem sin hilos 218 puede transmitir señales
a través de una variedad de tipos de canal incluyendo CDMA, TDMA o
FDMA. Además, el módem sin hilos 218 puede ser sustituido con otros
tipos de interfaces de comunicaciones que comunican sobre un canal
sin hilos sin salirse del alcance de las realizaciones descritas.
Por ejemplo, la estación remota 202 puede transmitir información de
señalización a través de cualquiera de una variedad de tipos de
canal de comunicaciones incluyendo módems de línea terrestre, T1/E1,
RDSI, DSL, Ethernet o incluso pistas sobre una placa de circuito
impreso (PCB).
La figura 3 es un diagrama de flujo que muestra
un procedimiento ejemplar para realizar formación sin supervisión.
En el paso 302, se muestrean datos analógicos de voz en un conversor
analógico a digital (ADC) (212 en la figura 2). La muestra digital
se filtra después en el paso 304 usando un filtro de de énfasis (PE)
(214 en la figura 2). En el paso 306, se extraen los vectores de
característica acústica de entrada de las muestras filtradas en una
unidad de extracción de característica acústica (AFE) (216 en la
figura 2). El motor VR (220 de la figura 2) recibe los vectores de
característica acústica de entrada desde la unidad AFE 216 y realiza
la casación de patrones de los vectores de característica acústica
de entrada frente al contenido de los modelos acústicos SI (230 y
232 de la figura 2). En el paso 308, el motor VR 220 genera
referencias de casación a partir de los resultados de la casación de
patrones. El motor VR 220 genera referencias de casación SIHMM
mediante la casación de los vectores de característica acústica de
entrada con el modelo acústico SIHMM 230, y genera referencias de
casación SIDTW mediante la casación de los vectores de
característica acústica de entrada con el modelo acústico SIDTW 232.
Cada plantilla acústica en los modelos acústicos SIHMM y SIDTW (230
y 232) está asociada con una clase de forma de pronunciación
particular. En el paso 310, las referencias SIHMM y SIDTW se
combinan para formar referencias de casación combinadas.
La figura 4 muestra la generación de referencias
de casación combinadas para su uso en formación sin supervisión. En
la realización de ejemplo mostrada, la referencia de casación
combinada independiente del hablante S_{COMB\_SI} para una clase
particular de forma de pronunciación es una suma ponderada de
acuerdo con la ecuación 1, como se muestra, en la que:
- SIHMM_{T} es la referencia de casación SIHMM para la clase de forma de habla objetivo;
- SIHMM_{NT} es la siguiente mejor referencia de casación para una plantilla en el modelo acústico SIHMM que está asociada con una clase de forma de pronunciación no objetivo (una clase de forma de pronunciación distinta a la clase de forma de pronunciación objetivo);
- SIHMM_{G} es la referencia de casación SIHMM para la clase de forma de pronunciación "inservible";
- SIDTW_{T} es la referencia de casación para la clase de forma de pronunciación objetivo;
- SIDTW_{NT} es la siguiente mejor referencia de casación para una plantilla del modelo acústico SIDTW que está asociada con una clase de forma de habla no objetivo; y
- SIDTW_{G} es la referencia de casación SIDTW para la clase de forma de pronunciación "inservible".
Las distintas referencias de casación
individuales SIHMM_{n} y SIDTW_{n} pueden verse como
representantes de un valor de distancia entre una serie de vectores
de característica acústica de entrada y una plantilla del modelo
acústico. Cuando mayor es la distancia entre los vectores de
característica acústica de entrada y una plantilla, mayor es la
referencia de casación. Una coincidencia próxima entre una plantilla
y los vectores de característica acústica de entrada produce una
referencia de casación muy baja. Si se compara una serie de vectores
de característica acústica de entrada a dos plantillas asociadas con
diferentes clases de forma de pronunciación, se producen dos
referencias de casación que son casi iguales; entonces el sistema VR
puede ser incapaz de reconocer qué clase de forma de pronunciación
es la "correcta".
SIHMM_{G} y SIDTW_{G} son referencias de
casación para las clases de forma de pronunciación
"inservible". La plantilla o las plantillas asociadas con la
clase de forma de pronunciación inservible se denominan plantillas
de información inservible y no corresponden a una palabra o frase
específica. Por esta razón, tienden a estar igualmente incorreladas
con respecto a toda la voz de entrada. Las referencias de casación
de información inservible son útiles como una clasificación de
medida de fondo de ruido en un sistema VR. Generalmente, una serie
de vectores de característica acústica de entrada debería tener un
mejor grado de casación con una plantilla asociada con una clase de
forma de pronunciación objetivo que con la plantilla de información
inservible antes de que se reconozca de una manera más segura la
clase de forma de pronunciación.
Antes de que el sistema VR pueda reconocer de
manera más segura una clase de forma de pronunciación como la
"correcta", los vectores de característica acústica de entrada
deberían tener un grado más alto de coincidencia con las plantillas
asociadas con esa clase de forma de pronunciación que con las
plantillas de de información inservible o con las plantillas
asociadas con otras clases de forma de pronunciación. Las
referencias de casación combinadas generadas a partir de una
variedad de modelos acústicos pueden discriminar de manera más
segura entre clases de forma de pronunciación que las referencias de
casación basadas solamente en un modelo acústico. En una realización
ejemplar, el sistema VR usa dichas referencias de casación
combinadas para determinar si sustituir una plantilla en el modelo
acústico SD (234 en la figura 2) con una derivada a partir de un
nuevo conjunto de vectores de característica acústica de
entrada.
Los factores de ponderación (W_{1}, ...,
W_{6}) se seleccionan para proporcionar el mejor funcionamiento de
formación sobre todos los entornos acústicos. En una realización
ejemplar, los factores de ponderación (W_{1}, ..., W_{6}) son
constantes para las clases de forma de pronunciación. En otras
palabras, los W_{n} usados para crear la referencia de casación
combinada para una primera clase de forma de pronunciación objetivo
es la misma que el valor W_{n} usado para crear la referencia de
casación combinada para otra clase de forma de pronunciación
objetivo. En una realización alternativa, los factores de
ponderación están muy basados en la clase de forma de pronunciación
objetivo. En la figura 4 se muestran otras maneras de combinación
que serán obvias para alguien que sea experto en la técnica, y se
deben ver como dentro del alcance de las realizaciones descritas en
este documento. Por ejemplo, se pueden usar más de seis o menos de
seis entradas ponderadas. Otra variación obvia sería para generar
una referencia de casación combinada basada en un tipo de modelo
acústico. Por ejemplo, se podría generar una referencia de casación
combinada en base a SIHMM_{T}, SIHMM_{NT}, SIHMM_{G}. O se
podría generar una referencia de casación combinada en base a
SIDTW_{T}, SIDTW_{NT}, SIDTW_{G}.
En una realización ejemplar, W_{1} y W_{4}
son números negativos, y un valor mayor (o menos negativo) de
S_{COMB} indica un mayor grado de coincidencia (distancia menor)
entre una clase de forma de pronunciación objetivo y una serie de
vectores de característica acústica de entrada. Alguien que sea
experto en la técnica apreciará que los signos de los factores de
ponderación pueden ser fácilmente reconfigurados de forma que un
grado mayor de coincidencia corresponda con un valor menor sin
salirse del alcance de las realizaciones descritas.
Volviendo de nuevo a la figura 3, en el paso
310, las referencias de casación combinadas se generan para las
clases de forma de pronunciación asociadas con las plantillas de los
modelos acústicos HMM y DTW (230 y 232). En una realización
ejemplar, referencias de casación se generan solamente para las
clases de forma de pronunciación asociadas con las mejores n
referencias de casación SIHMM y para las clases de forma de
pronunciación asociadas con las mejores m referencias de
casación SIDTW. Este límite puede ser deseable para conservar los
recursos de cómputo, incluso aunque se consuma una cantidad mucho
mayor de potencia de cómputo a la vez que se generan las referencias
de casación individuales. Por ejemplo, si n = m = 3,
las referencias de casación combinados se generan para las clases de
forma de pronunciación asociadas con los tres SIHMM superiores y las
clases de forma de pronunciación asociadas con las tres referencias
de casación SIDTW superiores. Dependiendo de si las clases de forma
de pronunciación asociadas con las tres referencias de casación
superiores SIHMM son los mismos que las clases de forma de
pronunciación asociadas con las tres referencias de casación
superiores SIDTW, esta aproximación producirá tres a seis
referencias de casación combinados diferentes.
En el paso 312, la estación remota 202 compara
las referencias de casación combinadas con las referencias de
casación combinadas almacenadas con las correspondientes plantillas
(asociadas con la misma clase de forma de pronunciación) en el
modelo acústico SD. Si la nueva serie de vectores de característica
acústica de entrada tiene un grado mayor de coincidencia que los de
la plantilla más antigua almacenada en el modelo SD para la misma
clase de forma de pronunciación, entonces se genera una nueva
plantilla SD a partir de la nueva serie de vectores de
característica acústica de entrada. En una realización en la que un
modelo acústico SD sea un modelo acústico DTW, la serie de vectores
de característica acústica de entrada por sí sola constituye la
nueva plantilla SD. La vieja plantilla se sustituye entonces con la
nueva plantilla y la referencia de casación combinada asociada con
la nueva plantilla se almacena en el modelo acústico SD para su uso
en comparaciones futuras.
En una realización alternativa, la formación sin
supervisión se usa para actualizar una o más plantillas en un modelo
acústico de Markov Oculto dependiente del hablante (SDHMM). Este
modelo acústico SDHMM se podría usar o en lugar de un modelo SDHMM o
además de un modelo acústico SDDTW dentro del modelo acústico SD
234.
En una realización ejemplar, la casación en el
paso 312 incluye también la comparación de la referencia de casación
combinada de una nueva plantilla SD probable con un umbral de
formación constante. Incluso si no hubiese ninguna plantilla
almacenada en un modelo acústico SD para una clase de forma de
pronunciación particular, no se almacenará una nueva plantilla en el
modelo acústico SD a menos que haya una referencia de casación
combinada que sea mejor (indicativo de un grado mayor de
coincidencia) que el valor umbral de formación.
En una realización alternativa, antes de que se
haya sustituido cualquier plantilla del modelo acústico SD, el
modelo acústico SD se puebla por defecto con plantillas del modelo
acústico SI. Dicha inicialización proporciona una aproximación
alternativa para asegurar que el funcionamiento VR que usa el modelo
acústico SD comienza al menos tan bien como el funcionamiento VR que
usa solamente el modelo acústico SI. Cuantas más plantillas del
modelo acústico SD se actualicen, el funcionamiento VR que use el
modelo acústico SD sobrepasará el funcionamiento VR que usa sólo el
modelo acústico SI.
En una realización alternativa, el sistema VR
permite a un usuario realizar la formación supervisada. El usuario
debe poner al sistema VR en un modo de formación supervisada antes
de realizar dicha formación supervisada. Durante la formación
supervisada, el sistema VR tiene un conocimiento a priori de
la clase de forma de pronunciación correcta. Si la referencia de
casación combinada para la voz de entrada es mejor que la referencia
de casación combinada para la plantilla SD anteriormente almacenada
para esa clase de forma de pronunciación, entonces la voz de salida
se usa para formar una plantilla SD sustituta. En una realización
alternativa, el sistema VR permite al usuario forzar la sustitución
de las plantillas SD existentes durante la formación
supervisada.
El modelo acústico SD puede ser diseñado con
espacio para múltiples (dos o más) plantillas para una única clase
de forma de pronunciación. En una realización ejemplar, se almacenan
dos plantillas en el modelo acústico SD para cada clase de forma de
pronunciación. La comparación en el paso 312 supone por lo tanto la
comparación de la referencia de casación obtenida con una nueva
plantilla con las referencias de casación obtenidas para ambas
plantillas en el modelo acústico SD para la misma clase de forma de
pronunciación. Si la nueva plantilla tiene una mejor referencia de
coincidencia que cualquiera de las antiguas plantillas del modelo
acústico SD, entonces en el paso 314 la plantilla del modelo
acústico SD que tenga la peor referencia de coincidencia es
sustituida por la nueva plantilla. Si la referencia de casación de
la nueva plantilla no es mejor que cualquier plantilla antigua,
entonces se omite el paso 314. De manera adicional, en el paso 312,
la referencia de casación obtenida con la nueva plantilla se compara
con un umbral referencia de casación. Así, hasta que se almacenen en
el modelo acústico SD nuevas plantillas que tengan una referencia de
casación que sea mejor que el umbral, las nuevas plantillas son
casadas frente a este valor umbral antes de que sean usadas para
sobrescribir el contenido anterior del modelo acústico SD. Se
anticipan y se consideran dentro del alcance de las realizaciones
descritas en este documento variaciones obvias, tales como el
almacenamiento de las plantillas del modelo acústico SD en orden
clasificado de acuerdo con la referencia de casación combinada y la
comparación de nuevas referencias de casación solamente con las
referencias más bajas. También se anticipan variaciones obvias
acerca de los números de plantillas almacenadas en el modelo
acústico para cada clase de forma de pronunciación. Por ejemplo, el
modelo acústico SD puede contener más de dos plantillas para cada
clase de forma de pronunciación, o puede contener diferentes números
de plantillas para diferentes clases de formas de habla.
La figura 5 es un diagrama de flujo que muestra
un procedimiento ejemplar para realizar la prueba VR usando una
combinación de modelos acústicos SI y SD. Los pasos 302, 304, 306 y
308 son los mismos que los descritos para la figura 3. El
procedimiento ejemplar se diferencia del procedimiento mostrado en
la figura 3 en el paso 510. En el paso 510, el motor VR 220 genera
referencias de casación SD basadas en la comparación de los vectores
de característica acústica de entrada con las plantillas del modelo
acústico SD. En una realización ejemplar, las referencias de
casación SD se generan solamente para las clases de forma de
pronunciación asociadas con las n mejores referencias de
casación SIHMM y las m mejores referencias de casación SIDTW.
En una realización ejemplar, n = m = 3. Dependiendo
del grado de solapamiento entre los dos conjuntos de clases de
formas de habla, esto dará como resultado la generación de
referencias de casación SD para tres o seis clases de formas de
habla. Como se ha tratado con anterioridad, el modelo acústico SD
puede contener múltiples plantillas para una clase de forma de
pronunciación única. En el paso 512, el motor VR 220 genera
referencias de casación combinados híbridos para su uso en la prueba
VR. En una realización ejemplar, estas referencias de casación
combinadas híbridas se basan tanto en las referencias de casación SI
como en las referencias de casación SD. En el paso 514, selecciona
la palabra o la forma de pronunciación que tiene la mejor referencia
de casación combinada y se compara frente al umbral de prueba. Una
forma de pronunciación solamente se considera como reconocida si su
referencia de casación combinada sobrepasa este umbral. En una
realización ejemplar, los pesos [W_{1}, ..., W_{6}] usados para
generar referencias combinadas para la formación (como se muestra
en la figura 4) son iguales a los pesos [W_{1}, ..., W_{6}]
usados para generar referencias combinadas para prueba (como se
muestra en la figura 6), pero el umbral de formación no es igual al
umbral de prueba.
La figura 6 muestra la generación de referencias
de casación combinadas híbridos realizada en el paso 512. La
realización ejemplar mostrada funciona de manera idéntica al
combinador mostrado en la figura 4, excepto que el factor de
ponderación W_{4} se aplica a DTW_{T} en lugar de a SIDTW_{T}
y el factor de ponderación W_{5} se aplica a DTW_{NT} en lugar
de SIDTW_{NT}. DTW_{T} (la referencia de casación de Distorsión
Dinámica en el Tiempo para la clase de forma de pronunciación
objetivo) se selecciona a partir de la mejor referencia, SIDTW y
SDDTW asociados con la clase de forma de pronunciación objetivo. De
manera similar, DTW_{NT} (la referencia de casación de Distorsión
Dinámica en el Tiempo para las restantes clases de forma de
pronunciación no objetivo) se selecciona a partir de las mejores
referencias SIDTW y SDDTW asociados con clases de forma de
pronunciación no objetivo.
La referencia híbrida SI/SD S_{COMB_H} para
una clase de forma de pronunciación particular es una suma ponderada
de acuerdo con la ecuación 2, como se muestra, donde SIHMM_{T},
SIHMM_{NT}, SIHMM_{G} y SIDTW_{G} son los mismos que en la
ecuación 1. De manera específica, en la ecuación 2:
- SIHMM_{T} es la referencia de casación SIHMM para la clase de forma de habla objetivo;
- SIHMM_{NT} es la siguiente mejor referencia de casación para una plantilla en el modelo acústico SIHMM que está asociada con una clase de forma de pronunciación no objetivo (una clase de forma de pronunciación distinta a la clase de forma de pronunciación objetivo);
- SIHMM_{G} es la referencia de casación SIHMM para la clase de forma de pronunciación "inservible";
- DTW_{T} es la mejor referencia de casación DTW para las plantillas SI y SD correspondientes a las clases de forma de pronunciación objetivo;
- DTW_{NT} es la mejor referencia de casación DTW para las plantillas SI y SD correspondientes a las clases de forma de pronunciación no objetivo; y
- SIDTW_{G} es la referencia de casación SIDTW para la clase de forma de pronunciación "inservible".
De esta forma, la referencia híbrida SI/SD
S_{COM_H} es una combinación de referencias de casación SI y SD
individuales. La referencia de casación de combinación resultante no
depende enteramente de ninguno de los modelos acústicos SI o SD. Si
la referencia de casación SIDTW_{T} es mejor que cualquier
referencia SDDTW_{T}, entonces la referencia híbrida SI/SD se
calcula a partir de la mejor referencia SIDTW_{T}. De manera
similar, si la referencia de casación SDDTW_{T} es mejor que
cualquier referencia SIDTW_{T}, entonces la referencia híbrida
SI/SD se calcula a partir de la mejor referencia SDDTW_{T}. Como
resultado de esto, si la plantilla en el modelo acústico SD produce
referencias de casación pobres, el sistema VR puede reconocer aún la
voz de entrada en base a las partes SI de las referencias híbridas
SI/SD. Dichas referencias de casación SD pobres podrían tener una
variedad de causas incluyendo diferencias entre entornos acústicos
durante la formación y las pruebas o quizá una entrada de pobre
calidad usada para formación.
En una realización alternativa, la referencias
SI son ponderadas de una manera menos pesada que las referencias SD,
o incluso pueden ser ignoradas por completo. Por ejemplo, DTW_{T}
se selecciona de las mejores referencias SDDTW asociados con la
clase de forma de pronunciación objetivo, ignorando las referencias
SIDTW para la clase de forma de pronunciación objetivo. También,
DTW_{T} se puede seleccionar a partir de las mejores referencias
SIDTW o SDDTW asociados con clases de forma de pronunciación no
objetivo, en lugar de usar ambos conjuntos de referencias.
Aunque la realización ejemplar se describe
usando solamente modelos acústicos SDDTW para modelado dependiente
del hablante, la aproximación híbrida descrita en este documento es
igualmente aplicable a un sistema VR que use modelos acústicos SDHMM
o incluso una combinación de modelos acústicos SDDTW y SDHMM. Por
ejemplo, mediante la modificación de la aproximación mostrada en la
figura 6, el factor de ponderación W_{1} se podría aplicar a una
referencia de casación seleccionado de las mejores referencias
SIHMM_{T} y SDHMM_{T}. El factor de ponderación W_{2} se
podría aplicar a una referencia de casación seleccionada de las
mejores referencias SIHMM_{NT} y SDHMM_{NT}.
De esta forma, se describe en el presente
documento un procedimiento y un aparato VR que utilizan una
combinación de modelos acústicos SI y SD para el funcionamiento
mejorado VR durante la formación sin supervisión y la prueba. Los
que sean expertos en la técnica comprenderían que la información y
las señales pueden ser representadas usando cualquiera de una
variedad de diferentes tecnologías y técnicas. Por ejemplo, datos,
instrucciones, órdenes, información, señales, bits, símbolos y
segmentos a los que se puede hacer referencia a lo largo de toda la
descripción anterior, pueden ser representados por medio de
tensiones, corrientes, ondas electromagnéticas, campos magnéticos o
partículas magnéticas, campos ópticos o partículas ópticas o
cualquier combinación de los mismos. También, aunque las
realizaciones se describen en primer lugar en términos de modelos
acústicos tales como el modelo de Distorsión Dinámica en el Tiempo
(DTW) o el modelo de Markov Oculto (HMM), las técnicas descritas se
pueden aplicar a otros tipos de modelos acústicos tales como modelos
acústicos de redes neuronales.
Los expertos en la técnica apreciarán además que
los varios bloques lógicos, módulos, circuitos y pasos de algoritmo
ilustrativos descritos junto con las realizaciones descritas en este
documento se pueden implementar como hardware electrónico, software
de ordenador o una combinación de ambos. Para ilustrar de manera
clara esta capacidad de intercambio entre hardware y de software, se
han descrito varios componentes, bloques, módulos, circuitos y pasos
ilustrativos, anteriormente generalmente en términos de su
funcionalidad. Si se implementa dicha funcionalidad como hardware o
software, dependerá de la aplicación particular y de las
restricciones del diseño impuestas sobre el sistema global. Los
expertos pueden implementar la funcionalidad descrita de varias
maneras para cada aplicación particular, pero dichas decisiones de
implementación no se deberían interpretar como causantes de una
salida del alcance de la presente invención.
Los varios bloques lógicos, módulos y circuitos
ilustrativos descritos junto con las realizaciones descritas en este
documento se pueden implementar o realizar con un procesador de
propósito general, un procesador digital de la señal (DSP), un
circuito integrado específico de la aplicación (ASIC), una matriz de
puertas programable en campo (FPGA) u otro dispositivo lógico
programable, puerta discreta o lógica de transistores, componentes
hardware discretos o cualquier combinación de los mismos diseñada
para realizar las funciones descritas en este documento. Un
procesador de propósito general puede ser un microprocesador, pero
en la alternativa, el procesador puede ser cualquier procesador
convencional, controlador, microcontrolador o máquina de estados. Un
procesador también se puede implementar como una combinación de
dispositivos de computación, por ejemplo, una combinación de un DSP
y un microprocesador, una pluralidad de microprocesadores, uno o más
microprocesadores junto con un núcleo DSP o cualquier otra de tales
configuraciones.
Los pasos de un procedimiento o algoritmo
descrito junto con las realizaciones descritas en este documento se
pueden realizar directamente en hardware, en un módulo software
ejecutado por un procesador o en una combinación de los dos. Un
módulo software puede residir en memoria RAM, en memoria
instantánea, en memoria ROM, en memoria EPROM, en memoria EEPROM, en
registros, en disco duro, en un disco extraíble, en un
CD-ROM o en cualquier otro formato de medio de
almacenamiento conocido en la técnica. Un medio de almacenamiento
ejemplar se acopla al microprocesador de forma que el
microprocesador pueda leer la información de, y escribir información
en el medio de almacenamiento. En la alternativa, el medio de
almacenamiento puede estar integrado en el procesador. El
procesador y el medio de almacenamiento pueden residir en un ASIC.
En la alternativa, el procesador y el medio de almacenamiento pueden
residir como componentes discretos en un terminal de usuario.
La descripción anterior de las realizaciones
descritas se proporciona para hacer posible a una persona experta en
la técnica el que haga uso de la presente invención. Varias
modificaciones a estas realizaciones serán rápidamente aparentes
para los expertos en la técnica, y los principios genéricos
definidos en este documento se pueden aplicar a otras realizaciones
sin salirse del ámbito de la invención. De esta manera no se
pretende que la presente invención esté limitada a las realizaciones
mostradas en este documento, sino que esté de acuerdo con el ámbito
más amplio consecuente con los principios y características
novedosas descritas en el presente documento.
Claims (5)
1. Un procedimiento para realizar un
entrenamiento no supervisado para el reconocimiento de voz, que
comprende:
la realización de la casación (308) de un patrón
de un primer segmento de entrada de voz con al menos una plantilla
acústica independiente del hablante de cada uno de una pluralidad de
modelos independientes del hablante para producir una pluralidad
puntuaciones de concordancia del patrón de entrada y para determinar
una respectiva clase de locución reconocida;
la combinación de la pluralidad de puntuaciones
de concordancia asociadas con la misma clase de locución para
generar una puntuación de concordancia combinada;
la comparación (312) de la puntuación de
concordancia combinada con una puntuación de concordancia del patrón
asociada con una plantilla acústica almacenada de un modelo
dependiente del hablante que se corresponde con la clase de locución
reconocida;
si la puntuación combinada es mejor que la
puntuación de concordancia del patrón, la sustitución (314) de la
plantilla acústica almacenada del modelo dependiente del hablante
con una nueva plantilla derivada del primer segmento de entrada de
voz y la sustitución de la puntuación de concordancia del modelo
asociada con la plantilla acústica almacenada del modelo dependiente
del hablante con la puntuación combinada asociada con la nueva
plantilla.
2. El procedimiento de la reivindicación 1, en
el que dicha realización de la casación de patrones comprende
además:
la ejecución de una casación (308) de un patrón
de un modelo de Markov Oculto (HMM) del primer segmento de entrada
de voz con al menos una plantilla de HMM para generar al menos una
puntuación de concordancia del
HMM;
HMM;
la ejecución de una casación (308) de un patrón
de distorsión dinámica en el tiempo (DTW) del primer segmento de
entrada de voz con al menos una plantilla de DTW para generar al
menos una puntuación de concordancia de DTW; y
la realización de al menos una suma ponderada
(310) de dicha o dichas puntuaciones de concordancia de HMM y de
dicha o dichas puntuaciones de concordancia de DTW para generar
dicha o dichas puntuaciones de concordancia del patrón de
entrada.
3. El procedimiento de la reivindicación 1, que
comprende además:
la ejecución (308) de una casación de un patrón
de un segundo segmento de entrada de voz con al menos una plantilla
acústica independiente del hablante para generar al menos una
puntuación de concordancia independiente del hablante;
la ejecución (510) de una casación de un patrón
del segundo segmento de entrada de voz con la plantilla acústica
almacenada para generar una puntuación de concordancia dependiente
del hablante; y
la combinación (512) de al menos una puntuación
de concordancia independiente del hablante con la puntuación de la
concordancia dependiente del hablante para generar al menos una
puntuación de concordancia combinada.
4. El procedimiento de la reivindicación 3, que
comprende además la identificación de una clase de locución asociada
con la mejor de las puntuaciones de concordancia combinadas.
5. Un aparato (202) para realizar un
entrenamiento no supervisado para el reconocimiento de voz que
comprende:
medios para realizar la casación de un patrón de
un primer segmento de entrada de voz con al menos una plantilla
acústica independiente del hablante de cada uno de la pluralidad de
modelos independientes del hablante para producir una pluralidad de
puntuaciones de concordancia del patrón y para determinar una
respectiva clase de locución reconocida;
medios para combinar una pluralidad de
puntuaciones de concordancia de patrones de entrada asociadas con la
misma clase de locución para generar una puntuación de concordancia
combinada;
medios para comparar la puntuación de
concordancia combinada con una puntuación de concordancia del patrón
asociada con una plantilla acústica almacenada de un modelo
dependiente del hablante que se corresponde con la clase de locución
reconocida:
medios para sustituir la platilla acústica
almacenada del modelo dependiente del hablante con una nueva
plantilla derivada del primer segmento de entrada de voz y para
sustituir la puntuación de concordancia del patrón asociada con la
plantilla acústica almacenada del modelo dependiente del hablante
con al menos una puntuación de concordancia del patrón de entrada
con la nueva plantilla, en el que la plantilla acústica almacenada y
la puntuación de concordancia del patrón son sustituidas si la
puntuación combinada es mejor que la puntuación de concordancia del
patrón.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US821606 | 2001-03-28 | ||
US09/821,606 US20020143540A1 (en) | 2001-03-28 | 2001-03-28 | Voice recognition system using implicit speaker adaptation |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2330857T3 true ES2330857T3 (es) | 2009-12-16 |
Family
ID=25233818
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07014802T Expired - Lifetime ES2371094T3 (es) | 2001-03-28 | 2002-03-22 | Sistema de reconocimiento de la voz que usa adaptación implícita al orador. |
ES02725288T Expired - Lifetime ES2288549T3 (es) | 2001-03-28 | 2002-03-22 | Sistema de reconocimiento de la voz que usa adaptacion implicita del hablante. |
ES05025989T Expired - Lifetime ES2330857T3 (es) | 2001-03-28 | 2002-03-22 | Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07014802T Expired - Lifetime ES2371094T3 (es) | 2001-03-28 | 2002-03-22 | Sistema de reconocimiento de la voz que usa adaptación implícita al orador. |
ES02725288T Expired - Lifetime ES2288549T3 (es) | 2001-03-28 | 2002-03-22 | Sistema de reconocimiento de la voz que usa adaptacion implicita del hablante. |
Country Status (13)
Country | Link |
---|---|
US (1) | US20020143540A1 (es) |
EP (3) | EP1374223B1 (es) |
JP (5) | JP2004530155A (es) |
KR (6) | KR100933108B1 (es) |
CN (3) | CN1531722B (es) |
AT (3) | ATE372573T1 (es) |
AU (1) | AU2002255863A1 (es) |
DE (2) | DE60222249T2 (es) |
DK (1) | DK1374223T3 (es) |
ES (3) | ES2371094T3 (es) |
HK (2) | HK1092269A1 (es) |
TW (1) | TW577043B (es) |
WO (1) | WO2002080142A2 (es) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US20040148169A1 (en) * | 2003-01-23 | 2004-07-29 | Aurilab, Llc | Speech recognition with shadow modeling |
KR20050059766A (ko) * | 2003-12-15 | 2005-06-21 | 엘지전자 주식회사 | 동적 시간 워핑을 이용한 음성 인식 방법 |
GB2409560B (en) | 2003-12-23 | 2007-07-25 | Ibm | Interactive speech recognition model |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7440894B2 (en) | 2005-08-09 | 2008-10-21 | International Business Machines Corporation | Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices |
US8762148B2 (en) * | 2006-02-27 | 2014-06-24 | Nec Corporation | Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program |
US20070219801A1 (en) * | 2006-03-14 | 2007-09-20 | Prabha Sundaram | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user |
US8244545B2 (en) * | 2006-03-30 | 2012-08-14 | Microsoft Corporation | Dialog repair based on discrepancies between user model predictions and speech recognition results |
EP2019985B1 (en) * | 2006-05-12 | 2018-04-04 | Nuance Communications Austria GmbH | Method for changing over from a first adaptive data processing version to a second adaptive data processing version |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
US7552871B2 (en) * | 2006-12-19 | 2009-06-30 | Nordic Id Oy | Method for collecting data fast in inventory systems and wireless apparatus thereto |
US9026444B2 (en) | 2009-09-16 | 2015-05-05 | At&T Intellectual Property I, L.P. | System and method for personalization of acoustic models for automatic speech recognition |
WO2011071484A1 (en) * | 2009-12-08 | 2011-06-16 | Nuance Communications, Inc. | Guest speaker robust adapted speech recognition |
JP2012168477A (ja) * | 2011-02-16 | 2012-09-06 | Nikon Corp | ノイズ推定装置、信号処理装置、撮像装置、及びプログラム |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
CN102999161B (zh) * | 2012-11-13 | 2016-03-02 | 科大讯飞股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
JP5982297B2 (ja) * | 2013-02-18 | 2016-08-31 | 日本電信電話株式会社 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9282096B2 (en) | 2013-08-31 | 2016-03-08 | Steven Goldstein | Methods and systems for voice authentication service leveraging networking |
US20150081294A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition for user specific language |
US10405163B2 (en) * | 2013-10-06 | 2019-09-03 | Staton Techiya, Llc | Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
CN104700831B (zh) * | 2013-12-05 | 2018-03-06 | 国际商业机器公司 | 分析音频文件的语音特征的方法和装置 |
US9966065B2 (en) * | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US20170011406A1 (en) * | 2015-02-10 | 2017-01-12 | NXT-ID, Inc. | Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
RU2704746C2 (ru) * | 2015-08-24 | 2019-10-30 | ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи | Динамическая акустическая модель для транспортного средства |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR102458805B1 (ko) | 2017-04-20 | 2022-10-25 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
CN111243606B (zh) * | 2017-05-12 | 2023-07-21 | 苹果公司 | 用户特定的声学模型 |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
KR20180128037A (ko) * | 2017-05-12 | 2018-11-30 | 애플 인크. | 사용자-특정 음향 모델 |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10896673B1 (en) * | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
KR102135182B1 (ko) | 2019-04-05 | 2020-07-17 | 주식회사 솔루게이트 | 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템 |
KR102263973B1 (ko) | 2019-04-05 | 2021-06-11 | 주식회사 솔루게이트 | 인공지능 기반 일정관리 시스템 |
EP4086904A1 (en) * | 2019-12-04 | 2022-11-09 | Google LLC | Speaker awareness using speaker dependent speech model(s) |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6045298A (ja) * | 1983-08-22 | 1985-03-11 | 富士通株式会社 | 単語音声認識装置 |
JPS6332596A (ja) * | 1986-07-25 | 1988-02-12 | 日本電信電話株式会社 | 音声認識装置 |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
JPH01309099A (ja) * | 1987-06-04 | 1989-12-13 | Ricoh Co Ltd | 音声応答装置 |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
JPH02232696A (ja) * | 1989-03-06 | 1990-09-14 | Toshiba Corp | 音声認識装置 |
JP2989231B2 (ja) * | 1989-10-05 | 1999-12-13 | 株式会社リコー | 音声認識装置 |
JPH04280299A (ja) * | 1991-03-08 | 1992-10-06 | Ricoh Co Ltd | 音声認識装置 |
JPH05188991A (ja) * | 1992-01-16 | 1993-07-30 | Oki Electric Ind Co Ltd | 音声認識装置 |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
CN1160450A (zh) * | 1994-09-07 | 1997-09-24 | 摩托罗拉公司 | 从连续语音中识别讲话声音的系统及其应用方法 |
JPH08314493A (ja) * | 1995-05-22 | 1996-11-29 | Sanyo Electric Co Ltd | 音声認識方法,数字列音声認識装置及びビデオレコーダシステム |
JPH0926799A (ja) * | 1995-07-12 | 1997-01-28 | Aqueous Res:Kk | 音声認識装置 |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US6003002A (en) * | 1997-01-02 | 1999-12-14 | Texas Instruments Incorporated | Method and system of adapting speech recognition models to speaker environment |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
US6226612B1 (en) * | 1998-01-30 | 2001-05-01 | Motorola, Inc. | Method of evaluating an utterance in a speech recognition system |
JP3865924B2 (ja) * | 1998-03-26 | 2007-01-10 | 松下電器産業株式会社 | 音声認識装置 |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
JP2000137495A (ja) * | 1998-10-30 | 2000-05-16 | Toshiba Corp | 音声認識装置および音声認識方法 |
EP1011094B1 (en) * | 1998-12-17 | 2005-03-02 | Sony International (Europe) GmbH | Semi-supervised speaker adaption |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6754629B1 (en) * | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
-
2001
- 2001-03-28 US US09/821,606 patent/US20020143540A1/en not_active Abandoned
-
2002
- 2002-03-22 EP EP02725288A patent/EP1374223B1/en not_active Expired - Lifetime
- 2002-03-22 AU AU2002255863A patent/AU2002255863A1/en not_active Abandoned
- 2002-03-22 ES ES07014802T patent/ES2371094T3/es not_active Expired - Lifetime
- 2002-03-22 ES ES02725288T patent/ES2288549T3/es not_active Expired - Lifetime
- 2002-03-22 KR KR1020077024058A patent/KR100933108B1/ko not_active IP Right Cessation
- 2002-03-22 CN CN028105869A patent/CN1531722B/zh not_active Expired - Fee Related
- 2002-03-22 EP EP07014802A patent/EP1850324B1/en not_active Expired - Lifetime
- 2002-03-22 KR KR1020077024057A patent/KR100933109B1/ko not_active IP Right Cessation
- 2002-03-22 KR KR1020097017648A patent/KR101031660B1/ko not_active IP Right Cessation
- 2002-03-22 KR KR1020097017599A patent/KR101031744B1/ko not_active IP Right Cessation
- 2002-03-22 DE DE60222249T patent/DE60222249T2/de not_active Expired - Lifetime
- 2002-03-22 KR KR1020097017621A patent/KR101031717B1/ko not_active IP Right Cessation
- 2002-03-22 EP EP05025989A patent/EP1628289B1/en not_active Expired - Lifetime
- 2002-03-22 AT AT02725288T patent/ATE372573T1/de not_active IP Right Cessation
- 2002-03-22 WO PCT/US2002/008727 patent/WO2002080142A2/en active Application Filing
- 2002-03-22 CN CN200710196697.4A patent/CN101221759B/zh not_active Expired - Lifetime
- 2002-03-22 DK DK02725288T patent/DK1374223T3/da active
- 2002-03-22 AT AT07014802T patent/ATE525719T1/de not_active IP Right Cessation
- 2002-03-22 ES ES05025989T patent/ES2330857T3/es not_active Expired - Lifetime
- 2002-03-22 KR KR1020037012775A patent/KR100933107B1/ko not_active IP Right Cessation
- 2002-03-22 AT AT05025989T patent/ATE443316T1/de not_active IP Right Cessation
- 2002-03-22 DE DE60233763T patent/DE60233763D1/de not_active Expired - Lifetime
- 2002-03-22 JP JP2002578283A patent/JP2004530155A/ja not_active Withdrawn
- 2002-03-22 CN CNA200710196696XA patent/CN101221758A/zh active Pending
- 2002-03-26 TW TW091105907A patent/TW577043B/zh not_active IP Right Cessation
-
2006
- 2006-08-14 HK HK06109012.9A patent/HK1092269A1/xx not_active IP Right Cessation
-
2007
- 2007-10-26 JP JP2007279235A patent/JP4546512B2/ja not_active Expired - Fee Related
-
2008
- 2008-04-09 JP JP2008101180A patent/JP4546555B2/ja not_active Expired - Fee Related
- 2008-04-17 HK HK08104363.3A patent/HK1117260A1/xx not_active IP Right Cessation
-
2010
- 2010-04-19 JP JP2010096043A patent/JP2010211221A/ja active Pending
-
2013
- 2013-03-04 JP JP2013041687A patent/JP2013152475A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2330857T3 (es) | Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. | |
CA2609247C (en) | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition | |
Li et al. | Comparison of discriminative input and output transformations for speaker adaptation in the hybrid NN/HMM systems. | |
Tan et al. | Denoised senone i-vectors for robust speaker verification | |
JPH0486899A (ja) | 標準パターン適応化方式 | |
Herbig et al. | Evaluation of two approaches for speaker specific speech recognition | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
Herbig et al. | Detection of unknown speakers in an unsupervised speech controlled system | |
JPH06175678A (ja) | 音声認識装置 | |
Chen | Comparison between Traditional Models and Novel Methods for Speaker Recognition | |
Huo et al. | Robust speech recognition based on structured modeling, irrelevant variability normalization and unsupervised online adaptation | |
Liao et al. | An overview of RNN‐based mandarin speech recognition approaches | |
Soğanci et al. | Parallel implementation of a VQ-based text-independent speaker identification | |
Kannan | Robust estimation of stochastic segment models for word recognition | |
Zhong et al. | A rejection model based on multi-layer perceptrons for Mandarin digit recognition | |
Ullah | A soft computing based approach for multi-accent classification in ivr systems | |
Li et al. | Hidden logistic linear regression for support vector machine based phone verification. | |
Dong et al. | A boosting approach for utterance verification | |
Burget et al. | Recognition of speech with non-random attributes | |
Modi | Discriminative utterance verification by integrating multiple confidence measures: A unified training and testing approach |