ES2273885T3 - Combinacion de dtw y hmm en modos dependiente e independiente del orador para reconocimiento de voz. - Google Patents
Combinacion de dtw y hmm en modos dependiente e independiente del orador para reconocimiento de voz. Download PDFInfo
- Publication number
- ES2273885T3 ES2273885T3 ES01968568T ES01968568T ES2273885T3 ES 2273885 T3 ES2273885 T3 ES 2273885T3 ES 01968568 T ES01968568 T ES 01968568T ES 01968568 T ES01968568 T ES 01968568T ES 2273885 T3 ES2273885 T3 ES 2273885T3
- Authority
- ES
- Spain
- Prior art keywords
- voice recognition
- engine
- word
- candidate
- engines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001419 dependent effect Effects 0.000 title claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012360 testing method Methods 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Image Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
- Electric Clocks (AREA)
- Toys (AREA)
- Selective Calling Equipment (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Un sistema de reconocimiento de voz (100), que comprende: una pluralidad de motores RV de reconocimiento de voz (104, 106, 108) con cada uno de los motores de reconocimiento de voz configurados para producir una palabra candidato; y un módulo de mapeo (110) que se configura para aceptar como entrada la palabra candidato de la pluralidad de motores de RV (104, 106, 108) y selecciona un candidato de palabra basado en una función de mapeo; Donde la función de mapeo es: En donde F es un primer motor de reconocimiento de voz, S es un segundo motor de reconocimiento de voz, F1wi es la distancia entre la pronunciación TU y la palabra candidato Wi, F2wi es la distancia para el segundo mejor candidato exluyendo Wi. Dg denota la distancia entre TU y la plantilla de desecho, S1wi es la distancia entre la pronunciación TU y Wi, S2wi es la distancia para el segundo mejor candidato excluyendo Wi, Sg denota la distancia entre TU y la plantilla de desecho, y ci = (i = 0, 1, ....n) es un coeficiente y el limite superior n es igual a la suma del número de motores RV más la suma de palabras candidato para cada motor RV.
Description
Combinación de DTW y HMM en modos dependiente e
independiente del orador para reconocimiento de voz.
La presente invención pertenece en general al
campo de las comunicaciones y más específicamente a un novedoso y
mejorado sistema y procedimiento para el reconocimiento de voz.
El reconocimiento de voz (RV) representa una de
las técnicas más importantes para dotar a una máquina con
inteligencia simulada del reconocimiento de comandos de usuario ó
hablados por el usuario y facilitar la interfaz humana con la
máquina. El RV también representa una técnica clave para el
entendimiento de la voz humana. Los sistemas que emplean técnicas
para recuperar un mensaje ligüístico de una señal de voz acústica se
llaman reconocedores de voz. El término "reconocedor de voz"
se utiliza aquí para referirse en general a cualquier dispositivo
capacitado con interfaz de usuario para el habla.
La utilización del RV (al que también se refiere
comúnmente como reconocimiento del habla) se está convirtiendo en
algo de creciente importancia por motivos de seguridad. Por ejemplo,
El RV se puede usar para reemplazar la tarea manual de presionar
botones en el teclado de un teléfono inalámbrico. Esto es
especialmente importante cuando un usuario está iniciando una
llamada telefónica mientras conduce un coche. Cuando se utiliza un
teléfono sin RV, el conductor tiene que retirar una mano del
volante y mirar el teclado mientras pulsa los botones para marcar.
Hechos como este aumentan la probabilidad de un accidente de coche.
Un teléfono con capacidad de voz (es decir, un teléfono designado
para reconocimiento de voz) permitiría al conductor hacer llamadas
telefónicas sin apartar la vista de la carretera. Además, un kit de
manos libres para coche, permitiría al conductor mantener ambas
manos sobre el volante durante la iniciación de la llamada.
Los dispositivos de reconocimiento de voz se
clasifican en dispositivos dependientes del orador (DV) ó
independientes del orador (IV). Los dispositivos dependientes del
orador, que son más comunes, están entrenados para reconocer
comandos de usuarios particulares. En contraste, los dispositivos
independientes del orador son capaces de aceptar comandos de voz de
cualquier usuario. Para aumentar el rendimiento de un sistema de RV
dado, ya sea dependiente o independiente del orador, se necesita
entrenamiento para equipar al sistema con parámetros válidos. En
otras palabras, el sistema aprender antes de que pueda funcionar
óptimamente.
Un dispositivo de RV dependiente de la voz opera
típicamente en dos fases, una fase de entrenamiento y una fase de
reconocimiento. En la fase de entrenamiento, el sistema de RV pide
al usuario que diga cada una de las palabras en el vocabulario del
sistema una ó dos veces (típicamente dos veces), de forma que el
sistema pueda aprender las características de la voz del usuario
para estas palabras particulares ó frases. Un vocabulario ejemplar
para un kit de manos libres de coche podría incluir los dígitos del
teclado; las palabras clave "llamar", "enviar",
"marcar", "cancelar", "despejar", "añadir",
"borrar", "historia", "programa", "si" y
"no"; y los nombres de un número predefinido de los comúnmente
llamados compañeros de trabajo, amigos, ó familiares. Una vez
completado el entrenamiento, el usuario puede iniciar llamadas en la
fase de reconocimiento diciendo las palabras clave entrenadas, que
el dispositivo VR reconoce comparando las pronunciaciones emitidas
con las pronunciaciones previamente entrenadas (almacenadas como
plantillas) y cogiendo el mejor emparejamiento. Por ejemplo, si el
nombre "John" fuese uno de los nombre entrenados, el usuario
podría iniciar una llamada a John diciendo la frase "Llamar
John". El sistema RV reconocería las palabras "Llamar" y
"John", y marcaría el número que el usuario había introducido
previamente como el número de teléfono de John. Sistemas y
procedimientos para el entrenamiento.
Un dispositivo de RV independiente de la voz
también utiliza una plantilla de entrenamiento que contiene un
vocabulario de un tamaño predefinido (por ejemplo, ciertas palabras
de control, los números ceros al nueve, y si y no). Se deben
grabar un gran número de voces (Por ejemplo, 100) diciendo cada
palabra del vocabulario.
Diferentes dispositivos de RV independientes de
la voz pueden dar resultados diferentes. Por ejemplo, un motor
independiente de la voz del modelo Hidden Markov (HMM) puede dar un
resultado diferente al de un motor independiente Dynamic Time
Warping (DTW). La combinación de los resultados de ambos motores
puede resultar en un sistema con mejor precisión de reconocimiento
y tasas más bajas de rechazo que utilizando los resultados de
solamente uno de los motores.
Un RV dependiente de la voz y un RV
independiente de la voz pueden dar resultados diferentes. Un motor
dependiente de la voz realiza el reconocimiento utilizando
plantillas que pertenecen a un usuario específico. Un motor
independiente de la voz realiza el reconocimiento utilizando
plantillas que han sido generadas utilizando ejemplares de un
conjunto de usuarios. Como las plantillas específicas de voz son más
cercanas a un estilo de voz de usuario dado, los motores DV
proporcionan mejor precisión que los motores IV. De todas formas,
los motores IV tienen la ventaja de que los usuarios no necesitan
llevar a cabo el "proceso de entrenamiento" antes de utilizar
el sistema.
Se desea un sistema y un procedimiento que
combinen motores de diferentes tipos. La combinación de múltiples
motores proporciona una precisión mejorada y utiliza una cantidad de
información más grande en la señal de voz de entrada. Se describe
un sistema y procedimiento para combinar motores RV en la
Solicitud de Patente de EE.UU. No. 09/618,177 titulada "Sistema y
Procedimiento de Motor Combinado para Reconocimiento de Voz",
presentada el 18 Julio, 2000, que se asigna al asignado de la
presente invención.
Un sistema RV de lógica de decisión puede
utilizar la lógica heurística para elaborar reglas de decisión. La
decisión lógica típicamente comienza con las distancias medidas
entre una pronunciación de prueba y las plantillas candidatas
superiores (palabra) de cada motor. Por ejemplo, supóngase que se
utilizan dos motores (motores D y H). Llámese d_{1} y d_{2} a
la distancia entre la pronunciación de prueba y las dos palabras
candidatas superiores del motor D, y h_{1} y h_{2} la distancia
entre la pronunciación de prueba y las dos palabras candidatas
superiores del motor H. Llámese d_{g} y h_{g} a la distancia
entre la pronunciación de prueba y las plantillas "de desecho"
de los motores D y H, respectivamente. Las plantillas de desecho se
utilizan para representar todas las palabras que no estan en el
vocabulario. La lógica de decisión comprende una secuencia de
comparaciones entre estas distancias medidas y un juego de
tolerancias predefinidas. De cualquier forma, las reglas de
comparación y tolerancias, tienen que ser sintetizadas y ajustadas
en bases de ensayo-error, en parte, porque no
pueden ser sistemáticamente optimizadas. Esto consume mucho tiempo y
es un proceso difícil. Además, las reglas heurísticas pueden ser
dependientes de la aplicación. Por ejemplo, se tiene que sintetizar
un nuevo juego de reglas si en vez de utilizarse las dos primeras
palabras se utilizan las tres primeras palabras para cada motor. Es
probable que el juego de reglas para reconocer voz sin ruido sea
diferente de aquellas para reconocer voz con ruido.
Por tanto, se desea un sistema y procedimiento
para resolver resultados diferentes de una pluralidad de diferentes
motores de RV.
Se llama la atención sobre el documento
US-A-5,754,978, que revela un
sistema de reconocimiento de voz con dos motores de reconocimiento.
Los motores de reconocimiento de voz proporcionan una señal de
salida de texto reconocida, cada una de las cuales es enviada a
un comparador de texto. El comparador compara las señales de salida
de texto reconocidas y acepta o rechaza el texto en base al grado de
acuerdo entre las señales de salida de cada uno de los motores.
También se llama la atención sobre un artículo
por Bouchaffra et al. "Una metodología para mapear
resultados con probabilidades"; transacciones de IEEE en
análisis de patrones e inteligencia de máquinas, IEEE Inc. Nueva
York, EE.UU., Volumen 21, No. 9 XP, 000851870. El artículo describe
una derivación de la probabilidad de exactitud de resultados
asignados por la mayoría de los reconocedores. La derivación de
valores de probabilidad sitúa los resultados de diferentes
reconocedores en la misma escala, que hace una comparación en la
parte trivial de los
reconocedores.
reconocedores.
Finalmente se llama la atención sobre el
documento de conocimiento previo
US-A-5 734 793, que describe un
sistema para reconocer sonidos hablados de voz contínua e incluye
una pluralidad de clasificadores y un selector. Cada uno de los
clasificadores implementa una función discriminada que se basa en
una extensión apolinómica. Mediante la determinación de
coeficientes polinómicos de una función discriminada, la
clasificación se ajusta para clasificar un sonido hablado
específico. El selector utiliza los resultados clasificados para
identificar los sonidos hablados. También se describe un
procedimiento para utilizar el sistema.
De acuerdo con la presente invención se
proporcionan un sistema de reconocimiento de voz, como se establece
en las reivindicaciones 1 y 15, y un procedimiento para el
reconocimiento de voz, como se establece en las reivindicaciones 16
y 20. Las realizaciones de la invención se describen en las
reivindicaciones dependientes.
Las realizaciones descritas están dirigidas a un
sistema y procedimiento para reconocimiento de voz. En una
realización, se proporciona un procedimiento de combinación de
varios motores de reconocimiento de voz para mejorar el
reconocimiento de voz. El procedimiento ventajosamente incluye el
acoplamiento de varios motores de reconocimiento de voz a un
módulo de mapeo. Cada motor de RV produce una hipótesis, es decir,
un candidato de palabra; entonces el módulo de mapeo aplica una
función de mapeo para seleccionar una hipótesis producida por el
conjunto de motores de RV.
En una realización se combinan motores de
reconocimiento de voz independientes del orador. En otra realización
se combinan motores de reconocimiento de voz dependientes del
orador. En una última realización se combina un motor de
reconocimiento de voz independientes del orador con un motor de
reconocimiento de voz dependientes del orador.
En una realización, un motor de reconocimiento
de voz independiente del orador es el motor de reconocimiento de
voz Dynamic Time Warping. En una realización, un motor de
reconocimiento de voz independiente del orador es el motor de
reconocimiento de voz Modelo Hidden Markov. En una realización, un
motor de reconocimiento de voz dependiente del orador es el motor
de reconocimiento de voz Dynamic Time Warping. En una realización,
un motor de reconocimiento de voz dependiente del orador es el motor
de reconocimiento de voz Modelo Hidden
Markov.
Markov.
Las características, objetos y ventajas de la
presente invención serán más evidentes a partir de la descripción
detallada expuesta a continuación, tomada en conjunción con los
dibujos en los que se identifican caracteres de referencia
similares correspondientemente en todo el texto y donde:
Fig. 1 muestra una realización de un sistema de
reconocimiento de voz que tiene tres tipos de motores de
reconocimiento de voz;
Fig. 2 muestra un sistema de reconocimiento de
voz que incluye un motor DTW y un motor HMM; y
Fig. 3 muestra una realización de un sistema de
reconocimiento de voz con dos motores de reconocimiento de
voz.
En una realización, un sistema 100 de
reconocimiento de voz como se muestra en la figura Fig. 1 tiene
tres tipos de motores de reconocimiento de voz capaces de realizar
tareas aisladas de reconocimiento de palabras: un motor de alabeo
de tiempo dinámico independiente del orador (DTW-IH)
104, un motor de alabeo de tiempo dinámico dependiente del orador
(DTW-DH) 106, y un motor del hidden Markov model
(HMM) 108. Estos motores se utilizan para mandar en el
reconocimiento de la voz y reconocimiento de dígitos para
proporcionar interfaces de usuario habladas sonoras para tareas
comunes realizadas por un dispositivo de mano, tal como, por
ejemplo, un teléfono móvil, un asistente digital personal (PDA)
etc. En otra realización, el sistema de reconocimiento de voz 100
comprende un motor DTW-IH 104 y un
DTW-DH 106. En otra realización, el sistema de
reconocimiento de voz 100 comprende un motor DTW-IH
104 y un motor HMM 108. En otra realización, el sistema de
reconocimiento de voz 100 comprende un motor DTW-DH
106 y un motor HMM 108. En una realización, el motor HMM 108 es
independiente del habla. En otra realización, el motor HMM 108 is
dependiente del habla. Se puede comprender por parte de aquellos
instruidos en la técnica, que se puede utilizar cualquier motor de
RV conocido en la técnica. En otra realización, se combina una
variedad de otros tipos de motores RV. También será evidente para
aquellos instruidos en la técnica, que los motores se pueden
configurar en cualquier combinación.
De acuerdo con una realización, como se ilustra
en la Fig. 1, un sistema de reconocimiento de voz 100 incluye un
convertidor de analógico a digital (A/D) 102, un motor
DTW-IH 104, un motor DTW-DH 106, y
un motor HMM 108. En una realización, el A/D es un A/D de hardware.
En otra realización el A/D 102 se implementa en software. En una
realización, el A/D 102 y los motores 104, 106, 108, se implementan
como un dispositivo. Se puede comprender por parte de aquellos
instruidos en la técnica, que el A/D 102 y los motores 104, 206,108
se pueden implementar y distribuir entre cualquier número de
dispositivos.
El A/D 102 se acopla al motor
DTW-IH 104, al motor DTW-DH 106, y
al motor HMM 108. El motor DTW-IH 104, el motor
DTW-DH 106, y el motor HMM 108 se acoplan al módulo
de mapeo 110. El módulo de mapeo toma como entrada las salidas de
los motores 104,106, 108 y produce una palabra que corresponde a una
señal de habla
s(t).
s(t).
El sistema de reconocimiento de voz 100 puede
residir, por ejemplo, en un teléfono inalámbrico ó un kit de manos
libres para coche. Un usuario (que no se muestra) dice una palabra o
frase, generando una señal de habla.
La señal de habla se convierte en señal de habla
eléctrica, s(t), con un transductor convencional (que no se
muestra). La señal de habla, s(t), se envia al A/D 102, que
convierte la señal de habla en muestras de habla digital de acuerdo
con un procedimiento de muestreo conocido como, por ejemplo,
modulación codificada mediante pulsos (PCM), Ley-A,
ó ley-\mu. En una realización, típicamente, hay N
muestras de habla de 16-bit cada segundo. Por
tanto, N=8.000 para una frecuencia de muestreo de 8.000 Hz y
N=16.000 para una frecuencia de muestreo de 16.000 Hz.
Las muestra de habla se envian al motor
DTW-IH 104, al motor DTW-DH 106, y
al motor HMM 108. Cada motor procesa las muestras de habla y
produce hipótesis, es decir, palabras candidato para la señal de
habla s(t). Entonces el módulo de mapeo mapea las palabras
candidato en un espacio de decisión, que se evalúa para seleccionar
la palabra candidato que mejor refleja la señal de habla
s(t).
En una realización, el sistema de reconocimiento
de voz incluye dos motores de RV como se muestra en la figura Fig.
2. El sistema de reconocimiento de voz 100 incluye un motor DTW 112
y un motor HMM 114. En una realización, el motor DTW es un motor de
RV independiente del habla. En otra realización, el motor DTW es un
motor de RV dependiente del habla. En una realización, el motor HMM
es un motor de RV independiente del habla. En otra realización, el
motor HMM es un motor de RV dependiente del habla.
En estas realizaciones, el sistema tiene las
ventajas de ambos motores DTW y HMM. En una realización, las
plantillas DTW y HMM se crean explícitamente durante un fase de
entrenamiento en la que se entrena el sistema de reconocimiento de
voz para reconocer las señales de habla de entrada. En otra
realización, las plantillas DTW y HMM son creadas implícitamente
durante el uso típico del sistema de reconocimiento de voz. Se
describen sistemas y procedimientos de entrenamiento de ejemplo en
la Solicitud de Patente No. 09/248,513 titulada "Esquema de
rechazo de reconocimiento de voz", archivado el 8 de Febrero,
1999, que se cede al cesionario de la presente invención, y la
Solicitud de Patente EE.UU. No. 09/225,891, titulada "Sistema y
procedimiento para la segmentación y reconocimiento de señales de
habla", presentador el 4 de Enero de 1999, que se cede al
cesionario de la presente invención.
Un conjunto de plantillas para todas las
palabras de vocabulario del sistema de reconocimiento de voz se
almacenan el cualquier forma convencional de medio de almacenaje no
volátil, como, por ejemplo, memoria flash. Esto permite que las
plantillas permanezcan en el medio de almacenamiento cuando la
energía del sistema de reconocimiento de voz 100 se apaga. En una
realización, el conjunto de plantillas se construye con un sistema
de construcción de plantilla independiente del habla. En una
realización, las palabras de orden se incluyen en un vocabulario de
un motor de
RV.
RV.
La técnica de DTW se conoce en la técnica y se
describe en Lawrence Rabiner& Biing-Hwang Juang,
Fundamentos del Reconocimiento de Habla 200-238
(1993). De acuerdo con la técnica de DTW se forma una estructura
ploteando una secuencia de tiempo de la pronunciación a testar
contra una secuencia de tiempo de cada pronunciación almacenada en
una base de datos de plantillas. La pronunciación a la que se le
realiza la prueba se compara entonces, punto por punto (por
ejemplo, cada 10 ms), con cada pronunciación de la base de datos de
plantillas, una pronunciación en cada momento. Para cada
pronunciación de la base de datos, la pronunciación bajo prueba se
ajusta, ó se "alabea" en el tiempo, bien siendo comprimida o
expandida en puntos particulares hasta que se consiga el
emparejamiento más próximo posible con la pronunciación de la base
de datos. En cada punto en el tiempo las dos pronunciaciones son
comparadas, y o bien se declara un emparejamiento en ese punto
(costo zero), ó se declara un mal emparejamiento. En el caso de un
mal emparejamiento en un punto en particular, la pronunciación bajo
prueba se comprime, se expande, ó si es necesario se mal empareja.
El proceso se continua hasta que las dos pronunciaciones han sido
completamente comparadas. Es posible un gran número (típicamente
miles) de pronunciaciones ajustadas diferentemente. Se selecciona la
pronunciación ajustada que tenga la función de costo más baja (es
decir, la que requiera menos numero de compresiones y/o expansiones
y/o mal emparejamientos). De forma similar a un algoritmo de
decodificación Viterbi, la selección se realiza ventajosamente
mirando hacia atras desde cada punto en la pronunciación en la base
de datos de plantillas para determinar el camino que tenga el costo
total más bajo. Esto permite determinar la pronunciación ajustada de
más bajo costo (es decir, la que más se ajusta al emparejamiento)
sin tener que recurrir al procedimiento de "fuerza bruta" de
generar cada una de las posibles pronunciaciones ajustadas. Las
pronunciaciones ajustadas de más bajo costo para todas las
pronunciaciones de la base de datos de plantillas son entonces
comparadas y la que tiene el costo más bajo se selecciona como la
pronunciación almacenada más próxima a la pronunciación bajo
prueba.
prueba.
Aunque los esquemas de emparejado DTW en un
motor DTW 104 y el decodificado Viterbi en un motor HMM 108 son
similares, los motores DTW y HMM utilizan diferentes esquemas de
extremo frontal, es decir, extractores de características, para
proporcionar vectores de características a la fase de emparejado.
Por esta razón, los patrones de error de los motores DTW y HMM son
bastante dirferentes. Un sistema de reconocimiento de voz con un
motor combinado lleva la ventaja de diferencias en los patrones de
error. Mediante la combinación de los resultados de ambos motores
correctamente, se puede conseguir una precisión de reconocimiento
global más alta. Lo que es más importante, se pueden conseguir unas
tasas de rechazo más bajas para la precisión del
reconocimiento
deseada.
deseada.
En una realización, se combinan motores de
reconocimiento de voz independientes del orador que operan con el
mismo juego de vocabulario. En otra realización, se combinan motores
de reconocimiento de voz dependientes del orador. En otra
realización, un motor de reconocimiento de voz independiente del
orador se combina con un motor de reconocimiento de voz dependiente
del orador, operando ambos motores con el mismo juego de
vocabulario. En otra realización, un motor de reconocimiento de voz
independiente del orador se combina con un motor de reconocimiento
de voz dependiente del orador, operando ambos motores con diferentes
juegos de vocabulario.
Cada motor produce una salida conforme a palabra
en su vocabulario que fue hablada. Cada salida incluye una palabra
candidato para la señal de entrada. Las palabras que no corresponden
con la señal de entrada son rechazadas. Se describen ejemplos de
esquemas de rechazo en la Solicitud de Patente EE.UU. No.
09/248,513.
El reconocimiento del habla preciso es difícil
para un sistema integrado, en parte debido a su limitado recurso de
computación. Para incrementar la precisión del sistema en
reconocimiento del habla, el reconocimiento del habla se consigue
utilizando múltiples motores de reconocimiento. Sin embargo,
diferentes motores de RV, pueden producir diferentes resultados.
Por ejemplo, un motor podría elegir "Jane" y "Joe" como
palabras candidatas superiores, mientras que otro motor de RV
podría elegir "Julie" y "Joe" como palabras candidatas
superiores. Estas diferencias en los resultados deben ser
resueltas. Se debe dar un respuesta, es decir, se tiene que
seleccionar una palabra candidato. El sistema de RV tiene que llegar
a tomar una decisión basándose en estas palabras candidato para que
los múltiples motores sean funcionales.
En una realización hay X (X= 2, 3, ...) motores
combinados, donde cada motor produce Y (Y= 1, 2, ...) palabras
candidato. Por tanto, hay X*Y candidatos de los cuales uno es la
respuesta correcta. En otra realización, cada motor puede producir
un número diferente de candidatos.
En una realización con dos motores D y H,
d_{1} y d_{2} son las distancias entre la pronunciación de
prueba y las dos palabras candidato superiores del motor D, y
h_{1} y h_{2} son las distancias entre la pronunciación de
prueba y las dos palabras candidato superiores del motor H. Las
variables d_{g} y h_{g} son las distancias entre la
pronunciación de prueba y las plantillas "de desecho" de los
motores D y H, respectivamente. las plantillas "de desecho" se
utilizan para representar todas la palabras que no están en el
vocabulario.
En una realización, la decisión de seleccionar
un candidato de los candidatos producidos por los motores de RV se
realiza basado en un mapeo del espacio de medición
(d_{1},d_{2},...d_{g} y h_{1},h_{2}... . h_{g}) al
espacio de decisión (aceptar/rechazar la pronunciación de prueba
como una de las palabras en la lista). En una realización, el mapeo
es un mapeo linear. En otra realización, el mapeo es un mapeo no
linear.
De acuerdo con una realización, Se muestra en la
Fig. 3 el diagrama de flujo de los pasos del procedimiento
realizado por un dispositivo que tiene un motor de RV basado en DTW
y un motor de RV basado en HMM. En el paso 200, se obtiene una
pronunciación de prueba T_{U}. Una vez que se obtiene la
pronunciación de prueba T_{U} se realiza un análisis de
reconocimiento de voz DTW sobre la pronunciación de prueba T_{U}
en el paso 202, y se realiza un análisis de reconocimiento de voz
HMM sobre la pronunciación de prueba T_{U} en el paso 204. En el
paso 206, se obtiene un juego D_{i} de palabras candidatas DTW. En
el paso 208, se obtiene un juego H_{i} de palabras candidatas. En
el paso 210, se aplica una función de mapeo linear a cada palabra
candidato DTW de D, y a cada palabra candidato HMM de H. En el paso
212, el reconocimiento de una palabra candidato se basa en los
resultados del mapeo linear. En el paso 212 se elige la palabra
candidata con el mínimo valor de función de mapeo como palabra
reconocida W(T_{U}). En el paso 214, el valor de la función
de mapeo de la palabra reconocida W(T_{U}) se compara con
un umbral. Si el valor de la función de mapeo de la palabra
reconocida W(T_{U}) es menor que el umbral, la palabra
reconocida es rechazada en el paso 216. Si el valor de la función
de mapeo de la palabra reconocida W(T_{U}) es mayor que el
umbral, la palabra reconocida es aceptada en el paso 218.
D_{i}^{wj} es al distancia entre una
pronunciación de prueba T_{U} 200 y las palabras de vocabulario
incluidas, W_{j}, j=1,2,...,N.
W_{j} es un juego de palabras candidatas donde
el índice j es el número del juego y N es el número de juegos. Cada
juego tiene un número de palabras candidatas, siendo este número un
entero positivo. El índice i es el número del motor de RV.
Cada motor de RV también produce una distancia
D_{g} entre la pronunciación de prueba T_{U} y la plantilla de
palabras fuera de vocabulario W_{g}. Una palabra de vocabulario
incluida es una palabra que está en el vocabulario de un motor de
RV. Una palabra fuera del vocabulario, es una palabra que no está
incluida en el vocabulario de un motor
RV.
RV.
Si el resultado de una función de mapeo es más
grande que un umbral, la palabra candidata evaluada es válida y la
entrada es aceptada. De otra forma, la entrada es rechazada.
La Tabla 1 muestra una matrix de distancias en
una realización con un motor DTW y un motor HMM, donde las dos
palabras superiores de cada motos son escogidas para ser el conjunto
de candidatos. D_{1} y D_{2} son las distancias de las dos
palabras candidatas superiores del motor de RV DTW, y H_{1} y
H_{2} son las distancias de las dos palabras candidatas
superiores del motor de RV HMM.
En una realización con dos motores de RV, donde
un motor RV produce X distancias y el otro motor produce Y
distancias, se produce un total de palabras candidatas X*Y.
Sólo una palabra de un conjunto de candidatas
será reconocida, y se toma una decisión que determina si el
reconocimiento debe ser aceptado/rechazado. En otra realización, una
función de mapeo linear se utiliza para elegir una palabra del
conjunto de candidatas, y tomar una decisión de aceptación ó
rechazo.
Cada juego de palabras candidatas, W_{i}, i=1,
2, 3, 4, tiene sus vectores de medición correspondientes como se
muestra en la tabla 1.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\newpage
D denota un motor DTW. H denota un motor HMM.
D_{1}^{Wi} es la distancia entre T_{U} y W_{i}.
D_{2}^{Wi} es la distancia para el segundo mejor candidato
excluyendo W_{i}. D_{g} denota la distancia entre T_{U} y la
plantilla de desecho. H_{1}^{wi}, H_{2}^{wi}, H_{g}
representan, respectivamente, las mismas cantidades que para el
motor DTW. La función de mapeo linear tiene la forma:
Donde c_{i} (i=0,1,... n) es una constante
real en una realización y un parámetro de habla en otra realización.
El límite superior del índice i es n. El límite superior n es igual
al número de motores de RV en el sistema de reconocimiento de voz
más el número de palabras candidato para cada motor de RV. En una
realización con dos motores de RV y dos palabras candidato por
motor de RV, n=6. El cálculo de n se muestra a continuación:
Dos Motores de RV | 2 | |
Dos palabras candidato para el primer motor de RV | +2 | |
Dos palabras candidato para el segundo motor de RV | +2 | |
\overline{n=6} |
las reglas de decisión para
reconocimiento de palabras y aceptación de palabras son como
sigue:
- 1.
- La palabra que maximiza M_{i} (D_{f}H) se escoge como palabra a ser reconocida; y
- 2.
- El reconocimiento se acepta cuando M_{i}(D_{f}H)>0 y se rechaza cuando M_{i} (D,H)\leq 0.
La función de mapeo puede ser construida o
entrenada objetivamente para minimizar falsos errores de
aceptación/rechazo. En una realización, las constantes c_{i}
(i=0,1,..n) se obtienen a partir de entrenamiento. En el proceso de
entrenamiento, se conoce la identidad de cada muestra de prueba. El
vector de medición de una palabra (de entre W_{1}, W_{2},
W_{3}, y W_{4}) se marca como correcto (+1), y el resto son
marcadas como incorrectos (-1). El entrenamiento determina el valor
del vector de coeficiente c= c_{i} {i=0,1... . n} para minimizar
el número de clasificaciones erróneas.
El vector b es un vector que indica la
naturaleza correcta/incorrecta del vector de entrenamiento, y W es
la matriz de
medida donde cada fila es un vector de medición
D_{1}^{Wi}, D_{2}^{Wi}, D_{g}, H_{1}^{wi},
H_{2}^{wi}, H_{g} (i=1,...,4). En una realización, el vector
de coeficiente c se obtiene computando la
pseudo-inversa of W:
Este procedimiento minimiza el error cuadrado
medio (ECM). En otra realización, se utilizan también procedimientos
de minimización de errores, tales como la minimización de la cuenta
de error total, para resolver el vector de coeficiente c. También
sería evidente para aquellos instruidos en la técnica que se pueden
utilizar otros procedimientos de minimización de errores para
resolver el vector de coeficiente c.
El procedimiento de función de mapeo es
igualmente aplicable a motores múltiples (>2) y palabras
candidato múltiples (>2).
Donde hay L motores de RV y cada uno produce N
palabras candidato, la función de mapeo generalizada tiene la
forma:
C_{o} es la contante del umbral. C^{l}_{k}
es la k-ésima constante de mapeo para el motor l de RV.
V(l)_{k}^{wi} es la k-ésima distancia para el
candidato de palabra W_{i} del motor l de RV.
Se utilizan una ó más variables/parámetros en la
función de mapeo en vez de coeficientes. En una realización, esa ó
esas variables/parámetros utilizadas en la función de mapeo son
parámetros de habla de un motor de RV. También será evidente para
aquellos instruidos en la técnica que la variable/parámetro ó las
variables/parámetros pueden ser parámetros de habla tomados de la
medición o procesamiento de la señal de habla s(t).
Por tanto, se ha descrito un moderno y mejorado
procedimiento y aparato para combinar motores para el reconocimiento
de voz. Aquellos instruidos en la técnica comprenderán que los
diversos bloques lógicos ilustrativos, módulos, y mapeo descritos
en conexión con las realizaciones aquí reveladas pueden ser
implementados con hardware electrónico, software de ordenador, ó
combinaciones de ambos. Los diversos componentes ilustrativos,
bloques, módulos, circuitos, y pasos han sido descritos en general
en términos de su funcionalidad. El que la funcionalidad sea
implementada como hardware o software depende de la aplicación
particular y de las limitaciones del diseño impuestas sobre el
sistema en su conjunto. Los artesanos instruidos reconocen la
intercambiabilidad del hardware y del software bajo estas
circunstancias, y cuál es la mejor forma de implementar la
funcionalidad descrita para cada aplicación particular. Como
ejemplos, los diversos bloques lógicos ilustrativos, módulos, y
mapeo descritos en conexión con las realizaciones aquí reveladas
pueden ser implementados ó realizados con un procesador que ejecute
un conjunto de instrucciones de firmware, una palicación especifica
de circuito integrado (ASIC), una colección de puertas programables
de campo (FPGA) u otro dispositivo lógico programable, puerta
discreta ó lógica de transistor, componentes de hardware discretos
como, por ejemplo, registradores, cualquier módulo de software
programable convencional y un procesador, ó cualquier combinación de
los designados para realizar las funciones aquí descritas. El A/D
102, los motores de RV, y el módulo de mapeo 110 pueden ser
ventajosamente ejecutados en un microporcesador, pero como
alternativa, el A/D 102, los motores de RV, y el módulo de mapeo
110 pueden ser ejecutados en cualquier procesador convencional,
controlador, microcontrolador, ó máquina de estado. Las plantillas
pueden residir en memoria RAM, memoria flash, memoria ROM, memoria
EPROM, memoria EEPROM, registradores, disco duro, disco externo, un
CD-ROM, ó cualquier otra forma de medio de
almacenaje conocido en la técnica. La memoria (no se muestra) puede
ser integral a cualquier procesador de los mencionados (no se
muestra). Un procesador (no se muestra) y memoria (no se muestra)
pueden residir en un ASIC (no se muestra). El ASIC puede residir
en un teléfono.
La descripción previa de las realizaciones de la
invención se proporciona para permitir a cualquier persona
instruida en la técnica hacer ó utilizar la presente invención. Las
diversas modificaciones a estas realizaciones serán fácilmente
evidentes para aquellos instruidos en la técnica, y los principios
genéricos aquí definidos pueden ser aplicados a otras realizaciones
sin la utilización de la facultad de la inventiva. Por tanto, la
presente invención no pretende limitarse a las realizaciones aquí
mostradas, sino que está de acuerdo con el mayor alcance
consistente con los principios y características novedosas aquí
reveladas.
Claims (23)
1. Un sistema de reconocimiento de voz (100),
que comprende:
una pluralidad de motores RV de reconocimiento
de voz (104, 106, 108) con cada uno de los motores de reconocimiento
de voz configurados para producir una palabra candidato; y un
módulo de mapeo (110) que se configura para aceptar como entrada la
palabra candidato de la pluralidad de motores de RV (104, 106, 108)
y selecciona un candidato de palabra basado en una función de
mapeo;
Donde la función de mapeo es:
En donde F es un primer motor de reconocimiento
de voz, S es un segundo motor de reconocimiento de voz,
F_{1}^{wi} es la distancia entre la pronunciación T_{U} y la
palabra candidato W_{i}, F_{2}^{wi} es la distancia para el
segundo mejor candidato excluyendo W_{i}. D_{g} denota la
distancia entre T_{U} y la plantilla de desecho, S_{1}^{wi}
es la distancia entre la pronunciación T_{U} y W_{i},
S_{2}^{wi} es la distancia para el segundo mejor candidato
excluyendo W_{i}, S_{g} denota la distancia entre T_{U} y la
plantilla de desecho, y c_{i} = (i = 0,1,....n) es un coeficiente
y el limite superior n es igual a la suma del número de motores RV
más la suma de palabras candidato para cada motor RV.
2. El sistema de reconocimiento de voz
(100) de la reivindicación 1, en donde la pluralidad de motores de
reconocimiento de voz incluye un motor de de reconocimiento de voz
independiente del orador (104).
3. El sistema de reconocimiento de voz
(100) de la reivindicación 1, en donde la pluralidad de motores de
reconocimiento de voz incluye un motor de de reconocimiento de voz
dependiente del orador (106).
4. El sistema de reconocimiento de voz
(100) de la reivindicación 2, en donde la pluralidad de motores de
reconocimiento de voz incluye un motor de de reconocimiento de voz
dependiente del orador (106).
5. El sistema de reconocimiento de voz
(100) de la reivindicación 4, en donde al menos un motor de
reconocimiento de voz independiente del orador (104) es un motor de
reconocimiento de Alabeo de Tiempo Dinámico (DTW).
6. El sistema de reconocimiento de voz
(100) de la reivindicación 4, en donde al menos un motor de
reconocimiento de voz independiente del orador (104) es un motor de
reconocimiento del Modelo Hidden Markov (HMM).
7. El sistema de reconocimiento de voz
(100) de la reivindicación 4, en donde al menos un motor de
reconocimiento de voz dependiente del orador (106) es un motor de
reconocimiento de Alabeo de Tiempo Dinámico (DTW).
8. El sistema de reconocimiento de voz
(100) de la reivindicación 4, en donde al menos un motor de
reconocimiento de voz dependiente del orador (106) es un motor de
reconocimiento del Modelo Hidden Markov (HMM).
9. El sistema de reconocimiento de voz
(100) de la reivindicación 1, en donde la función de mapeo mapea
linealmente las palabras candidato desde un espacio de medición
hasta un espacio de decisión.
10. El sistema de reconocimiento de voz (100)
de la reivindicación 1, en donde la palabra candidato se representa
mediante una distancia entre una plantilla de palabras candidato y
la pronunciación.
11. El sistema de reconocimiento de voz (100)
de la reivindicación 10, en donde el módulo de mapeo multiplica la
distancia de cada motor de RV por un coeficiente y añade el producto
y otro coeficiente C_{o}, produciendo por tanto una suma.
12. El sistema de reconocimiento de voz (100) de
la reivindicación 11, en donde un candidato de palabra se
selecciona en base a la suma.
13. El sistema de reconocimiento de voz (100) de
la reivindicación 12, en donde el coeficiente es una constante
real.
14. El sistema de reconocimiento de voz (100) de
la reivindicación 12, en donde el coeficiente es un parámetro de
habla.
15. Un sistema de reconocimiento de voz (100),
que comprende:
- una pluralidad de motores de reconocimiento de voz (RV) (104, 106, 108), con cada uno de los motores de reconocimiento de voz configurado para producir un candidato de palabra; y
- un módulo de mapeo (110) que se configura para tomar como entrada los candidatos de palabra de la pluralidad de motores de RV (104, 106, 108) y selecciona una candidato de palabra basado en la función de mapeo;
En donde la función de mapeo es:
En donde C_{o} es una contante de umbral,
C_{k}^{l} es una constante de mapeo k-ésima para el motor l de
RV, y V(l)_{k}^{wi} es una distancia k-ésima de
los candidatos de palabra W_{i} desde el motor de RV 1.
16. Un procedimiento de reconocimiento de voz,
que comprende:
- obtener al menos una palabra candidato para una pronunciación de prueba (200) y;
- seleccionar una palabra reconocida de la menos una palabra candidato basada en la función de mapeo;
en donde la función de mapeo
es:
En donde F es un primer motor de reconocimiento
de voz, S es un segundo motor de reconocimiento de voz,
F_{1}^{wi} es la distancia entre la pronunciación T_{U} y la
palabra candidato W_{i}, F_{2}^{wi} es la distancia para el
segundo mejor candidato excluyendo W_{i}. D_{g} denota la
distancia entre T_{U} y la plantilla de desecho, S_{1}^{wi}
es la distancia entre la pronunciación T_{U} y W_{i},
S_{2}^{wi} es la distancia para el segundo mejor candidato
excluyendo W_{i}, S_{g} denota la distancia entre T_{U} y la
plantilla de desecho, y c_{i} = (i = 0,1,....n) es un coeficiente
y el limite superior n es igual a la suma del número de motores RV
más la suma de palabras candidato para cada motor RV.
17. El procedimiento de la reivindicación 16, en
donde la función de mapeo mapea linealmente al menos una palabra
candidata desde un espacio de medición a un espacio de decisión.
18. El procedimiento de la reivindicación 16, en
donde el coeficiente es una constante real.
19. El procedimiento de la reivindicación 16 en
donde el coeficiente es un parámetro de habla.
20. Un procedimiento de reconocimiento de voz,
que comprende:
- obtener al menos una palabra candidato para una pronunciación de prueba (200); y
- seleccionar una palabra reconocida de la menos una palabra candidato basada en la función de mapeo;
en donde la función de mapeo
es:
En donde C_{o} es una contante de umbral,
C_{k}^{l} es una constante de mapeo k-ésima para el motor l de
RV, y V(l)_{k}^{wi} es una distancia k-ésima de
los candidatos de palabra W_{i} desde el motor de RV 1.
21. El procedimiento de la reivindicación 16 ó
de la reivindicación 20, en donde el paso de obtención además
comprende los pasos de:
- obtener la pronunciación de prueba mencionada;
- analizar la pronunciación de prueba;
- proporcionar al menos una palabra candidato para la pronunciación de prueba basada en el análisis de la pronunciación de prueba; y en donde el paso de selección además comprende los pasos de:
- aplicar la función de mapeo mencionada a al menos una palabra candidato (210);
- seleccionar una palabra candidato de al menos una palabra candidato basada en el valor de la función de mapeo de al menos una palabra candidato (212); y
- comparar el valor de la función de mapeo de la palabra candidato seleccionada con un umbral (214).
22. El procedimiento de la reivindicación 21
comprendiendo además la aceptación de la palabra candidato
seleccionada basada en la comparación (218).
23. El procedimiento de la reivindicación 21
comprendiendo además el rechazo de la palabra candidato seleccionada
basado en la comparación (216).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US657760 | 2000-09-08 | ||
US09/657,760 US6754629B1 (en) | 2000-09-08 | 2000-09-08 | System and method for automatic voice recognition using mapping |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2273885T3 true ES2273885T3 (es) | 2007-05-16 |
Family
ID=24638560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01968568T Expired - Lifetime ES2273885T3 (es) | 2000-09-08 | 2001-09-05 | Combinacion de dtw y hmm en modos dependiente e independiente del orador para reconocimiento de voz. |
Country Status (13)
Country | Link |
---|---|
US (1) | US6754629B1 (es) |
EP (1) | EP1316086B1 (es) |
JP (1) | JP2004518155A (es) |
KR (1) | KR100901092B1 (es) |
CN (1) | CN1238836C (es) |
AT (1) | ATE344959T1 (es) |
AU (1) | AU2001288808A1 (es) |
BR (1) | BR0113725A (es) |
DE (1) | DE60124408T2 (es) |
ES (1) | ES2273885T3 (es) |
HK (1) | HK1058428A1 (es) |
TW (1) | TW548630B (es) |
WO (1) | WO2002021513A1 (es) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE328345T1 (de) * | 2000-09-19 | 2006-06-15 | Thomson Licensing | Sprachsteuerung von elektronischen geräten |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US20040138885A1 (en) * | 2003-01-09 | 2004-07-15 | Xiaofan Lin | Commercial automatic speech recognition engine combinations |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
KR100693284B1 (ko) * | 2005-04-14 | 2007-03-13 | 학교법인 포항공과대학교 | 음성 인식 장치 |
US20070225970A1 (en) * | 2006-03-21 | 2007-09-27 | Kady Mark A | Multi-context voice recognition system for long item list searches |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
GB0616070D0 (en) * | 2006-08-12 | 2006-09-20 | Ibm | Speech Recognition Feedback |
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
CN101256769B (zh) * | 2008-03-21 | 2011-06-15 | 深圳市汉音科技有限公司 | 语音识别装置及其方法 |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
EP3610918B1 (en) * | 2009-07-17 | 2023-09-27 | Implantica Patent Ltd. | Voice control of a medical implant |
KR101066472B1 (ko) * | 2009-09-15 | 2011-09-21 | 국민대학교산학협력단 | 초성 기반 음성인식장치 및 음성인식방법 |
CN102651218A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于创建语音标签的方法以及设备 |
KR101255141B1 (ko) * | 2011-08-11 | 2013-04-22 | 주식회사 씨에스 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
US9767793B2 (en) | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
JP5677650B2 (ja) * | 2012-11-05 | 2015-02-25 | 三菱電機株式会社 | 音声認識装置 |
CN103065627B (zh) * | 2012-12-17 | 2015-07-29 | 中南大学 | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 |
CN105027198B (zh) * | 2013-02-25 | 2018-11-20 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别系统 |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
TWI506458B (zh) | 2013-12-24 | 2015-11-01 | Ind Tech Res Inst | 辨識網路產生裝置及其方法 |
CN104103272B (zh) * | 2014-07-15 | 2017-10-10 | 无锡中感微电子股份有限公司 | 语音识别方法、装置和蓝牙耳机 |
EP3065132A1 (fr) | 2015-03-06 | 2016-09-07 | ZETES Industries S.A. | Méthode et système de détermination de validité d'un élément d'un résultat de reconnaissance vocale |
EP3065131B1 (fr) | 2015-03-06 | 2020-05-20 | ZETES Industries S.A. | Méthode et système de post-traitement d'un résultat de reconnaissance vocale |
EP3065133A1 (fr) | 2015-03-06 | 2016-09-07 | ZETES Industries S.A. | Méthode et système pour générer une solution optimisée en reconnaissance vocale |
US10170110B2 (en) * | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
US10360914B2 (en) | 2017-01-26 | 2019-07-23 | Essence, Inc | Speech recognition based on context and multiple recognition engines |
US10861450B2 (en) | 2017-02-10 | 2020-12-08 | Samsung Electronics Co., Ltd. | Method and apparatus for managing voice-based interaction in internet of things network system |
CN107039037A (zh) * | 2017-04-21 | 2017-08-11 | 南京邮电大学 | 一种基于dtw的孤立词语音识别方法 |
CN109767758B (zh) * | 2019-01-11 | 2021-06-08 | 中山大学 | 车载语音分析方法、系统、存储介质以及设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4831551A (en) * | 1983-01-28 | 1989-05-16 | Texas Instruments Incorporated | Speaker-dependent connected speech word recognizer |
US4763278A (en) * | 1983-04-13 | 1988-08-09 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US5073939A (en) * | 1989-06-08 | 1991-12-17 | Itt Corporation | Dynamic time warping (DTW) apparatus for use in speech recognition systems |
WO1996008005A1 (en) | 1994-09-07 | 1996-03-14 | Motorola Inc. | System for recognizing spoken sounds from continuous speech and method of using same |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US6272455B1 (en) * | 1997-10-22 | 2001-08-07 | Lucent Technologies, Inc. | Method and apparatus for understanding natural language |
US6125341A (en) * | 1997-12-19 | 2000-09-26 | Nortel Networks Corporation | Speech recognition system and method |
US6321195B1 (en) * | 1998-04-28 | 2001-11-20 | Lg Electronics Inc. | Speech recognition method |
ITTO980383A1 (it) | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
US6275800B1 (en) * | 1999-02-23 | 2001-08-14 | Motorola, Inc. | Voice recognition system and method |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6671669B1 (en) | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
-
2000
- 2000-09-08 US US09/657,760 patent/US6754629B1/en not_active Expired - Lifetime
-
2001
- 2001-09-05 AT AT01968568T patent/ATE344959T1/de not_active IP Right Cessation
- 2001-09-05 BR BR0113725-5A patent/BR0113725A/pt not_active IP Right Cessation
- 2001-09-05 WO PCT/US2001/027625 patent/WO2002021513A1/en active IP Right Grant
- 2001-09-05 KR KR1020037003316A patent/KR100901092B1/ko not_active IP Right Cessation
- 2001-09-05 CN CNB018153631A patent/CN1238836C/zh not_active Expired - Fee Related
- 2001-09-05 ES ES01968568T patent/ES2273885T3/es not_active Expired - Lifetime
- 2001-09-05 DE DE60124408T patent/DE60124408T2/de not_active Expired - Lifetime
- 2001-09-05 JP JP2002525645A patent/JP2004518155A/ja active Pending
- 2001-09-05 EP EP01968568A patent/EP1316086B1/en not_active Expired - Lifetime
- 2001-09-05 AU AU2001288808A patent/AU2001288808A1/en not_active Abandoned
- 2001-09-07 TW TW090122242A patent/TW548630B/zh active
-
2004
- 2004-02-19 HK HK04101178A patent/HK1058428A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
WO2002021513A8 (en) | 2002-06-20 |
KR20030061797A (ko) | 2003-07-22 |
CN1454381A (zh) | 2003-11-05 |
BR0113725A (pt) | 2004-08-17 |
AU2001288808A1 (en) | 2002-03-22 |
EP1316086B1 (en) | 2006-11-08 |
EP1316086A1 (en) | 2003-06-04 |
KR100901092B1 (ko) | 2009-06-08 |
HK1058428A1 (en) | 2004-05-14 |
ATE344959T1 (de) | 2006-11-15 |
CN1238836C (zh) | 2006-01-25 |
US6754629B1 (en) | 2004-06-22 |
DE60124408D1 (de) | 2006-12-21 |
DE60124408T2 (de) | 2007-09-06 |
JP2004518155A (ja) | 2004-06-17 |
TW548630B (en) | 2003-08-21 |
WO2002021513A1 (en) | 2002-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2273885T3 (es) | Combinacion de dtw y hmm en modos dependiente e independiente del orador para reconocimiento de voz. | |
ES2278763T3 (es) | Sistema y procedimiento de reconocimiento de voz con una pluralidad de motores de reconocimiento. | |
US6925154B2 (en) | Methods and apparatus for conversational name dialing systems | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
ES2255982T3 (es) | Indicador de final de voz en presencia de ruido. | |
ES2330857T3 (es) | Sistema de reconocimiento de voz que usa adaptacion implicita del que habla. | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US8438028B2 (en) | Nametag confusability determination | |
US7826945B2 (en) | Automobile speech-recognition interface | |
US6519479B1 (en) | Spoken user interface for speech-enabled devices | |
ES2275700T3 (es) | Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
KR100742888B1 (ko) | 음성 인식 방법 | |
KR20060050277A (ko) | 다중 언어의 이름들의 음성 인식을 위한 방법 및 시스템 | |
ES2286014T3 (es) | Esquema de rechazo de reconocimiento de voz. | |
EP1734509A1 (en) | Method and system for speech recognition | |
US5995926A (en) | Technique for effectively recognizing sequence of digits in voice dialing | |
KR20010024521A (ko) | 음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
JP2020101778A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 | |
Kitaoka et al. | Detection and recognition of correction utterances on misrecognition of spoken dialog system | |
JP3100208B2 (ja) | 音声認識装置 | |
KR20030002197A (ko) | 인식 후 거리를 이용한 음성인식 방법 | |
KR19990081664A (ko) | 음성 인식 전화기의 음성 인식 방법 | |
JPH1039889A (ja) | 音声認識のテンプレート登録方法 |