ES2286014T3 - Esquema de rechazo de reconocimiento de voz. - Google Patents
Esquema de rechazo de reconocimiento de voz. Download PDFInfo
- Publication number
- ES2286014T3 ES2286014T3 ES00914513T ES00914513T ES2286014T3 ES 2286014 T3 ES2286014 T3 ES 2286014T3 ES 00914513 T ES00914513 T ES 00914513T ES 00914513 T ES00914513 T ES 00914513T ES 2286014 T3 ES2286014 T3 ES 2286014T3
- Authority
- ES
- Spain
- Prior art keywords
- score
- difference
- slope
- voice recognition
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Character Discrimination (AREA)
Abstract
Un procedimiento de captura de una unidad de habla en un sistema (10) de reconocimiento de voz, que comprende las etapas de: comparar (18) la unidad de habla con una primera palabra almacenada para generar una primera puntuación; comparar (18) la unidad de habla con una segunda palabra almacenada para generar una segunda puntuación; y determinar (18) una diferencia entre la primera puntuación y la segunda puntuación; procesar (20) la unidad de habla basándose en la primera puntuación y la diferencia determinada por: comparar la primera puntuación con un primer valor umbral de pendiente y rechazar la unidad de habla si la primera puntuación es mayor que el primer valor umbral de pendiente; en caso contrario, comparar la primera puntuación con un segundo valor umbral de pendiente y aplicar un algoritmo N-best para verificar la unidad de habla si la primera puntuación es mayor que el segundo valor umbral de pendiente; en caso contrario, aceptar la unidad de habla; en el que el primer y segundovalor umbral de pendiente varían con la diferencia determinada.
Description
Esquema de rechazo de reconocimiento de voz.
La presente invención pertenece en general al
campo de las comunicaciones, y más específicamente a sistemas de
reconocimiento de voz.
El reconocimiento de voz (VR) representa una de
las técnicas más importantes para dotar a una máquina con
inteligencia simulada para reconocer órdenes de usuario o de voz de
usuario y para facilitar la interfaz humana con la máquina. El VR
también representa una técnica clave para el entendimiento del habla
humana. Los sistemas que emplean técnicas para recuperar un mensaje
lingüístico a partir de una señal de habla acústica se llaman
reconocedores de voz. Un reconocedor de voz comprende normalmente un
procesador acústico, que extrae una secuencia de información de
características portadoras de información, o vectores, necesarios
para conseguir el VR del habla no depurada entrante, y un
descodificador de palabras, que descodifica la secuencia de
características, o vectores, para producir un formato de salida
coherente y deseado tal como una secuencia de palabras lingüísticas
correspondientes a la unidad de habla de entrada. Para aumentar el
rendimiento de un sistema dado, se requiere entrenamiento para
equipar al sistema con parámetros válidos. Dicho de otro modo, el
sistema necesita aprender antes de que pueda funcionar de manera
óptima.
El procesador acústico representa un subsistema
de análisis del habla de entrada en un reconocedor de voz. En
respuesta a una señal del habla de entrada, el procesador acústico
proporciona una representación apropiada para caracterizar la señal
del habla variable en el tiempo. El procesador acústico debería
desechar información irrelevante tal como ruido de fondo,
distorsión de canal, características del hablante, y manera de
hablar. Un procesamiento acústico eficaz proporciona reconocedores
de voz con potencia de discriminación acústica mejorada. Para este
fin, una característica útil a analizar es la envolvente espectral
de tiempo corto. Dos técnicas de análisis espectral utilizadas
comúnmente para caracterizar la envolvente espectral de tiempo corto
son la codificación predictiva lineal (LPC) y el modelado espectral
basado en banco de filtros. Las técnicas LPC ejemplares se
describen en la patente estadounidense Nº 5.414.796, que está
transferida al cesionario de la presente invención, y en el
documento de L.B. Rabiner & R.W. Schafer, Digital Processing
of Speech Signals 396-453 (1978).
El uso de VR (al que también se hace referencia
comúnmente como reconocimiento del habla) es cada vez más
importante por razones de seguridad. Por ejemplo, el VR puede
utilizarse para reemplazar la tarea manual de pulsar botones en un
teclado de teléfono inalámbrico. Esto es especialmente importante
cuando un usuario está iniciando una llamada telefónica mientras
conduce un coche. Cuando se utiliza un teléfono sin el VR, el
conductor debe quitar una mano del volante y mirar al teclado del
teléfono mientras pulsa los botones para marcar la llamada. Estos
actos aumentan la posibilidad de un accidente de coche. Un teléfono
con habla habilitada (es decir, un teléfono diseñado para el
reconocimiento del habla) permitiría al conductor hacer llamadas de
teléfono mientras mira continuamente a la carretera. Un sistema de
kit de coche de manos libres permitiría adicionalmente al conductor
mantener ambas manos sobre el volante durante la iniciación de la
llamada.
Los dispositivos de reconocimiento del habla se
clasifican como dispositivos dependientes del hablante o
independientes del hablante. Los dispositivos independientes del
hablante pueden aceptar órdenes de voz de cualquier usuario. Los
sistemas dependientes del hablante, que son más comunes, están
entrenados para reconocer órdenes de usuarios particulares. Un VR
dependiente del hablante opera normalmente en dos fases, una fase de
entrenamiento y una fase de reconocimiento. En la fase de
entrenamiento, el sistema VR pide al usuario decir cada una de las
palabras en el vocabulario del sistema una o dos veces de manera
que el sistema pueda aprender las características del habla del
usuario para estas palabras o frases particulares. Como alternativa,
para un dispositivo VR fonético, el entrenamiento se lleva a cabo
leyendo uno o más artículos breves escritos específicamente para
cubrir todos los fonemas en el lenguaje. Un vocabulario ejemplar
para un kit de coche de manos libres podría incluir los dígitos
sobre el teclado; las palabras clave "llamar", "enviar",
"marcar", "cancelar", "borrar", "añadir",
"eliminar", "histórico", "programar", "sí", y
"no"; y los nombres de un número predefinido de compañeros de
trabajo, amigos o familiares a los que se llama comúnmente. Una vez
que se finaliza el entrenamiento, el usuario puede iniciar llamadas
en la fase de reconocimiento diciendo las palabras clave entrenadas.
Por ejemplo, si el nombre "John" fuera uno de los nombres
entrenados, el usuario podría iniciar una llamada a John diciendo
la frase "llamar John". El sistema VR reconocería las palabras
"llamar" y "John", y marcaría el número que el usuario
había introducido previamente como el número de teléfono de
John.
El rendimiento global de un sistema VR puede
definirse como el porcentaje de casos en los que un usuario pasa
por una tarea de reconocimiento satisfactoriamente. Una tarea de
reconocimiento comprende normalmente múltiples etapas. Por ejemplo,
en marcación por voz con un teléfono inalámbrico, el rendimiento
global se refiere al porcentaje medio de veces que un usuario
completa una llamada de teléfono satisfactoriamente con el sistema
VR. El número de etapas necesarias para conseguir una llamada de
teléfono satisfactoria con VR puede variar de una llamada a otra.
En general, el rendimiento global de un sistema VR depende
principalmente de dos factores, la precisión de reconocimiento del
sistema VR, y la interfaz humano-máquina. Una
percepción subjetiva del usuario humano del rendimiento del sistema
VR se basa en el rendimiento global. Por tanto, existe una necesidad
de un sistema VR con alta precisión de reconocimiento y una
interfaz humano-máquina para aumentar el
rendimiento global.
La patente estadounidense Nº 4.827.520 y el
documento EP 0 867 861 A describen procedimientos que comparan una
unidad de habla con plantillas almacenadas. Se determinan
puntuaciones como un resultado de las comparaciones y, en
circunstancias particulares, pueden evaluarse diferencias entre las
puntuaciones.
La presente invención se dirige a un sistema VR
con alta precisión de reconocimiento y a una interfaz
humano-máquina inteligente para aumentar el
rendimiento global. Por consiguiente, en un aspecto de la invención,
un procedimiento para capturar una unidad de habla en un sistema de
reconocimiento de voz incluye ventajosamente las etapas de la
reivindicación 1.
En otro aspecto de la invención, un sistema de
reconocimiento de voz incluye ventajosamente las características de
la reivindicación 11.
La figura 1 es un diagrama de bloques de un
dispositivo de reconocimiento de voz.
La figura 2 es un gráfico de puntuación frente a
un cambio en la puntuación para un esquema de rechazo de un sistema
VR, que ilustra las regiones de rechazo, N-best, y
de aceptación.
Según una realización, tal como se ilustra en la
figura 1, un sistema 10 de reconocimiento de voz incluye un
conversor 12 analógico-digital (A/D), un procesador
14 acústico, una base 16 de datos de plantillas VR, lógica 18 de
comparación de patrones, y lógica 20 de decisión. El sistema 10 VR
puede residir en, por ejemplo, un teléfono inalámbrico o un kit de
coche de manos libres.
Cuando el sistema 10 VR está en la fase de
reconocimiento del habla, una persona (no mostrada), dice una
palabra o frase, generando una señal del habla. La señal del habla
se convierte a una señal s(t) del habla eléctrica con un
transductor convencional (no mostrado tampoco). La señal s(t)
del habla se proporciona al A/D 12, que convierte la señal
s(t) del habla a muestras s(n) del habla digitalizadas
según un procedimiento de muestreo conocido tal como, por ejemplo,
modulación por impulsos codificados (PCM).
Las muestras s(n) del habla se
proporcionan al procesador 14 acústico para la determinación de
parámetros. El procesador 14 acústico produce un conjunto de
parámetros extraídos que modela las características de la señal
s(t) del habla de entrada. Los parámetros pueden determinarse
según cualquiera de un número de técnicas de determinación de
parámetros del habla conocidas incluyendo, por ejemplo, la
codificación por codificador del habla y la utilización de
coeficientes cepstrum basados en la transformada rápida de Fourier
(FFT), tal como se describe en la patente estadounidense Nº
5.414.796 mencionada anteriormente. El procesador 14 acústico puede
implementarse como un procesador de señales digitales (DSP). El DSP
puede incluir un codificador del habla. Como alternativa, el
procesador 14 acústico puede implementarse como un codificador del
habla.
La determinación de parámetros también se
realiza durante el entrenamiento del sistema 10 VR, en el que un
conjunto de plantillas para todas las palabras del vocabulario del
sistema 10 VR se encamina a la base 16 de datos de plantillas VR
para el almacenamiento permanente en la misma. La base 16 de datos
de plantillas VR se implementa de manera ventajosa como cualquier
forma convencional de medio de almacenamiento no volátil, tal como,
por ejemplo, memoria flash. Esto permite que las plantillas
permanezcan en la base 16 de datos de plantillas VR cuando se
desconecta la potencia al sistema 10 VR.
El conjunto de parámetros se proporciona a la
lógica 18 de comparación de patrones. La lógica 18 de comparación
de patrones detecta ventajosamente los puntos de inicio y
finalización de una unidad de habla, calcula características
acústicas dinámicas (tales como, por ejemplo, derivadas de tiempo,
segundas derivadas de tiempo, etc.), comprime las características
acústicas seleccionando tramas importantes, y cuantifica las
características estáticas y dinámicas. Diversos procedimientos
conocidos de detección del punto final, derivación de
características acústicas dinámicas, compresión de patrones, y
cuantificación de patrones se describen, por ejemplo, en el
documento de Lawrence Rabiner & Biing-Hwang
Juang, Fundamentals of Speech Recognition (1993).
La lógica 18 de comparación de patrones compara
el conjunto de parámetros con todas las plantillas almacenadas en
la base 16 de datos de plantillas VR. Los resultados de la
comparación, o distancias, entre el conjunto de parámetros y todas
las plantillas almacenadas en la base 16 de datos de plantillas VR
se proporcionan a la lógica 20 de decisión. La lógica 20 de
decisión puede (1) seleccionar a partir de la base 16 de datos de
plantillas VR la plantillas que se corresponden de manera más
ajustada con el conjunto de parámetros, o puede (2) aplicar un
algoritmo de selección "N-best", que elige el N
más ajustado que se corresponde dentro de un umbral de
correspondencia predefinido; o puede (3) rechazar el conjunto de
parámetros. Si se utiliza un algoritmo N-best,
entonces se pregunta a la persona qué elección estaba prevista. La
salida de la lógica 20 de decisión es la decisión de qué palabra en
el vocabulario se dijo. Por ejemplo, en una situación
N-best, la persona podría decir, "John
Anders", y el sistema 10 VR podría responder, "¿Dijiste John
Andrews?" La persona entonces respondería, "John Anders".
El sistema 10 VR podría entonces responder, "¿Dijiste John
Anders?" La persona entonces respondería, "Sí", punto en el
que el sistema 10 VR iniciaría la marcación de una llamada
telefónica.
La lógica 18 de comparación de patrones y la
lógica 20 de decisión puede implementarse ventajosamente como un
microprocesador. Como alternativa, la lógica 18 de comparación de
patrones y la lógica 20 de decisión pueden implementarse como
cualquier forma convencional de procesador, controlador, o máquina
de estados. El sistema 10 VR puede ser, por ejemplo, un circuito
integrado para aplicaciones específicas (ASIC). La precisión de
reconocimiento del sistema 10 VR es una medición de cómo de bien el
sistema 10 VR reconoce correctamente las palabras o frases dichas
en el vocabulario. Por ejemplo, una precisión de reconocimiento del
95% indica que el sistema 10 VR reconoce correctamente palabras en
el vocabulario noventa y cinco veces de 100.
En una realización se segmenta un gráfico de
puntuación frente a un cambio en la puntuación en regiones de
aceptación, N-best, y rechazo, tal como se ilustra
en la figura 2. Las regiones están separadas por líneas según
técnicas conocidas de análisis discriminativo lineal, que se
describen en el documento de Richard O. Duda & Peter E. Hart,
Pattern Classification and Scene Análisis (1973). A cada
entrada de unidad de habla al sistema 10 VR se le asigna un
resultado de comparación para, o distancia desde, cada plantilla
almacenada en la base 16 de datos de plantillas VR mediante la
lógica 18 de comparación de patrones, tal como se describió
anteriormente. Estas distancias, o "puntuaciones", pueden ser
de manera ventajosa distancias euclídeas entre vectores en un
espacio de vectores N-dimensional, sumados sobre
múltiples tramas. En una realización el espacio de vectores es un
espacio de vectores de veinticuatro dimensiones, la puntuación se
acumula sobre veinte tramas, y la puntuación es una distancia
entera. Los expertos en la técnica entenderían que la puntuación
podría expresarse igualmente como una fracción u otro valor. Los
expertos en la técnica también entenderían que otras métricas
pueden sustituirse por distancias euclídeas, de tal manera que las
puntuaciones podrían ser, por ejemplo, medidas de probabilidad,
medidas de posibilidad, etc.
Para una unidad de habla dada y una plantilla VR
dada de la base 16 de datos de plantillas VR, cuando menor es la
puntuación (es decir, cuanto menor es la distancia entre la unidad
de habla y la plantilla VR), más ajustada es la correspondencia
entre la unidad de habla y la plantilla VR. Para cada unidad de
habla, la lógica 20 de decisión analiza la puntuación asociada con
la correspondencia más ajustada en la base 16 de datos de
plantillas VR en relación con la diferencia entre esa puntuación y
la puntuación asociada con la segunda correspondencia más ajustada
en la base 16 de datos de plantillas VR (es decir, la segunda
puntuación más baja). Tal como se representa en el gráfico de la
figura 2, la "puntuación" está dibujada frente a "cambio en
la puntuación" y se definen tres regiones. La región de rechazo
representa una zona en la que una puntuación es relativamente alta
y la diferencia entre esa puntuación y la puntuación más baja
siguiente es relativamente pequeña. Si una unidad de habla cae
dentro de la región de rechazo, la lógica 20 de decisión rechaza la
unidad de habla. La región de aceptación representa una zona en la
que una puntuación es relativamente baja y la diferencia entre esa
puntuación y la puntuación más baja siguiente es relativamente
grande. Si una unidad de habla cae dentro de la región de
aceptación, la lógica 20 de decisión acepta la unidad de habla. La
región N-best se encuentra entre la región de
rechazo y la región de aceptación. La región N-best
representa una zona en la que o bien una puntuación es menor que
una puntuación en la región de rechazo o bien la diferencia entre
esa puntuación y la puntuación más baja siguiente es mayor que la
diferencia para una puntuación en la región de rechazo. La región
N-best también representa una zona en la que o bien
una puntuación es mayor que una puntuación en la región de
aceptación o bien la diferencia entre esa puntuación y la puntuación
más baja siguiente es menor que la diferencia para una puntuación
en la región de aceptación, dado que la diferencia para la
puntuación en la región N-best es mayor que un valor
de cambio en puntuación umbral predefinido. Si una unidad de habla
cae dentro de la región N-best, la lógica 20 de
decisión aplica un algoritmo N-best a la unidad de
habla, tal como se describió anteriormente.
En la realización descrita con referencia a la
figura 2, un primer segmento de línea separa la región de rechazo
de la región N-best. El primer segmento de línea
corta el eje de "puntuación" en un valor de puntuación umbral
predefinido. La pendiente del primer segmento de línea también está
predefinida. Un segundo segmento de línea separa la región
N-best de la región de aceptación. La pendiente del
segundo segmento de línea está predefinida puesto que es la misma
que la pendiente del primer segmento de línea, de manera que el
primer y segundo segmento de línea son paralelos. Un tercer
segmento de línea se extiende verticalmente desde un valor de cambio
umbral predefinido en el eje de "cambio en la puntuación" para
encontrarse con un punto final del segundo segmento de línea. Los
expertos en la técnica apreciarían que el primer y segundo segmento
de línea no necesitan ser paralelos, y podrían tener cualquier
pendiente asignada de manera arbitraria. Además, no se necesita
utilizar el tercer segmento de línea.
En una realización el valor de puntuación umbral
es 375, el valor de cambio umbral es 28, y si el punto final del
segundo segmento de línea se extendiese, el segundo segmento de
línea cortaría el eje de "puntuación" en el valor 250, de
manera que las pendientes del primer y segundo segmento de línea son
cada una 1. Si el valor de puntuación es mayor que el valor de
cambio en puntuación más 375, la unidad de habla se rechaza. De
otro modo, si o bien el valor de puntuación es mayor que el valor de
cambio en puntuación más 250 o bien el valor de cambio en
puntuación es menor que 28, se aplica un algoritmo
N-best a la unidad de habla. De otro modo, se acepta
la unidad de habla.
En la realización descrita con referencia a la
figura 2, se utilizan dos dimensiones para el análisis
discriminativo lineal. La dimensión "puntuación" representa la
distancia entre una unidad de habla dada y una plantilla VR dada,
tal como se deriva a partir de las salidas de múltiples filtros paso
banda (no mostrados). La dimensión "cambio en la puntuación"
representa la diferencia entre la puntuación más baja, es decir, la
puntuación más ajustada correspondida, y la puntuación más baja
siguiente, es decir, la puntuación para la unidad de habla
correspondida más ajustada siguiente. En otra realización la
dimensión "puntuación" representa la distancia entre una
unidad de habla dada y una plantilla VR dada, tal como se deriva a
partir de los coeficientes cepstral de la unidad de habla. En otra
realización la dimensión "puntuación" representa la distancia
entre una unidad de habla dada y una plantilla VR dada, tal como se
deriva a partir de los coeficientes de codificación predictiva
lineal (LPC) de la unidad de habla. Las técnicas para derivar los
coeficientes LPC y los coeficientes cepstral de una unidad de habla
se describen en la patente estadounidense Nº 5.414.796 mencionada
anteriormente.
En realizaciones alternativas el análisis
discriminativo lineal no está restringido a dos dimensiones. Por
consiguiente, una primera puntuación basada en salidas de filtro
paso banda, una segunda puntuación basada en coeficientes cepstral,
y un cambio en la puntuación se analizan en relación entre sí. Como
alternativa, una primera puntuación basada en salidas de filtro
paso banda, una segunda puntuación basada en coeficientes cepstral,
una tercera puntuación basada en coeficientes LPC, y un cambio en la
puntuación se analizan en relación entre sí. Tal como podrían
apreciar fácilmente los expertos en la técnica, el número de
dimensiones para "puntuación" no necesita restringirse a
ningún número particular. Los expertos apreciarían que el número de
dimensiones de puntuación está limitado sólo por el número de
palabras en el vocabulario del sistema VR. Los expertos apreciarían
también que los tipos de puntuaciones utilizadas no necesitan
limitarse a ningún tipo de puntuación particular, sino que pueden
incluir cualquier procedimiento de puntuación conocido en la
técnica. Además, y también fácilmente apreciable por aquellos
expertos en la técnica, el número de dimensiones para "cambio en
la puntuación" no necesita restringirse a uno, o a cualquier
número particular. Por ejemplo, en una realización se analiza una
puntuación en relación a un cambio en puntuación entre la
correspondencia más ajustada y la correspondencia más ajustada
siguiente, y la puntuación también se analiza en relación a un
cambio en la puntuación entre la correspondencia más ajustada y la
correspondencia más ajustada tercera. Los expertos en la técnica
apreciarían que el número de dimensiones de cambio en puntuación
está limitado sólo por el número de palabras en el vocabulario del
sistema VR.
Por tanto, se ha descrito un esquema de rechazo
de reconocimiento de voz mejorado y novedoso basado en análisis
discriminativo lineal. Los expertos en la técnica entenderían que
los diversos bloques lógicos y etapas de algoritmo ilustrativos
descritos con respecto a las realizaciones descritas en el presente
documento pueden implementarse o realizarse con un procesador de
señal digital (DSP), un circuito integrado para aplicaciones
específicas (ASIC), lógica de transistor y puertas discretas,
componentes de hardware discretos tales como, por ejemplo,
registros y FIFO, un procesador que ejecute un conjunto de
instrucciones firmware, o cualquier módulo de software programable
convencional y un procesador. El procesador puede ser de manera
ventajosa un microprocesador, pero como alternativa, el procesador
puede ser cualquier procesador, controlador, microcontrolador, o
máquina de estados convencionales. El módulo de software podría
residir en memoria RAM, memoria flash, registros, o cualquier otra
forma de medio de almacenamiento de escritura conocido en la
técnica. Los expertos apreciarían además que los datos,
instrucciones, órdenes, información, señales, bits, símbolos, y
elementos de código a los que puede hacerse referencia a lo largo
de la descripción anterior se representan de manera ventajosa por
voltajes, corrientes, ondas electromagnéticas, partículas o campos
magnéticos, partículas o campos ópticos, o cualquier combinación de
los mismos.
Por tanto se han mostrado y descrito
realizaciones preferidas de la presente invención. Sin embargo,
debería ser evidente para un experto en la técnica que pueden
realizarse numerosas alteraciones a las realizaciones descritas en
el presente documento sin apartarse del alcance de la invención. Por
lo tanto, la presente invención no está limitada excepto según las
siguientes reivindicaciones.
Claims (21)
1. Un procedimiento de captura de una unidad de
habla en un sistema (10) de reconocimiento de voz, que comprende las
etapas de:
comparar (18) la unidad de habla con una primera
palabra almacenada para generar una primera puntuación;
comparar (18) la unidad de habla con una segunda
palabra almacenada para generar una segunda puntuación; y
determinar (18) una diferencia entre la primera
puntuación y la segunda puntuación;
procesar (20) la unidad de habla basándose en la
primera puntuación y la diferencia determinada por:
comparar la primera puntuación con un primer
valor umbral de pendiente y rechazar la unidad de habla si la
primera puntuación es mayor que el primer valor umbral de
pendiente;
en caso contrario, comparar la primera
puntuación con un segundo valor umbral de pendiente y aplicar un
algoritmo N-best para verificar la unidad de habla
si la primera puntuación es mayor que el segundo valor umbral de
pendiente;
en caso contrario, aceptar la unidad de
habla;
en el que el primer y segundo valor umbral de
pendiente varían con la diferencia determinada.
2. El procedimiento según la reivindicación 1,
en el que la etapa de comparación de la primera puntuación con un
segundo valor umbral de pendiente compara además la diferencia
determinada con un umbral de diferencia y se aplica el algoritmo
N-best para verificar la unidad de habla si la
primera puntuación es mayor que el segundo valor umbral de
pendiente y la diferencia es menor que el umbral de diferencia.
3. El procedimiento según la reivindicación 1 ó
2, en el que la pendiente de dichos primeros valores umbral de
pendiente y la pendiente de dichos segundos valores umbral de
pendiente son la misma.
4. El procedimiento según la reivindicación 1,
en el que la diferencia corresponde a un cambio de puntuación entre
la primera puntuación y la segunda puntuación.
5. El procedimiento según la reivindicación 1,
en el que la primera palabra almacenada comprende un candidato
mejor en un vocabulario de un sistema (10) de reconocimiento de voz,
y la segunda palabra almacenada comprende un candidato mejor
siguiente en un vocabulario de un sistema (10) de reconocimiento de
voz.
6. El procedimiento según la reivindicación 1,
en el que la primera puntuación comprende un resultado de
comparación más ajustado, y la segunda puntuación comprende un
resultado de comparación más ajustado siguiente.
7. El procedimiento según la reivindicación 1,
en el que la primera puntuación y la segunda puntuación comprenden
coeficientes de codificación predictiva lineal.
8. El procedimiento según la reivindicación 1,
en el que la primera puntuación y la segunda puntuación comprenden
coeficientes cepstral.
9. El procedimiento según la reivindicación 1,
en el que la primera puntuación y la segunda puntuación comprenden
salidas de filtro paso banda.
10. El procedimiento según la reivindicación 1,
en el que la diferencia comprende una diferencia entre un resultado
de comparación más ajustado y un resultado de comparación más
ajustado siguiente.
11. Un sistema (10) de reconocimiento de voz,
que comprende:
medios para comparar (18) la unidad de habla con
una primera palabra almacenada para generar una primera
puntuación;
medios para comparar (18) la unidad de habla con
una segunda palabra almacenada para generar una segunda puntuación;
y
medios para determinar (18) una diferencia entre
la primera puntuación y la segunda puntuación;
medios para procesar (20) la unidad de habla
basándose en la primera puntuación y la diferencia determinada, que
pueden operar para:
\newpage
comparar la primera puntuación con un primer
valor umbral de pendiente y rechazar la unidad de habla si la
primera puntuación es mayor que el primer valor umbral de
pendiente;
en caso contrario, comparar la primera
puntuación con un segundo valor umbral de pendiente y aplicar un
algoritmo N-best para verificar la unidad de habla
si la primera puntuación es mayor que el segundo valor umbral de
pendiente;
en caso contrario, aceptar la unidad de
habla;
en el que el primer y segundo valor umbral de
pendiente varían con la diferencia determinada.
12. El sistema de reconocimiento de voz según la
reivindicación 11, en el que los medios para procesar (20) pueden
operar para comparar la primera puntuación con un segundo valor
umbral de pendiente y para comparar la diferencia determinada con
un umbral de diferencia, y en el que el algoritmo
N-best se aplica para verificar la unidad de habla
si la primera puntuación es mayor que el segundo valor umbral de
pendiente y la diferencia es menor que el umbral de diferencia.
13. El sistema de reconocimiento de voz según la
reivindicación 11 ó 12, en el que la pendiente de dichos primeros
valores umbral de pendiente y la pendiente de dichos segundos
valores umbral de pendiente son la misma.
14. El sistema (10) de reconocimiento de voz
según la reivindicación 11, que comprende:
medios (14) para extraer parámetros del habla a
partir de muestras del habla digitalizadas de la unidad de
habla,
en el que los medios (18) para comparar la
unidad de habla con una primera palabra almacenada, los medios para
comparar (18) la unidad de habla con una segunda palabra almacenada,
los medios (18) para determinar una diferencia, los medios (20)
para determinar una relación y los medios (20) para procesar son
todos partes de un medio único.
15. El sistema (10) de reconocimiento de voz
según la reivindicación 14, en el que:
los medios para extraer (14) comprenden un
procesador (14) acústico; y
el medio único comprende un procesador acoplado
al procesador (14) acústico.
16. El sistema (10) de reconocimiento de voz
según la reivindicación 11, en el que la primera palabra almacenada
comprende un candidato mejor en un vocabulario del sistema (10) de
reconocimiento de voz, y la segunda palabra almacenada comprende un
candidato mejor siguiente en un vocabulario del sistema (10) de
reconocimiento de voz.
17. El sistema (10) de reconocimiento de voz
según la reivindicación 11, en el que la primera puntuación
comprende un resultado de comparación más ajustado, y la segunda
puntuación comprende un resultado de comparación más ajustado
siguiente.
18. El sistema (10) de reconocimiento de voz
según la reivindicación 11, en el que la primera puntuación y la
segunda puntuación comprenden coeficientes de codificación
predictiva lineal.
19. El sistema (10) de reconocimiento de voz
según la reivindicación 11, en el que la primera puntuación y la
segunda puntuación comprenden coeficientes cepstral.
20. El sistema (10) de reconocimiento de voz
según la reivindicación 11, en el que la primera puntuación y la
segunda puntuación comprenden salidas de filtro paso banda.
21. El sistema (10) de reconocimiento de voz
según la reivindicación 11, en el que la diferencia comprende una
diferencia entre un resultado de comparación más ajustado y un
resultado de comparación más ajustado siguiente.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US248513 | 1988-09-23 | ||
US09/248,513 US6574596B2 (en) | 1999-02-08 | 1999-02-08 | Voice recognition rejection scheme |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2286014T3 true ES2286014T3 (es) | 2007-12-01 |
Family
ID=22939477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00914513T Expired - Lifetime ES2286014T3 (es) | 1999-02-08 | 2000-02-04 | Esquema de rechazo de reconocimiento de voz. |
Country Status (11)
Country | Link |
---|---|
US (1) | US6574596B2 (es) |
EP (1) | EP1159735B1 (es) |
JP (1) | JP4643011B2 (es) |
KR (1) | KR100698811B1 (es) |
CN (1) | CN1178203C (es) |
AT (1) | ATE362166T1 (es) |
AU (1) | AU3589300A (es) |
DE (1) | DE60034772T2 (es) |
ES (1) | ES2286014T3 (es) |
HK (1) | HK1043423B (es) |
WO (1) | WO2000046791A1 (es) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8266451B2 (en) * | 2001-08-31 | 2012-09-11 | Gemalto Sa | Voice activated smart card |
US7324942B1 (en) * | 2002-01-29 | 2008-01-29 | Microstrategy, Incorporated | System and method for interactive voice services using markup language with N-best filter element |
US7020337B2 (en) * | 2002-07-22 | 2006-03-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for detecting objects in images |
JP4454921B2 (ja) * | 2002-09-27 | 2010-04-21 | 株式会社半導体エネルギー研究所 | 半導体装置の作製方法 |
US7344901B2 (en) * | 2003-04-16 | 2008-03-18 | Corning Incorporated | Hermetically sealed package and method of fabricating of a hermetically sealed package |
EP1560354A1 (en) * | 2004-01-28 | 2005-08-03 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for comparing received candidate sound or video items with multiple candidate reference sound or video items |
DE102004029873B3 (de) * | 2004-06-16 | 2005-12-29 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme |
JP4845118B2 (ja) * | 2006-11-20 | 2011-12-28 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
DK2293289T3 (da) * | 2008-06-06 | 2012-06-25 | Raytron Inc | Talegenkendelsessystem og fremgangsmåde |
US8190437B2 (en) * | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US8428759B2 (en) * | 2010-03-26 | 2013-04-23 | Google Inc. | Predictive pre-recording of audio for voice input |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
CN105027198B (zh) * | 2013-02-25 | 2018-11-20 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
US9626963B2 (en) * | 2013-04-30 | 2017-04-18 | Paypal, Inc. | System and method of improving speech recognition using context |
BR102014023647B1 (pt) * | 2014-09-24 | 2022-12-06 | Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes | Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz |
WO2018213788A1 (en) * | 2017-05-18 | 2018-11-22 | Aiqudo, Inc. | Systems and methods for crowdsourced actions and commands |
US11182557B2 (en) * | 2018-11-05 | 2021-11-23 | International Business Machines Corporation | Driving intent expansion via anomaly detection in a modular conversational system |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4567606A (en) | 1982-11-03 | 1986-01-28 | International Telephone And Telegraph Corporation | Data processing apparatus and method for use in speech recognition |
US4593367A (en) * | 1984-01-16 | 1986-06-03 | Itt Corporation | Probabilistic learning element |
FR2571191B1 (fr) | 1984-10-02 | 1986-12-26 | Renault | Systeme de radiotelephone, notamment pour vehicule automobile |
JPS61105671A (ja) | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
US4991217A (en) | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
JPS6269297A (ja) | 1985-09-24 | 1987-03-30 | 日本電気株式会社 | 話者確認タ−ミナル |
US4827520A (en) | 1987-01-16 | 1989-05-02 | Prince Corporation | Voice actuated control system for use in a vehicle |
US5231670A (en) | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5321840A (en) | 1988-05-05 | 1994-06-14 | Transaction Technology, Inc. | Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal |
US5040212A (en) | 1988-06-30 | 1991-08-13 | Motorola, Inc. | Methods and apparatus for programming devices to recognize voice commands |
US5054082A (en) | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
JP2966852B2 (ja) * | 1989-01-24 | 1999-10-25 | キヤノン株式会社 | 音声処理方法及び装置 |
US5325524A (en) | 1989-04-06 | 1994-06-28 | Digital Equipment Corporation | Locating mobile objects in a distributed computer system |
US5012518A (en) | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5146538A (en) | 1989-08-31 | 1992-09-08 | Motorola, Inc. | Communication system and method with voice steering |
JP2788658B2 (ja) * | 1989-12-01 | 1998-08-20 | 株式会社リコー | 音声ダイヤル装置 |
US5280585A (en) | 1990-09-28 | 1994-01-18 | Hewlett-Packard Company | Device sharing system using PCL macros |
AU671952B2 (en) | 1991-06-11 | 1996-09-19 | Qualcomm Incorporated | Variable rate vocoder |
WO1993001664A1 (en) | 1991-07-08 | 1993-01-21 | Motorola, Inc. | Remote voice control system |
US5305420A (en) | 1991-09-25 | 1994-04-19 | Nippon Hoso Kyokai | Method and apparatus for hearing assistance with speech speed control function |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
ES2128390T3 (es) * | 1992-03-02 | 1999-05-16 | At & T Corp | Metodo de adiestramiento y dispositivo para reconocimiento de voz. |
JPH0664478B2 (ja) * | 1992-06-05 | 1994-08-22 | カシオ計算機株式会社 | パターン認識装置 |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
US5566272A (en) | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5819221A (en) * | 1994-08-31 | 1998-10-06 | Texas Instruments Incorporated | Speech recognition using clustered between word and/or phrase coarticulation |
US5729656A (en) * | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
JP4180110B2 (ja) * | 1995-03-07 | 2008-11-12 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 言語認識 |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
JPH0954597A (ja) * | 1995-08-11 | 1997-02-25 | Matsushita Joho Syst Kk | 項目入力装置 |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5912949A (en) * | 1996-11-05 | 1999-06-15 | Northern Telecom Limited | Voice-dialing system using both spoken names and initials in recognition |
US6094476A (en) | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
-
1999
- 1999-02-08 US US09/248,513 patent/US6574596B2/en not_active Expired - Lifetime
-
2000
- 2000-02-04 WO PCT/US2000/002903 patent/WO2000046791A1/en active IP Right Grant
- 2000-02-04 EP EP00914513A patent/EP1159735B1/en not_active Expired - Lifetime
- 2000-02-04 DE DE60034772T patent/DE60034772T2/de not_active Expired - Lifetime
- 2000-02-04 ES ES00914513T patent/ES2286014T3/es not_active Expired - Lifetime
- 2000-02-04 JP JP2000597792A patent/JP4643011B2/ja not_active Expired - Lifetime
- 2000-02-04 CN CNB008035881A patent/CN1178203C/zh not_active Expired - Lifetime
- 2000-02-04 AT AT00914513T patent/ATE362166T1/de not_active IP Right Cessation
- 2000-02-04 AU AU35893/00A patent/AU3589300A/en not_active Abandoned
- 2000-02-04 KR KR1020017009889A patent/KR100698811B1/ko active IP Right Grant
-
2002
- 2002-07-10 HK HK02105126.4A patent/HK1043423B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ATE362166T1 (de) | 2007-06-15 |
EP1159735B1 (en) | 2007-05-09 |
CN1178203C (zh) | 2004-12-01 |
CN1347547A (zh) | 2002-05-01 |
KR100698811B1 (ko) | 2007-03-23 |
HK1043423B (zh) | 2005-07-22 |
JP2002536691A (ja) | 2002-10-29 |
US20020055841A1 (en) | 2002-05-09 |
EP1159735A1 (en) | 2001-12-05 |
US6574596B2 (en) | 2003-06-03 |
WO2000046791A1 (en) | 2000-08-10 |
AU3589300A (en) | 2000-08-25 |
JP4643011B2 (ja) | 2011-03-02 |
DE60034772T2 (de) | 2008-01-31 |
KR20010093327A (ko) | 2001-10-27 |
DE60034772D1 (de) | 2007-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2286014T3 (es) | Esquema de rechazo de reconocimiento de voz. | |
KR100719650B1 (ko) | 잡음 신호에서 음성의 엔드포인팅 방법 | |
US6671669B1 (en) | combined engine system and method for voice recognition | |
US6411926B1 (en) | Distributed voice recognition system | |
KR100901092B1 (ko) | 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합 | |
ES2275700T3 (es) | Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. | |
US20020091522A1 (en) | System and method for hybrid voice recognition | |
US7136815B2 (en) | Method for voice recognition | |
JP2996019B2 (ja) | 音声認識装置 | |
Moore | Systems for isolated and connected word recognition | |
JPH0997095A (ja) | 音声認識装置 | |
JP3357752B2 (ja) | パターンマッチング装置 | |
JPH0343639B2 (es) | ||
KR20060075533A (ko) | 안티워드 모델을 이용한 음성인식 방법 | |
JPH0316038B2 (es) | ||
JPH09297596A (ja) | 音声認識装置 | |
JPH0157357B2 (es) | ||
JP2003058185A (ja) | 音声認識装置 |