ES2286014T3 - Esquema de rechazo de reconocimiento de voz. - Google Patents

Esquema de rechazo de reconocimiento de voz. Download PDF

Info

Publication number
ES2286014T3
ES2286014T3 ES00914513T ES00914513T ES2286014T3 ES 2286014 T3 ES2286014 T3 ES 2286014T3 ES 00914513 T ES00914513 T ES 00914513T ES 00914513 T ES00914513 T ES 00914513T ES 2286014 T3 ES2286014 T3 ES 2286014T3
Authority
ES
Spain
Prior art keywords
score
difference
slope
voice recognition
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00914513T
Other languages
English (en)
Inventor
Ning Bi
Chienchung Chang
Harinath Garudadri
Andrew P. Dejaco
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2286014T3 publication Critical patent/ES2286014T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Character Discrimination (AREA)

Abstract

Un procedimiento de captura de una unidad de habla en un sistema (10) de reconocimiento de voz, que comprende las etapas de: comparar (18) la unidad de habla con una primera palabra almacenada para generar una primera puntuación; comparar (18) la unidad de habla con una segunda palabra almacenada para generar una segunda puntuación; y determinar (18) una diferencia entre la primera puntuación y la segunda puntuación; procesar (20) la unidad de habla basándose en la primera puntuación y la diferencia determinada por: comparar la primera puntuación con un primer valor umbral de pendiente y rechazar la unidad de habla si la primera puntuación es mayor que el primer valor umbral de pendiente; en caso contrario, comparar la primera puntuación con un segundo valor umbral de pendiente y aplicar un algoritmo N-best para verificar la unidad de habla si la primera puntuación es mayor que el segundo valor umbral de pendiente; en caso contrario, aceptar la unidad de habla; en el que el primer y segundovalor umbral de pendiente varían con la diferencia determinada.

Description

Esquema de rechazo de reconocimiento de voz.
Antecedentes de la invención I. Campo de la invención
La presente invención pertenece en general al campo de las comunicaciones, y más específicamente a sistemas de reconocimiento de voz.
II. Antecedentes
El reconocimiento de voz (VR) representa una de las técnicas más importantes para dotar a una máquina con inteligencia simulada para reconocer órdenes de usuario o de voz de usuario y para facilitar la interfaz humana con la máquina. El VR también representa una técnica clave para el entendimiento del habla humana. Los sistemas que emplean técnicas para recuperar un mensaje lingüístico a partir de una señal de habla acústica se llaman reconocedores de voz. Un reconocedor de voz comprende normalmente un procesador acústico, que extrae una secuencia de información de características portadoras de información, o vectores, necesarios para conseguir el VR del habla no depurada entrante, y un descodificador de palabras, que descodifica la secuencia de características, o vectores, para producir un formato de salida coherente y deseado tal como una secuencia de palabras lingüísticas correspondientes a la unidad de habla de entrada. Para aumentar el rendimiento de un sistema dado, se requiere entrenamiento para equipar al sistema con parámetros válidos. Dicho de otro modo, el sistema necesita aprender antes de que pueda funcionar de manera óptima.
El procesador acústico representa un subsistema de análisis del habla de entrada en un reconocedor de voz. En respuesta a una señal del habla de entrada, el procesador acústico proporciona una representación apropiada para caracterizar la señal del habla variable en el tiempo. El procesador acústico debería desechar información irrelevante tal como ruido de fondo, distorsión de canal, características del hablante, y manera de hablar. Un procesamiento acústico eficaz proporciona reconocedores de voz con potencia de discriminación acústica mejorada. Para este fin, una característica útil a analizar es la envolvente espectral de tiempo corto. Dos técnicas de análisis espectral utilizadas comúnmente para caracterizar la envolvente espectral de tiempo corto son la codificación predictiva lineal (LPC) y el modelado espectral basado en banco de filtros. Las técnicas LPC ejemplares se describen en la patente estadounidense Nº 5.414.796, que está transferida al cesionario de la presente invención, y en el documento de L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978).
El uso de VR (al que también se hace referencia comúnmente como reconocimiento del habla) es cada vez más importante por razones de seguridad. Por ejemplo, el VR puede utilizarse para reemplazar la tarea manual de pulsar botones en un teclado de teléfono inalámbrico. Esto es especialmente importante cuando un usuario está iniciando una llamada telefónica mientras conduce un coche. Cuando se utiliza un teléfono sin el VR, el conductor debe quitar una mano del volante y mirar al teclado del teléfono mientras pulsa los botones para marcar la llamada. Estos actos aumentan la posibilidad de un accidente de coche. Un teléfono con habla habilitada (es decir, un teléfono diseñado para el reconocimiento del habla) permitiría al conductor hacer llamadas de teléfono mientras mira continuamente a la carretera. Un sistema de kit de coche de manos libres permitiría adicionalmente al conductor mantener ambas manos sobre el volante durante la iniciación de la llamada.
Los dispositivos de reconocimiento del habla se clasifican como dispositivos dependientes del hablante o independientes del hablante. Los dispositivos independientes del hablante pueden aceptar órdenes de voz de cualquier usuario. Los sistemas dependientes del hablante, que son más comunes, están entrenados para reconocer órdenes de usuarios particulares. Un VR dependiente del hablante opera normalmente en dos fases, una fase de entrenamiento y una fase de reconocimiento. En la fase de entrenamiento, el sistema VR pide al usuario decir cada una de las palabras en el vocabulario del sistema una o dos veces de manera que el sistema pueda aprender las características del habla del usuario para estas palabras o frases particulares. Como alternativa, para un dispositivo VR fonético, el entrenamiento se lleva a cabo leyendo uno o más artículos breves escritos específicamente para cubrir todos los fonemas en el lenguaje. Un vocabulario ejemplar para un kit de coche de manos libres podría incluir los dígitos sobre el teclado; las palabras clave "llamar", "enviar", "marcar", "cancelar", "borrar", "añadir", "eliminar", "histórico", "programar", "sí", y "no"; y los nombres de un número predefinido de compañeros de trabajo, amigos o familiares a los que se llama comúnmente. Una vez que se finaliza el entrenamiento, el usuario puede iniciar llamadas en la fase de reconocimiento diciendo las palabras clave entrenadas. Por ejemplo, si el nombre "John" fuera uno de los nombres entrenados, el usuario podría iniciar una llamada a John diciendo la frase "llamar John". El sistema VR reconocería las palabras "llamar" y "John", y marcaría el número que el usuario había introducido previamente como el número de teléfono de John.
El rendimiento global de un sistema VR puede definirse como el porcentaje de casos en los que un usuario pasa por una tarea de reconocimiento satisfactoriamente. Una tarea de reconocimiento comprende normalmente múltiples etapas. Por ejemplo, en marcación por voz con un teléfono inalámbrico, el rendimiento global se refiere al porcentaje medio de veces que un usuario completa una llamada de teléfono satisfactoriamente con el sistema VR. El número de etapas necesarias para conseguir una llamada de teléfono satisfactoria con VR puede variar de una llamada a otra. En general, el rendimiento global de un sistema VR depende principalmente de dos factores, la precisión de reconocimiento del sistema VR, y la interfaz humano-máquina. Una percepción subjetiva del usuario humano del rendimiento del sistema VR se basa en el rendimiento global. Por tanto, existe una necesidad de un sistema VR con alta precisión de reconocimiento y una interfaz humano-máquina para aumentar el rendimiento global.
La patente estadounidense Nº 4.827.520 y el documento EP 0 867 861 A describen procedimientos que comparan una unidad de habla con plantillas almacenadas. Se determinan puntuaciones como un resultado de las comparaciones y, en circunstancias particulares, pueden evaluarse diferencias entre las puntuaciones.
Sumario de la invención
La presente invención se dirige a un sistema VR con alta precisión de reconocimiento y a una interfaz humano-máquina inteligente para aumentar el rendimiento global. Por consiguiente, en un aspecto de la invención, un procedimiento para capturar una unidad de habla en un sistema de reconocimiento de voz incluye ventajosamente las etapas de la reivindicación 1.
En otro aspecto de la invención, un sistema de reconocimiento de voz incluye ventajosamente las características de la reivindicación 11.
Breve descripción de los dibujos
La figura 1 es un diagrama de bloques de un dispositivo de reconocimiento de voz.
La figura 2 es un gráfico de puntuación frente a un cambio en la puntuación para un esquema de rechazo de un sistema VR, que ilustra las regiones de rechazo, N-best, y de aceptación.
Descripción detallada de las realizaciones preferidas
Según una realización, tal como se ilustra en la figura 1, un sistema 10 de reconocimiento de voz incluye un conversor 12 analógico-digital (A/D), un procesador 14 acústico, una base 16 de datos de plantillas VR, lógica 18 de comparación de patrones, y lógica 20 de decisión. El sistema 10 VR puede residir en, por ejemplo, un teléfono inalámbrico o un kit de coche de manos libres.
Cuando el sistema 10 VR está en la fase de reconocimiento del habla, una persona (no mostrada), dice una palabra o frase, generando una señal del habla. La señal del habla se convierte a una señal s(t) del habla eléctrica con un transductor convencional (no mostrado tampoco). La señal s(t) del habla se proporciona al A/D 12, que convierte la señal s(t) del habla a muestras s(n) del habla digitalizadas según un procedimiento de muestreo conocido tal como, por ejemplo, modulación por impulsos codificados (PCM).
Las muestras s(n) del habla se proporcionan al procesador 14 acústico para la determinación de parámetros. El procesador 14 acústico produce un conjunto de parámetros extraídos que modela las características de la señal s(t) del habla de entrada. Los parámetros pueden determinarse según cualquiera de un número de técnicas de determinación de parámetros del habla conocidas incluyendo, por ejemplo, la codificación por codificador del habla y la utilización de coeficientes cepstrum basados en la transformada rápida de Fourier (FFT), tal como se describe en la patente estadounidense Nº 5.414.796 mencionada anteriormente. El procesador 14 acústico puede implementarse como un procesador de señales digitales (DSP). El DSP puede incluir un codificador del habla. Como alternativa, el procesador 14 acústico puede implementarse como un codificador del habla.
La determinación de parámetros también se realiza durante el entrenamiento del sistema 10 VR, en el que un conjunto de plantillas para todas las palabras del vocabulario del sistema 10 VR se encamina a la base 16 de datos de plantillas VR para el almacenamiento permanente en la misma. La base 16 de datos de plantillas VR se implementa de manera ventajosa como cualquier forma convencional de medio de almacenamiento no volátil, tal como, por ejemplo, memoria flash. Esto permite que las plantillas permanezcan en la base 16 de datos de plantillas VR cuando se desconecta la potencia al sistema 10 VR.
El conjunto de parámetros se proporciona a la lógica 18 de comparación de patrones. La lógica 18 de comparación de patrones detecta ventajosamente los puntos de inicio y finalización de una unidad de habla, calcula características acústicas dinámicas (tales como, por ejemplo, derivadas de tiempo, segundas derivadas de tiempo, etc.), comprime las características acústicas seleccionando tramas importantes, y cuantifica las características estáticas y dinámicas. Diversos procedimientos conocidos de detección del punto final, derivación de características acústicas dinámicas, compresión de patrones, y cuantificación de patrones se describen, por ejemplo, en el documento de Lawrence Rabiner & Biing-Hwang Juang, Fundamentals of Speech Recognition (1993).
La lógica 18 de comparación de patrones compara el conjunto de parámetros con todas las plantillas almacenadas en la base 16 de datos de plantillas VR. Los resultados de la comparación, o distancias, entre el conjunto de parámetros y todas las plantillas almacenadas en la base 16 de datos de plantillas VR se proporcionan a la lógica 20 de decisión. La lógica 20 de decisión puede (1) seleccionar a partir de la base 16 de datos de plantillas VR la plantillas que se corresponden de manera más ajustada con el conjunto de parámetros, o puede (2) aplicar un algoritmo de selección "N-best", que elige el N más ajustado que se corresponde dentro de un umbral de correspondencia predefinido; o puede (3) rechazar el conjunto de parámetros. Si se utiliza un algoritmo N-best, entonces se pregunta a la persona qué elección estaba prevista. La salida de la lógica 20 de decisión es la decisión de qué palabra en el vocabulario se dijo. Por ejemplo, en una situación N-best, la persona podría decir, "John Anders", y el sistema 10 VR podría responder, "¿Dijiste John Andrews?" La persona entonces respondería, "John Anders". El sistema 10 VR podría entonces responder, "¿Dijiste John Anders?" La persona entonces respondería, "Sí", punto en el que el sistema 10 VR iniciaría la marcación de una llamada telefónica.
La lógica 18 de comparación de patrones y la lógica 20 de decisión puede implementarse ventajosamente como un microprocesador. Como alternativa, la lógica 18 de comparación de patrones y la lógica 20 de decisión pueden implementarse como cualquier forma convencional de procesador, controlador, o máquina de estados. El sistema 10 VR puede ser, por ejemplo, un circuito integrado para aplicaciones específicas (ASIC). La precisión de reconocimiento del sistema 10 VR es una medición de cómo de bien el sistema 10 VR reconoce correctamente las palabras o frases dichas en el vocabulario. Por ejemplo, una precisión de reconocimiento del 95% indica que el sistema 10 VR reconoce correctamente palabras en el vocabulario noventa y cinco veces de 100.
En una realización se segmenta un gráfico de puntuación frente a un cambio en la puntuación en regiones de aceptación, N-best, y rechazo, tal como se ilustra en la figura 2. Las regiones están separadas por líneas según técnicas conocidas de análisis discriminativo lineal, que se describen en el documento de Richard O. Duda & Peter E. Hart, Pattern Classification and Scene Análisis (1973). A cada entrada de unidad de habla al sistema 10 VR se le asigna un resultado de comparación para, o distancia desde, cada plantilla almacenada en la base 16 de datos de plantillas VR mediante la lógica 18 de comparación de patrones, tal como se describió anteriormente. Estas distancias, o "puntuaciones", pueden ser de manera ventajosa distancias euclídeas entre vectores en un espacio de vectores N-dimensional, sumados sobre múltiples tramas. En una realización el espacio de vectores es un espacio de vectores de veinticuatro dimensiones, la puntuación se acumula sobre veinte tramas, y la puntuación es una distancia entera. Los expertos en la técnica entenderían que la puntuación podría expresarse igualmente como una fracción u otro valor. Los expertos en la técnica también entenderían que otras métricas pueden sustituirse por distancias euclídeas, de tal manera que las puntuaciones podrían ser, por ejemplo, medidas de probabilidad, medidas de posibilidad, etc.
Para una unidad de habla dada y una plantilla VR dada de la base 16 de datos de plantillas VR, cuando menor es la puntuación (es decir, cuanto menor es la distancia entre la unidad de habla y la plantilla VR), más ajustada es la correspondencia entre la unidad de habla y la plantilla VR. Para cada unidad de habla, la lógica 20 de decisión analiza la puntuación asociada con la correspondencia más ajustada en la base 16 de datos de plantillas VR en relación con la diferencia entre esa puntuación y la puntuación asociada con la segunda correspondencia más ajustada en la base 16 de datos de plantillas VR (es decir, la segunda puntuación más baja). Tal como se representa en el gráfico de la figura 2, la "puntuación" está dibujada frente a "cambio en la puntuación" y se definen tres regiones. La región de rechazo representa una zona en la que una puntuación es relativamente alta y la diferencia entre esa puntuación y la puntuación más baja siguiente es relativamente pequeña. Si una unidad de habla cae dentro de la región de rechazo, la lógica 20 de decisión rechaza la unidad de habla. La región de aceptación representa una zona en la que una puntuación es relativamente baja y la diferencia entre esa puntuación y la puntuación más baja siguiente es relativamente grande. Si una unidad de habla cae dentro de la región de aceptación, la lógica 20 de decisión acepta la unidad de habla. La región N-best se encuentra entre la región de rechazo y la región de aceptación. La región N-best representa una zona en la que o bien una puntuación es menor que una puntuación en la región de rechazo o bien la diferencia entre esa puntuación y la puntuación más baja siguiente es mayor que la diferencia para una puntuación en la región de rechazo. La región N-best también representa una zona en la que o bien una puntuación es mayor que una puntuación en la región de aceptación o bien la diferencia entre esa puntuación y la puntuación más baja siguiente es menor que la diferencia para una puntuación en la región de aceptación, dado que la diferencia para la puntuación en la región N-best es mayor que un valor de cambio en puntuación umbral predefinido. Si una unidad de habla cae dentro de la región N-best, la lógica 20 de decisión aplica un algoritmo N-best a la unidad de habla, tal como se describió anteriormente.
En la realización descrita con referencia a la figura 2, un primer segmento de línea separa la región de rechazo de la región N-best. El primer segmento de línea corta el eje de "puntuación" en un valor de puntuación umbral predefinido. La pendiente del primer segmento de línea también está predefinida. Un segundo segmento de línea separa la región N-best de la región de aceptación. La pendiente del segundo segmento de línea está predefinida puesto que es la misma que la pendiente del primer segmento de línea, de manera que el primer y segundo segmento de línea son paralelos. Un tercer segmento de línea se extiende verticalmente desde un valor de cambio umbral predefinido en el eje de "cambio en la puntuación" para encontrarse con un punto final del segundo segmento de línea. Los expertos en la técnica apreciarían que el primer y segundo segmento de línea no necesitan ser paralelos, y podrían tener cualquier pendiente asignada de manera arbitraria. Además, no se necesita utilizar el tercer segmento de línea.
En una realización el valor de puntuación umbral es 375, el valor de cambio umbral es 28, y si el punto final del segundo segmento de línea se extendiese, el segundo segmento de línea cortaría el eje de "puntuación" en el valor 250, de manera que las pendientes del primer y segundo segmento de línea son cada una 1. Si el valor de puntuación es mayor que el valor de cambio en puntuación más 375, la unidad de habla se rechaza. De otro modo, si o bien el valor de puntuación es mayor que el valor de cambio en puntuación más 250 o bien el valor de cambio en puntuación es menor que 28, se aplica un algoritmo N-best a la unidad de habla. De otro modo, se acepta la unidad de habla.
En la realización descrita con referencia a la figura 2, se utilizan dos dimensiones para el análisis discriminativo lineal. La dimensión "puntuación" representa la distancia entre una unidad de habla dada y una plantilla VR dada, tal como se deriva a partir de las salidas de múltiples filtros paso banda (no mostrados). La dimensión "cambio en la puntuación" representa la diferencia entre la puntuación más baja, es decir, la puntuación más ajustada correspondida, y la puntuación más baja siguiente, es decir, la puntuación para la unidad de habla correspondida más ajustada siguiente. En otra realización la dimensión "puntuación" representa la distancia entre una unidad de habla dada y una plantilla VR dada, tal como se deriva a partir de los coeficientes cepstral de la unidad de habla. En otra realización la dimensión "puntuación" representa la distancia entre una unidad de habla dada y una plantilla VR dada, tal como se deriva a partir de los coeficientes de codificación predictiva lineal (LPC) de la unidad de habla. Las técnicas para derivar los coeficientes LPC y los coeficientes cepstral de una unidad de habla se describen en la patente estadounidense Nº 5.414.796 mencionada anteriormente.
En realizaciones alternativas el análisis discriminativo lineal no está restringido a dos dimensiones. Por consiguiente, una primera puntuación basada en salidas de filtro paso banda, una segunda puntuación basada en coeficientes cepstral, y un cambio en la puntuación se analizan en relación entre sí. Como alternativa, una primera puntuación basada en salidas de filtro paso banda, una segunda puntuación basada en coeficientes cepstral, una tercera puntuación basada en coeficientes LPC, y un cambio en la puntuación se analizan en relación entre sí. Tal como podrían apreciar fácilmente los expertos en la técnica, el número de dimensiones para "puntuación" no necesita restringirse a ningún número particular. Los expertos apreciarían que el número de dimensiones de puntuación está limitado sólo por el número de palabras en el vocabulario del sistema VR. Los expertos apreciarían también que los tipos de puntuaciones utilizadas no necesitan limitarse a ningún tipo de puntuación particular, sino que pueden incluir cualquier procedimiento de puntuación conocido en la técnica. Además, y también fácilmente apreciable por aquellos expertos en la técnica, el número de dimensiones para "cambio en la puntuación" no necesita restringirse a uno, o a cualquier número particular. Por ejemplo, en una realización se analiza una puntuación en relación a un cambio en puntuación entre la correspondencia más ajustada y la correspondencia más ajustada siguiente, y la puntuación también se analiza en relación a un cambio en la puntuación entre la correspondencia más ajustada y la correspondencia más ajustada tercera. Los expertos en la técnica apreciarían que el número de dimensiones de cambio en puntuación está limitado sólo por el número de palabras en el vocabulario del sistema VR.
Por tanto, se ha descrito un esquema de rechazo de reconocimiento de voz mejorado y novedoso basado en análisis discriminativo lineal. Los expertos en la técnica entenderían que los diversos bloques lógicos y etapas de algoritmo ilustrativos descritos con respecto a las realizaciones descritas en el presente documento pueden implementarse o realizarse con un procesador de señal digital (DSP), un circuito integrado para aplicaciones específicas (ASIC), lógica de transistor y puertas discretas, componentes de hardware discretos tales como, por ejemplo, registros y FIFO, un procesador que ejecute un conjunto de instrucciones firmware, o cualquier módulo de software programable convencional y un procesador. El procesador puede ser de manera ventajosa un microprocesador, pero como alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador, o máquina de estados convencionales. El módulo de software podría residir en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento de escritura conocido en la técnica. Los expertos apreciarían además que los datos, instrucciones, órdenes, información, señales, bits, símbolos, y elementos de código a los que puede hacerse referencia a lo largo de la descripción anterior se representan de manera ventajosa por voltajes, corrientes, ondas electromagnéticas, partículas o campos magnéticos, partículas o campos ópticos, o cualquier combinación de los mismos.
Por tanto se han mostrado y descrito realizaciones preferidas de la presente invención. Sin embargo, debería ser evidente para un experto en la técnica que pueden realizarse numerosas alteraciones a las realizaciones descritas en el presente documento sin apartarse del alcance de la invención. Por lo tanto, la presente invención no está limitada excepto según las siguientes reivindicaciones.

Claims (21)

1. Un procedimiento de captura de una unidad de habla en un sistema (10) de reconocimiento de voz, que comprende las etapas de:
comparar (18) la unidad de habla con una primera palabra almacenada para generar una primera puntuación;
comparar (18) la unidad de habla con una segunda palabra almacenada para generar una segunda puntuación; y
determinar (18) una diferencia entre la primera puntuación y la segunda puntuación;
procesar (20) la unidad de habla basándose en la primera puntuación y la diferencia determinada por:
comparar la primera puntuación con un primer valor umbral de pendiente y rechazar la unidad de habla si la primera puntuación es mayor que el primer valor umbral de pendiente;
en caso contrario, comparar la primera puntuación con un segundo valor umbral de pendiente y aplicar un algoritmo N-best para verificar la unidad de habla si la primera puntuación es mayor que el segundo valor umbral de pendiente;
en caso contrario, aceptar la unidad de habla;
en el que el primer y segundo valor umbral de pendiente varían con la diferencia determinada.
2. El procedimiento según la reivindicación 1, en el que la etapa de comparación de la primera puntuación con un segundo valor umbral de pendiente compara además la diferencia determinada con un umbral de diferencia y se aplica el algoritmo N-best para verificar la unidad de habla si la primera puntuación es mayor que el segundo valor umbral de pendiente y la diferencia es menor que el umbral de diferencia.
3. El procedimiento según la reivindicación 1 ó 2, en el que la pendiente de dichos primeros valores umbral de pendiente y la pendiente de dichos segundos valores umbral de pendiente son la misma.
4. El procedimiento según la reivindicación 1, en el que la diferencia corresponde a un cambio de puntuación entre la primera puntuación y la segunda puntuación.
5. El procedimiento según la reivindicación 1, en el que la primera palabra almacenada comprende un candidato mejor en un vocabulario de un sistema (10) de reconocimiento de voz, y la segunda palabra almacenada comprende un candidato mejor siguiente en un vocabulario de un sistema (10) de reconocimiento de voz.
6. El procedimiento según la reivindicación 1, en el que la primera puntuación comprende un resultado de comparación más ajustado, y la segunda puntuación comprende un resultado de comparación más ajustado siguiente.
7. El procedimiento según la reivindicación 1, en el que la primera puntuación y la segunda puntuación comprenden coeficientes de codificación predictiva lineal.
8. El procedimiento según la reivindicación 1, en el que la primera puntuación y la segunda puntuación comprenden coeficientes cepstral.
9. El procedimiento según la reivindicación 1, en el que la primera puntuación y la segunda puntuación comprenden salidas de filtro paso banda.
10. El procedimiento según la reivindicación 1, en el que la diferencia comprende una diferencia entre un resultado de comparación más ajustado y un resultado de comparación más ajustado siguiente.
11. Un sistema (10) de reconocimiento de voz, que comprende:
medios para comparar (18) la unidad de habla con una primera palabra almacenada para generar una primera puntuación;
medios para comparar (18) la unidad de habla con una segunda palabra almacenada para generar una segunda puntuación; y
medios para determinar (18) una diferencia entre la primera puntuación y la segunda puntuación;
medios para procesar (20) la unidad de habla basándose en la primera puntuación y la diferencia determinada, que pueden operar para:
\newpage
comparar la primera puntuación con un primer valor umbral de pendiente y rechazar la unidad de habla si la primera puntuación es mayor que el primer valor umbral de pendiente;
en caso contrario, comparar la primera puntuación con un segundo valor umbral de pendiente y aplicar un algoritmo N-best para verificar la unidad de habla si la primera puntuación es mayor que el segundo valor umbral de pendiente;
en caso contrario, aceptar la unidad de habla;
en el que el primer y segundo valor umbral de pendiente varían con la diferencia determinada.
12. El sistema de reconocimiento de voz según la reivindicación 11, en el que los medios para procesar (20) pueden operar para comparar la primera puntuación con un segundo valor umbral de pendiente y para comparar la diferencia determinada con un umbral de diferencia, y en el que el algoritmo N-best se aplica para verificar la unidad de habla si la primera puntuación es mayor que el segundo valor umbral de pendiente y la diferencia es menor que el umbral de diferencia.
13. El sistema de reconocimiento de voz según la reivindicación 11 ó 12, en el que la pendiente de dichos primeros valores umbral de pendiente y la pendiente de dichos segundos valores umbral de pendiente son la misma.
14. El sistema (10) de reconocimiento de voz según la reivindicación 11, que comprende:
medios (14) para extraer parámetros del habla a partir de muestras del habla digitalizadas de la unidad de habla,
en el que los medios (18) para comparar la unidad de habla con una primera palabra almacenada, los medios para comparar (18) la unidad de habla con una segunda palabra almacenada, los medios (18) para determinar una diferencia, los medios (20) para determinar una relación y los medios (20) para procesar son todos partes de un medio único.
15. El sistema (10) de reconocimiento de voz según la reivindicación 14, en el que:
los medios para extraer (14) comprenden un procesador (14) acústico; y
el medio único comprende un procesador acoplado al procesador (14) acústico.
16. El sistema (10) de reconocimiento de voz según la reivindicación 11, en el que la primera palabra almacenada comprende un candidato mejor en un vocabulario del sistema (10) de reconocimiento de voz, y la segunda palabra almacenada comprende un candidato mejor siguiente en un vocabulario del sistema (10) de reconocimiento de voz.
17. El sistema (10) de reconocimiento de voz según la reivindicación 11, en el que la primera puntuación comprende un resultado de comparación más ajustado, y la segunda puntuación comprende un resultado de comparación más ajustado siguiente.
18. El sistema (10) de reconocimiento de voz según la reivindicación 11, en el que la primera puntuación y la segunda puntuación comprenden coeficientes de codificación predictiva lineal.
19. El sistema (10) de reconocimiento de voz según la reivindicación 11, en el que la primera puntuación y la segunda puntuación comprenden coeficientes cepstral.
20. El sistema (10) de reconocimiento de voz según la reivindicación 11, en el que la primera puntuación y la segunda puntuación comprenden salidas de filtro paso banda.
21. El sistema (10) de reconocimiento de voz según la reivindicación 11, en el que la diferencia comprende una diferencia entre un resultado de comparación más ajustado y un resultado de comparación más ajustado siguiente.
ES00914513T 1999-02-08 2000-02-04 Esquema de rechazo de reconocimiento de voz. Expired - Lifetime ES2286014T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US248513 1988-09-23
US09/248,513 US6574596B2 (en) 1999-02-08 1999-02-08 Voice recognition rejection scheme

Publications (1)

Publication Number Publication Date
ES2286014T3 true ES2286014T3 (es) 2007-12-01

Family

ID=22939477

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00914513T Expired - Lifetime ES2286014T3 (es) 1999-02-08 2000-02-04 Esquema de rechazo de reconocimiento de voz.

Country Status (11)

Country Link
US (1) US6574596B2 (es)
EP (1) EP1159735B1 (es)
JP (1) JP4643011B2 (es)
KR (1) KR100698811B1 (es)
CN (1) CN1178203C (es)
AT (1) ATE362166T1 (es)
AU (1) AU3589300A (es)
DE (1) DE60034772T2 (es)
ES (1) ES2286014T3 (es)
HK (1) HK1043423B (es)
WO (1) WO2000046791A1 (es)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266451B2 (en) * 2001-08-31 2012-09-11 Gemalto Sa Voice activated smart card
US7324942B1 (en) * 2002-01-29 2008-01-29 Microstrategy, Incorporated System and method for interactive voice services using markup language with N-best filter element
US7020337B2 (en) * 2002-07-22 2006-03-28 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in images
JP4454921B2 (ja) * 2002-09-27 2010-04-21 株式会社半導体エネルギー研究所 半導体装置の作製方法
US7344901B2 (en) * 2003-04-16 2008-03-18 Corning Incorporated Hermetically sealed package and method of fabricating of a hermetically sealed package
EP1560354A1 (en) * 2004-01-28 2005-08-03 Deutsche Thomson-Brandt Gmbh Method and apparatus for comparing received candidate sound or video items with multiple candidate reference sound or video items
DE102004029873B3 (de) * 2004-06-16 2005-12-29 Deutsche Telekom Ag Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
DK2293289T3 (da) * 2008-06-06 2012-06-25 Raytron Inc Talegenkendelsessystem og fremgangsmåde
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US8442824B2 (en) 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US8428759B2 (en) * 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
CN105027198B (zh) * 2013-02-25 2018-11-20 三菱电机株式会社 语音识别系统以及语音识别装置
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
BR102014023647B1 (pt) * 2014-09-24 2022-12-06 Fundacao Cpqd - Centro De Pesquisa E Desenvolvimento Em Telecomunicacoes Método e sistema para detecção de fraudes em aplicações baseadas em processamento de voz
WO2018213788A1 (en) * 2017-05-18 2018-11-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
US11182557B2 (en) * 2018-11-05 2021-11-23 International Business Machines Corporation Driving intent expansion via anomaly detection in a modular conversational system

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4567606A (en) 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
FR2571191B1 (fr) 1984-10-02 1986-12-26 Renault Systeme de radiotelephone, notamment pour vehicule automobile
JPS61105671A (ja) 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US4991217A (en) 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
JPS6269297A (ja) 1985-09-24 1987-03-30 日本電気株式会社 話者確認タ−ミナル
US4827520A (en) 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
US5231670A (en) 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5321840A (en) 1988-05-05 1994-06-14 Transaction Technology, Inc. Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal
US5040212A (en) 1988-06-30 1991-08-13 Motorola, Inc. Methods and apparatus for programming devices to recognize voice commands
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
JP2966852B2 (ja) * 1989-01-24 1999-10-25 キヤノン株式会社 音声処理方法及び装置
US5325524A (en) 1989-04-06 1994-06-28 Digital Equipment Corporation Locating mobile objects in a distributed computer system
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5146538A (en) 1989-08-31 1992-09-08 Motorola, Inc. Communication system and method with voice steering
JP2788658B2 (ja) * 1989-12-01 1998-08-20 株式会社リコー 音声ダイヤル装置
US5280585A (en) 1990-09-28 1994-01-18 Hewlett-Packard Company Device sharing system using PCL macros
AU671952B2 (en) 1991-06-11 1996-09-19 Qualcomm Incorporated Variable rate vocoder
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5305420A (en) 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
ES2128390T3 (es) * 1992-03-02 1999-05-16 At & T Corp Metodo de adiestramiento y dispositivo para reconocimiento de voz.
JPH0664478B2 (ja) * 1992-06-05 1994-08-22 カシオ計算機株式会社 パターン認識装置
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5566272A (en) 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5819221A (en) * 1994-08-31 1998-10-06 Texas Instruments Incorporated Speech recognition using clustered between word and/or phrase coarticulation
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
JP4180110B2 (ja) * 1995-03-07 2008-11-12 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語認識
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
JPH0954597A (ja) * 1995-08-11 1997-02-25 Matsushita Joho Syst Kk 項目入力装置
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US6094476A (en) 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method

Also Published As

Publication number Publication date
ATE362166T1 (de) 2007-06-15
EP1159735B1 (en) 2007-05-09
CN1178203C (zh) 2004-12-01
CN1347547A (zh) 2002-05-01
KR100698811B1 (ko) 2007-03-23
HK1043423B (zh) 2005-07-22
JP2002536691A (ja) 2002-10-29
US20020055841A1 (en) 2002-05-09
EP1159735A1 (en) 2001-12-05
US6574596B2 (en) 2003-06-03
WO2000046791A1 (en) 2000-08-10
AU3589300A (en) 2000-08-25
JP4643011B2 (ja) 2011-03-02
DE60034772T2 (de) 2008-01-31
KR20010093327A (ko) 2001-10-27
DE60034772D1 (de) 2007-06-21

Similar Documents

Publication Publication Date Title
ES2286014T3 (es) Esquema de rechazo de reconocimiento de voz.
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US6671669B1 (en) combined engine system and method for voice recognition
US6411926B1 (en) Distributed voice recognition system
KR100901092B1 (ko) 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합
ES2275700T3 (es) Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente.
US20020091522A1 (en) System and method for hybrid voice recognition
US7136815B2 (en) Method for voice recognition
JP2996019B2 (ja) 音声認識装置
Moore Systems for isolated and connected word recognition
JPH0997095A (ja) 音声認識装置
JP3357752B2 (ja) パターンマッチング装置
JPH0343639B2 (es)
KR20060075533A (ko) 안티워드 모델을 이용한 음성인식 방법
JPH0316038B2 (es)
JPH09297596A (ja) 音声認識装置
JPH0157357B2 (es)
JP2003058185A (ja) 音声認識装置