ES2275700T3 - Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. - Google Patents

Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. Download PDF

Info

Publication number
ES2275700T3
ES2275700T3 ES01952681T ES01952681T ES2275700T3 ES 2275700 T3 ES2275700 T3 ES 2275700T3 ES 01952681 T ES01952681 T ES 01952681T ES 01952681 T ES01952681 T ES 01952681T ES 2275700 T3 ES2275700 T3 ES 2275700T3
Authority
ES
Spain
Prior art keywords
vocal
voice
comparison
result
pairing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01952681T
Other languages
English (en)
Inventor
Ning Bi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2275700T3 publication Critical patent/ES2275700T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Audible-Bandwidth Dynamoelectric Transducers Other Than Pickups (AREA)

Abstract

Un procedimiento para crear plantillas de voz, para su empleo en un sistema de reconocimiento de voz independiente de la persona que habla, comprendiendo el procedimiento: segmentar cada emisión vocal de una primera pluralidad de emisiones vocales, a fin de generar una pluralidad de segmentos agrupados temporalmente para cada emisión vocal, estando cada segmento agrupado temporalmente representado por una media espectral; cuantizar la pluralidad de medias espectrales para todas las emisiones vocales de la primera pluralidad, a fin de generar una pluralidad de vectores de plantilla; comparar cada uno de los vectores de plantilla de la pluralidad con una segunda pluralidad de emisiones vocales, a fin de generar al menos un resultado de comparación; aparear la primera pluralidad de emisiones vocales con la pluralidad de vectores de plantilla si el resultado, o resultados, de comparación supera(n) al menos un valor de umbral predefinido, a fin de generar un resultado de camino óptimo de apareo;repartir la primera pluralidad de emisiones vocales en el tiempo, según el resultado del camino óptimo de apareo; y repetir la cuantización, comparación, apareo y partición hasta que el resultado, o resultados, de la comparación no supere(n) ningún valor, o valores, de umbral predefinido(s).

Description

Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente.
Antecedentes de la invención I. Campo de la invención
La presente invención se refiere, en general, al campo de las comunicaciones y, más específicamente, a la creación de plantillas de voz para sistemas de reconocimiento de voz independientes de la persona que habla.
II. Antecedentes
El Reconocimiento de la Voz (RV) representa una de las técnicas más importantes para dotar a una máquina de inteligencia simulada, a fin de reconocer órdenes del usuario o con la voz del usuario, y de facilitar la interfaz entre el humano y la máquina. El RV también representa una técnica clave para la comprensión del habla humana. Los sistemas que emplean técnicas para recuperar un mensaje lingüístico desde una señal vocal acústica se llaman reconocedores de voz. El término "reconocedor de voz" se utiliza aquí para referirse, en general, a cualquier dispositivo habilitado como interfaz con un usuario parlante. Un reconocedor de voz, típicamente, comprende un procesador acústico y un descodificador de la palabra. El procesador acústico extrae una secuencia de características portadoras de información, o vectores, necesarios para lograr el RV del habla entrante no tratada. El descodificador de la palabra descodifica la secuencia de características, o vectores, para producir un formato de salida significativo y deseado, tal como una secuencia de palabras lingüísticas correspondientes a la emisión vocal de entrada.
El procesador acústico representa un subsistema de análisis de habla, de interfaz directa con el usuario, en un reconocedor de voz. En respuesta a una señal vocal de entrada, el procesador acústico proporciona una representación adecuada para caracterizar la señal vocal variable en el tiempo. El procesador acústico debería descartar información irrelevante, tal como el ruido de fondo, la distorsión del canal, las características de la persona que habla y la manera de hablar. El procesamiento acústico eficiente brinda a los reconocedores de voz potencia mejorada de discriminación acústica. Con este fin, una característica útil para analizar es el envoltorio espectral de lapso breve. Dos técnicas de análisis espectral, usualmente utilizadas para caracterizar el envoltorio espectral a corto plazo, son la codificación predictiva lineal (Linear Predictive Coding - LPC) y la modelización espectral basada en bancos de filtros. Los ejemplos de técnicas de LPC se describen en la Patente Estadounidense Nº 5.414.796, que está transferida al cesionario de la presente invención, y que se incorpora aquí en su totalidad por referencia, y en la obra Digital Processing of Speech Signals ["Procesamiento Digital de Señales de Voz"] de L. B. Rabiner y R. W. Schafer (1978), que también se incorpora aquí en su totalidad por referencia.
El empleo del RV (también denominado usualmente reconocimiento del habla) se está haciendo crecientemente importante, por razones de seguridad. Por ejemplo, el RV puede utilizarse para reemplazar la tarea manual de pulsar teclas en un teclado de teléfono inalámbrico. Esto es especialmente importante cuando un usuario está iniciando una llamada telefónica mientras conduce un coche. Al utilizar un teléfono sin RV, el conductor debe retirar una mano del volante y mirar al teclado del teléfono mientras pulsa las teclas para marcar la llamada. Estos actos aumentan la probabilidad de un accidente automovilístico. Un teléfono habilitado para voz (es decir, un teléfono diseñado para el reconocimiento de voz) permitiría al conductor realizar llamadas telefónicas mientras observa continuamente la carretera. Y un sistema de equipo para coche de manos libres permitiría adicionalmente al conductor mantener ambas manos sobre el volante durante la iniciación de la llamada.
Los dispositivos de reconocimiento de voz se clasifican bien como dispositivos dependientes de la persona que habla, o bien como independientes de la persona que habla. Los dispositivos dependientes de la persona que habla, que son más comunes, están acondicionados para reconocer comandos de usuarios específicos. En cambio, los dispositivos independientes de la persona que habla son capaces de aceptar comandos vocales de cualquier usuario. Para aumentar las prestaciones de un sistema dado de RV, ya sea dependiente de la persona que habla o independiente de la persona que habla, se requiere la ejercitación a fin de equipar al sistema con parámetros válidos. En otras palabras, el sistema necesita aprender antes de poder funcionar óptimamente.
Un dispositivo de RV dependiente de la persona que habla, típicamente, opera en dos fases, una fase de ejercitación y una fase de reconocimiento. En la fase de ejercitación, el sistema de RV insta al usuario a enunciar cada una de las palabras en el vocabulario del sistema una o dos veces (típicamente, dos veces) para que el sistema pueda aprender las características del habla del usuario para esas palabras o frases específicas. Un ejemplo de vocabulario para un equipo de coche de manos libres podría incluir los dígitos en el teclado; las palabras clave "llamar", "enviar", "marcar", "cancelar", "querido", "añadir", "borrar", "historia", "programa", "sí" y "no"; y los nombres de un cierto número predefinido de colegas, amigos o miembros de la familia a quienes se llama frecuentemente. Una vez que la ejercitación está completa, el usuario puede iniciar llamadas en la fase de reconocimiento, enunciando las palabras clave ejercitadas, que el dispositivo de RV reconoce al comparar los sonidos hablados con los sonidos previamente ejercitados (almacenados como plantillas) y quedarse con la coincidencia más próxima. Por ejemplo, si el nombre "Juan" fuese uno de los nombres ejercitados, el usuario podría iniciar una llamada a Juan diciendo la frase "Llamar a Juan". El sistema de RV reconocería las palabras "Llamar" y "Juan", y marcaría el número que el usuario hubiese ingresado previamente como el número de teléfono de Juan.
Un dispositivo de RV independiente de la persona que habla también utiliza una plantilla de ejercitación que contiene un vocabulario pregrabado con un tamaño predefinido (p. ej., ciertas palabras de control, los números del cero al nueve, el sí y el no). Debe registrarse a un gran número de personas que hablan (p. ej., 100) diciendo cada palabra en el vocabulario.
Un ejemplo de solución constructora de plantillas, utilizando una segmentación inicial y la corrección de límites, se revela en el documento de patente estadounidense Nº 4.802.224.
Convencionalmente, las plantillas de RV independientes de la persona que habla se construyen comparando una base de datos de prueba que contiene palabras habladas por un primer grupo de personas (típicamente, 100 personas que hablan) con una base de datos de ejercitación, que contiene las mismas palabras habladas por un segundo grupo de personas (tantos como en el primer grupo). Una palabra, dicha por un usuario, se denomina típicamente una emisión vocal. Cada emisión vocal de la base de datos de ejercitación se normaliza primero en cuanto al tiempo, y luego se cuantiza (típicamente, se cuantiza vectorialmente según técnicas conocidas) antes de ser probada en cuanto a la convergencia con las emisiones vocales de la base de datos de prueba. Sin embargo, la técnica de normalización en cuanto al tiempo se apoya en la información obtenida sólo de tramas individuales (segmentos periódicos de una emisión vocal) con diferencias máximas con respecto a la trama anterior. Sería ventajoso proporcionar un procedimiento para construir plantillas de RV independientes de la persona que habla, que utilice más de la información en una emisión vocal dada. Sería adicionalmente deseable aumentar la precisión, o convergencia, de las técnicas convencionales para construir plantillas de RV independientes de la persona que habla, basadas en el tipo de emisión vocal. Por lo tanto, hay una necesidad de un procedimiento para construir plantillas de reconocimiento de voz independientes de la persona que habla, que proporcione una precisión mejorada y que utilice una mayor cantidad de información en las emisiones vocales.
Resumen de la invención
La presente invención se refiere a un procedimiento para construir plantillas de reconocimiento de voz independientes de la persona que habla, que proporcione una precisión mejorada y que utilice una mayor cantidad de información en las emisiones vocales. En consecuencia, en un aspecto de la invención, se proporciona un procedimiento según la reivindicación 1 a fin de crear plantillas de voz, para su utilización en un sistema de reconocimiento de voz independiente de la persona que habla. El procedimiento incluye, con ventaja, la segmentación de cada emisión vocal en una primera pluralidad de emisiones vocales, a fin de generar una pluralidad de segmentos agrupados con respecto al tiempo para cada emisión vocal, estando cada segmento temporalmente agrupado representado por un medio espectral; la cuantización de la pluralidad de medios espectrales para la totalidad de la primera pluralidad de emisiones vocales, a fin de generar una pluralidad de vectores de plantilla; la comparación de cada uno de la pluralidad de vectores de plantilla con una segunda pluralidad de emisiones vocales, a fin de generar al menos un resultado de comparación; el apareo de la primera pluralidad de emisiones vocales con la pluralidad de vectores de plantilla, si el resultado, o resultados, de la comparación supera(n) al menos un valor de umbral predefinido, a fin de generar un resultado de camino óptimo de apareo; la partición de la primera pluralidad de emisiones vocales con respecto al tiempo, según el resultado del camino óptimo de apareo; y la repetición de la cuantización, comparación, apareo y partición hasta que el resultado, o resultados, de la comparación no supere(n) a ninguno entre el valor, o valores, de umbral
predefinido(s).
La invención también está definida por otras realizaciones correspondientes a los aparatos de las reivindicaciones 10 y 17, y por un programa de ordenador según la reivindicación 16.
Breve descripción de los dibujos
La Fig. 1 es un diagrama en bloques de un sistema a fin de construir e implementar plantillas de voz para el reconocimiento de voz independiente de la persona que habla.
La Fig. 2 es un diagrama en bloques de un subsistema de reconocimiento de voz que puede utilizarse en el sistema de la Fig. 1.
La Fig. 3 es un diagrama de flujo que ilustra etapas de procedimiento llevadas a cabo por un subsistema de reconocimiento de voz, tal como el subsistema de la Fig. 2, a fin de reconocer muestras de voz entrantes.
La Fig. 4 es un diagrama en bloques de un subsistema de construcción de plantillas que puede utilizarse en el sistema de la Fig. 1.
La Fig. 5 es un diagrama en bloques de un subsistema de construcción de plantillas que puede utilizarse en el sistema de la Fig. 1.
La Fig. 6 es un diagrama de flujo que ilustra las etapas de procedimiento llevadas a cabo por un subsistema de construcción de plantillas, tal como el subsistema de la Fig. 4 o el subsistema de la Fig. 5, para construir plantillas de voz.
Descripción detallada de las realizaciones preferidas
Según se ilustra en la Fig. 1, un sistema 10 para construir e implementar plantillas de voz para el reconocimiento de voz independiente de la persona que habla incluye un subsistema 12 de construcción de plantillas independientes de la persona que habla, y un subsistema 14 de reconocimiento de voz. El subsistema 12 de construcción de plantillas independientes de la persona que habla se acopla con el subsistema 14 de reconocimiento de voz.
Las plantillas de voz independientes de la persona que habla se construyen con el subsistema 12 de construcción de plantillas independientes de la persona que habla, según se describe más adelante con referencia a las Figs. 4 a 6. Las plantillas se suministran al subsistema 14 de reconocimiento de voz para su empleo en el reconocimiento de voz ingresada por un usuario, según se describe más adelante con referencia a las Figs. 2 y 3.
Como se ilustra en la Fig. 2, un subsistema 100 de reconocimiento de voz incluye un convertidor 102 de analógico a digital (A/D), un procesador acústico 104 de interfaz con el usuario, un extractor 106 de características, una base de datos 108 de plantillas de voz, una lógica 110 de comparación de patrones y una lógica 112 de decisión. El procesador acústico 104 y el extractor 106 de características se implementan como un solo dispositivo, p. ej., un extractor de parámetros. El procesador acústico 104 incluye un módulo 114 de análisis de frecuencia. El extractor 106 de características incluye un detector 116 de punto de terminación, un módulo 118 de segmentación de voz por agrupación temporal y un normalizador 120 del nivel del habla.
El A/D 102 está acoplado con el procesador acústico 104. El procesador acústico 104 está acoplado con el extractor 106 de características. Dentro del extractor 106 de características, el detector 116 de puntos de terminación está acoplado con el módulo 118 de segmentación de voz por agrupación temporal, que está acoplado con el cuantizador 120 de amplitud. El extractor 106 de características está acoplado con la lógica 110 de comparación de patrones. La lógica 110 de comparación de patrones está acoplada con la base de datos 108 de plantillas y la lógica 112 de decisión.
El subsistema 100 de reconocimiento de voz puede residir, p. ej., en un teléfono inalámbrico o en un equipo de coche de manos libres. Un usuario (no mostrado) dice una palabra o frase, generando una señal de voz. La señal de voz se convierte en una señal eléctrica de voz, s(t), con un transductor convencional (no mostrado). La señal de voz s(t) se suministra al A/D 102, que convierte la señal de voz en muestras de voz digitalizadas, s(n), según un procedimiento conocido de muestreo, tal como, p. ej., la modulación codificada en pulsos (Pulse Coded Modulation - PCM), la ley A o la ley \mu.
Las muestras de voz s(n) se suministran al procesador acústico 104 para la determinación de parámetros. El procesador acústico 104 produce un conjunto de parámetros que modela las características de la señal s(t) de voz entrante. Los parámetros pueden determinarse según cualquiera entre un cierto número de técnicas conocidas de determinación de parámetros de voz, que incluyen, p. ej., la codificación por codificador de voz, los coeficientes cepstrum basados en la transformada discreta de Fourier (TDF) (p. ej., coeficientes cepstrum basados en la transformada rápida de Fourier (TRF)), los coeficientes lineales predictivos (LPC) o el análisis escalar de Bark, según se describe en la precitada Patente Estadounidense Nº 5.414.796 y en la obra Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] de Lawrence Rabiner y Biing-Hwang Juang (1993). El conjunto de parámetros, con ventaja, está basado en tramas (segmentado en tramas periódicas). El procesador acústico 104 puede implementarse como un procesador de señales digitales (PSD). El PSD puede incluir un codificador de voz. Alternativamente, el procesador acústico 104 puede implementarse como un codificador de voz.
Cada trama de parámetros se suministra al extractor 106 de características. En el extractor 106 de características, el detector 116 de puntos de terminación utiliza los parámetros extraídos para detectar los puntos de terminación de una emisión vocal (es decir, una palabra). En un ejemplo, la detección de puntos de terminación se realiza, con ventaja, según una técnica descrita en la patente estadounidense Nº 6.324.509, presentada el 8 de febrero de 1999, titulada METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECH IN THE PRESENCE OF NOISE ["Procedimiento y aparato para la determinación precisa de puntos de terminación de la voz en presencia de ruido"], transferida al cesionario de la presente invención. Según esta técnica, la emisión vocal se compara con un primer valor umbral, tal como, p. ej., un valor umbral de la razón entre señal y ruido (SNR), a fin de determinar un primer punto de partida y un primer punto de terminación de la emisión vocal. Una porción de la emisión vocal, que precede al primer punto de partida, se compara entonces con un segundo valor umbral de SNR, a fin de determinar un segundo punto de partida de la emisión vocal. Una porción de la emisión vocal, que sigue al primer punto de terminación, se compara entonces con el segundo valor umbral de SNR, a fin de determinar un segundo punto de terminación de la emisión vocal. Los valores umbral de SNR primero y segundo, con ventaja, se recalculan periódicamente, y el primer valor umbral de SNR supera, con ventaja, al segundo valor umbral de SNR.
Las tramas de parámetros de dominio de frecuencia para la emisión vocal detectada se suministran al módulo 118 de segmentación de voz por agrupación temporal que, según un ejemplo, implementa una técnica de compresión descrita en la patente estadounidense Nº 6.278.972, presentada el 4 de enero de 1999, titulada SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS ["Sistema y procedimiento para la segmentación y el reconocimiento de señales de voz"], transferida al cesionario de la presente invención. Según esta técnica, cada trama de voz en los parámetros de dominio de frecuencia está representada por al menos un valor espectral asociado a la trama de voz. Un valor de diferencia espectral se determina luego para cada par de tramas adyacentes. El valor de diferencia espectral representa una diferencia entre los valores espectrales asociados a las dos tramas en el par. Un límite inicial de agrupación se establece entre cada par de tramas adyacentes, creando agrupaciones en los parámetros, y un valor de varianza se asigna a cada agrupación. El valor de varianza es, con ventaja, igual a uno de los valores determinados de diferencia espectral. Se calcula entonces una pluralidad de parámetros de fusión de agrupaciones, estando cada uno de los parámetros de fusión de agrupaciones asociado a un par de agrupaciones adyacentes. Un parámetro mínimo de fusión de agrupaciones se selecciona entre la pluralidad de parámetros de fusión de agrupaciones. Se forma luego una agrupación fusionada, cancelando un límite de agrupaciones entre las agrupaciones asociadas al parámetro mínimo de fusión de agrupaciones, y asignando un valor de varianza fusionada a la agrupación fusionada. El valor de varianza fusionada representa los valores de varianza asignados a las agrupaciones asociadas al parámetro mínimo de fusión de agrupaciones. El proceso se repite, con ventaja, a fin de formar una pluralidad de agrupaciones fusionadas, y la señal de voz segmentada puede formarse, con ventaja, según la pluralidad de agrupaciones fusionadas.
Se comprendería, por parte de aquellos versados en la técnica, que el módulo 118 de segmentación de voz por agrupación temporal puede ser reemplazado por otros dispositivos, tales como, p. ej., un módulo de normalización temporal. Sin embargo, también se apreciaría, por parte de artesanos capacitados, que, debido a que el módulo 118 de segmentación de voz por agrupación temporal fusiona en agrupaciones las tramas con diferencias mínimas, en comparación con la trama anterior, y emplea promedios de medias en lugar de tramas individuales, el módulo 118 de segmentación de voz por agrupación temporal utiliza más información en la emisión vocal procesada. También se comprendería que el módulo 118 de segmentación de voz por agrupación temporal se utiliza, con ventaja, conjuntamente con la lógica 110 de comparación de patrones, que emplea un modelo de distorsión temporal dinámica (DTD), según se conoce en la técnica y se describe más adelante.
Las medias de la agrupación se proporcionan al normalizador 120 de nivel de voz. En un ejemplo del normalizador 120 del nivel de voz, cuantiza las amplitudes vocales asignando a cada media de agrupación dos bits por canal (es decir, dos bits por frecuencia). En un ejemplo de solución alternativa, en el cual se extraen coeficientes cepstrales, el normalizador 120 de nivel de voz no se utiliza para cuantizar las medias de agrupación, como comprenderían los entendidos. La salida generada por el normalizador 120 del nivel de voz es suministrada por el extractor 106 de características a la lógica 110 de comparación de patrones.
Un conjunto de plantillas para todas las palabras del vocabulario del subsistema 100 de reconocimiento de voz está permanentemente almacenado en la base de datos 108 de plantillas. El conjunto de plantillas es, con ventaja, un conjunto de plantillas independientes de la persona que habla, construidas con un subsistema de construcción de plantillas independientes de la persona que habla, según se describe aquí más adelante. La base de datos 108 de plantillas se implementa, con ventaja, como cualquier forma convencional de medio de almacenamiento no volátil, tal como, p. ej., memoria flash. Esto permite que las plantillas permanezcan en la base de datos 108 de plantillas cuando se desconecta la energía del subsistema 100 de reconocimiento de voz.
La lógica 110 de comparación de patrones compara los vectores del extractor 106 de características con todas las plantillas almacenadas en la base de datos 108 de plantillas. Los resultados, o distancias, de la comparación entre los vectores y todas las plantillas almacenadas en la base de datos 108 de plantillas se suministran a la lógica 112 de decisión. La lógica 112 de decisión selecciona en la base de datos 108 de plantillas la plantilla que más estrechamente coincide con los vectores. En la alternativa, la lógica 112 de decisión puede utilizar un algoritmo convencional de selección de los "N mejores", que escoge las N coincidencias más estrechas dentro de un umbral de coincidencia predefinido. Se consulta luego al usuario en cuanto a qué selección se deseaba. La salida de la lógica 112 de decisión es la decisión en cuanto a qué palabra en el vocabulario fue emitida.
La lógica 110 de comparación de patrones y la lógica 112 de decisión utilizan una técnica DTD para comprobar la convergencia. La técnica DTD se conoce en la tecnología y se describe en la obra de Lawrence Rabiner y Biing-Hwang Juang Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 200-238 (1993). Según la técnica DTD, se forma un enrejado graficando una secuencia temporal de la emisión vocal a comprobar, con respecto a una secuencia temporal para cada emisión vocal almacenada en la base de datos 108 de plantillas. La emisión vocal bajo comprobación se compara entonces, punto a punto (p. ej., cada 10 ms), con cada emisión vocal en la base de datos 108 de plantillas, una emisión vocal por vez. Para cada emisión vocal en la base de datos 108 de plantillas, la emisión vocal bajo comprobación se ajusta, o se "distorsiona", con respecto al tiempo, comprimiéndose o expandiéndose en puntos específicos, hasta que se logra la más estrecha coincidencia posible con la emisión vocal en la base de datos 108 de plantillas. En cada punto del tiempo se comparan las dos emisiones vocales, y o bien se declara una coincidencia en ese punto (coste cero), o bien se declara una discrepancia. En el caso de una discrepancia en un punto específico, la emisión vocal bajo comprobación se comprime, se expande o, si es necesario, se mantiene discrepante. El procedimiento continúa hasta que las dos emisiones vocales han sido completamente comparadas entre sí. Es posible que haya un gran número (típicamente miles) de emisiones vocales ajustadas diversamente. Se selecciona la emisión vocal ajustada con la función de coste más bajo (es decir, que requiere el mínimo número de compresiones y/o expansiones y/o discrepancias). De manera similar a un algoritmo Viterbi de descodificación, la selección, con ventaja, se realiza mirando hacia atrás, desde cada punto en la emisión vocal, en la base de datos 108 de plantillas, a fin de determinar el camino con el coste total más bajo. Esto permite determinar la emisión vocal ajustada con el coste más bajo (es decir, más estrechamente coincidente) sin recurrir al procedimiento de "fuerza bruta" para generar cada una de las posibles emisiones vocales diversamente ajustadas. Las emisiones vocales ajustadas de coste mínimo para todas las emisiones vocales en la base de datos 108 de plantillas se comparan luego entre sí, y la que tenga el menor coste se seleccionará como la emisión vocal almacenada más estrechamente coincidente con la emisión vocal bajo comprobación.
La lógica 110 de comparación de patrones y la lógica 112 de decisión pueden implementarse, con ventaja, como un microprocesador. El subsistema 100 de reconocimiento de voz puede ser, p. ej., un circuito integrado específico para la aplicación. La precisión de reconocimiento del subsistema 100 de reconocimiento de voz es una medida de con qué calidad el subsistema 100 de reconocimiento de voz reconoce correctamente palabras o frases en el vocabulario. Por ejemplo, una precisión de reconocimiento del 95% indica que el subsistema 100 de reconocimiento de voz reconoce correctamente palabras en el vocabulario noventa y cinco veces de cada 100.
Según un ejemplo, un subsistema de reconocimiento de voz (no mostrado) realiza las etapas del algoritmo ilustradas en el diagrama de flujo de la Fig. 3 para reconocer la voz ingresada en el subsistema de reconocimiento de voz. En la etapa 200, la voz de entrada se suministra al subsistema de reconocimiento de voz. El flujo de control continúa luego hacia la etapa 202. En la etapa 202 se detectan los puntos de terminación de una emisión vocal. En un ejemplo específico, los puntos de terminación de la emisión vocal se detectan según la técnica descrita en la precitada patente estadounidense Nº 6.324.509, según se describe anteriormente con referencia a la Fig. 2. El flujo de control continúa luego hacia la etapa 204.
En la etapa 204 se lleva a cabo la segmentación de voz por agrupación temporal sobre las emisiones vocales extraídas. En un ejemplo específico, la técnica utilizada de segmentación de voz por agrupación temporal es la técnica descrita en la precitada patente estadounidense Nº 6.278.972, según se describe anteriormente con referencia a la Fig. 2. El flujo de control continúa entonces hacia la etapa 208. En la etapa 206 se proporcionan plantillas independientes de la persona que habla, para su apareo con las medias de agrupación de voz generadas en la etapa 204. Las plantillas independientes de la persona que habla se construyen, con ventaja, según las técnicas descritas más adelante con referencia a las Figs. 4 a 6. El flujo de control continúa luego hacia la etapa 208. En la etapa 208 se realiza un apareo DTD entre las agrupaciones para una emisión vocal específica y todas las plantillas independientes de la persona que habla, y se selecciona la plantilla más estrechamente coincidente como la emisión vocal reconocida. En una realización específica, el apareo DTD se realiza según las técnicas descritas en la obra de Lawrence Rabiner y Biing-Hwang Juang Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 200-238 (1993) y, anteriormente, con referencia a la Fig. 2. Se comprendería, por parte de aquellos versados en la técnica, que podrían realizarse procedimientos distintos a la segmentación de voz por agrupación temporal en la etapa 204. Tales procedimientos incluyen, p. ej., la normalización temporal.
Según una realización, según se muestra en la Fig. 4, un subsistema 300 construcción de plantillas independientes de la persona que habla incluye un procesador 302 y un medio 304 de almacenamiento. El procesador 100 es, con ventaja, un microprocesador, pero puede ser cualquier forma convencional de procesador, un procesador dedicado, un procesador de señales digitales (PSD), un controlador o una máquina de estados. El procesador 302 está acoplado con el medio 304 de almacenamiento, que se implementa, con ventaja, como memoria flash, memoria EEPROM, memoria RAM, memoria ROM configurada para contener instrucciones de firmware, o un módulo de software a ejecutar en el procesador 302, o cualquier otra forma convencional de memoria. El subsistema 300 de construcción de plantillas independientes de la persona que habla se implementa, con ventaja, como un ordenador gobernado por el sistema operativo UNIX®. En realizaciones alternativas, el medio 304 de almacenamiento puede ser una memoria RAM de a bordo, o bien el procesador 302 y el medio de almacenamiento 304 podrían residir en un circuito integrado específico para la aplicación. En una realización, el procesador 302 está configurado para ejecutar un conjunto de instrucciones contenidas en el medio 304 de almacenamiento, a fin de llevar a cabo etapas de algoritmo tales como las etapas descritas más adelante con referencia a la Fig. 6.
Según otra realización, como se muestra en la Fig. 5, un subsistema 400 constructor de plantillas independientes de la persona que habla incluye un detector 402 de puntos de terminación, una lógica 404 de segmentación de voz por agrupación temporal, un cuantizador vectorial 406, un comprobador 408 de convergencia y lógica 410 de segmentación de voz en K medias. Un procesador de control (no mostrado) puede emplearse, con ventaja, para controlar el número de iteraciones que realiza el subsistema 400 de construcción de plantillas independientes de la persona que habla.
El detector 402 de puntos de terminación se acopla con la lógica 404 de segmentación de voz por agrupación temporal. La lógica 404 de segmentación de voz por agrupación temporal se acopla con el cuantizador vectorial 406. El cuantizador vectorial 406 se acopla con el comprobador 408 de convergencia y con la lógica 410 de segmentación de voz en K medias. El procesador de control puede acoplarse, con ventaja, con el detector 402 de puntos de terminación, la lógica 404 de segmentación de voz por agrupación temporal, el cuantizador vectorial 406, el comprobador 408 de convergencia y la lógica 410 de segmentación de voz en K medias, a través de un bus de control (no mostrado).
Las muestras de ejercitación, S_{x}(n), de una emisión vocal a ejercitar, se suministran en tramas al detector 402 de puntos de terminación. Las muestras de ejercitación se suministran, con ventaja, desde una base de datos de ejercitación (no mostrada) en la cual se almacenan las emisiones vocales a ejercitar. En una realización la base de datos de ejercitación contiene 100 palabras, dicha cada una por 100 personas distintas, con un total de 10.000 emisiones vocales almacenadas. El detector 402 de puntos de terminación detecta los puntos de comienzo y de terminación de una emisión vocal. En una realización, el detector 402 de puntos de terminación funciona según una técnica descrita en la precitada patente estadounidense Nº 6.324.509 y, anteriormente, con referencia a la Fig. 2.
El detector 402 de puntos de terminación proporciona la emisión vocal detectada a la lógica 404 de segmentación de voz por agrupación temporal. La lógica 404 de segmentación de voz por agrupación temporal efectúa un algoritmo de compresión sobre la emisión vocal detectada. En una realización, la lógica 404 de segmentación de voz por agrupación temporal funciona según una técnica descrita en la precitada patente estadounidense Nº 6.278.972 y, anteriormente, con referencia a la Fig. 2. En una realización la lógica 404 de segmentación de voz por agrupación temporal comprime la emisión vocal detectada en veinte segmentos, incluyendo cada segmento una media de la agrupación.
La lógica 404 de segmentación de voz por agrupación temporal proporciona las medias de agrupación, para todas las emisiones vocales de ejercitación para una palabra dada, al cuantizador vectorial 406. El cuantizador vectorial 408 cuantiza las medias de agrupaciones para las emisiones vocales (es decir, para todas las personas que dicen la misma palabra) y proporciona los vectores resultantes como una plantilla, potencialmente independiente de la persona que habla (IPH), para las emisiones vocales al comprobador 408 de convergencia. El cuantizador vectorial 406, con ventaja, funciona según cualquiera de las diversas técnicas conocidas de cuantización vectorial (CV). Diversas técnicas de CV se describen, p. ej., en la obra de A. Gersho y R. M. Gray Vector Quantization and Signal Compression ["Cuantización Vectorial y Compresión de Señales"] (1992). En una realización específica, el cuantizador vectorial 406 genera vectores de cuatro agrupaciones. Así, p. ej., cada segmento se suministra en serie al cuantizador vectorial 406, que representa cada segmento como cuatro agrupaciones. Cada agrupación representa a cada persona que dice la palabra específica, y hay múltiples agrupaciones por palabra. Según una realización, hay ochenta vectores (cuatro agrupaciones por veinte segmentos) por plantilla.
El comprobador 408 de convergencia compara las plantillas potencialmente IPH con las muestras de prueba,
S_{y}(n), de las emisiones vocales a comprobar. Las muestras de prueba se suministran en tramas al comprobador 408 de convergencia. Las muestras de prueba, con ventaja, se suministran desde una base de datos de prueba (no mostrada), en la cual se almacenan las emisiones vocales a probar. En una realización, la base de datos de prueba contiene 100 palabras, cada una de ellas dicha por 100 personas distintas, con un total de 10.000 emisiones vocales almacenadas. Las palabras, con ventaja, son las mismas palabras contenidas en la base de datos de ejercitación, pero dichas por 100 personas distintas. El comprobador 408 de convergencia compara las plantillas potencialmente IPH para las emisiones vocales a ejercitar con las muestras para las emisiones vocales a probar. En una realización, el comprobador 408 de convergencia se configura para emplear un algoritmo DTD a fin de comprobar la convergencia. El algoritmo DTD empleado puede ser, con ventaja, la técnica descrita en la obra de Lawrence Rabiner y Biing-Hwang Juang, Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 200-238 (1993) y, anteriormente, con referencia a la Fig. 2.
En una realización el comprobador 408 de convergencia está configurado para analizar tanto la precisión de los resultados, para todas las palabras en la base de datos, como la varianza de la base de datos con respecto a la plantilla potencialmente IPH. La varianza se comprueba primero y, si la varianza cae por debajo de un valor umbral predefinido, se comprueba entonces la precisión. La varianza, con ventaja, se calcula por segmento y luego se suma para dar un valor general de varianza. En una realización específica, la varianza se obtiene calculando el error cuadrático medio para la mejor coincidencia de las cuatro agrupaciones. La técnica del error cuadrático medio es bien conocida en la técnica. La prueba de convergencia se declara precisa si la emisión vocal de la base de datos de prueba coincide con las plantillas potencialmente IPH generadas por la base de datos de ejercitación (es decir, si el reconocimiento es correcto para todas las palabras en la base de datos).
La plantilla potencialmente IPH también se suministra desde el cuantizador vectorial 406 a la lógica 410 de segmentación de voz en K medias. La lógica 410 de segmentación de voz en K medias también recibe las muestras de ejercitación, repartidas, con ventaja, en tramas. Después de que el comprobador 408 de convergencia ha realizado una primera prueba de convergencia, los resultados, tanto para la varianza como para la precisión, pueden caer por debajo de valores de umbral predefinidos para la varianza y la precisión. En una realización, si los resultados, tanto de la varianza como de la precisión, caen por debajo de los valores de umbral predefinidos para la varianza y la precisión, se realiza otra iteración. En consecuencia, el procesador de control instruye a la lógica 410 de segmentación de voz en K medias para llevar a cabo la segmentación en K medias sobre las muestras de ejercitación, generando por ello tramas de voz segmentadas, según se describe más adelante. Según la segmentación de voz en K medias, las muestras de ejercitación se comparan con la plantilla potencialmente IPH, con ventaja, con una técnica DTD, generando por ello un camino óptimo, según se describe anteriormente con referencia a la Fig. 2. Las muestras de ejercitación se segmentan luego según el camino óptimo. Por ejemplo, las primeras cinco tramas de las muestras de ejercitación pueden coincidir con la primera trama de la plantilla potencialmente IPH, las tres tramas siguientes de las muestras de ejercitación pueden coincidir con la segunda trama de la plantilla potencialmente IPH, y las siguientes diez tramas de las muestras de ejercitación pueden coincidir con la tercera trama de la plantilla potencialmente IPH. En este caso, las primeras cinco tramas de las muestras de ejercitación se segmentarían en una trama, las tres tramas siguientes se segmentarían en una segunda trama, y las diez tramas siguientes se segmentarían en una tercera trama. En una realización, la lógica 410 de segmentación de voz en K medias realiza la segmentación en K medias según un ejemplo de técnica de segmentación en K medias descrita en la obra de Lawrence Rabiner y Biing-Hwang Juang, Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 382-384 (1993), que se incorpora aquí en su totalidad por referencia. La lógica 410 de segmentación de voz en K medias suministra entonces las tramas actualizadas de las medias de agrupación al cuantizador vectorial 406, que cuantiza vectorialmente las medias de agrupación y suministra los vectores resultantes (que comprenden la nueva plantilla potencialmente IPH) al comprobador 408 de convergencia, para realizar otra prueba de convergencia. Alguien versado en la técnica apreciaría que este procedimiento de iteración puede continuar tanto como sea necesario para lograr resultados de varianza y precisión por encima de los valores de umbral predefinidos.
\newpage
Una vez que se ha superado la prueba de convergencia, las plantillas potencialmente (ahora definitivamente) IPH pueden emplearse, con ventaja, en un subsistema de reconocimiento de voz, tal como el subsistema de reconocimiento de voz de la Fig. 2. Las plantillas IPH finales se almacenarían en la base de datos 108 de plantillas de la Fig. 2., o se utilizarían en la etapa 206 del diagrama de flujo de la Fig. 3.
En una realización, un subsistema de construcción de plantillas independientes de la persona que habla (no mostrado) lleva a cabo las etapas del procedimiento ilustrado en el diagrama de flujo de la Fig. 6 para construir una plantilla independiente de la persona que habla para una emisión vocal. En la etapa 500 se obtienen muestras de ejercitación de una emisión vocal de una base de datos de ejercitación (no mostrada). La base de datos de ejercitación contiene, con ventaja, un gran número de palabras (p. ej., 100 palabras), cada una de ellas dicha por un gran número de personas que hablan (p. ej., 100 personas que hablan por cada palabra). El flujo de control continúa luego hacia la etapa 502.
En la etapa 502 se lleva a cabo la detección de puntos de terminación sobre las muestras de ejercitación a fin de detectar una emisión vocal. En una realización, la detección de puntos de terminación se realiza según una técnica descrita en la precitada Solicitud Estadounidense con Nº de Serie 09 / 246.414 y, anteriormente, con referencia a la Fig. 2. El flujo de control continúa luego hacia la etapa 504.
En la etapa 504 se lleva a cabo la segmentación de voz por agrupación temporal sobre la emisión vocal detectada, comprimiendo por ello la emisión vocal en segmentos múltiples, estando cada segmento representado por una media. En una realización específica, la emisión vocal se comprime en veinte segmentos, incluyendo cada segmento una media de la agrupación. En una realización, la segmentación de voz por agrupación temporal se lleva a cabo según una técnica descrita en la precitada patente estadounidense Nº 6.278.972 y, anteriormente, con referencia a la Fig. 2. El flujo de control continúa luego hacia la etapa 506.
En la etapa 506, las medias de agrupación para muestras de ejercitación, para todos las personas que hablan, que dicen la misma palabra, se cuantizan vectorialmente. En realizaciones específicas, las medias de agrupación se cuantizan vectorialmente según cualquiera de las diversas técnicas conocidas de CV descritas en la obra de A. Gersho y R. M. Gray, Vector Quantization and Signal Compression ["Cuantización Vectorial y Compresión de Señales"] (1992). En una realización específica, se generan vectores de cuatro agrupaciones. De esta manera, p. ej., cada segmento se representa como cuatro agrupaciones. Cada agrupación representa a cada persona que dice la palabra específica, y hay múltiples agrupaciones por palabra. Según una realización, se generan ochenta vectores (cuatro agrupaciones por veinte segmentos) por plantilla. El flujo de control continúa luego hacia la etapa 510.
En la etapa 508, las muestras de ejercitación obtenidas de una base de datos de prueba (no mostrada) se comprueban en cuanto a convergencia. La base de datos de prueba, con ventaja, contiene las mismas palabras contenidas en la base de datos de ejercitación, cada una de ellas dicha por un gran número de personas que hablan (p. ej., 100 personas que hablan por emisión vocal). El flujo de control continúa luego hacia la etapa 510.
En la etapa 510 los vectores cuantizados se comparan como plantillas potencialmente IPH con las muestras de prueba, a fin de comprobar la convergencia. En una realización, la prueba de convergencia es un algoritmo DTD. El algoritmo DTD empleado, con ventaja, puede ser la técnica descrita en la obra de Lawrence Rabiner y Biing-Hwang Juang, Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 200-238 (1993) y, anteriormente, con referencia a la Fig. 2.
En una realización, la prueba de convergencia de la etapa 510 analiza tanto la precisión de los resultados para todas las palabras en la base de datos, como la varianza de la base de datos con respecto a la plantilla potencialmente IPH. La varianza se comprueba primero y, si la varianza cae por debajo de un valor umbral predefinido, se comprueba entonces la precisión. La varianza se calcula, con ventaja, por cada segmento, y luego se suma para dar un valor general de varianza. En una realización específica, la varianza se obtiene calculando el error cuadrático medio para la mejor coincidencia de las cuatro agrupaciones. La técnica del error cuadrático medio es bien conocida en la técnica. La prueba de convergencia se declara precisa si la plantilla potencialmente IPH generada por la base de datos de prueba coincide con la emisión vocal de la base de datos de ejercitación (es decir, si el reconocimiento es correcto para todas las palabras en la base de datos). El flujo de control continúa luego hacia la etapa 512.
En la etapa 512, si los resultados de la prueba de convergencia de la etapa 510, tanto para la varianza como para la precisión, caen por debajo de valores de umbral predefinidos para la varianza y la precisión, se realiza otra iteración. En consecuencia, se lleva a cabo la segmentación de voz en K medias sobre las muestras de ejercitación. La segmentación de voz en K medias aparea las muestras de ejercitación con la plantilla potencialmente IPH, con ventaja, con una técnica DTD, generando por ello un camino óptimo según se describe anteriormente con referencia a la Fig. 2. Las muestras de ejercitación se segmentan luego según el camino óptimo. En una realización la segmentación de voz en K medias se efectúa según una técnica descrita en la obra de Lawrence Rabiner y Biing-Hwang Juang, Fundamentals of Speech Recognition ["Fundamentos del Reconocimiento de Voz"] 382-384 (1993). El flujo de control vuelve luego a la etapa 506, en la cual las tramas actualizadas de medias de agrupación se cuantizan vectorialmente y, en la etapa 510, se comprueban (como la nueva plantilla potencialmente IPH) en cuanto a la convergencia con las muestras de la base de datos de prueba. Alguien versado en la técnica apreciaría que este procedimiento de iteración puede continuar tanto como sea necesario para lograr resultados de varianza y precisión por encima de los valores de umbral predefinidos.
\newpage
Una vez que la prueba de convergencia se ha superado (es decir, una vez que se alcanzan los valores de umbral), las plantillas potencialmente (ahora definitivamente) IPH pueden utilizarse, con ventaja, en un subsistema de reconocimiento de voz tal como el subsistema de reconocimiento de voz de la Fig. 2. Las plantillas definitivamente IPH se almacenarían en la base de datos 108 de plantillas de la Fig. 2, o se emplearían en la etapa 206 del diagrama de flujo de la Fig. 3.
De esta manera, se han descrito un procedimiento y aparato novedosos y mejorados para construir plantillas de voz para un sistema de reconocimiento de voz independiente de la persona que habla. Aquellos versados en la técnica comprenderían que los datos, instrucciones, comandos, información, señales, bits, símbolos y chips que puedan mencionarse a lo largo de la descripción anterior se representan, con ventaja, por medio de voltajes, corrientes, ondas electromagnéticas, campos o partículas magnéticas, campos o partículas ópticas, o cualquier combinación de los mismos. Los capacitados apreciarían adicionalmente que los diversos bloques lógicos, módulos, circuitos y etapas de algoritmos ilustrativos, descritos con relación a las realizaciones aquí reveladas, pueden implementarse como hardware electrónico, software de ordenador, o combinaciones de ambos. Los diversos componentes, bloques, módulos, circuitos y etapas ilustrativos han sido descritos, generalmente, en términos de su funcionalidad. Que la funcionalidad se implemente como hardware o software depende de la aplicación específica y de las restricciones de diseño impuestas sobre el sistema general. Los artesanos capacitados reconocen la intercambiabilidad del hardware y del software bajo estas circunstancias, y la mejor manera de implementar la funcionalidad descrita para cada aplicación específica. Como ejemplos, los diversos bloques lógicos, módulos, circuitos y etapas de algoritmos ilustrativos descritos con relación a las realizaciones aquí reveladas pueden implementarse o llevarse a cabo con un procesador de señales digitales (PSD), un circuito integrado específico para la aplicación (ASIC), una formación de compuertas programables en el campo (FPGA) u otro dispositivo de lógica programable, compuerta discreta o lógica en transistor, componentes discretos de hardware tales como, p. ej., registros y colas de régimen FIFO, un procesador que ejecuta un conjunto de instrucciones en firmware, cualquier módulo convencional de software programable y un procesador, o cualquier combinación de los mismos diseñada para realizar las funciones aquí descritas. El procesador, con ventaja, puede ser un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estados convencionales. El módulo de software podría residir en memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria EEPROM, registros, disco rígido, un disco extraíble, un CD-ROM o cualquier otra forma de medio de almacenamiento conocida en la técnica. Un ejemplo de procesador, con ventaja, se acopla con el medio de almacenamiento a fin de leer información de, y grabar información en, el medio de almacenamiento. En la alternativa, el medio de almacenamiento puede estar integrado al procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASIC puede residir en un teléfono. En la alternativa, el procesador y el medio de almacenamiento pueden residir en un teléfono. El procesador puede implementarse como una combinación de un PSD y un microprocesador, o como dos microprocesadores conjuntamente con un núcleo de PSD, etc.
De esta manera, se han mostrado y descrito las realizaciones preferidas de la presente invención. Sería patente para alguien medianamente versado en la técnica, sin embargo, que pueden hacerse numerosas alteraciones a las realizaciones aquí reveladas sin apartarse del espíritu o ámbito de la invención. Por lo tanto, la presente invención no debe limitarse, excepto según las siguientes reivindicaciones.

Claims (25)

1. Un procedimiento para crear plantillas de voz, para su empleo en un sistema de reconocimiento de voz independiente de la persona que habla, comprendiendo el procedimiento:
segmentar cada emisión vocal de una primera pluralidad de emisiones vocales, a fin de generar una pluralidad de segmentos agrupados temporalmente para cada emisión vocal, estando cada segmento agrupado temporalmente representado por una media espectral;
cuantizar la pluralidad de medias espectrales para todas las emisiones vocales de la primera pluralidad, a fin de generar una pluralidad de vectores de plantilla;
comparar cada uno de los vectores de plantilla de la pluralidad con una segunda pluralidad de emisiones vocales, a fin de generar al menos un resultado de comparación;
aparear la primera pluralidad de emisiones vocales con la pluralidad de vectores de plantilla si el resultado, o resultados, de comparación supera(n) al menos un valor de umbral predefinido, a fin de generar un resultado de camino óptimo de apareo;
repartir la primera pluralidad de emisiones vocales en el tiempo, según el resultado del camino óptimo de apareo; y
repetir la cuantización, comparación, apareo y partición hasta que el resultado, o resultados, de la comparación no supere(n) ningún valor, o valores, de umbral predefinido(s).
2. El procedimiento de la reivindicación 1, en el cual la comparación comprende calcular una medida de varianza.
3. El procedimiento de la reivindicación 1, en el cual la comparación comprende calcular una medida de precisión.
4. El procedimiento de la reivindicación 1, en el cual la comparación comprende calcular primero una medida de varianza y, luego, si la medida de varianza no supera un primer valor de umbral predefinido, calcular una medida de precisión.
5. El procedimiento de la reivindicación 4, en el cual el apareo comprende aparear la primera emisión vocal con la pluralidad de vectores de plantilla si la medida de varianza supera el primer valor de umbral predefinido, o bien la medida de precisión supera un segundo valor de umbral predefinido.
6. El procedimiento de la reivindicación 1, en el cual la comparación comprende realizar un cálculo de distorsión temporal dinámica.
7. El procedimiento de la reivindicación 1, en el cual el apareo comprende realizar un cálculo de distorsión temporal dinámica.
8. El procedimiento de la reivindicación 1, en el cual el apareo y la partición comprenden realizar un cálculo de segmentación en K medias.
9. El procedimiento de la reivindicación 1, que comprende adicionalmente detectar los puntos de terminación de la primera emisión vocal.
10. Un aparato configurado a fin de crear plantillas de voz, para su empleo en un sistema de reconocimiento de voz independiente de la persona que habla, comprendiendo el aparato:
medios (404) para segmentar cada emisión vocal de una primera pluralidad de emisiones, a fin de generar una pluralidad de segmentos agrupados temporalmente para cada emisión vocal, estando cada segmento agrupado temporalmente representado por una media espectral;
medios (406) para cuantizar la pluralidad de medias espectrales, para todas las emisiones vocales de la primera pluralidad, a fin de generar una pluralidad de vectores de plantilla;
medios (408) para comparar cada uno de la pluralidad de vectores de plantilla con una segunda pluralidad de emisiones vocales, a fin de generar al menos un resultado de comparación;
medios (410) para aparear la primera pluralidad de emisiones vocales con la pluralidad de vectores de plantilla, si el resultado, o resultados, de comparación supera(n) al menos un valor de umbral predefinido, a fin de generar un resultado de camino óptimo de apareo;
\newpage
medios (410) para repartir la primera pluralidad de emisiones vocales en el tiempo, según el resultado del camino óptimo de apareo; y
medios para repetir la cuantización, comparación, apareo y partición, hasta que el resultado, o resultados, de comparación no supere(n) ningún valor, o valores, de umbral predefinido(s).
11. Un aparato según la reivindicación 10, en el cual:
los medios para segmentar comprenden lógica de segmentación;
los medios para cuantizar comprenden un cuantizador acoplado con la lógica de segmentación;
los medios para comparar comprenden un comprobador de convergencia acoplado con el cuantizador; y
los medios para aparear y repartir comprenden lógica de partición acoplada con el cuantizador y el comprobador de convergencia, y
en el cual el cuantizador, el comprobador de convergencia y la lógica de partición están adicionalmente configurados para repetir la cuantización, comparación, apareo y partición hasta que el resultado, o resultados, de comparación no supere(n) ningún valor, o valores, de umbral predefinido(s).
12. El aparato de la reivindicación 11, en el cual el comprobador de convergencia está configurado para realizar un cálculo de distorsión temporal dinámica.
13. El aparato de la reivindicación 11, en el cual la lógica de partición está configurada para realizar un cálculo de distorsión temporal dinámica.
14. El aparato de la reivindicación 11, en el cual la lógica de partición comprende lógica de segmentación de voz en K medias.
15. El aparato de la reivindicación 11, que comprende adicionalmente un detector de puntos de terminación acoplado con la lógica de segmentación, y configurado para detectar puntos de terminación de la primera emisión vocal.
16. Un producto de programa informático almacenado en un medio legible por ordenador, que comprende medios de código de programa legible por ordenador, que representan instrucciones del procesador para causar que un ordenador lleve a cabo todas las etapas de la reivindicación 1 cuando dicho producto se ejecuta en un ordenador.
17. Un aparato configurado a fin de crear plantillas de voz, para su empleo en un sistema de reconocimiento de voz independiente de la persona que habla, comprendiendo el aparato:
un procesador; y
medios adaptados para leer el programa de la reivindicación 16 en un medio de almacenamiento, y para causar la ejecución de dicho programa por dicho procesador.
18. El aparato o producto de programa de la reivindicación 10, 11, 16 o 17, en el cual el resultado, o resultados, de comparación es, o son, una medición de varianza.
19. El aparato o producto de programa de la reivindicación 10, 11, 16 o 17, en el cual el resultado, o resultados, de comparación es, o son, una medición de precisión.
20. El aparato o producto de programa de la reivindicación 10, 11, 16 o 17, en el cual el resultado, o resultados, de comparación es, o son, una medida de varianza y una medida de precisión, y en el cual el conjunto de instrucciones es ejecutable por el procesador para calcular primero la medida de varianza y, luego, si la medida de varianza no supera un primer valor de umbral predefinido, calcular la medida de precisión.
21. El aparato o producto de programa de la reivindicación 20, en el cual el conjunto de instrucciones es adicionalmente ejecutable por el procesador a fin de aparear la primera emisión vocal con la pluralidad de vectores de plantilla, si la medida de varianza supera el primer valor de umbral predefinido, o bien la medida de precisión supera un segundo valor de umbral predefinido.
22. El producto de programa o aparato de la reivindicación 16 o 17, en el cual el conjunto de instrucciones es ejecutable por el procesador para comparar cada uno de la pluralidad de vectores de plantilla con la pluralidad de emisiones vocales, realizando un cálculo de distorsión temporal dinámica.
23. El producto de programa o aparato de la reivindicación 16 o 17, en el cual el conjunto de instrucciones es ejecutable por el procesador a fin de aparear la primera emisión vocal con la pluralidad de vectores de plantilla, realizando un cálculo de distorsión temporal dinámica.
24. El producto de programa o aparato de la reivindicación 16 o 17, en el cual el conjunto de instrucciones es ejecutable por el procesador a fin de repartir la primera emisión vocal, realizando un cálculo de segmentación de voz en K medias.
25. El producto de programa o aparato de la reivindicación 16 o 17, en el cual el conjunto de instrucciones es adicionalmente ejecutable por el procesador a fin de detectar puntos de terminación de la primera emisión vocal.
ES01952681T 2000-07-13 2001-07-11 Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente. Expired - Lifetime ES2275700T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/615,572 US6735563B1 (en) 2000-07-13 2000-07-13 Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US615572 2000-07-13

Publications (1)

Publication Number Publication Date
ES2275700T3 true ES2275700T3 (es) 2007-06-16

Family

ID=24465970

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01952681T Expired - Lifetime ES2275700T3 (es) 2000-07-13 2001-07-11 Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente.

Country Status (13)

Country Link
US (1) US6735563B1 (es)
EP (1) EP1301919B1 (es)
JP (1) JP4202124B2 (es)
KR (1) KR100766761B1 (es)
CN (1) CN1205601C (es)
AT (1) ATE345562T1 (es)
AU (1) AU2001273410A1 (es)
BR (1) BR0112405A (es)
DE (1) DE60124551T2 (es)
ES (1) ES2275700T3 (es)
HK (1) HK1056427A1 (es)
TW (1) TW514867B (es)
WO (1) WO2002007145A2 (es)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
DE10127559A1 (de) 2001-06-06 2002-12-12 Philips Corp Intellectual Pty Benutzergruppenspezifisches Musterverarbeitungssystem
TW541517B (en) * 2001-12-25 2003-07-11 Univ Nat Cheng Kung Speech recognition system
KR100533601B1 (ko) * 2002-12-05 2005-12-06 베스티안파트너스(주) 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
WO2005026043A2 (en) 2003-07-29 2005-03-24 Intelligent Energy, Inc. Methods for providing thin hydrogen separation membranes and associated uses
US7389233B1 (en) * 2003-09-02 2008-06-17 Verizon Corporate Services Group Inc. Self-organizing speech recognition for information extraction
KR100827074B1 (ko) * 2004-04-06 2008-05-02 삼성전자주식회사 이동 통신 단말기의 자동 다이얼링 장치 및 방법
US7914468B2 (en) * 2004-09-22 2011-03-29 Svip 4 Llc Systems and methods for monitoring and modifying behavior
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
CN1963918A (zh) * 2005-11-11 2007-05-16 株式会社东芝 说话人模板的压缩、合并装置和方法,以及说话人认证
US8612229B2 (en) 2005-12-15 2013-12-17 Nuance Communications, Inc. Method and system for conveying an example in a natural language understanding application
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
US20070276668A1 (en) * 2006-05-23 2007-11-29 Creative Technology Ltd Method and apparatus for accessing an audio file from a collection of audio files using tonal matching
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8239190B2 (en) 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
TWI349266B (en) * 2007-04-13 2011-09-21 Qisda Corp Voice recognition system and method
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
US20120168331A1 (en) * 2010-12-30 2012-07-05 Safecode Drug Technologies Corp. Voice template protector for administering medicine
CN102623008A (zh) * 2011-06-21 2012-08-01 中国科学院苏州纳米技术与纳米仿生研究所 声纹识别方法
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
KR101901965B1 (ko) * 2017-01-12 2018-09-28 엘에스산전 주식회사 프로젝트 화면 작성장치
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
CN110706710A (zh) * 2018-06-25 2020-01-17 普天信息技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN109801622B (zh) * 2019-01-31 2020-12-22 嘉楠明芯(北京)科技有限公司 一种语音识别模板训练方法、语音识别方法及装置
CN111063348B (zh) * 2019-12-13 2022-06-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置、设备及计算机存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
CA1261472A (en) 1985-09-26 1989-09-26 Yoshinao Shiraki Reference speech pattern generating method
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
US4855910A (en) * 1986-10-22 1989-08-08 North American Philips Corporation Time-clustered cardio-respiratory encoder and method for clustering cardio-respiratory signals
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
ATE294441T1 (de) 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5337394A (en) * 1992-06-09 1994-08-09 Kurzweil Applied Intelligence, Inc. Speech recognizer
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
JP3336754B2 (ja) * 1994-08-19 2002-10-21 ソニー株式会社 デジタルビデオ信号の記録方法及び記録装置
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
KR0169414B1 (ko) * 1995-07-01 1999-01-15 김광호 복수채널 직렬 접속 제어회로
CN1302427A (zh) * 1997-11-03 2001-07-04 T-内提克斯公司 用于说话者认证的模型自适应系统和方法
US6278972B1 (en) * 1999-01-04 2001-08-21 Qualcomm Incorporated System and method for segmentation and recognition of speech signals
US6266643B1 (en) * 1999-03-03 2001-07-24 Kenneth Canfield Speeding up audio without changing pitch by comparing dominant frequencies
US6510534B1 (en) * 2000-06-29 2003-01-21 Logicvision, Inc. Method and apparatus for testing high performance circuits

Also Published As

Publication number Publication date
US6735563B1 (en) 2004-05-11
CN1205601C (zh) 2005-06-08
KR100766761B1 (ko) 2007-10-17
DE60124551D1 (de) 2006-12-28
JP4202124B2 (ja) 2008-12-24
DE60124551T2 (de) 2007-09-06
JP2004504641A (ja) 2004-02-12
WO2002007145A3 (en) 2002-05-23
CN1441947A (zh) 2003-09-10
ATE345562T1 (de) 2006-12-15
WO2002007145A2 (en) 2002-01-24
BR0112405A (pt) 2003-12-30
EP1301919A2 (en) 2003-04-16
TW514867B (en) 2002-12-21
EP1301919B1 (en) 2006-11-15
KR20030014332A (ko) 2003-02-15
AU2001273410A1 (en) 2002-01-30
HK1056427A1 (en) 2004-02-13

Similar Documents

Publication Publication Date Title
ES2275700T3 (es) Procedimiento y aparato para crear plantillas de voz para un sistema de reconocimiento de voz independiente.
US6671669B1 (en) combined engine system and method for voice recognition
White et al. Speech recognition experiments with linear predication, bandpass filtering, and dynamic programming
EP1316086B1 (en) Combining dtw and hmm in speaker dependent and independent modes for speech recognition
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US6922668B1 (en) Speaker recognition
Burton et al. Isolated-word speech recognition using multisection vector quantization codebooks
US20080052075A1 (en) Incrementally regulated discriminative margins in MCE training for speech recognition
CN111179905A (zh) 一种快速配音生成方法及装置
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US7136815B2 (en) Method for voice recognition
ES2286014T3 (es) Esquema de rechazo de reconocimiento de voz.
Yuan et al. Binary quantization of feature vectors for robust text-independent speaker identification
Kim et al. On approximating line spectral frequencies to LPC cepstral coefficients
Ravinder Comparison of hmm and dtw for isolated word recognition system of punjabi language
US20030036905A1 (en) Information detection apparatus and method, and information search apparatus and method
GB2388947A (en) Method of voice authentication
US20070055502A1 (en) Speech analyzing system with speech codebook
Kumar et al. Text dependent voice recognition system using MFCC and VQ for security applications
KR20230094826A (ko) 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치
Li Speech recognition of mandarin monosyllables
Nair et al. A reliable speaker verification system based on LPCC and DTW
Moore Systems for isolated and connected word recognition
EP0190489B1 (en) Speaker-independent speech recognition method and system
KR20060062287A (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법